ES2266254T3 - Procedimiento de busqueda de una base de datos de audio. - Google Patents

Procedimiento de busqueda de una base de datos de audio. Download PDF

Info

Publication number
ES2266254T3
ES2266254T3 ES01969535T ES01969535T ES2266254T3 ES 2266254 T3 ES2266254 T3 ES 2266254T3 ES 01969535 T ES01969535 T ES 01969535T ES 01969535 T ES01969535 T ES 01969535T ES 2266254 T3 ES2266254 T3 ES 2266254T3
Authority
ES
Spain
Prior art keywords
file
sample
milestone
sound
procedure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES01969535T
Other languages
English (en)
Inventor
Avery Li-Chun Wang
Julius O. Smith Iii
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Landmark Digital Services LLC
Original Assignee
Landmark Digital Services LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Landmark Digital Services LLC filed Critical Landmark Digital Services LLC
Application granted granted Critical
Publication of ES2266254T3 publication Critical patent/ES2266254T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Abstract

Un procedimiento para identificar una muestra de audio, caracterizado por: para la muestra, generar pares de hito / huella de la muestra, en donde cada hito se presenta en una ubicación temporal específica dentro de la muestra de audio, calculándose la ubicación con respecto al contenido de la muestra de audio, y en donde cada huella caracteriza uno o más rasgos de la muestra de audio en, o cerca de, la ubicación específica; para cada uno o más de los ficheros de audio, generar pares de hito / huella del fichero, en donde cada hito aparece en una ubicación temporal específica dentro del fichero de audio, calculándose la ubicación con respecto al contenido del fichero de audio, y en donde cada huella caracteriza uno o más rasgos del fichero de audio en, o cerca de, la ubicación específica; identificar correspondencias esencialmente lineales entre los respectivos pares de hito / huella de la muestra y los pares de hito / huella de ficheros previamente generados; e identificar un fichero ganador como aquél que tiene un número significativo de correspondencias esencialmente lineales.

Description

Procedimiento de búsqueda de una base de datos de audio.
Campo de la invención
Esta invención se refiere, en general, a la recuperación de información basada en su contenido. Más en particular, se refiere al reconocimiento de una señal de audio, incluyendo sonido o música, que está sumamente distorsionada o que contiene un alto nivel de ruido.
Técnica anterior
Hay una necesidad creciente de reconocimiento automático de música o de otras señales de audio, generadas por diversas fuentes. Por ejemplo, los propietarios de obras sujetas a derechos de autor, o los publicistas, están interesados en obtener datos acerca de la frecuencia de transmisión de su material. Los servicios de rastreo de música proporcionan listas de difusión de las principales estaciones de radio en los grandes mercados. Los consumidores desearían identificar canciones o transmisiones publicitarias en la radio, a fin de poder adquirir música nueva e interesante, u otros productos y servicios. Toda clase de reconocimiento de sonido, continuo o a pedido, es ineficiente y onerosa en términos de mano de obra cuando es realizada por seres humanos. Un método automatizado para reconocer música o sonido proporcionaría, por lo tanto, un significativo beneficio a los consumidores, a los artistas y a una gran diversidad de industrias. Según el paradigma de la distribución de música se desplaza desde las compras en tiendas a la descarga a través de Internet, es bastante factible enlazar directamente el reconocimiento de música, implementado por ordenador, con la adquisición por Internet y otros servicios basados en Internet.
Tradicionalmente, el reconocimiento de canciones reproducidas en la radio ha sido realizado apareando las estaciones de radio y las horas a las cuales las canciones se reproducían con las listas de difusión proporcionadas ya sea por las estaciones de radio o por terceras fuentes. Este método está inherentemente limitado sólo a las estaciones de radio para las cuales está disponible la información. Otros métodos se apoyan en la inserción de códigos inaudibles dentro de las señales transmitidas. Las señales insertadas son descodificadas en el receptor a fin de extraer información de identificación acerca de la señal transmitida. La desventaja de este procedimiento es que se requieren dispositivos especiales de descodificación para identificar señales, y sólo pueden identificarse aquellas canciones con códigos insertados.
Todo reconocimiento de audio a gran escala requiere alguna clase de recuperación de audio basada en contenidos, en la cual una señal transmitida no identificada es comparada con una base de datos de señales conocidas a fin de identificar señales de la base de datos, similares o idénticas. Observe que la recuperación de audio basada en contenidos es distinta a la recuperación de audio existente, por medio de motores de búsqueda en Internet, en los cuales sólo se busca el texto de metadatos que rodea a, o que está asociado con, los ficheros de audio. Observe también que, mientras que el reconocimiento de voz es útil para convertir señales de voz en texto, que luego puede indizarse e consultarse empleando técnicas bien conocidas, no es aplicable a la gran mayoría de señales de audio que contienen música y sonidos. De alguna manera, la recuperación de información de audio es análoga a la recuperación de información basada en texto, proporcionada por los motores de búsqueda. En otros casos, sin embargo, el reconocimiento de audio no es análogo: las señales de audio carecen de entidades fácilmente identificables, tales como las palabras, que proporcionen identificadores para la búsqueda y para la indización. De tal manera, los métodos actuales de recuperación de audio indizan las señales de audio por medio de características perceptivas computadas que representan diversas cualidades o rasgos de la señal.
La recuperación de audio basada en contenidos se realiza, típicamente, analizando una señal de consulta, a fin de obtener un cierto número de características representativas, y aplicando luego una medida similar a las características derivadas a fin de localizar ficheros de base de datos que sean lo más similares que sea posible a la señal de consulta. La similitud de los objetos recibidos es necesariamente un reflejo de las características perceptivas seleccionadas. Se dispone en la técnica de un cierto número de procedimientos de recuperación basados en el contenido. Por ejemplo, la Patente Estadounidense Nº 5.210.820, concedida a Kenyon, revela un procedimiento de reconocimiento de señales en el cual las señales recibidas son procesadas y muestreadas para obtener valores de la señal en cada punto de muestreo. Los momentos estadísticos de los valores muestreados se computan luego para generar un vector de características que puede compararse con los identificadores de las señales almacenadas a fin de extraer señales similares. Las Patentes Estadounidenses Nº 4.450.531 y 4.843.562, concedidas ambas a Kenyon et al, revelan procedimientos similares de clasificación de información transmitida, en los cuales se calculan las correlaciones cruzadas entre las señales no identificadas y las señales de referencia almacenadas.
Un sistema para recuperar documentos de audio según la similitud acústica se revela en el artículo de J. T. Foote, "Content-Based Retrieval of Music and Audio" ["Recuperación de Música y de Audio Basada en el Contenido"], en Multimedia Storage and Archiving Systems II, Proc. of SPIE [Sistemas de Almacenamiento y Archivo II, Anales de SPIE], de C.-C.J. Kuo et al, editor, volumen 3229, páginas 138-147, 1997. Los vectores de características se calculan parametrizando cada fichero de audio en coeficientes cepstrales de la escala Mel, y se genera un árbol de cuantización a partir de los datos de parametrización. Para realizar una consulta, se parametriza una señal desconocida a fin de obtener vectores de características que se clasifican luego como extremos terminales del árbol. Se compila un histograma para cada extremo terminal, generando de tal forma un vector N-dimensional que representa la señal desconocida. La distancia entre dos tales vectores da una indicación de la similitud entre dos ficheros de sonido. En este procedimiento, el método de cuantización supervisada reconoce las características distintivas del audio, ignorando a la vez las variaciones sin importancia, basándose en clases en las cuales los datos de aprendizaje son asignados por un ser humano. Según el sistema de clasificación, se escogen como importantes distintos rasgos acústicos. Por ello, este procedimiento es más adecuado para hallar similitudes entre canciones y para clasificar música en clases que para reconocer música.
Un procedimiento para el análisis, el almacenamiento, la recuperación y la segmentación, basados en el contenido, de información de audio, se revela en la Patente Estadounidense Nº 5.918.223, concedida a Blum et al. En este procedimiento, un cierto número de características acústicas, tales como el volumen, los graves, el grado, el realce, el ancho de banda y los coeficientes cepstrales de frecuencia de escala Mel, se miden a intervalos periódicos en cada fichero. Las mediciones estadísticas de las características se toman y se combinan para formar un vector de características. Los ficheros de datos de audio dentro de una base de datos se extraen sobre la base de la similitud de sus vectores de características con el vector de características de un fichero no identificado.
El artículo "Landmark detection for distinctive feature-based speech recognition", S.A. Liu, J.A.S.A., 100(5) Nov. 1996, revela un sistema de reconocimiento de voz que utiliza hitos para guiar la búsqueda de características distintivas.
Un problema clave de todos los procedimientos precedentes de reconocimiento de audio de la tecnología anterior es que tienden a fallar cuando las señales por reconocer están sometidas a distorsión lineal y no lineal, causada, por ejemplo, por ruido de fondo, errores y caídas de la transmisión, interferencia, filtrado limitado por la banda, cuantización, deformación temporal, y compresión digital de la calidad de voz. En los procedimientos de la tecnología anterior, cuando se procesa una muestra de sonido distorsionado para obtener las características acústicas, sólo se halla una fracción de las características derivadas para la grabación original. El vector de características resultante, por lo tanto, no es muy similar al vector de características de la grabación original, y es improbable que pueda llevarse a cabo el reconocimiento correcto. Subsiste una necesidad de un sistema de reconocimiento de sonido que funcione bien bajo condiciones de ruido y distorsión altos.
Otro problema con los procedimientos de la tecnología anterior es que son onerosos en cómputos, y no se modifican bien a escala. El reconocimiento en tiempo real, pues, no es posible utilizando procedimientos de la tecnología anterior con grandes bases de datos. En tales sistemas, es inviable tener una base de datos de más de unos pocos cientos o miles de grabaciones. El tiempo de búsqueda en los procedimientos de la tecnología anterior tiende a crecer linealmente con el tamaño de la base de datos, haciendo que la modificación a escala de millones de grabaciones sonoras sea económicamente inviable. Los procedimientos de Kenyon también requieren grandes bancos de hardware especializado de procesamiento de señales digitales.
Los procedimientos comerciales existentes con frecuencia tienen requisitos estrictos sobre la muestra de entrada para poder realizar el reconocimiento. Por ejemplo, requieren que se muestree la canción entera, o al menos 30 segundos de la canción, o requieren que la canción sea muestreada desde el comienzo. También tienen dificultades para reconocer canciones múltiples mezcladas entre sí en un único flujo. Todas estas desventajas hacen inviables los procedimientos de la tecnología anterior para su empleo en muchas aplicaciones prácticas.
Objetos y ventajas
En consecuencia, es un objeto principal de la presente invención proporcionar un procedimiento para reconocer una señal de audio sometida a un alto nivel de ruido y de distorsión.
Es un objeto adicional de la invención proporcionar un procedimiento de reconocimiento que pueda ser llevado a cabo en tiempo real, basado sólo en unos pocos segundos de la señal a identificar.
Es otro objeto de la invención proporcionar un procedimiento de reconocimiento que pueda reconocer sonidos basándose en muestras provenientes de prácticamente cualquier posición dentro del sonido, no solo del comienzo.
Es un objeto adicional de la invención proporcionar un procedimiento de reconocimiento que no requiera que las muestras de sonido estén codificadas o correlacionadas con estaciones de radio o listas de difusión específicas.
Es un objetivo adicional de la invención proporcionar un procedimiento de reconocimiento que pueda reconocer cada una de las múltiples grabaciones de sonido mezcladas entre sí en un único flujo.
Es otro objeto de la invención proporcionar un sistema de reconocimiento de sonido en el cual el sonido desconocido pueda suministrarse al sistema desde cualquier entorno, por medio de prácticamente cualquier procedimiento conocido.
Resumen
Estos objetos y ventajas son logrados por un procedimiento, según lo reivindicado en la reivindicación 1, para reconocer una muestra de cierto medio, tal como una muestra de audio, dado un índice de base de datos de un gran número de ficheros de medios conocidos. El índice de la base de datos contiene huellas que representan características en ubicaciones particulares de los ficheros de medios indizados. La muestra de medios desconocida se identifica por un fichero de medios en la base de datos (el fichero de medios ganador) cuyas ubicaciones relativas de huellas coinciden lo más estrechamente posible con las ubicaciones relativas de las huellas de la muestra. En el caso de los ficheros de audio, la evolución temporal de las huellas del fichero ganador coincide con la evolución temporal de las huellas en la muestra.
El procedimiento se implementa, preferiblemente, en un sistema informático distribuido, y contiene las siguientes etapas: determinar un conjunto de huellas en ubicaciones específicas de la muestra; localizar huellas coincidentes en el índice de la base de datos; generar correspondencias entre ubicaciones en la muestra y ubicaciones en el fichero que tiene huellas equivalentes; e identificar ficheros de medios para los cuales un número significativo de las correspondencias está vinculado de manera esencialmente lineal. El fichero que tenga el mayor número de correspondencias linealmente vinculadas es considerado el fichero de medios ganador. Un procedimiento para identificar ficheros con un gran número de correspondencias es llevar a cabo el equivalente de escanear una línea diagonal en un gráfico de dispersión generado a partir de los pares de correspondencias. En una realización, la identificación de los ficheros de medios con un gran número de correspondencias lineales implica buscar sólo un primer subconjunto de los ficheros de medios. Los ficheros en el primer subconjunto tienen una mayor probabilidad de ser identificados que los ficheros que no están en el primer subconjunto. La probabilidad de identificación se basa, preferiblemente, en medidas de la frecuencia empírica o de la reciente ocurrencia de las identificaciones previas, junto con proyecciones a priori de la frecuencia de identificación. Si no se identifica ningún fichero de medios en el primer subconjunto, se rastrea entonces el segundo subconjunto, que contiene los ficheros restantes. Alternativamente, los ficheros pueden clasificarse según la probabilidad, y rastrearse según el orden de categorización. La búsqueda se termina cuando se halla un fichero.
Preferiblemente, las ubicaciones específicas dentro de la muestra se calculan de manera reproducible, según la muestra. Tales ubicaciones calculables de manera reproducible se llaman "hitos". Las huellas son, preferiblemente, valores numéricos. En una realización, cada huella representa un cierto número de características de la muestra de medios en cada ubicación, o ligeramente desplazada a partir de la ubicación.
El procedimiento es especialmente útil para reconocer muestras de audio, en cuyo caso las ubicaciones específicas son instantes dentro de la muestra de audio. Estos instantes tienen lugar, por ejemplo, en los máximos locales de las normas Lp espectrales de la muestra de audio. Las huellas pueden calcularse por medio de cualquier análisis de la muestra de audio, y son preferiblemente invariables con respecto a la dilatación temporal de la muestra. Los ejemplos de huellas incluyen huellas de tajadas espectrales, huellas multitajada, coeficientes de LPC, coeficientes cepstrales y componentes de frecuencia de los picos del espectrograma.
La presente invención brinda también un sistema para implementar el procedimiento precedente, que contiene un objeto generador de hitos para calcular las ubicaciones específicas, un objeto generador de huellas para calcular las huellas, un índice de base de datos que contiene las ubicaciones de ficheros y las huellas para los ficheros de medios, y un objeto generador de análisis. El objeto generador de análisis implementa el procedimiento ubicando las huellas coincidentes en el índice de la base de datos, generando correspondencias y analizando las correspondencias a fin de seleccionar el fichero de medios ganador.
También se proporciona un dispositivo de almacenamiento de programas, accesible desde un ordenador, que realiza tangiblemente un programa de instrucciones ejecutable por el ordenador a fin de llevar a cabo las etapas de procedimiento para el procedimiento precedente.
Además, la invención proporciona un procedimiento para crear un índice de un cierto número de ficheros de audio en una base de datos, que contiene las siguientes etapas: cálculo de un conjunto de huellas en ubicaciones específicas de cada fichero; y almacenamiento de las huellas, las ubicaciones y los identificadores de los ficheros en una memoria. Una huella, una ubicación y un identificador correspondientes se asocian en la memoria a fin de formar una triplete. Preferiblemente, las ubicaciones, que pueden ser instantes dentro del fichero de audio, se calculan en correspondencia con el fichero, y son reproducibles. Por ejemplo, los instantes pueden tener lugar en los máximos locales de las normas Lp espectrales del fichero de audio. En algunos casos, cada huella, que es, preferiblemente, un valor numérico, representa un cierto número de características del fichero cerca de la ubicación específica. Las huellas pueden calcularse a partir de cualquier análisis o procesamiento de señales digitales del fichero de audio. Los ejemplos de huellas incluyen huellas de tajadas espectrales, huellas multitajada, coeficientes de LPC, coeficientes cepstrales, componentes de frecuencia de picos del espectrograma y picos enlazados del espectrograma.
Finalmente, la invención proporciona procedimientos para identificar muestras de audio, que incorporan huellas invariables por dilatación temporal, y diversas búsquedas jerárquicas.
Breve descripción de las figuras
La Fig. 1 es un diagrama de flujo de un procedimiento de la invención para reconocer una muestra de sonido.
La Fig. 2 es un diagrama de bloques de un ejemplo de sistema informático distribuido para implementar el procedimiento de la Fig. 1.
La Fig. 3 es un diagrama de flujo de un procedimiento para construir un índice de base de datos de ficheros de sonidos empleados en el procedimiento de la Fig. 1.
La Fig. 4 ilustra esquemáticamente los hitos y las huellas calculadas para una muestra de sonido.
La Fig. 5 es un gráfico de normas L4 para una muestra de sonido, que ilustra la selección de hitos.
La Fig. 6 es un diagrama de flujo de una realización alternativa para construir un índice de base de datos de ficheros de sonido empleados en el procedimiento de la Fig. 1.
Las Figs. 7A-7C muestran un espectrograma, con indicación de puntos salientes y de puntos salientes enlazados.
Las Figs. 8A-8C ilustran conjuntos de índices, una lista de índices y una lista del índice maestro del procedimiento de la Fig. 3.
Las Figs. 9A-9C ilustran una lista de índices, una lista de candidatos y una lista de dispersión del procedimiento de la Fig. 1.
Las Figs. 10A-10B son gráficos de dispersión que ilustran la identificación correcta y la falta de identificación, respectivamente, de una muestra de sonido desconocido.
Descripción detallada
La presente invención proporciona un procedimiento para reconocer una muestra de medios exógenos, dada una base de datos que contiene un gran número de ficheros de medios conocidos. También proporciona un procedimiento para generar un índice de base de datos que permite una búsqueda eficiente utilizando el procedimiento de reconocimiento de la invención. Mientras que la siguiente exposición se refiere, principalmente, a datos de audio, ha de entenderse que el procedimiento de la presente invención puede aplicarse a cualquier tipo de muestras de medios y de ficheros de medios, incluyendo, pero sin limitarse a, el texto, el audio, el vídeo, la imagen, y cualesquiera combinaciones de multimedios de tipos de medios individuales. En el caso del audio, la presente invención es especialmente útil para reconocer muestras que contengan altos niveles de distorsión lineal y no lineal, causada, por ejemplo, por ruidos de fondo, errores de transmisión y tramos de silencio, interferencia, filtrado limitado por banda, cuantización, deformación temporal, y compresión digital de calidad de voz. Como se hará evidente a partir de la descripción siguiente, la invención funciona bajo tales condiciones porque puede reconocer correctamente una señal distorsionada, incluso si sólo una pequeña fracción de las características calculadas sobrevive a la distorsión. Cualquier tipo de audio, incluyendo el sonido, la voz, la música, o las combinaciones de tipos, puede ser reconocido por la presente invención. Los ejemplos de muestras de audio incluyen música grabada, programas transmitidos por radio y anuncios.
Según se utiliza aquí, una muestra de medios exógenos es un segmento de datos de medios de cualquier tamaño, obtenido de una gran variedad de fuentes, según se describe a continuación. A fin de que pueda efectuarse el reconocimiento, la muestra debe ser una versión de parte de un fichero de medios indizado en una base de datos utilizada por la presente invención. El fichero de medios indizado puede concebirse como una grabación original, y la muestra, como una versión, distorsionada y/o abreviada, de la grabación original. Típicamente, la muestra corresponde sólo a una pequeña porción del fichero indizado. Por ejemplo, el reconocimiento puede realizarse sobre un segmento de diez segundos de una canción de cinco minutos, indizada en la base de datos. Aunque el término "fichero" se emplea para describir la entidad indizada, la entidad puede estar en cualquier formato para el cual puedan obtenerse los valores necesarios (descritos a continuación). Además, no hay ninguna necesidad de almacenar o de tener acceso al fichero después de que se han obtenido los valores.
Un diagrama de bloques, que ilustra conceptualmente las etapas generales de un procedimiento 10 de la presente invención, se muestra en la Fig. 1. Las etapas individuales se describen a continuación más detalladamente. El procedimiento identifica un fichero de medios ganador, un fichero de medios cuyas ubicaciones relativas de huellas características coinciden en mayor grado con las ubicaciones relativas de las mismas huellas de la muestra exógena. Después de que se ha capturado una muestra exógena en la etapa 12, los hitos y las huellas se calculan en la etapa 14. Los hitos aparecen en ubicaciones específicas, p. ej., instantes temporales, dentro de la muestra. La ubicación dentro de la muestra de los hitos está preferiblemente determinada por la misma muestra, es decir, depende de las cualidades de la muestra, y es reproducible. Es decir, se calculan los mismos hitos para la misma señal cada vez que se repite el proceso. Para cada hito, se obtiene una huella que caracteriza uno o más rasgos de la muestra en, o cerca de, el hito. La cercanía de un rasgo a un hito está definida por el procedimiento empleado de determinación de huellas. En algunos casos, se considera que un rasgo está cerca de un hito si corresponde claramente al hito y no a un hito anterior o subsiguiente. En otros casos, los rasgos corresponden a múltiples hitos adyacentes. Por ejemplo, las huellas textuales pueden ser cadenas de palabras, las huellas de audio pueden ser componentes espectrales, y las huellas de imágenes pueden ser valores pixelados de colores RGB. Dos realizaciones generales de la etapa 14 se describen a continuación: una en la cual los hitos y huellas se calculan secuencialmente, y una en la cual se calculan simultáneamente.
En la etapa 16, las huellas de muestra se emplean para recuperar conjuntos de huellas coincidentes almacenadas en un índice 18 de base de datos, en los cuales las huellas coincidentes están asociadas a hitos e identificadores de un conjunto de ficheros de medios. El conjunto de identificadores de ficheros y valores de hitos recuperados se utiliza luego para generar los pares de correspondencias (etapa 20), que contienen los hitos de la muestra (calculados en la etapa 14) y los hitos de ficheros recuperados, en los cuales se calcularon las mismas huellas. Los pares de correspondencias calculados se clasifican luego según el identificador de canción, generando conjuntos de correspondencias entre hitos de muestras e hitos de ficheros para cada fichero relevante. Cada conjunto es examinado buscando la alineación entre los hitos de fichero y los hitos de muestra. Esto es, se identifican correspondencias lineales en los pares de hitos, y el conjunto se califica según el número de pares que estén linealmente vinculados. Tiene lugar una correspondencia lineal cuando un gran número de ubicaciones correspondientes de muestra y de ubicaciones de ficheros puede describirse, esencialmente, con la misma ecuación lineal, dentro de una tolerancia admitida. Por ejemplo, si las pendientes de un cierto número de ecuaciones, que describen un conjunto de pares de correspondencias, varía en \pm 5%, entonces se considera que todo el conjunto de correspondencias está linealmente vinculado. Por supuesto, puede seleccionarse cualquier tolerancia adecuada. El identificador del conjunto con la mayor puntuación, es decir, con el mayor número de correspondencias linealmente vinculadas, es el identificador del fichero ganador, que se ubica y se genera en la etapa 22.
Como se describe adicionalmente a continuación, el reconocimiento puede llevarse a cabo con un componente temporal proporcional al logaritmo del número de entradas en la base de datos. El reconocimiento puede llevarse a cabo, esencialmente, en tiempo real, incluso con una base de datos muy grande. Es decir, una muestra puede ser reconocida según se está recuperando, con un pequeño desfase temporal. El procedimiento puede identificar un sonido basándose en segmentos de entre 5 y 10 segundos, e incluso de hasta entre 1 y 3 segundos. En una realización preferida, el análisis de hitos y de huellas, en la etapa 14, se realiza en tiempo real, según la muestra está siendo capturada en la etapa 12. Las consultas a la base de datos (etapa 16) se llevan a cabo según se va disponiendo de las huellas de la muestra, y los resultados de la correspondencia se acumulan y se examinan periódicamente, buscando correspondencias lineales. De esta manera, todos las etapas del procedimiento tienen lugar simultáneamente, y no en el estilo lineal secuencial sugerido en la Fig. 1. Observe que el procedimiento es parcialmente análogo a un motor de búsqueda de texto: un usuario despacha una muestra de consulta, y se devuelve un fichero correspondiente, indizado en la base de datos.
El procedimiento, típicamente, se implementa en forma de software que se ejecuta sobre un sistema informático, con las etapas individuales implementadas, de manera sumamente eficiente, como módulos de software independientes. De esta manera, puede considerarse que un sistema que implementa la presente invención consiste en un objeto de determinación de hitos y de huellas, una base de datos indizada y un objeto analizador para buscar en el índice de la base de datos, calcular correspondencias e identificar el fichero ganador. En el caso de determinación secuencial de hitos y de huellas, el objeto de determinación de hitos y de huellas puede considerarse como dos objetos distintos de determinación de hitos y de huellas. El código de instrucciones de ordenador para los distintos objetos se almacena en una memoria de uno o más ordenadores, y es ejecutado por uno o más procesadores de ordenador. En una realización, los objetos de código se concentran en un único sistema informático, tal como un ordenador personal basado en hardware de Intel, o bien otras estaciones de trabajo. En una realización preferida, el procedimiento es implementado por una agrupación en red de unidades centrales de procesamiento (UCP), en las cuales distintos objetos de software son ejecutados por distintos procesadores, a fin de distribuir la carga de trabajo informático. Alternativamente, cada UCP puede tener una copia de todos los objetos de software, lo que permite una red homogénea de elementos idénticamente configurados. En esta última configuración, cada UCP tiene un subconjunto del índice de la base de datos, y es responsable de buscar su propio subconjunto de ficheros de medios.
Aunque la invención no está limitada a ningún sistema de hardware en particular, un ejemplo de una realización preferida de un sistema informático distribuido 30 se ilustra esquemáticamente en la Fig. 2. El sistema 30 contiene una agrupación de procesadores 32a-32f basados en Linux, conectados por una arquitectura 34 de bus multiprocesador, o por un protocolo de red tal como el protocolo Beowulf de cálculo de agrupaciones, o por una mezcla de los dos. En tal disposición, el índice de la base de datos se almacena, preferiblemente, en una memoria de acceso aleatorio (RAM) en al menos un extremo 32a en la agrupación, garantizando que la búsqueda de huellas se realiza muy rápidamente. Los extremos encargados de los cálculos, correspondientes a los otros objetos, tales como los extremos 32c y 32f de determinación de hitos, los extremos 32b y 32e de determinación de huellas, y el extremo 32d de rastreo de alineaciones, no requieren tanta memoria RAM en bruto como el extremo o extremos 32a que dan soporte al índice de la base de datos. El número de extremos encargados de los cálculos, asignados a cada objeto, puede, por lo tanto, modificarse a escala según la necesidad, de manera tal que ningún objeto individual se convierta en un cuello de botella. La red encargada de los cálculos, por lo tanto, es sumamente paralelizable, y puede procesar adicionalmente múltiples consultas simultáneas de reconocimiento de señales que estén distribuidas entre los recursos informáticos disponibles. Observe que esto posibilita aplicaciones en las cuales grandes números de usuarios pueden solicitar el reconocimiento y recibir resultados en tiempo aproximadamente real.
En una realización alternativa, ciertos objetos funcionales están más estrechamente acoplados entre sí, estando a la vez menos estrechamente acoplados con otros objetos. Por ejemplo, el objeto de determinación de hitos y de huellas puede residir en una ubicación físicamente separada del resto de los objetos encargados de los cálculos. Un ejemplo de esto es una asociación estrecha de los objetos de determinación de hitos y de huellas con el proceso de captura de señales. En esta disposición, el objeto de determinación de hitos y de huellas puede incorporarse como hardware o software adicional empotrado, por ejemplo, en un teléfono móvil, un explorador del Protocolo de Aplicaciones Inalámbricas (WAP), una agenda electrónica (PDA) u otro terminal remoto, tal como el extremo cliente de un motor de búsqueda de audio. En un servicio de búsqueda de audio basado en Internet, tal como un servicio de identificación de contenido, el objeto determinante de hitos y de huellas puede incorporarse a la aplicación exploradora cliente como un conjunto vinculado de instrucciones de software, o como un módulo acoplable de software, tal como una biblioteca de enlace dinámico (DLL) de Microsoft. En estas realizaciones, el objeto combinado de captura de señales, determinación de hitos y de huellas constituye el extremo cliente del servicio. El extremo cliente envía un resumen, extraído de las características, de la muestra de señal capturada, que contiene pares de hitos y de huellas, al extremo servidor, el cual realiza el reconocimiento. El envío de este resumen extraído de las características al servidor, en lugar de la señal capturada en bruto, es ventajoso, porque la magnitud de datos se reduce enormemente, a menudo en un factor de 500 o más. Tal información puede enviarse en tiempo real por un canal lateral de bajo ancho de banda, junto con, o en lugar de, por ejemplo, un flujo de audio transmitido al servidor. Esto permite la realización de la invención sobre redes públicas de comunicación, que ofrecen anchos de banda relativamente reducidos a cada usuario.
Se describirá ahora en detalle el procedimiento con referencia a muestras de audio y a ficheros de audio indizados en una base de datos de sonidos. El procedimiento consiste en dos componentes generales, la construcción del índice de la base de datos de sonidos y el reconocimiento de muestras.
Construcción del índice de la base de datos
Antes de que pueda llevarse a cabo el reconocimiento del sonido, debe construirse un índice de la base de datos de sonidos rastreables. Según se utiliza aquí, una base de datos es cualquier colección indizada de datos, y no se limita a las bases de datos comercialmente disponibles. En el índice de la base de datos, los elementos de datos vinculados se asocian entre sí, y los elementos individuales pueden emplearse para recuperar datos asociados. El índice de la base de datos sonoros contiene un conjunto de índices para cada fichero o grabación en la colección seleccionada o en la biblioteca de grabaciones, que puede incluir voz, música, anuncios, rúbricas de sonar, u otros sonidos. Cada grabación también tiene un único identificador, Identificador_de_sonido. La base de datos de sonidos, en sí misma, no necesariamente almacena los ficheros de audio para cada grabación, pero los Identificadores_de_sonido pueden emplearse para extraer los ficheros de audio de otros sitios. Se espera que el índice de la base de datos sonoros sea muy grande, y que contenga índices para millones e incluso millardos de ficheros. Las nuevas grabaciones, preferiblemente, se añaden incrementalmente al índice de la base de datos.
Un diagrama en bloques de un procedimiento preferido 40 para la construcción del índice rastreable de la base de datos sonoros, según una primera realización, se muestra en la Fig. 3. En esta realización, se calculan primero los hitos, y luego se calculan las huellas en, o cerca de, los hitos. Como será evidente para alguien medianamente avezado en la tecnología, pueden concebirse procedimientos alternativos para construir el índice de la base de datos. En particular, muchas de las etapas enumeradas a continuación son optativas, pero sirven para generar un índice de base de datos que sea rastreado más eficientemente. Si bien la eficiencia de rastreo es importante para el reconocimiento del sonido en tiempo real a partir de grandes bases de datos; las bases de datos pequeñas pueden rastrearse con rapidez relativa, incluso si no han sido óptimamente clasificadas.
A fin de indizar la base de datos sonoros, cada grabación en la colección se somete a un análisis de hitos y de huellas que genera un conjunto de índices para cada fichero de audio. La Fig. 4 ilustra esquemáticamente un segmento de una grabación sonora para la cual se han calculado los hitos y las huellas. Los hitos aparecen en instantes específicos del sonido, y toman valores de unidades temporales desplazadas a partir del comienzo del fichero, mientras que las huellas caracterizan el sonido en, o cerca de, un hito específico. De esta manera, en esta realización, cada hito para un fichero particular es único, mientras que la misma huella puede aparecer numerosas veces dentro de un fichero individual, o de ficheros múltiples.
En la etapa 42, a cada grabación sonora se asigna un hito utilizando procedimientos para hallar ubicaciones distinguibles y reproducibles dentro de la grabación sonora. Un algoritmo preferido de determinación de hitos es capaz de marcar los mismos instantes dentro de una grabación sonora, a pesar de la presencia del ruido y de otra distorsión lineal y no lineal. Algunos procedimientos de determinación de hitos son conceptualmente independientes del proceso de determinación de huellas descrito a continuación, pero pueden escogerse para que optimicen las prestaciones de éste último. La determinación de hitos da como resultado una lista de instantes (hito_{k}) dentro de la grabación sonora en la cual se calculan subsiguientemente las huellas. Un buen método de determinación de hitos marca entre 5 y 10 hitos por segundo de grabación sonora; por supuesto, la densidad de los hitos depende de la magnitud de la actividad dentro de la grabación sonora.
Es posible una gran variedad de técnicas para calcular hitos, todas las cuales están dentro del ámbito de la presente invención. Los procesos técnicos específicos empleados para implementar los métodos de determinación de hitos de la invención son conocidos en la técnica, y no se expondrán en detalle. Una sencilla técnica de determinación de hitos, conocida como la Norma de Potencia, es calcular la potencia instantánea en cada instante posible en la grabación, y seleccionar los máximos locales. Una manera de hacer esto es calcular la envolvente rectificando y filtrando directamente la onda. Otra manera es calcular la transformada (cuadratura) de Hilbert de la señal, y utilizar la suma del cuadrado de las magnitudes de la transformada de Hilbert y de la señal original.
El procedimiento de la Norma de Potencia para la determinación de hitos es bueno para hallar componentes transitorias en la señal sonora. La Norma de Potencia, efectivamente, es un caso especial de la Norma Lp Espectral, más general, en la cual p = 2. La Norma Lp Espectral general se calcula en cada momento a lo largo de la señal sonora, calculando un espectro de tiempo reducido, por ejemplo, por medio de una Transformada Rápida de Fourier (FFT) con ventanas de Hanning. Una realización preferida utiliza una velocidad de muestreo de 8000 Hz, un tamaño de trama FFT de 1024 muestras y un tranco de 64 muestras para cada tajada temporal. La norma Lp para cada tajada temporal se calcula entonces como la suma de la potencia p-ésima de los valores absolutos de los componentes espectrales, tras lo cual, optativamente, se extrae la raíz p-ésima. Igual que antes, los hitos se escogen como los máximos locales de los valores resultantes a lo largo del tiempo. Un ejemplo del procedimiento de la Norma Lp Espectral se muestra en la Fig. 5: un gráfico de la norma L4 como función del tiempo para una señal sonora particular. Las líneas de puntos en los máximos locales indican la ubicación de los hitos escogidos.
Cuando p = \infty, la norma L\infty es, en efecto, la norma máxima. Esto es, el valor de la norma es el valor absoluto del mayor componente espectral en la tajada espectral. Esta norma da como resultado hitos robustos y buenas prestaciones generales de reconocimiento, y es la preferida para la música tonal.
Alternativamente, los hitos espectrales de "multitajada" pueden calcularse tomando la suma de las potencias p-ésimas de los valores absolutos de los componentes espectrales sobre las múltiples tajadas temporales, con desplazamientos fijos o variables entre sí, en lugar de una única tajada. Hallar los máximos locales de esta suma extendida permite la optimización de la localización de las huellas multitajada, descritas a continuación.
Una vez que se han calculado los hitos, se calcula una huella en cada instante de hito en la grabación, en la etapa 44. La huella es generalmente un valor, o un conjunto de valores, que resume un conjunto de características en la grabación en, o cerca de, el instante temporal. En una realización actualmente preferida, cada huella es un valor numérico individual que es una función de refundición de rasgos múltiples. Los tipos posibles de huellas incluyen las huellas de tajada espectral, las huellas multitajada, los coeficientes de LPC y los coeficientes cepstrales. Por supuesto, cualquier tipo de huellas que caracterice la señal, o los rasgos de la señal, cerca de un hito, está dentro del ámbito de la presente invención. Las huellas pueden ser calculadas por cualquier tipo de procesamiento de señales digitales o de análisis de frecuencia de la señal.
Para generar huellas de tajada espectral, se realiza un análisis espectral en la vecindad de cada instante temporal de un hito, a fin de extraer los varios picos espectrales máximos. Un valor sencillo de huella es tan sólo el valor individual de frecuencia del pico espectral más fuerte. El empleo de un pico tan sencillo da como resultado un reconocimiento sorprendentemente bueno en presencia del ruido; sin embargo, las huellas de tajada espectral de frecuencia individual tienden a generar más falsos valores positivos que otros métodos de determinación de huellas, porque no son únicas. El número de falsos valores positivos puede reducirse utilizando huellas que consistan en una función de los dos o tres picos espectrales más fuertes. Sin embargo, puede haber una mayor susceptibilidad al ruido si el segundo pico espectral más fuerte no es lo suficientemente fuerte como para distinguirlo de sus competidores en presencia de ruido. Es decir, el valor calculado de la huella puede no ser lo suficientemente robusto como para ser reproducible de manera fiable. A pesar de esto, las prestaciones de este caso también son buenas.
A fin de aprovechar la evolución temporal de muchos sonidos, se determina un conjunto de tajadas temporales, añadiendo un conjunto de desplazamientos temporales a un instante de hito. En cada tajada temporal resultante, se calcula una huella de tajada espectral. El conjunto resultante de información de huellas se combina luego para formar una huella multitonal o multitajada. Cada huella multitajada es mucho más específica que la huella de tajada espectral individual, porque rastrea la evolución temporal, lo que da como resultado menos falsas coincidencias en la búsqueda del índice de la base de datos, descrita a continuación. Los experimentos indican que, debido a su unicidad aumentada, las huellas multitajada calculadas a partir del pico espectral individual más fuerte en cada una de las dos tajadas temporales dan como resultado un cálculo mucho más rápido (alrededor de 100 veces más rápido) en la búsqueda subsiguiente del índice de la base de datos, pero con algo de degradación en el porcentaje de reconocimiento, en presencia de ruido significativo.
Alternativamente, en lugar de utilizar uno o más desplazamientos fijos a partir de una tajada temporal dada, a fin de calcular una huella multitajada, pueden emplearse desplazamientos variables. El desplazamiento variable con respecto a la tajada escogida es el desplazamiento hasta el próximo hito, o un hito en un cierto entorno de desplazamiento desde el hito de "anclaje" para la huella. En este caso, la diferencia de tiempo entre los hitos también se codifica en la huella, junto con información de multifrecuencia. Añadiendo más dimensiones a las huellas, devienen más específicas y tienen una menor probabilidad de una falsa coincidencia.
Además de los componentes espectrales, pueden extraerse y utilizarse otros rasgos espectrales como huellas. El análisis de codificación predictiva lineal (LPC) extrae los rasgos linealmente predecibles de una señal, tal como los picos espectrales, así como la forma espectral. La LPC es bien conocida en la técnica del procesamiento de señales digitales. Para la presente invención, los coeficientes de LPC de las tajadas de ondas ancladas en las posiciones de hitos pueden emplearse como huellas refundiendo los coeficientes cuantizados de LPC en un valor de índice.
Los coeficientes cepstrales son útiles como medida de periodicidad, y pueden utilizarse para caracterizar señales que son armónicas, tales como las voces o muchos instrumentos musicales. El análisis cepstral es bien conocido en la técnica del procesamiento de señales digitales. Para la presente invención, se refunden juntos un cierto número de coeficientes cepstrales en un índice, y se utilizan como huella.
Una realización alternativa 50, en la cual se calculan simultáneamente hitos y huellas, se muestra en la Fig. 6. Las etapas 42 y 44 de la Fig. 3 son reemplazadas por las etapas 52, 54 y 56. Como se describe a continuación, se calcula una función multidimensional a partir de la grabación sonora en la etapa 52, y se extraen los hitos (54) y las huellas (56) de la función.
En una implementación de la realización de la Fig. 6, se calculan hitos y huellas a partir de un espectrograma de la grabación sonora. Un espectrograma es un análisis de frecuencia temporal de una grabación sonora en la cual se analizan espectralmente las tramas solapadas y dispuestas en ventanas de las muestras sonoras, utilizando, típicamente, una Transformada Rápida de Fourier (FFT). Igual que antes, una realización preferida utiliza una tasa de muestreo de 8000 Hz, un tamaño de trama FFT de 1024 muestras, y un tranco de 64 muestras para cada tajada temporal. Un ejemplo de un espectrograma se muestra en la Fig. 7A. El tiempo está en el eje horizontal, y la frecuencia está en el eje vertical. Cada trama secuencial FFT se apila verticalmente a intervalos correspondientes, igualmente espaciados, a lo largo del eje del tiempo. Un gráfico del espectrograma ilustra la densidad de energía en cada punto de frecuencia temporal; las áreas más oscuras en el gráfico representan la mayor densidad de energía. Los espectrogramas son bien conocidos en la técnica del procesamiento de señales digitales. Para la presente invención, los hitos y huellas pueden obtenerse a partir de los puntos salientes, tales como los máximos locales del espectrograma, marcados con un círculo en el espectrograma de la Fig. 7B. Por ejemplo, se obtienen las coordenadas de tiempo y frecuencia de cada pico, se toma el tiempo a utilizar como hito, y se emplea la frecuencia para calcular la huella correspondiente. Este hito de pico de espectrograma es similar a la norma L\infty, en la cual el valor absoluto máximo de la norma determina la ubicación del hito. En el espectrograma, sin embargo, la búsqueda del máximo local se hace sobre tramos del plano tiempo-frecuencia, en lugar de sobre una tajada temporal entera.
En este contexto, el conjunto de puntos salientes que resultan del análisis de extracción de puntos de una grabación sonora se denomina una constelación. Para una constelación que consiste en máximos locales, un análisis preferido es seleccionar puntos que sean máximos de energía del plano tiempo-frecuencia en una vecindad alrededor de cada punto seleccionado. Por ejemplo, un punto de coordenadas (t_{0},f_{0}) es seleccionado si es el punto de energía máxima dentro de un rectángulo con vértices (t_{0}-T,f_{0}-F), (t_{0}-T,f_{0}+F), (t_{0}+T,f_{0}-F) y (t_{0}+T,f_{0}+F), es decir, un rectángulo con lados de longitud 2T y 2F, con T y F escogidos a fin de proporcionar un número adecuado de puntos de constelación. Los límites del rectángulo también pueden variar de tamaño según el valor de frecuencia. Por supuesto, puede utilizarse una región de cualquier forma. El criterio de máxima energía también puede ponderarse de manera tal que un pico energético que compite en términos de tiempo y frecuencia sea ponderado en relación inversa con respecto a una métrica de distancia en el plano tiempo-frecuencia, es decir, los puntos más distantes tienen una ponderación inferior. Por ejemplo, la energía puede ponderarse como
\frac{S(t,f)}{1 + C_{t} (t - t_{0})^{2} + C_{f} (f - f_{0})^{2}},
donde S(t,f) es el cuadrado del valor de la magnitud del espectrograma en el punto (t,f), y C_{t} y C_{f} son valores positivos (no necesariamente constantes). Son posibles otras funciones de ponderación de distancias. Las restricciones de selección de máximos locales pueden aplicarse a otros métodos de extracción de características de puntos salientes (no máximos), y están dentro del ámbito de la invención.
Este procedimiento da como resultado pares de valores que son muy similares a la huella espectral de frecuencia única descrita anteriormente, con muchas de las mismas propiedades. El procedimiento del tiempo-frecuencia del espectrograma genera más pares de hitos/huellas que el procedimiento de frecuencia única, pero también puede producir muchas falsas coincidencias en la etapa de apareo descrita a continuación. Sin embargo, proporciona una determinación más robusta de hitos y de huellas que la huella espectral de frecuencia única, porque el ruido dominante en la muestra sonora puede no extenderse a todas las partes del espectro en cada tajada. Esto es, hay, muy probablemente, algunos pares de hitos y huellas en partes del espectro que no están afectados por el ruido dominante.
Este procedimiento de determinación de hitos y huellas del espectrograma es un caso especial de los procedimientos de análisis de rasgos que calculan una función multidimensional de la señal sonora, en los cuales una de las dimensiones es el tiempo, y que localizan puntos salientes en los valores funcionales. Los puntos salientes pueden ser máximos locales, mínimos locales, valores con ordenada nula, u otros rasgos distintivos. Los hitos se toman como las coordenadas temporales de los puntos salientes, y las huellas correspondientes se calculan a partir de al menos una de las coordenadas restantes. Por ejemplo, la(s) coordenada(s) no temporal(es) del punto saliente multidimensional puede(n) refundirse entre sí para formar una huella funcional multidimensional.
El procedimiento de desplazamiento variable descrito anteriormente para las huellas espectrales multitajada puede aplicarse al espectrograma o a otras huellas de funciones multidimensionales. En este caso, los puntos en una constelación se vinculan entre sí para formar puntos enlazados, según se ilustra en el espectrograma mostrado en la Fig. 7C. Cada punto en la constelación sirve como un punto de anclaje que define el momento del hito, y los valores de las coordenadas restantes de los otros puntos se combinan para formar la huella enlazada. Los puntos que están cercanos entre sí, por ejemplo, como se define a continuación, se enlazan entre sí para formar huellas más complejas de rasgos compuestos, que pueden distinguirse y buscarse más fácilmente. Como ocurre con las huellas espectrales multitajada, el objetivo de combinar información de múltiples puntos salientes enlazados en una única huella es crear una mayor diversidad de posibles valores de huellas, disminuyendo por ello la probabilidad de una falsa coincidencia, es decir, disminuyendo la probabilidad de que la misma huella describa dos muestras musicales distintas.
En principio, cada uno de los N puntos salientes puede enlazarse con todo otro punto en un método de enlace de dos puntos, produciendo alrededor de N^{2}/2 combinaciones. De manera similar, para un enlace de K puntos, el número de posibles combinaciones resultantes de una constelación es del orden de N^{K}. A fin de evitar tal explosión combinatoria, es deseable restringir la vecindad de puntos que se enlazan entre sí. Una manera de lograr tal restricción es definir una "zona objetivo" para cada punto de anclaje. Un punto de anclaje se enlaza luego con puntos en su zona objetivo. Es posible seleccionar un subconjunto de puntos dentro de la zona objetivo con los cuales enlazarse - no todo punto requiere ser enlazado. Por ejemplo, sólo los puntos asociados a los picos más fuertes en la zona objetivo pueden enlazarse. Una zona objetivo puede tener una forma fija o bien variar según las características del punto de anclaje. Un ejemplo sencillo de una zona objetivo de un punto de anclaje (t_{0},f_{0}) para una constelación de picos de espectrograma es el conjunto de puntos (t,f) en la tira del espectrograma, tales que t está en el intervalo [t_{0}+L,t_{0}+L+W], donde L es el avance temporal y W es el ancho de la zona objetivo. En este método, se permiten todas las frecuencias en la zona objetivo. L o W pueden ser variables, por ejemplo, si se emplea un mecanismo de control de velocidad para modular el número de combinaciones de enlace que se producen. Alternativamente, pueden implementarse restricciones de frecuencia, por ejemplo, restringiendo la zona objetivo de manera tal que la frecuencia f esté en el intervalo [f_{0}-F,f_{0}+F], donde F es un parámetro de acotación. Una ventaja de una restricción de frecuencia es que en sicoacústica se sabe que las melodías tienden a cohesionarse mejor cuando las secuencias de notas tienen frecuencias que están cercanas entre sí. Tal restricción puede permitir prestaciones de reconocimiento más "sicoacústicamente realistas", aunque la modelización de la sicoacústica no es necesariamente un objetivo de esta invención. También es posible considerar la regla opuesta, en la cual f se escoge fuera de la región [f_{0}-F,f_{0}+F]. Esto fuerza el enlace de puntos que son distintos entre sí en frecuencia, evitando, posiblemente, casos en los cuales los artificios de extracción de constelaciones producen secuencias entrecortadas de puntos de valores de tiempo y frecuencia que están cercanos en el tiempo y tienen la misma frecuencia. Como ocurre con otros parámetros de localidad, F no es necesariamente constante y puede, por ejemplo, ser una función de f_{0}.
Al incluir coordenadas temporales de puntos salientes no de anclaje en los valores de huellas, deben emplearse valores temporales relativos para permitir que las huellas sean invariantes en el tiempo. Por ejemplo, las huellas pueden ser una función de (i) valores de coordenadas no temporales y/o (ii) la(s) diferencia(s) de los correspondientes valores de las coordenadas temporales de los puntos salientes. La(s) diferencia(s) temporal(es) puede(n) tomarse, por ejemplo, con respecto al punto de anclaje o como diferencias sucesivas entre los puntos salientes secuenciales en el conjunto enlazado. Los valores de coordenadas y diferencias pueden empaquetarse en campos de bits concatenados a fin de formar la huella refundida. Como será evidente a alguien medianamente versado en la tecnología, existen muchas otras formas de establecer correspondencias entre valores de coordenadas y un valor de huella, y están dentro del ámbito de la presente invención.
Una instanciación concreta de este método utiliza N > 1 picos enlazados del espectrograma con coordenadas (t_{k},f_{k}), k=1,...,N. Luego, (i) se toma el tiempo t_{1} del primer pico como el tiempo del hito, y (ii) las diferencias temporales \Deltat_{k} = t_{k} - t_{1}, k=2,...,N, más las frecuencias f_{k}, k=1,...,N, de los picos enlazados, se refunden entre sí para formar un valor de huella. La huella puede calcularse a partir de todas, o de un subconjunto de, las coordenadas \Deltat_{k} y f_{k} disponibles. Por ejemplo, algunas, o todas, las coordenadas de diferencias temporales pueden omitirse si se desea.
Otra ventaja de utilizar puntos múltiples para formar la huella es que la codificación de la huella puede hacerse invariante con respecto a la dilatación temporal, p. ej., cuando una grabación sonora se reproduce a una velocidad distinta a la velocidad original de grabación. Esta ventaja se aplica tanto al procedimiento del espectrograma como al de la tajada temporal. Observe que en una señal de tiempo dilatado, las diferencias temporales y la frecuencia tienen una relación recíproca (p. ej., la disminución de la diferencia temporal entre dos puntos en un factor de dos duplica la frecuencia). Este procedimiento se aprovecha de ese hecho combinando diferencias temporales y frecuencias, de una manera que excluye la dilatación temporal de la huella.
Por ejemplo, en un caso de picos de un espectrograma de N puntos con valores de coordenadas (t_{k},f_{k}), k=1,...,N, los valores intermedios disponibles para refundirse en una huella son \Deltat_{k} = t_{k} - t_{1}, k=2,...,N, y f_{k}, k=1,...,N. Los valores intermedios pueden hacerse luego invariantes con respecto a la dilatación temporal, tomando una de las frecuencias como frecuencia de referencia, digamos f_{1}, y formando (i) cocientes con las frecuencias restantes y (ii) productos con las diferencias temporales. Por ejemplo, los valores intermedios pueden ser g_{k} = f_{k}/f_{1}, k=2,...,N y s_{k} = \Deltat_{k} f_{1},k=2,...,N. Si la muestra se acelera en un factor \alpha, entonces la frecuencia f_{k} se convierte en \Deltaf_{k}, y la diferencia temporal \Deltat_{k} se convierte en \Deltat_{k}/\alpha, de manera que g_{k} = \Deltaf_{k}/\Deltaf_{1} = f_{k}/f_{1}, y s_{k} = (\Deltat_{k}/\alpha) (\alphaf_{1}) = \Deltat_{k} f_{1}. Estos nuevos valores intermedios se combinan luego utilizando una función para formar un valor de huella refundida que es independiente de la dilatación temporal. Por ejemplo, los valores g_{k} y s_{k} pueden ser refundidos empaquetándolos en campos de bits concatenados.
Alternativamente, en lugar de una frecuencia de referencia, puede utilizarse una diferencia temporal de referencia, p. ej., \Deltat_{2}. En este caso, los nuevos valores intermedios se calculan como (i) los cocientes \Deltat_{k}/\Deltat_{2} de las restantes diferencias temporales, y (ii) los productos \Deltat_{2} f_{k} con las frecuencias. Este caso es equivalente a emplear una frecuencia de referencia, porque los valores resultantes pueden formarse a partir de productos y cocientes de los valores precedentes g_{k} y s_{k}. Los recíprocos de los ratios de frecuencia pueden utilizarse de manera igualmente efectiva; las sumas y diferencias de valores logarítmicos de los valores intermedios originales también pueden sustituir los productos y diferencias, respectivamente. Todo valor de huella independiente de la dilatación temporal, obtenido por medio de tales conmutaciones, sustituciones y permutaciones de operaciones matemáticas, está dentro del ámbito de la invención. Además, pueden emplearse múltiples frecuencias de referencia o diferencias temporales de referencia, que también relativizan las diferencias temporales. El empleo de múltiples frecuencias de referencia o de diferencias temporales de referencia es equivalente al empleo de una única referencia, porque puede lograrse el mismo resultado por la manipulación aritmética de los valores g_{k} y s_{k}.
Volviendo ahora a las Figs. 3 y 6, los análisis de determinación de hitos y huellas, por cualquiera de los procedimientos precedentes, dan como resultado un conjunto de índices para cada Identificador_de_sonido, según se muestra en la Fig. 8A. Un conjunto de índices para una grabación sonora dada es una lista de pares de valores (huella, hito). Cada grabación indizada, típicamente, tiene en el orden de mil pares (huella, hito) en su conjunto de índices. En la primera realización anteriormente descrita, en la cual las técnicas de determinación de hitos y huellas son esencialmente independientes, pueden tratarse como módulos separados e intercambiables. Según el sistema, la calidad de la señal, o el tipo de sonido a reconocer, puede emplearse uno de varios módulos distintos de determinación de hitos o huellas. En efecto, debido a que el conjunto de índices está compuesto simplemente de pares de valores, es posible, y a menudo preferible, utilizar simultáneamente métodos de determinación múltiple de hitos y huellas. Por ejemplo, un método de determinación de hitos y huellas puede ser bueno para detectar patrones tonales únicos, pero deficiente para identificar la percusión, mientras que un algoritmo distinto puede tener los atributos opuestos. El empleo de estrategias múltiples de determinación de hitos/huellas da como resultado una gama más robusta y rica de prestaciones de reconocimiento. Pueden utilizarse conjuntamente distintas técnicas de determinación de huellas, reservando ciertas gamas de valores de huellas para ciertas clases de huellas. Por ejemplo, en un valor de huella de 32 bits, los primeros 3 bits pueden utilizarse para especificar cuáles de los 8 métodos de determinación de huellas están codificando los siguientes 29 bits.
Después de que se han generado conjuntos de índices para cada grabación sonora a indizar en la base de datos de sonidos, se construye un índice de base de datos rastreable, de tal manera que permita búsquedas rápidas (es decir, de tiempos logarítmicos). Esto se logra en la etapa 46 construyendo una lista de tripletes (huella, hito, identificador_de_sonido), obtenidas añadiendo el correspondiente identificador_de_sonido a cada dupla dentro de cada conjunto de índices. Todas tales tripletes, para todas las grabaciones sonoras, se recogen en una gran lista de índices, un ejemplo de la cual se muestra en la Fig. 8B. A fin de optimizar el subsiguiente proceso de búsqueda, la lista de tripletes se clasifica luego con respecto a la huella. Los algoritmos de clasificación rápida son bien conocidos en la técnica, y se exponen en detalle en The Art of Computer Programming, Volume 3: Sorting and Searching [El Arte de Programar Ordenadores, Volumen 3: Clasificación y Búsqueda], de D. E. Knuth, Reading, Massachusetts: Addison-Wesley, 1998, incorporado a la presente por referencia. Los algoritmos de clasificación de altas prestaciones pueden emplearse para clasificar la lista en un tiempo equivalente a N log N, donde N es el número de elementos en la lista.
Una vez que la lista de índices está clasificada, se procesa adicionalmente en la etapa 48, segmentándola de tal manera que cada huella única en la lista se recoge en una nueva lista del índice maestro, un ejemplo de la cual se muestra en la Fig. 8C. Cada elemento en la lista del índice maestro contiene un valor de huella y un puntero a una lista de pares (hito, identificador_de_sonido). Según el número y carácter de los registros indizados, una huella dada puede aparecer cientos de veces, o más, dentro de la colección completa. El reordenamiento de la lista de índices en una lista del índice maestro es optativo, pero ahorra memoria, porque cada valor de huella aparece sólo una vez. También acelera la búsqueda subsiguiente en la base de datos, dado que el número efectivo de elementos en la lista se reduce enormemente, hasta una lista de valores únicos. Alternativamente, la lista del índice maestro puede construirse insertando cada triplete en un árbol B. Existen otras posibilidades para construir la lista del índice maestro, como es sabido por aquellos medianamente versados en la tecnología. La lista del índice maestro se mantiene, preferiblemente, en la memoria del sistema, tal como en memoria DRAM, para un rápido acceso durante el reconocimiento de señales. La lista del índice maestro puede mantenerse en la memoria de un único extremo dentro del sistema, según se ilustra en la Fig. 2. Alternativamente, la lista del índice maestro puede descomponerse en trozos distribuidos entre múltiples extremos de cómputo. Preferiblemente, el índice de la base de datos sonoros mencionado anteriormente es la lista del índice maestro ilustrada en la Fig. 8C.
El índice de la base de datos sonoros se construye, preferiblemente, fuera de línea, y se actualiza incrementalmente según se incorporan nuevos sonidos al sistema de reconocimiento. Para actualizar la lista, pueden insertarse nuevas huellas en la ubicación adecuada en la lista maestra. Si las nuevas grabaciones contienen huellas existentes, los correspondientes pares (hito, identificador_de_sonido) se añaden a las listas existentes para esas huellas.
Sistema de reconocimiento
Utilizando la lista del índice maestro generada según lo anteriormente descrito, el reconocimiento de sonidos se lleva a cabo sobre una muestra sonora exógena, típicamente proporcionada por un usuario interesado en identificar la muestra. Por ejemplo, el usuario oye una nueva canción en la radio y desea conocer el artista y el título de la canción. La muestra puede originarse en cualquier tipo de entorno, tal como una transmisión radial, un disco, un pub, un submarino, un fichero de sonido, un segmento de audio transmitido, o un sistema estéreo, y puede contener ruido de fondo, tramos de silencio o voces. El usuario puede almacenar la muestra de audio en un dispositivo de almacenamiento tal como un contestador, un fichero de ordenador, una grabadora de cinta, o un sistema de correo de voz de teléfono fijo o móvil, antes de proporcionarlo al sistema para su reconocimiento. Basándose en la configuración del sistema y las restricciones del usuario, la muestra de audio se proporciona al sistema de reconocimiento de la presente invención a partir de cualquier número de fuentes analógicas o digitales, tales como un sistema estéreo, un televisor, un reproductor de discos compactos, una transmisión de radio, un contestador, un teléfono fijo, un teléfono móvil, una transmisión en vivo por Internet, el FTP, un fichero de ordenador como anexo de correo electrónico, o cualquier otro medio adecuado para transmitir tal material grabado. Según la fuente, la muestra puede estar en forma de ondas acústicas, ondas de radio, un flujo PCM de audio digital, un flujo de audio digital comprimido (tal como Dolby Digital o MP3), o una transmisión en vivo por Internet. Un usuario interactúa con el sistema de reconocimiento a través de una interfaz estándar tal como un teléfono fijo, un teléfono móvil, un explorador de Internet, o el correo electrónico. La muestra puede ser capturada por el sistema y procesada en tiempo real, o puede reproducirse para su procesamiento a partir de un sonido previamente capturado (p. ej., un fichero de sonido). Durante la captura, la muestra de audio es muestreada digitalmente y enviada al sistema por un dispositivo de muestreo, tal como un micrófono. Según sea el procedimiento de captura, es probable que la muestra sea sometida a una degradación adicional, debida a las limitaciones del canal o del dispositivo de captura de sonido.
Una vez que la señal sonora ha sido convertida en su forma digital, se procesa para su reconocimiento. Como en la construcción de conjuntos de índices para los ficheros de base de datos, los hitos y las huellas se calculan para la muestra utilizando el mismo algoritmo que se empleó para procesar la base de datos de grabaciones sonoras. El procedimiento funciona óptimamente si el procesamiento de una versión sumamente distorsionada del fichero sonoro original produce el conjunto idéntico, o similar, de pares de hitos y huellas que se obtuvo para la grabación original. El conjunto resultante de índices para la muestra sonora es un conjunto de pares de valores analizados, (huella, hito), mostrados en la Fig. 9A.
Dados los pares para la muestra sonora, se busca en el índice de la base de datos a fin de localizar los ficheros potencialmente coincidentes. La búsqueda se lleva a cabo de la siguiente manera: cada par (huella_{k}, hito_{k}) en el conjunto de índices de la muestra desconocida se procesa buscando la huella_{k} en la lista del índice maestro. Los algoritmos de búsqueda rápida en una lista ordenada son bien conocidos en la técnica y se exponen ampliamente en The Art of Computer Programming, Volume 3: Sorting and Searching [El Arte de Programar Ordenadores, Volumen 3: Clasificación y Búsqueda], de D. E. Knuth, Reading, Massachusetts: Addison-Wesley, 1998. Si la huella_{k} se halla en la lista del índice maestro, entonces su lista correspondiente de pares coincidentes (hito*_{j}, identificador_de_sonido_{j}) se copia y se amplía con el hito_{k} para formar un conjunto de tripletes de la forma (hito_{k}, hito*_{j}, identificador_de_sonido_{j}). En esta notación, un asterisco (*) indica un hito de uno de los ficheros indizados en la base de datos, mientras que un hito sin asterisco se refiere a la muestra. En algunos casos, es preferible que las huellas coincidentes no sean necesariamente idénticas, pero que sean similares; por ejemplo, que difieran dentro de un umbral previamente determinado. Las huellas coincidentes, ya sean idénticas o similares, se denominan equivalentes. El identificador_de_sonido_{j} en la triplete corresponde al fichero que tiene el hito marcado con asterisco. De esta manera, cada triplete contiene dos hitos distintos, uno en el índice de la base de datos y uno en la muestra, en los cuales se han calculado huellas equivalentes. Este proceso se repite para todo k que varíe dentro del conjunto de índices de la muestra de entrada. Todas las tripletes resultantes se recogen en una gran lista de candidatos, ilustrada en la Fig. 9B. La lista de candidatos se denomina así porque contiene los identificadores_de_sonido de los ficheros sonoros que, en virtud de sus huellas coincidentes, son candidatos para su identificación con la muestra sonora exógena.
Una vez que se ha compilado la lista de candidatos, se procesa adicionalmente segmentándola según el identificador_de_sonido. Una manera conveniente de hacer esto es clasificar la lista de candidatos por su identificador_de_sonido, o insertarla en un árbol B. Se dispone de un gran número de algoritmos de clasificación en la técnica, como se ha expuesto anteriormente. El resultado de este proceso es una lista de identificadores_de_sonido candidatos, cada uno de los cuales tiene una lista de dispersión de pares de hitos temporales puntuales de la muestra y del fichero, con los identificadores_de_sonido optativamente retirados, (hito_{k}, hito*_{j}), como se muestra en la Fig. 9C. Cada lista de dispersión contiene, por ello, un conjunto de hitos correspondientes, en virtud de estar caracterizados por el valor de la huella equivalente.
La lista de dispersión para cada identificador_de_sonido candidato se analiza luego a fin de determinar si el identificador_de_sonido corresponde a la muestra. Puede emplearse primero una etapa optativa de determinación de umbral a fin de eliminar un número potencialmente alto de candidatos que tienen listas de dispersión muy pequeñas. Obviamente, los candidatos que tengan sólo una entrada en sus listas de dispersión, es decir, sólo una huella en común con la muestra, no corresponden a la muestra. Puede emplearse cualquier número adecuado de umbral, mayor o igual que uno.
Una vez que se ha determinado el número final de candidatos, se localiza el candidato ganador. Si el siguiente algoritmo no localiza un candidato ganador, entonces se devuelve un mensaje de fracaso. Un concepto clave del proceso de apareo es que la evolución temporal en el apareo de sonidos debe seguir una correspondencia lineal, suponiendo que las bases temporales en ambos lados son constantes. Esto es cierto casi siempre, a menos que uno de los sonidos haya sido deliberadamente deformado no linealmente, o sometido a equipos de reproducción defectuosos, tales como una consola de cinta con un problema de irregularidad en la velocidad de reproducción. De esta manera, los pares correctos de hitos (hito_{n},hito*_{n}) en la lista de dispersión de un identificador_de_sonido dado deben tener una correspondencia lineal de la forma
hito*_{n} = m*hito_{n} + desplazamiento,
donde m es la pendiente, que debería estar cerca del uno; hito_{n} es el instante dentro de la muestra exógena; hito*_{n} es el correspondiente instante dentro de la grabación sonora indizada por el identificador_de_sonido; y el desplazamiento es el desplazamiento temporal dentro de la grabación sonora correspondiente al comienzo de la muestra sonora exógena. Los pares de hitos que pueden satisfacer la ecuación anterior para valores particulares de m y del desplazamiento se dicen linealmente relacionados. Obviamente, el concepto de estar linealmente relacionado es sólo válido para más de un par de hitos correspondientes. Observe que esta relación lineal identifica el fichero sonoro correcto con alta probabilidad, excluyendo a la vez pares de hitos externos que no son significativos. Si bien es posible que dos señales distintas contengan un cierto número de huellas idénticas, es muy improbable que estas huellas tengan las mismas evoluciones temporales relativas. El requisito de las correspondencias lineales es una característica clave de la presente invención, y proporciona un reconocimiento significativamente mejor que las técnicas que simplemente cuentan el número total de características en común o que miden la similitud entre las características. En efecto, debido a este aspecto de la invención, los sonidos pueden reconocerse incluso si aparece menos del 1% de las huellas de la grabación original en la muestra sonora exógena, es decir, si la muestra sonora es muy breve o si está significativamente distorsionada.
El problema de determinar si existe una correspondencia para la muestra exógena se reduce así al equivalente de hallar una línea diagonal con pendiente cercana a uno dentro de un gráfico de dispersión de los puntos de hitos de una lista de dispersión dada. Dos ejemplos de gráficos de dispersión se muestran en las Figs. 10A y 10B, con hitos de ficheros sonoros sobre el eje horizontal e hitos de muestras sonoras exógenas sobre el eje vertical. En la Fig. 10A, se identifica una línea diagonal de pendiente aproximadamente igual a uno, que indica que la canción, efectivamente, corresponde a la muestra, es decir, que el fichero de sonido es un fichero ganador. La interceptación en el eje horizontal indica el desplazamiento dentro del fichero de audio donde comienza la muestra. No se halla ninguna línea diagonal estadísticamente significativa en el gráfico de dispersión de la Fig. 10B, lo que indica que el fichero de sonido no corresponde a la muestra exógena.
Hay muchas maneras de hallar una línea diagonal en un gráfico de dispersión, todas las cuales están dentro del ámbito de la presente invención. Ha de entenderse que la frase "localizar una línea diagonal" se refiere a todos los procedimientos que sean equivalentes a localizar una línea diagonal sin producir explícitamente una línea diagonal. Un procedimiento preferido comienza restando m*hito_{n} de ambos lados de la ecuación anterior, para obtener
(hito*_{n} - m*hito_{n}) = desplazamiento.
Suponiendo que m es aproximadamente igual a uno, es decir, suponiendo que no hay dilatación temporal, llegamos a
(hito*_{n} - hito_{n}) = desplazamiento.
El problema de hallar la diagonal se reduce entonces a hallar múltiples pares de hitos para un identificador_de_
sonido dado que se agrupen cerca del mismo valor del desplazamiento. Esto puede lograrse fácilmente restando un hito al otro y recogiendo un histograma de los valores de desplazamiento resultantes. El histograma puede prepararse clasificando los valores de desplazamiento resultantes, utilizando un algoritmo de clasificación rápida o bien creando entradas de arcas con contadores e insertándolas en un árbol B. El arca de desplazamientos ganador en el histograma contiene el mayor número de puntos. Este arca se denomina aquí el pico del histograma. Como el desplazamiento debe ser positivo si la señal sonora exógena está totalmente contenida dentro del fichero sonoro de la biblioteca correcta, los pares de hitos que dan como resultado un desplazamiento negativo pueden excluirse. De manera similar, los desplazamientos más allá del fin del fichero también pueden excluirse. Se toma nota del número de puntos en el arca de desplazamientos ganador del histograma para cada identificador_de_sonido admitido. Este número se convierte en la puntuación para cada grabación sonora. La grabación sonora en la lista de candidatos con la más alta puntuación se escoge como la ganadora. El identificador_de_sonido ganador se revela a un usuario según se describe a continuación para indicar el éxito de la identificación. A fin de evitar la falsa identificación, puede utilizarse una puntuación de umbral mínimo para controlar el éxito del proceso de identificación. Si ningún sonido de biblioteca tiene una puntuación que exceda el umbral, entonces no hay reconocimiento, y así se informa al usuario.
Si la señal sonora exógena contiene múltiples sonidos, entonces puede reconocerse cada sonido individual. En este caso, los múltiples ganadores se localizan en el escaneo de alineación. No es necesario conocer que la señal sonora contiene múltiples ganadores, porque el escaneo de alineación localizará más de un identificador_de_sonido con una puntuación que es mucho más alta que las puntuaciones restantes. El procedimiento de determinación de huellas utilizado muestra, preferiblemente, una buena superposición lineal, para que puedan extraerse huellas individuales. Por ejemplo, un procedimiento de determinación de huellas de espectrograma muestra superposición lineal.
Si la muestra sonora ha sido sometida a dilatación temporal, entonces la pendiente no es idénticamente igual a uno. El resultado de suponer una pendiente igual a la unidad en una muestra temporalmente dilatada (suponiendo que las huellas son invariantes para dilataciones temporales) es que los valores de desplazamiento calculados no son iguales. Una manera de abordar esto y de asimilar una moderada dilatación temporal es aumentar el tamaño de las arcas de desplazamiento, es decir, considerar como iguales una gama de desplazamientos. En general, si los puntos no caen sobre una línea recta, entonces los valores de desplazamiento calculados son significativamente distintos, y un leve aumento en el tamaño de las arcas de desplazamiento no produce un número significativo de falsos valores positivos.
Son posibles otras estrategias de búsqueda de líneas. Por ejemplo, puede emplearse una transformación de Radon o de Hough, descrita en "Hough Transform for Line Recognition" ["Transformada de Hough para el Reconocimiento de Líneas"] de T. Risse, en Computer Vision and Image Processing [Visión por Ordenador y Procesamiento de Imágenes], 46,.327-345, 1989, que son bien conocidas en las tecnologías de visión por máquinas e investigación gráfica. En la transformada de Hough, cada punto del gráfico de dispersión se proyecta sobre una línea en el espacio de pares (pendiente, desplazamiento). El conjunto de puntos en el gráfico de dispersión se proyecta así sobre el espacio dual de líneas en la transformada de Hough. Los picos en la transformada de Hough corresponden a las intersecciones de las líneas de parámetros. El pico global de tal transformada de un gráfico de dispersión dado indica el mayor número de líneas intersecantes en la transformada de Hough y, por ello, el mayor número de puntos colineales. Para permitir una variación de velocidad del 5%, por ejemplo, la construcción de la transformada de Hough puede restringirse a la región donde el parámetro de la pendiente varía entre 0,95 y 1,05, ahorrando así algún esfuerzo de cálculo.
Búsqueda jerárquica
Además de la etapa de determinación de umbral que elimina candidatos con listas de dispersión muy pequeñas, pueden hacerse mejoras adicionales a la eficiencia. En una tal mejora, el índice de la base de datos se segmenta en al menos dos partes, según la probabilidad de ocurrencia, y sólo se buscan inicialmente los ficheros de sonido con la más alta probabilidad de corresponder a la muestra. La división puede tener lugar en diversas etapas del proceso. Por ejemplo, la lista del índice maestro (Fig. 8C) puede segmentarse en dos o más partes, de manera tal que las etapas 16 y 20 se llevan primero a cabo sobre uno de los segmentos. Esto es, los ficheros correspondientes a las huellas coincidentes se extraen sólo de una fracción del índice de la base de datos, y se genera una lista de dispersión a partir de esta fracción. Si no se localiza un fichero sonoro ganador, entonces se repite el proceso sobre el resto del índice de la base de datos. En otra implementación, se extraen todos los ficheros del índice de la base de datos, pero el escaneo de la línea diagonal se lleva a cabo por separado sobre los distintos segmentos.
Utilizando esta técnica, el escaneo de la línea diagonal, una parte muy onerosa en cálculos del procedimiento, se realiza primero sobre un pequeño subconjunto de los ficheros de sonido en el índice de la base de datos. Debido a que el escaneo de la línea diagonal tiene un componente temporal que es aproximadamente lineal con respecto al número de ficheros de sonido que se escanean, la realización de tal búsqueda jerárquica es sumamente conveniente. Por ejemplo, supongamos que el índice de la base de datos de sonido contiene huellas que representan a 1.000.000 de ficheros de sonido, pero que sólo alrededor de 1000 ficheros corresponden a las consultas de muestras con alta frecuencia, p. ej., el 95% de las consultas son para 1000 ficheros, mientras que sólo el 5% de las consultas son para los restantes 999.000 ficheros. Suponiendo una dependencia lineal del coste de cálculo con respecto al número de ficheros, el coste es proporcional a 1000 el 95% del tiempo, y proporcional a 999.000 sólo el 5% del tiempo. El coste promedio es, por lo tanto, proporcional a alrededor de 50.900. Una búsqueda jerárquica, por lo tanto, produce ahorros de alrededor de un factor de 20 en la carga de cálculo. Por supuesto, el índice de la base de datos puede segmentarse en más de dos niveles de jerarquía, p. ej., un grupo de novedades, un grupo de canciones editadas recientemente, y un grupo de canciones más antiguas y menos populares.
Como se ha descrito anteriormente, la búsqueda se lleva primero a cabo sobre un primer subconjunto de ficheros de sonido, los ficheros de alta probabilidad, y luego, sólo si fracasa la primera búsqueda, se realiza sobre un segundo subconjunto que contiene los ficheros restantes. El fracaso del escaneo de la línea diagonal ocurre si el número de puntos en cada arca de desplazamiento no alcanza a un valor de umbral predeterminado. Alternativamente, las dos búsquedas pueden llevarse a cabo en paralelo (simultáneamente). Si el fichero de sonido correcto es localizado en una búsqueda del primer subconjunto, entonces se envía una señal para terminar la búsqueda del segundo subconjunto. Si el fichero de sonido correcto no es localizado en la primera búsqueda, entonces la segunda búsqueda continúa hasta que se localiza un fichero ganador. Estas dos implementaciones distintas involucran compromisos recíprocos entre el esfuerzo y el tiempo de cálculo. La primera implementación es más eficiente en términos de cálculo, pero introduce una leve latencia si fracasa la primera búsqueda, mientras que la segunda implementación malgasta esfuerzo de cálculo si el fichero ganador está en el primer subconjunto, pero minimiza la latencia si no lo está.
El objeto de segmentar la lista es estimar la probabilidad de que un fichero de sonido sea el objetivo de una consulta y limitar la búsqueda a aquellos ficheros que tengan la mayor probabilidad de corresponder a la muestra de la consulta. Hay diversas maneras posibles de asignar probabilidades y de clasificar los sonidos en la base de datos, todas las cuales están dentro del ámbito de la presente invención. Preferiblemente, las probabilidades se asignan basándose en lo reciente o lo frecuente que sea su identificación como el fichero de sonido ganador. El criterio de identificación reciente es una medida útil, en particular para las canciones populares, porque los intereses musicales cambian bastante rápidamente a lo largo del tiempo, según se editan nuevas canciones. Después de que se han calculado las puntuaciones de probabilidad, se asignan categorías a los ficheros, y la lista se autoclasifica según la categoría. La lista clasificada se segmenta luego en dos o más subconjuntos para la búsqueda. El subconjunto más pequeño puede contener un número predeterminado de ficheros. Por ejemplo, si la categorización localiza un fichero dentro de los primeros 1000 ficheros, digamos, entonces el fichero se coloca en la búsqueda más pequeña y rápida. Alternativamente, los puntos de corte para los dos subconjuntos pueden ajustarse dinámicamente. Por ejemplo, todos los ficheros con una puntuación que exceda un valor de umbral específico pueden colocarse dentro del primer subconjunto, y así el número de ficheros en cada subconjunto cambia continuamente.
Una manera particular de calcular la probabilidad es incrementar en uno la puntuación de un fichero de sonido cada vez que sea identificado como correspondiente a la muestra de consulta. A fin de tomar en cuenta el criterio de identificación reciente, todas las puntuaciones se reducen periódicamente, para que las consultas más recientes tengan un mayor efecto sobre la categorización que las consultas más antiguas. Por ejemplo, todas las puntuaciones pueden graduarse a la baja por un factor constante en cada consulta, lo que da como resultado una decadencia exponencial de la puntuación si no se actualiza. Según el número de ficheros en la base de datos, que puede fácilmente ser de un millón, este procedimiento puede requerir actualizar un gran número de puntuaciones en cada consulta, haciéndolo potencialmente indeseable. Alternativamente, las puntuaciones pueden ajustarse a la baja a intervalos relativamente infrecuentes, tal como una vez por día. El ordenamiento resultante de un ajuste menos frecuente es efectivamente similar, pero no exactamente idéntico, al ordenamiento que resulta del ajuste en cada consulta. Sin embargo, la carga de cálculo para actualizar las categorizaciones es mucho menor.
Una leve variación de este ajuste del criterio de identificación reciente, que preserva más exactamente la puntuación de identificaciones recientes, es añadir una actualización de puntuación a^{t}, de crecimiento exponencial, al fichero de sonido ganador por consulta, donde t es el lapso transcurrido desde la última actualización global. Todas las puntuaciones se ajustan luego a la baja dividiendo entre a^{T} en cada actualización global, donde T es el tiempo total transcurrido desde la última actualización global. En esta variación, a es el factor de identificación reciente, que es mayor
que uno.
Además de la categorización descrita anteriormente, puede introducirse algún conocimiento a priori para ayudar a hacer más fructífero el elenco de grabaciones de sonido. Por ejemplo, es probable que las novedades tengan números mayores de consultas que las canciones más antiguas. De esta manera, las novedades pueden colocarse automáticamente en el primer subconjunto, que contiene canciones con una mayor probabilidad de corresponder a las consultas. Esto puede llevarse a cabo independientemente del algoritmo de autocategorización descrito anteriormente. Si también se emplea la característica de autocategorización, a las novedades pueden asignarse categorizaciones iniciales que las coloquen en algún sitio dentro del primer subconjunto. Las novedades pueden diseminarse en el mismo tope de la lista, en el extremo inferior de la lista de canciones de alta probabilidad, o en algún sitio por el medio. Para los fines de la búsqueda, la ubicación inicial no importa, porque la categorización converge a lo largo del tiempo para reflejar el verdadero nivel de interés.
En una realización alternativa, la búsqueda se realiza en el orden de categorizaciones de identificación reciente y se termina cuando una puntuación del identificador_de_sonido excede un valor umbral predeterminado. Esto es equivalente al método precedente, en el cual cada segmento contiene sólo un identificador_de_sonido. Los experimentos muestran que la puntuación de un sonido ganador es mucho más alta que las puntuaciones de todos los otros ficheros de sonido y, por ello, puede escogerse un umbral adecuado con una experimentación mínima. Una forma de implementar esta realización es clasificar todos los identificadores_de_sonido en el índice de la base de datos según lo reciente de la identificación, con un desempate arbitrario en el caso de puntuaciones idénticas. Debido a que cada categorización de lo reciente de la identificación es única, hay una correspondencia biunívoca entre la puntuación de lo reciente de la identificación y el identificador_de_sonido. La categorización puede emplearse luego en lugar del identificador_de_sonido al clasificar por identificador_de_sonido a fin de formar la lista de identificadores_de_sonido candidatos y sus listas de dispersión asociadas (Fig. 9C). Los números de categorización pueden vincularse al índice cuando se genera la lista del índice de tripletes (huella, hito, identificador_de_sonido), y antes de que se clasifique la lista del índice dentro de la lista del índice maestro. La categorización ocupa luego el lugar del identificador_de_sonido. Alternativamente, puede utilizarse una función de búsqueda y reemplazo para reemplazar el identificador_de_sonido por la categorización. Según se actualizan las categorizaciones, las nuevas categorizaciones se mapean sobre las viejas, suponiendo que se mantenga la integridad de mapeo.
Alternativamente, las categorizaciones pueden vincularse más adelante en el proceso. Una vez que las listas de dispersión están creadas, puede asociarse una categorización a cada identificador_de_sonido. Los conjuntos se clasifican luego por categorización. En esta implementación, sólo es necesario modificar los punteros a las listas de dispersión; no es necesario repetir el agrupamiento en listas de dispersión. La ventaja de las vinculaciones posteriores es que no es necesario recrear todo el índice de la base de datos cada vez que se actualizan las categorizaciones.
Observe que la categoría de popularidad, en sí misma, puede ser de interés como un objeto de valor económico. Esto es, la categoría refleja la deseabilidad de los consumidores para obtener una identificación de una muestra de sonido desconocida. En muchos casos, la consulta está incentivada por un deseo de adquirir una grabación de la canción. En efecto, si se conoce la información demográfica acerca del usuario, entonces pueden implementarse métodos de categorización alternativa para cada grupo demográfico deseado. El grupo demográfico de un usuario puede obtenerse a partir de información de perfil solicitada cuando el usuario se registra para el servicio de reconocimiento. También puede determinarse dinámicamente por medio de técnicas estándar de filtración colaborativa.
En un sistema de tiempo real, el sonido se suministra al sistema de reconocimiento incrementalmente a lo largo del tiempo, lo que permite el reconocimiento encadenado. En este caso, es posible procesar los datos entrantes en segmentos y actualizar incrementalmente el conjunto de índices de la muestra. Después de cada periodo de actualización, se utiliza el conjunto de índices recientemente aumentado para extraer grabaciones sonoras candidatas de biblioteca, utilizando las etapas precedentes de búsqueda y escaneo. El índice de la base de datos es examinado en busca de huellas que coincidan con las huellas de muestras recientemente obtenidas, y se generan nuevas tripletes (hito_{k}, hito*_{j}, identificador_de_sonido_{j}). Se añaden nuevos pares a las listas de dispersión, y se aumentan los histogramas. La ventaja de este enfoque es que si se han recogido suficientes datos como para identificar sin ambigüedad la grabación sonora, p. ej., si el número de puntos en un arca de desplazamiento de uno de los ficheros de sonido excede un umbral alto, o bien excede la siguiente puntuación más alta de fichero de sonido, entonces puede concluir la adquisición de datos y anunciarse el resultado.
Una vez que se ha identificado el sonido correcto, el resultado se informa al usuario o al sistema por cualquier procedimiento adecuado. Por ejemplo, el resultado puede informarse por medio de una impresora de ordenador, un correo electrónico, una página de resultados de búsqueda en web, un mensaje de texto SMS (servicio de mensajes breves) a un teléfono móvil, un mensaje de voz generado por ordenador hacia un teléfono fijo, o bien despachando el resultado a una sede o cuenta de Internet a la que el usuario pueda acceder más tarde. Los resultados informados pueden incluir información de identificación del sonido, tal como el nombre e intérprete de una canción; el compositor, nombre, y atributos de grabación (p. ej., intérpretes, director, escenario) de una pieza clásica; la empresa y el producto de un anuncio; o cualesquiera otros identificadores adecuados. Además, puede proporcionarse información biográfica, información acerca de conciertos en la vecindad, y otra información de interés para los aficionados; pueden proporcionarse hiperenlaces a tales datos. Los resultados informados pueden incluir también la puntuación absoluta del fichero de sonido o su puntuación en comparación con el siguiente fichero de más alta puntuación.
Una consecuencia útil del procedimiento de reconocimiento es que no confunde dos versiones distintas del mismo sonido. Por ejemplo, no se considera que distintas interpretaciones de la misma pieza de música clásica sean la misma, incluso si un ser humano no puede detectar una diferencia entre las dos. Esto es porque es sumamente improbable que los pares de hitos/huellas y su evolución temporal coincidan exactamente para dos interpretaciones distintas. En una realización actual, los pares hito/huella deben estar dentro de un entorno de 10 ms entre sí para que se identifique una correspondencia lineal. Como resultado de esto, el reconocimiento automático realizado por la presente invención hace posible que se acredite la debida interpretación/banda sonora y artista/sello en todos los casos.
Ejemplo de implementación
A continuación se describe una implementación preferida de la invención, el reconocimiento de audio por ventana deslizante continua. Un micrófono u otra fuente de sonido se muestrea continuamente en un almacén de datos a fin de obtener un registro de los N segundos previos de sonido. El contenido del almacén de datos sonoros se analiza periódicamente a fin de verificar la identidad del contenido sonoro. El almacén de datos sonoros puede tener un tamaño fijo o bien puede crecer de tamaño según se muestrea el sonido, denominado aquí como segmentos secuencialmente crecientes de la muestra de audio. Se produce un informe para indicar la presencia de grabaciones sonoras identificadas. Por ejemplo, puede compilarse un fichero de registro, o bien puede mostrarse un visor en un dispositivo que indica la información acerca de la música, tal como el título, el intérprete, la imagen de la cubierta del álbum, las letras, o la información de compra. Para evitar la redundancia, puede producirse un informe sólo cuando cambia la identidad del sonido reconocido; por ejemplo, después de un cambio de programa en una fonola. Tal dispositivo puede utilizarse para crear una lista de música reproducida desde cualquier fuente de sonido (radio, radio transmitida por Internet, micrófono oculto, llamada telefónica, etc.). Además de la identidad de la música, puede registrarse información tal como la hora del reconocimiento. Si se dispone de información de localización (p. ej., de GPS), también puede registrarse tal información.
Para lograr la identificación, cada almacén de datos puede ser identificado de nuevo cada vez. Alternativamente, pueden extraerse parámetros del sonido, por ejemplo, en huellas u otras formas intermedias de características extraídas, y almacenarse en un segundo almacén de datos. Pueden añadirse nuevas huellas al principio del segundo almacén, desechándose las viejas huellas del final del almacén. La ventaja de tal método de almacén circular es que no es necesario realizar redundantemente el mismo análisis de los viejos segmentos solapados de las muestras sonoras, ahorrando así esfuerzo de cálculo. El proceso de identificación se lleva a cabo periódicamente sobre el contenido del almacén circular de huellas. En el caso de un pequeño dispositivo portátil, el análisis de huellas puede realizarse en el dispositivo, y transmitirse los resultados a un servidor de reconocimiento que emplea un canal de datos de ancho de banda relativamente bajo, ya que el flujo de huellas no tiene mucha carga de datos. El almacén circular de huellas puede mantenerse en el dispositivo portátil y transferirse cada vez al servidor de reconocimiento, o bien puede mantenerse en el servidor de reconocimiento, en cuyo caso se almacena una sesión de reconocimiento continuo en la memoria caché del servidor.
En tal sistema de reconocimiento de almacén circular, pueden reconocerse nuevas grabaciones de sonido tan pronto como se disponga de información suficiente para su reconocimiento. La información suficiente puede ocupar menos que la longitud del almacén. Por ejemplo, si una canción distinguible puede reconocerse individualmente después de un segundo de reproducción, y el sistema tiene una periodicidad de reconocimiento de un segundo, entonces la canción puede ser reconocida inmediatamente, aunque el almacén de datos puede tener una longitud de entre 15 y 30 segundos. Viceversa, si una canción menos distinguible requiere más segundos de muestreo para ser reconocida, el sistema debe esperar durante un periodo más largo antes de declarar la identidad de la canción. En este método de reconocimiento de ventana deslizante, los sonidos se reconocen tan pronto como pueden ser identificados.
Es importante observar que, si bien la presente invención ha sido descrita en el contexto de un sistema y procedimiento de reconocimiento totalmente funcionales, aquellos versados en la técnica apreciarán que el mecanismo de la presente invención es capaz de ser distribuido en forma de un medio, legible por ordenador, con instrucciones en diversas formas, y que la presente invención se aplica igualmente, no importa el tipo particular de medio portador de señales utilizado para llevar a cabo efectivamente la distribución. Los ejemplos de tales dispositivos accesibles por ordenador incluyen la memoria de ordenador (RAM o ROM), disquetes y discos CD-ROM, así como medios de tipo de transmisión tales como enlaces de comunicación digital y analógica.

Claims (28)

1. Un procedimiento para identificar una muestra de audio, caracterizado por:
para la muestra, generar pares de hito/huella de la muestra, en donde cada hito se presenta en una ubicación temporal específica dentro de la muestra de audio, calculándose la ubicación con respecto al contenido de la muestra de audio, y en donde cada huella caracteriza uno o más rasgos de la muestra de audio en, o cerca de, la ubicación específica;
para cada uno o más de los ficheros de audio, generar pares de hito/huella del fichero, en donde cada hito aparece en una ubicación temporal específica dentro del fichero de audio, calculándose la ubicación con respecto al contenido del fichero de audio, y en donde cada huella caracteriza uno o más rasgos del fichero de audio en, o cerca de, la ubicación específica;
identificar correspondencias esencialmente lineales entre los respectivos pares de hito/huella de la muestra y los pares de hito/huella de ficheros previamente generados; e
identificar un fichero ganador como aquél que tiene un número significativo de correspondencias esencialmente lineales.
2. Un procedimiento según la reivindicación 1, en el cual cada huella representa un cierto número de rasgos del audio en cada ubicación de hito, o bien desplazados levemente desde dicha ubicación.
3. Un procedimiento según cualquier reivindicación precedente, en el cual cada huella se calcula por medio de un procedimiento tal que es invariante ante la dilatación temporal de la muestra.
4. Un procedimiento según cualquier reivindicación precedente, en el cual cada huella se calcula como una entre: una huella de tajada espectral, una huella multitajada, un coeficiente de LPC, un coeficiente cepstral, y un componente de frecuencia de picos de espectrograma.
5. Un procedimiento según la reivindicación 4, en el cual se calcula una huella de tajada espectral en un conjunto de desplazamientos temporales a partir de un instante de hito temporal.
6. Un procedimiento según cualquier reivindicación precedente, en el cual la posición de cada hito se identifica utilizando un procedimiento de determinación de hitos que halla ubicaciones distinguibles y reproducibles dentro de la grabación sonora.
7. Un procedimiento según la reivindicación 6, en el cual el procedimiento de determinación de hitos utiliza una norma Lp espectral para calcular la potencia instantánea en todo instante temporal posible en la grabación, y selecciona los máximos locales como los hitos.
8. Un procedimiento según la reivindicación 6 o la reivindicación 7, en el cual uno o más hitos son hitos multitajada derivados de componentes espectrales a lo largo de múltiples tajadas temporales, con desplazamientos fijos o variables entre sí.
9. Un procedimiento según cualquier reivindicación precedente, en el cual los pares de hito/huella del fichero se almacenan en una base de datos, estando indizado cada fichero dentro de la base de datos por las huellas de ese fichero.
10. Un procedimiento según la reivindicación 9, en el cual los índices se clasifican según las huellas.
11. Un procedimiento según la reivindicación 10, en el cual se compila una lista del índice maestro que tiene una entrada para cada huella única, y un puntero a una lista de los correspondientes hitos.
12. Un procedimiento según cualquiera de las reivindicaciones 9 a 11, en el cual cada fichero está identificado por un IDENTIFICADOR_DE_SONIDO, y la base de datos almacena una pluralidad de tripletes de huella, hito, IDENTIFICADOR_DE_SONIDO.
13. Un procedimiento según cualquier reivindicación precedente, en el cual el fichero con los pares de correspondencias linealmente vinculadas, estadísticamente más significativos, se selecciona como el fichero ganador.
14. Un procedimiento según cualquier reivindicación precedente, en el cual una correspondencia lineal entre los hitos (hito_{n}, hito*_{n}) de muestra y de fichero tiene lugar cuando una pareja de hito/huella de la muestra se corresponde con una pareja de hito/huella del fichero, dentro de un entorno de tolerancia.
15. Un procedimiento según cualquier reivindicación precedente, en el cual una correspondencia lineal entre una pareja de hito/huella de una muestra y una pareja de hito/huella de un fichero tiene lugar cuando se corresponden las respectivas huellas y los respectivos hitos están vinculados por una relación lineal.
16. Un procedimiento según la reivindicación 15, en el cual las huellas se corresponden cuando son idénticas o cuando difieren dentro de una tolerancia previamente determinada.
17. Un procedimiento según la reivindicación 15 o la reivindicación 16, en el cual una correspondencia lineal tiene lugar si el par de hitos (hito_{n}, hito*_{n}) de la muestra y del fichero, dentro de la lista, están vinculados según la relación: hito*_{n} = m*hito_{n} + desplazamiento.
18. Un procedimiento según cualquier reivindicación precedente, en el cual la muestra tiene la forma de ondas acústicas, ondas de radio, un flujo PCM de audio digital, un flujo de audio digital comprimido, o una transmisión continua por Internet.
19. Un procedimiento según cualquier reivindicación precedente, en el cual las huellas de la muestra se almacenan en un almacén circular de datos.
20. Un procedimiento según la reivindicación 19, en el cual la etapa de identificación puede llevarse a cabo periódicamente sobre el contenido del almacén circular de datos de huellas.
21. Un procedimiento según la reivindicación 19 o la reivindicación 20, en el cual la etapa de identificación puede llevarse a cabo tan pronto como se dispone en el almacén de información suficiente para el reconocimiento.
22. Un procedimiento según cualquier reivindicación precedente, en el cual la etapa de identificación se lleva primero a cabo sobre un subconjunto de ficheros y, si no se identifica ningún fichero ganador en el primer subconjunto, se registra un segundo subconjunto, que contiene los ficheros restantes.
23. Un procedimiento según la reivindicación 22, en el cual el primer subconjunto contiene ficheros que tienen una probabilidad, a priori o empírica, más alta de ser identificados que los ficheros que no están en el primer subconjunto.
24. Un procedimiento según la reivindicación 1, en el cual dicha etapa de identificar correspondencias lineales comprende la localización de una línea diagonal dentro de un gráfico de dispersión de dichas ubicaciones correspondientes, formando las diferencias entre dichas ubicaciones correspondientes y calculando un pico de un histograma de dichas diferencias.
25. Un procedimiento según la reivindicación 1, en el cual dicha etapa de identificar un fichero ganador comprende adicionalmente proporcionar un indicador de un desplazamiento con respecto a una ubicación en dicho fichero ganador, donde tiene lugar dicho número significativo de correspondencias.
26. Un procedimiento para identificar una muestra de audio, que comprende las etapas de:
como respuesta a una solicitud desde un cliente, retransmitir al menos una porción de la muestra de audio a un servidor, realizando dicho servidor las etapas del procedimiento de la reivindicación 1; y
como respuesta a la identificación de un fichero ganador por dicho servidor, responder a dicho cliente en consecuencia.
27. Un producto de programa de ordenador que realiza todas las etapas de un procedimiento según cualquier reivindicación precedente, cuando se carga en un ordenador.
28. Un sistema informático dispuesto para llevar a cabo un procedimiento según cualquiera de las reivindicaciones 1 a 25, que incluye un extremo cliente que envía un resumen de rasgos extraídos de la muestra de señal capturada, que contiene pares de hitos y huellas, a un extremo servidor, el cual realiza el reconocimiento.
ES01969535T 2000-07-31 2001-07-26 Procedimiento de busqueda de una base de datos de audio. Expired - Lifetime ES2266254T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US22202300P 2000-07-31 2000-07-31
US222023P 2000-07-31
US09/839,476 US6990453B2 (en) 2000-07-31 2001-04-20 System and methods for recognizing sound and music signals in high noise and distortion
US839476 2001-04-20

Publications (1)

Publication Number Publication Date
ES2266254T3 true ES2266254T3 (es) 2007-03-01

Family

ID=26916372

Family Applications (1)

Application Number Title Priority Date Filing Date
ES01969535T Expired - Lifetime ES2266254T3 (es) 2000-07-31 2001-07-26 Procedimiento de busqueda de una base de datos de audio.

Country Status (14)

Country Link
US (9) US6990453B2 (es)
EP (1) EP1307833B1 (es)
JP (1) JP4945877B2 (es)
KR (1) KR100776495B1 (es)
CN (1) CN1592906B (es)
AT (1) ATE329319T1 (es)
AU (1) AU2001289766A1 (es)
BR (1) BRPI0112901B1 (es)
DE (1) DE60120417T2 (es)
DK (1) DK1307833T3 (es)
ES (1) ES2266254T3 (es)
HK (1) HK1051248A1 (es)
PT (1) PT1307833E (es)
WO (1) WO2002011123A2 (es)

Families Citing this family (762)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6449377B1 (en) * 1995-05-08 2002-09-10 Digimarc Corporation Methods and systems for watermark processing of line art images
US6560349B1 (en) * 1994-10-21 2003-05-06 Digimarc Corporation Audio monitoring using steganographic information
US7362775B1 (en) * 1996-07-02 2008-04-22 Wistaria Trading, Inc. Exchange mechanisms for digital information packages with bandwidth securitization, multichannel digital watermarks, and key management
US6760463B2 (en) * 1995-05-08 2004-07-06 Digimarc Corporation Watermarking methods and media
US7805500B2 (en) * 1995-05-08 2010-09-28 Digimarc Corporation Network linking methods and apparatus
US7224819B2 (en) 1995-05-08 2007-05-29 Digimarc Corporation Integrating digital watermarks in multimedia content
US5613004A (en) * 1995-06-07 1997-03-18 The Dice Company Steganographic method and device
US7562392B1 (en) * 1999-05-19 2009-07-14 Digimarc Corporation Methods of interacting with audio and ambient music
US6965682B1 (en) 1999-05-19 2005-11-15 Digimarc Corp Data transmission by watermark proxy
US6505160B1 (en) * 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
US7711564B2 (en) * 1995-07-27 2010-05-04 Digimarc Corporation Connected audio and other media objects
US6829368B2 (en) * 2000-01-26 2004-12-07 Digimarc Corporation Establishing and interacting with on-line media collections using identifiers in media signals
US6411725B1 (en) * 1995-07-27 2002-06-25 Digimarc Corporation Watermark enabled video objects
US6205249B1 (en) 1998-04-02 2001-03-20 Scott A. Moskowitz Multiple transform utilization and applications for secure digital watermarking
US7664263B2 (en) 1998-03-24 2010-02-16 Moskowitz Scott A Method for combining transfer functions with predetermined key creation
US5889868A (en) 1996-07-02 1999-03-30 The Dice Company Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data
US7177429B2 (en) 2000-12-07 2007-02-13 Blue Spike, Inc. System and methods for permitting open access to data objects and for securing data within the data objects
US7457962B2 (en) 1996-07-02 2008-11-25 Wistaria Trading, Inc Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data
US7159116B2 (en) 1999-12-07 2007-01-02 Blue Spike, Inc. Systems, methods and devices for trusted transactions
US7346472B1 (en) 2000-09-07 2008-03-18 Blue Spike, Inc. Method and device for monitoring and analyzing signals
US7095874B2 (en) * 1996-07-02 2006-08-22 Wistaria Trading, Inc. Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data
US7730317B2 (en) * 1996-12-20 2010-06-01 Wistaria Trading, Inc. Linear predictive coding implementation of digital watermarks
US7689532B1 (en) 2000-07-20 2010-03-30 Digimarc Corporation Using embedded data with file sharing
US7664264B2 (en) 1999-03-24 2010-02-16 Blue Spike, Inc. Utilizing data reduction in steganographic and cryptographic systems
GB9909362D0 (en) * 1999-04-23 1999-06-16 Pace Micro Tech Plc Memory database system for encrypted progarmme material
US7185201B2 (en) 1999-05-19 2007-02-27 Digimarc Corporation Content identifiers triggering corresponding responses
US7302574B2 (en) * 1999-05-19 2007-11-27 Digimarc Corporation Content identifiers triggering corresponding responses through collaborative processing
US7565294B2 (en) * 1999-05-19 2009-07-21 Digimarc Corporation Methods and systems employing digital content
US20050038819A1 (en) * 2000-04-21 2005-02-17 Hicken Wendell T. Music Recommendation system and method
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
US7475246B1 (en) 1999-08-04 2009-01-06 Blue Spike, Inc. Secure personal content server
US8326584B1 (en) 1999-09-14 2012-12-04 Gracenote, Inc. Music searching methods based on human perception
US7194752B1 (en) 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US7174293B2 (en) * 1999-09-21 2007-02-06 Iceberg Industries Llc Audio identification system and method
US6671407B1 (en) 1999-10-19 2003-12-30 Microsoft Corporation System and method for hashing digital images
US6834308B1 (en) * 2000-02-17 2004-12-21 Audible Magic Corporation Method and apparatus for identifying media content presented on a media playing device
US20060217828A1 (en) * 2002-10-23 2006-09-28 Hicken Wendell T Music searching system and method
US8121843B2 (en) * 2000-05-02 2012-02-21 Digimarc Corporation Fingerprint methods and systems for media signals
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7853664B1 (en) 2000-07-31 2010-12-14 Landmark Digital Services Llc Method and system for purchasing pre-recorded music
EP2136306B1 (en) 2000-08-23 2013-03-20 Gracenote, Inc. Method and system for obtaining information
US8010988B2 (en) * 2000-09-14 2011-08-30 Cox Ingemar J Using features extracted from an audio and/or video work to obtain information about the work
US8205237B2 (en) 2000-09-14 2012-06-19 Cox Ingemar J Identifying works, using a sub-linear time search, such as an approximate nearest neighbor search, for initiating a work-based action, such as an action on the internet
US7127615B2 (en) 2000-09-20 2006-10-24 Blue Spike, Inc. Security based on subliminal and supraliminal channels for data objects
JP2002108350A (ja) * 2000-09-28 2002-04-10 Internatl Business Mach Corp <Ibm> 音楽配信のための方法及びシステム
US8122236B2 (en) 2001-10-24 2012-02-21 Aol Inc. Method of disseminating advertisements using an embedded media player page
DE60137454D1 (de) * 2000-10-24 2009-03-05 Aol Llc Verfahren zur bemessung der seite einer eingebetteten medienabspielvorrichtung
WO2002056139A2 (en) 2000-10-26 2002-07-18 Digimarc Corporation Method and system for internet access
FR2816157A1 (fr) * 2000-10-31 2002-05-03 Thomson Multimedia Sa Procede de traitement de donnees video distinees a etre visualisees sur ecran et dispositif mettant en oeuvre le procede
US20020103920A1 (en) * 2000-11-21 2002-08-01 Berkun Ken Alan Interpretive stream metadata extraction
US20020072982A1 (en) * 2000-12-12 2002-06-13 Shazam Entertainment Ltd. Method and system for interacting with a user in an experiential environment
AU2002232817A1 (en) 2000-12-21 2002-07-01 Digimarc Corporation Methods, apparatus and programs for generating and utilizing content signatures
US20020091761A1 (en) * 2001-01-10 2002-07-11 Lambert James P. Technique of generating a composite media stream
DE60228202D1 (de) * 2001-02-12 2008-09-25 Gracenote Inc Verfahren zum erzeugen einer identifikations hash vom inhalt einer multimedia datei
WO2003005242A1 (en) * 2001-03-23 2003-01-16 Kent Ridge Digital Labs Method and system of representing musical information in a digital representation for use in content-based multimedia information retrieval
WO2002082271A1 (en) 2001-04-05 2002-10-17 Audible Magic Corporation Copyright detection and protection system and method
US7248715B2 (en) * 2001-04-06 2007-07-24 Digimarc Corporation Digitally watermarking physical media
DE10117871C1 (de) * 2001-04-10 2002-07-04 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Extrahieren einer Signalkennung, Verfahren und Vorrichtung zum Erzeugen einer Datenbank aus Signalkennungen und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals
US7356188B2 (en) * 2001-04-24 2008-04-08 Microsoft Corporation Recognizer of text-based work
US7421376B1 (en) * 2001-04-24 2008-09-02 Auditude, Inc. Comparison of data signals using characteristic electronic thumbprints
US7020775B2 (en) * 2001-04-24 2006-03-28 Microsoft Corporation Derivation and quantization of robust non-local characteristics for blind watermarking
US6996273B2 (en) 2001-04-24 2006-02-07 Microsoft Corporation Robust recognizer of perceptually similar content
US6975743B2 (en) * 2001-04-24 2005-12-13 Microsoft Corporation Robust and stealthy video watermarking into regions of successive frames
US6973574B2 (en) * 2001-04-24 2005-12-06 Microsoft Corp. Recognizer of audio-content in digital signals
US7046819B2 (en) * 2001-04-25 2006-05-16 Digimarc Corporation Encoded reference signal for digital watermarks
US7962482B2 (en) * 2001-05-16 2011-06-14 Pandora Media, Inc. Methods and systems for utilizing contextual feedback to generate and modify playlists
EP1410380B1 (en) * 2001-07-20 2010-04-28 Gracenote, Inc. Automatic identification of sound recordings
US8972481B2 (en) 2001-07-20 2015-03-03 Audible Magic, Inc. Playlist generation method and apparatus
JP4398242B2 (ja) * 2001-07-31 2010-01-13 グレースノート インコーポレイテッド 録音の多段階識別方法
US6724914B2 (en) 2001-10-16 2004-04-20 Digimarc Corporation Progressive watermark decoding on a distributed computing platform
US7035867B2 (en) * 2001-11-28 2006-04-25 Aerocast.Com, Inc. Determining redundancies in content object directories
US20050010604A1 (en) 2001-12-05 2005-01-13 Digital Networks North America, Inc. Automatic identification of DVD title using internet technologies and fuzzy matching techniques
US7020304B2 (en) 2002-01-22 2006-03-28 Digimarc Corporation Digital watermarking and fingerprinting including synchronization, layering, version control, and compressed embedding
KR20040086350A (ko) 2002-02-05 2004-10-08 코닌클리케 필립스 일렉트로닉스 엔.브이. 핑거프린트의 효율적 저장
WO2003084196A1 (en) * 2002-03-28 2003-10-09 Martin Dunsmuir Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel
US7287275B2 (en) 2002-04-17 2007-10-23 Moskowitz Scott A Methods, systems and devices for packet watermarking and efficient provisioning of bandwidth
CN1685735A (zh) 2002-04-22 2005-10-19 尼尔逊媒介研究股份有限公司 采集与媒体显示相关的观众信息的方法和装置
DE60323086D1 (de) * 2002-04-25 2008-10-02 Landmark Digital Services Llc Robuster und invarianter audiomustervergleich
AU2003239385A1 (en) 2002-05-10 2003-11-11 Richard R. Reisman Method and apparatus for browsing using multiple coordinated device
US7824029B2 (en) * 2002-05-10 2010-11-02 L-1 Secure Credentialing, Inc. Identification card printer-assembler for over the counter card issuing
WO2003096337A2 (en) * 2002-05-10 2003-11-20 Koninklijke Philips Electronics N.V. Watermark embedding and retrieval
US7421096B2 (en) * 2004-02-23 2008-09-02 Delefevre Patrick Y Input mechanism for fingerprint-based internet search
US7461392B2 (en) * 2002-07-01 2008-12-02 Microsoft Corporation System and method for identifying and segmenting repeating media objects embedded in a stream
US7095873B2 (en) 2002-06-28 2006-08-22 Microsoft Corporation Watermarking via quantization of statistics of overlapping regions
US7006703B2 (en) * 2002-06-28 2006-02-28 Microsoft Corporation Content recognizer via probabilistic mirror distribution
AU2003280513A1 (en) * 2002-07-01 2004-01-19 Microsoft Corporation A system and method for providing user control over repeating objects embedded in a stream
US7949689B2 (en) * 2002-07-18 2011-05-24 Accenture Global Services Limited Media indexing beacon and capture device
DE10232916B4 (de) * 2002-07-19 2008-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
US7239981B2 (en) 2002-07-26 2007-07-03 Arbitron Inc. Systems and methods for gathering audience measurement data
US20030191764A1 (en) * 2002-08-06 2003-10-09 Isaac Richards System and method for acoustic fingerpringting
US8959016B2 (en) 2002-09-27 2015-02-17 The Nielsen Company (Us), Llc Activating functions in processing devices using start codes embedded in audio
US9711153B2 (en) 2002-09-27 2017-07-18 The Nielsen Company (Us), Llc Activating functions in processing devices using encoded audio and detecting audio signatures
AU2003267006A1 (en) * 2002-09-27 2004-04-19 International Business Machines Corporation System and method for enhancing live speech with information accessed from the world wide web
ATE426297T1 (de) * 2002-09-30 2009-04-15 Gracenote Inc Fingerabdruckextraktion
US7171561B2 (en) * 2002-10-17 2007-01-30 The United States Of America As Represented By The Secretary Of The Air Force Method and apparatus for detecting and extracting fileprints
SE524936C2 (sv) * 2002-10-23 2004-10-26 Softhouse Nordic Ab Mobil likhetsbedömning av objekt
CN1708758A (zh) * 2002-11-01 2005-12-14 皇家飞利浦电子股份有限公司 改进的音频数据指纹搜索
AU2003274545A1 (en) * 2002-11-12 2004-06-03 Koninklijke Philips Electronics N.V. Fingerprinting multimedia contents
JP4172259B2 (ja) * 2002-11-26 2008-10-29 ソニー株式会社 情報処理装置および方法、並びにコンピュータ・プログラム
US6958103B2 (en) * 2002-12-23 2005-10-25 Kimberly-Clark Worldwide, Inc. Entangled fabrics containing staple fibers
CN1745374A (zh) 2002-12-27 2006-03-08 尼尔逊媒介研究股份有限公司 用于对元数据进行译码的方法和装置
WO2004061545A2 (en) * 2003-01-06 2004-07-22 Koninklijke Philips Electronics N.V. Real-time recording agent for streaming data from an internet
US7593915B2 (en) * 2003-01-07 2009-09-22 Accenture Global Services Gmbh Customized multi-media services
WO2004073217A1 (en) 2003-02-10 2004-08-26 Nielsen Media Research, Inc. Methods and apparatus to adaptively gather audience information data
US7606790B2 (en) 2003-03-03 2009-10-20 Digimarc Corporation Integrating and enhancing searching of media content and biometric databases
WO2004084181A2 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Simple noise suppression model
US20060235864A1 (en) * 2005-04-14 2006-10-19 Apple Computer, Inc. Audio sampling and acquisition system
US20040243852A1 (en) * 2003-05-28 2004-12-02 Rosenstein Adam H. Method, system and software for state signing of internet resources
WO2005113099A2 (en) * 2003-05-30 2005-12-01 America Online, Inc. Personalizing content
US20040237759A1 (en) * 2003-05-30 2004-12-02 Bill David S. Personalizing content
JP2007528144A (ja) 2003-07-11 2007-10-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディア信号おいてトリガーマーカとして機能するフィンガープリントを生成及び検出する方法及び装置
EP1668903A4 (en) 2003-09-12 2011-01-05 Nielsen Media Res Inc DEVICES AND METHOD FOR DIGITAL VIDEO SIGNATURES FOR USE WITH VIDEO PROGRAM IDENTIFICATION SYSTEMS
US7505964B2 (en) * 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US7454417B2 (en) * 2003-09-12 2008-11-18 Google Inc. Methods and systems for improving a search ranking using population information
US7715934B2 (en) * 2003-09-19 2010-05-11 Macrovision Corporation Identification of input files using reference files associated with nodes of a sparse binary tree
JP4328169B2 (ja) * 2003-10-02 2009-09-09 オリンパス株式会社 データ処理装置
US7383174B2 (en) * 2003-10-03 2008-06-03 Paulin Matthew A Method for generating and assigning identifying tags to sound files
WO2005041109A2 (en) * 2003-10-17 2005-05-06 Nielsen Media Research, Inc. Methods and apparatus for identifiying audio/video content using temporal signal characteristics
US7379875B2 (en) * 2003-10-24 2008-05-27 Microsoft Corporation Systems and methods for generating audio thumbnails
US8396800B1 (en) 2003-11-03 2013-03-12 James W. Wieder Adaptive personalized music and entertainment
US9053181B2 (en) 2003-11-03 2015-06-09 James W. Wieder Adaptive personalized playback or presentation using count
US9098681B2 (en) 2003-11-03 2015-08-04 James W. Wieder Adaptive personalized playback or presentation using cumulative time
US8001612B1 (en) 2003-11-03 2011-08-16 Wieder James W Distributing digital-works and usage-rights to user-devices
US20150128039A1 (en) 2003-11-03 2015-05-07 James W. Wieder Newness Control of a Personalized Music and/or Entertainment Sequence
US8554681B1 (en) * 2003-11-03 2013-10-08 James W. Wieder Providing “identified” compositions and digital-works
US9053299B2 (en) 2003-11-03 2015-06-09 James W. Wieder Adaptive personalized playback or presentation using rating
US7884274B1 (en) 2003-11-03 2011-02-08 Wieder James W Adaptive personalized music and entertainment
US11165999B1 (en) 2003-11-03 2021-11-02 Synergyze Technologies Llc Identifying and providing compositions and digital-works
US8521725B1 (en) 2003-12-03 2013-08-27 Google Inc. Systems and methods for improved searching
US7831832B2 (en) * 2004-01-06 2010-11-09 Microsoft Corporation Digital goods representation based upon matrix invariances
CA2556552C (en) 2004-02-19 2015-02-17 Landmark Digital Services Llc Method and apparatus for identification of broadcast source
CA2557198A1 (en) 2004-02-26 2005-09-09 Mediaguide, Inc. Method and apparatus for automatic detection and identification of broadcast audio or video programming signal
US7877810B2 (en) * 2004-03-02 2011-01-25 Rovi Solutions Corporation System, method and client user interface for a copy protection service
US7925657B1 (en) 2004-03-17 2011-04-12 Google Inc. Methods and systems for adjusting a scoring measure based on query breadth
US20050215239A1 (en) * 2004-03-26 2005-09-29 Nokia Corporation Feature extraction in a networked portable device
US20050216512A1 (en) * 2004-03-26 2005-09-29 Rahav Dor Method of accessing a work of art, a product, or other tangible or intangible objects without knowing the title or name thereof using fractional sampling of the work of art or object
US7221902B2 (en) * 2004-04-07 2007-05-22 Nokia Corporation Mobile station and interface adapted for feature extraction from an input media sample
KR100967125B1 (ko) * 2004-03-26 2010-07-05 노키아 코포레이션 네트워크 휴대용 장치에서의 특징 추출
WO2005101243A1 (en) * 2004-04-13 2005-10-27 Matsushita Electric Industrial Co. Ltd. Method and apparatus for identifying audio such as music
WO2005101998A2 (en) 2004-04-19 2005-11-03 Landmark Digital Services Llc Content sampling and identification
DE602005008041D1 (de) * 2004-04-29 2008-08-21 Koninkl Philips Electronics Nv Verfahren und system zur klassifizierung eines audiosignals
US7770014B2 (en) * 2004-04-30 2010-08-03 Microsoft Corporation Randomized signal transforms and their applications
US7565213B2 (en) * 2004-05-07 2009-07-21 Gracenote, Inc. Device and method for analyzing an information signal
DE102004022659B3 (de) * 2004-05-07 2005-10-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum Charakterisieren eines Tonsignals
US7273978B2 (en) 2004-05-07 2007-09-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for characterizing a tone signal
US20050251455A1 (en) * 2004-05-10 2005-11-10 Boesen Peter V Method and system for purchasing access to a recording
DE102004023436B4 (de) * 2004-05-10 2006-06-14 M2Any Gmbh Vorrichtung und Verfahren zum Analysieren eines Informationssignals
US20050267750A1 (en) * 2004-05-27 2005-12-01 Anonymous Media, Llc Media usage monitoring and measurement system and method
US20150051967A1 (en) 2004-05-27 2015-02-19 Anonymous Media Research, Llc Media usage monitoring and measurment system and method
CN100485399C (zh) * 2004-06-24 2009-05-06 兰德马克数字服务有限责任公司 表征两个媒体段的重叠的方法
WO2006004050A1 (ja) 2004-07-01 2006-01-12 Nippon Telegraph And Telephone Corporation 特定音響信号含有区間検出システム及びその方法並びにプログラム
US20090138108A1 (en) * 2004-07-06 2009-05-28 Kok Keong Teo Method and System for Identification of Audio Input
WO2006006528A1 (ja) 2004-07-09 2006-01-19 Nippon Telegraph And Telephone Corporation 音響信号検出システム、音響信号検出サーバ、映像信号探索装置、映像信号探索方法、映像信号探索プログラムと記録媒体、信号探索装置、信号探索方法、及び、信号探索プログラムと記録媒体
EP2315423B1 (en) 2004-08-06 2017-11-01 Digimarc Corporation Fast signal detection and distributed computing in portable computing devices
US20060212149A1 (en) * 2004-08-13 2006-09-21 Hicken Wendell T Distributed system and method for intelligent data analysis
US7623823B2 (en) 2004-08-31 2009-11-24 Integrated Media Measurement, Inc. Detecting and measuring exposure to media content items
DE102004046746B4 (de) 2004-09-27 2007-03-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Synchronisieren von Zusatzdaten und Basisdaten
US7574451B2 (en) * 2004-11-02 2009-08-11 Microsoft Corporation System and method for speeding up database lookups for multiple synchronized data streams
US7826708B2 (en) * 2004-11-02 2010-11-02 Microsoft Corporation System and method for automatically customizing a buffered media stream
EP1667106B1 (en) * 2004-12-06 2009-11-25 Sony Deutschland GmbH Method for generating an audio signature
US20060135098A1 (en) * 2004-12-17 2006-06-22 Yarosz Matthew J Method and apparatus for processing digital broadcast audio in the AM/FM bands
US7921369B2 (en) * 2004-12-30 2011-04-05 Aol Inc. Mood-based organization and display of instant messenger buddy lists
US7567899B2 (en) * 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition
US7451078B2 (en) * 2004-12-30 2008-11-11 All Media Guide, Llc Methods and apparatus for identifying media objects
US7634405B2 (en) * 2005-01-24 2009-12-15 Microsoft Corporation Palette-based classifying and synthesizing of auditory information
EP2437255B1 (en) * 2005-02-08 2016-02-03 Shazam Investments Limited Automatic identification of repeated material in audio signals
US20060224798A1 (en) * 2005-02-22 2006-10-05 Klein Mark D Personal music preference determination based on listening behavior
US7818350B2 (en) 2005-02-28 2010-10-19 Yahoo! Inc. System and method for creating a collaborative playlist
EP1869574A4 (en) * 2005-03-04 2009-11-11 Resonance Media Services Inc BROWSER TO CREATE MUSIC LISTINGS
DE102005014477A1 (de) * 2005-03-30 2006-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
WO2006112843A1 (en) * 2005-04-19 2006-10-26 Sean Ward Distributed acoustic fingerprint based recognition
US20090193033A1 (en) * 2005-05-19 2009-07-30 Zulfikar Amin Ramzan Method and apparatus for communication efficient private information retrieval and oblivious transfer
US20070016918A1 (en) * 2005-05-20 2007-01-18 Alcorn Allan E Detecting and tracking advertisements
US7613736B2 (en) * 2005-05-23 2009-11-03 Resonance Media Services, Inc. Sharing music essence in a recommendation system
KR20060133410A (ko) * 2005-06-20 2006-12-26 엘지전자 주식회사 복합 미디어 장치에서 파일 검색 및 파일 데이터베이스관리 방법
US20070028262A1 (en) * 2005-07-29 2007-02-01 Zermatt Systems, Inc. Virtual discovery of content available to a device
US20070033229A1 (en) * 2005-08-03 2007-02-08 Ethan Fassett System and method for indexing structured and unstructured audio content
US20070106405A1 (en) * 2005-08-19 2007-05-10 Gracenote, Inc. Method and system to provide reference data for identification of digital content
US7516074B2 (en) * 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
CN100367279C (zh) * 2005-09-08 2008-02-06 上海交通大学 数字音乐旋律的跨越式高速匹配装置
US7809943B2 (en) * 2005-09-27 2010-10-05 Rovi Solutions Corporation Method and system for establishing trust in a peer-to-peer network
US20070078708A1 (en) * 2005-09-30 2007-04-05 Hua Yu Using speech recognition to determine advertisements relevant to audio content and/or audio content relevant to advertisements
US20070076869A1 (en) * 2005-10-03 2007-04-05 Microsoft Corporation Digital goods representation based upon matrix invariants using non-negative matrix factorizations
US20080250240A1 (en) * 2005-10-13 2008-10-09 Koninklijke Philips Electronics, N.V. Remote Informed Watermark Detection System
US20070118873A1 (en) * 2005-11-09 2007-05-24 Bbnt Solutions Llc Methods and apparatus for merging media content
US9697231B2 (en) * 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for providing virtual media channels based on media search
US7801910B2 (en) 2005-11-09 2010-09-21 Ramp Holdings, Inc. Method and apparatus for timed tagging of media content
US9697230B2 (en) * 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for dynamic presentation of advertising, factual, and informational content using enhanced metadata in search-driven media applications
KR100803206B1 (ko) * 2005-11-11 2008-02-14 삼성전자주식회사 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법
US7844774B2 (en) * 2005-11-16 2010-11-30 Sun Microsystems, Inc. Extensible fingerprinting functions and content addressed storage system using the same
KR101488317B1 (ko) * 2005-12-20 2015-02-04 아비트론 인코포레이티드 리서치 작업을 수행하는 방법 및 시스템
WO2007076459A2 (en) 2005-12-21 2007-07-05 Digimarc Corporation Rules driven pan id metadata routing system and network
US8086722B2 (en) * 2005-12-21 2011-12-27 Rovi Solutions Corporation Techniques for measuring peer-to-peer (P2P) networks
US20070162761A1 (en) * 2005-12-23 2007-07-12 Davis Bruce L Methods and Systems to Help Detect Identity Fraud
US8254308B1 (en) * 2006-01-05 2012-08-28 Sprint Spectrum L.P. Method and system for acoustically triggering electronic coupon retrieval
JP4065314B2 (ja) * 2006-01-12 2008-03-26 松下電器産業株式会社 対象音分析装置、対象音分析方法および対象音分析プログラム
US8108452B2 (en) * 2006-01-12 2012-01-31 Yahoo! Inc. Keyword based audio comparison
FR2897217A1 (fr) * 2006-02-03 2007-08-10 France Telecom Determination d'identificateur de signal
WO2007091475A1 (ja) * 2006-02-08 2007-08-16 Nec Corporation 音声合成装置、音声合成方法及びプログラム
KR100774585B1 (ko) * 2006-02-10 2007-11-09 삼성전자주식회사 변조 스펙트럼을 이용한 음악 정보 검색 방법 및 그 장치
US7653342B2 (en) * 2006-02-16 2010-01-26 Dell Products L.P. Providing content to a device when lost a connection to the broadcasting station
US20070196802A1 (en) * 2006-02-21 2007-08-23 Nokia Corporation Visually Enhanced Personal Music Broadcast
KR100788682B1 (ko) * 2006-03-03 2007-12-26 삼성전자주식회사 음원 컨텐츠 전송 서비스 제공 방법 및 장치
US8626707B2 (en) * 2006-03-15 2014-01-07 Beats Music, Llc Automatic meta-data sharing of existing media to create streamable collections
US7765192B2 (en) 2006-03-29 2010-07-27 Abo Enterprises, Llc System and method for archiving a media collection
US8285595B2 (en) 2006-03-29 2012-10-09 Napo Enterprises, Llc System and method for refining media recommendations
EP2005625B1 (en) * 2006-03-31 2018-06-06 Nielsen Media Research, Inc. Methods, systems, and apparatus for multi-purpose metering
MX2007015979A (es) * 2006-03-31 2009-04-07 Nielsen Media Res Inc Metodos, sistemas y aparato para medicion de multiples fines.
US7772478B2 (en) * 2006-04-12 2010-08-10 Massachusetts Institute Of Technology Understanding music
US20070244985A1 (en) * 2006-04-13 2007-10-18 Concert Technology Corporation User system providing previews of a user's media collection to an associated portable media player
US20070245378A1 (en) * 2006-04-13 2007-10-18 Concert Technology Corporation User system providing previews to an associated portable media player
US7603434B2 (en) * 2006-04-13 2009-10-13 Domingo Enterprises, Llc Central system providing previews of a user's media collection to a portable media player
US7444388B1 (en) 2006-04-13 2008-10-28 Concert Technology Corporation System and method for obtaining media content for a portable media player
US8316081B2 (en) * 2006-04-13 2012-11-20 Domingo Enterprises, Llc Portable media player enabled to obtain previews of a user's media collection
US20070245377A1 (en) * 2006-04-13 2007-10-18 Concert Technology Corporation Central system providing previews to a portable media player
US7801868B1 (en) 2006-04-20 2010-09-21 Datascout, Inc. Surrogate hashing
US9020964B1 (en) * 2006-04-20 2015-04-28 Pinehill Technology, Llc Generation of fingerprints for multimedia content based on vectors and histograms
US8549022B1 (en) 2007-07-02 2013-10-01 Datascout, Inc. Fingerprint generation of multimedia content based on a trigger point with the multimedia content
US7840540B2 (en) 2006-04-20 2010-11-23 Datascout, Inc. Surrogate hashing
US7991206B1 (en) 2007-07-02 2011-08-02 Datascout, Inc. Surrogate heuristic identification
US7814070B1 (en) 2006-04-20 2010-10-12 Datascout, Inc. Surrogate hashing
US8463000B1 (en) 2007-07-02 2013-06-11 Pinehill Technology, Llc Content identification based on a search of a fingerprint database
US7774385B1 (en) 2007-07-02 2010-08-10 Datascout, Inc. Techniques for providing a surrogate heuristic identification interface
US8156132B1 (en) 2007-07-02 2012-04-10 Pinehill Technology, Llc Systems for comparing image fingerprints
KR100684457B1 (ko) * 2006-05-04 2007-02-22 주식회사 모빌리언스 이동통신단말의 외부 음원 인식을 이용하여 사용자에게고유정보를 제공하는 고유정보 제공 시스템, 고유정보 제공방법 및 그 이동통신단말
US8903843B2 (en) 2006-06-21 2014-12-02 Napo Enterprises, Llc Historical media recommendation service
US7908275B2 (en) 2006-07-03 2011-03-15 Intel Corporation Method and apparatus for fast audio search
US8327266B2 (en) 2006-07-11 2012-12-04 Napo Enterprises, Llc Graphical user interface system for allowing management of a media item playlist based on a preference scoring system
US7680959B2 (en) 2006-07-11 2010-03-16 Napo Enterprises, Llc P2P network for providing real time media recommendations
US9003056B2 (en) 2006-07-11 2015-04-07 Napo Enterprises, Llc Maintaining a minimum level of real time media recommendations in the absence of online friends
US7970922B2 (en) 2006-07-11 2011-06-28 Napo Enterprises, Llc P2P real time media recommendations
US8805831B2 (en) 2006-07-11 2014-08-12 Napo Enterprises, Llc Scoring and replaying media items
US8059646B2 (en) 2006-07-11 2011-11-15 Napo Enterprises, Llc System and method for identifying music content in a P2P real time recommendation network
US9633356B2 (en) * 2006-07-20 2017-04-25 Aol Inc. Targeted advertising for playlists based upon search queries
US8620699B2 (en) * 2006-08-08 2013-12-31 Napo Enterprises, Llc Heavy influencer media recommendations
US8090606B2 (en) 2006-08-08 2012-01-03 Napo Enterprises, Llc Embedded media recommendations
JP4961300B2 (ja) * 2006-08-14 2012-06-27 三洋電機株式会社 楽曲一致判定装置、楽曲記録装置、楽曲一致判定方法、楽曲記録方法、楽曲一致判定プログラム、及び楽曲記録プログラム
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US20080051029A1 (en) * 2006-08-25 2008-02-28 Bradley James Witteman Phone-based broadcast audio identification
US8738749B2 (en) 2006-08-29 2014-05-27 Digimarc Corporation Content monitoring and host compliance evaluation
US9654447B2 (en) 2006-08-29 2017-05-16 Digimarc Corporation Customized handling of copied content based on owner-specified similarity thresholds
US8707459B2 (en) 2007-01-19 2014-04-22 Digimarc Corporation Determination of originality of content
US8726195B2 (en) 2006-09-05 2014-05-13 Aol Inc. Enabling an IM user to navigate a virtual world
EP2070231B1 (en) 2006-10-03 2013-07-03 Shazam Entertainment, Ltd. Method for high throughput of identification of distributed broadcast content
US9135951B2 (en) * 2006-10-10 2015-09-15 Qualcomm Incorporated System and method for dynamic audio buffer management
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US8874655B2 (en) * 2006-12-13 2014-10-28 Napo Enterprises, Llc Matching participants in a P2P recommendation network loosely coupled to a subscription service
US9179200B2 (en) 2007-03-14 2015-11-03 Digimarc Corporation Method and system for determining content treatment
US10242415B2 (en) 2006-12-20 2019-03-26 Digimarc Corporation Method and system for determining content treatment
EP2090002A2 (en) * 2006-12-22 2009-08-19 Apple, Inc. Tagging media assets, locations, and advertisements
US20090070185A1 (en) * 2007-01-17 2009-03-12 Concert Technology Corporation System and method for recommending a digital media subscription service
CN101622849B (zh) * 2007-02-02 2014-06-11 网圣公司 添加上下文以防止经由计算机网络的数据泄漏的系统和方法
US8307092B2 (en) * 2007-02-21 2012-11-06 Napo Enterprises, Llc Method and system for collecting information about a user's media collections from multiple login points
US8453170B2 (en) * 2007-02-27 2013-05-28 Landmark Digital Services Llc System and method for monitoring and recognizing broadcast data
US8255570B2 (en) * 2007-03-12 2012-08-28 Citrix Systems, Inc. Systems and methods of compression history expiration and synchronization
US7865585B2 (en) * 2007-03-12 2011-01-04 Citrix Systems, Inc. Systems and methods for providing dynamic ad hoc proxy-cache hierarchies
US7873634B2 (en) * 2007-03-12 2011-01-18 Hitlab Ulc. Method and a system for automatic evaluation of digital files
US8938463B1 (en) 2007-03-12 2015-01-20 Google Inc. Modifying search result ranking based on implicit user feedback and a model of presentation bias
EP2126727A4 (en) * 2007-03-12 2010-04-14 Webhitcontest Inc METHOD AND SYSTEM FOR AUTOMATICALLY EVALUATING DIGITAL FILES
US7453379B2 (en) * 2007-03-12 2008-11-18 Citrix Systems, Inc. Systems and methods for identifying long matches of data in a compression history
US7532134B2 (en) 2007-03-12 2009-05-12 Citrix Systems, Inc. Systems and methods for sharing compression histories between multiple devices
US7619545B2 (en) * 2007-03-12 2009-11-17 Citrix Systems, Inc. Systems and methods of using application and protocol specific parsing for compression
US7827237B2 (en) * 2007-03-12 2010-11-02 Citrix Systems, Inc. Systems and methods for identifying long matches of data in a compression history
US7460038B2 (en) * 2007-03-12 2008-12-02 Citrix Systems, Inc. Systems and methods of clustered sharing of compression histories
GB0704856D0 (en) * 2007-03-13 2007-04-18 Wesby Philip B System and method for data acquisition and processing
US8694374B1 (en) 2007-03-14 2014-04-08 Google Inc. Detecting click spam
US9224427B2 (en) 2007-04-02 2015-12-29 Napo Enterprises LLC Rating media item recommendations using recommendation paths and/or media item usage
US8112720B2 (en) 2007-04-05 2012-02-07 Napo Enterprises, Llc System and method for automatically and graphically associating programmatically-generated media item recommendations related to a user's socially recommended media items
US10489795B2 (en) * 2007-04-23 2019-11-26 The Nielsen Company (Us), Llc Determining relative effectiveness of media content items
US9092510B1 (en) 2007-04-30 2015-07-28 Google Inc. Modifying search result ranking based on a temporal element of user feedback
US20080274687A1 (en) 2007-05-02 2008-11-06 Roberts Dale T Dynamic mixed media package
US7840177B2 (en) * 2007-05-23 2010-11-23 Landmark Digital Services, Llc Device for monitoring multiple broadcast signals
US8849432B2 (en) * 2007-05-31 2014-09-30 Adobe Systems Incorporated Acoustic pattern identification using spectral characteristics to synchronize audio and/or video
US8839141B2 (en) 2007-06-01 2014-09-16 Napo Enterprises, Llc Method and system for visually indicating a replay status of media items on a media device
US20090049045A1 (en) 2007-06-01 2009-02-19 Concert Technology Corporation Method and system for sorting media items in a playlist on a media device
US8285776B2 (en) 2007-06-01 2012-10-09 Napo Enterprises, Llc System and method for processing a received media item recommendation message comprising recommender presence information
US9164993B2 (en) 2007-06-01 2015-10-20 Napo Enterprises, Llc System and method for propagating a media item recommendation message comprising recommender presence information
US9037632B2 (en) 2007-06-01 2015-05-19 Napo Enterprises, Llc System and method of generating a media item recommendation message with recommender presence information
US20080301187A1 (en) * 2007-06-01 2008-12-04 Concert Technology Corporation Enhanced media item playlist comprising presence information
JP5090523B2 (ja) * 2007-06-06 2012-12-05 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数の検索の組み合わせを使用して、オーディオ/ビデオの指紋検索精度を改善する方法及び装置
US8171030B2 (en) * 2007-06-18 2012-05-01 Zeitera, Llc Method and apparatus for multi-dimensional content search and video identification
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
US8006314B2 (en) 2007-07-27 2011-08-23 Audible Magic Corporation System for identifying content of digital data
US8694511B1 (en) 2007-08-20 2014-04-08 Google Inc. Modifying search result ranking based on populations
US8238669B2 (en) * 2007-08-22 2012-08-07 Google Inc. Detection and classification of matches between time-based media
US7712150B2 (en) * 2007-10-01 2010-05-11 Pardillo Joseph M Protective pad assembly magnetically attachable to garment
US8909655B1 (en) 2007-10-11 2014-12-09 Google Inc. Time based ranking
KR100921867B1 (ko) * 2007-10-17 2009-10-13 광주과학기술원 광대역 오디오 신호 부호화 복호화 장치 및 그 방법
US8473283B2 (en) * 2007-11-02 2013-06-25 Soundhound, Inc. Pitch selection modules in a system for automatic transcription of sung or hummed melodies
US7865522B2 (en) 2007-11-07 2011-01-04 Napo Enterprises, Llc System and method for hyping media recommendations in a media recommendation system
US9060034B2 (en) 2007-11-09 2015-06-16 Napo Enterprises, Llc System and method of filtering recommenders in a media item recommendation system
KR100939215B1 (ko) * 2007-12-17 2010-01-28 한국전자통신연구원 인덱스 데이터베이스 생성 장치 및 검색 장치
US9224150B2 (en) 2007-12-18 2015-12-29 Napo Enterprises, Llc Identifying highly valued recommendations of users in a media recommendation network
US9130686B2 (en) * 2007-12-20 2015-09-08 Apple Inc. Tagging of broadcast content using a portable media device controlled by an accessory
US9734507B2 (en) 2007-12-20 2017-08-15 Napo Enterprise, Llc Method and system for simulating recommendations in a social network for an offline user
US8396951B2 (en) 2007-12-20 2013-03-12 Napo Enterprises, Llc Method and system for populating a content repository for an internet radio service based on a recommendation network
US8060525B2 (en) * 2007-12-21 2011-11-15 Napo Enterprises, Llc Method and system for generating media recommendations in a distributed environment based on tagging play history information with location information
US8316015B2 (en) 2007-12-21 2012-11-20 Lemi Technology, Llc Tunersphere
US8117193B2 (en) 2007-12-21 2012-02-14 Lemi Technology, Llc Tunersphere
WO2009086939A1 (en) * 2008-01-11 2009-07-16 Telefonaktiebolaget Lm Ericsson (Publ) Message handling in an ip multimedia subsystem
CA2713355C (en) * 2008-01-14 2014-05-06 Algo Communication Products Ltd. Methods and systems for searching audio records
WO2009107049A2 (en) * 2008-02-26 2009-09-03 Koninklijke Philips Electronics N.V. Content identification method
US10216761B2 (en) * 2008-03-04 2019-02-26 Oath Inc. Generating congruous metadata for multimedia
US9015842B2 (en) 2008-03-19 2015-04-21 Websense, Inc. Method and system for protection against information stealing software
US8407784B2 (en) * 2008-03-19 2013-03-26 Websense, Inc. Method and system for protection against information stealing software
US8370948B2 (en) * 2008-03-19 2013-02-05 Websense, Inc. System and method for analysis of electronic information dissemination events
US9130986B2 (en) * 2008-03-19 2015-09-08 Websense, Inc. Method and system for protection against information stealing software
US8312022B2 (en) 2008-03-21 2012-11-13 Ramp Holdings, Inc. Search engine optimization
US8725740B2 (en) * 2008-03-24 2014-05-13 Napo Enterprises, Llc Active playlist having dynamic media item groups
US8484311B2 (en) 2008-04-17 2013-07-09 Eloy Technology, Llc Pruning an aggregate media collection
US9106801B2 (en) 2008-04-25 2015-08-11 Sony Corporation Terminals, servers, and methods that find a media server to replace a sensed broadcast program/movie
DE102008022125A1 (de) * 2008-05-05 2009-11-19 Siemens Aktiengesellschaft Verfahren und Vorrichtung zur Klassifikation von schallerzeugenden Prozessen
US8346791B1 (en) 2008-05-16 2013-01-01 Google Inc. Search augmentation
US8275177B2 (en) * 2008-05-23 2012-09-25 Oracle America, Inc. System and method for media fingerprint indexing
GB2460306B (en) 2008-05-29 2013-02-13 Intrasonics Sarl Data embedding system
JP4327886B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
JP4327888B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
US20090305665A1 (en) * 2008-06-04 2009-12-10 Irwin Oliver Kennedy Method of identifying a transmitting device
US20090307084A1 (en) * 2008-06-10 2009-12-10 Integrated Media Measurement, Inc. Measuring Exposure To Media Across Multiple Media Delivery Mechanisms
US20090307061A1 (en) * 2008-06-10 2009-12-10 Integrated Media Measurement, Inc. Measuring Exposure To Media
WO2010006334A1 (en) 2008-07-11 2010-01-14 Videosurf, Inc. Apparatus and software system for and method of performing a visual-relevance-rank subsequent search
US20100023328A1 (en) * 2008-07-28 2010-01-28 Griffin Jr Paul P Audio Recognition System
US20100057545A1 (en) * 2008-08-28 2010-03-04 Daniel Jean System and method for sending sponsored message data in a communications network
CN101673262B (zh) * 2008-09-12 2012-10-10 未序网络科技(上海)有限公司 音频内容的搜索方法
US20100070537A1 (en) * 2008-09-17 2010-03-18 Eloy Technology, Llc System and method for managing a personalized universal catalog of media items
US20100082180A1 (en) * 2008-10-01 2010-04-01 Honeywell International Inc. Errant vehicle countermeasures
US8983677B2 (en) * 2008-10-01 2015-03-17 Honeywell International Inc. Acoustic fingerprinting of mechanical devices
US20170034586A1 (en) * 2008-10-08 2017-02-02 Wakingapp Ltd. System for content matching and triggering for reality-virtuality continuum-based environment and methods thereof
US8880599B2 (en) * 2008-10-15 2014-11-04 Eloy Technology, Llc Collection digest for a media sharing system
US8484227B2 (en) 2008-10-15 2013-07-09 Eloy Technology, Llc Caching and synching process for a media sharing system
US8121830B2 (en) 2008-10-24 2012-02-21 The Nielsen Company (Us), Llc Methods and apparatus to extract data encoded in media content
US9667365B2 (en) 2008-10-24 2017-05-30 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
GB2465141B (en) 2008-10-31 2014-01-22 Media Instr Sa Simulcast resolution in content matching systems
US20100205628A1 (en) 2009-02-12 2010-08-12 Davis Bruce L Media processing methods and arrangements
US9961388B2 (en) 2008-11-26 2018-05-01 David Harrison Exposure of public internet protocol addresses in an advertising exchange server to improve relevancy of advertisements
US10631068B2 (en) 2008-11-26 2020-04-21 Free Stream Media Corp. Content exposure attribution based on renderings of related content across multiple devices
US10880340B2 (en) 2008-11-26 2020-12-29 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US8508357B2 (en) 2008-11-26 2013-08-13 The Nielsen Company (Us), Llc Methods and apparatus to encode and decode audio for shopper location and advertisement presentation tracking
US10567823B2 (en) 2008-11-26 2020-02-18 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US8180891B1 (en) 2008-11-26 2012-05-15 Free Stream Media Corp. Discovery, access control, and communication with networked services from within a security sandbox
US10334324B2 (en) 2008-11-26 2019-06-25 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US10419541B2 (en) 2008-11-26 2019-09-17 Free Stream Media Corp. Remotely control devices over a network without authentication or registration
US10977693B2 (en) 2008-11-26 2021-04-13 Free Stream Media Corp. Association of content identifier of audio-visual data with additional data through capture infrastructure
US9154942B2 (en) 2008-11-26 2015-10-06 Free Stream Media Corp. Zero configuration communication between a browser and a networked media device
US9519772B2 (en) 2008-11-26 2016-12-13 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9986279B2 (en) 2008-11-26 2018-05-29 Free Stream Media Corp. Discovery, access control, and communication with networked services
US20100132122A1 (en) * 2008-12-02 2010-06-03 Dan Hollingshead Bed-Mounted Computer Terminal
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
US8433431B1 (en) 2008-12-02 2013-04-30 Soundhound, Inc. Displaying text to end users in coordination with audio playback
US8396865B1 (en) 2008-12-10 2013-03-12 Google Inc. Sharing search engine relevance data between corpora
US8200602B2 (en) 2009-02-02 2012-06-12 Napo Enterprises, Llc System and method for creating thematic listening experiences in a networked peer media recommendation environment
KR20110116201A (ko) * 2009-02-05 2011-10-25 디지맥 코포레이션 휴대 전화용 tv 위젯의 텔레비전 기반 광고 및 배포
US8312061B2 (en) * 2009-02-10 2012-11-13 Harman International Industries, Incorporated System for broadcast information database
US9009146B1 (en) 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
US9633117B2 (en) * 2009-04-27 2017-04-25 Hewlett Packard Enterprise Development Lp System and method for making a recommendation based on user data
CN104683827A (zh) 2009-05-01 2015-06-03 尼尔森(美国)有限公司 提供与主要广播媒体内容关联的辅助内容的方法和装置
WO2010135623A1 (en) * 2009-05-21 2010-11-25 Digimarc Corporation Robust signatures derived from local nonlinear filters
EP2433391A4 (en) 2009-05-21 2013-01-23 Digimarc Corp COMBINATION OF WATERMARK AND FINGERPRINT
US9130972B2 (en) * 2009-05-26 2015-09-08 Websense, Inc. Systems and methods for efficient detection of fingerprinted data and information
WO2010138776A2 (en) * 2009-05-27 2010-12-02 Spot411 Technologies, Inc. Audio-based synchronization to media
US8489774B2 (en) 2009-05-27 2013-07-16 Spot411 Technologies, Inc. Synchronized delivery of interactive content
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US9055335B2 (en) 2009-05-29 2015-06-09 Cognitive Networks, Inc. Systems and methods for addressing a media database using distance associative hashing
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US8769584B2 (en) 2009-05-29 2014-07-01 TVI Interactive Systems, Inc. Methods for displaying contextually targeted content on a connected television
US10116972B2 (en) 2009-05-29 2018-10-30 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US10375451B2 (en) 2009-05-29 2019-08-06 Inscape Data, Inc. Detection of common media segments
US8713068B2 (en) * 2009-06-11 2014-04-29 Yahoo! Inc. Media identification system with fingerprint database balanced according to search loads
US8620967B2 (en) 2009-06-11 2013-12-31 Rovi Technologies Corporation Managing metadata for occurrences of a recording
US8635211B2 (en) * 2009-06-11 2014-01-21 Dolby Laboratories Licensing Corporation Trend analysis in content identification based on fingerprinting
US20100319043A1 (en) * 2009-06-11 2010-12-16 Microsoft Corporation Interactive television architecture
US8381290B2 (en) * 2009-07-17 2013-02-19 Exelis Inc. Intrusion detection systems and methods
US8447760B1 (en) 2009-07-20 2013-05-21 Google Inc. Generating a related set of documents for an initial set of documents
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
JP5440051B2 (ja) * 2009-09-11 2014-03-12 株式会社Jvcケンウッド コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置
US20110069937A1 (en) * 2009-09-18 2011-03-24 Laura Toerner Apparatus, system and method for identifying advertisements from a broadcast source and providing functionality relating to the same
EP3413314B1 (en) * 2009-09-30 2021-05-12 Rovi Guides, Inc. Systems and methods for identifying audio content using an interactive media guidance application
US8161071B2 (en) 2009-09-30 2012-04-17 United Video Properties, Inc. Systems and methods for audio asset storage and management
US8677400B2 (en) 2009-09-30 2014-03-18 United Video Properties, Inc. Systems and methods for identifying audio content using an interactive media guidance application
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US8706276B2 (en) 2009-10-09 2014-04-22 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for identifying matching audio
US8521779B2 (en) 2009-10-09 2013-08-27 Adelphoi Limited Metadata record generation
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US9218530B2 (en) 2010-11-04 2015-12-22 Digimarc Corporation Smartphone-based methods and systems
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US8175617B2 (en) 2009-10-28 2012-05-08 Digimarc Corporation Sensor-based mobile search, related methods and systems
US8594392B2 (en) * 2009-11-18 2013-11-26 Yahoo! Inc. Media identification system for efficient matching of media items having common content
US8874555B1 (en) 2009-11-20 2014-10-28 Google Inc. Modifying scoring data based on historical changes
EP2541963B1 (en) * 2009-12-29 2021-03-17 Inscape Data, Inc. Method for identifying video segments and displaying contextually targeted content on a connected television
US20110173185A1 (en) * 2010-01-13 2011-07-14 Rovi Technologies Corporation Multi-stage lookup for rolling audio recognition
US8886531B2 (en) * 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US8615514B1 (en) 2010-02-03 2013-12-24 Google Inc. Evaluating website properties by partitioning user feedback
US8731943B2 (en) * 2010-02-05 2014-05-20 Little Wing World LLC Systems, methods and automated technologies for translating words into music and creating music pieces
US8924379B1 (en) 2010-03-05 2014-12-30 Google Inc. Temporal-based score adjustments
US8959093B1 (en) 2010-03-15 2015-02-17 Google Inc. Ranking search results based on anchors
US20110238679A1 (en) * 2010-03-24 2011-09-29 Rovi Technologies Corporation Representing text and other types of content by using a frequency domain
US8725766B2 (en) * 2010-03-25 2014-05-13 Rovi Technologies Corporation Searching text and other types of content by using a frequency domain
US8560583B2 (en) 2010-04-01 2013-10-15 Sony Computer Entertainment Inc. Media fingerprinting for social networking
US9264785B2 (en) * 2010-04-01 2016-02-16 Sony Computer Entertainment Inc. Media fingerprinting for content determination and retrieval
AU2011239567A1 (en) * 2010-04-14 2012-12-06 Sven Riethmueller Platform-independent interactivity with media broadcasts
US20120191231A1 (en) * 2010-05-04 2012-07-26 Shazam Entertainment Ltd. Methods and Systems for Identifying Content in Data Stream by a Client Device
US9159338B2 (en) 2010-05-04 2015-10-13 Shazam Entertainment Ltd. Systems and methods of rendering a textual animation
KR20130029082A (ko) 2010-05-04 2013-03-21 샤잠 엔터테인먼트 리미티드 미디어 스트림의 샘플을 처리하는 방법 및 시스템
KR101582436B1 (ko) * 2010-05-04 2016-01-04 샤잠 엔터테인먼트 리미티드 미디어의 동기화 방법 및 시스템
US20110276882A1 (en) 2010-05-04 2011-11-10 Kai Buehler Automatic grouping for users experiencing a specific broadcast media
US9508011B2 (en) * 2010-05-10 2016-11-29 Videosurf, Inc. Video visual and audio query
US9413477B2 (en) 2010-05-10 2016-08-09 Microsoft Technology Licensing, Llc Screen detector
US9311708B2 (en) 2014-04-23 2016-04-12 Microsoft Technology Licensing, Llc Collaborative alignment of images
US9838753B2 (en) 2013-12-23 2017-12-05 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US10192138B2 (en) 2010-05-27 2019-01-29 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
WO2011154722A1 (en) * 2010-06-09 2011-12-15 Adelphoi Limited System and method for audio media recognition
US20110307786A1 (en) * 2010-06-11 2011-12-15 Brian Shuster Method and apparatus for bookmarking and retrieval of video content
US20110320944A1 (en) * 2010-06-29 2011-12-29 Nokia Corporation Systems, methods, and apparatuses for generating an integrated user interface
US9623119B1 (en) 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US9143699B2 (en) 2010-07-13 2015-09-22 Sony Computer Entertainment Inc. Overlay non-video content on a mobile device
US8730354B2 (en) 2010-07-13 2014-05-20 Sony Computer Entertainment Inc Overlay video content on a mobile device
US9814977B2 (en) 2010-07-13 2017-11-14 Sony Interactive Entertainment Inc. Supplemental video content on a mobile device
US9159165B2 (en) 2010-07-13 2015-10-13 Sony Computer Entertainment Inc. Position-dependent gaming, 3-D controller, and handheld as a remote
US9832441B2 (en) 2010-07-13 2017-11-28 Sony Interactive Entertainment Inc. Supplemental content on a mobile device
US8832083B1 (en) 2010-07-23 2014-09-09 Google Inc. Combining user feedback
US9047371B2 (en) 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
US9876905B2 (en) 2010-09-29 2018-01-23 Genesys Telecommunications Laboratories, Inc. System for initiating interactive communication in response to audio codes
KR20120034378A (ko) * 2010-10-01 2012-04-12 엔에이치엔(주) 사운드 인식을 통한 광고 정보 제공 시스템 및 방법
JP5728888B2 (ja) * 2010-10-29 2015-06-03 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8716584B1 (en) * 2010-11-01 2014-05-06 James W. Wieder Using recognition-segments to find and play a composition containing sound
US8863165B2 (en) * 2010-11-01 2014-10-14 Gracenote, Inc. Method and system for presenting additional content at a media system
US8762852B2 (en) * 2010-11-04 2014-06-24 Digimarc Corporation Smartphone-based methods and systems
US9484046B2 (en) 2010-11-04 2016-11-01 Digimarc Corporation Smartphone-based methods and systems
US8346792B1 (en) 2010-11-09 2013-01-01 Google Inc. Query generation using structural similarity between documents
US8584198B2 (en) * 2010-11-12 2013-11-12 Google Inc. Syndication including melody recognition and opt out
TWI759223B (zh) * 2010-12-03 2022-03-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US8989395B2 (en) * 2010-12-07 2015-03-24 Empire Technology Development Llc Audio fingerprint differences for end-to-end quality of experience measurement
US20120158769A1 (en) * 2010-12-15 2012-06-21 Dish Network L.L.C. Music distribution and identification systems and methods
EP2793223B1 (en) 2010-12-30 2016-05-25 Dolby International AB Ranking representative segments in media data
US9002867B1 (en) 2010-12-30 2015-04-07 Google Inc. Modifying ranking data based on document changes
WO2012120531A2 (en) 2011-02-02 2012-09-13 Makarand Prabhakar Karanjkar A method for fast and accurate audio content match detection
US9093120B2 (en) 2011-02-10 2015-07-28 Yahoo! Inc. Audio fingerprint extraction by scaling in time and resampling
CN103562909A (zh) * 2011-02-18 2014-02-05 沙扎姆娱乐有限公司 客户端设备识别数据流的内容的方法及系统
US20120224711A1 (en) * 2011-03-04 2012-09-06 Qualcomm Incorporated Method and apparatus for grouping client devices based on context similarity
US8589171B2 (en) 2011-03-17 2013-11-19 Remote Media, Llc System and method for custom marking a media file for file matching
US8688631B2 (en) 2011-03-17 2014-04-01 Alexander Savenok System and method for media file synchronization
US8478719B2 (en) 2011-03-17 2013-07-02 Remote Media LLC System and method for media file synchronization
US9196028B2 (en) 2011-09-23 2015-11-24 Digimarc Corporation Context-based smartphone sensor logic
US9380356B2 (en) 2011-04-12 2016-06-28 The Nielsen Company (Us), Llc Methods and apparatus to generate a tag for media content
US8937537B2 (en) 2011-04-29 2015-01-20 Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America Method and system for utilizing spread spectrum techniques for in car applications
US8612390B2 (en) * 2011-05-02 2013-12-17 Microsoft Corporation Lightweight caching of transaction log for sequential access
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
US8996557B2 (en) * 2011-05-18 2015-03-31 Microsoft Technology Licensing, Llc Query and matching for content recognition
ES2459391T3 (es) 2011-06-06 2014-05-09 Bridge Mediatech, S.L. Método y sistema para conseguir hashing de audio invariante al canal
CA2837741A1 (en) 2011-06-08 2012-12-13 Shazam Entertainment Ltd. Methods and systems for performing comparisons of received data and providing a follow-on service based on the comparisons
WO2012170353A1 (en) 2011-06-10 2012-12-13 Shazam Entertainment Ltd. Methods and systems for identifying content in a data stream
US9209978B2 (en) 2012-05-15 2015-12-08 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US9210208B2 (en) 2011-06-21 2015-12-08 The Nielsen Company (Us), Llc Monitoring streaming media content
US9953039B2 (en) * 2011-07-19 2018-04-24 Disney Enterprises, Inc. Method and system for providing a compact graphical user interface for flexible filtering of data
US8564684B2 (en) * 2011-08-17 2013-10-22 Digimarc Corporation Emotional illumination, and related arrangements
US9461759B2 (en) 2011-08-30 2016-10-04 Iheartmedia Management Services, Inc. Identification of changed broadcast media items
US9374183B2 (en) 2011-08-30 2016-06-21 Iheartmedia Management Services, Inc. Broadcast source identification based on matching via bit count
US8639178B2 (en) 2011-08-30 2014-01-28 Clear Channel Management Sevices, Inc. Broadcast source identification based on matching broadcast signal fingerprints
US9049496B2 (en) * 2011-09-01 2015-06-02 Gracenote, Inc. Media source identification
US8498627B2 (en) 2011-09-15 2013-07-30 Digimarc Corporation Intuitive computing methods and systems
US20130111514A1 (en) * 2011-09-16 2013-05-02 Umami Co. Second screen interactive platform
US9113202B1 (en) * 2011-09-21 2015-08-18 Google Inc. Inverted client-side fingerprinting and matching
US9460465B2 (en) 2011-09-21 2016-10-04 Genesys Telecommunications Laboratories, Inc. Graphical menu builder for encoding applications in an image
CA2849974C (en) * 2011-09-26 2021-04-13 Sirius Xm Radio Inc. System and method for increasing transmission bandwidth efficiency ("ebt2")
US8433577B2 (en) * 2011-09-27 2013-04-30 Google Inc. Detection of creative works on broadcast media
US9384272B2 (en) 2011-10-05 2016-07-05 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for identifying similar songs using jumpcodes
US9402099B2 (en) * 2011-10-14 2016-07-26 Digimarc Corporation Arrangements employing content identification and/or distribution identification data
US9223893B2 (en) 2011-10-14 2015-12-29 Digimarc Corporation Updating social graph data using physical objects identified from images captured by smartphone
US9098576B1 (en) * 2011-10-17 2015-08-04 Google Inc. Ensemble interest point detection for audio matching
US8909667B2 (en) 2011-11-01 2014-12-09 Lemi Technology, Llc Systems, methods, and computer readable media for generating recommendations in a media recommendation system
US8886543B1 (en) * 2011-11-15 2014-11-11 Google Inc. Frequency ratio fingerprint characterization for audio matching
CN102508916B (zh) * 2011-11-21 2013-08-14 电子科技大学 一种海量数据的文件指纹分析方法
US9286942B1 (en) * 2011-11-28 2016-03-15 Codentity, Llc Automatic calculation of digital media content durations optimized for overlapping or adjoined transitions
US9696336B2 (en) 2011-11-30 2017-07-04 The Nielsen Company (Us), Llc Multiple meter detection and processing using motion data
US8586847B2 (en) * 2011-12-02 2013-11-19 The Echo Nest Corporation Musical fingerprinting based on onset intervals
EP2600545A1 (en) * 2011-12-02 2013-06-05 Waterford Institute Of Technology Research data measurement system and method
US8492633B2 (en) 2011-12-02 2013-07-23 The Echo Nest Corporation Musical fingerprinting
JP2013117688A (ja) * 2011-12-05 2013-06-13 Sony Corp 音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システム
DE102011087843B4 (de) * 2011-12-06 2013-07-11 Continental Automotive Gmbh Verfahren und System zur Auswahl mindestens eines Datensatzes aus einer relationalen Datenbank
US9116928B1 (en) * 2011-12-09 2015-08-25 Google Inc. Identifying features for media file comparison
CN103999150B (zh) * 2011-12-12 2016-10-19 杜比实验室特许公司 媒体数据中的低复杂度重复检测
US8977194B2 (en) 2011-12-16 2015-03-10 The Nielsen Company (Us), Llc Media exposure and verification utilizing inductive coupling
US8538333B2 (en) 2011-12-16 2013-09-17 Arbitron Inc. Media exposure linking utilizing bluetooth signal characteristics
US8892572B2 (en) * 2011-12-30 2014-11-18 Cellco Partnership Video search system and method of use
US10078690B2 (en) * 2011-12-31 2018-09-18 Thomson Licensing Dtv Method and device for presenting content
US20130178966A1 (en) * 2012-01-09 2013-07-11 Function(x), Inc. Method and System for Identifying a Media Program From an Audio Signal Associated With the Media Program
US9210467B2 (en) 2012-02-07 2015-12-08 Turner Broadcasting System, Inc. Method and system for a universal remote control
US9384734B1 (en) * 2012-02-24 2016-07-05 Google Inc. Real-time audio recognition using multiple recognizers
US9519909B2 (en) 2012-03-01 2016-12-13 The Nielsen Company (Us), Llc Methods and apparatus to identify users of handheld computing devices
US9684715B1 (en) * 2012-03-08 2017-06-20 Google Inc. Audio identification using ordinal transformation
US9292894B2 (en) 2012-03-14 2016-03-22 Digimarc Corporation Content recognition and synchronization using local caching
US8965766B1 (en) * 2012-03-15 2015-02-24 Google Inc. Systems and methods for identifying music in a noisy environment
US8768003B2 (en) 2012-03-26 2014-07-01 The Nielsen Company (Us), Llc Media monitoring using multiple types of signatures
US8681950B2 (en) 2012-03-28 2014-03-25 Interactive Intelligence, Inc. System and method for fingerprinting datasets
US9202472B1 (en) * 2012-03-29 2015-12-01 Google Inc. Magnitude ratio descriptors for pitch-resistant audio matching
CN102663090B (zh) 2012-04-10 2013-11-06 华为技术有限公司 元数据查询方法和装置
US8473975B1 (en) 2012-04-16 2013-06-25 The Nielsen Company (Us), Llc Methods and apparatus to detect user attentiveness to handheld computing devices
US9052986B1 (en) * 2012-04-18 2015-06-09 Google Inc. Pitch shift resistant audio matching
US8953811B1 (en) * 2012-04-18 2015-02-10 Google Inc. Full digest of an audio file for identifying duplicates
WO2014020449A2 (en) * 2012-05-10 2014-02-06 Magiktunes Limited Identifying audio stream content
US9418669B2 (en) * 2012-05-13 2016-08-16 Harry E. Emerson, III Discovery of music artist and title for syndicated content played by radio stations
US8886635B2 (en) 2012-05-23 2014-11-11 Enswers Co., Ltd. Apparatus and method for recognizing content using audio signal
KR101315970B1 (ko) * 2012-05-23 2013-10-08 (주)엔써즈 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법
US9235867B2 (en) * 2012-06-04 2016-01-12 Microsoft Technology Licensing, Llc Concurrent media delivery
US9118951B2 (en) 2012-06-26 2015-08-25 Arris Technology, Inc. Time-synchronizing a parallel feed of secondary content with primary media content
US9213703B1 (en) * 2012-06-26 2015-12-15 Google Inc. Pitch shift and time stretch resistant audio matching
US9628829B2 (en) 2012-06-26 2017-04-18 Google Technology Holdings LLC Identifying media on a mobile device
KR102040199B1 (ko) 2012-07-11 2019-11-05 한국전자통신연구원 오디오 품질 측정 장치 및 그 방법
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US20140041054A1 (en) * 2012-08-01 2014-02-06 Microsoft Corporation Attestation of possession of media content items using fingerprints
US9282366B2 (en) 2012-08-13 2016-03-08 The Nielsen Company (Us), Llc Methods and apparatus to communicate audience measurement information
CN103593356A (zh) * 2012-08-16 2014-02-19 丁瑞彭 基于多媒体信息指纹技术的信息搜索方法、系统和应用
GB201214842D0 (en) * 2012-08-21 2012-10-03 Omnifone Ltd Content tracker
US20140074466A1 (en) 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US9081778B2 (en) 2012-09-25 2015-07-14 Audible Magic Corporation Using digital fingerprints to associate data with a work
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
US9549253B2 (en) 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US9955277B1 (en) 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
US9554203B1 (en) * 2012-09-26 2017-01-24 Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) Sound source characterization apparatuses, methods and systems
JP2014067292A (ja) * 2012-09-26 2014-04-17 Toshiba Corp 情報処理装置及び情報処理方法
US20160210957A1 (en) 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
US20140095161A1 (en) * 2012-09-28 2014-04-03 At&T Intellectual Property I, L.P. System and method for channel equalization using characteristics of an unknown signal
US9460204B2 (en) * 2012-10-19 2016-10-04 Sony Corporation Apparatus and method for scene change detection-based trigger for audio fingerprinting analysis
US9992729B2 (en) 2012-10-22 2018-06-05 The Nielsen Company (Us), Llc Systems and methods for wirelessly modifying detection characteristics of portable devices
US9064318B2 (en) 2012-10-25 2015-06-23 Adobe Systems Incorporated Image matting and alpha value techniques
US8735708B1 (en) 2012-10-28 2014-05-27 Google Inc. System and method for synchronizing tag history
US9355649B2 (en) * 2012-11-13 2016-05-31 Adobe Systems Incorporated Sound alignment using timing information
US10638221B2 (en) 2012-11-13 2020-04-28 Adobe Inc. Time interval sound alignment
EP2731030A1 (en) * 2012-11-13 2014-05-14 Samsung Electronics Co., Ltd Music information searching method and apparatus thereof
US9201580B2 (en) 2012-11-13 2015-12-01 Adobe Systems Incorporated Sound alignment user interface
US9027048B2 (en) * 2012-11-14 2015-05-05 Bank Of America Corporation Automatic deal or promotion offering based on audio cues
US9076205B2 (en) 2012-11-19 2015-07-07 Adobe Systems Incorporated Edge direction and curve based image de-blurring
US10249321B2 (en) 2012-11-20 2019-04-02 Adobe Inc. Sound rate modification
US10366419B2 (en) 2012-11-27 2019-07-30 Roland Storti Enhanced digital media platform with user control of application data thereon
US10339936B2 (en) 2012-11-27 2019-07-02 Roland Storti Method, device and system of encoding a digital interactive response action in an analog broadcasting message
US9106953B2 (en) 2012-11-28 2015-08-11 The Nielsen Company (Us), Llc Media monitoring based on predictive signature caching
US9451304B2 (en) 2012-11-29 2016-09-20 Adobe Systems Incorporated Sound feature priority alignment
US10455219B2 (en) 2012-11-30 2019-10-22 Adobe Inc. Stereo correspondence and depth sensors
CA2875354C (en) 2012-11-30 2018-04-10 The Nielsen Company (Us), Llc Multiple meter detection and processing using motion data
US9135710B2 (en) 2012-11-30 2015-09-15 Adobe Systems Incorporated Depth map stereo correspondence techniques
US9241259B2 (en) 2012-11-30 2016-01-19 Websense, Inc. Method and apparatus for managing the transfer of sensitive information to mobile devices
US9912713B1 (en) 2012-12-17 2018-03-06 MiMedia LLC Systems and methods for providing dynamically updated image sets for applications
US10249052B2 (en) 2012-12-19 2019-04-02 Adobe Systems Incorporated Stereo correspondence model fitting
US9208547B2 (en) 2012-12-19 2015-12-08 Adobe Systems Incorporated Stereo correspondence smoothness tool
US9214026B2 (en) 2012-12-20 2015-12-15 Adobe Systems Incorporated Belief propagation and affinity measures
US9159327B1 (en) * 2012-12-20 2015-10-13 Google Inc. System and method for adding pitch shift resistance to an audio fingerprint
US9183849B2 (en) 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
US9195649B2 (en) 2012-12-21 2015-11-24 The Nielsen Company (Us), Llc Audio processing techniques for semantic audio recognition and report generation
US9158760B2 (en) 2012-12-21 2015-10-13 The Nielsen Company (Us), Llc Audio decoding with supplemental semantic audio recognition and report generation
US9154841B2 (en) 2012-12-28 2015-10-06 Turner Broadcasting System, Inc. Method and system for detecting and resolving conflicts in an automatic content recognition based system
US9529907B2 (en) * 2012-12-31 2016-12-27 Google Inc. Hold back and real time ranking of results in a streaming matching system
US9706252B2 (en) 2013-02-04 2017-07-11 Universal Electronics Inc. System and method for user monitoring and intent determination
CN103970793B (zh) 2013-02-04 2020-03-03 腾讯科技(深圳)有限公司 信息查询方法、客户端及服务器
CN103971689B (zh) * 2013-02-04 2016-01-27 腾讯科技(深圳)有限公司 一种音频识别方法及装置
US9099080B2 (en) 2013-02-06 2015-08-04 Muzak Llc System for targeting location-based communications
US9313544B2 (en) 2013-02-14 2016-04-12 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US9008490B1 (en) 2013-02-25 2015-04-14 Google Inc. Melody recognition systems
US9223297B2 (en) 2013-02-28 2015-12-29 The Nielsen Company (Us), Llc Systems and methods for identifying a user of an electronic device
US9344759B2 (en) 2013-03-05 2016-05-17 Google Inc. Associating audio tracks of an album with video content
US9275625B2 (en) * 2013-03-06 2016-03-01 Qualcomm Incorporated Content based noise suppression
US9307337B2 (en) 2013-03-11 2016-04-05 Arris Enterprises, Inc. Systems and methods for interactive broadcast content
US9301070B2 (en) 2013-03-11 2016-03-29 Arris Enterprises, Inc. Signature matching of corrupted audio signal
US9451048B2 (en) 2013-03-12 2016-09-20 Shazam Investments Ltd. Methods and systems for identifying information of a broadcast station and information of broadcasted content
US9298758B1 (en) 2013-03-13 2016-03-29 MiMedia, Inc. Systems and methods providing media-to-media connection
US9465521B1 (en) 2013-03-13 2016-10-11 MiMedia, Inc. Event based media interface
US9384273B1 (en) * 2013-03-14 2016-07-05 Google Inc. Compressed patch features for audio fingerprinting
US9153239B1 (en) * 2013-03-14 2015-10-06 Google Inc. Differentiating between near identical versions of a song
BR112015023369B1 (pt) * 2013-03-15 2022-04-05 Inscape Data, Inc Sistema e método implementado por computador
US9773058B2 (en) 2013-03-15 2017-09-26 Shazam Investments Ltd. Methods and systems for arranging and searching a database of media content recordings
US20140278845A1 (en) 2013-03-15 2014-09-18 Shazam Investments Limited Methods and Systems for Identifying Target Media Content and Determining Supplemental Information about the Target Media Content
US8990638B1 (en) 2013-03-15 2015-03-24 Digimarc Corporation Self-stabilizing network nodes in mobile discovery system
US9390170B2 (en) 2013-03-15 2016-07-12 Shazam Investments Ltd. Methods and systems for arranging and searching a database of media content recordings
US10257301B1 (en) 2013-03-15 2019-04-09 MiMedia, Inc. Systems and methods providing a drive interface for content delivery
US9183232B1 (en) 2013-03-15 2015-11-10 MiMedia, Inc. Systems and methods for organizing content using content organization rules and robust content information
US9223458B1 (en) 2013-03-21 2015-12-29 Amazon Technologies, Inc. Techniques for transitioning between playback of media files
WO2014169238A1 (en) 2013-04-11 2014-10-16 Digimarc Corporation Methods for object recognition and related arrangements
US9183499B1 (en) 2013-04-19 2015-11-10 Google Inc. Evaluating quality based on neighbor features
US9305038B2 (en) * 2013-04-19 2016-04-05 International Business Machines Corporation Indexing of significant media granulars
CN104125509B (zh) * 2013-04-28 2015-09-30 腾讯科技(深圳)有限公司 节目识别方法、装置及服务器
US9123330B1 (en) * 2013-05-01 2015-09-01 Google Inc. Large-scale speaker identification
US10157618B2 (en) 2013-05-02 2018-12-18 Xappmedia, Inc. Device, system, method, and computer-readable medium for providing interactive advertising
US9460201B2 (en) 2013-05-06 2016-10-04 Iheartmedia Management Services, Inc. Unordered matching of audio fingerprints
US20140336797A1 (en) * 2013-05-12 2014-11-13 Harry E. Emerson, III Audio content monitoring and identification of broadcast radio stations
US20140336799A1 (en) * 2013-05-13 2014-11-13 Harry E. Emerson, III Discovery of music artist and title via companionship between a cellular phone and a broadcast radio receiver
JP2016526826A (ja) 2013-06-20 2016-09-05 トムソン ライセンシングThomson Licensing コンテンツの分散型再生の同期化を支援するシステム及び方法
US20150312369A1 (en) * 2013-06-26 2015-10-29 Intel Corporation Checkpoints for media buffering
US20150039321A1 (en) 2013-07-31 2015-02-05 Arbitron Inc. Apparatus, System and Method for Reading Codes From Digital Audio on a Processing Device
US9711152B2 (en) 2013-07-31 2017-07-18 The Nielsen Company (Us), Llc Systems apparatus and methods for encoding/decoding persistent universal media codes to encoded audio
US9542488B2 (en) 2013-08-02 2017-01-10 Google Inc. Associating audio tracks with video content
US9373320B1 (en) * 2013-08-21 2016-06-21 Google Inc. Systems and methods facilitating selective removal of content from a mixed audio recording
CN103440330A (zh) * 2013-09-03 2013-12-11 网易(杭州)网络有限公司 一种音乐节目信息获取方法和设备
US9275427B1 (en) * 2013-09-05 2016-03-01 Google Inc. Multi-channel audio video fingerprinting
US10014006B1 (en) 2013-09-10 2018-07-03 Ampersand, Inc. Method of determining whether a phone call is answered by a human or by an automated device
US9053711B1 (en) 2013-09-10 2015-06-09 Ampersand, Inc. Method of matching a digitized stream of audio signals to a known audio recording
CN103442083A (zh) * 2013-09-10 2013-12-11 百度在线网络技术(北京)有限公司 音频文件传输关联内容的方法、系统、客户端和服务器
TW201513095A (zh) * 2013-09-23 2015-04-01 Hon Hai Prec Ind Co Ltd 語音處理系統、裝置及方法
US9507849B2 (en) 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US9275136B1 (en) 2013-12-03 2016-03-01 Google Inc. Method for siren detection based on audio samples
US9354778B2 (en) 2013-12-06 2016-05-31 Digimarc Corporation Smartphone-based methods and systems
US9286902B2 (en) * 2013-12-16 2016-03-15 Gracenote, Inc. Audio fingerprinting
US9466310B2 (en) 2013-12-20 2016-10-11 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Compensating for identifiable background content in a speech recognition device
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US9426525B2 (en) 2013-12-31 2016-08-23 The Nielsen Company (Us), Llc. Methods and apparatus to count people in an audience
US9292488B2 (en) 2014-02-01 2016-03-22 Soundhound, Inc. Method for embedding voice mail in a spoken utterance using a natural language processing computer system
US9311639B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods, apparatus and arrangements for device to device communication
WO2015124211A1 (en) 2014-02-24 2015-08-27 Widex A/S Hearing aid with assisted noise suppression
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
CN103853836B (zh) * 2014-03-14 2017-01-25 广州酷狗计算机科技有限公司 一种基于音乐指纹特征的音乐检索方法及系统
US10430985B2 (en) 2014-03-14 2019-10-01 Magic Leap, Inc. Augmented reality systems and methods utilizing reflections
US9438940B2 (en) 2014-04-07 2016-09-06 The Nielsen Company (Us), Llc Methods and apparatus to identify media using hash keys
CN104978968A (zh) * 2014-04-11 2015-10-14 鸿富锦精密工业(深圳)有限公司 水印加载装置及水印加载的方法
US20150302458A1 (en) * 2014-04-16 2015-10-22 Ebay Inc. Identifying advertisements based on audio data and performing associated tasks
US9699499B2 (en) 2014-04-30 2017-07-04 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US9564123B1 (en) 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
US9590755B2 (en) 2014-05-16 2017-03-07 Alphonso Inc. Efficient apparatus and method for audio signature generation using audio threshold
CN104023247B (zh) 2014-05-29 2015-07-29 腾讯科技(深圳)有限公司 获取、推送信息的方法和装置以及信息交互系统
US9905233B1 (en) 2014-08-07 2018-02-27 Digimarc Corporation Methods and apparatus for facilitating ambient content recognition using digital watermarks, and related arrangements
WO2016024172A1 (en) 2014-08-14 2016-02-18 Yandex Europe Ag Method of and a system for matching audio tracks using chromaprints with a fast candidate selection routine
US9881083B2 (en) 2014-08-14 2018-01-30 Yandex Europe Ag Method of and a system for indexing audio tracks using chromaprints
US10748539B2 (en) 2014-09-10 2020-08-18 Crestron Electronics, Inc. Acoustic sensory network
US10204622B2 (en) 2015-09-10 2019-02-12 Crestron Electronics, Inc. Acoustic sensory network
CN104361889B (zh) * 2014-10-28 2018-03-16 北京音之邦文化科技有限公司 一种对音频文件进行处理的方法及装置
US20160132600A1 (en) * 2014-11-07 2016-05-12 Shazam Investments Limited Methods and Systems for Performing Content Recognition for a Surge of Incoming Recognition Queries
EP3023884A1 (en) * 2014-11-21 2016-05-25 Thomson Licensing Method and apparatus for generating fingerprint of an audio signal
US9837101B2 (en) * 2014-11-25 2017-12-05 Facebook, Inc. Indexing based on time-variant transforms of an audio signal's spectrogram
WO2016085414A1 (en) * 2014-11-27 2016-06-02 JOHN SMITH s.r.o. Method to lower decline in watching channels during commercial breaks and a connection
US9363562B1 (en) 2014-12-01 2016-06-07 Stingray Digital Group Inc. Method and system for authorizing a user device
AU2015355209B2 (en) * 2014-12-01 2019-08-29 Inscape Data, Inc. System and method for continuous media segment identification
WO2016086905A1 (es) * 2014-12-05 2016-06-09 Monitoreo Tecnológico, S.A Método de medición de audiencias
US10860645B2 (en) 2014-12-31 2020-12-08 Pcms Holdings, Inc. Systems and methods for creation of a listening log and music library
US10333696B2 (en) 2015-01-12 2019-06-25 X-Prime, Inc. Systems and methods for implementing an efficient, scalable homomorphic transformation of encrypted data with minimal data expansion and improved processing efficiency
CN108337925B (zh) 2015-01-30 2024-02-27 构造数据有限责任公司 用于识别视频片段以及显示从替代源和/或在替代设备上观看的选项的方法
US10929464B1 (en) * 2015-02-04 2021-02-23 Google Inc. Employing entropy information to facilitate determining similarity between content items
US10360583B2 (en) 2015-02-05 2019-07-23 Direct Path, Llc System and method for direct response advertising
US10269392B2 (en) 2015-02-11 2019-04-23 Immersion Corporation Automated haptic effect accompaniment
US10142471B2 (en) * 2015-03-02 2018-11-27 Genesys Telecommunications Laboratories, Inc. System and method for call progress detection
US9955274B2 (en) 2015-04-08 2018-04-24 The Boeing Company Vibration monitoring systems
CA2982797C (en) 2015-04-17 2023-03-14 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
EP3255633B1 (en) 2015-04-27 2019-06-19 Samsung Electronics Co., Ltd. Audio content recognition method and device
CN106294331B (zh) 2015-05-11 2020-01-21 阿里巴巴集团控股有限公司 音频信息检索方法及装置
GB201508963D0 (en) 2015-05-26 2015-07-01 Geo Track Identifier Gmbh Audio identification method
US9762965B2 (en) 2015-05-29 2017-09-12 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US10323612B2 (en) 2015-06-12 2019-06-18 Ford Global Technologies, Llc Methods and systems for dual fuel injection
US10094320B2 (en) 2015-06-23 2018-10-09 Ford Global Technologies, Llc Methods and systems for dual fuel injection
CA2990888A1 (en) 2015-06-30 2017-01-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and device for generating a database
KR20180030885A (ko) * 2015-07-16 2018-03-26 인스케이프 데이터, 인코포레이티드 미디어 세그먼트를 식별함에 있어 향상된 효율성을 위해 검색 인덱스를 나누는 시스템 및 방법
WO2017011792A1 (en) 2015-07-16 2017-01-19 Vizio Inscape Technologies, Llc Prediction of future views of video segments to optimize system resource utilization
CN108293140B (zh) 2015-07-16 2020-10-02 构造数据有限责任公司 公共媒体段的检测
WO2017011770A1 (en) * 2015-07-16 2017-01-19 Vizio Inscape Technologies, Llc System and method for improving work load management in acr television monitoring system
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
US9900636B2 (en) 2015-08-14 2018-02-20 The Nielsen Company (Us), Llc Reducing signature matching uncertainty in media monitoring systems
US9654891B2 (en) 2015-09-15 2017-05-16 D&M Holdings, Inc. System and method for determining proximity of a controller to a media rendering device
CN106558318B (zh) * 2015-09-24 2020-04-28 阿里巴巴集团控股有限公司 音频识别方法和系统
US9769607B2 (en) 2015-09-24 2017-09-19 Cisco Technology, Inc. Determining proximity of computing devices using ultrasonic audio signatures
US9978366B2 (en) * 2015-10-09 2018-05-22 Xappmedia, Inc. Event-based speech interactive media player
TWI579716B (zh) * 2015-12-01 2017-04-21 Chunghwa Telecom Co Ltd Two - level phrase search system and method
US10594689B1 (en) 2015-12-04 2020-03-17 Digimarc Corporation Robust encoding of machine readable information in host objects and biometrics, and associated decoding and authentication
US9516373B1 (en) 2015-12-21 2016-12-06 Max Abecassis Presets of synchronized second screen functions
US10089987B2 (en) * 2015-12-21 2018-10-02 Invensense, Inc. Music detection and identification
US9596502B1 (en) 2015-12-21 2017-03-14 Max Abecassis Integration of multiple synchronization methodologies
CN105589970A (zh) * 2015-12-25 2016-05-18 小米科技有限责任公司 音乐搜索方法和装置
CN113156650A (zh) 2016-01-19 2021-07-23 奇跃公司 利用映像的增强现实系统和方法
US9848235B1 (en) 2016-02-22 2017-12-19 Sorenson Media, Inc Video fingerprinting based on fourier transform of histogram
KR20170101500A (ko) * 2016-02-29 2017-09-06 한국전자통신연구원 노이즈 제거를 통한 오디오 신호 식별 방법 및 장치
WO2017151443A1 (en) * 2016-02-29 2017-09-08 Myteamcalls Llc Systems and methods for customized live-streaming commentary
US9924222B2 (en) * 2016-02-29 2018-03-20 Gracenote, Inc. Media channel identification with multi-match detection and disambiguation based on location
US9930406B2 (en) 2016-02-29 2018-03-27 Gracenote, Inc. Media channel identification with video multi-match detection and disambiguation based on audio fingerprint
US10063918B2 (en) 2016-02-29 2018-08-28 Gracenote, Inc. Media channel identification with multi-match detection and disambiguation based on single-match
US9959885B2 (en) 2016-03-08 2018-05-01 Samsung Eletrônica Da Amazônia Ltda Method for user context recognition using sound signatures
US9786298B1 (en) 2016-04-08 2017-10-10 Source Digital, Inc. Audio fingerprinting based on audio energy characteristics
AU2017257549B2 (en) 2016-04-26 2021-09-09 Magic Leap, Inc. Electromagnetic tracking with augmented reality systems
NL2016742B1 (en) 2016-05-09 2017-11-16 Audiocoup B V System for determining user exposure to audio fragments.
US10015612B2 (en) * 2016-05-25 2018-07-03 Dolby Laboratories Licensing Corporation Measurement, verification and correction of time alignment of multiple audio channels and associated metadata
US10936651B2 (en) * 2016-06-22 2021-03-02 Gracenote, Inc. Matching audio fingerprints
US9959448B2 (en) * 2016-08-19 2018-05-01 Google Llc Multi-step sequence alignment
GB201617408D0 (en) 2016-10-13 2016-11-30 Asio Ltd A method and system for acoustic communication of data
GB201617409D0 (en) 2016-10-13 2016-11-30 Asio Ltd A method and system for acoustic communication of data
EP3312722A1 (en) 2016-10-21 2018-04-25 Fujitsu Limited Data processing apparatus, method, and program
US10776170B2 (en) 2016-10-21 2020-09-15 Fujitsu Limited Software service execution apparatus, system, and method
JP6805765B2 (ja) 2016-10-21 2020-12-23 富士通株式会社 ソフトウェアサービスの実行のためのシステム、方法、及びプログラム
ES2765415T3 (es) 2016-10-21 2020-06-09 Fujitsu Ltd Aparato, método y programa de procesamiento de datos basado en microservicios
JP7100422B2 (ja) 2016-10-21 2022-07-13 富士通株式会社 データプロパティ認識のための装置、プログラム、及び方法
US10701438B2 (en) 2016-12-31 2020-06-30 Turner Broadcasting System, Inc. Automatic content recognition and verification in a broadcast chain
US10785329B2 (en) * 2017-01-05 2020-09-22 The Nielsen Company (Us), Llc Methods and apparatus to facilitate meter to meter matching for media identification
US10922720B2 (en) 2017-01-11 2021-02-16 Adobe Inc. Managing content delivery via audio cues
GB201704636D0 (en) 2017-03-23 2017-05-10 Asio Ltd A method and system for authenticating a device
EP3379814A1 (en) * 2017-03-23 2018-09-26 Christian Rymarenko Converting media using mobile devices
BR112019019430A2 (pt) 2017-04-06 2020-04-14 Inscape Data Inc sistema, método e produto de programa de computador
RU172737U1 (ru) * 2017-04-18 2017-07-21 Общество с ограниченной ответственностью "ДЖЕНТ КЛАБ" Устройство для идентификации музыкальных произведений
US10166472B2 (en) 2017-05-04 2019-01-01 Shazam Investments Ltd. Methods and systems for determining a reaction time for a response and synchronizing user interface(s) with content being rendered
RU2662939C1 (ru) * 2017-05-12 2018-07-31 Общество с ограниченной ответственностью "ИСКОНА ХОЛДИНГ" Способ идентификации музыкальных произведений
GB2565751B (en) * 2017-06-15 2022-05-04 Sonos Experience Ltd A method and system for triggering events
US10271095B1 (en) 2017-12-21 2019-04-23 Samuel Chenillo System and method for media segment indentification
US10867185B2 (en) 2017-12-22 2020-12-15 Samuel Chenillo System and method for media segment identification
GB2562515A (en) * 2017-05-17 2018-11-21 Snell Advanced Media Ltd Generation of audio or video hash
US11157553B2 (en) 2017-05-25 2021-10-26 J.W. Pepper & Son, Inc. Sheet music search and discovery system
EP3425522A1 (en) * 2017-07-06 2019-01-09 Bmat Licensing, S.L.U. Identifying background audio in broadcast signals using multiple sources
US20190028766A1 (en) * 2017-07-18 2019-01-24 Audible Magic Corporation Media classification for media identification and licensing
CN107367676A (zh) * 2017-09-04 2017-11-21 厦门斯玛特思智能电气股份有限公司 基于音频智能识别的局放指示器
US10264297B1 (en) 2017-09-13 2019-04-16 Perfect Sense, Inc. Time-based content synchronization
US20190104335A1 (en) * 2017-09-29 2019-04-04 Theater Ears, LLC Theater ears audio recognition & synchronization algorithm
US10599702B2 (en) * 2017-10-05 2020-03-24 Audible Magic Corporation Temporal fraction with use of content identification
US10158907B1 (en) 2017-10-10 2018-12-18 Shazam Investments Ltd. Systems and methods for performing playout of multiple media recordings based on a matching segment among the recordings
US10129575B1 (en) 2017-10-25 2018-11-13 Shazam Entertainment Limited Methods and systems for determining a latency between a source and an alternative feed of the source
US10249319B1 (en) 2017-10-26 2019-04-02 The Nielsen Company (Us), Llc Methods and apparatus to reduce noise from harmonic noise sources
EP3477505B1 (en) 2017-10-31 2021-10-20 Spotify AB Fingerprint clustering for content-based audio recogntion
EP3477643B1 (en) * 2017-10-31 2019-10-16 Spotify AB Audio fingerprint extraction and audio recognition using said fingerprints
CN108012173B (zh) * 2017-11-16 2021-01-22 百度在线网络技术(北京)有限公司 一种内容识别方法、装置、设备和计算机存储介质
US10276175B1 (en) 2017-11-28 2019-04-30 Google Llc Key phrase detection with audio watermarking
US10140966B1 (en) * 2017-12-12 2018-11-27 Ryan Laurence Edwards Location-aware musical instrument
CN107967922A (zh) * 2017-12-19 2018-04-27 成都嗨翻屋文化传播有限公司 一种基于特征的音乐版权识别方法
GB2570634A (en) 2017-12-20 2019-08-07 Asio Ltd A method and system for improved acoustic transmission of data
US11048946B2 (en) 2017-12-21 2021-06-29 Samuel Chenillo System and method for identifying cognate image sequences
SE542269C2 (en) * 2017-12-21 2020-03-31 Telia Co Ab Methods and apparatuses for determining meta data related to media content
DE102017131266A1 (de) 2017-12-22 2019-06-27 Nativewaves Gmbh Verfahren zum Einspielen von Zusatzinformationen zu einer Liveübertragung
BR112020012544A2 (pt) 2017-12-22 2020-11-24 Nativewaves Gmbh método para sincronizar um sinal adicional com um sinal primário
US10089994B1 (en) 2018-01-15 2018-10-02 Alex Radzishevsky Acoustic fingerprint extraction and matching
ES2779985B2 (es) 2019-02-20 2021-03-04 Moehs Iberica Sl Sal de dietilamina del ácido 3alfa-tetrahidropiraniloxi-6alfa-etil-7alfa-hidroxi-5ß-colánico
CN110322897B (zh) * 2018-03-29 2021-09-03 北京字节跳动网络技术有限公司 一种音频检索识别方法及装置
CN110322886A (zh) * 2018-03-29 2019-10-11 北京字节跳动网络技术有限公司 一种音频指纹提取方法及装置
GB201810202D0 (en) * 2018-06-21 2018-08-08 Magus Communications Ltd Answer machine detection method & apparatus
US10715840B2 (en) * 2018-07-19 2020-07-14 Gracenote, Inc. Establishment and use of time mapping based on interpolation using low-rate fingerprinting, to help facilitate frame-accurate content revision
JP2021532700A (ja) 2018-07-25 2021-11-25 イーグル アコースティックス マニュファクチュアリング,エルエルシー 音を生成し、並びにシンク及びソースの両方として同時に機能する、ように構成されたBluetoothスピーカ
US11483785B2 (en) 2018-07-25 2022-10-25 Trulli Engineering, Llc Bluetooth speaker configured to produce sound as well as simultaneously act as both sink and source
US10860647B2 (en) 2018-09-06 2020-12-08 Gracenote, Inc. Systems, methods, and apparatus to improve media identification
US10771828B2 (en) * 2018-09-18 2020-09-08 Free Stream Media Corp. Content consensus management
US10868620B2 (en) * 2018-12-26 2020-12-15 The Nielsen Company (Us), Llc Methods and apparatus for optimizing station reference fingerprint loading using reference watermarks
TR201902782A2 (tr) * 2019-02-25 2019-03-21 Aksoy Ahmet Kamusal alanlar için müzik analiz sistemi ve yöntemi.
US11683236B1 (en) 2019-03-30 2023-06-20 Snap Inc. Benchmarking to infer configuration of similar devices
US11853192B1 (en) 2019-04-16 2023-12-26 Snap Inc. Network device performance metrics determination
US11240104B1 (en) * 2019-05-21 2022-02-01 Snap Inc. Device configuration parameter determination
US11234049B2 (en) * 2019-06-24 2022-01-25 The Nielsen Company (Us), Llc Use of steganographically-encoded time information as basis to control implementation of dynamic content modification
US11212560B2 (en) * 2019-06-24 2021-12-28 The Nielsen Company (Us), Llc Use of steganographically-encoded time information as basis to establish a time offset, to facilitate taking content-related action
CN110635824B (zh) * 2019-10-19 2021-07-09 广东石油化工学院 一种利用分类回归树的plc信道脉冲噪声检测方法和系统
US20220414808A1 (en) * 2019-11-19 2022-12-29 Google Llc Methods, systems, and media for rights management of embedded sound recordings using composition clustering
CN110910899B (zh) * 2019-11-27 2022-04-08 杭州联汇科技股份有限公司 一种实时音频信号一致性对比检测方法
CN112995759A (zh) * 2019-12-13 2021-06-18 腾讯科技(北京)有限公司 互动业务处理方法、系统、装置、设备及存储介质
CN111008301B (zh) * 2019-12-19 2023-08-15 新华智云科技有限公司 一种以图搜视频的方法
US11922532B2 (en) 2020-01-15 2024-03-05 Digimarc Corporation System for mitigating the problem of deepfake media content using watermarking
WO2021155249A1 (en) 2020-01-30 2021-08-05 Snap Inc. System for generating media content items on demand
US11356720B2 (en) 2020-01-30 2022-06-07 Snap Inc. Video generation system to render frames on demand
US11284144B2 (en) * 2020-01-30 2022-03-22 Snap Inc. Video generation system to render frames on demand using a fleet of GPUs
US11036781B1 (en) 2020-01-30 2021-06-15 Snap Inc. Video generation system to render frames on demand using a fleet of servers
US11616797B2 (en) 2020-04-30 2023-03-28 Mcafee, Llc Large scale malware sample identification
GB2597334A (en) * 2020-07-17 2022-01-26 Playrcart Ltd A media player
US11670322B2 (en) 2020-07-29 2023-06-06 Distributed Creation Inc. Method and system for learning and using latent-space representations of audio signals for audio content-based retrieval
US11283586B1 (en) 2020-09-05 2022-03-22 Francis Tiong Method to estimate and compensate for clock rate difference in acoustic sensors
US11284139B1 (en) * 2020-09-10 2022-03-22 Hulu, LLC Stateless re-discovery of identity using watermarking of a video stream
KR102447554B1 (ko) * 2020-11-18 2022-09-27 주식회사 샵캐스트 오디오 핑거프린트 매칭을 기반으로하는 음원 인식 방법 및 장치
US11405684B1 (en) * 2021-01-08 2022-08-02 Christie Digital Systems Usa, Inc. Distributed media player for digital cinema
US20220222294A1 (en) * 2021-01-14 2022-07-14 Smule, Inc. Densification in Music Search and Recommendation
WO2022198065A1 (en) 2021-03-19 2022-09-22 Evalve, Inc. Systems for tissue grasping and assessment
US11589100B1 (en) * 2021-03-31 2023-02-21 Amazon Technologies, Inc. On-demand issuance private keys for encrypted video transmission
US11665377B2 (en) * 2021-04-23 2023-05-30 At&T Intellectual Property I, L.P. System and method for identifying encrypted, pre-recorded media content in packet data networks
CN117280340A (zh) * 2021-04-30 2023-12-22 华为技术有限公司 一种用于在数据存储系统中索引数据项的系统和方法
US20220392435A1 (en) * 2021-06-08 2022-12-08 Comcast Cable Communications, Llc Processing Voice Commands
US11496776B1 (en) * 2021-07-19 2022-11-08 Intrado Corporation Database layer caching for video communications
TWI806210B (zh) * 2021-10-29 2023-06-21 宏碁股份有限公司 聲音浮水印的處理方法及聲音浮水印處理裝置
EP4336381A1 (en) 2022-09-09 2024-03-13 Sparwk AS System and method for music entity matching

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4415767A (en) * 1981-10-19 1983-11-15 Votan Method and apparatus for speech recognition and reproduction
US4450531A (en) * 1982-09-10 1984-05-22 Ensco, Inc. Broadcast signal recognition system and method
US4582181A (en) * 1983-08-12 1986-04-15 Advanced Cardiovascular Systems, Inc. Steerable dilatation catheter
JPS6273298A (ja) * 1985-09-26 1987-04-03 沖電気工業株式会社 音声認識方式
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
JPS62159195A (ja) * 1986-01-06 1987-07-15 沖電気工業株式会社 音声パタン作成方法
US4843562A (en) * 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
JPH03291752A (ja) * 1990-04-10 1991-12-20 Matsushita Electric Ind Co Ltd データ検索装置
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
JPH05509409A (ja) * 1990-06-21 1993-12-22 レイノルズ ソフトウエア,インコーポレイティド 波動分析・事象認識方法およびその装置
US5627915A (en) * 1995-01-31 1997-05-06 Princeton Video Image, Inc. Pattern recognition system employing unlike templates to detect objects having distinctive features in a video field
JPH09138691A (ja) * 1995-11-15 1997-05-27 Brother Ind Ltd 楽曲検索装置
US7346472B1 (en) 2000-09-07 2008-03-18 Blue Spike, Inc. Method and device for monitoring and analyzing signals
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
JP2001042866A (ja) * 1999-05-21 2001-02-16 Yamaha Corp ネットワークを介したコンテンツ提供方法及びシステム
GR1003625B (el) 1999-07-08 2001-08-31 Μεθοδος χημικης αποθεσης συνθετων επικαλυψεων αγωγιμων πολυμερων σε επιφανειες κραματων αλουμινιου
JP2001075992A (ja) * 1999-09-07 2001-03-23 Hitachi Ltd 音響検索方法及び装置、並びに、コンピュータ読みとり可能な記録媒体
JP3969908B2 (ja) * 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
US7194752B1 (en) * 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US7174293B2 (en) * 1999-09-21 2007-02-06 Iceberg Industries Llc Audio identification system and method
US6834308B1 (en) * 2000-02-17 2004-12-21 Audible Magic Corporation Method and apparatus for identifying media content presented on a media playing device
US6453252B1 (en) 2000-05-15 2002-09-17 Creative Technology Ltd. Process for identifying audio content
WO2002001123A1 (en) 2000-06-23 2002-01-03 Mmr Technologies, Inc. Flexible counter-flow heat exchangers
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US6748360B2 (en) * 2000-11-03 2004-06-08 International Business Machines Corporation System for selling a product utilizing audio content identification
US7359889B2 (en) * 2001-03-02 2008-04-15 Landmark Digital Services Llc Method and apparatus for automatically creating database for use in automated media recognition system
US7117159B1 (en) * 2001-09-26 2006-10-03 Sprint Spectrum L.P. Method and system for dynamic control over modes of operation of voice-processing in a voice command platform
DE60323086D1 (de) * 2002-04-25 2008-10-02 Landmark Digital Services Llc Robuster und invarianter audiomustervergleich
CA2556552C (en) * 2004-02-19 2015-02-17 Landmark Digital Services Llc Method and apparatus for identification of broadcast source
EP2437255B1 (en) * 2005-02-08 2016-02-03 Shazam Investments Limited Automatic identification of repeated material in audio signals
US20100132122A1 (en) 2008-12-02 2010-06-03 Dan Hollingshead Bed-Mounted Computer Terminal
US8428955B2 (en) * 2009-10-13 2013-04-23 Rovi Technologies Corporation Adjusting recorder timing
US20130036455A1 (en) 2010-01-25 2013-02-07 Nokia Siemens Networks Oy Method for controlling acess to resources
US9390170B2 (en) * 2013-03-15 2016-07-12 Shazam Investments Ltd. Methods and systems for arranging and searching a database of media content recordings

Also Published As

Publication number Publication date
ATE329319T1 (de) 2006-06-15
US20120221131A1 (en) 2012-08-30
EP1307833B1 (en) 2006-06-07
JP4945877B2 (ja) 2012-06-06
KR100776495B1 (ko) 2007-11-16
US9899030B2 (en) 2018-02-20
JP2004505328A (ja) 2004-02-19
WO2002011123A3 (en) 2002-05-30
US8190435B2 (en) 2012-05-29
US20080208891A1 (en) 2008-08-28
DE60120417T2 (de) 2007-01-11
US7346512B2 (en) 2008-03-18
BRPI0112901B1 (pt) 2015-12-22
DK1307833T3 (da) 2006-10-02
CN1592906B (zh) 2010-09-08
US9401154B2 (en) 2016-07-26
US20060122839A1 (en) 2006-06-08
US7865368B2 (en) 2011-01-04
AU2001289766A1 (en) 2002-02-13
US10497378B2 (en) 2019-12-03
US8386258B2 (en) 2013-02-26
US8700407B2 (en) 2014-04-15
WO2002011123A2 (en) 2002-02-07
US6990453B2 (en) 2006-01-24
US20180374491A1 (en) 2018-12-27
EP1307833A2 (en) 2003-05-07
BR0112901A (pt) 2003-06-10
PT1307833E (pt) 2006-10-31
US20140316787A1 (en) 2014-10-23
CN1592906A (zh) 2005-03-09
DE60120417D1 (de) 2006-07-20
US20020083060A1 (en) 2002-06-27
US20110071838A1 (en) 2011-03-24
KR20030059085A (ko) 2003-07-07
HK1051248A1 (en) 2003-07-25
US20130138442A1 (en) 2013-05-30
US20160328473A1 (en) 2016-11-10

Similar Documents

Publication Publication Date Title
ES2266254T3 (es) Procedimiento de busqueda de una base de datos de audio.
US11366850B2 (en) Audio matching based on harmonogram
ES2396932T3 (es) Procedimiento y sistema de identificación de pistas de audio similares
Baluja et al. Content fingerprinting using wavelets
CN100437572C (zh) 音频指纹识别系统和方法
US11461390B2 (en) Automated cover song identification
US20070106405A1 (en) Method and system to provide reference data for identification of digital content
US20200342024A1 (en) Audio identification based on data structure
Gurjar et al. Comparative Analysis of Music Similarity Measures in Music Information Retrieval Systems.
Ellis et al. Accessing minimal-impact personal audio archives
KR101302568B1 (ko) 허밍 질의 기반 음원 검색 고속화 시스템 및 그 방법
CN117573918A (zh) 用于识别音频片段的方法、装置及计算机可读介质
Tsai Audio Hashprints: Theory & Application
Ellis et al. Automatically segmenting and clustering minimal-impact personal audio archives