ES2901638T3 - Dispositivo y método para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo - Google Patents

Dispositivo y método para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo Download PDF

Info

Publication number
ES2901638T3
ES2901638T3 ES18192315T ES18192315T ES2901638T3 ES 2901638 T3 ES2901638 T3 ES 2901638T3 ES 18192315 T ES18192315 T ES 18192315T ES 18192315 T ES18192315 T ES 18192315T ES 2901638 T3 ES2901638 T3 ES 2901638T3
Authority
ES
Spain
Prior art keywords
time
frame
fingerprint
match
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18192315T
Other languages
English (en)
Inventor
Millca Maksimovic
Patrick Aichroth
Luca Cuccovillo
Hanna Lukashevich
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2901638T3 publication Critical patent/ES2901638T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

Dispositivo para detectar concordancias parciales (PM) entre una primera señal variable en el tiempo (SG1) y una segunda señal variable en el tiempo (SG2), en particular entre una primera señal de audio (SG1) y una segunda señal de audio (SG2) o entre una primera señal de vídeo (SG1) y una segunda señal de vídeo (SG2), comprendiendo el dispositivo (1): una etapa de extracción de huella digital (2) configurada para extraer una primera huella digital (FP1) de la primera señal variable en el tiempo (SG1) y para extraer una segunda huella digital (FP2) de la segunda señal variable en el tiempo (SG2), en donde se extrae una pluralidad de primeras tramas de tiempo (TF1) de la primera señal variable en el tiempo (SG1) para la primera huella digital (FP1), en donde se extrae una pluralidad de segundas tramas de tiempo (TF2) de la segunda señal variable en el tiempo (SG2) para la segunda huella digital (FP2), en donde la primera huella digital (FP1) comprende para cada una de las primeras tramas de tiempo (TF1) una información de rasgo (FI1) que corresponde a uno o más rasgos característicos en la primera señal variable en el tiempo (SG1), que están relacionados con la respectiva primera trama de tiempo (TF1), y en donde la segunda huella digital (FP2) comprende para cada una de las segundas tramas de tiempo (TF2) una información de rasgo (FI2) que corresponde a uno o más rasgos característicos en la segunda señal variable en el tiempo (SG2), que están relacionados con la respectiva segunda trama de tiempo (TF2); y una etapa de concordancia (3) configurada para comparar la primera huella digital (FP1) y la segunda huella digital (FP2), en donde cada información de rasgo (FI1) de la primera huella digital (FP1) se compara por pares con cada información de rasgo (FI2) de la segunda huella digital (FP2); en donde la etapa de concordancia (3) comprende una etapa de calculador de similitud (4) configurada para calcular para cada par de una de las informaciones de rasgo (FI1) de la primera huella digital (FP1) y de una de las informaciones de rasgo (FI2) de la segunda huella digital (FP2) un valor de similitud (SV); en donde la etapa de concordancia (3) comprende una etapa de calculador de matriz (5) configurada para disponer los valores de similitud (SV) en una matriz de similitud (SM) que tiene dimensiones de La x Lb, en donde La es un número de las informaciones de rasgo (FI1) de la primera huella digital (FP1) y Lb es un número de las informaciones de rasgo (FI2) de la segunda huella digital (FP2), en donde una entrada en la fila de orden i y columna de orden j de la matriz de similitud (SM) es el valor de similitud (SV) calculado del par de la información de rasgo de orden i (FI1) de la primera huella digital (FP1) y de la información de rasgo de orden j (FI2) de la segunda huella digital (FP2); en donde la información de rasgo (FI1) de cada una de las primeras tramas de tiempo (TF1) es un vector característico (FV1) que comprende una pluralidad de elementos (EL1), y en donde la información de rasgo (FI2) de cada una de las segundas tramas de tiempo (TF2) es un vector característico (FV2) que comprende una pluralidad de elementos (EL2); en donde cada valor de similitud (SV) de la matriz de similitud (SM) se calcula usando una distancia entre el vector característico (FV1) de la respectiva primera trama de tiempo (TF1) y el vector característico (FV2) de la respectiva segunda trama de tiempo (TF2); en donde la matriz de similitud (SM) es una matriz de similitud binaria (SM), en donde cada valor de similitud (SV) de la matriz de similitud (SM) se establece, dependiendo de un umbral para la respectiva distancia, a un primer número que indica una concordancia de trama (FM) de la respectiva primera trama de tiempo (TF1) y la respectiva segunda trama de tiempo (TF2) o a un segundo número que indica una discordancia de trama (FMM) de la respectiva primera trama de tiempo (TF1) y la respectiva segunda trama de tiempo (TF2); en donde la etapa de concordancia (3) comprende una primera etapa de búsqueda de patrones (7) configurada para buscar primeros patrones (FPA) dentro de una pluralidad de diagonales (DI) de la matriz de similitud (SM), que comprenden una o más de las concordancias de trama (FM) y cero o más discordancias de trama (FMM) que están ubicadas entre dos de las concordancias de trama (FM) del respectivo primer patrón (FPA), en donde un número de discordancias de trama consecutivas (FMM) dentro del respectivo primer patrón (FPA) no supera un umbral para un número máximo permitido de discordancias de trama consecutivas (FMM) dentro del respectivo primer patrón (FPA), en donde una longitud (LEF) del respectivo primer patrón (FPA) desde una concordancia de trama más anterior (FM) del respectivo primer patrón (FPA) hasta una última concordancia de trama (FM) del respectivo primer patrón (FPA) alcanza al menos un umbral para una longitud mínima del primer patrón (FPA), en donde las diagonales (DI), en las que se encuentra al menos uno de los primeros patrones (FPA), se marcan como diagonales candidatas (CD); y en donde una etapa de detección (6) de la etapa de concordancia (3) está configurada para detectar las concordancias parciales (PM) evaluando las diagonales candidatas (CD) de la matriz de similitud (SM).

Description

DESCRIPCIÓN
Dispositivo y método para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo
La invención se refiere a un dispositivo, un método y un programa informático para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo.
Muchas aplicaciones requieren una detección y ubicación de concordancias previamente desconocidas entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo.
Un primer enfoque de acuerdo con la técnica anterior para la detección y ubicación de tales concordancias es el enfoque de concordancia clásico basado en consultas. Existe una enorme cantidad de enfoques de concordancia clásicos bien establecidos, todos los cuales tienen como objetivo la identificación de material, es decir, encontrar ocurrencias de un elemento o partes de consulta de un elemento de consulta dentro de una base de datos o conjunto de datos de referencia.
Tales enfoques típicamente implican la extracción de huellas digitales, que comprenden información de rasgo, de elementos de consulta y elementos de referencia, y un respectivo enfoque de concordancia o búsqueda. Sin embargo, debido a que el proceso de consulta está diseñado para la identificación, tales enfoques no pueden usarse para detectar y ubicar solapamientos parciales previamente desconocidos - requieren conocimiento de lo que están consultando.
Una implementación de concordancia clásica está basada en un enfoque de Shazam [1]. Sin embargo, este enfoque tiene varias limitaciones:
• El enfoque de Shazam no detecta ciertos casos de reutilización parcial, por ejemplo, cuando un segmento dentro del material se sustituyó por otro material.
• El enfoque de Shazam falla al tratar el requisito de caso de uso con respecto a la ubicación, cuando se requiere ubicación con una tolerancia de ~1-2 s máximo.
• El enfoque de Shazam no puede autodetectar la cantidad de concordancias parciales, sino que, en su lugar, requiere que se proporcione esta información por el usuario con demasiados números altos o bajos, lo que da como resultado falsos positivos y falsos negativos).
Un segundo enfoque de acuerdo con la técnica anterior para la detección y ubicación de tales concordancias es conocido como la generación de marcas de agua. La generación de marcas de agua podría usarse teóricamente para tratar los problemas señalados, pero esto funcionaría únicamente si todo el contenido relevante se generara con marcas de agua por todos los actores relevantes, para cada única acción realizada en el material, que son -considerando el coste, las consideraciones de transparencia y la carga útil, consideraciones de seguridad, etc. -completamente irreal, e incluso no incluiría la enorme cantidad de contenido que ya existe.
Un tercer aspecto de acuerdo con la técnica anterior para la detección y ubicación de tales concordancias es el enfoque de anotación manual y de procesamiento. Debido a la ausencia de tecnologías adecuadas, la anotación manual y el análisis serían la única opción realista para tratar los casos de uso y problemas señalados. Sin embargo, es muy difícil para los humanos anotar de manera precisa concordancias parciales, lo que da como resultado un coste enorme, especialmente considerando la creciente cantidad de material.
Debido a las limitaciones descritas, queda sin aprovechar el potencial de la eficiencia aumentada y los ahorros de coste para los casos de uso descritos.
En el dominio del análisis de la música, el método del estado de la técnica [4] realiza detección de auto-similitud buscando sub-diagonales en una matriz de auto-distancia.
Es un objeto de la invención proporcionar un dispositivo mejorado, un método mejorado y un programa informático mejorado para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo
En un primer aspecto, la invención se refiere a un dispositivo para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo, en particular, entre una primera señal de audio y una segunda señal de audio o entre una primera señal de vídeo y una segunda señal de vídeo. El dispositivo comprende:
una etapa de extracción de huella digital configurada para extraer una primera huella digital de la primera señal variable en el tiempo y para extraer una segunda huella digital de la segunda señal variable en el tiempo, en donde se extrae una pluralidad de primeras tramas de tiempo de la primera señal variable de tiempo para la primera huella digital, en donde se extrae una pluralidad de segundas tramas de tiempo de la segunda señal variable en el tiempo para la segunda huella digital, en donde la primera huella digital comprende para cada una de las primeras tramas de tiempo una información de rasgo que corresponde a uno o más rasgos característicos en la primera señal variable en el tiempo, que están relacionados con la respectiva primera trama de tiempo, y en donde la segunda huella digital comprende para cada una de las segundas tramas de tiempo una información de rasgo que corresponde a uno o más rasgos característicos en la segunda señal variable en el tiempo, que están relacionados con la respectiva segunda trama de tiempo; y
una etapa de concordancia configurada para comparar la primera huella digital y la segunda huella digital, en donde cada información de rasgo de la primera huella digital se compara por pares con cada información de rasgo de la segunda huella digital;
en donde la etapa de concordancia comprende una etapa de calculador de similitud configurada para calcular, para cada par de una de las informaciones de rasgo de la primera huella digital y de una de las informaciones de rasgo de la segunda huella digital, un valor de similitud;
en donde la etapa de concordancia comprende una etapa de calculador de matriz configurada para disponer los valores de similitud en una matriz de similitud que tiene dimensiones de La x Lb, en donde La es un número de las informaciones de rasgo de la primera huella digital y Lb es un número de las informaciones de rasgo de la segunda huella digital, en donde una entrada en la fila de orden i y columna de orden j de la matriz de similitud es el valor de similitud calculado del par de la información de rasgo de orden i de la primera huella digital y de la información de rasgo de orden j de la segunda huella digital;
en donde la etapa de concordancia comprende una etapa de detección configurada para detectar las concordancias parciales evaluando una pluralidad de diagonales de la matriz de similitud.
Existe una concordancia parcial entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo, si una porción a lo largo del tiempo de la primera señal variable en el tiempo y una porción a lo largo del tiempo de la segunda señal variable en el tiempo corresponden entre sí.
La primera señal variable en el tiempo y una segunda señal variable en el tiempo en particular, pueden ser señales eléctricas. Sin embargo, todas las demás señales físicas, que pueden convertirse por un convertidor en señales eléctricas, pueden procesarse para detectar concordancias parciales.
La etapa de extracción de huella digital está configurada para extraer una primera huella digital de la primera señal variable en el tiempo y para extraer una segunda huella digital de la segunda señal variable en el tiempo.
Las huellas digitales son un conjunto de datos que caracterizan la longitud completa de la primera señal que va a procesarse o la longitud completa de la segunda señal que va a procesarse, respectivamente. Las tramas de tiempo son porciones de la primera señal o la segunda señal respectivamente a lo largo del tiempo. Las tramas de tiempo consecutivas pueden solaparse o no solaparse. Las informaciones de rasgo pueden corresponder a cualquier característica física relacionada con una trama de tiempo de la primera señal o la segunda señal. Para cada trama de tiempo, se calcula una de la información de rasgo.
La etapa de concordancia está configurada para comparar cada información de rasgo de la primera huella digital por pares en comparación con cada información de rasgo de la segunda huella digital, en donde para cada par de información de rasgo, se calcula un valor de similitud usando una etapa de calculador de similitud de la etapa de concordancia.
La etapa de calculador de matriz de la etapa de concordancia está configurada para establecer una matriz de similitud que comprende los valores de similitud.
La etapa de detección de la etapa de concordancia está configurada para detectar las concordancias parciales evaluando una pluralidad, en particular todas, de las diagonales de la matriz de similitud. Las diagonales son líneas rectas en una matriz que son paralelas a la diagonal principal de la matriz, en donde la diagonal principal de la matriz comprende las entradas que tienen el mismo índice de fila en el índice de columna j de modo que i es igual a j. El enfoque de concordancia parcial, en su núcleo, está basado en la extracción de huellas digitales adecuadas, una respectiva concordancia basándose en (a) un cálculo de puntuación basado en una matriz de similitud por tramas, y (b) un análisis de la matriz de similitud con detección de patrón diagonal, análisis y decisión de concordancia.
El dispositivo de acuerdo con la invención es adecuado para la detección y ubicación precisa de concordancias parciales previamente conocidas incluso si las concordancias parciales son bastante cortas. Incluso pueden detectarse segmentos cortos de hasta unos pocos segundos. Además, el dispositivo es robusto contra el ruido en la primera señal y la segunda señal. Adicionalmente, el dispositivo puede manejar conjuntos de datos más grandes con eficiencia computacional aumentada.
También, un beneficio significativo del enfoque es que todo el análisis puede estar basado en comparaciones por pares de huellas digitales, lo que ayuda a tratar con los requisitos de escalabilidad y actualización y los asuntos de seguridad.
El dispositivo de acuerdo con la invención es adecuado, en particular, para las siguientes aplicaciones:
• Detección de duplicados y limpieza de repositorio: detección de duplicados parciales dentro de archivos (especialmente archivos de producciones) que no se rastrearon / anotaron, lo que crea un coste de almacenamiento significativo; actualmente, esto únicamente puede hacerse manualmente, lo que da como resultado un coste significativo.
• Rastreo y limpieza de metadatos: propagación automática de metadatos y validación de metadatos dentro de los archivos, que incluye casos donde se importa el contenido de fuentes externas (por ejemplo, en el caso de federación de archivo o producción externa), o se crean usando flujos de trabajo heredados; los metadatos erróneos, incompletos e inconsistentes crean actualmente enormes costes para los archivos y los difusores. Reporte de derechos: reporte automático de uso parcial de material con derechos de autor (internos o externos), que actualmente necesita hacerse manualmente, o es muy impreciso, lo que da como resultado batallas legales y respectivos costes.
Rastreo de procedencia: reporte de extremo a extremo de procedencia de contenido desde el origen al producto final a lo largo del tiempo y a través de los canales, lo que cada vez es más especialmente importante para difusores públicos.
Análisis de estructura de programa / medios: análisis de flujos de medios y de canales de distribución de los retransmisores, para analizar estructuras de programa (por ejemplo, una fracción de cierto tipo de contenidos en estaciones de radio).
Rastreo de noticias: análisis de la reutilización parcial de metraje a través de diferentes estaciones/canales a lo largo del tiempo, para evaluar los "hábitos de reporte" de las estaciones/canales, y para entender cómo evolucionan las noticias (qué se usa, qué se omite), como un medio de medir calidad periodística.
• Preprocesamiento para monitorización de difusión: detectar material repetitivo dentro de flujos que incluyen publicidad, ID de estación, etc. para usarlo para consultas de monitorización de difusión basadas en "concordancia clásica".
• Integridad perceptual: verificar la integridad de contenido / segmentos de contenido detectando modificaciones que modifican la percepción (por ejemplo, cortando y pegando segmentos cortos), mientras se es robusto contra modificaciones que no modifican perceptivamente el material (por ejemplo, transcodificación).
Detectar y sincronizar contenido que proviene del mismo evento: detectando material de audio reutilizado, material que se grabó, por ejemplo, usando diferentes cámaras en el mismo evento puede detectarse y sincronizarse rápidamente.
• Medición de la reutilización y el alcance: detectar la reutilización de material propio en producciones externas, para medir el alcance y la reutilización y, por lo tanto, la efectividad del trabajo PR.
Medición de monitorización / audiencia de uso: detección detallada del uso / consumo de material.
Detectar eventos repetitivos en flujos (por ejemplo, para monitorización acústica): para grabaciones bajo condiciones estables, puede ser muy útil para identificar eventos repetitivos o entre flujos, para identificar rápidamente y etiquetarlos para propósitos de entrenamiento.
• Registro de contenido y comprobación de derechos de autor: para sistemas que registran contenido y/o recopilan contenido de muchas fuentes distintas, es necesario determinar la originalidad del material, para el que la detección de solapamientos parciales es importante.
• Preprocesamiento para detección de plagio: similar al caso de registro y derechos de autor anterior, es útil para detectar concordancias parciales (suponiendo una cierta robustez de otro material de audio) para detección de plagio posterior.
Preprocesamiento para detección de edición: detectar concordancias en un conjunto de datos puede mejorar la eficiencia de detección de edición sustancialmente.
Preprocesamiento para formatos de compresión: detectar una reutilización parcial para realizar compresión sin pérdidas sencilla, ahorrando el coste de almacenamiento.
De acuerdo con algunas realizaciones de la invención, los rasgos característicos de cada una de las primeras tramas de tiempo comprenden una forma temporal y/o espectral de la primera señal variable en el tiempo, y los rasgos característicos de cada una de las segundas tramas de tiempo comprenden una forma temporal y/o espectral de la segunda señal variable en el tiempo.
La forma temporal y/o espectral para una de las tramas de tiempo puede calcularse a partir de la forma temporal y/o espectral de la respectiva trama de tiempo y/o de la forma temporal y/o espectral de tramas de tiempo vecinas de la respectiva trama de tiempo.
De acuerdo con la invención, la información de rasgo de cada una de las primeras tramas de tiempo es un vector característico que comprende una pluralidad de elementos, y la información de rasgo de cada una de las segundas tramas de tiempo es un vector característico que comprende una pluralidad de elementos.
De acuerdo con algunas realizaciones de la invención, el vector característico de cada una de las primeras tramas de tiempo se calcula usando uno o más espectros relacionados con la respectiva primera trama de tiempo, en donde cada uno de los elementos del vector característico de cada una de las primeras tramas de tiempo hace referencia a una banda de frecuencia del uno o más espectros relacionados con la respectiva primera trama de tiempo, y en donde el vector característico de cada una de las segundas tramas de tiempo se calcula usando uno o más espectros relacionados con la respectiva segunda trama de tiempo, en donde cada uno de los elementos del vector característico de cada una de las segundas tramas de tiempo hace referencia a una banda de frecuencia del uno o más espectros relacionados con la respectiva segunda trama de tiempo.
De acuerdo con la invención, cada valor de similitud de la matriz de similitud se calcula usando una distancia entre el vector característico de la respectiva primera trama de tiempo y el vector característico de la respectiva segunda trama de tiempo.
La distancia puede ser, en particular, una distancia euclidiana.
De acuerdo con la invención, la matriz de similitud es una matriz de similitud binaria, en donde cada valor de similitud de la matriz de similitud se establece, dependiendo de un umbral para la respectiva distancia, a un primer número que indica una concordancia de trama de la respectiva primera trama de tiempo y la respectiva segunda trama de tiempo o a un segundo número que indica una discordancia de trama de la respectiva primera trama de tiempo y la respectiva segunda trama de tiempo.
Una concordancia de trama hace referencia a un valor de similitud de la matriz de similitud que indica que la información de rasgo de la respectiva primera trama de tiempo y la información de rasgo de la respectiva segunda trama de tiempo son concordantes. Una discordancia de trama hace referencia a un valor de similitud de la matriz de similitud que indica que la información de rasgo de la respectiva primera trama de tiempo y la información de rasgo de la respectiva segunda trama de tiempo no son concordantes.
De acuerdo con la invención, la etapa de concordancia comprende una primera etapa de búsqueda de patrones configurada para buscar primeros patrones dentro de la pluralidad de diagonales, que comprende una o más de las concordancias de trama y cero o más discordancias de trama que están ubicadas entre dos de las concordancias de trama del respectivo primer patrón, en donde un número de discordancias de trama consecutivas dentro del respectivo primer patrón no supera un umbral para un número máximo permitido de discordancias de trama consecutivas dentro del respectivo primer patrón, en donde una longitud del respectivo primer patrón desde una concordancia de trama más anterior del respectivo primer patrón hasta una última concordancia de trama del respectivo primer patrón alcanza al menos un umbral para una longitud mínima del primer patrón, en donde las diagonales, en las que se encuentra al menos uno de los primeros patrones, se marcan como diagonales candidatas; y en donde la etapa de detección está configurada para detectar las concordancias parciales evaluando las diagonales candidatas de la matriz de similitud.
Cada uno de los primeros patrones empieza en una concordancia de trama y finaliza en la concordancia de trama. Sin embargo, los primeros patrones pueden comprender discordancias de trama. La concordancia de trama más anterior del primer patrón es la concordancia de trama que tiene los índices más pequeños. En contraste a eso, la última concordancia de trama del primer patrón es la concordancia de trama que tiene los índices más grandes. De acuerdo con algunas realizaciones de la invención, la etapa de detección está configurada de tal manera que cada uno de los primeros patrones, en los que se marca una relación entre un número de concordancias de trama del respectivo primer patrón y la longitud del respectivo primer patrón alcanza un umbral para la relación entre el número de concordancias de trama del respectivo primer patrón y la longitud del respectivo primer patrón, como una de las concordancias parciales.
De acuerdo con algunas realizaciones de la invención, la etapa de concordancia comprende una segunda etapa de búsqueda de patrones configurada para buscar segundos patrones dentro de las diagonales candidatas, que comprenden uno o más de los primeros patrones y una o más discordancias de trama entre dos de los primeros patrones, en donde un número de discordancias de trama consecutivas entre dos de los primeros patrones no supera un umbral para un número máximo permitido de discordancias de trama consecutivas entre dos de los primeros patrones, en donde una longitud del respectivo segundo patrón desde una concordancia de trama más anterior del respectivo segundo patrón hasta una última concordancia de trama del respectivo segundo patrón alcanza al menos un umbral para una longitud mínima del segundo patrón; y
en donde la etapa de detección está configurada para detectar las concordancias parciales evaluando los segundos patrones de las diagonales candidatas.
Cada uno de los segundos patrones empieza en una concordancia de trama y finaliza en la concordancia de trama. Sin embargo, los primeros patrones dentro del segundo patrón pueden comprender discordancias de trama. Análogamente, entre los primeros patrones pueden existir discordancias de trama. La concordancia de trama más anterior del segundo patrón es la concordancia de trama que tiene los índices más pequeños. En contraste a eso, la última concordancia de trama del segundo patrón es la concordancia de trama que tiene los índices más grandes. De acuerdo con algunas realizaciones de la invención, la etapa de detección está configurada de tal manera que cada uno de los segundos patrones, en los que una relación entre un número de concordancias de trama del respectivo segundo patrón y la longitud del respectivo segundo patrón alcanza un umbral para la relación entre el número de concordancias de trama del respectivo segundo patrón y la longitud del respectivo segundo patrón, se marca como una de las concordancias parciales.
De acuerdo con algunas realizaciones de la invención, la etapa de concordancia comprende una etapa de limpieza configurada para recibir al menos alguna de las concordancias parciales detectadas por la etapa de detección y para determinar una concordancia parcial más larga de las concordancias parciales recibidas, en donde la concordancia parcial más larga de las concordancias parciales recibidas es una diagonal principal de una porción rectangular de la matriz de similitud, en donde se descarta una concordancia parcial adicional de las concordancias parciales recibidas, que se extiende al menos parcialmente en la porción rectangular de la matriz de similitud, a menos que se cumplan las siguientes condiciones:
un valor absoluto de una distancia horizontal entre una concordancia de trama más anterior de la concordancia parcial más larga recibida y una concordancia de trama más anterior de la concordancia parcial recibida adicional supera un umbral de distancia;
un valor absoluto de una distancia vertical entre la concordancia de trama más anterior de la concordancia parcial más larga recibida y la concordancia de trama más anterior de la otra concordancia parcial recibida supera el umbral de distancia;
un valor absoluto de una distancia horizontal entre una última concordancia de trama de la concordancia parcial más larga recibida y una última concordancia de trama de la concordancia parcial recibida adicional supera un umbral de distancia; y
un valor absoluto de una distancia vertical entre la última concordancia de trama de la concordancia parcial más larga recibida y la última concordancia de trama de la concordancia parcial recibida adicional supera el umbral de distancia; y
un índice de fila de la última concordancia de trama de la concordancia parcial recibida adicional es mayor que un índice de fila de la última concordancia de trama de la concordancia parcial más larga recibida, en caso de que un índice de columna de la última concordancia de trama de la concordancia parcial recibida adicional sea mayor que un índice de columna de la última concordancia de trama de la concordancia parcial más larga recibida;
en donde se emiten las concordancias parciales no descartadas.
La diagonal principal de la porción rectangular de la matriz de similitud es paralela a la diagonal principal de la matriz de similitud y a una diagonal más larga de la porción rectangular de la matriz de similitud. La porción rectangular puede ser cuadrada.
Mediante estos rasgos pueden descartarse falsas concordancias parciales debido a la repetición de porciones de señales.
De acuerdo con algunas realizaciones de la invención, la etapa de concordancia comprende una etapa de procesamiento de ruido y silencio configurada para recibir al menos algunas de las concordancias parciales detectadas por la etapa de detección y para descartar una de las concordancias parciales recibidas, en caso de que una de las concordancias parciales recibidas se detecte de manera incorrecta debido a porciones con ruido o silenciosas en la primera señal variable en el tiempo y la segunda señal variable en el tiempo, en donde una de las concordancias parciales recibidas es una diagonal principal de una porción rectangular adicional de la matriz de similitud, en donde se calcula una relación de ruido entre un número de las concordancias de trama en la porción rectangular adicional de la matriz de similitud excluyendo las concordancias de trama de la diagonal principal de la porción rectangular adicional de la matriz de similitud y un número de los valores de similitud en la porción rectangular adicional de la matriz de similitud excluyendo los valores de similitud de la diagonal principal de la porción rectangular adicional de la matriz de similitud, en donde se descarta una de las concordancias parciales marcadas dependiendo de un umbral para la relación de ruido, en donde se emiten las concordancias parciales no descartadas.
Mediante estos rasgos, pueden descartarse las concordancias parciales falsas debido a porciones de señales en silencio o con ruido.
En un aspecto adicional, la invención se refiere a un método para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo, en particular entre una primera señal de audio y una segunda señal de audio o entre una primera señal de vídeo y una segunda señal de vídeo. El método que comprende las etapas de:
extraer una primera huella digital de la primera señal variable en el tiempo y una segunda huella digital de la segunda señal variable en el tiempo, usando una etapa de extracción de huella digital, en donde
se extrae una pluralidad de primeras tramas de tiempo de la primera señal variable en el tiempo para la primera huella digital, en donde se extrae una pluralidad de segundas tramas de tiempo de la segunda señal variable en el tiempo para la segunda huella digital, en donde la primera huella digital comprende para cada una de las primeras tramas de tiempo una información de rasgo que corresponde a uno o más rasgos característicos en la primera señal variable en el tiempo, que están relacionados con la respectiva primera trama de tiempo, y en donde la segunda huella digital comprende para cada una de las segundas tramas de tiempo una información de rasgo que corresponde a uno o más rasgos característicos en la segunda señal variable en el tiempo, que están relacionados con la respectiva segunda trama de tiempo; y
comparar la primera huella digital y la segunda huella digital usando una etapa de concordancia, en donde cada información de rasgo de la primera huella digital se compara por pares con cada información de rasgo de la segunda huella digital;
calcular, usando una etapa de similitud de la etapa de concordancia, un valor de similitud para cada par de una de las informaciones de rasgo de la primera huella digital y de una de las informaciones de rasgo de la segunda huella digital;
disponer, usando una etapa de calculador de matriz de la etapa de concordancia, los valores de similitud en una matriz de similitud que tiene dimensiones de La x Lb, en donde La es un número de las informaciones de rasgo de la primera huella digital y Lb es un número de las informaciones de rasgo de la segunda huella digital, en donde una entrada en la fila de orden i y columna de orden j de la matriz de similitud es el valor de similitud calculado a partir del par de la información de rasgo de orden i de la primera huella digital y de la información de rasgo de orden j de la segunda huella digital; y
detectar, usando una etapa de detección de la etapa de concordancia, las concordancias parciales evaluando una pluralidad de diagonales de la matriz de similitud.
En un aspecto adicional, la invención se refiere a un programa informático para ejecutar, cuando se hace marchar en un procesador, el método de acuerdo con la invención.
Se analizan posteriormente realizaciones preferidas con respecto a los dibujos adjuntos, en los que:
La Figura 1 ilustra una primera realización de un dispositivo para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo de acuerdo con la invención en una vista esquemática;
La Figura 2 ilustra un modo de operación de ejemplo de una realización de una etapa de extracción de huella digital de un dispositivo de acuerdo con la invención en una vista esquemática;
La Figura 3 ilustra un formato de ejemplo de una matriz de similitud de una realización de una etapa de calculador de matriz de un dispositivo de acuerdo con la invención en una vista esquemática;
La Figura 4 ilustra un concepto de concordancia clásica de una primera señal variable en el tiempo y una segunda señal variable en el tiempo, que se usa en la técnica anterior;
La Figura 5 ilustra un concepto de una concordancia parcial de una primera señal variable en el tiempo y una segunda señal variable en el tiempo, que se usa de acuerdo con la invención;
La Figura 6 ilustra casos relevantes del concepto de concordancia parcial de una primera señal variable en el tiempo y una segunda señal variable en el tiempo, que se usa de acuerdo con la invención;
La Figura 7 ilustra una segunda realización de un dispositivo para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo de acuerdo con la invención en una vista esquemática;
La Figura 8 ilustra un modo de operación de ejemplo de una realización de una primera etapa de búsqueda de patrones de un dispositivo de acuerdo con la invención en una vista esquemática;
La Figura 9 ilustra una tercera realización de un dispositivo para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo de acuerdo con la invención en una vista esquemática;
La Figura 10 ilustra un modo de operación de ejemplo de una realización de una etapa segunda etapa de búsqueda de patrones de un dispositivo de acuerdo con la invención en una vista esquemática;
La Figura 11 ilustra una cuarta realización de un dispositivo para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo de acuerdo con la invención en una vista esquemática;
La Figura 12 ilustra un modo de operación de ejemplo de una realización de una etapa de limpieza de un dispositivo de acuerdo con la invención en una vista esquemática;
La Figura 13 ilustra un modo de operación de ejemplo de una realización de una etapa de limpieza de un dispositivo de acuerdo con la invención en una vista esquemática;
La Figura 14 ilustra una quinta realización de un dispositivo para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo de acuerdo con la invención en una vista esquemática;
La Figura 15 ilustra una comparación entre resultados ilustrativos conseguidos por una concordancia parcial en contraste a concordancia clásica; y
La Figura 16 ilustra una comparación entre resultados ilustrativos conseguidos por una concordancia parcial en contraste a concordancia clásica.
Los elementos iguales o equivalentes o elementos con funcionalidad igual o equivalente se indican en la siguiente descripción mediante números de referencia iguales o equivalentes.
En la siguiente descripción, se expone una pluralidad de detalles para proporcionar una explicación más minuciosa de las realizaciones de la presente invención. Sin embargo, será evidente para un experto en la materia que las realizaciones de la presente invención pueden ponerse en práctica sin estos detalles específicos. En otras instancias, se muestran estructuras y dispositivos bien conocidos en forma de diagrama de bloques en lugar de en detalle para evitar oscurecer las realizaciones de la presente invención. Además, los rasgos de las diferentes realizaciones descritas en lo sucesivo pueden combinarse entre sí, a menos que se indique específicamente de otra manera.
La Figura 1 ilustra una primera realización de un dispositivo 1 para detectar concordancias parciales entre una primera señal variable en el tiempo SG1 y una segunda señal variable en el tiempo SG2 de acuerdo con la invención en una vista esquemática.
El dispositivo 1 está configurado para detectar concordancias parciales PM entre una primera señal variable en el tiempo SG1 y una segunda señal variable en el tiempo SG2, en particular, entre una primera señal de audio SG1 y una segunda señal de audio SG2 o entre una primera señal de vídeo SG1 y una segunda señal de vídeo SG2. El dispositivo 1 comprende:
una etapa de extracción de huella digital 2 configurada para extraer una primera huella digital FP1 de la primera señal variable en el tiempo SG1 y para extraer una segunda huella digital FP2 de la segunda señal variable en el tiempo SG2, en donde se extrae una pluralidad de primeras tramas de tiempo TF1 de la primera señal variable en el tiempo SG1 para la primera huella digital FP1, en donde se extrae una pluralidad de segundas tramas de tiempo TF2 de la segunda señal variable en el tiempo SG2 para la segunda huella digital FP2, en donde la primera huella digital FP1 comprende para cada una de las primeras tramas de tiempo TF1 una información de rasgo FI1 que corresponde a uno o
más rasgos característicos en la primera señal variable en el tiempo SG1, que están relacionados con la respectiva primera trama de tiempo TF1, y en donde la segunda huella digital FP2 comprende para cada una de las segundas tramas de tiempo TF2 una información de rasgo FI2 que corresponde a uno o más rasgos característicos en la segunda señal variable en el tiempo SG2, que están relacionados con la respectiva segunda trama de tiempo TF2; y
una etapa de concordancia 3 configurada para comparar la primera huella digital FP1 y la segunda huella digital FP2, en donde cada información de rasgo FI1 de la primera huella digital FP1 se compara por pares con cada información de rasgo FI2 de la segunda huella digital FP2;
en donde la etapa de concordancia 3 comprende una etapa de calculador de similitud 4 configurada para calcular para cada par de una de las informaciones de rasgo FI1 de la primera huella digital FP1 y de una de las informaciones de rasgo FI2 de la segunda huella digital FP2 un valor de similitud SV;
en donde la etapa de concordancia 3 comprende una etapa de calculador de matriz 5 configurada para disponer los valores de similitud SV en una matriz de similitud SM que tiene dimensiones de La x Lb, en donde La es un número de las informaciones de rasgo FI1 de la primera huella digital FP1 y Lb es un número de las informaciones de rasgo FI2 de la segunda huella digital FP2, en donde una entrada en la fila de orden i y columna de orden j de la matriz de similitud SM es
el valor de similitud SV calculado a partir del par de la información de rasgo de orden i FI1 de la primera huella digital FP1 y de la información de rasgo de orden j FI2 de la segunda huella digital FP2;
en donde la etapa de concordancia 3 comprende una etapa de detección 6 configurada para detectar las concordancias parciales PM evaluando una pluralidad de diagonales DI de la matriz de similitud SM.
En un aspecto adicional la invención se refiere a un método para detectar concordancias parciales entre una primera señal variable en el tiempo SG1 y una segunda señal variable en el tiempo SG1, en particular, entre una primera señal de audio SG1 y una segunda señal de audio SG2 o entre una primera señal de vídeo SG1 y una segunda señal de vídeo SG2. El método comprende las etapas de:
extraer una primera huella digital FP1 de la primera señal variable en el tiempo SG1 y una segunda huella digital FP2 de la segunda señal variable en el tiempo SG2, usando una etapa de extracción de huella digital 2, en donde se extrae una pluralidad de primeras tramas de tiempo TF1 de la primera señal variable en el tiempo SG1 para la primera huella digital FP1, en donde se extrae una pluralidad de segundas tramas de tiempo TF2 de la segunda señal variable en el tiempo SG2 para la segunda huella digital FP2, en donde la primera huella digital FP1 comprende para cada una de las primeras tramas de tiempo TF1 una información de rasgo FI1 que corresponde a uno o más rasgos característicos en la primera señal variable en el tiempo SG1, que están relacionados con la respectiva primera trama de tiempo TF1, y en donde la segunda huella digital FP2 comprende para cada una de las segundas tramas de tiempo TF2 una información de rasgo que corresponde a uno o más rasgos característicos en la segunda señal variable en el tiempo SG2, que están relacionados con la respectiva segunda trama de tiempo TF2; y
comparar la primera huella digital FP1 y la segunda huella digital FP2 usando una etapa de concordancia 3, en donde cada información de rasgo FI1 de la primera huella digital FP1 se compara por pares con cada información de rasgo FI2 de la segunda huella digital FP2;
calcular, usando una etapa de similitud 4 de la etapa de concordancia 3, un valor de similitud SV para cada par de una de las informaciones de rasgo FI1 de la primera huella digital FP1 y de una de las informaciones de rasgo FI2 de la segunda huella digital FP2;
disponer, usando una etapa de calculador de matriz 5 de la etapa de concordancia 3, los valores de similitud SV en una matriz de similitud SM que tiene dimensiones de La x Lb, en donde La es un número de las informaciones de rasgo FI1 de la primera huella digital FP1 y Lb es un número de las informaciones de rasgo FI2 de la segunda huella digital FP2, en donde una entrada en la fila de orden i y columna de orden j de la matriz de similitud SM es el valor de similitud SV calculado del par de la información de rasgo de orden i FI1 de la primera huella digital FP2 y de la información de rasgo de orden j FI2 de la segunda huella digital FP2; y detectar, usando una etapa de detección 6 de la etapa de concordancia 3, las concordancias parciales PM evaluando una pluralidad de diagonales DI de la matriz de similitud SM.
En un aspecto adicional, la invención se refiere a un programa informático que, cuando se ejecuta en un procesador, hace que el procesador ejecute el método de acuerdo con la invención.
La Figura 2 ilustra un modo de operación de ejemplo de una realización de una etapa de extracción de huella digital 2 de un dispositivo de acuerdo con la invención en una vista esquemática.
De acuerdo con algunas realizaciones de la invención, los rasgos característicos de cada una de las primeras tramas de tiempo TF1 comprenden una forma temporal y/o espectral de la primera señal variable en el tiempo SG1, y los rasgos característicos de cada una de las segundas tramas de tiempo TF2 comprenden una forma temporal y/o espectral de la segunda señal variable en el tiempo SG2.
De acuerdo con la invención, la información de rasgo FI1 de cada una de las primeras tramas de tiempo TF1 es un vector característico FV1 que comprende una pluralidad de elementos EL1, y la información de rasgo FI2 de cada una de las segundas tramas de tiempo TF2 es un vector característico FV2 que comprende una pluralidad de elementos EL2.
De acuerdo con algunas realizaciones de la invención, el vector característico FV1 de cada una de las primeras tramas de tiempo TF1 se calcula usando uno o más espectros SP1 relacionados con la respectiva primera trama de tiempo TV1, en donde cada uno de los elementos EL1 del vector característico FV1 de cada una de las primeras tramas de tiempo TF1 se refiere a una banda de frecuencia del uno o más espectros SP1 relacionados con la respectiva primera trama de tiempo TF1, y en donde el vector característico FV2 de cada una de las segundas tramas de tiempo TF2 se calcula usando uno o más espectros SP2 relacionados con la respectiva segunda trama de tiempo TF2, en donde cada uno de los elementos EL2 del vector característico FV2 de cada una de las segundas tramas de tiempo TF2 se refiere a una banda de frecuencia del uno o más espectros SP2 relacionados con la respectiva segunda trama de tiempo TF2.
De acuerdo con algunas realizaciones de la invención, la primera señal SG1 y la segunda señal SG2 son señales de audio. El proceso propuesto para extraer una huella digital de audio FP1, FP2 de las señales de audio SG1 y SG2 para concordancia de audio parcial, que se optimiza para una concordancia eficaz / rápida posterior (que es menos robusta contra el ruido), puede ser como sigue:
1. Submuestrear las señales de audio SG1 y SG2 a 8 kHz.
2. Calcular la transformada de Fourier de corta duración (STFT) S(t,f) de las señales de audio SG1 y SG2 usando una ventana de Hamming de 40 ms con tamaño de salto de 10 ms.
3. A partir del espectrograma S(t,f), seleccionar 15 bandas de frecuencia no solapante en el intervalo de 300­ 3000 Hz con espaciado logarítmico que deriva Sh g (t,m), con m e {1, ... , 15}.
4. Dividir Sh g (t,m) en varias submatrices, que corresponden a 60 ms de contenido (no solapado)
5. Para cada submatriz, seleccionar los 32 picos de espectrograma con la energía más alta y mapear sus ubicaciones en una matriz binaria Smax (t,m).
6. La matriz binaria Smax (t,m) está alineada en tramas en submatrices binarias Si (t,m), que corresponden a 630 ms de contenido, usando salto de 120 ms. Donde, i e {1, ... , L} representa el índice de la submatriz binaria de orden l, y L la cantidad total de submatrices binarias.
7. Para cada submatriz binaria Si (t,m) de la etapa anterior, calcular su suma a lo largo del tiempo Si (m).
8. La suma Si (m) puede usarse directamente como el vector característico final Vi (m). Como alternativa, Vi (m) puede obtenerse normalizando Si (m) por su norm1, de modo que sum(Vi (m))=1. Cada vector característico V, (m) describe 630 ms de contenido, que corresponde a una de las submatrices de la etapa 7. Debido al salto de 120 ms, tenemos una matriz característica final F(m,i) con m e{1, ... , 15}valores cada 120 ms y l e {1, ... , L} que representa el índice del vector característico de orden i donde L es la cantidad total de vectores característicos.
La Figura 3 ilustra un formato de ejemplo de una matriz de similitud SM de una realización de una etapa de calculador de matriz 5 de un dispositivo 1 de acuerdo con la invención en una vista esquemática.
De acuerdo con la invención, cada valor de similitud SV de la matriz de similitud SM se calcula usando una distancia entre el vector característico FV1 de la respectiva primera trama de tiempo TF1 y el vector característico FV2 de la respectiva segunda trama de tiempo TF2.
De acuerdo con la invención, la matriz de similitud SM es una matriz de similitud binaria SM, en donde cada valor de similitud SV de la matriz de similitud SM se establece, dependiendo de un umbral para la respectiva distancia, a un primer número que indica una concordancia de trama de la respectiva primera trama de tiempo TF1 y la respectiva segunda trama de tiempo TF2 o a un segundo número que indica una discordancia de trama de la respectiva primera trama de tiempo TF1 y la respectiva segunda trama de tiempo TF2.
La matriz de similitud ilustrativa SM de la Figura 3 comprende La filas y Lb columnas. Cada entrada de la matriz de similitud SM es un valor de similitud SV que tiene los índices i para la fila y j para las columnas. La matriz de similitud SM total comprende La x Lb valores de similitud SV, en donde únicamente se indican tres valores de similitud SV mediante signos de referencia. En la Figura 3 se muestran diagonales ilustrativas DI. Sin embargo, un experto en la materia entenderá que existen más diagonales de diámetros DI, en donde cada una de las diagonales DI empieza en cualquier entrega de la primera fila o en cualquier entrada de la primera columna de la matriz de similitud SM y finaliza en una entrada de la última fila o en una entrada de la última columna de la matriz de similitud SM.
De acuerdo con algunas realizaciones de la invención, la concordancia de segmento real, es decir, la comparación de dos huellas digitales después de la extracción, puede realizare como sigue:
Los pares de huellas digitales FP1 y FP2 pueden compararse usando una medida de distancia apropiada (es decir, apropiada a la huella digital usada, por ejemplo, la distancia euclidiana en el caso de la huella digital propuesta FP1, FP2). La comparación de la primera huella digital FP1 con la segunda huella digital FP2 da como resultado una matriz de similitud SM (Dab (La, Lb)), donde La es la cantidad de vectores característicos FV1 de la primera huella digital FP1 y Lb es el número de vectores característicos FV2 de la segunda huella digital FP2. En ambas huellas digitales, el orden de los vectores característicos respeta el orden temporal de las correspondientes tramas de tiempo.
Después de aplicar un umbral a la matriz de similitud SM (D ab), se obtiene una matriz de similitud binaria SM (DBab) que representa la concordancia entre dos huellas digitales FP1 y FP2.
La Figura 4 ilustra un concepto de concordancia clásica de una primera señal variable en el tiempo SG1 y una segunda señal variable en el tiempo SG2, que se usa en la técnica anterior.
La Figura 5 ilustra un concepto de una concordancia parcial de una primera señal variable en el tiempo SG1 y una segunda señal variable en el tiempo SG2, que se usa de acuerdo con la invención.
Las Figuras 4 y 5 ilustran la diferencia entre la concordancia parcial (concordancia de segmento) y la concordancia clásica. Los problemas planteados en ambos casos son diferentes:
Las concordancias clásicas tienen como objetivo una búsqueda eficaz y robusta de una consulta, mientras que los problemas de caso de uso previamente descritos requieren (al menos hasta cierto punto) concordancia parcial sin una consulta, lo que requiere un enfoque de concordancia completamente diferente.
Más allá de este problema general, también es importante observar que varios de los problemas de caso de uso resultan directamente de acciones comunes realizadas en el material, haciendo surgir algunas acciones problemas específicos.
La Figura 6 ilustra casos relevantes del concepto de concordancia parcial de una primera señal variable en el tiempo SG1 y una segunda señal variable en el tiempo SG2, que se usa de acuerdo con la invención. En la Figura 6, el elemento 1 es un elemento original dentro de un conjunto de elementos y todos los demás elementos son derivados del elemento 1. El objetivo es detectar y ubicar todas las concordancias parciales (segmentos de elemento con el mismo patrón indicado por el mismo sombreado en la Figura 6) entre el elemento 1 y los elementos derivados, que se han creado, por ejemplo, mediante
• Corte (eliminación), como se representa con el elemento 2, donde se empalma el extracto del elemento 1 entre los puntos A-B y C-D y se elimina B-C.
• Pegado (inserción), como se representa con el elemento 3, donde se inserta nuevo contenido entre dos porciones del elemento 1 consecutivas, en concreto A-B y B-C.
• Corte y pegado (remplazo), como se representa con el elemento 5, donde se elimina el extracto de contenido A-D del elemento 1, se elimina B-C y se sustituye por otro contenido. Este caso es especialmente difícil de detectar si la cantidad de contenido eliminado es la misma que la cantidad de contenido insertado, que ocurre de manera frecuente en la práctica.
• Empalme, como se representa en los segmentos 2-4, donde el segmento o segmentos del elemento 1 se han empalmado al nuevo contenido (es decir, no se reutilizan del elemento 1).
La Figura 7 ilustra una segunda realización de un dispositivo 1 para detectar concordancias parciales entre una primera señal variable en el tiempo SG1 y una segunda señal variable en el tiempo SG2 de acuerdo con la invención en una vista esquemática.
De acuerdo con la invención, la etapa de concordancia 3 comprende una primera etapa de búsqueda de patrones 7 configurada para buscar primeros patrones FPA dentro de la pluralidad de diagonales DI, que comprende una o más de las concordancias de trama FM y cero o más discordancias de trama FMM que están ubicadas entre dos de las concordancias de trama FM del respectivo primer patrón FPA, en donde un número de discordancias de trama consecutivas FMM dentro del respectivo primer patrón FPA no supera un umbral para un número máximo permitido de discordancias de trama consecutivas FMM dentro del respectivo primer patrón FPA, en donde una longitud LEF del respectivo primer patrón FPA desde una concordancia de trama más anterior FM del respectivo primer patrón FPA hasta una última concordancia de trama FM del respectivo primer patrón FPA alcanza al menos un umbral para una longitud mínima del primer patrón FPA, en donde las diagonales Di, en las que se encuentra al menos uno de los primeros patrones FPA, se marcan como diagonales candidatas CD; y en donde la etapa de detección 6 está configurada para detectar las concordancias parciales PM evaluando las diagonales candidatas CD de la matriz de similitud SM.
De acuerdo con algunas realizaciones de la invención, la etapa de detección 6 está configurada de tal manera que cada uno de los primeros patrones FPA, en los que una relación entre un número de concordancias de trama FM del respectivo primer patrón FPA y la longitud LEF del respectivo primer patrón FPA alcanza un umbral para la relación entre el número de concordancias de trama FM del respectivo primer patrón FPA y se detecta la longitud LEF del respectivo primer patrón FPA como que es una de las concordancias parciales PM.
La Figura 8 ilustra un modo de operación de ejemplo de una realización de una primera etapa de búsqueda de patrones 7 de un dispositivo 1 de acuerdo con la invención en una vista esquemática. Pueden buscarse los primeros patrones de línea diagonal FPA y realizarse un seguimiento de concordancias de trama consecutivas FM en cada diagonal DI posible (de izquierda a derecha) en una matriz de similitud SM. Un umbral (maxGapI) define el número máximo permitido de tramas no concordantes FMM en la diagonal rastreada DI entre dos concordancias de trama FM, mientras que un umbral adicional (minLengthl) define la ruta consecutiva más corta que podría marcarse como diagonal candidata CD y enviarse para su procesamiento adicional.
La Figura 9 ilustra una tercera realización de un dispositivo 1 para detectar concordancias parciales entre una primera señal variable en el tiempo SG1 y una segunda señal variable en el tiempo SG2 de acuerdo con la invención en una vista esquemática.
De acuerdo con algunas realizaciones de la invención, la etapa de concordancia 3 comprende una segunda etapa de búsqueda de patrones 8 configurada para buscar segundos patrones SPA dentro de las diagonales candidatas CD, que comprenden uno o más de los primeros patrones FPA y una o más discordancias de trama FMM entre dos de los primeros patrones FPA, en donde un número de discordancias de trama consecutivas FMM entre dos de los primeros patrones FPA no supera un umbral para un número máximo permitido de discordancias de trama consecutivas FMM entre dos de los primeros patrones FPA, en donde una longitud LES del respectivo segundo patrón SPA desde una concordancia de trama más anterior FM del respectivo segundo patrón SPA hasta una última concordancia de trama FM del respectivo segundo patrón SPA alcanza al menos un umbral para una longitud mínima del segundo patrón SPA; y
en donde la etapa de detección 6 está configurada para detectar las concordancias parciales evaluando los segundos patrones SPA de las diagonales candidatas CI.
De acuerdo con algunas realizaciones de la invención la etapa de detección 6 está configurada de tal manera que cada uno de los segundos patrones SPA, en los que una relación entre un número de concordancias de trama Fm del respectivo segundo patrón SPA y la longitud LES del respectivo segundo patrón SPA alcanza un umbral para la relación entre el número de concordancias de trama FM del respectivo segundo patrón SPA y se detecta la longitud LES del respectivo segundo patrón SPA como que es una de las concordancias parciales PM.
La Figura 10 ilustra un modo de operación de ejemplo de una realización de una segunda etapa de búsqueda de patrones 8 de un dispositivo 1 de acuerdo con la invención en una vista esquemática. A partir de todos los primeros patrones FPA, cada dos primeros patrones FPA con el mismo desplazamiento se toman y presentan como una concordancia consecutiva o como dos concordancias desconectadas, basándose en un parámetro seleccionado por el usuario (maxGap2). La Figura 10 muestra una matriz de similitud binaria SM (ÜBab) con dos primeros patrones FPA que tienen el mismo desplazamiento (que radica en la misma diagonal candidata CI) y se presentarán como un segundo patrón SPA puesto que el hueco entre medias (cantidad de tramas no concordantes) es menor que el umbral definido maxGap2.
Puede realizarse una decisión basándose en dos parámetros umbral si el segundo patrón SPA es una concordancia parcial PM, en donde (minLength2) es la longitud mínima permitida de la diagonal y (densidad) es la densidad de una concordancia consecutiva (número de tramas concordantes a través de la longitud de concordancia total). En la Figura 10, la longitud de la diagonal es 12 tramas, mientras que su densidad es 0,75.
La Figura 11 ilustra una cuarta realización de un dispositivo 1 para detectar concordancias parciales entre una primera señal variable en el tiempo SG1 y una segunda señal variable en el tiempo SG2 de acuerdo con la invención en una vista esquemática.
De acuerdo con algunas realizaciones de la invención, la etapa de concordancia 3 comprende una etapa de limpieza 9 configurada para recibir al menos algunas de las concordancias parciales PM detectadas por la etapa de detección 6 y para determinar una concordancia parcial más larga LPM de las concordancias parciales PM, en donde la concordancia parcial más larga LPM de las concordancias parciales recibidas PM es una diagonal principal DIR de una porción rectangular RP de la matriz de similitud SM, en donde se descarta una concordancia parcial adicional FPM de las concordancias parciales recibidas PM, que se extiende al menos parcialmente en la porción rectangular RP de la matriz de similitud SM, a menos que se cumplan las siguientes condiciones:
un valor absoluto de una distancia horizontal HD1 entre una concordancia de trama más anterior FM de la concordancia parcial más larga recibida LPM y una concordancia de trama más anterior FM de la concordancia parcial recibida adicional FPM supera un umbral de distancia;
un valor absoluto de una distancia vertical VD1 entre la concordancia de trama más anterior FM de la concordancia parcial más larga recibida PM y la concordancia de trama más anterior de la otra concordancia parcial recibida PM supera el umbral de distancia;
un valor absoluto de una distancia horizontal HD2 entre una última concordancia de trama FM de la concordancia parcial más larga recibida PM y una última concordancia de trama FM de la concordancia parcial recibida adicional PM supera un umbral de distancia; y
un valor absoluto de una distancia vertical VD2 entre la última concordancia de trama FM de la concordancia parcial más larga recibida PM y la última concordancia de trama FM de la concordancia parcial recibida adicional PM supera el umbral de distancia; y
un índice de fila de la última concordancia de trama FM de la concordancia parcial recibida adicional FPM es mayor que un índice de fila de la última concordancia de trama FM de la concordancia parcial más larga recibida LPM, en caso de que un índice de columna de la última concordancia de trama FM de la concordancia parcial recibida adicional FPM sea mayor que un índice de columna de la última concordancia de trama FM de la concordancia parcial más larga recibida LPM;
en donde se emiten las concordancias parciales no descartadas PM.
La Figura 12 ilustra un modo de operación de ejemplo de una realización de una etapa de limpieza 9 de un dispositivo 1 de acuerdo con la invención en una vista esquemática. Se selecciona la concordancia parcial más larga LPM marcada en una etapa anterior, y pueden descartarse (diagonales dominadas) todas las demás concordancias parciales FPM que concuerdan con el mismo contenido desde la perspectiva de ambas señales SG1 y SG2 usando un parámetro que podría ajustarse desde la perspectiva del usuario en caso de escenarios de aplicación donde el objetivo es detectar la repetición de contenido dentro de un elemento.
En la Figura 12 se muestra una concordancia parcial más larga LPM y un rectángulo RP alrededor de ella como su área "restringida". Esto significa que se descartará cada concordancia parcial adicional FPM que pasa a través de esa área, que se aplica para toda concordancia parcial adicional FPM en la Figura 12.
La Figura 13 ilustra un modo de operación de ejemplo de una realización de una etapa de limpieza 9 de un dispositivo 1 de acuerdo con la invención en una vista esquemática. Aunque las concordancias parciales adicionales FPM en la Figura 13 son las que cruzan el área "restringida" RP de la concordancia parcial más larga LPM, no se descartarán puesto que cumplen varias condiciones: Su inicio radica más de un umbral (th) lejos del inicio de la concordancia parcial más larga LPM y esto debe cumplirse desde la perspectiva de ambas señales SG1 y SG2. En este caso el umbral (th) es un umbral definido por el usuario. Además, en casos donde la concordancia parcial adicional FPM radica a la derecha de la concordancia parcial más larga LPM, su punto de finalización debe ser mayor que el punto de finalización de la concordancia parcial más larga LPM (en este punto de nuevo desde la perspectiva de ambos ficheros de audio).
La Figura 14 ilustra una quinta realización de un dispositivo 1 para detectar concordancias parciales entre una primera señal variable en el tiempo SG1 y una segunda señal variable en el tiempo SG2 de acuerdo con la invención en una vista esquemática.
De acuerdo con algunas realizaciones de la invención, la etapa de concordancia 3 comprende una etapa de procesamiento de ruido y silencio 10 configurada para recibir al menos alguna de las concordancias parciales PM detectadas por la etapa de detección 6 y para descartar una de las concordancias parciales recibidas PM, en caso de que una de las concordancias parciales recibidas PM se detecte de manera incorrecta debido a porciones con ruido o silenciosas en la primera señal variable en el tiempo SG1 y la segunda señal variable en el tiempo SG, en donde una de las concordancias parciales recibidas PM es una diagonal principal de una porción rectangular adicional de la matriz de similitud SM, en donde se calcula una relación de ruido entre un número de las concordancias de trama FM en la porción rectangular adicional de la matriz de similitud SM excluyendo las concordancias de trama FM de la diagonal principal de la porción rectangular adicional de la matriz de similitud SM y un número de los valores de similitud SV en la porción rectangular adicional de la matriz de similitud SM excluyendo los valores de similitud SV de la diagonal principal de la porción rectangular adicional de la matriz de similitud SM, en donde se descarta una de las concordancias parciales recibidas PM dependiendo de un umbral para la relación de ruido, en donde se emiten las concordancias parciales no descartadas PM.
Estos rasgos pueden evitar falsas concordancias parciales PM debido a ruido y silencio. Estos tipos de concordancias parciales PM generan patrones típicos que pueden reconocerse y excluirse de los resultados concordantes, lo que es muy útil en casos donde las señales SG1 y SG2 son realmente cortas (por ejemplo, más cortas de 2 s). Para detectar concordancias parciales PM de silencio y ruido, puede examinarse el área previamente denominada "restringida" alrededor de una concordancia parcial. En esta área, puede calcularse una cantidad de tramas concordantes FM excluyendo la diagonal principal. Cuando este número se divide entre un número total de posiciones en el área "restringida" excluyendo la diagonal principal, puede conseguirse una puntuación de ruido. Esta puntuación de ruido se comparará a continuación con un umbral definido por el usuario (noiseLevel) para hacer una decisión de si esta concordancia parcial PM es una concordancia parcial verdadera o debe evitarse.
Las Figuras 15 y 16 ilustran una comparación entre resultados ilustrativos conseguidos por concordancia parcial en contraste a concordancia clásica.
Se realizó una evaluación usando los siguientes conjuntos de datos:
• Un conjunto de datos de referencia con contenido de programas de radio y TV que incluye voz y música (“ 50 horas de material en total).
• Un conjunto de datos no de referencia.
• Un conjunto de prueba que tiene 6000 ficheros de prueba creados usando material a partir del conjunto de datos de referencia, y material no de referencia para algunos tipos de ficheros de prueba.
Para la creación del conjunto de prueba, el objetivo era recrear todos los posibles casos de elementos derivados como se representa en la Figura 6. Por lo tanto, se aplicaron los siguientes tipos de edición en extractos del contenido de audio de referencia:
• Corte (eliminación): un extracto continuo de un fichero de referencia donde se cortan 2 segundos del medio. • Pegado (inserción): un extracto continuo de un fichero de referencia donde se pegan 2 segundos de contenido no de referencia en el medio.
• Corte y pegado (sustitución): un extracto continuo de un fichero de referencia donde se cortan 2 segundos del medio y se pegan en su lugar 2 segundos de contenido no de referencia.
• Empalme: se empalmaron juntos un número aleatorio (de 2 a 5) de extractos de audio de los mismos ficheros de referencia o diferentes.
Las longitudes dirigidas de los extractos de ficheros de audio después de una de las operaciones de edición son 10, 5 y 3 segundos. El número total de ficheros de prueba creados es de 500 para cada longitud de cada tipo, dando como resultado 500*4*3 = 6000 ficheros. Para los tipos de edición de corte, pegado y corte y pegado, se selecciona arbitrariamente la longitud de extracto de contenido de 2 segundos. Cambiar este parámetro no influye en el rendimiento del algoritmo, ya que siempre es >maxGap2. Después de editar los ficheros del conjunto de prueba, cada fichero de prueba se sometió hasta dos transformaciones aleatoriamente seleccionadas de codificación con MP3{128, 192, 320 kbit/s} o AAC{128, 192, 320 kbit/s} y un cambio de volumen de entre 0,5 hasta el máximo posible antes de que tuviera lugar recorte. Este conjunto de transformaciones se ha seleccionado considerando las aplicaciones de concordancia de segmentos que no requieren robustez contra una fuerte degradación de calidad de contenido.
Cada fichero de prueba se concordó contra todos los demás ficheros en el conjunto de datos de referencia, y todas las concordancias de segmento reportadas se evaluaron y clasificaron como: verdaderos positivos o falsos positivos. Si no se recuperó concordancia para el segmento de un fichero de prueba con una concordancia dentro del conjunto de datos de referencia, se aumentó el número de falsos negativos en uno. Los verdaderos positivos, falsos positivos y falsos negativos se definen como sigue:
• Se recuperan verdaderos positivos que concuerdan con segmentos que tienen ubicación de inicio y fin correctas dentro del fichero de prueba (con tolerancia definida t) y se encuentran en el fichero de audio de referencia correcto también con la ubicación de inicio y fin correctas.
• Se recuperan falsos positivos que concuerdan con segmentos que no satisfacen todas las condiciones mencionadas para que sean un verdadero positivo, en concreto: ubicación correcta dentro de un fichero de prueba, fichero de referencia correcto y ubicación correcta dentro de un fichero de referencia.
• No se recuperan falsos negativos que concuerdan con segmentos que, de acuerdo con la verdad terreno, tienen sus concordancias en el conjunto de datos de referencia.
Para los valores de tolerancia permitidos de las posiciones de inicio/fin de concordancias recuperadas t e {±0,5, 0,6, 0,7, 0,8, ... 2} en segundos, se calcularon en consecuencia la exhaustividad y la precisión.
En la técnica anterior, no existe un enfoque que pueda tratar adecuadamente los escenarios de aplicación objetivo. Por lo tanto, se seleccionó un algoritmo conocido que ofrece la solución más cercana al problema tratado y se incluyó la alineación temporal, que se describe en [1], usando la implementación de Python [13] por Dan Ellis para comparar sus resultados con la configuración dada con el enfoque inventivo.
Para usar la implementación de Python de Ellis para nuestros propósitos, se usó la opción soportada para reportar la posición de cada concordancia, solicitando que se devolvieran las 5 mejores concordancias, ya que este es el número máximo de segmentos concordantes que uno esperaría. También se usó la opción soportada para recuento de concordancia más preciso. Para el propósito de la denominada concordancia clásica, estas opciones son menos relevantes, puesto que el objetivo normalmente es únicamente detectar un fichero de referencia de la base de datos, basándose en una mejor concordancia. Por lo tanto, el algoritmo requiere, como una entrada del usuario, un número de mejores concordancias que van a recuperarse. Esta información es desconocida, por definición, para nuestras aplicaciones objetivo, pero se proporciona en este punto con motivos de evaluación.
Las Figuras 15 y 16 muestran los resultados del algoritmo propuesto, que se muestran en líneas continuas, y la implementación de Python de Ellis del algoritmo de Wang [1], que se muestra en líneas discontinuas. Los resultados se obtuvieron usando las métricas de evaluación y los conjuntos de datos anteriormente descritos. El algoritmo propuesto ha conseguido significativamente mejores resultados. Para una tolerancia de segmento de inicio/fin permitida de ± 1,7 s, el algoritmo propuesto consiguió una precisión promedio de 0,88 y una exhaustividad promedio de 0,94, mientras que la implementación de Shazam de Dan Ellis en la misma tolerancia consiguió una precisión promedio de 0,42 y exhaustividad promedio de 0,47.
El caso más difícil para [13] de detectar fue los ficheros de prueba de cortar-pegar. Únicamente para este tipo de ficheros de prueba, la precisión y exhaustividad en la tolerancia de inicio/fin de ±1,7 s fueron ambas 0,23. Si se excluyó este tipo de ficheros de prueba, la precisión y la exhaustividad para la misma tolerancia de inicio/fin se elevaron a 0,5 y 0,56.
De acuerdo con algunas realizaciones de la invención, la concordancia de segmento real, es decir, la comparación de dos huellas digitales después de la extracción, puede realizare como sigue:
1. Los pares de huellas digitales FP1 y FP2 pueden compararse usando una medida de distancia apropiada (es decir, apropiada a la huella digital usada, por ejemplo, la distancia euclidiana en el caso de la huella digital propuesta FP1, FP2). La comparación de la primera huella digital FP1 con la segunda huella digital FP2 da como resultado una matriz de similitud SM (Dab (La, Lb)), donde La es la cantidad de vectores característicos FV1 de la primera huella digital FP1 y Lb es el número de vectores característicos FV2 de la segunda huella digital FP2. En ambas huellas digitales, el orden de los vectores característicos respeta el orden temporal de las correspondientes tramas de tiempo.
2. Después de aplicar un umbral T a la matriz de similitud SM (Dab), se obtiene una matriz de similitud binaria SM (DBab) que representa la concordancia entre dos huellas digitales FP1 y FP2.
3. Recuperación de concordancias: En la matriz de concordancias binaria DBab, buscamos diagonales de 1, y basándose en la posición diagonal dentro de esta matriz de concordancia, recuperamos posiciones de inicio y fin de los respectivos segmentos de concordancia dentro de Fa y Fb. Proponemos el siguiente enfoque, que está optimizado para los requisitos anteriormente señalados, que proporciona buen rendimiento de detección y ubicación a bajo coste computacional:
a. Diagonales candidatas: Pueden buscarse los primeros patrones de línea diagonal FPA y realizarse un seguimiento de concordancias de trama consecutivas FM en cada diagonal DI posible (de izquierda a derecha) en una matriz de similitud SM. Un umbral (maxGapI) define el número máximo permitido de tramas no concordantes FMM en la diagonal rastreada entre dos concordancias FM, mientras que un umbral (minLengthl) define la ruta consecutiva más corta que podría marcarse como diagonal candidata CD y enviarse para su procesamiento adicional.
b. Unir diagonales: A partir de todos los primeros patrones FPA, cada dos primeros patrones FPA con el mismo desplazamiento se toman y presentan como una concordancia consecutiva o como dos concordancias desconectadas, basándose en un parámetro seleccionado por el usuario (maxGap2). La Figura 10 muestra una matriz de similitud binaria SM (DBab) con dos primeros patrones FPA que tienen el mismo desplazamiento (que radica en la misma diagonal candidata CI) y se presentarán como un segundo patrón SPA puesto que el hueco entre medias (cantidad de tramas no concordantes) es menor que el umbral definido maxGap2.
c. Decisión de concordancia: Puede realizarse una decisión basándose en dos parámetros umbral si el segundo patrón SPA es una concordancia parcial PM, en donde (minLength2) es la longitud mínima permitida de la diagonal y (densidad) es la densidad de una concordancia consecutiva (número de tramas concordantes a través de la longitud de concordancia total). En la Figura 10, la longitud de la diagonal es 12 tramas, mientras que su densidad es 0,75.
d. Limpiar múltiples candidatos de línea: Se selecciona la concordancia parcial más larga PM marcada en una etapa anterior, y pueden descartarse (diagonales dominadas) todas las demás concordancias parciales PM que concuerdan con el mismo contenido desde la perspectiva de ambas señales SG1 y SG2 usando un parámetro que podría ajustarse desde la perspectiva del usuario en caso de escenarios de aplicación donde el objetivo es detectar la repetición de contenido dentro de un elemento.
En la Figura 12 se muestra una concordancia parcial más larga LPM y un rectángulo RP alrededor de ella como su área "restringida". Esto significa que se descartará cada concordancia parcial adicional FPM que pasa a través de esa área, que se aplica para toda concordancia parcial adicional FPM en la Figura 12. Aunque las concordancias parciales adicionales FPM en la Figura 13 son las que cruzan el área "restringida" RP de la concordancia parcial más larga LPM, no se descartarán puesto que cumplen varias condiciones: Su inicio radica más de un umbral (th) lejos del inicio de la concordancia parcial más larga LPM y esto debe cumplirse desde la perspectiva de ambas señales SG1 y SG2. En este caso el umbral (th) es un umbral definido por el usuario. Además, en casos donde la concordancia parcial adicional FPM radica a la derecha de la concordancia parcial más larga LPM, su punto de finalización debe ser mayor que el punto de finalización de la concordancia parcial más larga LPM (en este punto de nuevo desde la perspectiva de ambos ficheros de audio).
e. Etiquetado de ruido y silencio: Esta etapa puede evitar falsas concordancias parciales PM debido a ruido y silencio. Estos tipos de concordancias parciales PM generan patrones típicos que pueden reconocerse y excluirse de los resultados concordantes, lo que es muy útil en casos donde las señales SG1 y SG2 son realmente cortas (por ejemplo, más cortas de 2 s). Para detectar concordancias parciales PM de silencio y ruido, puede examinarse el área previamente denominada "restringida" alrededor de una concordancia parcial. En esta área, puede calcularse una cantidad de tramas concordantes FM excluyendo la diagonal principal. Cuando este número se divide entre un número total de posiciones en el área "restringida" excluyendo la diagonal principal, puede conseguirse una puntuación de ruido. Esta puntuación de ruido se comparará a continuación con un umbral definido por el usuario (noiseLevel) para hacer una decisión de si esta concordancia parcial PM es una concordancia parcial verdadera o debe evitarse.
La etapa 3 también puede resumirse mediante la siguiente descripción de flujo:
Entrada: Matriz binaria DBab
Salida: conjunto de resultados concordantes {concordancias}
Etapa 1: ShortDiagonals(a,b) = getShortDiagonals(DBab, minLength1, maxGap1)
Etapa 2: LongDiagonals(a,b) = getLongDiagonals(ShortDiagonals(a,b), minLength2, maxGap2, densidad) Etapa 3: CleanDiagonals(a,b) = removeDominatedDiagonal(Longdiagonals(a,b), umbral)
Etapa 4: Matches(a,bq,z) = transformToMatch(CandidateMatches(a,b))
Etapa 5: CandidateMatches(a,b) = removeNoisyAndSilentMatches(CleanDiagonals (a,b), noiseLevel)
Dependiendo de los rasgos (huellas digitales), la etapa 3 y etapa 5 usadas a partir de lo anterior pueden ser opcionales. Y, por supuesto, para analizar conjuntos de datos (grandes), se realizan las etapas de extracción y de comparación por pares descritas para todos los pares relevantes en un conjunto.
Notas adicionales importantes:
1. La detección propuesta de diagonales, aunque proporciona buen rendimiento a bajo coste computacional, no puede tratar con huellas digitales que se extienden en el tiempo y no equidistantes. Aunque esto es correcto para la mayoría de los casos de uso señalados, también puede implementarse la detección de diagonal usando otros enfoques del estado de la técnica, por ejemplo, del dominio de análisis de la música (para detección de similitud / auto-similitud) para soportar tales requisitos. Puede hallarse un estudio de los métodos del estado de la técnica para el análisis de la estructura musical computacional en [2], donde alguno de los enfoques que buscan franjas diagonales paralelas a la diagonal principal en la matriz de auto-distancia (SDM) son [3], [4] y [5].
2. La concordancia de segmento propuesta anterior puede aplicarse también a otros datos, incluyendo vídeo, etc., que pueden representarse con huellas digitales por tramas; por ejemplo, se ha probado satisfactoriamente la concordancia de los datos de ENF extraídos para propósitos forenses [6].
3. La concordancia de segmento propuesta es, en principio, abrirse a diferentes formatos de huellas digitales. Por ejemplo, no usamos únicamente el formato de huella digital propuesto que está optimizado para tamaño de huella pequeño y procesamiento rápido, también probamos el enfoque con la huella digital usada por SMT (grupo de Tecnología de Música Semántica de Fraunhofer IDMT), que dio como resultado una robustez contra el ruido significativamente mejorada (a expensas del coste computacional aumentado). La idea es poder usar diferentes formatos de huella digital, dependiendo de los respectivos requisitos de aplicación.
4. Puede aumentarse adicionalmente la robustez de la concordancia de segmento propuesto contra el ruido (que puede ser, por ejemplo, otro material de voz o musical "en la mezcla"): En casos en los que la concordancia de segmento no detecta todas, sino únicamente algunas concordancias parciales debido al hecho de que, por ejemplo, la música de fondo que se va a detectar está cubierta por el habla dominante, y es únicamente audible en pasajes silenciosos, esto se mostrará como un hueco entre diagonales en la misma recta; tales huecos pueden detectarse y, a continuación, pueden aplicarse varios enfoques, también en combinación:
o Comprobar la línea a través de las diagonales detectadas para concordancias adicionales entre medias y más allá de las diagonales detectadas, usando un ajuste más sensible para detección; si se detectan diagonales parciales adicionales en la línea, repetir el procedimiento hasta que se alcance un umbral mínimo o no existan huecos adicionales.
o Comparar los segmentos detectados usando los enfoques de concordancia robusta clásica o basados en correlación.
o Debido a que el procedimiento es costoso, puede tener sentido estimar si el hueco detectado podría ser debido a un caso de "mezcla" restando una señal de la otra y analizar la señal de diferencia restante.
5. Para acelerar el proceso de detección para grandes conjuntos de datos, puede aplicarse Función de Troceo Sensible a la Localidad (LSH), que, a continuación, se complementa con nuestro enfoque para la ubicación. 6. Puede aplicarse procesamiento paralelo y uso de GPU para mejorar la eficiencia del enfoque descrito.
Además de lo anterior, para algunos de los casos de uso, la eficiencia de la solución propuesta puede mejorarse adicionalmente (opcionalmente) combinándola con
• detección de edición, en el sentido de que, pueden usarse los enfoques de detección de edición, por ejemplo, resultados de detección de edición de audio de análisis de codificación, tonos estables y análisis de ENF o análisis de micrófono, como candidatos probables para la segmentación y reutilización, mejorando de esta manera la eficiencia del enfoque
• análisis de filogenia, en el sentido de que puede analizarse adicionalmente el historial de procesamiento de segmentos detectados para determinar el elemento "raíz" original y los elementos derivados, que es clave para la eliminación de duplicados
• concordancia clásica, en el sentido de que para algunos casos de uso, después de detectar y ubicar de manera precisa concordancias parciales previamente desconocidas, puede a continuación usarse la concordancia clásica para una búsqueda rápida de ocurrencias adicionales
Un problema importante para el enfoque propuesto es la escalabilidad y la seguridad con respecto al análisis. Varios puntos son clave para conseguir esto:
• Igual que para otros enfoques de concordancia, la extracción y la concordancia pueden desacoplarse, lo que significa que es posible extraer huellas digitales de proveedores de contenido en las instalaciones, y a continuación transferir las huellas digitales extraídas para su análisis a un dominio no confiable. Esto puede aplicarse también en escenarios colaborativos, donde muchos proveedores de contenido tienen un interés en entender dónde existen los solapamientos parciales (por ejemplo, para alinear y limpiar metadatos), pero han de considerarse los costes de seguridad y de tráfico.
• Más allá del proceso de extracción, también puede distribuirse el proceso de concordancia: El proceso está basado en comparaciones por pares, lo que permite la distribución del proceso de concordancia para conjuntos de datos más grandes y la reutilización de resultados de concordancia existentes si se añaden nuevos elementos a un conjunto de datos (que a menudo es el caso): Para un conjunto con n elementos analizados, que requiere que se completen (nA2-n)/2 comparaciones por pares, para la adición de un nuevo elemento, únicamente son necesarias n comparaciones por pares para actualizar el modelo, pueden reutilizarse todos los resultados de comparación existentes. Esto hace posible fusionar resultados a partir de un análisis descentralizado.
• Basándose en los resultados de comparación por pares, el sistema puede soportar consultas de usuario de nivel superior aplicando un procedimiento que crea clases para segmentos concordantes: Para cualquier concordancia detectada que está solapando con una concordancia ya detectada, se añade a ese grupo (si lo solapa completamente), o divide los grupos existentes en 2 o 3 nuevos grupos y une uno de ellos (si lo solapa parcialmente). Esto hace posible consultar rápidamente el sistema para material reutilizado / redundante.
Dependiendo de ciertos requisitos de implementación, las realizaciones del dispositivo inventivo y el sistema pueden implementarse en hardware y/o en software. La implementación puede realizarse usando un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un disco Blu-ray, un CD, una ROM, una PROM, una EPROM, una EEPROM, o una memoria FLASH, que tiene señales de control electrónicamente legibles almacenadas en el mismo, que cooperan (o pueden cooperar) con un sistema informático programable de manera que se realiza una o más o todas las funcionalidades del dispositivo o sistema inventivo.
En algunas realizaciones, puede usarse un dispositivo de lógica programable (por ejemplo, un campo de matrices de puertas programables) para realizar una o más o todas la funcionalidades de los dispositivos y sistemas descritos en el presente documento. En algunas realizaciones, un campo de matrices de puertas programables puede cooperar con un microprocesador para realizar una o más o todas la funcionalidades de los dispositivos y sistemas descritos en el presente documento.
Aunque se han descrito algunos aspectos en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a una etapa de método o una característica de una etapa de método. De manera análoga, los aspectos descritos en el contexto de una etapa de método también representan una descripción de un bloque o elemento correspondiente o características de un aparato correspondiente.
Dependiendo de ciertos requisitos de implementación, las realizaciones del método inventivo pueden implementarse usando un aparato que comprende hardware y/o software. La implementación puede realizarse usando un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un disco Blu-ray, un CD, una ROM, una PROM, una EPROM, una EEPROM, o una memoria FLASH, que tiene señales de control electrónicamente legibles almacenadas en el mismo, que cooperan (o pueden cooperar) con un sistema informático programable de manera que se realiza el respectivo método.
Dependiendo de ciertos requisitos de implementación, las realizaciones del método inventivo pueden implementarse usando un aparato que comprende hardware y/o software.
Algunas o todas las etapas de método pueden ejecutarse por (o usando) un aparato de hardware, como un microprocesador, un ordenador programable o un circuito electrónico. Algunas una o más de las etapas más importantes del método pueden ejecutarse por un aparato de este tipo.
Algunas realizaciones de acuerdo con la invención comprenden un soporte de datos que tiene señales de control electrónicamente legibles, que pueden cooperar con un sistema informático programable, de manera que se realiza uno de los métodos descritos en el presente documento.
En general, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, siendo el código de programa operativo para realizar uno de los métodos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa puede almacenarse, por ejemplo, en un soporte legible por máquina.
Otras realizaciones comprenden el programa informático para realizar uno de los métodos descritos en el presente documento, que se almacena en un soporte legible por máquina o en un medio de almacenamiento no transitorio. Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador, o un dispositivo de lógica programable, en particular, un procesador que comprende hardware, configurado o adaptado para realizar uno de los métodos descritos en el presente documento.
Una realización adicional comprende un ordenador que tiene instalado en el mismo el programa informático para realizar uno de los métodos descritos en el presente documento.
En general, los métodos se realizan ventajosamente por cualquier aparato que comprenda hardware y/o software.
Signos de referencia:
1 dispositivo para detectar concordancias parciales
2 etapa de extracción de huella digital
3 etapa de concordancia
4 etapa de calculador de similitud
5 etapa de calculador de matriz
6 etapa de detección
7 primera etapa de búsqueda de patrones
8 segunda etapa de búsqueda de patrones
9 etapa de limpieza
10 etapa de procesamiento de ruido y de silencio
PM concordancias parciales
SG1 primera señal variable en el tiempo
SG2 segunda señal variable en el tiempo
FP1 primera huella digital
FP2 segunda huella digital
TF1 primera trama de tiempo
TF2 segunda trama de tiempo
FI1 información de rasgo de primera huella digital
FI2 información de rasgo de segunda huella digital
SV valor de similitud
SM matriz de similitud
DI diagonal de la matriz de similitud
FV1 vector característico de primera huella digital
FV2 vector característico de segunda huella digital
SP1 espectro para una primera trama de tiempo
SP2 espectro para una segunda trama de tiempo
EL1 elemento de un vector característico de una primera huella digital
EL2 elemento de un vector característico de una segunda huella digital
FM concordancias de trama
FMM discordancias de trama
FPA primer patrón
LEF longitud de un primer patrón
CD diagonal candidata
SPA segundo patrón
LES longitud de un segundo patrón
LPM concordancia parcial más larga
DIR diagonal de una porción rectangular
RP porción rectangular de la matriz de similitud
FPM concordancia parcial adicional
HD1 distancia horizontal entre una concordancia de trama más anterior de la concordancia parcial más larga recibida y una concordancia de trama más anterior de la concordancia parcial recibida adicional VD1 distancia vertical entre la concordancia de trama más anterior de la concordancia parcial marcada más larga y la concordancia de trama más anterior de la otra concordancia parcial marcada
HD2 distancia horizontal entre una última concordancia de trama de la concordancia parcial más larga recibida y una última concordancia de trama de la concordancia parcial recibida adicional
VD2 distancia vertical entre la última concordancia de trama de la concordancia parcial más larga recibida y la última concordancia de trama de la concordancia parcial recibida adicional
Referencias:
[1] Wang, A.: An industrial-strength audio search algorithm. In Proc. of International Conference on Music Information Retrieval (ISMIR), Baltimore, Maryland, Estados Unidos, octubre de 2003.
[2] Paulus, Jouni; Muller, Meinard; Klapuri, Anssi: Audio-based music structure analysis. In: Proceedings of the 11 th International Society for Music Information Retrieval Conference (ISMIR). ISMIR. Utrecht, Países Bajos, 9-13 de agosto. Utrecht, Países Bajos, págs. 625-636, 2010.
[3] Goto, M.: A chorus-section detecting method for musical audio signals. In: Proc. of IEEE International Conference on Acoustics, Speech, and Signal Processing, páginas 437-440, Hong Kong, 2003.
[4] Shiu, Y.; Jeong, H.; Kuo, C.-C. J.: Similar segment detection for music structure analysis via Viterbi algorithm. In: Proc. of IEEE International Conference on Multimedia and Expo, páginas 789-792, Toronto, Ont., Canadá, julio de 2006.
[5] Rhodes, C.; Casey M.: Algorithms for determining and labelling approximate hierarchical self-similarity. In: Proc. de 8th International Conference on Music Information Retrieval, páginas 41-46, Viena, Austria, septiembre de 2007.
[6] Grigoras, C.: Digital audio recording analysis - the electric network frequency criterion. In: International Journal of Speech Language and the Law, vol. 12, n.° 1, págs. 63-76, 2005.
[7] Eric Allamanche, Jürgen Herre, Oliver Hellmuth, and Bernhard Frba: Content-based identification of audio material using mpeg-7 low level description. In: Proc. Int. Symposium on Music Information Retrieval (ISMIR), 2001.
[8] Xavier Anguera, Antonio Garzon y Tomasz Adamek: Mask: Robust local features for audio fingerprinting. In: ICME. IEEE Computer Society, 2012.
[9] Igor Bisio, Alessandro Delfino, Fabio Lavagetto y Mario Marchese: A television channel real-time detector using smartphones. In: IEEE Transactions on Mobile Computing, vol. 99 (preimpresiones), págs. 1,2013.
[10] Pedro Cano, Eloi Batlle, Ton Kalker y Jaap Haitsma: A review of audio fingerprinting. In: Journal of VLSI signal processing systems for signal, image and video technology, 41(3), págs. 271-284, 2005.
[11] Vijay Chandrasekhar, Matt Sharifi, and David A. Ross: Survey and evaluation of audio fingerprinting schemes for mobile query-by-example applications. In: ISMIR, 2011.
[12] Michele Covell y Shumeet Baluja: Known-audio detection using waveprint: Spectrogram fingerprinting by wavelet hashing. In: Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP, 2007.
[13] Dan Ellis. audfprint. https://github.com/dpwe/audfprint, 2014.
[14] Martin A. Fischler y Robert C. Bolles: Random sample consensus: A paradigm for model fitting with applications to image analysis and automated cartography. Commun. ACM, 1981.
[15] Emilia Gomez, Pedro Cano, Leandro de C.T. Gomes, Eloi Batlle y Madeleine Bonnet: Mixed watermarkingfingerprinting approach for integrity verification of audio recordings. In: Proceedings of the International Telecommunications Symposium, 2002.
[16] Jaap Haitsma y Ton Kalker: A highly robust audio fingerprinting system. In: ISMIR, 2002.
[17] Maguelonne Héritier, Vishwa Gupta, Langis Gagnon, Gilles Boulianne y Patrick Cardinal Samuel Foucher: Crim s content-based copy detection system for trecvid. 2009.
[18] Hervé Jégou, Jonathan Delhumeau, Jiangbo Yuan, Guillaume Gravier y Patrick Gros: BABAZ: A large scale audio search system for video copy detection. In: International Conference on Acoustics, Speech and Signal Processing, ICASSP, 2012.
[19] Yan Ke, Derek Hoiem y Rahul Sukthankar: Computer vision for music identification. In: 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), 2005.
[20] Milica Maksimovic, Luca Cuccovillo y Patrick Aichroth: Phylogeny analysis for MP3 and AAC coding transformations. In: ICME, 2017.
[21] Mani Malekesmaeili y Rabab K. Ward: A novel local audio fingerprinting algorithm. In: 14th IEEE International Workshop on Multimedia Signal Processing, MMSP, 2012.
[22] Mehmet Kivan Mihak y Ramarathnam Venkatesan: A perceptual audio hashing algorithm: A tool for robust audio identification and information hiding. In: Information Hiding, 2001.
[23] Chahid Ouali, Pierre Dumouchel y Vishwa Gupta: A robust audio fingerprinting method for content-based copy detection. In: CBMI. IEEE, 2014.
[24] Chahid Ouali, Pierre Dumouchel y Vishwa Gupta: Fast audio fingerprinting system using GPU and a clustering-based technique. In: IEEE/ACM Trans. Audio, Speech & Language Processing, 2016.
[25] Reinhard Sonnleitner y Gerhard Widmer: Robust quad-based audio fingerprinting. In: IEEE/ACM Trans. Audio, Speech & Language Processing, 2016.
[21] Tree video retrieval evaluation: Trecvid. https://www-nlpir.nist.gov/projects/trecvid/.

Claims (10)

REIVINDICACIONES
1. Dispositivo para detectar concordancias parciales (PM) entre una primera señal variable en el tiempo (SG1) y una segunda señal variable en el tiempo (SG2), en particular entre una primera señal de audio (SG1) y una segunda señal de audio (SG2) o entre una primera señal de vídeo (SG1) y una segunda señal de vídeo (SG2), comprendiendo el dispositivo (1):
una etapa de extracción de huella digital (2) configurada para extraer una primera huella digital (FP1) de la primera señal variable en el tiempo (SG1) y para extraer una segunda huella digital (FP2) de la segunda señal variable en el tiempo (SG2), en donde se extrae una pluralidad de primeras tramas de tiempo (TF1) de la primera señal variable en el tiempo (SG1) para la primera huella digital (FP1), en donde se extrae una pluralidad de segundas tramas de tiempo (TF2) de la segunda señal variable en el tiempo (SG2) para la segunda huella digital (FP2), en donde la primera huella digital (FP1) comprende para cada una de las primeras tramas de tiempo (TF1) una información de rasgo (FI1) que corresponde a uno o más rasgos característicos en la primera señal variable en el tiempo (SG1), que están relacionados con la respectiva primera trama de tiempo (TF1), y en donde la segunda huella digital (FP2) comprende para cada una de las segundas tramas de tiempo (TF2) una información de rasgo (FI2) que corresponde a uno o más rasgos característicos en la segunda señal variable en el tiempo (SG2), que están relacionados con la respectiva segunda trama de tiempo (TF2); y
una etapa de concordancia (3) configurada para comparar la primera huella digital (FP1) y la segunda huella digital (FP2), en donde cada información de rasgo (FI1) de la primera huella digital (FP1) se compara por pares con cada información de rasgo (FI2) de la segunda huella digital (FP2);
en donde la etapa de concordancia (3) comprende una etapa de calculador de similitud (4) configurada para calcular para cada par de una de las informaciones de rasgo (FI1) de la primera huella digital (FP1) y de una de las informaciones de rasgo (FI2) de la segunda huella digital (FP2) un valor de similitud (SV);
en donde la etapa de concordancia (3) comprende una etapa de calculador de matriz (5) configurada para disponer los valores de similitud (SV) en una matriz de similitud (SM) que tiene dimensiones de La x Lb, en donde La es un número de las informaciones de rasgo (FI1) de la primera huella digital (FP1) y Lb es un número de las informaciones de rasgo (FI2) de la segunda huella digital (FP2), en donde una entrada en la fila de orden i y columna de orden j de la matriz de similitud (SM) es el valor de similitud (SV) calculado del par de la información de rasgo de orden i (FI1) de la primera huella digital (FP1) y de la información de rasgo de orden j (FI2) de la segunda huella digital (FP2);
en donde la información de rasgo (FI1) de cada una de las primeras tramas de tiempo (TF1) es un vector característico (FV1) que comprende una pluralidad de elementos (EL1), y en donde la información de rasgo (FI2) de cada una de las segundas tramas de tiempo (TF2) es un vector característico (FV2) que comprende una pluralidad de elementos (EL2);
en donde cada valor de similitud (SV) de la matriz de similitud (SM) se calcula usando una distancia entre el vector característico (FV1) de la respectiva primera trama de tiempo (TF1) y el vector característico (FV2) de la respectiva segunda trama de tiempo (TF2); en donde la matriz de similitud (SM) es una matriz de similitud binaria (SM), en donde cada valor de similitud (SV) de la matriz de similitud (SM) se establece, dependiendo de un umbral para la respectiva distancia, a un primer número que indica una concordancia de trama (FM) de la respectiva primera trama de tiempo (TF1) y la respectiva segunda trama de tiempo (TF2) o a un segundo número que indica una discordancia de trama (FMM) de la respectiva primera trama de tiempo (TF1) y la respectiva segunda trama de tiempo (TF2);
en donde la etapa de concordancia (3) comprende una primera etapa de búsqueda de patrones (7) configurada para buscar primeros patrones (FPA) dentro de una pluralidad de diagonales (DI) de la matriz de similitud (SM), que comprenden una o más de las concordancias de trama (FM) y cero o más discordancias de trama (FMM) que están ubicadas entre dos de las concordancias de trama (FM) del respectivo primer patrón (FPA), en donde un número de discordancias de trama consecutivas (FMM) dentro del respectivo primer patrón (FPA) no supera un umbral para un número máximo permitido de discordancias de trama consecutivas (FMM) dentro del respectivo primer patrón (FPA), en donde una longitud (LEF) del respectivo primer patrón (FPA) desde una concordancia de trama más anterior (FM) del respectivo primer patrón (FPA) hasta una última concordancia de trama (FM) del respectivo primer patrón (FPA) alcanza al menos un umbral para una longitud mínima del primer patrón (FPA), en donde las diagonales (DI), en las que se encuentra al menos uno de los primeros patrones (FPA), se marcan como diagonales candidatas (CD); y en donde una etapa de detección (6) de la etapa de concordancia (3) está configurada para detectar las concordancias parciales (PM) evaluando las diagonales candidatas (CD) de la matriz de similitud (SM).
2. Dispositivo de acuerdo con la reivindicación anterior, en donde los rasgos característicos de cada una de las primeras tramas de tiempo (TF1) comprenden una forma temporal y/o espectral de la primera señal variable en el tiempo (SG1), y en donde los rasgos característicos de cada una de las segundas tramas de tiempo (TF2) comprenden una forma temporal y/o espectral de la segunda señal variable en el tiempo (SG2).
3. Dispositivo de acuerdo con la reivindicación anterior, en donde el vector característico (FV1) de cada una de las primeras tramas de tiempo (TF1) se calcula usando uno o más espectros (SP1) relacionados con la respectiva primera trama de tiempo (TV1), en donde cada uno de los elementos (EL1) del vector característico (FV1) de cada una de las primeras tramas de tiempo (TF1) se refiere a una banda de frecuencia del uno o más espectros (SP1) relacionados con la respectiva primera trama de tiempo (TF1), y en donde el vector característico (FV2) de cada una de las segundas tramas de tiempo (TF2) se calcula usando uno o más espectros (SP2) relacionados con la respectiva segunda trama de tiempo (TF2), en donde cada uno de los elementos (EL2) del vector característico (FV2) de cada una de las segundas tramas de tiempo (TF2) se refiere a una banda de frecuencia del uno o más espectros (SP2) relacionados con la respectiva segunda trama de tiempo (TF2).
4. Dispositivo de acuerdo con una de las reivindicaciones anteriores, en donde la etapa de detección (6) está configurada de tal manera que cada uno de los primeros patrones (FPA), en los que una relación entre un número de concordancias de trama (FM) del respectivo primer patrón (FPA) y la longitud (LEF) del respectivo primer patrón (FPA) alcanza un umbral para la relación entre el número de concordancias de trama (FM) del respectivo primer patrón (FPA) y la longitud (LEF) del respectivo primer patrón (FPA), se detecta como que es una de las concordancias parciales (PM).
5. Dispositivo de acuerdo con las reivindicaciones 1 a 3, en donde la etapa de concordancia (3) comprende una segunda etapa de búsqueda de patrones (8) configurada para buscar segundos patrones (SPA) dentro de las diagonales candidatas (CD), que comprenden uno o más de los primeros patrones (FPA) y una o más discordancias de trama (FMM) entre dos de los primeros patrones (FPA), en donde un número de discordancias de trama consecutivas (FMM) entre dos de los primeros patrones (FPA) no supera un umbral para un número máximo permitido de discordancias de trama consecutivas (FMM) entre dos de los primeros patrones (FPA), en donde una longitud (LES) del respectivo segundo patrón (SPA) desde una concordancia de trama más anterior (FM) del respectivo segundo patrón (SPA) hasta una última concordancia de trama (FM) del respectivo segundo patrón (SPA) alcanza al menos un umbral para una longitud mínima del segundo patrón (SPA); y en donde la etapa de detección (6) está configurada para detectar las concordancias parciales evaluando los segundos patrones (SPA) de las diagonales candidatas (CI).
6. Dispositivo de acuerdo con la reivindicación anterior, en donde la etapa de detección (6) está configurada de tal manera que cada uno de los segundos patrones (SPA), en los que una relación entre un número de concordancias de trama (FM) del respectivo segundo patrón (SPA) y la longitud (LES) del respectivo segundo patrón (SPA) alcanza un umbral para la relación entre el número de concordancias de trama (FM) del respectivo segundo patrón (SPA) y la longitud (LES) del respectivo segundo patrón (SPA), se detecta como que es una de las concordancias parciales (PM).
7. Dispositivo de acuerdo con una de las reivindicaciones anteriores, en donde la etapa de concordancia (3) comprende una etapa de limpieza (9) configurada para recibir al menos alguna de las concordancias parciales (PM) detectadas por la etapa de detección (6) y para determinar una concordancia parcial más larga (LPM) de las concordancias parciales (PM), en donde la concordancia parcial más larga (LPM) de las concordancias parciales recibidas (PM) es una diagonal principal (DIR) de una porción rectangular (RP) de la matriz de similitud (SM), en donde se descarta una concordancia parcial adicional (FPM) de las concordancias parciales recibidas (PM), que se extiende al menos parcialmente en la porción rectangular (RP) de la matriz de similitud (SM), a menos que se cumplan las siguientes condiciones:
un valor absoluto de una distancia horizontal (HD1) entre una concordancia de trama más anterior (FM) de la concordancia parcial más larga recibida (LPM) y una concordancia de trama más anterior (FM) de la concordancia parcial recibida adicional (FPM) supera un umbral de distancia;
un valor absoluto de una distancia vertical (VD1) entre la concordancia de trama más anterior (FM) de la concordancia parcial más larga recibida (LPM) y la concordancia de trama más anterior de la concordancia parcial recibida adicional (FPM) supera el umbral de distancia;
un valor absoluto de una distancia horizontal (HD2) entre una última concordancia de trama (FM) de la concordancia parcial más larga recibida (LPM) y una última concordancia de trama (FM) de la concordancia parcial recibida adicional (FPM) supera un umbral de distancia;
un valor absoluto de una distancia vertical (VD2) entre la última concordancia de trama (FM) de la concordancia parcial más larga recibida (LPM) y la última concordancia de trama (FM) de la concordancia parcial recibida adicional (FPM) supera el umbral de distancia; y
un índice de fila de la última concordancia de trama (FM) de la concordancia parcial recibida adicional (FPM) es mayor que un índice de fila de la última concordancia de trama (FM) de la concordancia parcial más larga recibida (LPM), en caso de que un índice de columna de la última concordancia de trama (FM) de la concordancia parcial recibida adicional (FPM) sea mayor que un índice de columna de la última concordancia de trama (FM) de la concordancia parcial más larga recibida (LPM);
en donde se emiten las concordancias parciales no descartadas (PM).
8. Dispositivo de acuerdo con una de las reivindicaciones anteriores, en donde la etapa de concordancia (3) comprende una etapa de procesamiento de ruido y silencio (10) configurada para recibir al menos alguna de las concordancias parciales (PM) detectadas por la etapa de detección (6) y para descartar una de las concordancias parciales recibidas (PM), en caso de que una de las concordancias parciales recibidas (PM) se detecte de manera incorrecta debido a porciones con ruido o silenciosas en la primera señal variable en el tiempo (SG1) y la segunda señal variable en el tiempo (SG), en donde una de las concordancias parciales recibidas (PM) es una diagonal principal de una porción rectangular adicional de la matriz de similitud (SM), en donde se calcula una relación de ruido entre un número de las concordancias de trama (FM) en la porción rectangular adicional de la matriz de similitud (SM) excluyendo las concordancias de trama (FM) de la diagonal principal de la porción rectangular adicional de la matriz de similitud (SM) y un número de los valores de similitud (SV) en la porción rectangular adicional de la matriz de similitud (SM) excluyendo los valores de similitud (SV) de la diagonal principal de la porción rectangular adicional de la matriz de similitud (SM), en donde se descarta una de las concordancias parciales recibidas (PM) dependiendo de un umbral para la relación de ruido, en donde se emiten las concordancias parciales no descartadas (PM).
9. Método para detectar concordancias parciales entre una primera señal variable en el tiempo (SG1) y una segunda señal variable en el tiempo (SG1), en particular entre una primera señal de audio (SG1) y una segunda señal de audio (SG2) o entre una primera señal de vídeo (SG1) y una segunda señal de vídeo (SG2), comprendiendo el método las etapas de:
extraer una primera huella digital (FP1) de la primera señal variable en el tiempo (SG1) y una segunda huella digital (FP2) de la segunda señal variable en el tiempo (SG2), usando una etapa de extracción de huella digital (2), en donde se extrae una pluralidad de primeras tramas de tiempo (TF1) de la primera señal variable en el tiempo (SG1) para la primera huella digital (FP1), en donde se extrae una pluralidad de segundas tramas de tiempo (TF2) de la segunda señal variable en el tiempo (SG2) para la segunda huella digital (FP2), en donde la primera huella digital (FP1) comprende para cada una de las primeras tramas de tiempo (TF1) una información de rasgo (FI1) que corresponde a uno o más rasgos característicos en la primera señal variable en el tiempo (SG1), que están relacionados con la respectiva primera trama de tiempo (TF1), y en donde la segunda huella digital (FP2) comprende para cada una de las segundas tramas de tiempo (TF2) una información de rasgo que corresponde a uno o más rasgos característicos en la segunda señal variable en el tiempo (SG2), que están relacionados con la respectiva segunda trama de tiempo (TF2), en donde la información de rasgo (FI1) de cada una de las primeras tramas de tiempo (TF1) es un vector característico (FV1) que comprende una pluralidad de elementos (EL1), y en donde la información de rasgo (FI2) de cada una de las segundas tramas de tiempo (TF2) es un vector característico (FV2) que comprende una pluralidad de elementos (EL2);
comparar la primera huella digital (FP1) y la segunda huella digital (FP2) usando una etapa de concordancia (3), en donde cada información de rasgo (FI1) de la primera huella digital (FP1) se compara por pares con cada información de rasgo (FI2) de la segunda huella digital (FP2);
calcular, usando una etapa de similitud (4) de la etapa de concordancia (3), un valor de similitud (SV) para cada par de una de las informaciones de rasgo (FI1) de la primera huella digital (FP1) y de una de las informaciones de rasgo (FI2) de la segunda huella digital (FP2), en donde cada valor de similitud (SV) de la matriz de similitud (SM) se calcula usando una distancia entre el vector característico (FV1) de la respectiva primera trama de tiempo (TF1) y el vector característico (FV2) de la respectiva segunda trama de tiempo (TF2);
disponer, usando una etapa de calculador de matriz (5) de la etapa de concordancia (3), los valores de similitud (SV) en una matriz de similitud (SM) que tiene dimensiones de La x Lb, en donde La es un número de las informaciones de rasgo (FI1) de la primera huella digital (FP1) y Lb es un número de las informaciones de rasgo (FI2) de la segunda huella digital (FP2), en donde una entrada en la fila de orden i y columna de orden j de la matriz de similitud (SM) es el valor de similitud (SV) calculado del par de la información de rasgo de orden i (FI1) de la primera huella digital (FP2) y de la información de rasgo de orden j (FI2) de la segunda huella digital (FP2), en donde la matriz de similitud (SM) es una matriz de similitud binaria (SM), en donde cada valor de similitud (SV) de la matriz de similitud (SM) se establece, dependiendo de un umbral para la respectiva distancia, a un primer número que indica una concordancia de trama (FM) de la respectiva primera trama de tiempo (TF1) y la respectiva segunda trama de tiempo (TF2) o a un segundo número que indica una discordancia de trama (f Mm ) de la respectiva primera trama de tiempo (TF1) y la respectiva segunda trama de tiempo (TF2); y
buscar, usando una primera etapa de búsqueda de patrones (7) de la etapa de concordancia (3), primeros patrones (FPA) dentro de una pluralidad de diagonales (DI) de la matriz de similitud (SM), que comprenden una o más de las concordancias de trama (FM) y cero o más discordancias de trama (FMM) que están ubicadas entre dos de las concordancias de trama (FM) del respectivo primer patrón (FPA), en donde un número de discordancias de trama consecutivas (FMM) dentro del respectivo primer patrón (FPA) no supera un umbral para un número máximo permitido de discordancias de trama consecutivas (FMM) dentro del respectivo primer patrón (FPA), en donde una longitud (LEF) del respectivo primer patrón (FPA) desde una concordancia de trama más anterior (FM) del respectivo primer patrón (FPA) hasta una última concordancia de trama (FM) del respectivo primer patrón (FPA) alcanza al menos un umbral para una longitud mínima del primer patrón (FPA), en donde las diagonales (DI), en las que se encuentra al menos uno de los primeros patrones (FPA), se marcan como diagonales candidatas (CD); y detectar, usando una etapa de detección (6) de la etapa de concordancia (3), las concordancias parciales (PM) evaluando las diagonales candidatas (CD) de la matriz de similitud (SM).
10. Programa informático que, cuando se ejecuta en un procesador, hace que el procesador ejecute el método de acuerdo con la reivindicación anterior.
ES18192315T 2018-05-17 2018-09-03 Dispositivo y método para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo Active ES2901638T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP18173034 2018-05-17

Publications (1)

Publication Number Publication Date
ES2901638T3 true ES2901638T3 (es) 2022-03-23

Family

ID=63490140

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18192315T Active ES2901638T3 (es) 2018-05-17 2018-09-03 Dispositivo y método para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo

Country Status (4)

Country Link
US (1) US11860934B2 (es)
EP (1) EP3570186B1 (es)
ES (1) ES2901638T3 (es)
WO (1) WO2019219854A1 (es)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3742433B1 (en) * 2019-05-23 2022-05-04 Spotify AB Plagiarism risk detector and interface
CN113283351B (zh) * 2021-05-31 2024-02-06 深圳神目信息技术有限公司 一种使用cnn优化相似度矩阵的视频抄袭检测方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US6915009B2 (en) * 2001-09-07 2005-07-05 Fuji Xerox Co., Ltd. Systems and methods for the automatic segmentation and clustering of ordered information
US7027124B2 (en) * 2002-02-28 2006-04-11 Fuji Xerox Co., Ltd. Method for automatically producing music videos
US7068723B2 (en) * 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US8872979B2 (en) * 2002-05-21 2014-10-28 Avaya Inc. Combined-media scene tracking for audio-video summarization
DE102004047069A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks
US7783106B2 (en) * 2004-11-12 2010-08-24 Fuji Xerox Co., Ltd. Video segmentation combining similarity analysis and classification
US20070288452A1 (en) * 2006-06-12 2007-12-13 D&S Consultants, Inc. System and Method for Rapidly Searching a Database
US20080288255A1 (en) * 2007-05-16 2008-11-20 Lawrence Carin System and method for quantifying, representing, and identifying similarities in data streams
US8027542B2 (en) * 2007-06-18 2011-09-27 The Regents Of The University Of California High speed video action recognition and localization
US8417037B2 (en) * 2007-07-16 2013-04-09 Alexander Bronstein Methods and systems for representation and matching of video content
WO2009046438A1 (en) * 2007-10-05 2009-04-09 Dolby Laboratories Licensing Corp. Media fingerprints that reliably correspond to media content
WO2012091936A1 (en) * 2010-12-30 2012-07-05 Dolby Laboratories Licensing Corporation Scene change detection around a set of seed points in media data
US9093056B2 (en) * 2011-09-13 2015-07-28 Northwestern University Audio separation system and method
WO2013157190A1 (ja) * 2012-04-20 2013-10-24 パナソニック株式会社 音声処理装置、音声処理方法、プログラムおよび集積回路
US9153239B1 (en) * 2013-03-14 2015-10-06 Google Inc. Differentiating between near identical versions of a song
US9460201B2 (en) * 2013-05-06 2016-10-04 Iheartmedia Management Services, Inc. Unordered matching of audio fingerprints
US9390727B2 (en) * 2014-01-13 2016-07-12 Facebook, Inc. Detecting distorted audio signals based on audio fingerprinting
US20150302086A1 (en) * 2014-04-22 2015-10-22 Gracenote, Inc. Audio identification during performance
GB2528100A (en) * 2014-07-10 2016-01-13 Nokia Technologies Oy Method, apparatus and computer program product for editing media content
JP6665203B2 (ja) * 2015-05-21 2020-03-13 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. ビデオシーケンスからのパルス信号の決定
US9578279B1 (en) * 2015-12-18 2017-02-21 Amazon Technologies, Inc. Preview streaming of video data
US9635307B1 (en) * 2015-12-18 2017-04-25 Amazon Technologies, Inc. Preview streaming of video data
US10861436B1 (en) * 2016-08-24 2020-12-08 Gridspace Inc. Audio call classification and survey system
US10713296B2 (en) * 2016-09-09 2020-07-14 Gracenote, Inc. Audio identification based on data structure
WO2018121865A1 (en) * 2016-12-29 2018-07-05 Telefonaktiebolaget Lm Ericsson (Publ) Handling of video segments in a video stream
US10504498B2 (en) * 2017-11-22 2019-12-10 Yousician Oy Real-time jamming assistance for groups of musicians
US11294954B2 (en) * 2018-01-04 2022-04-05 Audible Magic Corporation Music cover identification for search, compliance, and licensing

Also Published As

Publication number Publication date
EP3570186A1 (en) 2019-11-20
WO2019219854A1 (en) 2019-11-21
EP3570186B1 (en) 2021-11-17
US11860934B2 (en) 2024-01-02
US20210064916A1 (en) 2021-03-04

Similar Documents

Publication Publication Date Title
ES2569423T3 (es) Identificación automática de material repetido en señales de audio
TWI447601B (zh) 使用多個搜尋組合改良音訊/視訊指紋搜尋正確性之技術
CN107293307B (zh) 音频检测方法及装置
JP5479340B2 (ja) 時間ベースのメディア間のマッチの検出と分類
Cano et al. Robust sound modeling for song detection in broadcast audio
CN108665903B (zh) 一种音频信号相似程度的自动检测方法及其系统
BRPI0112901B1 (pt) métodos para reconhecer uma amostra de áudio, e, sistema de computador para realizar o mesmo
TWI760671B (zh) 一種音視訊訊息處理方法及裝置、電子設備和電腦可讀儲存介質
ES2901638T3 (es) Dispositivo y método para detectar concordancias parciales entre una primera señal variable en el tiempo y una segunda señal variable en el tiempo
Liu et al. Fast copy-move detection of digital audio
Zhang et al. SIFT-based local spectrogram image descriptor: a novel feature for robust music identification
CN108447501A (zh) 一种云存储环境下基于音频字的盗版视频检测方法与系统
Sonnleitner et al. Quad-Based Audio Fingerprinting Robust to Time and Frequency Scaling.
Zheng et al. Time-of-recording estimation for audio recordings
CN103605666A (zh) 一种进行广告检测的视频拷贝检测方法
Guzman-Zavaleta et al. A robust audio fingerprinting method using spectrograms saliency maps
Kekre et al. A review of audio fingerprinting and comparison of algorithms
Liu et al. An efficient audio fingerprint design for MP3 music
CN109829265A (zh) 一种音频作品的侵权取证方法和系统
Gururani et al. Automatic Sample Detection in Polyphonic Music.
Ren et al. Detection of double MP3 compression based on difference of calibration histogram
Maksimović et al. Detection and localization of partial audio matches in various application scenarios
Kim et al. Multimedia file forensics system exploiting file similarity search
Başaran et al. A probabilistic model-based approach for aligning multiple audio sequences
Muroi et al. Speech Manipulation Detection Method Using Speech Fingerprints and Timestamp Data