ES2354330B1 - Método para calcular medidas de similitud entre señales temporales. - Google Patents
Método para calcular medidas de similitud entre señales temporales. Download PDFInfo
- Publication number
- ES2354330B1 ES2354330B1 ES200901057A ES200901057A ES2354330B1 ES 2354330 B1 ES2354330 B1 ES 2354330B1 ES 200901057 A ES200901057 A ES 200901057A ES 200901057 A ES200901057 A ES 200901057A ES 2354330 B1 ES2354330 B1 ES 2354330B1
- Authority
- ES
- Spain
- Prior art keywords
- sequence
- sub
- result
- accumulated
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000005259 measurement Methods 0.000 title description 11
- 230000001186 cumulative effect Effects 0.000 claims abstract description 29
- 238000011524 similarity measure Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 53
- 230000002123 temporal effect Effects 0.000 claims description 24
- 230000005236 sound signal Effects 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000011002 quantification Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 8
- 230000000926 neurological effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 claims 4
- 235000002492 Rungia klossii Nutrition 0.000 claims 2
- 244000117054 Rungia klossii Species 0.000 claims 2
- 238000012360 testing method Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 7
- 238000007654 immersion Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012731 temporal analysis Methods 0.000 description 2
- 238000000700 time series analysis Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/06—Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
- G06F7/20—Comparing separate sets of record carriers arranged in the same sequence to determine whether at least some of the data in one set is identical with that in the other set or sets
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
Método para calcular medidas de similitud entre señales temporales#Comprende:#- adquirir y comparar unos datos (xi, yj) de unas señales (X, Y) temporales;#- asignar un uno o un cero a cada dos datos comparados (xi, yj), en función del resultado de dicha comparación, creando un conjunto de datos;#- determinar unas secuencias temporales con dichos unos y ceros del conjunto de datos, cada una formada por unas subsecuencias consecutivas de unos, separadas por discontinuidades de ceros;#- seleccionar el resultado mayor de unos resultados acumulados obtenidos para cada subsecuencia, realizándose para cada punto determinado i, j de valor uno la suma de dicho uno al resultado acumulado de valor máximo, de entre los resultados acumulados en un punto i-1, j-1 de dicha subsecuencia, un punto i-2, j-1 de una subsecuencia de una segunda secuencia temporal, y un punto i-1, j-2 de una subsecuencia de una tercera secuencia.
Description
Método para calcular medidas de similitud entre señales temporales.
Sector de la técnica
La presente invención concierne en general a un método para calcular medidas de similitud entre señales temporales, que comprende evaluar el nivel de similitud, en relación a uno o más valores umbrales, de unos datos variables en el tiempo de dichas señales, y realizar una serie de sumas acumuladas con los resultados de dichas comparaciones, y en particular a un método que comprende compensar las posibles diferencias en la velocidad de dichas señales temporales.
La invención es particularmente aplicable al campo de la recuperación de información musical, y más en particular a la detección de interpretaciones o versiones de una misma pieza musical.
Estado de la técnica anterior
Es conocido calcular medidas de similitud entre diferentes señales temporales, para determinar automáticamente cuanto se parecen o difieren entre sí, con diferentes fines, en función de la naturaleza de dichas señales temporales.
Con el fin de realizar dichos cálculos se conocen propuestas en las cuales se comparan directamente los datos relativos a la magnitud variable en el tiempo de unas señales de interés, tales como unas señales de audio, o donde la comparación se hace con respecto a unas series temporales de unos descriptores representativos de uno o más aspectos característicos de dichas señales de interés, tales como los conocidos descriptores tonales cuando es el caso de señales de audio. Algunas propuestas combinan los datos relativos a la magnitud de las señales de interés con los de dichos descriptores.
Una manera conocida de realizar dichas comparaciones es mediante una matriz de recurrencia cruzada, o extensión bivariante del diagrama o matriz de recurrencia RP [J. P. Eckmann, S. O. Kamphorst, and D. Ruelle, Europhysics Letters 5, 973 (1987)], es decir la denominada matriz de recurrencia cruzada, o CRP [J. P. Zbilut, A. Giuliani, and
C. L. Webber Jr., Physics Letters A 246, 122 (1998)], la cual parece ser la más conveniente para el análisis de series temporales de diversa índole, en particular de series temporales de descriptores musicales, ya que la CRP está definida para señales de diferentes longitudes y puede hacer frente fácilmente a variaciones en el dominio temporal [N. Marwan,
M. Thiel, and N. R. Nowaczyk, Nonlinear Processes in Geophysics 9, 325 (2002)].
Es asimismo conocido que, dada una sola señal potencialmente multivariante x, el método de coordenadas de retardo proporciona una estimación de la dinámica subyacente en un espacio de estado reconstruido [F. Takens, Lecture Notes in Mathematics 898, 366 (1981) y H. Kantz and T. Schreiber, Nonlinear time series analysis (Cambridge University Press, 2004)].
Una matriz RP es una manera directa de visualizar características de estados similares de uno o varios sistemas logrados en tiempos diferentes. Con este fin, dos ejes temporales discretos definen una matriz cuadrada que contiene ceros y unos, visualizados típicamente como celdas blancas y negras, respectivamente. Cada celda negra en las coordenadas (i, j) indica una recurrencia, es decir, que un estado en el tiempo i era similar a un estado en el tiempo
j. Por ello, la línea diagonal principal de la matriz RP es negra, es decir una secuencia de celdas negras sin disrupciones.
Dadas un par de señales x e y que son, en general, de diferentes longitudes, una matriz CRP es construida de la misma forma que una RP, pero con la diferencia de que en una CRP los dos ejes definen una matriz rectangular Ny x Nx (siendo Nx y Ny el número de puntos de las series temporales x e y, respectivamente). Una matriz CRP permite resaltar las equivalencias de estados entre ambos sistemas para diferentes tiempos. Los elementos (o celdas) incluidos en un matriz CRP son en general indicados como Ri, j, y cuando adquieren un valor positivo, en general uno, se representan mediante una correspondiente celda negra, y por una celda blanca cuando su valor es cero.
En general Ri, j se define convencionalmente por la siguiente ecuación:
para i = 1, ..., Nx y j = 1, ..., Ny, donde xi eyi son representaciones (en el espacio de estado o en el espacio temporal) de dos respectivas señales temporales durante unas ventanas de muestreo i y j, respectivamente, siendo Θ (·) en general la función de paso Heaviside (Θ (z) = 0 si z<0y Θ (z) = 1 en cualquier otro caso), y siendo ε un valor
o distancia umbral, también aplicable al utilizar el método de los vecinos cercanos entre los datos de ambas señales
[J. P. Eckmann, S. O. Kamphorst, and D. Ruelle, Europhysics Letters 5, 973 (1987)]. Por lo que se refiere a ||·|| este símbolo hace referencia a cualquier norma, tal como una norma euclidiana.
Cuando una matriz CRP se utiliza para caracterizar sistemas distintos, la diagonal principal de elementos Ri, j,en general, no es negra, es decir que la secuencia de celdas que define dicha diagonal incluye celdas negras y blancas, o dicho de otro modo una serie de subsecuencias separadas por discontinuidades de uno o más ceros, o celdas blancas. Cualquier trayectoria diagonal de celdas negras conectadas representa las secuencias de estados similares exhibidas por ambos sistemas. Cuando se aplica a series temporales de un descriptor, extraídas, por ejemplo, de dos piezas musicales, tales “trayectorias de similitud” pueden reflejar que una misma porción musical fue reproducida en ambas canciones. Debe observarse que el análisis de cuantificación de la recurrencia (RQA) [J. P. Zbilut and C. L. Webber Jr., Physics Letters A 171, 199 (1992); C. L. Webber Jr. and J. P. Zbilut, Journal of Applied Physiology 76, 965 (1994); y L. L. Trulla, A. Giuliani, J. P. Zbilut, and C. L. Webber Jr., Physics Letters A 223, 255 (1996)] permite que se extraigan otras características cuantitativas adicionales basadas en la densidad de puntos de recurrencia y en las estructuras lineales en las matrices RP y CRP, para caracterizar la dinámica sobre la que se han obtenido las señales medidas.
Uno de dichos análisis de cuantificación de la recurrencia, descrito en N. Marwan, M. Thiel, and N. R. Nowaczyk, Nonlinear Processes in Geophysics 9, 325 (2002), considera la longitud Lmax de la diagonal más larga, es decir la subsecuencia de celdas negras más larga, hallada en la matriz RP o CRP, como indicativa de las medidas de similitud entre ambas señales.
Para ello, se realizan una serie de sumas acumuladas de todos los valores, en general unos, de cada subsecuencia, y de entre dichas sumas se selecciona la que ofrece un resultado mayor.
Lmax puede ser expresada como el valor máximo de una matriz acumulativa L computada a partir de la matriz CRP. Inicializando L1, j =Li, 1 =0parai=1, ..., Nx yj=1, ..., Ny, y entonces aplicando de manera recursiva:
parai=2, ..., Nx yj=2, ..., Ny, siendo definida Lmax = max {Li, j}parai=1, ...,Nx yj=1, ...,Ny.
Lmax proporciona información interesante acerca de la similitud local de dos series temporales, ya que, por ejemplo, ésta hace frente a cambios estructurales entre las dos señales o series temporales a comparar, tal como por ejemplo el que se produce cuando una misma porción o porción muy similar de datos puede estar incluida en tramos temporales distintos entre ambas señales, lo cual provoca que en la matriz CRP se produzca una diagonal o subsecuencia de celdas negras, o de unos, que no coincide con la diagonal principal. Aplicando Lmax, dicha subsecuencia que no coincide con la diagonal principal es tenida en cuenta, en particular su valor acumulado, por lo que tales cambios estructurales no afectan a la medida de similitud realizada mediante Lmax.
Existen, no obstante, otras variaciones entre las señales o series de datos temporales que no son tenidos en cuenta ni por Lmax ni por ninguna otra medida de análisis de cuantificación de la recurrencia conocida por los presentes inventores.
Tal es el caso de las variaciones o desviaciones en la velocidad con la que evolucionan en el tiempo dichas señales o series de datos, denominada tempo en el caso de señales de audio, las cuales son representadas en la matriz CRP como trazas o subsecuencias negras, o de unos, de forma curvada o alabeada, que no son tenidas en cuenta por ninguna de dichas medidas de análisis de cuantificación de recurrencia. En particular, la matriz acumulativa L computada a partir de la matriz CRP no incluye dichas trazas curvadas o alabeadas, por lo que su existencia es ignorada al calcular Lmax, produciéndose por tanto un resultado erróneo, es decir una medida de similitud baja, para dos señales o series temporales que en realidad sean muy similares pero con una velocidad o tempo distinto.
Explicación de la invención
Resulta necesario ofrecer una alternativa al estado de la técnica que cubra las lagunas halladas en el mismo, y que proporcione una solución válida a la hora de medir la similitud entre dos señales o series temporales que evolucionan en el tiempo con velocidades distintas.
Para ello, la presente invención aporta un método para calcular medidas de similitud entre señales temporales, que comprende realizar las siguientes etapas, en sí conocidas, de manera automática:
a) adquirir unos datos xi de una primera señal X variable en el tiempo y unos datos yi de una segunda señal Y variable en el tiempo, a lo largo de parte o la totalidad de la duración de cada señal;
b) comparar cada uno de dichos datos xi adquiridos de dicha primera señal X con como mínimo una parte de dichos datos yj adquiridos de dicha segunda señal Y, para evaluar el nivel de similitud entre ellos;
c) asignar un valor positivo predeterminado, en general un valor unitario, a cada dos datos comparados xi,yj, si el resultado de dicha comparación es superior a un umbral determinado, y un cero si es inferior a dicho umbral determinado, creando un conjunto de datos con dichos valores positivos y dichos ceros ordenados temporalmente;
d) determinar al menos una primera secuencia temporal con al menos parte de dichos valores positivos predeterminados y dichos ceros asignados de dicho conjunto de datos, formada por una serie de subsecuencias consecutivas de valores positivos, separadas por discontinuidades formadas por uno o más ceros;
e) obtener una serie de resultados acumulados para como mínimo cada una de dichas subsecuencias consecutivas, sumando los valores positivos incluidos en al menos cada subsecuencia; y
f) seleccionar el resultado mayor de entre dichos resultados acumulados obtenidos en dicha etapa e), y establecer dicho resultado seleccionado como indicativo del nivel de similitud entre dichas dos señales.
A diferencia de los métodos convencionales, el propuesto por la presente invención, comprende compensar posibles diferencias en la velocidad de dichas señales X, Y, o en parte de las mismas. Para ello el método comprende llevar a cabo dicha etapa e) obteniendo un resultado acumulado para cada punto determinado i, j de un valor positivo, de cada una de dichas subsecuencias, realizando la suma de dicho valor positivo al resultado acumulado de valor máximo, de entre al menos los siguientes tres resultados acumulados obtenidos de manera análoga:
- -
- un resultado parcial acumulado en un punto justo anterior i-1, j-1 de dicha subsecuencia,
- -
- un resultado acumulado en un punto i-2, j-1 de una subsecuencia de una segunda secuencia temporal, y
- -
- un resultado acumulado en un punto i-1, j-2 de una subsecuencia de una tercera secuencia temporal.
En función del ejemplo de realización del método propuesto por la presente invención, los datos xi eyj de las señales X e Y son relativos a directamente la magnitud variable en el tiempo de dichas señales X e Y, o a unas series temporales de uno o más descriptores representativos de uno o más aspectos característicos de dichas señales X e Y, tales como los conocidos descriptores tonales cuando es el caso de señales de audio, o a una combinación de ambos.
Para un ejemplo de realización dicho conjunto de datos es una matriz de recurrencia cruzada CRP, siendo dichos datos unos datos de recurrencia Ri, j, que para un ejemplo de realización son obtenidos de manera convencional según se ha descrito en el apartado anterior, o para otro ejemplo de realización preferido son obtenidos teniendo en cuenta la posible reciprocidad, o ausencia de la misma, existente a la hora de realizar dicha comparación de dicha etapa b) tomando como referencia una u otra de dichas señales X, Y.
Para dicho ejemplo de realización en que el conjunto de datos es una matriz de recurrencia cruzada, dicha primera secuencia temporal determinada en dicha etapa d) corresponde a una diagonal de celdas negras y blancas, es decir de unos y ceros respectivamente, tal como la diagonal principal de la matriz CRP, siendo dichas subsecuencias consecutivas cada uno de los segmentos de celdas negras o unos que forman parte de la misma diagonal. Diferentes ejemplos de matrices CRP aplicadas a diferentes señales temporales se encuentran ilustrados en las figuras adjuntas, y serán debidamente descritos en un apartado posterior.
Para cuantificar la longitud de las trazas curvadas o alabeadas provocadas por las diferencias de velocidades indicadas, el método propuesto por la presente invención comprende computar una matriz acumulativa S a partir de la matriz CRP.
Inicializando S1, j =S2, j =Si, 1 =Si, 2 = 0 para i = 1, ..., Nx y j = 1, ..., Ny, y entonces aplicando de manera recursiva:
parai=3, ..., Nx yj=3, ..., Ny.
El método propuesto por la invención aporta un nuevo parámetro de medida Smax de análisis de cuantificación de la recurrencia, que puede ser expresado como el valor máximo de la matriz acumulativa S es decir:
cuyo valor corresponde a la longitud, o resultado acumulado, de la traza curvada más larga en la matriz CRP, es decir de la subsecuencia curvada de unos o celdas negras más larga, el resultado acumulado de la cual será seleccionado en dicha etapa f).
El método comprende, para un ejemplo de realización, llevar a cabo todas las etapas descritas para determinar, en d), una pluralidad de secuencias temporales, de manera análoga a la determinación de dicha primera subsecuencia, para obtener, en e), una serie de resultados acumulados para cada subsecuencia de cada secuencia temporal, y realizar dicha etapa f) para seleccionar el resultado mayor de entre todos los resultados acumulados obtenidos en la etapa e). Es decir que el método comprende tener en cuenta todas las diagonales de celdas negras incluidas en la matriz CRP.
Por lo que se refiere a la anteriormente comentada reciprocidad a la hora de llevar a cabo, para un ejemplo de realización, la obtención de los elementos o datos de recurrencia Ri, j, el método comprende en dicha etapa b), también comparar cada uno de dichos datos yj adquiridos de dicha segunda señal Y con como mínimo una parte de dichos datos xi adquiridos de dicha primera señal X, para evaluar el nivel de similitud entre ellos.
En particular el método comprende definir RRi, j según la siguiente ecuación:
para i = 1, ..., Nx y j = 1, ..., Ny, donde en este caso a diferencia de la ecuación convencional de cálculo de Ri, j descrita en el apartado de Estado de la Técnica, se utilizan dos valores o distancias umbrales εxi y εyj , que son ajustados de manera que un porcentaje máximo predeterminado de vecinos k es utilizado para ambos xi eyj. Así, el número máximo de entradas o elementos de valor positivo en cada fila y columna de la matriz CRP nunca excede dekxNy, ni dekxNx, respectivamente.
Los presentes inventores han comprobado que el uso de un porcentaje fijo de vecinos cercanos ofrece unos resultados mejores que los obtenidos mediante el uso de un valor umbral fijo.
Las discontinuidades o disrupciones entre subsecuencias se producen por diversas causas, por ejemplo, cuando las señales a analizar son señales de audio, o más en particular versiones “cover” de una canción, en ocasiones los músicos se saltan algunos acordes de la canción original, o parte de su melodía, lo cual provoca disrupciones cortas en, de otro modo, trazas coherentes en la matriz CRP. Además, para el caso particular de que los datos xi eyj correspondan a unas series temporales de un descriptor tonal de unas señales de audio, en concreto del descriptor HPCP (“harmonic pitch class profiles”), estas disrupciones pueden estar ocasionadas por el hecho de que las características HPCP pueden contener alguna energía que no esté directamente asociada a contenido tonal de audio.
Para un ejemplo de realización del método propuesto por la invención, para cada subsecuencia que comienza tras una discontinuidad, el método comprende comenzar la operación de suma de sus valores positivos que ofrezca un resultado acumulado para dicha subsecuencia, independientemente del resultado o resultados acumulados de una o más subsecuencias previas a dicha discontinuidad, es decir tal y como se lleva a cabo para calcular Lmax, donde cada discontinuidad entre dos subsecuencias consecutivas hace que el “contador” se ponga a cero antes de iniciarse la cuenta acumulada de la segunda subsecuencia que comienza tras la discontinuidad.
Con el fin de que dichas discontinuidades no afecten de manera tan negativa a una cuenta acumulada, en particular cuando las mismas no son muy largas, es decir están formadas por pocos ceros, el método propuesto por la presente invención comprende, para un ejemplo de realización preferido, alternativo al descrito en el párrafo anterior, para cada subsecuencia que comienza tras una discontinuidad, comenzar la operación de suma de sus valores positivos (en general unos) que ofrezca un resultado acumulado para dicha subsecuencia, teniendo en cuenta como mínimo el resultado acumulado de una subsecuencia previa a dicha discontinuidad.
En particular el método comprende comenzar la operación de suma de valores positivos que ofrezca un resultado acumulado para dicha subsecuencia posterior a una discontinuidad, a partir de un valor de resultado acumulado penalizado obtenido al aplicar como mínimo una penalización a dicho resultado acumulado de la subsecuencia previa, perteneciente a la misma secuencia que dicha subsecuencia posterior, o a otra secuencia temporal alternativa.
Si bien el tipo de penalización a aplicar puede ser de muy diversa índole, en general dicha penalización comprende restar un valor determinado a dicho resultado acumulado de la subsecuencia previa.
El método comprende, para cada cero de dicha discontinuidad hallado en un punto determinado i, j, obtener dicho valor de dicho resultado acumulado penalizado restando un valor determinado a al menos el resultado acumulado de la subsecuencia previa, en un punto justo anterior i-1, j-1 a dicho cero. Este caso solamente es aplicable cuando no existen trazas curvas o alabeadas en la matriz CRP, o se considera que su existencia no es demasiado relevante.
En cambio para el caso más preferido en que sí que se tienen en consideración las variaciones de velocidad o tempo que provocan las mencionadas trazas curvas o alabeadas en la matriz CRP, el método comprende, para cada cero de dicha discontinuidad hallado en un punto determinado i, j, obtener dicho valor de dicho resultado acumulado penalizado:
- -
- restando un valor determinado al resultado acumulado de la subsecuencia previa en un punto justo anterior i-1, j1 a dicho cero.
- -
- restando un valor determinado al resultado acumulado en un punto i-2, j-1 de una subsecuencia de una segunda secuencia temporal,
- -
- restando un valor determinado al resultado acumulado en un punto i-1, j-2 de una subsecuencia de una tercera secuencia temporal, y
- -
- seleccionar, de entre dichos tres resultados y un valor igual a cero, el que tenga un valor máximo, como dicho valor de dicho resultado acumulado penalizado.
Para implementar dicho caso más preferido, el método propuesto por la presente invención comprende computar una matriz acumulativa Q a partir de la matriz CRP.
Inicializando Q1, j =Q2, j =Qi, 1 =Qi, 2 = 0 para i = 1, ..., Nx y j = 1, ..., Ny, y entonces aplicando de manera recursiva:
parai=3, ..., Nx yj=3, ..., Ny.
Para un ejemplo de realización el valor a restar a dichos resultados acumulados es uno u otro en función de que dicho punto en el que se produce dicha resta tenga un valor positivo o sea igual a cero, es decir que para una discontinuidad formada por una serie de ceros, se aplicarán diferentes penalizaciones en función de si es el cero inicial de la discontinuidad, es decir que está precedido de un valor positivo, en general un uno, o de si el cero correspondiente a un punto i, j está precedido de otro cero, penalizándose en general este segundo caso más severamente que el primero, con el fin de que las discontinuidades más cortas afecten de manera menos negativa a las medidas de similitud realizadas.
Los diferentes valores o penalizaciones a restar pueden expresarse de la siguiente manera:
Donde γo corresponde al principio de una disrupción, es decir un cero inicial, y γe a una extensión de una disrupción, es decir un cero que no es el inicial.
El cero en la segunda cláusula de la ecuación (5) es utilizado para prevenir que estas penalizaciones provoquen una entrada negativa de Q. Debe observarse que para γo, γe →∞, la ecuación (5) se convierte en la (4).
De manera análoga a Lmax ySmax, el método propuesto por la invención comprende un nuevo parámetro de medida Qmax de análisis de cuantificación de la recurrencia, que puede ser expresado como el valor máximo de la matriz acumulativa Q, es decir:
cuyo valor corresponde a la longitud, o resultado acumulado, de la subsecuencia o traza curvada más larga y potencialmente más brevemente interrumpida, en la matriz CRP.
El método comprende, en función del ejemplo de realización, calcular Smax yQmax, con el fin de obtener dos valores representativos de la similitud entre las dos señales estudiadas, o únicamente calcular Qmax, que como ya se ha indicado representa una mejora de Smax, ya que tiene en consideración tanto las variaciones de velocidad como las disrupciones
o discontinuidades en las secuencias de la matriz CRP.
Para este último caso en que solamente se calcula Qmax, ésta implementa la anteriormente descrita etapa f), es decir la selección del resultado acumulado máximo, llevándose a cabo las sumas que ofrecen los resultados acumulados de la etapa e), para cada subsecuencia que sigue a una discontinuidad, partiendo del valor acumulado en la subsecuencia previa (perteneciente a la misma secuencia, o diagonal, o a otras secuencias o diagonales paralelas) debidamente penalizado tal y como se ha descrito.
En función del ejemplo de realización cada una de las dos señales X, Y comparadas mediante el método propuesto son dos tramos de una misma señal variable en el tiempo, o dos señales independientes.
El método comprende utilizar los datos xi eyj, en un espacio de estados o en un espacio temporal.
Para un ejemplo de realización dichas dos señales temporales contienen información musical, siendo en general unas señales de audio, donde dichos datos extraídos xi eyj son relativos a los distintos valores que dichas señales de audio toman a lo largo del tiempo, o a unas series temporales de uno o más descriptores representativos de uno o más aspectos característicos de dichas señales de audio X e Y, que reflejan la evolución temporal de un aspecto musical característico de dichas señales de audio X, Y.
Un caso particular de aplicación del método propuesto, donde las señales X, Y son dos señales de audio, considerado de gran interés por los presentes inventores, y para el cual han realizado numerosos ensayos, es el referido a la detección de interpretaciones o versiones, o “covers”, de una misma pieza musical.
En un apartado posterior se explicará un ejemplo de realización referido a dicha detección de “covers”, donde se han utilizado como datos xi eyj unos vectores construidos, en el espacio de estados, a partir de la información (referente a numerosas clases) existente en una secuencia temporal del conocido descriptor tonal HCPC.
Para otro ejemplo de realización, las dos señales temporales X, Y contienen información referente a la evolución temporal de señales fisiológicas y/o neurológicas, tales como las obtenidas mediante electroencefalogramas, electrocardiogramas, etc., o de cualquier otra clase de señal de interés en el campo de la medicina.
Según otro ejemplo de realización alternativo, el método propuesto está aplicado al cálculo de medidas de similitud entre señales temporales que contienen información referente a la evolución temporal de parámetros de estudio de otros campos, tales como la economía, la climatología, la bioinformática, la geofísica, etc.
Breve descripción de los dibujos
Las anteriores y otras ventajas y características se comprenderán más plenamente a partir de la siguiente descripción detallada de unos ejemplos de realización con referencia a los dibujos adjuntos, que deben tomarse a título ilustrativo y no limitativo, en los que:
la Fig. 1 es un diagrama de bloques general que ilustra las diferentes etapas a realizar para el cálculo de medidas de similitud entre dos señales temporales, para un ejemplo de realización para el que éstas son dos respectivas canciones, incluyendo el diagrama etapas convencionales, y las propuestas por la presente invención;
la Fig. 2 muestra una secuencia del descriptor musical HPCP extraída, utilizando una ventana de muestreo móvil, de la canción “Day Tripper” interpretada por “The Beatles”;
la Fig. 3 muestra sendas matrices CRP donde la primera señal X es la canción “Day Tripper” interpretada por “The Beatles”, y la segunda señal Y es, en la vista (a) una versión de “Day Tripper” interpretada por el grupo “Ocean Colour Scene”, y, en la vista (b), corresponde a la canción “I’ve got a crush on you” interpretada por Frank Sinatra. Los parámetros utilizados en dichas matrices, y que se describirán posteriormente, sonm=9, τ =1yk= 0,08.
la Fig. 4 muestra tres respectivos ejemplos de matrices acumulativas L (vista (a)), S (vista (b)) y Q (vista (c)), a la derecha de las cuales se encuentran representados los respectivos niveles asociados de Lmax,Smax yQmax. para un ejemplo de realización para el que las canciones son las mismas que las utilizadas para la matriz CRP de la vista (a) de la Fig. 3, y los parámetros de las matrices CRP son los mismos que en la Fig. 3, y donde, para la matriz Q se han utilizado unos parámetros de penalización γo=3y γe =7;
la Fig. 5 muestra dos vistas (a) y (b), que corresponden a unos detalles ampliados de parte de las vistas (b) y (c), respectivamente, de la Fig. 4, con las respectivas trazas o subsecuencias de valor máximo acumulado remarcadas mediante unas líneas dibujadas en dichas vistas (a) y (b);
la Fig. 6 ilustra dos gráficas referentes a distintas distribuciones de unas canciones de una colección de música utilizada para evaluar el método propuesto por la presente invención, donde la gráfica (a) ilustra la distribución del número de canciones por cada grupo de versiones de una misma canción, y la vista (b) la distribución de géneros entre todas las canciones, indicados por las siglas PR: pop-rock; E: música electrónica; JB: jazz-blues; WM: música del mundo; C: música clásica; y M: miscelánea;
la Fig. 7 muestra varias gráficas referentes a un parámetro de medida de precisión Ψ, para Qmax, variando diferentes parámetros, en concreto en las vistas (a) a (c) se muestra curvas iso-τ (a-c), en las (d) a (f) curvas iso-m, para k = 0,05 (a, d),k=0,1 (b, e)yk= 0,15 (c, f);
la Fig. 8 es una gráfica que representa a ΨQmax en función de γoy γe;y
la Fig. 9 muestra diferentes diagramas que indican la precisión media de los distintos parámetros de medida de análisis de cuantificación de recurrencia, para un conjunto de datos de entrenamiento (vista (a)) y tres conjuntos de datos de prueba (vistas (b)-(d)), incluyendo Lmax, y los propuestos por la presente invención Smax yQmax; correspondiendo las barras de error indicadas como “Null” al rango a lo largo de diecinueve aleatoriaciones que se describirán posteriormente.
Descripción detallada de unos ejemplos de realización
Un caso conocido en el que se aplican los métodos de cálculo de medidas de similitud es el referente a la recuperación de información musical, o MIR (del inglés: “Music Information Retrieval”), y en particular a la detección de versiones “cover”, o interpretaciones alternativas de una canción grabada previamente. Dado que tales interpretaciones pueden diferir de sus originales en varias facetas musicales, determinarlas automáticamente es una tarea más bien difícil.
En los ejemplos de realización descritos en el presente apartado se ha aplicado el método propuesto por la presente invención a la medida de similitud entre canciones, y específicamente a la detección de “covers”.
Haciendo referencia a la Fig. 1, en ella se indican diferentes etapas utilizadas para construir una matriz CRP, en sí conocidas, y diferentes etapas o parámetros de medida de análisis de la cuantificación de dicha matriz CRP, algunos conocidos y otros propuestos por la presente invención, en particular Smax yQmax.
Se han indicado en dicha Fig. 1 las mencionadas etapas convencionales con el fin de explicar un ejemplo de realización del método propuesto por la invención aplicado a una matriz CRP construida con unos parámetros específicos, para medir la similitud entre dos canciones X e Y, con el fin de detectar si una es una “cover” de la otra, es decir una interpretación alternativa de una misma canción.
Por lo que se refiere a la etapa de pre-procesamiento, se considera que la secuencia tonal es la característica más importante compartida entre “covers” y canciones originales. En particular el descriptor tonal HPCP (“harmonic pitch class profiles”) se ha utilizado en los ejemplos de realización descritos en el presente apartado, por considerarse el más adecuado para la detección de “covers”.
Se ha utilizado el mismo procedimiento de extracción de HPCP descrito en “J. Serrà, E. Gómez, P. Herrera, and X. Serra, IEEE Trans. on Audio, Speech and Language Processing 16, 1138 (2008)”, pero utilizando doce componentes en lugar de treinta y seis.
El cómputo de los descriptores HPCP en una ventana de muestreo móvil, resulta en una serie temporal multidimensional x para cada canción, siendo expresada su evolución tonal temporal como sigue: x = {xh, i}para h =1, ...,H yi=1, ..., N*x, dondeH=12esel número de componentes HPCP y N*x representa el número total de ventanas.
En la Fig. 2 se ilustra una secuencia HPCP de 350 ventanas extraída utilizando una ventana de 464 ms de duración.
El último paso de la etapa de pre-procesamiento, indicado en la Fig. 1, consiste en la transposición de una secuencia HPCP a la clave principal de la otra, debido a que un cambio en la clave o tonalidad principal es una alteración común cuando los músicos interpretan versiones de una canción conocida. En las representaciones de secuencias HPCP un cambio en la tonalidad principal se representa por un desplazamiento circular en la clase tonal. Por consiguiente, se puede revertir este cambio utilizando un desplazamiento circular apropiado de los componentes de clase tonal a lo largo del eje vertical de la secuencia HPCP (por ejemplo, para transponer la secuencia ilustrada por la Fig. 2 de D a C, deben desplazarse circularmente los componentes de clase tonal hacia arriba dos componentes, es decir dos semitonos, para todas las ventanas).
Para determinar el número de componentes se ha utilizado el procedimiento de índice de transposición óptimo propuesto en “J. Serrà, E. Gómez, P. Herrera, and X. Serra, IEEE Trans. on Audio, Speech and Language Processing 16, 1138 (2008)” y extendido en “J. Serrà, E. Gómez, and P. Herrera, IEEE CS Conference on The Use of Symbols to Represent Music and Multimedia Objects pp. 45-48 (2008)”.
Una vez completada la etapa de pre-procesamiento, para construir la matriz CRP, se procede a una inmersión en el espacio de estados.
Para ello debe tenerse en cuenta que una secuencia HPCP es una representación multivariante de la evolución tonal temporal de una canción dada X o Y. Ciertamente, no representa una señal medida a partir de un sistema dinámico descrito por alguna ecuación de movimiento. No obstante, las coordenadas de retardo, una herramienta derivada de la teoría de los sistemas dinámicos que es usada comúnmente en análisis de series temporales no lineales, puede ser empleada de manera pragmática para facilitar la extracción de información contenida en una secuencia HPCP x, de la canción X indicada en la Fig. 1 (de igual manera para la secuencia HPCP y, es decir de la canción Y). En particular, mediante la evaluación de vectores de secuencias de muestreo, las coordenadas de retardo permiten evaluar recurrencias entre sistemas de manera más fiable que utilizando solamente muestras escalares.
Tal utilización de secuencias de notas, en lugar de notas aisladas, es esencial en música, en particular para la percepción y el reconocimiento de melodías.
Considerando la evolución temporal de cada clase tonal (pitch) individual, se ha construido una secuencia x de vectores en el espacio de estados de coordenadas de retardo, donde
donde m es la denominada dimensión de inmersión, y τ es el retardo temporal. Es conocido que para un análisis de series temporales no lineales, una correcta elección de m y τ es crucial para extraer información significativa de señales con ruido y de longitud finita.
Aunque existen propuestas para el cálculo de valores fijos óptimos de m y τ (por ejemplo, el método de los falsos vecinos más cercanos y el uso de la función de auto-correlación de tiempo de caída), para llevar a cabo los ejemplos de realización descritos en el presente apartado se ha estudiado la precisión en la identificación de “covers” de canciones bajo la variación de estos parámetros y la selección de la mejor combinación posible.
Para construir la matriz CRP se han comparado, en la etapa b) del método propuesto, los datos xi tal y como se definen en la expresión (1), con los datos yj definidos de igual modo, es decir unas correspondientes secuencias de vectores en el espacio de estados de coordenadas de retardo, relativos al descriptor HPCP, para diversas clases tonales.
En particular se han introducido los valores de dichas secuencias de vectores xi eyi en la expresión (2), para diferentes canciones.
Para las matrices CRP ilustradas por la Fig. 3 se han utilizado, para la vista (a), secuencias de vectores xi del descriptor HPCP de la canción “Day Tripper” interpretada por “The Beatles”, y de vectores yj del descriptor HPCP de una versión de “Day Tripper” interpretada por el grupo “Ocean Colour Scene”. Para la vista (b) se ha utilizado la misma secuencia xi, pero la secuencia yj corresponde a la canción “I’ve got a crush on you” interpretada por Frank Sinatra. Los parámetros utilizados en ambas matrices son m = 9, τ =1yk= 0,08 (a partir del cual se han ajustado los valores o distancias umbrales εxi y εyj ).
Puede observarse en dicha Fig. 3, cómo, en general, dos matrices CRP construidas a partir de dos canciones, una de las cuales es una “cover” de la otra, muestran patrones extendidos, en forma de subsecuencias o trazas, claramente distinguidos (vista (a)), mientras que pares de canciones no relacionadas ofrecen como resultado una matriz CRP que no exhibe ninguna estructura evidente (vista (b)).
Las discontinuidades o disrupciones cortas que separan subsecuencias de una misma secuencia, es decir que se extienden según una misma diagonal, según se ilustran en la vista (a) de la Fig. 3, se deben a que los músicos que han interpretado una de las canciones se han saltado algún acorde o parte de la melodía en su interpretación, o “cover”, de la otra canción, disrupciones las cuales son tenidas en cuenta mediante Qmax, tal y como se ha explicado anteriormente.
Se han realizado diversas medidas de análisis de cuantificación de recurrencia con las matrices CRP creadas utilizando diferentes canciones, con el fin de comparar los resultados obtenidos con cada una de dichas mediadas.
En particular se ha obtenido el valor del parámetro convencional Lmax, así como el de los propuestos según el método de la presente invención Smax yQmax, a partir de las matrices acumulativas L, S y Q, construidas según las expresiones (3), (4) y (5), respectivamente, descritas anteriormente.
Utilizando los mismos datos xi eyj que se han utilizado para construir la matriz de la vista (a) de la Fig. 3, se han construido las tres matrices acumulativas ilustradas en la Fig. 4, en particular la matriz L (vista (a)), la S (vista (b)) y la Q (vista (c)), a la derecha de las cuales se encuentran representados los respectivos niveles asociados de Lmax,Smax yQmax, para un ejemplo de realización para el que los parámetros de las matrices CRP son los mismos que en la Fig. 3, y donde, para la matriz Q se han utilizado unos parámetros de penalización γo=3y γe =7.
Es necesario resaltar el incremento notable en los valores máximos entre las distintas medidas de cuantificación. En particular en la vista (a) puede verse cómo Lmax = 33, o resultado mayor acumulado en una traza o subsecuencia recta y continua que empieza en 140,232 s; en la vista (b) Smax = 79, o resultado mayor acumulado en una traza curva y continua que empieza en 216,142 s, y en la vista (c) se observa que Qmax = 136, o resultado mayor acumulado en una traza curva, o alabeada, en este caso discontinua, que empieza en 14,118 s.
En la Fig. 5(a) se ha representado un detalle ampliado de la Fig. 4(b), donde se aprecia la citada traza curva y continua que proporciona un Smax = 79, marcada con una línea gris dibujada sobre las distintas subsecuencias que la definen.
La Fig. 5(b) es, asimismo, un detalle ampliado de la Fig. 4(c), que muestra a la citada traza curva y discontinua de valor acumulado máximo que proporciona un Qmax = 136, indicada mediante una línea gris discontinua, dibujada sobre las distintas subsecuencias que la definen. En dicha Fig. 5(b) se han indicado mediante unos rectángulos las discontinuidades en la traza dibujada.
Es decir que según Smax y, en especial según Qmax, las dos canciones analizadas, según el ejemplo de realización ilustrado por la Fig. 4, son mucho más similares que lo que indica Lmax, lo que demuestra la bondad del método propuesto por la presente invención, ya que efectivamente una de las dos canciones utilizadas es una “cover” de la otra canción.
A continuación se describen, con referencia a las Figs. 6 a 9, unos ejemplos de realización relativos a la evaluación del método propuesto por la presente invención, para un conjunto de datos de evaluación que se detallan seguidamente.
Datos de evaluación
Para comprobar la efectividad del método propuesto por la presente invención con un número mayor de canciones que las utilizadas para los ejemplos de realización descritos hasta ahora, en el presente apartado, se ha analizado una colección musical que incluye un total de mil novecientas cincuenta y tres canciones comerciales con una longitud de canción media de 3,5 min, en un rango que va de 0,5 a 7 min. Entre estas canciones se incluyen quinientos grupos de versiones, o “cover”, cada uno de los cuales hace referencia a un grupo de versiones de la misma canción. El número medio de canciones por grupo de versiones es de 3,9, en un rango que va de dos a dieciocho canciones por grupo de versiones, que se ilustra gráficamente en la Fig. 6(a).
Al componer esta colección musical se tuvo como objetivo incluir una gran variedad de estilos y géneros musicales, tal y como se ilustra en la vista (b) de la Fig. 6, donde se incluyen cinco géneros conocidos, y un sexto género denominado “miscelánea” donde se encuentran agrupadas las canciones que no han podido clasificarse en ninguno de los otros cinco géneros. No se ha aplicado ningún otro criterio para la inclusión o exclusión de canciones. Una lista completa de la colección musical puede ser encontrada en http://mtg.upf.edu/people/jserra/. Esta colección musical fue recopilada de manera previa e independiente al método propuesto por la presente invención (ver J. Serrà, Master’s thesis, Universitat Pompeu Fabra, Barcelona, Spain (2007), [Online]: http://mtg.upf.edu/node/ 536).
Con el fin de formar un conjunto de datos de entrenamiento y varios conjuntos de datos de testeo, se dividió el número total de quinientos grupos de versiones en tres subgrupos que no se superponen. El conjunto de entrenamiento contiene noventa canciones divididas en quince grupos de versiones de seis canciones cada uno. El primer conjunto de testeo contiene trescientas treinta canciones divididas en treinta grupos de versiones de once canciones cada uno. El segundo grupo de testeo contiene los restantes cuatrocientas cuarenta y cinco grupos de versiones, cada uno de los cuales contiene entre dos y dieciocho versiones, resultando en un total de mil quinientas treinta y tres canciones. Un grupo de testeo adicional fue definido como la unión del primer y el segundo grupos de testeo.
Metodología de evaluación
Dada una colección de documentos con D canciones, se ha calculado Lmax,Smax yQmax, para todas las combi-D(D −1)
naciones de parejas posibles . Una vez se ha computado una matriz de similitud como fuente principal de
información, se ha recurrido a medidas estándares de recuperación de información para evaluar la energía discriminatoria de esta información. Se ha utilizado la denominada medida de precisión media promedio, indicada como Ψ. Para calcular esta medida, la matriz de similitud se utiliza para computar, para cada canción con índice q, una lista Λq de D1 canciones clasificadas en orden descendente con relación a su similitud con la canción q. Suponiendo que la canción consulta q pertenece a un grupo de versiones que comprende Cq + 1 canciones, se obtiene entonces la precisión media Ψq como:
donde Pq(r) es la denominada precisión de la lista Λq para el rango r,
eIq(·) es la denominada función de relevancia que cumple que Iq(z) = 1 si la canción con rango z en la lista clasificada es una versión o “cover” de q, e Iq(z)=0en cualquier otro caso. Por lo tanto Ψq varía entre cero y uno. Si las canciones “cover” toman los primeros rangos de Cq, entonces Ψq = 1. Valores próximos a cero son obtenidos si todas las canciones “cover” son halladas próximas al final de Λq.
Ψ es calculado como el promedio de las precisiones medias Ψq a lo largo de todas las consultas q. Esta medida de evaluación se emplea comúnmente en una amplia variedad de tareas en las comunidades IR y MIR, incluyendo la identificación de canciones “cover”. Su utilización tiene la ventaja de tener en cuenta la lista clasificada completa donde los elementos correctos con un rango bajo reciben los pesos más grandes.
De manera adicional, se ha estimado el nivel de precisión esperado bajo la hipótesis de nulidad de que la matriz de similitud no tendría ninguna energía discriminatoria con relación a la asignación de grupos de versiones, o “cover”. Con tal fin, se ha permutado Λq y mantenido todos los demás pasos igual. Se ha repetido el proceso diecinueve veces y tomado la media para cada canción q, resultando en Ψnull. Este Ψnull puede ser usado para estimar la precisión de todas las medidas Lmax,Smax yQmax bajo la hipótesis de nulidad.
Resultados obtenidos
- -
- Optimización de parámetros
Se ha utilizado el conjunto de datos de entrenamiento citado para estudiar la influencia de los parámetros de inmersión m y τy el porcentaje de vecinos más cercanos k en la medida de precisión Ψ. En la Fig. 7 se ilustran los resultados obtenidos para Qmax que demuestran que el uso de una inmersión (m>1) mejora la precisión del sistema en comparación con la ausencia de dicha inmersión (m=1). Se ha establecido un amplio pico de valores próximos al máximo de Ψ, para un rango considerable de ventanas de inmersión (aproximadamente 7 <(m-1)τ<17). Puede verse en dicha Fig. 7 que, a partir de estos valores próximos al máximo, Ψ decrece débilmente al incrementarse más la ventana de inmersión. Unos valores de k entre 0,05 y 0,15 han sido hallados como óptimos. Por tanto, dentro de estos amplios rangos de valores relativos a la ventana de inmersión (m-1)τy a k, no se requiere la realización de un ajuste fino para ninguno de los parámetros para obtener una precisión cercana a la óptima. En lo siguiente se han utilizado unos valores dem=10, τ=1yk= 0,1.
Las precisiones ilustradas en la Fig. 7 han sido computadas para una penalización γo del principio de una disrupción y una penalización γe de la extensión de una disrupción. La influencia de estos parámetros de penalización se ilustra más detalladamente en la Fig. 8.
Tal y como se ha indicado anteriormente, γo, γe solamente afectan a Qmax, y cuando γo, γe →∞, la medida de Qmax se reduce a Smax, ya que la ecuación (5) se convierte en la (4). Utilizando valores finitos para estos términos, en general se incrementa la precisión, lo cual revela la ventaja de Qmax respecto a Smax. Se han encontrado unos valores de precisión para Qmax cercanos al óptimo, para γo=5y γe = 0,5.
La misma optimización de parámetros descrita anteriormente para Qmax se ha llevado a cabo separadamente para Lmax ySmax, y ha producido como resultado que m = 10, τ = 1 y k = 0,1 también ofrecen unas precisiones cercanas a las óptimas para estas medidas. Tampoco se ha necesitado un ajuste fino, ya que las curvas iso-τ e iso-m obtenidas para diferentes valores de k tienen formas similares a las ilustradas para Qmax en la Fig. 7.
Para los datos de entrenamiento, esta optimización de parámetros “en muestra” ha conducido a las siguientes precisiones, ilustradas en la Fig. 9(a): Ψmax = 0,640, ΨSmax = 0,728 y ΨQmax = 0,813.
Precisión “fuera de la muestra”
Se han calculado también las precisiones para los datos de testeo utilizando los parámetros determinados por la optimización sobre los datos de entrenamiento, y los resultados obtenidos se ilustran en las Figs. 9(b) a 9(d). Las precisiones medias “fuera de muestra” resultantes han sido: ΨLmax = 0,426, ΨSmax = 0,543 y ΨQmax = 0,667.
Estas buenas precisiones “fuera de muestra” indican que los resultados obtenidos no pueden ser debidos a una sobre optimización de parámetros. El incremento en la precisión conseguido con la derivación de Lmax vía Smax hasta Qmax, es substancial. Y, aun más importante, este incremento en la precisión, o exactitud, se refleja también en los conjuntos de datos de testeo.
Todos los valores para Lmax,Smax,yQmax están significadamente fuera del rango de Ψnull a lo largo de las diecinueve aleatoriaciones. Por tanto, los valores de precisión obtenidos no son consistentes con la anteriormente referida hipótesis de nulidad que asume que las matrices de similitud no tienen energía discriminatoria.
Un experto en la materia podría introducir cambios y modificaciones en los ejemplos de realización descritos sin salirse del alcance de la invención según está definido en las reivindicaciones adjuntas.
Claims (23)
- REIVINDICACIONES1. Método para calcular medidas de similitud entre señales temporales, del tipo que comprende realizar las siguientes etapas, de manera automática:a) adquirir unos datos (xi) de al menos una primera señal (X) variable en el tiempo y unos datos (yj) de una segunda señal (Y) variable en el tiempo, a lo largo de al menos parte de la duración de cada señal;b) comparar cada uno de dichos datos (xi) adquiridos de dicha primera señal (X) con al menos una parte de dichos datos (yj) adquiridos de dicha segunda señal (Y), para evaluar el nivel de similitud entre ellos;c) asignar un valor positivo predeterminado a cada dos datos comparados (xi,yi), si el resultado de dicha comparación es superior a un umbral determinado, y un cero si es inferior a dicho umbral determinado, creando un conjunto de datos con dichos valores positivos y dichos ceros ordenados temporalmente;d) determinar al menos una primera secuencia temporal con al menos parte de dichos valores positivos predeterminados y dichos ceros asignados de dicho conjunto de datos, formada por una serie de subsecuencias consecutivas de valores positivos, separadas por discontinuidades formadas por uno o más ceros;e) obtener una serie de resultados acumulados para al menos cada una de dichas subsecuencias consecutivas, sumando los valores positivos incluidos en al menos cada subsecuencia; yf) seleccionar el resultado mayor de entre dichos resultados acumulados obtenidos en dicha etapa e), y establecer dicho resultado seleccionado como indicativo del nivel de similitud entre dichas dos señales;estando dicho método caracterizado porque comprende, para compensar posibles diferencias en la velocidad de dichas señales (X, Y), o en parte de las mismas, llevar a cabo dicha etapa e) obteniendo un resultado acumulado para cada punto determinado i, j de un valor positivo, de cada una de dichas subsecuencias, realizando la suma de dicho valor positivo al resultado acumulado de valor máximo, de entre al menos los siguientes tres resultados acumulados obtenidos de manera análoga:
- -
- un resultado parcial acumulado en un punto justo anterior i-1, j-1 de dicha subsecuencia,
- -
- un resultado acumulado en un punto i-2, j-1 de una subsecuencia de una segunda secuencia temporal, y
- -
- un resultado acumulado en un punto i-1, j-2 de una subsecuencia de una tercera secuencia temporal.
-
- 2.
- Método según la reivindicación 1, caracterizado porque, para cada subsecuencia que comienza tras una discontinuidad, el método comprende comenzar la operación de suma de sus valores positivos que ofrezca un resultado acumulado para dicha subsecuencia, independientemente del resultado o resultados acumulados de una o más subsecuencias previas a dicha discontinuidad.
-
- 3.
- Método según la reivindicación 1, caracterizado porque, para cada subsecuencia que comienza tras una discontinuidad, el método comprende comenzar la operación de suma de sus valores positivos que ofrezca un resultado acumulado para dicha subsecuencia, teniendo en cuenta al menos el resultado acumulado de una subsecuencia previa a dicha discontinuidad.
-
- 4.
- Método según la reivindicación 3, caracterizado porque comprende comenzar la operación de suma de valores positivos que ofrezca un resultado acumulado para dicha subsecuencia posterior a una discontinuidad, a partir de un valor de resultado acumulado penalizado obtenido al aplicar al menos una penalización a dicho resultado acumulado de la subsecuencia previa, perteneciente a la misma secuencia que dicha subsecuencia posterior, o a otra secuencia temporal alternativa.
-
- 5.
- Método según la reivindicación 4, caracterizado porque dicha penalización comprende restar un valor determinado a dicho resultado acumulado de la subsecuencia previa.
-
- 6.
- Método según la reivindicación 5, caracterizado porque para cada cero de dicha discontinuidad hallado en un punto determinado i, j, el método comprende obtener dicho valor de dicho resultado acumulado penalizado restando un valor determinado a al menos el resultado acumulado de la subsecuencia previa, en un punto justo anterior i-1, j-1 a dicho cero.
-
- 7.
- Método según la reivindicación 6, caracterizado porque para cada cero de dicha discontinuidad hallado en un punto determinado i, j, el método comprende obtener dicho valor de dicho resultado acumulado penalizado:
- -
- restando un valor determinado al resultado acumulado de la subsecuencia previa en un punto justo anterior i-1, j1 a dicho cero.
- -
- restando un valor determinado al resultado acumulado en un punto i-2, j-1 de una subsecuencia de una segunda secuencia temporal,
- -
- restando un valor determinado al resultado acumulado en un punto i-1, j-2 de una subsecuencia de una tercera secuencia temporal, y
- -
- seleccionar, de entre dichos tres resultados y un valor igual a cero, el que tenga un valor máximo, como dicho valor de dicho resultado acumulado penalizado.
-
- 8.
- Método según la reivindicación 7, caracterizado porque el valor a restar a dichos resultados acumulados es uno u otro en función de que dicho punto en el que se produce dicha resta tenga un valor positivo o sea igual a cero.
-
- 9.
- Método según la reivindicación 1, caracterizado porque cada uno de dichos valores positivos es un valor unitario.
-
- 10.
- Método según cualquiera de las reivindicaciones anteriores, caracterizado porque dicho conjunto de datos es una matriz de recurrencia cruzada.
-
- 11.
- Método según la reivindicación 10, caracterizado porque dicha comparación de dicha etapa b) comprende también comparar cada uno de dichos datos (yj) adquiridos de dicha segunda señal (Y) con al menos una parte de dichos datos (xi) adquiridos de dicha primera señal (X), para evaluar el nivel de similitud entre ellos.
-
- 12.
- Método según la reivindicación 11, caracterizado porque dicho umbral de dicha etapa c) es un primer umbral determinado (εxi ), aplicado a la comparación de los datos de dichas dos señales, tomando como referencia los de la primera señal (X), y porque comprende un segundo umbral determinado (εxj ), aplicado a la comparación de los datos de las dos señales, tomando como referencia los de la segunda señal (Y), llevándose a cabo dicha asignación de un valor positivo predeterminado a cada dos datos comparados (xi,yj), si el resultado de al menos una de dichas dos comparaciones es superior a su respectivo umbral determinado.
-
- 13.
- Método según la reivindicación 12, caracterizado porque dichos umbrales determinados (εxi y εxj ) son ajustados de manera que un porcentaje máximo predeterminado de vecinos cercanos (k) es utilizado para ambas comparaciones, la que toma como referencia a la primera señal (X), y la que toma como referencia a la segunda señal (Y).
-
- 14.
- Método según la reivindicación 1, caracterizado porque cada una de dichas dos señales (X, Y) son dos tramos de una misma señal variable en el tiempo.
-
- 15.
- Método según cualquiera de las reivindicaciones anteriores, caracterizado porque comprende utilizar dichos datos (xi,yj) de dichas señales (X, Y), en un espacio de estados.
-
- 16.
- Método según cualquiera de las reivindicaciones 1 a 13, caracterizado porque comprende utilizar dichos datos (xi,yj) de dichas señales (X. y), en un espacio temporal.
-
- 17.
- Método según cualquiera de las reivindicaciones anteriores, caracterizado porque dichas dos señales temporales contienen información musical.
-
- 18.
- Método según la reivindicación 17, caracterizado porque dichas dos señales temporales (X, Y) son unas señales de audio, siendo dichos datos extraídos (xi,yj) relativos a los distintos valores que dichas señales de audio toman a lo largo del tiempo.
-
- 19.
- Método según la reivindicación 17, caracterizado porque dichas dos señales temporales (X, Y) son unas señales de audio, siendo dichos datos extraídos (xi,yj) relativos a unas series temporales de uno o más descriptores representativos de uno o más aspectos característicos de dichas señales de audio (X, Y), que reflejan la evolución temporal de un aspecto musical característico de dichas señales de audio (X, Y).
-
- 20.
- Método según la reivindicación 15, 16 ó 17, caracterizado porque está aplicado a la detección de interpretaciones o versiones de una misma pieza musical.
-
- 21.
- Método según cualquiera de las reivindicaciones 1 a 16, caracterizado porque dichas dos señales temporales (X, Y) contienen información referente a la evolución temporal de señales fisiológicas y/o neurológicas.
-
- 22.
- Método según cualquiera de las reivindicaciones 1 a 16, caracterizado porque dichas dos señales temporales (X, Y) contienen información referente a la evolución temporal de parámetros de estudio de al menos uno de los siguientes campos: economía y climatología.
OFICINA ESPAÑOLA DE PATENTES Y MARCASN.º solicitud: 200901057ESPAÑAFecha de presentación de la solicitud: 23.04.2009Fecha de prioridad:INFORME SOBRE EL ESTADO DE LA TECNICA51 Int. Cl. : Ver Hoja AdicionalDOCUMENTOS RELEVANTES- Categoría
- Documentos citados Reivindicaciones afectadas
- A A A A
- US 2008010330 A1 (IDE TSUYOSHI) 10.01.2008 US 5497468 A (TANI KUNIO et al.) 05.03.1996 US 4204114 A (SHOEMAKER WILLIAM E et al.) 20.05.1980 JP 10049680 A (DIA INSTR KK et al.) 20.02.1998 1 1 1 1
- Categoría de los documentos citados X: de particular relevancia Y: de particular relevancia combinado con otro/s de la misma categoría A: refleja el estado de la técnica O: referido a divulgación no escrita P: publicado entre la fecha de prioridad y la de presentación de la solicitud E: documento anterior, pero publicado después de la fecha de presentación de la solicitud
- El presente informe ha sido realizado • para todas las reivindicaciones • para las reivindicaciones nº:
- Fecha de realización del informe 25.02.2011
- Examinador M. González Vasserot Página 1/4
INFORME DEL ESTADO DE LA TÉCNICANº de solicitud: 200901057CLASIFICACIÓN OBJETO DE LA SOLICITUDG06F7/20 (01.01.2006) G06F7/02 (01.01.2006) G06F7/06 (01.01.2006) G05B23/00 (01.01.2006)Documentación mínima buscada (sistema de clasificación seguido de los símbolos de clasificación)G06F, G05BBases de datos electrónicas consultadas durante la búsqueda (nombre de la base de datos y, si es posible, términos de búsqueda utilizados)INVENES, EPODOC, WPIInforme del Estado de la Técnica Página 2/4OPINIÓN ESCRITANº de solicitud: 200901057Fecha de Realización de la Opinión Escrita: 25.02.2011Declaración- Novedad (Art. 6.1 LP 11/1986)
- Reivindicaciones Reivindicaciones 1-22 SI NO
- Actividad inventiva (Art. 8.1 LP11/1986)
- Reivindicaciones Reivindicaciones 1-22 SI NO
Se considera que la solicitud cumple con el requisito de aplicación industrial. Este requisito fue evaluado durante la fase de examen formal y técnico de la solicitud (Artículo 31.2 Ley 11/1986).Base de la Opinión.-La presente opinión se ha realizado sobre la base de la solicitud de patente tal y como se publica.Informe del Estado de la Técnica Página 3/4OPINIÓN ESCRITANº de solicitud: 2009010571. Documentos considerados.-A continuación se relacionan los documentos pertenecientes al estado de la técnica tomados en consideración para la realización de esta opinión.- Documento
- Número Publicación o Identificación Fecha Publicación
- D01
- US 2008010330 A1 (IDE TSUYOSHI) 10.01.2008
- D02
- US 5497468 A (TANI KUNIO et al.) 05.03.1996
- D03
- US 4204114 A (SHOEMAKER WILLIAM E et al.) 20.05.1980
- D04
- JP 10049680 A (DIA INSTR KK et al.) 20.02.1998
- 2. Declaración motivada según los artículos 29.6 y 29.7 del Reglamento de ejecución de la Ley 11/1986, de 20 de marzo, de Patentes sobre la novedad y la actividad inventiva; citas y explicaciones en apoyo de esta declaraciónLos documentos citados solo muestran el estado general de la técnica, y no se consideran de particular relevancia. Así, la invención reivindicada se considera que cumple los requisitos de novedad, actividad inventiva y aplicación industrial. 1.-El objeto de la presente solicitud de patente consiste en un método para calcular medidas de similitud entre señales temporales, que comprende evaluar el nivel de similitud, en relación a uno o más valores umbrales, de unos datos variables en el tiempo de dichas señales, y realizar una serie de sumas acumuladas con los resultados de dichas comparaciones, y en particular a un método que comprende compensar las posibles diferencias en la velocidad de dichas señales temporales. Es aplicable al campo de la recuperación de información musical, y más en concreto a la detección de interpretaciones o versiones de una misma pieza musical. 2.-El problema planteado por el solicitante comprende compensar posibles diferencias en la velocidad de dichas señales temporales X, Y, o en parte de las mismas. Tal es el caso de las variaciones o desviaciones en la velocidad con la que evolucionan en el tiempo dichas señales o series de datos, denominada tempo en el caso de señales de audio, las cuales son representadas en la matriz CRP como trazaso subsecuencias negras, o de unos, de forma curvada o alabeada, que no son suelen ser tenidas en cuenta por ninguna de las medidas de análisis de cuantificación de recurrencia. En particular, la matriz acumulativa L computada a partir de la matriz CRP no incluye dichas trazas curvadas o alabeadas, por lo que su existencia es ignorada al calcular Lmax, produciéndose por tanto un resultado erróneo, es decir una medida de similitud baja, para dos señales o series temporales que en realidad sean muy similares pero con una velocidad o tempo distinto. Para ello el método comprende llevar a cabo la etapa de obtener resultados acumulados para como mínimo cada una de las subsecuencias temporales consecutivas de valores positivos incluidos en al menos cada subsecuencia obteniendo un resultado acumulado para cada punto determinado i, j de un valor positivo, de cada una de dichas subsecuencias, realizando la suma de dicho valor positivo al resultado acumulado de valor máximo, de entre al menos los siguientes tres resultados acumulados obtenidos de manera análoga: -un resultado parcial acumulado en un punto justo anterior i-1, j-1 de dicha subsecuencia, -un resultado acumulado en un punto i-2, j-1 de una subsecuencia de una segunda secuencia temporal, y -un resultado acumulado en un punto 1-1, j-2 de una subsecuencia de una tercera secuencie temporal. El documento D1 puede considerarse como el representante del estado de la técnica más cercano ya que en este documento confluyen la mayoría de las características técnicas reivindicadas.Análisis de la reivindicación independientes 1D1 se diferencia del documento de solicitud de patente en que no compensa las posibles diferencias entre las señales (X,Y) ó en parte de las mismas realizando la suma de los valores positivos obtenidas en la etapa e) de la solicitud al resultado acumulado de valor máximo, de entre al menos los siguientes tres resultados acumulados obtenidos de manera análoga: -un resultado parcial acumulado en un punto justo anterior i-1, j-1 de dicha subsecuencia, -un resultado acumulado en un punto i-2, j-1 de una subsecuencia de una segunda secuencia temporal, y -un resultado acumulado en un punto 1-1, j-2 de una subsecuencia de una tercera secuencie temporal. La reivindicación 1 es, por tanto, nueva (Art. 6.1 LP 11/1986) y tiene actividad inventiva (Art. 8.1 LP11/1986).Análisis del resto de los documentosDe este modo, ni el documento D1, ni ninguno del resto de los documentos citados en el Informe del Estado de la Técnica, tomados solos o en combinación, revelan la invención en estudio tal y como es definida en las reivindicaciones independientes, de modo que los documentos citados solo muestran el estado general de la técnica, y no se consideran de particular relevancia. Además, en los documentos citados no hay sugerencias que dirijan al experto en la materia a una combinación que pudiera hacer evidente la invención definida por estas reivindicaciones y no se considera obvio para una persona experta en la materia aplicar las características incluidas en los documentos citados y llegar a la invención como se revela en la misma.Informe del Estado de la Técnica Página 4/4
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES200901057A ES2354330B1 (es) | 2009-04-23 | 2009-04-23 | Método para calcular medidas de similitud entre señales temporales. |
US12/764,424 US8718803B2 (en) | 2009-04-23 | 2010-04-21 | Method for calculating measures of similarity between time signals |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES200901057A ES2354330B1 (es) | 2009-04-23 | 2009-04-23 | Método para calcular medidas de similitud entre señales temporales. |
Publications (2)
Publication Number | Publication Date |
---|---|
ES2354330A1 ES2354330A1 (es) | 2011-03-14 |
ES2354330B1 true ES2354330B1 (es) | 2012-01-30 |
Family
ID=43626891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES200901057A Active ES2354330B1 (es) | 2009-04-23 | 2009-04-23 | Método para calcular medidas de similitud entre señales temporales. |
Country Status (2)
Country | Link |
---|---|
US (1) | US8718803B2 (es) |
ES (1) | ES2354330B1 (es) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103995808B (zh) * | 2013-02-17 | 2018-02-02 | 中国电信股份有限公司 | 时间序列上事件检测方法和装置 |
CN103488878B (zh) * | 2013-09-09 | 2016-08-24 | 重庆大学 | 基于向量相似性的交通流时间序列变点识别方法 |
CN103886195B (zh) * | 2014-03-14 | 2015-08-26 | 浙江大学 | 数据缺失下时间序列相似性度量方法 |
CN105224543A (zh) * | 2014-05-30 | 2016-01-06 | 国际商业机器公司 | 用于处理时间序列的方法和装置 |
CN110148072B (zh) * | 2018-02-12 | 2023-05-02 | 庄龙飞 | 运动课程评分方法与系统 |
TWI681798B (zh) | 2018-02-12 | 2020-01-11 | 莊龍飛 | 運動課程評分方法與系統、電腦程式產品 |
CN112101468B (zh) * | 2020-09-18 | 2024-04-16 | 刘吉耘 | 一种在序列组合中判定异常序列的方法 |
CN112561948B (zh) * | 2020-12-22 | 2023-11-21 | 中国联合网络通信集团有限公司 | 基于时空轨迹的伴随轨迹识别方法、设备及存储介质 |
CN115099370B (zh) * | 2022-08-23 | 2022-12-02 | 北京全应科技有限公司 | 面向流程型工业生产数据流的评测数据集构建方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4204114A (en) * | 1978-02-24 | 1980-05-20 | Gould Inc. | Method and apparatus for comparing logic functions by acquiring signals one at a time from circuit nodes |
JPS6449680A (en) | 1987-08-19 | 1989-02-27 | Sumitomo Chemical Co | Magenta dyestuff for sublimating transfer type thermal recording |
JPH0831032B2 (ja) * | 1990-08-29 | 1996-03-27 | 三菱電機株式会社 | データ処理装置 |
JPH1049680A (ja) * | 1996-08-05 | 1998-02-20 | Dia Instr:Kk | 印刷物の印刷パターン欠陥検査方法 |
JP4201027B2 (ja) * | 2006-07-10 | 2008-12-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 複数の観測結果の間の差異を検出するシステムおよびその方法 |
US7812241B2 (en) * | 2006-09-27 | 2010-10-12 | The Trustees Of Columbia University In The City Of New York | Methods and systems for identifying similar songs |
JP5130809B2 (ja) * | 2007-07-13 | 2013-01-30 | ヤマハ株式会社 | 楽曲を制作するための装置およびプログラム |
JP5463655B2 (ja) * | 2008-11-21 | 2014-04-09 | ソニー株式会社 | 情報処理装置、音声解析方法、及びプログラム |
-
2009
- 2009-04-23 ES ES200901057A patent/ES2354330B1/es active Active
-
2010
- 2010-04-21 US US12/764,424 patent/US8718803B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US8718803B2 (en) | 2014-05-06 |
US20110178615A1 (en) | 2011-07-21 |
ES2354330A1 (es) | 2011-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2354330B1 (es) | Método para calcular medidas de similitud entre señales temporales. | |
Koduri et al. | Rāga recognition based on pitch distribution methods | |
Humphrey et al. | Four Timely Insights on Automatic Chord Estimation. | |
Harte | Towards automatic extraction of harmony information from music signals | |
US7649137B2 (en) | Signal processing apparatus and method, program, and recording medium | |
US7601907B2 (en) | Signal processing apparatus and method, program, and recording medium | |
Gulati et al. | Automatic tonic identification in Indian art music: approaches and evaluation | |
Burgoyne et al. | Compositional data analysis of harmonic structures in popular music | |
Van Balen et al. | Cognition-inspired descriptors for scalable cover song retrieval | |
Nakamura et al. | Outer-product hidden Markov model and polyphonic MIDI score following | |
Chin et al. | Audio event detection based on layered symbolic sequence representations | |
Bergomi et al. | Towards a topological fingerprint of music | |
ES2349961T3 (es) | Método de generación de una huella para una señal útil. | |
Sidorov et al. | Music Analysis as a Smallest Grammar Problem. | |
Müllensiefen et al. | Polynomial functions as a representation of melodic phrase contour | |
Chen et al. | Improved score-performance alignment algorithms on polyphonic music | |
Rocher et al. | Dynamic chord analysis for symbolic music | |
Giraldo et al. | Performance to score sequence matching for automatic ornament detection in jazz music | |
Cambouropoulos et al. | Idiom-independent harmonic pattern recognition based on a novel chord transition representation | |
JP6565529B2 (ja) | 自動アレンジ装置及びプログラム | |
Guerrero-Turrubiates et al. | Guitar chords classification using uncertainty measurements of frequency bins | |
Cazau et al. | An automatic music transcription system dedicated to the repertoires of the marovany zither | |
Lee et al. | Robust and efficient content-based music retrieval system | |
Darabi et al. | Recognition of Dastgah and Maqam for Persian music with detecting skeletal melodic models | |
Samson et al. | Estimating note phrase aesthetic similarity using feature-based taxicab geometry |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG2A | Definitive protection |
Ref document number: 2354330 Country of ref document: ES Kind code of ref document: B1 Effective date: 20120130 |