ES2776196T3

ES2776196T3 - Aparato de procesamiento de imágenes y método para codificar un descriptor de imágenes basándose en un histograma de gradiente

Info

Publication number: ES2776196T3
Application number: ES14777780T
Authority: ES
Inventors: Stavros Paschalakis
Original assignee: New Luck Global Ltd
Current assignee: New Luck Global Ltd
Priority date: 2013-07-24
Filing date: 2014-07-16
Publication date: 2020-07-29
Anticipated expiration: 2034-07-16
Also published as: RU2698765C2; DK3025274T3; CN105493106A; CN110365979A; RU2678668C2; BR112016001479A2; JP6745939B2; JP6514200B2; EP3025274B1; US9779320B2; PT3025274T; TWI576770B; RU2019125322A; ITTO20130629A1; EP3025274A1; RU2019101654A; RU2016105699A; EP3633547A1; US20160162749A1; HUE048315T2

Abstract

Método para codificar un descriptor de imágenes (H) basándose en histogramas de gradiente (hp) que comprenden cada uno una pluralidad de compartimentos de histograma (hi) y que se calculan en una subregión correspondiente (SR) de una región local (R) alrededor de un punto clave de interés de imagen, usando un descriptor transformado (V) que comprende subdescriptores transformados (vp) para cada subregión (SR) que se calculan como una transformación del histograma de gradiente (hp) de subregión correspondiente (SR), en el que cada subdescriptor (vp) comprende un conjunto de valores (vj) individualizado cada uno por un índice de elemento (j), caracterizado porque dicho método comprende: - determinar una pluralidad de grupos (gx), comprendiendo cada uno un conjunto de subdescriptores transformados (vp), determinándose el conjunto usando la distancia entre el centro de la subimagen correspondiente (SR) de cada subdescriptor transformado (vp) y el centro de dicha región local (R), estando cada grupo (gx) individualizado por un índice de grupo (x); - usar una lista de utilización de elementos para indicar la secuencia para codificar los valores (vj) de los elementos de subdescriptores transformados (vp), especificando la lista de utilización de elementos una secuencia ordenada de entradas de lista, definiendo cada entrada un par de índices que incluyen dicho índice de grupo (x), que indica un conjunto de subdescriptores transformados, y dicho índice de elemento (j), y la secuencia truncada en una longitud DLn que define un descriptor que tiene una longitud de DLn elementos que es un subconjunto de un descriptor que tiene una longitud de DLp elementos con DLn < DLp, definido por la secuencia de entradas truncada en una longitud DLp mayor que DLn; - codificar los valores (vj) del descriptor transformado (V) según el orden de la lista de utilización de elementos, comprendiendo la secuencia codificada una secuencia de descriptores transformados de diferentes longitudes (DLO, DL1, DL2, DL3, DL4).

Description

DESCRIPCIÓN

Aparato de procesamiento de imágenes y método para codificar un descriptor de imágenes basándose en un histograma de gradiente

Descripción

La presente invención se refiere a un método para codificar, transcodificar, decodificar y procesar eficazmente descriptores de imágenes calculados en regiones locales en torno a puntos clave de interés de imágenes y a un dispositivo de procesamiento de imágenes que comprende medios para codificar, transcodificar, decodificar y procesar tales descriptores.

Tales descriptores de imágenes han encontrado una amplia aplicabilidad en muchas aplicaciones de visión por ordenador, incluyendo reconocimiento de objetos, recuperación de imágenes basándose en contenido y registro de imágenes, por nombrar algunos.

Los enfoques existentes para la codificación de tales descriptores presentan determinados inconvenientes.

Por ejemplo, los enfoques de codificación existentes dan como resultado descriptores que requieren el análisis de todos los descriptores para realizar transcodificación, por lo que un descriptor de una longitud de descriptor dada se convierte en un descriptor de una longitud de descriptor diferente, o para realizar decodificación y comparación de descriptores de diferentes longitudes.

Un ejemplo adicional se facilita en Mehmet Firat VURAL et al. en “Registration of Multispectral Satellite Images with Orientation-Restricted SIFT” publicado en el simposio internacional de geociencias y teledetección 2009 del IEEE, IGARSS 2009, IEEE, PISCATAWAY, NJ, EE.UU., (2009-07-2012), donde se describe el algoritmo SIFT de orientación restringida (OR-SIFT). OR-SIFT es una versión modificada del popular algoritmo SIFT; sin embargo, sólo reduce a la mitad la longitud de los descriptores SIFT, por lo que no logra una buena escalabilidad de codificación de un descriptor de imágenes basándose en el algoritmo SIFT.

Como otro ejemplo, los enfoques de codificación existentes son ineficaces en lo que se refiere a la complejidad de codificación porque ignoran las coincidencias y redundancias en las operaciones que se requieren para producir descriptores de imágenes de longitud variable.

La solicitud de patente italiana n.° T02012A000602 (publicada como documento WO 2014/009198 A1) presentada por el propio solicitante describe la codificación de descriptores de imágenes locales, mediante lo cual descriptores de imágenes robustos, discriminativos, escalables y compactos se calculan a partir de descriptores de imágenes que emplean histogramas de gradientes basándose en la transformación de dichos histogramas de gradientes, donde dicha transformación captura información relevante y robusta contenida en ellos en cuanto a la forma de las distribuciones y la relación entre sus valores de compartimento.

En dicha solicitud de patente italiana se divulgan métodos de codificación de dichos descriptores que son más eficaces que los métodos de la técnica anterior en lo que se refiere a producir flujos de bits fácilmente escalables. Tales descriptores se divulgan en la solicitud de patente italiana aún no publicada mencionada anteriormente n.° TO2012A000602 que divulga el cálculo de descriptores de imágenes robustos, discriminativos, escalables y compactos a partir de descriptores de imágenes que emplean histogramas de gradientes basándose en la transformación de dichos histogramas de gradientes, donde dicha transformación captura la información relevante y robusta contenida en ellos en cuanto a la forma de las distribuciones y la relación entre sus valores de compartimento.

A continuación en el presente documento se describen aspectos importantes del cálculo de descriptores de imágenes robustos, discriminativos, escalables y compactos a partir de descriptores de imágenes que emplean histogramas de gradientes, en particular un descriptor de imágenes SIFT, según la solicitud de patente italiana aún no publicada n.° T02012A000602.

Brevemente, con el método SIFT, se forman descriptores de imágenes locales de la siguiente manera: en primer lugar, se realiza una búsqueda en múltiples escalas y ubicaciones de imágenes para identificar y localizar puntos clave de imágenes estables que sin invariantes en escala y orientación; entonces, para cada punto clave, se determinan una o más orientaciones dominantes basándose en gradientes de imágenes locales, lo que permite que el cálculo del descriptor local posterior se realice en relación con la orientación, escala y ubicación asignadas de cada punto clave, logrando de ese modo la invariancia para estas transformaciones. Entonces, se forman descriptores de imágenes locales en torno a puntos clave de la siguiente manera: en primer lugar, se calculan la magnitud del gradiente y la información de orientación en los puntos de muestra de imágenes en una región en torno al punto clave; entonces, estas muestras se acumulan en histogramas de orientación que resumen el contenido a lo largo de n*n subregiones.

A modo de ilustración únicamente, se muestra un ejemplo de un descriptor de puntos clave SIFT en las figuras 1a y 1b, donde la figura 1a muestra una subdivisión de una región local R en 4x4 subregiones SR y la figura 1b muestra una subdivisión del rango de 360° de orientaciones en ocho compartimentos para cada histograma de orientación, correspondiendo la longitud de cada flecha a la magnitud de esa entrada de histograma. Por tanto, un descriptor de imágenes local tal como se ilustra en la figura 1 tiene 4x4x8 = 128 elementos. Pueden encontrarse más detalles de la técnica SIFT en David G. Lowe, “Distinctive image features from scale-invariant keypoints”, International Journal of Computer Vision, 60, 2 (2004), págs. 91-110.

Según la solicitud de patente italiana aún no publicada n.° T02012A000602, puede calcularse un descriptor de imágenes robusto, discriminativo, escalable y compacto a partir de un descriptor SIFT de la siguiente manera.

En la siguiente descripción, H es un descriptor SIFT completo que comprende 16 histogramas de gradientes h cada uno con ocho compartimentos h, mientras que V es un descriptor local completo según la presente invención que comprende 16 subdescriptores v cada uno con ocho elementos v.

Supóngase que H indica un descriptor de imágenes local SIFT que comprende 16 histogramas de gradientes fe -h¹⁵, tal como se muestra en la figura 2a, comprendiendo cada histograma ocho valores de compartimento h⁰- hi, tal como se muestra en la figura 2b. Puede calcularse un descriptor de imágenes más robusto, discriminativo, escalable y compacto transformando cada uno de h⁰- h¹⁵de H y luego realizando cuantificación escalar en los valores transformados resultantes. Más específicamente, cada uno de h⁰- h¹⁵se transforma según la transformada A o la transformada B, tal como se muestra a continuación, según la información de utilización de transformadas de la figura 3, es decir, la transformada A se aplica a h⁰, h², h⁵, hi, hs, h™, h¹³, h15y la transformada B se aplica a h¹, h³, h⁴, h6, hg, hn, h¹², h¹⁴, dando el descriptor transformado V con subdescriptores v⁰- v15, correspondientes a h⁰- h15 respectivamente, y comprendiendo cada uno elementos V⁰-V⁷, dando un total de 128 elementos.

T ransformada A (1)

vo = h 2 - h

vi - lis - fl7

V2 = ho - hi

vi = fe - hs

m = h4 - h¡

V5 = h-6 - fe

V⁶= (ho + hi) - (fe + he)

V7 ⁼(ho ⁺ }i2 ⁺ lu he) - ^{( fe} hs ⁺ hs ^{+ f e )}

Transformada B (2)

vo = ho - hi

vi = hi - hs

vi = fe - ho

vi ⁼ hi - ^{f e}

m = lis - lu

vs = fe - he

ve = (fe fe) - (hs fe)

V7 = (ho + fe fe hs) - (lu hs + he + fe)

Entonces, cada elemento se somete a cuantificación escalar aproximada, por ejemplo, cuantificación ternaria (3 niveles), con los umbrales de cuantificación seleccionados para lograr una distribución de probabilidad de aparición específica entre los compartimentos de cuantificación para cada elemento. Esta cuantificación escalar produce el descriptor cuantificado V,~ con los subdescriptores v,~⁰- v,~¹⁵, comprendiendo cada uno los elementos v,~^o-v,^~7, de nuevo con un total de 128 elementos. Este descriptor compacto captura la información más discriminativa y robusta contenida en los histogramas de gradientes originales, en cuanto a la forma de las distribuciones y la relación entre sus valores de compartimento.

Una ventaja clave del descriptor V, así como de su versión cuantificada V,~, es que es altamente escalable, y su dimensionalidad puede reducirse fácilmente si lo requieren los requisitos de almacenamiento de una aplicación o las características de un canal de transmisión eliminando simplemente uno o más de sus elementos. Por motivos de simplicidad, en la descripción que sigue se describirán aspectos importantes de la invención en lo que se refiere a codificación del descriptor previamente cuantificado V con subdescriptores v⁰- v¹⁵, comprendiendo cada uno elementos V⁰-V⁷y, a menos que se indique lo contrario, debe entenderse que la codificación del descriptor cuantificado V,~ se desarrolla de manera similar.

Las figuras 4a-4e muestran conjuntos de elementos a modo de ejemplo que se ha encontrado que producen excelente poder discriminativo y robustez para cinco longitudes de descriptor objetivo, desde la longitud de descriptor 0 (DL0), la longitud de descriptor más corta utilizando sólo 20 elementos de descriptor, hasta la longitud de descriptor 4 (DL4), la longitud de descriptor más larga utilizando los 128 elementos. Más específicamente, la figura 4a muestra un conjunto de elementos a modo de ejemplo para la longitud de descriptor DL0 que comprende 20 elementos, la figura 4b muestra un conjunto de elementos a modo de ejemplo para la longitud de descriptor DL1 que comprende 40 elementos, la figura 4c muestra un conjunto de elementos a modo de ejemplo para la longitud de descriptor DL2 que comprende 64 elementos, la figura 4d muestra un conjunto de elementos a modo de ejemplo para la longitud de descriptor DL3 que comprende 80 elementos, y la figura 4e muestra un conjunto de elementos a modo de ejemplo para la longitud de descriptor DL4 que comprende los 128 elementos. Por tanto, para cada longitud de descriptor, cada elemento de cada subdescriptor se codificará o no según los conjuntos de utilización de elementos de la figura 4a-4e.

Es clave para esta propiedad de escalabilidad que el conjunto de elementos utilizados para cada longitud de descriptor debe ser igual que o un subconjunto del conjunto de elementos utilizados para todas las longitudes de descriptor más altas, tal como se ilustra en las figuras 4a-4e. Esto permite la transcodificación y la comparación de descriptores de diferentes longitudes mediante la simple eliminación de elementos en exceso del descriptor con la longitud de descriptor más alta, de modo que se reduce al mismo conjunto de elementos que el descriptor con la longitud de descriptor más baja.

Un método de codificación directo de este descriptor comprende calcular y codificar los elementos en un orden “por subdescriptor”, es decir, en el caso general como vo,o, V⁰,¹, ..., voj, vi,⁰, vi,¹, ..., V17 , ..., V¹⁵,⁰, ^ ⁵,¹, ..., V^15,7dónde v¡j indica el elemento vj del subdescriptor v¡. Esto significa elementos de codificación V⁰, V¹, ..., V⁷para el subdescriptor transformado v⁰, luego elementos de codificación V⁰, V¹, ..., V⁷para el subdescriptor transformado v¹, etc., usando las transformadas apropiadas, por ejemplo, tal como se ilustra en la figura 3, y también usando los conjuntos de utilización de elementos apropiados para la longitud de descriptor deseada, por ejemplo, tal como se ilustra en la figura 4, para decidir qué elementos deben codificarse.

Esta codificación resulta, por ejemplo para una longitud de descriptor DL0, en un descriptor V⁰,⁰, V¹,⁰, V²,⁰, V³,⁰, V⁴,⁰, V⁵,⁰, V⁵,⁶, va,⁰, va,a, V⁷⁰, va,⁰, vg,⁰, vg,⁶, V¹⁰,⁰, V¹⁰,⁶, vn,⁰, V¹²,⁰, V¹³,⁰, V¹⁴,⁰, V¹⁵,⁰y para una longitud de descriptor DL1 en un descriptor V⁰,⁰, V⁰,¹, V¹,⁰, V¹,¹, V2, ⁰, V²,¹, V^{3 0}, V³, ¹, V⁴, ⁰, V⁴, ¹, V^{5 0}, V⁵¹, V^{5 2}, V^{5 6}, V⁶,⁰, V⁶,¹, V⁶,², V6,6, V⁷,⁰, V⁷, ¹, V⁸,⁰, V⁸,¹, Vg,⁰, Vg,¹, V^{9 2}, vg,6, V¹⁰,⁰, V¹⁰,¹, V¹⁰,², V¹⁰,⁶, V¹¹,⁰, v¹¹,¹, V¹²,⁰, V¹²,¹, V13,0, V13,1, V14,0, V14,1, V15,0, V15,1.

La figura 5 ilustra el funcionamiento de un codificador tan directo como una secuencia de etapas. En la siguiente descripción, así como en descripciones posteriores del funcionamiento de un codificador, a menos que se especifique lo contrario, una secuencia de etapas de este tipo corresponde a etapas que son conceptuales y no corresponden a hardware específico de implementaciones de software, componentes e instrucciones, pero son representativas del funcionamiento general del codificador. Más específicamente, la figura 5 ilustra el funcionamiento de un codificador para una longitud de descriptor DL^, por ejemplo correspondiente a una de las longitudes de descriptor ilustradas en la figura 4. En la etapa S100 de la figura 5, la codificación del descriptor comienza en el primer subdescriptor, es decir v⁰. En la etapa S110, se selecciona la transformada apropiada para el subdescriptor que está procesándose, por ejemplo, según la utilización de transformadas de la figura 3. Cabe señalar que el cálculo del descriptor V a partir del descriptor H según dos transformadas diferentes tal como se describe en este caso es sólo un ejemplo. El cálculo del descriptor V a partir del descriptor H también puede realizarse según una sola transformada, por ejemplo, sólo la transformada A o sólo la transformada B, haciendo innecesaria la etapa S110, o según más de dos transformadas. En la etapa S120, la codificación del subdescriptor que está procesándose comienza en el primer elemento del subdescriptor, es decir, vo. Entonces, en la etapa S130, se comprueba el uso o no del elemento particular del subdescriptor particular, es decir v ⁰,⁰, frente a la información de utilización del elemento para la longitud de descriptor DL^, por ejemplo, usando uno de los conjuntos de utilización de la figura 4. Si el elemento no está en uso, el procesamiento avanza entonces a la etapa S150. Si el elemento está en uso para la longitud de descriptor DL^, entonces tiene lugar su codificación en la etapa S140. En este caso, así como en las descripciones posteriores del funcionamiento de un codificador, a menos que se especifique lo contrario, la palabra “codificación” significa una o más acciones, o combinación de las mismas, que hacen del elemento V⁰⁰parte del descriptor de imágenes local, incluyendo dichas acciones, a modo de ejemplo y sin limitación, el cálculo según la función de transformada apropiada de (1) o (2) indicadas anteriormente, la selección del elemento para su inclusión en el descriptor de imágenes local en el caso de que todos los elementos se calculen previamente sin saber qué elementos se usarán finalmente en el descriptor, la cuantificación del valor del elemento, el almacenamiento del elemento en la memoria volátil o no volátil y la transmisión del elemento a lo largo de un canal de transmisión. Después de la etapa S140, o si se decidió que el elemento no está en uso para la longitud de descriptor DL^ en la etapa S130, el procesamiento avanza a la etapa S150. En la etapa S150, si el elemento actual no es el último elemento del subdescriptor, el procesamiento avanza al siguiente elemento del subdescriptor; en caso contrario, el procesamiento avanza a la etapa S160. En la etapa S160, si el subdescriptor actual no es el último subdescriptor del descriptor de imágenes local, el procesamiento avanza al siguiente subdescriptor del descriptor de imágenes local, en caso contrario el procesamiento finaliza. Por tanto, está claro que las etapas S100, S120, S150 y S160 se refieren al orden en que se realiza el procesamiento, mientras que las etapas S110, S130 y S140 se refieren a la codificación real del descriptor de imágenes local.

Otro método de codificación directo de este descriptor comprende calcular y codificar los elementos en un orden “por elemento”, es decir, en el caso general como v^o, ⁰, V¹,ü, ..., V^15,0,V^0,1,v-^{i , 1 ,}..., v ^{i5 , 1 ,}..., v^{o 7}, V¹,⁷,..., V¹⁵,⁷es decir, elemento de codificación vo para los subdescriptores v^o, V^1,...,V¹⁵, luego el elemento de codificación V¹para los subdescriptores v^o, V¹,..., V¹⁵, etc., nuevamente usando las transformadas apropiadas, por ejemplo, tal como se ilustra en la figura 3, y también usando los conjuntos de utilización de elementos apropiados para la longitud de descriptor deseada, por ejemplo, tal como se ilustra en la figura 4, para decidir qué elementos deben codificarse. Un codificador de este tipo puede funcionar de manera análoga al codificador de la figura 5, con la reordenación apropiada de las etapas. En general, ninguno de los dos métodos mencionados anteriormente ofrece una ventaja con respecto al otro método. Para los fines de transcodificación, decodificación y procesamiento, el decodificador también debe conocer el proceso de codificación y los conjuntos de ordenación y utilización de elementos para poder procesar y comparar descriptores, posiblemente de diferentes longitudes, para los fines de las aplicaciones de visión por ordenador relacionadas. Por tanto, los conjuntos de utilización de elementos o bien deben fijarse de manera permanente o bien almacenarse/transmitirse junto con los descriptores. En este contexto, el proceso de codificación directo es desventajoso.

Más específicamente, una codificación de este tipo ignora la importancia relativa entre diferentes elementos en el orden de codificación. En consecuencia, en lo que se refiere a la transcodificación, mediante la cual un descriptor de una longitud de descriptor dada se convierte en un descriptor de una longitud de descriptor diferente, o en lo que se refiere a la decodificación y comparación de descriptores de diferentes longitudes comparando elementos correspondientes entre los dos descriptores, tal codificación necesita análisis de los descriptores para lograr el resultado deseado.

Además, tal codificación ignora los patrones de redundancia en la importancia relativa entre diferentes elementos y es innecesariamente compleja en lo que respecta a decidir si deben codificarse o no elementos específicos.

Por tanto un objeto de la presente invención es divulgar un método para codificar un descriptor de imágenes basándose en un histograma de gradientes, y un aparato de procesamiento de imágenes relativo, que sea más eficaz con respecto a los métodos de la técnica anterior.

Un objeto adicional de la presente invención es divulgar un método para codificar un descriptor de imágenes basándose en un histograma de gradientes, y un aparato de procesamiento de imágenes relativo, que sea más flexible.

Un objeto adicional de la presente invención es divulgar un método para codificar un descriptor de imágenes basándose en un histograma de gradientes, y un aparato de procesamiento de imágenes relativo, que permita lograr una implementación de codificador optimizada.

Un objeto adicional de la presente invención es divulgar un método para codificar un descriptor de imágenes basándose en un histograma de gradientes, y un aparato de procesamiento de imágenes relativo, que permita obtener descriptores de imágenes de cualquier longitud.

Estos y otros objetos de la invención se logran a través de un método para codificar un descriptor de imágenes basándose en un histograma de gradientes, y un aparato de procesamiento de imágenes relativo, tal como se reivindica en las reivindicaciones adjuntas, que constituyen una parte integral de la presente descripción.

Brevemente, se divulga un método para codificar eficazmente descriptores de imágenes tales como los descritos anteriormente codificándolos según un orden de utilización de elementos, lo que da como resultado descriptores escalables que pueden convertirse en longitudes de descriptor más bajas mediante el simple truncamiento del descriptor en lugar de análisis.

La codificación se lleva a cabo según grupos de subdescriptores, formados según los patrones de redundancia en la importancia relativa entre los elementos correspondientes de dichos grupos de subdescriptores.

Más específicamente, dicha agrupación se realiza agrupando subdescriptores cuyos elementos correspondientes tienen una importancia similar en una ordenación de todos los elementos del descriptor según su importancia relativa en lo que se refiere a lograr un alto rendimiento de reconocimiento, más específicamente agrupando subdescriptores según su distancia desde el centro del descriptor y, adicionalmente, agrupando subdescriptores según la distancia entre ellos y/u ordenando los subdescriptores de un grupo según las características de codificación correspondientes y/u adicionalmente ordenando los subdescriptores de un grupo según la distancia entre ellos.

El método de codificación según la invención es ventajosamente más eficaz que los de la técnica anterior en lo que se refiere a eficacia, complejidad computacional y/o la cantidad de información necesaria para generar flujos de bits escalables.

Características adicionales de la invención se exponen en las reivindicaciones adjuntas, que pretenden ser una parte integral de la presente descripción.

Los objetos anteriores resultarán más evidentes a partir de la siguiente descripción detallada del método para codificar un descriptor de imágenes basándose en un histograma de gradientes, y un aparato de procesamiento de imágenes relativo, con referencia particular a los dibujos adjuntos, en los que:

- las figuras 1a y 1b muestran un ejemplo de un descriptor de puntos clave de la técnica anterior;

- las figuras 2a y 2b muestran histogramas de gradientes del descriptor de puntos clave de la figura 1 y valores de compartimento relacionados con uno de dichos histogramas de gradientes, respectivamente;

- la figura 3 muestra transformadas a modo de ejemplo que van a aplicarse a los histogramas de gradientes de la figura 2;

- las figuras 4a-4e muestran conjuntos de elementos a modo de ejemplo para cinco longitudes de descriptor objetivo respectivas;

- la figura 5 representa un diagrama de flujo que ilustra el funcionamiento de un codificador que usa los conjuntos de elementos de la figura 4;

- la figura 6 muestra un orden de utilización de elementos usado por un método según la presente invención;

- la figura 7 ilustra el funcionamiento de un codificador que usa el orden de utilización de elementos de la figura 6; - la figura 8 muestra los centros de una región y de una subregión de un descriptor de imágenes local;

- la figura 9 muestra una primera agrupación de subdescriptores de un descriptor de imágenes local según una primera realización o una cuarta realización de un método según la invención;

- las figuras 12 y 14 muestran las agrupaciones a modo de ejemplo segunda y tercera, respectivamente, de subdescriptores de un descriptor de imágenes local según la primera realización de un método según la invención; - las figuras 10, 13 y 15 muestran órdenes de utilización de elementos de los grupos primero, segundo y tercero en relación con las agrupaciones de la figuras 9, 12, 14 y 17, respectivamente;

- la figura 11 ilustra el funcionamiento de un codificador según una primera, una segunda o una cuarta realización de un método según la invención;

- la figura 16 muestra una cuarta agrupación a modo de ejemplo según una primera realización de un método según la invención;

- la figura 17 muestra una quinta agrupación a modo de ejemplo de subdescriptores de un descriptor de imágenes local según la segunda y la tercera realización de un método según la invención;

- la figura 18 ilustra el funcionamiento de un codificador que usa el orden de utilización de elementos de la figura 17, según la tercera realización de un método según la invención;

- la figura 19 ilustra el funcionamiento de un codificador según una cuarta realización de un método según la invención;

- la figura 20 muestra una agrupación a modo de ejemplo de subdescriptores de un descriptor de imágenes local según una quinta realización de un método según la invención;

- las figuras 21a-21e muestran conjuntos de elementos a modo de ejemplo según la agrupación de la figura 20; - las figuras 22a-22e muestran los conjuntos de elementos de la figuras 21a-21e, respectivamente, cuando se convierten en conjuntos de utilización de elementos de grupo;

- la figura 23 ilustra el funcionamiento de un codificador para la codificación de un descriptor para proporcionar los conjuntos de elementos convertidos de la figuras 22a-22e;

- la figura 24 ilustra un dispositivo de procesamiento de imágenes adecuado para llevar a cabo el método según la presente invención.

Según la invención, en lugar de codificar según los conjuntos de utilización de elementos para diferentes longitudes de descriptor, un codificador más eficaz puede funcionar según un orden de utilización de elementos, produciendo un descriptor cuyos elementos se ordenan según el orden de utilización de elementos y que pueden convertirse en longitudes de descriptor más bajas mediante el simple truncamiento del descriptor. Tal orden de utilización de elementos puede adoptar la forma de una lista ordenada de 128 elementos, que puede codificarse en 112 bytes, especificando cada entrada de lista un índice de subdescriptor y un índice de elemento, tal como se ilustra en la figura 6. Por tanto, por ejemplo, la figura 6 muestra una lista de prioridad de elementos mediante la cual al elemento V^5,0se le da la prioridad más alta, al elemento vg,o se le da la segunda prioridad más alta, etc. Por tanto, un codificador de orden de utilización de elementos de este tipo puede producir un descriptor de longitud l codificando los l elementos superiores en la lista.

La figura 7 ilustra el funcionamiento de un codificador de este tipo que usa el orden de utilización de elementos de la figura 6. Con el codificador de la figura 7, la codificación del descriptor comienza con el elemento con la máxima prioridad (prioridad 1) en el orden de utilización de elementos, es decir, el elemento vo del subdescriptor v⁵. En la etapa S200, se selecciona la transformada apropiada según el subdescriptor al que pertenece este elemento, por ejemplo, según la utilización de transformadas de la figura 3. Cabe señalar que el cálculo del descriptor V a partir del descriptor H según dos transformadas diferentes tal como se describe en este caso es sólo un ejemplo. En diferentes realizaciones, el cálculo del descriptor V a partir del descriptor H también puede realizarse según una sola transformada, por ejemplo, sólo la transformada A o sólo la transformada B, haciendo innecesaria la etapa S200, o según más de dos transformadas. Entonces, tiene lugar la codificación del elemento, es decir V⁵,o, en la etapa S210. Luego, en la etapa S220, si un número deseado de l elementos del descriptor aún no se han codificado, el procesamiento avanza al elemento con la siguiente prioridad más alta en el orden de utilización de elementos; en caso contrario, el procesamiento finaliza. Por tanto, la etapa S220 se refiere al control de cuántos elementos codificar, mientras que las etapas S200 y S210 se refieren a la codificación real del descriptor de imágenes local. Por tanto, el codificador de la figura 7, usando un orden de utilización de elementos tal como en la figura 6, produce descriptores cuyos elementos se ordenan según el orden de utilización de elementos y que pueden convertirse en longitudes de descriptor más bajas mediante el simple truncamiento del descriptor, es decir, eliminando los últimos elementos del descriptor, y es más flexible que el codificador de la figura 5, que usa conjuntos de utilización de elementos como en la figura 4.

La cantidad de elementos l en el descriptor puede almacenarse/transmitirse junto con el descriptor, posiblemente a nivel de imagen. Para los fines de transcodificación, decodificación y procesamiento, el decodificador también debe conocer el orden de los elementos para poder procesar para los fines de las aplicaciones de visión por ordenador relacionadas. Por tanto, el orden de utilización de elementos o bien debe fijarse de manera permanente o bien almacenarse/transmitirse junto con los descriptores.

En la práctica, sin embargo, la eficacia del codificador de la figura 7 puede mejorarse. Esto se debe a que el orden de utilización de elementos ilustrado en la figura 6 contiene una cantidad significativa de redundancia y, en cierta medida, no resulta práctico de generar y usar.

La razón de esto es que el conjunto completo de 128 elementos de V no corresponde a un solo descriptor cuyos elementos pueden ordenarse según una lista de prioridad única, sino a 16 subdescriptores de 8 elementos diferentes, extraído cada subdescriptor de un histograma de gradientes diferente según una transformada específica y de modo que los elementos correspondientes entre todos los subdescriptores capturen la relación entre compartimentos con la misma separación angular.

Por tanto, se ha encontrado que, en lo que se refiere a lograr un alto rendimiento de reconocimiento con un conjunto de elementos limitado, un descriptor necesita encontrar un equilibrio entre una distribución de elementos uniforme, es decir, seleccionando el/los elemento(s) de tantos subdescriptores como sea posible, y la distancia desde el centro del descriptor, es decir, dando mayor prioridad a los subdescriptores que están más cerca del centro del descriptor. Al mismo tiempo, también se ha encontrado que la importancia de elementos correspondientes de diferentes subdescriptores es aproximadamente la misma cuando la distancia de los subdescriptores al centro del descriptor es la misma, mientras que la importancia de elementos correspondientes de diferentes subdescriptores aumenta cuando disminuye la distancia de los subdescriptores al centro del descriptor.

En este contexto, la distancia de un subdescriptor v al centro del descriptor se refiere a la distancia entre el centro de la subregión que corresponde al histograma de gradientes h que da lugar al subdescriptor v y el centro de la región que comprende las subregiones, tal como se ilustra en la figura 8. Aunque es posible referirse nuevamente a las dimensiones de la región y las subregiones de la imagen para calcular dichas distancias, no es necesario ya que sólo interesa comparar dichas distancias. Por tanto, dichas distancias pueden calcularse suponiendo que cada lado de cada subregión tiene, por ejemplo, una longitud unitaria. Además, en esta descripción, dichas distancias son distancias euclidianas, aunque también pueden usarse otras medidas de distancia adecuadas.

En consecuencia, se observa que, para los fines de la codificación eficaz de un descriptor de imágenes, sus subdescriptores pueden agruparse de modo que a elementos de descriptor correspondientes para los subdescriptores de cada grupo se les asigne una importancia común en el orden de utilización y se codifiquen conjuntamente.

Primera realización

En una primera realización de la invención, los subdescriptores se agrupan según su distancia desde el centro del descriptor.

Por ejemplo, uno de tales agrupamientos se ilustra en la figura 9, donde hay tres grupos, concretamente g⁰= {v⁰, v^3,v^12,v¹⁵}, que contiene los subdescriptores con la mayor distancia al centro del descriptor, g¹= {v^{i ,}v^2,v^{4 ,}v^{7 ,}v⁸, v ^{i i ,}v ^{i3, v-m}}, que contiene los subdescriptores con la segunda mayor distancia al centro del descriptor, y g²= {V^5,v^a,v^g,v ^io}, que contiene los subdescriptores con la menor distancia al centro del descriptor. Dentro de cada grupo, los subdescriptores se ordenan en orden de índice de subdescriptor ascendente, aunque esto no es restrictivo y pueden usarse otros órdenes, tal como en sentido horario, comenzando por el subdescriptor más a la izquierda superior del grupo. Dentro de cada grupo, a todos los elementos correspondientes de los subdescriptores del grupo se les asigna la misma prioridad de codificación.

Basándose en esta agrupación, puede generarse un orden de utilización de elementos de grupo, que puede adoptar la forma de una lista ordenada de 24 elementos, que puede codificarse en 15 bytes, especificando cada entrada de lista un grupo de subdescriptores y un índice de elemento, tal como se ilustra en la figura 10. Cabe señalar que el orden de utilización de elementos de grupo de la figura 10 es simplemente un ejemplo, y pueden generarse diferentes órdenes de utilización de elementos de grupo cambiando las prioridades de las entradas en la lista. Por tanto, el orden de utilización de elementos de grupo de la figura 10 es mucho más económico que el orden de utilización de elementos de la figura 6, en lo que se refiere a la longitud y el tamaño de codificación. Por tanto, por ejemplo, la figura 10 muestra una lista de prioridades de elementos de grupo mediante la cual al elemento vo del grupo g²se le da la prioridad más alta, indicando al codificador que los primeros cuatro elementos para codificar son V^5,0,v^a,0,v^g,0y V^100,al elemento vo del grupo gⁱse le da la segunda prioridad más alta, indicando al codificador que los siguientes ocho elementos para codificar son v^{i , 0,}V^2,0,V^4,0,V^7,0,v^{& 0,}v ^-1,0,v^{i3 ,0}y v ^-4,⁰, etc.

La figura 11 ilustra el funcionamiento de un codificador de este tipo que usa el orden de utilización de elementos de grupo de la figura 10 y configurado para codificar los m grupos superiores de elementos en dicho orden de utilización de elementos de grupo. Con el codificador de la figura 11, la codificación del descriptor comienza con el grupo de elementos con la máxima prioridad (prioridad 1) en el orden de utilización de elementos de grupo, es decir, el elemento V⁰del grupo g²que comprende los subdescriptores v^5,v^a,v^g,y v ⁱ⁰. En la etapa S300, la codificación del descriptor comienza en el primer subdescriptor del grupo, es decir, v⁵. En la etapa S310, se selecciona la transformada apropiada para el subdescriptor, por ejemplo, según la utilización de transformadas de la figura 3. Cabe señalar que el cálculo del descriptor V a partir del descriptor H según dos transformadas diferentes tal como se describe en este caso es sólo un ejemplo. En diferentes realizaciones, el cálculo del descriptor V a partir del descriptor H también puede realizarse según una sola transformada, por ejemplo sólo la transformada A o sólo la transformada B, haciendo innecesaria la etapa S310, o según más de dos transformadas. Entonces, tiene lugar la codificación del elemento, es decir v ^5,0,en la etapa S320. En la etapa S330, si el subdescriptor actual no es el último subdescriptor en el grupo, el procesamiento avanza al siguiente subdescriptor, en caso contrario el procesamiento avanza a la etapa S340. Entonces, en la etapa S340, si aún no se ha codificado el número deseado de m grupos de elementos, el procesamiento avanza al grupo de elementos con la siguiente prioridad más alta en el orden de utilización de elementos de grupo, en caso contrario el procesamiento finaliza. Por tanto, las etapas S300, S330 y S340 se refieren al orden en que se realiza el procesamiento y al control de cuántos grupos de elementos codificar, mientras que las etapas S310 y S320 se refieren a la codificación real del descriptor de imágenes local.

El número de grupos m o el número correspondiente de elementos en el descriptor puede almacenarse/transmitirse junto con el descriptor, posiblemente a nivel de imagen.

El hecho de que el orden de utilización de elementos de grupo de la figura 10 sea más económico que el orden de utilización de elementos de la figura 6 da como resultado un codificador más eficaz y económico. Además, tal como se observó anteriormente, para los fines de transcodificación, decodificación y procesamiento, el decodificador también debe conocer el proceso de codificación y el orden de utilización de elementos para poder procesar y comparar descriptores para los fines de las aplicaciones de visión por ordenador relacionadas, lo que significa que el orden de utilización de elementos o bien debe fijarse o bien transmitirse junto con los descriptores. Es posible que diferentes aplicaciones necesiten cambiar el orden de utilización de elementos, posiblemente a nivel de imagen o subimagen, por ejemplo, dando mayor prioridad a los subdescriptores más próximos al centro del descriptor, o dando mayor prioridad a una clase específica de elemento, por ejemplo V⁷en contraposición a V^2,para lograr un alto rendimiento de reconocimiento con un conjunto de elementos limitado. En este caso, el orden de utilización de elementos debe almacenarse o transmitirse junto con los descriptores. Teniendo en cuenta que los descriptores de baja tasa de bits normalmente tienen un tamaño de pocos cientos de bytes, el orden de utilización de elementos de grupo de la figura 10 representa una sobrecarga mucho menor que el orden de utilización de elementos de la figura 6. Además, la agrupación de subdescriptores puede ser fija y conocida tanto por el codificador como por el decodificador, o pueden transmitirse junto con los descriptores. Por ejemplo, para la agrupación considerada hasta ahora, el número de grupos y el tamaño de la composición de cada grupo pueden codificarse en menos de 10 bytes. Como otro ejemplo según una primera realización de la invención, se ilustra una agrupación diferente en la figura 12, donde hay dos grupos, concretamente g⁰= {v⁰, v ⁱ, v², v^3,v⁴, v^{7 ,}v⁸, v ^{i i}, v ^{i 2}, v ⁱ³, v^i4,v¹⁵}^,que contiene todos los subdescriptores periféricos, y gⁱ= {v⁵, v^a, v^g, v ⁱ⁰}^,que contiene los subdescriptores con la menor distancia al centro del descriptor, es decir, todos los subdescriptores centrales. Por tanto, con este ejemplo, el grupo gⁱcontiene subdescriptores de diversas distancias al centro del descriptor, pero siempre más lejos del centro que los subdescriptores del grupo g⁰. Dentro de cada grupo, a todos los elementos correspondientes de los subdescriptores del grupo se les asigna la misma prioridad de codificación. Basándose en esta agrupación, puede generarse un orden de utilización de elementos de grupo, que puede adoptar la forma de una lista ordenada de 16 elementos, que puede codificarse en 8 bytes, especificando cada entrada de lista un grupo de subdescriptores y un índice de elemento, tal como se ilustra en la figura 13. El codificador de la figura 11 puede usarse entonces de nuevo para codificar un descriptor según el orden de utilización de elementos de grupo de la figura 13. Cabe señalar que el orden de utilización de elementos de grupo de la figura 13 es simplemente un ejemplo, y pueden generarse diferentes órdenes de utilización de elementos de grupo cambiando las prioridades de las entradas en la lista.

Como otro ejemplo según una primera realización de la invención, se ilustra una agrupación diferente en la figura 14, donde hay cuatro grupos, concretamente g⁰= {v⁰, v³, v ^{i 2}, v ⁱ⁵}, que contiene los subdescriptores con la mayor distancia al centro del descriptor, gⁱ= {vⁱ, v², v⁴, v⁷}, que contiene un conjunto de cuatro subdescriptores con la segunda mayor distancia al centro del descriptor, g²= {v⁸, v ^{i i}, v ⁱ³, v ⁱ⁴}, que contiene un conjunto de cuatro subdescriptores diferentes de nuevo con la segunda mayor distancia al centro del descriptor, y g³= {v⁵, v^a, v^g, v ⁱ⁰}, que contiene los subdescriptores con la menor distancia al centro del descriptor. Por tanto, con este ejemplo, los subdescriptores de los grupos gⁱy g²están a la misma distancia del centro del descriptor. Esta agrupación se obtiene a partir de la agrupación de la figura 9 subdividiendo el grupo original gⁱen los nuevos grupos gⁱy g². La ventaja de esto es que da como resultado grupos con el mismo número de subdescriptores, lo que es deseable en implementaciones de codificador optimizadas. Dentro de cada grupo, a todos los elementos correspondientes de los subdescriptores del grupo se les asigna la misma prioridad de codificación. Basándose en esta agrupación, puede generarse un orden de utilización de elementos de grupo, que puede adoptar la forma de una lista ordenada de 32 elementos, que puede codificarse en 20 bytes, especificando cada entrada de lista un grupo de subdescriptores y un índice de elemento, tal como se ilustra en la figura 15. El codificador de la figura 11 puede usarse entonces de nuevo para codificar un descriptor según el orden de utilización de elementos de grupo de la figura 15. Cabe señalar que el orden de utilización de elementos de grupo de la figura 15 es simplemente un ejemplo, y pueden generarse diferentes órdenes de utilización de elementos de grupo cambiando las prioridades de las entradas en la lista.

Claramente, la agrupación de la figura 14 en cuatro grupos no es única. Por ejemplo, en la figura 16 se muestra una agrupación alternativa, que contiene los grupos g⁰= {v⁰, v^{3 ,}v^{i 2}, v ⁱ⁵}^,gⁱ= {v^{i ,}v², v^{i3 ,}v ⁱ⁴}^,g²= {v⁴, v⁷, v⁸, v ^{i i}}, y g³= {v^{5 ,}v^a, v^g, v ⁱ⁰}. Por tanto, en la figura 16, los grupos g⁰y g³son idénticos a los de la figura 14, pero los subdescriptores de g¹y g²se han intercambiado en comparación con la figura 14 de modo que cada uno de esos dos grupos contiene un subdescriptor de la parte superior izquierda, la parte superior derecha, la parte inferior izquierda y la parte inferior derecha de la cuadrícula de subdescriptores.

Una diferencia entre el codificador de la figura 7 y el codificador de la figura 11 es que, a diferencia del primero que produce descriptores de cualquier longitud, el segundo permite la codificación de descriptores cuya longitud tiene una granularidad decidida por los grupos de subdescriptores. En la práctica, el segundo puede estar configurado para producir descriptores de cualquier longitud, tal como se demostrará más adelante.

Segunda realización

En una segunda realización de la invención, los subdescriptores se agrupan en primer lugar según su distancia desde el centro (primera condición) y en segundo lugar según sus distancias recíprocas (segundo condición).

En este contexto, la distancia entre subdescriptores puede adoptar de nuevo la forma de una distancia euclidiana u otras medidas de distancia adecuadas, tales como la distancia de Manhattan.

La segunda condición puede ser, por ejemplo, que un grupo no contenga subdescriptores cuya distancia entre sí esté por debajo de un umbral predeterminado. Por tanto, puede establecerse el umbral predeterminado para evitar, por ejemplo, la agrupación de subdescriptores vecinos.

El objetivo de la condición secundaria es garantizar que los subdescriptores de los diferentes grupos, siempre que sea posible, se extraigan de posiciones relativamente distantes de la cuadrícula de subdescriptores, aumentando de ese modo el contenido de información de los descriptores de muy pocos números de características. Cabe señalar que la condición secundaria no siempre se satisface, por ejemplo no es posible satisfacerla para un grupo que contiene todos los subdescriptores centrales V⁵, v^a, v^gy v ^io.

Por ejemplo, una agrupación de este tipo se ilustra en la figura 17, donde hay cuatro grupos, concretamente g⁰= {v⁰, v^3,v^12,v¹⁵}^,que contiene los subdescriptores con la mayor distancia al centro del descriptor, g¹= {v ^i,v^{7 ,}v⁸, v¹⁴}, que contiene un conjunto de cuatro subdescriptores con la segunda mayor distancia al centro del descriptor, g²= {V², V^4,v ^{i i}, V¹³}, que contiene un conjunto de cuatro subdescriptores diferentes de nuevo con la segunda mayor distancia al centro del descriptor, y g³= {v^5,v^a,v^g,v^io}, que contiene los subdescriptores con la menor distancia al centro del descriptor. Por tanto, con este ejemplo, los subdescriptores de los grupos g^o, gⁱy g²satisfacen la condición de que no contienen subdescriptores vecinos. Dentro de cada grupo, a todos los elementos correspondientes de los subdescriptores del grupo se les asigna la misma prioridad de codificación. Basándose en esta agrupación, puede generarse un orden de utilización de elementos de grupo tal como el ilustrado en la figura 15, y puede usarse entonces de nuevo un codificador tal como el ilustrado en la figura 11 para codificar un descriptor según el orden de utilización de elementos de grupo de la figura 15.

Claramente, también pueden emplearse condiciones alternativas basándose en la distancia de subdescriptores dentro de un grupo, tal como maximizando la distancia total entre subdescriptores, etc.

Tercera realización

En una tercera realización de la invención, los subdescriptores se agrupan según su distancia desde el centro y los subdescriptores de cada grupo se codifican en una secuencia definida según sus características de codificación correspondientes, tal como sus transformadas correspondientes.

Por ejemplo, considerando la agrupación de la figura 17 de la segunda realización de la invención conjuntamente con el patrón de despliegue de transformadas de la figura 3, puede observarse que, dentro de cada grupo, se transforman dos subdescriptores según la transformada A y se transforman dos subdescriptores según la transformada B. Por tanto, es posible establecer una condición de secuencia de codificación común en que, para cada grupo, la secuencia de utilización de transformadas debe ser “A A B B”, es decir, una secuencia de codificación mediante la cual, para cada grupo de subdescriptores, la transformada del primer subdescriptor en el grupo es la transformada A, la transformada del segundo subdescriptor en el grupo también es la transformada A, la transformada del tercer subdescriptor en el grupo es la transformada B, y la transformada del cuarto subdescriptor en el grupo también es la transformada B. Por tanto, hay grupos g^o= {v^o, v¹⁵, v^3,v¹²}, que contiene los subdescriptores con la mayor distancia al centro del descriptor, g¹= {v⁷, v⁸, v¹, v¹⁴}^,que contiene un conjunto de cuatro subdescriptores con la segunda mayor distancia al centro del descriptor, g²= {v², v^13,v^4,vⁿ}, que contiene un conjunto de cuatro subdescriptores diferentes de nuevo con la segunda mayor distancia al centro del descriptor, y g³= {v^5,v^1o, v^a, v^g}, que contiene los subdescriptores con la menor distancia al centro del descriptor. Dentro de cada grupo, a todos los elementos correspondientes de los subdescriptores del grupo se les asigna la misma prioridad de codificación. Además, dentro de cada grupo, la información de utilización de transformada para los cuatro subdescriptores en el grupo siempre es “A A B B”, lo que significa que una implementación de codificador eficaz no necesita identificar la transformada aplicable de cada subdescriptor.

La figura 18 ilustra el funcionamiento de un codificador de este tipo que usa el orden de utilización de elementos de grupo de la figura 15 y que está configurado para codificar los m grupos de elementos superiores en dicho orden de utilización de elementos de grupo. Con el codificador de la figura 18, la codificación del descriptor comienza con el grupo de elementos con la máxima prioridad (prioridad 1) en el orden de utilización de elementos de grupo, es decir el elemento v^odel grupo g³que comprende los subdescriptores v⁵, v^1o, v^ay v^g. En la etapa S4oo, la codificación del descriptor comienza en el primer subdescriptor del grupo, es decir v⁵. Dado que todos los grupos tienen un orden de utilización de transformada común y fijo, el procesamiento avanza a la etapa S41o donde tiene lugar la codificación del elemento, es decir V^5,o. En la etapa S42o, si el subdescriptor actual no es el último subdescriptor en el grupo, el procesamiento avanza al siguiente subdescriptor, en caso contrario el procesamiento avanza a la etapa S43o. Entonces, en la etapa S43o, si aún no se ha codificado el número deseado de m grupos de elementos, el procesamiento avanza al grupo de elementos con la siguiente prioridad más alta en el orden de utilización de elementos de grupo, en caso contrario el procesamiento finaliza. Por tanto, las etapas S4oo, S42o y S43o se refieren al orden en que se realiza el procesamiento y al control de cuántos grupos de elementos codificar, mientras que sólo la etapa S41o se refiere a la codificación real del descriptor de imágenes local.

En la descripción anterior, la condición de secuencia de codificación común se define en las transformadas que se utilizan dentro de cada grupo, pero esta condición también puede definirse en otras características de codificación, tales como el tipo y nivel de cuantificación, o combinaciones de los mismos.

Claramente, si se requiere, pueden aplicarse diferentes condiciones de secuencia de codificación a diferentes grupos de subdescriptores. Por ejemplo, en la primera realización de la invención, la agrupación según la figura 9 da como resultado tres grupos, concretamente g^o, que contiene los cuatro subdescriptores con la mayor distancia al centro del descriptor, g¹, que contiene los ocho subdescriptores con la segunda mayor distancia al centro del descriptor, y g², que contiene los cuatro subdescriptores con la menor distancia al centro del descriptor. En este caso, debido al diferente tamaño del grupo, puede aplicarse a los grupos g^oy g²una condición de secuencia de

1 ^o

codificación de que la secuencia de utilización de transformada debe ser “A A B B”, y puede aplicarse al grupo gi una condición de secuencia de codificación diferente de que la secuencia de utilización de transformada debe ser “A

A A A B B B B”.

Cuarta realización

En una cuarta realización de la invención, los subdescriptores se agrupan según su distancia desde el centro y los subdescriptores de cada grupo se ordenan según su distancias entre ellos.

La condición de ordenación puede ser, por ejemplo, que la distancia entre subdescriptores consecutivos dentro de un grupo no debe estar por debajo de un umbral predeterminado. Por tanto, puede establecerse el umbral predeterminado para evitar, por ejemplo, subdescriptores vecinos consecutivos dentro de un grupo.

Una condición de orden diferente puede ser, por ejemplo, que la distancia entre subdescriptores consecutivos dentro de un grupo se maximice.

Esta ordenación es particularmente útil cuando se emplean grandes grupos de subdescriptores, para reducir el tamaño del orden de utilización de elementos de grupo y la codificación de grupo parcial, tal como se explica a continuación. Cabe señalar que este tipo de ordenación no siempre es posible, por ejemplo no es posible no tener descriptores vecinos consecutivos para un grupo que contiene todos los subdescriptores centrales v⁵, v^a, v^gy v™.

Por ejemplo, considerando la agrupación ilustrada en la figura 9, puede observarse que los subdescriptores dentro de cada grupo pueden ordenarse para maximizar la distancia entre subdescriptores consecutivos, comenzando desde el subdescriptor con el índice más bajo dentro del grupo, dando como resultado los grupos g^o= {v^o, v ⁱ⁵, v ^3,v ⁱ²}, gⁱ= {vⁱ, v ⁱ⁴, v², v ^i3,v7, v8, v ^{i i}, v⁴} y g²= {v⁵, v ^io, v^a, v^g}. Dentro de cada grupo, a todos los elementos correspondientes de los subdescriptores del grupo se les asigna la misma prioridad de codificación.

Basándose en esta agrupación y ordenación de subdescriptores dentro de cada grupo, puede generarse un orden de utilización de elementos de grupo tal como el ilustrado en la figura 10, y puede usarse entonces de nuevo un codificador tal como el ilustrado en la figura 11 para codificar un descriptor según el orden de utilización de elementos de grupo de la figura 10. Alternativamente, puede emplearse un codificador tal como el ilustrado en la figura 19.

Más específicamente, una diferencia entre el codificador de la figura 7 y los codificadores de la figura 11 y la figura

18 es que, a diferencia del primero que produce descriptores de cualquier longitud, el segundo permite la codificación de descriptores cuya longitud tiene una granularidad decidida por los grupos de subdescriptores. En la práctica, sin embargo, cada uno de los codificadores de las figuras 11 y 18 puede configurarse fácilmente para codificar descriptores de cualquier longitud mediante la codificación parcial del último grupo de elementos cuando se ha alcanzado la longitud de descriptor deseada. En este contexto, la figura 19 muestra una modificación de este tipo del codificador de la figura 11. En esencia, el codificador de la figura 19 se obtiene intercambiando simplemente las etapas S330 y S340 del codificador de la figura 11, permitiendo que el codificador de la figura 19 termine la codificación de un grupo en cuando se ha codificado el número deseado de elementos. Claramente, también puede aplicarse una modificación análoga al codificador de la figura 18.

En este contexto, la ordenación de los subdescriptores dentro de un grupo según las distancias entre ellos es sumamente ventajosa puesto que da como resultado elementos consecutivos que se extraen de posiciones relativamente distantes de la cuadrícula de subdescriptores que, en el caso de la codificación parcial de un grupo, aumenta el contenido de información de los descriptores con escaso número de características.

Quinta realización

Las realizaciones anteriores de la invención demuestran una codificación eficaz de descriptores de imágenes según un orden de utilización de elementos de grupo que resulta de la agrupación de subdescriptores en grupos de subdescriptores basándose en sus distancias desde el centro del descriptor y/o sus distancias entre sí.

En una realización alternativa de la invención, los subdescriptores pueden agruparse de modo que cada subdescriptor dentro de un grupo tenga un conjunto de utilización de elementos idéntico al resto de los subdescriptores dentro de un grupo.

Por ejemplo, considérese la agrupación de la figura 20, donde hay cuatro grupos, concretamente g^o= {v⁵, v^a,v^9,v^1o}^,g¹= {v^1,v⁷, v⁸, v¹⁴}^,g²= {v², v⁴, vⁿ, v¹³} y g³= {v^o, v ^3,v^12,v¹⁵}. Esta es la misma agrupación q con los índices de grupo reasignados (es decir, g^oy g³se han intercambiado) de modo que los grupos con índices más bajos contengan subdescriptores que estén más cerca del centro del descriptor. La combinación de esta agrupación con los conjuntos de utilización de elementos de las figuras 4a a 4e conduce a los conjuntos de utilización de elementos de grupo de las figuras 21a a 21e.

Puesto que el conjunto de elementos utilizados para cada longitud de descriptor debe ser igual que o un subconjunto del conjunto de elementos utilizados para todas las longitudes de descriptor más altas, los conjuntos de utilización de elementos de grupo de las figuras ^{2 1}a a ^{2 1}e pueden convertirse en conjuntos de utilización incrementales de elementos de grupo tal como se ilustra en las figuras ^{2 2}a a ^{2 2}e donde, para cada longitud de descriptor (por ejemplo DL2 de la figura 22c), el conjunto de utilización de elementos correspondiente muestra sólo los elementos adicionales que constituyen el descriptor de dicha longitud de descriptor, en comparación con la longitud de descriptor inmediatamente inferior (por ejemplo DL1 de la figura 22b).

Basándose en los conjuntos de utilización incrementales de elementos de grupo de las figuras 22a a 22e, un codificador puede generar descriptores que pueden convertirse en longitudes de descriptor más bajas mediante el simple truncamiento del descriptor.

La figura 23 ilustra el funcionamiento de un codificador de este tipo para la codificación de un descriptor de longitud DLk. Más específicamente, en la etapa S600, el procesamiento comienza codificando un descriptor de la longitud de descriptor más baja, es decir, DL0. En la etapa S610, la codificación del descriptor DL0 comienza con la codificación del primer grupo de subdescriptores, es decir, g⁰, y en la etapa S620 la codificación del primer grupo de subdescriptores comienza con la codificación del primer elemento, es decir vu En la etapa S630, si el elemento V⁰no está en uso para g⁰en la longitud de descriptor DL0 según los conjuntos de utilización incrementales de elementos de grupo de la figura 22, el procesamiento avanza a la etapa S680, en caso contrario el procesamiento avanza a la etapa S640. En la etapa S640, se selecciona el primer subdescriptor del grupo g⁰, es decir v⁵, y en la etapa S650 se selecciona la función de transformada apropiada, por ejemplo, según la figura 3. Cabe señalar que el cálculo del descriptor V a partir del descriptor H según dos transformadas diferentes tal como se describe en este caso es sólo un ejemplo. En diferentes realizaciones, el cálculo del descriptor V a partir del descriptor H también puede realizarse según una sola transformada, por ejemplo sólo la transformada A o sólo la transformada B, haciendo innecesaria la etapa S650, o según más de dos transformadas. Entonces, tiene lugar la codificación del elemento ^^5,0en la etapa 660. En la etapa S670, si el subdescriptor actual no es el último subdescriptor en el grupo, el procesamiento avanza al siguiente subdescriptor en el grupo; en caso contrario, el procesamiento avanza a la etapa S680. En la etapa S680, si el elemento actual no es el último elemento, es decir V7, el procesamiento avanza al siguiente elemento, en caso contrario el procesamiento avanza a la etapa S690. En la etapa S690, si el grupo de subdescriptores actual no es el último grupo de subdescriptores, el procesamiento avanza al siguiente grupo de subdescriptores, en caso contrario, el procesamiento avanza a la etapa S695. En la etapa S695, si la longitud de subdescriptor actual no es la longitud de subdescriptor objetivo, el procesamiento avanza a la siguiente longitud de subdescriptor, codificando los elementos adicionales especificados por los conjuntos de utilización incrementales de elementos de grupo. En caso contrario, el procesamiento finaliza.

Aunque los aspectos y las realizaciones de la presente invención se presentan en detalle para el cálculo de descriptores de imágenes robustos, discriminativos, escalables y compactos a partir de un descriptor de imágenes SIFT, la invención es aplicable a otros descriptores de imágenes basándose en histogramas de gradientes, tal como se describe en la solicitud de patente italiana aún no publicada n. TO2012A000602.

A modo de ejemplo únicamente, la figura 24 ilustra un aparato de procesamiento de imágenes conceptual para llevar a cabo el método según la presente invención. Más específicamente, el aparato 110 de procesamiento recibe entrada, que puede comprender datos visuales, tales como datos de imagen o vídeo, descriptores calculados previamente basándose en histogramas de gradientes, descriptores compactos calculados previamente según el método de la presente invención, instrucciones de programación o entrada del usuario, desde el aparato ^{1 00 0}de entrada, que puede adoptar la forma de un aparato de entrada de usuario, un lector de medios o un receptor de señales transmitidas. El aparato 110 de procesamiento comprende los bloques de procesamiento principales de una unidad ^{11 1 0}de procesamiento central que controla las operaciones de los otros bloques de procesamiento, una memoria 1120 volátil, una memoria 1130 no volátil, opcionalmente un bloque 1140 extractor de descriptor configurado para generar descriptores basándose en histogramas de gradientes, un bloque 1150 codificador de descriptor compacto configurado para llevar a cabo el método según la presente invención, y opcionalmente un bloque 1160 de procesador de descriptor compacto configurado para procesar dichos descriptores compactos, por ejemplo para establecer o verificar correspondencias visuales. El aparato 110 de procesamiento está conectado al aparato 1900 de salida, que puede adoptar la forma de una unidad de presentación visual, un escritor de medios o un transmisor de señales, que proporciona una salida que puede comprender datos visuales anotados, tales como datos de imagen o vídeo, información de procesamiento tal como correspondencias visuales establecidas o verificadas, o descriptores compactos según el método de la presente invención. Debe entenderse que los bloques de procesamiento y la arquitectura mostrados en la figura 24 son sólo conceptuales y pueden no corresponder exactamente a cada aparato que implementa el método según la invención.

El método para codificar un descriptor de imágenes basándose en un histograma de gradientes y un aparato de procesamiento de imágenes relativo descritos en el presente documento a modo de ejemplo pueden someterse a muchas variaciones posibles sin apartarse del espíritu de novedad de la idea inventiva; también está claro que en la implementación práctica de la invención, los detalles ilustrados pueden tener diferentes formas o pueden reemplazarse por otros elementos técnicamente equivalentes.

Por tanto, puede entenderse fácilmente que la presente invención no se limita a un método para codificar un descriptor de imágenes basándose en un histograma de gradientes y a un aparato de procesamiento de imágenes relativo, sino que pueden someterse a muchas modificaciones, mejoras o reemplazos de partes y elementos equivalentes sin apartarse de la idea inventiva, tal como se especifica claramente en las siguientes reivindicaciones.

Claims

REIVINDICACIONES

i. Método para codificar un descriptor de imágenes (H) basándose en histogramas de gradiente (h^p) que comprenden cada uno una pluralidad de compartimentos de histograma (hi) y que se calculan en una subregión correspondiente (SR) de una región local (R) alrededor de un punto clave de interés de imagen, usando un descriptor transformado (V) que comprende subdescriptores transformados (v^p) para cada subregión (SR) que se calculan como una transformación del histograma de gradiente (h^p) de subregión correspondiente (SR), en el que cada subdescriptor (v^p) comprende un conjunto de valores (vj) individualizado cada uno por un índice de elemento (j), caracterizado porque dicho método comprende: - determinar una pluralidad de grupos (g^x), comprendiendo cada uno un conjunto de subdescriptores transformados (v^p), determinándose el conjunto usando la distancia entre el centro de la subimagen correspondiente (SR) de cada subdescriptor transformado (v^p) y el centro de dicha región local (R), estando cada grupo (g^x) individualizado por un índice de grupo (x);

- usar una lista de utilización de elementos para indicar la secuencia para codificar los valores (v^j) de los elementos de subdescriptores transformados (v^p), especificando la lista de utilización de elementos una secuencia ordenada de entradas de lista, definiendo cada entrada un par de índices que incluyen dicho índice de grupo (x), que indica un conjunto de subdescriptores transformados, y dicho índice de elemento j), y la secuencia truncada en una longitud DLn que define un descriptor que tiene una longitud de DLn elementos que es un subconjunto de un descriptor que tiene una longitud de DLp elementos con DLn < DLp, definido por la secuencia de entradas truncada en una longitud DLp mayor que DLn;

- codificar los valores (v^¡) del descriptor transformado (V) según el orden de la lista de utilización de elementos, comprendiendo la secuencia codificada una secuencia de descriptores transformados de diferentes longitudes (DLO, DL1, DL2, DL3, DL4).
2. Método según la reivindicación 1, en el que dentro de cada grupo de subdescriptores (g^x), a todos los valores correspondientes (v^¡) de un grupo de subdescriptores (g^x) se les asigna una misma prioridad de codificación en dicha lista de utilización de elementos.
3. Método según la reivindicación 1, en el que dichos subdescriptores (v^p) se agrupan en un primer grupo (g^ü) que contiene los subdescriptores correspondientes a subregiones con la mayor distancia central desde el centro de dicha región local (R), un segundo grupo (gⁱ) que contiene un primer conjunto de subdescriptores correspondientes a subregiones con la segunda mayor distancia central al centro de dicha región local (R), un tercer grupo (g²) que contiene un segundo conjunto de subdescriptores correspondientes a subregiones con la segunda mayor distancia central al centro de dicha región local (R), y un cuarto grupo (g³) que contiene los subdescriptores correspondientes a subregiones con la menor distancia central al centro de dicha región local (R).
4. Método según la reivindicación 3, en el que dichos grupos primero, segundo, tercero y cuarto (g⁰, gⁱ, g², g³) contiene el mismo número de subdescriptores.
5. Método según la reivindicación 1, en el que dichos subdescriptores (v^p) se agrupan adicionalmente según las distancias centrales recíprocas de sus subregiones correspondientes y en el que, dentro de cada grupo de subdescriptores (g^x), a todos los valores correspondientes (v¡) de un grupo de subdescriptores (g^x) se les asigna una misma prioridad de codificación en dicha lista de utilización de elementos.
6. Método según la reivindicación 5, en el que dichos subdescriptores (v^p) se agrupan en un primer grupo (g^ que contiene los subdescriptores correspondientes a subregiones con la mayor distancia central desde el centro de dicha región local (R), un segundo grupo (g-ⁱ) que contiene un primer conjunto de subdescriptores correspondientes a subregiones con la segunda mayor distancia central al centro de dicha región local (R), un tercer grupo (g²) que contiene un segundo conjunto de subdescriptores correspondientes a subregiones con la segunda mayor distancia central al centro de dicha región local (R), y un cuarto grupo (g³) que contiene los subdescriptores correspondientes a subregiones con la menor distancia central al centro de dicha región local (R).
7. Método según la reivindicación 1, en el que dichos subdescriptores (v^p) se ordenan según las distancias centrales recíprocas de sus subregiones correspondientes y en el que dentro de cada grupo de subdescriptores (g^x), a todos los valores correspondientes (vj) de un grupo de subdescriptores se les asigna una misma prioridad de codificación en dicha lista de utilización de elementos.
8. Método según la reivindicación 1, en el que los subdescriptores de cada grupo se codifican en una secuencia definida según sus características de codificación correspondientes y en el que, dentro de cada grupo de subdescriptores, a todos los valores correspondientes (^v¡) de un grupo de subdescriptores se les asigna una misma prioridad de codificación en dicha lista de utilización de elementos.
9. Método según la reivindicación 8, en el que dichas características de codificación son transformadas correspondientes.
10. Método según la reivindicación 9, en el que para cada grupo de subdescriptores, la transformada de un primer subdescriptor en el grupo es un primer tipo de transformada (A), la transformada de un segundo subdescriptor en el grupo es dicho primer tipo de transformada (A), la transformada de un tercer subdescriptor en el grupo es un segundo tipo de transformada (B) y la transformada de un cuarto subdescriptor en el grupo es dicho segundo tipo de transformada (B).
11. Método según la reivindicación 8, en el que dichas características de codificación son el tipo y el nivel de cuantificación, o combinaciones de los mismos.
Método según la reivindicación 1, en el que se da mayor prioridad a una clase específica de valores.
Método según la reivindicación 1, en el que se da mayor prioridad a los grupos de subdescriptores más próximos al centro del descriptor.
Método según la reivindicación 1, en el que el número de grupos (m) o el número correspondiente de elementos en el descriptor se almacena o se transmite junto con el descriptor, a nivel de imagen.
15. Método para codificar un descriptor de imágenes (H) según las reivindicaciones 1 a 14, en el que dicho descriptor de imágenes se convierte en un descriptor que tiene una longitud reducida mediante truncamiento de uno o más de los últimos elementos de dicho descriptor.
16. Método para codificar un descriptor de imágenes según la reivindicación 1, en el que dicho descriptor transformado (V) adopta la forma de una secuencia de 20 ó 40 ó 64 u 80 ó 128 elementos.

Aparato de procesamiento de imágenes que comprende medios para llevar a cabo el método según una cualquiera de las reivindicaciones 1 a 16.