ES2924268T3 - Procedimiento, aparato y dispositivo electrónico de recuperación de imágenes - Google Patents

Procedimiento, aparato y dispositivo electrónico de recuperación de imágenes Download PDF

Info

Publication number
ES2924268T3
ES2924268T3 ES18839135T ES18839135T ES2924268T3 ES 2924268 T3 ES2924268 T3 ES 2924268T3 ES 18839135 T ES18839135 T ES 18839135T ES 18839135 T ES18839135 T ES 18839135T ES 2924268 T3 ES2924268 T3 ES 2924268T3
Authority
ES
Spain
Prior art keywords
image
feature
interest
target
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18839135T
Other languages
English (en)
Inventor
Changhuai Chen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Application granted granted Critical
Publication of ES2924268T3 publication Critical patent/ES2924268T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/54Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Abstract

Las realizaciones de la presente solicitud proporcionan un método, dispositivo y dispositivo electrónico de recuperación de imágenes, en el que el método incluye: adquirir una imagen de consulta; determinar una característica objetivo de la imagen de consulta en base a una red neuronal profunda previamente entrenada; en el que la red neuronal profunda se obtiene entrenando según las respectivas imágenes de muestra y características predeterminadas, que pueden formar la característica objetivo, correspondiente a las respectivas imágenes de muestra; obtener características objetivo de una pluralidad de imágenes a recuperar; calcular una similitud entre la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar; determinar una imagen de recuperación correspondiente a la imagen de consulta de la pluralidad de imágenes a recuperar de acuerdo con las similitudes calculadas. El método, el dispositivo y el dispositivo electrónico de recuperación de imágenes proporcionados por las realizaciones de la presente solicitud pueden mejorar la precisión de la recuperación de imágenes. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Procedimiento, aparato y dispositivo electrónico de recuperación de imágenes
SECTOR TÉCNICO
La presente solicitud se refiere al sector técnico del procesamiento de imágenes y el reconocimiento de patrones, y, en particular, a un procedimiento, un aparato y un dispositivo electrónico de recuperación de imágenes.
ESTADO DE LA TÉCNICA ANTERIOR
Con el desarrollo continuo de la tecnología de almacenamiento, del multimedia, de la tecnología de compresión y del ancho de banda de red, cada día se generan miles de imágenes. En el sector técnico del procesamiento de imágenes y el reconocimiento de patrones, un problema importante que se debe abordar urgentemente es cómo encontrar de forma rápida y precisa imágenes deseadas por un usuario desde una gran biblioteca de imágenes. Para recuperar imágenes deseadas por un usuario, en primer lugar, es necesario analizar los requisitos del usuario y, a continuación, encontrar las imágenes deseadas por el usuario desde una biblioteca de imágenes. En los procedimientos de recuperación de imágenes actuales, un sistema de recuperación recibe una imagen de consulta proporcionada por un usuario y, a continuación, extrae una región de interés de la imagen de consulta en función de las instrucciones del usuario, donde la región de interés representa una región que es reconocible y puede reflejar características de la imagen, donde la capacidad de reconocimiento representa la capacidad de distinguir entre diferentes objetivos; a continuación, extrae las características de la región de interés y las características de una región de una imagen correspondiente a la región de interés en la biblioteca de imágenes; y, a continuación, compara las características de la región de interés de la imagen de consulta con la región correspondiente de la imagen en la base de datos, y, finalmente, devuelve un resultado recuperado ordenado según similitudes, y adquiere las imágenes que cumplen los requisitos.
Se puede ver que, en los procedimientos de recuperación de imágenes actuales, la región de interés extraída en función de las instrucciones del usuario es demasiado subjetiva, lo que da lugar a una gran desviación en la determinación de la región de interés, lo que, en última instancia, hace que la precisión de recuperación de imágenes sea baja.
La Patente AU 2016 210 608 A1 se refiere a recuperación de imágenes utilizando una red neuronal entrenada basándose en una consulta de imágenes de muestra para imágenes similares.
La Patente US 2017/206431 A1 se refiere a la clasificación de objetos en imágenes generando un mapa de características convolucionales. El mapa de características convolucionales se puede procesar a través de una Red de propuesta de regiones (RPN, Region Proposal Network) para generar propuestas de objetos candidatos en la imagen.
CARACTERÍSTICAS
El objetivo de las realizaciones de la presente solicitud es dar a conocer un procedimiento, un dispositivo y un dispositivo electrónico de recuperación de imágenes para mejorar la precisión de la recuperación de imágenes. La invención se define mediante las reivindicaciones adjuntas.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
La figura 1 es un diagrama de flujo de un procedimiento de recuperación de imágenes según una realización de la presente solicitud;
la figura 2 es un diagrama de flujo de un procedimiento de recuperación de imágenes según una realización de la presente solicitud;
la figura 3 es un diagrama de flujo para determinar una característica objetivo de imagen con dos redes neuronales profundas según una realización de la presente solicitud;
la figura 4 es un diagrama de flujo de un procedimiento de recuperación de imágenes según una realización de la presente solicitud;
la figura 5 es un diagrama de flujo para determinar una característica objetivo de imagen con una red neuronal profunda según una realización de la presente solicitud;
la figura 6 es un diagrama de flujo de un proceso específico de recuperación de imágenes según una realización de la presente solicitud;
la figura 7 es un diagrama estructural esquemático de un aparato de recuperación de imágenes según una realización de la presente solicitud;
la figura 8 es un diagrama estructural esquemático que un dispositivo electrónico según una realización de la presente solicitud.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN
La figura 1 es un diagrama de flujo de un procedimiento de recuperación de imágenes según una realización de la presente solicitud. Haciendo referencia a la figura 1, se describe en detalle un procedimiento de recuperación de imágenes según una realización de la presente solicitud. El procedimiento incluye:
Etapa 101: adquirir una imagen de consulta.
El procedimiento de recuperación de imágenes según la realización de la presente solicitud se puede aplicar a un dispositivo electrónico. El dispositivo electrónico puede incluir un ordenador de escritorio, un ordenador portátil, un terminal de teléfono inteligente y similares.
En la realización de la presente solicitud, el dispositivo electrónico adquiere una imagen de consulta, es decir, adquiere una imagen objetivo a recuperar, por ejemplo, una imagen que contiene la cara de un gato, etc. Además, la imagen de consulta puede ser cargada manualmente por un usuario o capturada automáticamente por el dispositivo electrónico, siendo todas ellas apropiadas.
Etapa 102: determinar una característica objetivo de la imagen de consulta basándose en una red neuronal profunda entrenada previamente, donde la red neuronal profunda se obtiene por entrenamiento en función de imágenes de muestra y características predeterminadas correspondientes a las imágenes de muestra, que pueden formar la característica objetivo.
En la realización de la presente solicitud, la recuperación de imágenes se consigue comparando la característica objetivo de la imagen de consulta con características correspondientes a imágenes en una biblioteca de imágenes. Por lo tanto, en el proceso de recuperación de imágenes, es muy importante determinar la característica objetivo de la imagen de consulta.
Con el fin de mejorar la precisión de la recuperación de imágenes, el dispositivo electrónico puede entrenar una red neuronal profunda previamente según un cierto número de imágenes de muestra, tal como 100, 500, 1.000 y similares, y características predeterminadas que pueden formar la característica objetivo y corresponden a las imágenes de muestra. La característica objetivo de la imagen de consulta se puede determinar basándose en la red neuronal profunda.
Por lo tanto, en el proceso de recuperación de imágenes, después de que adquiere la imagen de consulta, el dispositivo electrónico puede introducir la imagen de consulta en la red neuronal profunda entrenada previamente y, a continuación, determinar la característica objetivo de la imagen de consulta basándose en la red neuronal profunda entrenada previamente.
Dado que la característica objetivo se puede formar basándose en las características predeterminadas, en una implementación específica, las características predeterminadas requeridas para entrenar una red neuronal profunda pueden ser iguales a la característica objetivo. Por ejemplo, la característica predeterminada es una característica global, y la característica objetivo es una característica global. En otra implementación específica, las características predeterminadas requeridas para entrenar una red neuronal profunda pueden ser diferentes de la característica objetivo, pero la característica objetivo se puede generar con las características predeterminadas. Según la invención, la característica predeterminada es una característica de una región de interés, y la característica objetivo es una característica agregada con características de las regiones de interés. La denominada característica de una región de interés se refiere a una característica de imagen correspondiente a una región de interés que tiene una capacidad de reconocimiento y puede reflejar características de la imagen.
Con el fin de comprender con claridad la solución técnica y la estructura, una implementación específica para determinar una característica objetivo de una imagen de consulta basándose en una red neuronal profunda entrenada previamente se presenta en combinación con realizaciones específicas.
Etapa 103: obtener características objetivo de una pluralidad de imágenes a recuperar.
Con el fin de recuperar una imagen deseada desde un gran número de imágenes en la biblioteca de imágenes, se requiere determinar características de imágenes en la biblioteca de imágenes correspondientes a las características objetivo de la imagen de consulta, es decir, determinar características objetivo de una pluralidad de imágenes a recuperar en la biblioteca de imágenes. Específicamente, las características objetivo almacenadas previamente de una pluralidad de imágenes a recuperar se pueden obtener directamente o se pueden determinar en tiempo real durante el proceso de recuperación de imágenes.
Opcionalmente, en la realización de la presente solicitud, las características objetivo de una pluralidad de imágenes a recuperar que están almacenadas en una base de datos preestablecida se pueden adquirir directamente. Específicamente, las características objetivo de la pluralidad de imágenes a recuperar se extraen previamente, y las características objetivo se almacenan en una base de datos preestablecida. Como resultado, en el proceso de recuperación de imágenes, las características objetivo correspondientes se pueden obtener directamente de la base de datos preestablecida.
Se puede ver que las características objetivo de las imágenes a recuperar se extraen previamente, y, durante el proceso de recuperación de imágenes, las características objetivo de la pluralidad de imágenes a recuperar almacenadas en la base de datos preestablecida se pueden obtener directamente. Las características objetivo de las imágenes a recuperar se pueden almacenar previamente para realizar la extracción fuera de línea de las características objetivo de las imágenes a recuperar. Esto resuelve el problema de un retardo ultralargo en la extracción de las características objetivo de una pluralidad de imágenes a recuperar en tiempo real, con el fin de satisfacer las necesidades de aplicaciones en tiempo real.
Alternativamente, las características objetivo de la pluralidad de imágenes a recuperar también se pueden determinar en línea. En una implementación opcional de la realización de la presente solicitud, las características objetivo de una pluralidad de imágenes a recuperar se pueden determinar basándose en una red neuronal profunda entrenada previamente. Específicamente, el proceso de determinar las características objetivo de una pluralidad de imágenes a recuperar basándose en una red neuronal profunda entrenada previamente es similar al proceso de determinar la característica objetivo de la imagen de consulta basándose en la red neuronal profunda entrenada previamente, y no se repetirá aquí.
Etapa 104: calcular una similitud entre la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar.
Después de determinar las características objetivo de la imagen de consulta y las características objetivo de una pluralidad de imágenes a recuperar, las características objetivo de la imagen de consulta se pueden comparar, respectivamente, con las características objetivo de cada una de las imágenes a recuperar, y se puede determinar una imagen de recuperación correspondiente a la imagen de consulta según el resultado de comparación de las características objetivo.
La medición de similitud de características es un aspecto importante que afecta al rendimiento de la recuperación de imágenes. Por lo tanto, en la realización de la presente solicitud, después de que se determina la característica objetivo de la imagen de consulta y las características objetivo de una pluralidad de imágenes a recuperar, se puede calcular, respectivamente, la similitud entre la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar. Específicamente, en una implementación, la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar se pueden representar por vectores de características, y a continuación se calcula la similitud entre los vectores de características para obtener la similitud de la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar, a lo que no se limita la presente invención.
Etapa 105: determinar una imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar, en función de las similitudes calculadas.
Se calcula la similitud entre la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar, y se determina la imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar según la similitud. Por ejemplo, una imagen de recuperación correspondiente a la imagen de consulta se puede determinar desde las imágenes a recuperar según la similitud en orden descendente.
Se debe observar que, según las similitudes calculadas, hay una pluralidad de implementaciones específicas para determinar una imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar.
Opcionalmente, en una implementación opcional de la realización de la presente solicitud, determinar la imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar, en función de las similitudes calculadas puede incluir:
ordenar las similitudes calculadas, y determinar la imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar en función de los resultados del ordenamiento.
Específicamente, las similitudes calculadas se ordenan de mayor a menor o de menor a mayor, y un número preestablecido de imágenes a recuperar con las similitudes más altas se seleccionan como imágenes de recuperación correspondientes a la imagen de consulta. Por ejemplo, si las similitudes se ordenan de mayor a menor, un número preestablecido de imágenes a recuperar en la parte superior se determinan como las imágenes de recuperación correspondientes a la imagen de consulta; si las similitudes se ordenan de menor a mayor, un número preestablecido de imágenes a recuperar en la parte inferior se determinan como las imágenes recuperadas correspondientes a la imagen de consulta. El número preestablecido puede ser uno, dos, diez o similares.
Opcionalmente, en otra implementación opcional de la realización de la presente solicitud, determinar la imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar según la similitud calculada, puede incluir:
determinar una imagen objetivo a recuperar entre la pluralidad de imágenes a recuperar como la imagen de recuperación correspondiente a la imagen de consulta, donde la imagen objetivo a recuperar es una imagen a recuperar con una similitud mayor que un umbral de similitud predeterminado.
Específicamente, se determina el umbral de similitud, y un número preestablecido de imágenes a recuperar correspondientes a similitudes mayores que el umbral de similitud se seleccionan como las imágenes de recuperación correspondientes a la imagen de consulta. Específicamente, el umbral de similitud se puede determinar según escenarios reales.
El procedimiento de recuperación de imágenes dado a conocer en la realización de la presente solicitud determina una característica objetivo de una imagen de consulta basándose en una red neuronal profunda entrenada previamente; calcula una similitud entre la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar; y, a continuación, determina una imagen de recuperación correspondiente a la imagen de consulta a partir de una pluralidad de imágenes a recuperar basándose en las similitudes calculadas. Se puede ver que el procedimiento de recuperación de imágenes dado a conocer por la realización de la presente solicitud puede determinar las características que reflejan las características de una imagen con precisión, mejorando, por tanto, la precisión de la recuperación de imágenes.
Se debe observar que, durante el proceso de recuperación de imágenes, el usuario puede elegir llevar a cabo la recuperación con una región de interés o una recuperación global. Específicamente, el proceso de recuperación de imágenes se puede implementar comparando la característica de una región de interés de una imagen o la característica global de una imagen.
En la realización de la presente solicitud, la característica global de la imagen de consulta se puede determinar directamente y utilizarse como la característica objetivo de la imagen de consulta; o las características de la región de interés de la imagen de consulta se pueden determinar primero, y, a continuación, las características de la región de interés se agregan en la característica objetivo de la imagen de consulta.
Según la invención, las características predeterminadas son las características de regiones de interés, y la característica objetivo es una característica agregada con las características de las regiones de interés.
En este punto, las características de la región de interés de la imagen de consulta se extraen con dos redes neuronales profundas entrenadas previamente, y a continuación se pueden extraer las características de la región de interés.
Tal como se muestra en la figura 2, un procedimiento de recuperación de imágenes incluye las siguientes etapas: Etapa 201: adquirir una imagen de consulta.
Etapa 202: introducir la imagen de consulta en una primera red neuronal profunda entrenada previamente, para obtener una región de interés objetivo de la imagen de consulta, donde la primera red neuronal profunda se obtiene por entrenamiento en función de imágenes de muestra respectivas y regiones de interés correspondientes a las imágenes de muestra respectivas.
La primera red neuronal profunda se entrena previamente según un cierto número de imágenes de muestra, tal como 100, 500, 1000, y las regiones de interés correspondientes a las imágenes de muestra respectivas. En el proceso de recuperación de imágenes, la imagen de consulta se introduce en la primera red neuronal profunda entrenada previamente, para obtener la región de interés objetivo de la imagen de consulta.
Específicamente, la imagen de consulta se introduce en la primera red neuronal profunda entrenada previamente, y la primera red neuronal profunda lleva a cabo operaciones sobre la imagen de consulta para obtener un mapa de características con una escala de submuestreo con el mismo tamaño que la imagen de consulta, o mantiene la misma relación de aspecto. El valor de cada posición en el mapa de características representa la capacidad de reconocimiento de la posición original de la imagen de consulta introducida correspondientemente, se llevan a cabo operaciones de fijación de umbrales y morfológicas sobre el mapa de características para obtener una pluralidad de subregiones con fuertes capacidades de reconocimiento, que se determinan como regiones de interés.
Además, después de que se obtenga la región de interés objetivo de la imagen de consulta, también se puede emitir información de posición de la región de interés objetivo. Por ejemplo, la información de posición obtenida de la región de interés objetivo de la imagen de consulta se puede enviar al usuario.
Etapa 203: introducir la región de interés objetivo en una segunda red neuronal profunda entrenada previamente, para obtener una característica de región de interés objetivo de la región de interés objetivo, donde la segunda red neuronal profunda se obtiene por entrenamiento en función de regiones de interés respectivas y características de regiones de interés de las regiones de interés respectivas.
Correspondiendo al proceso de entrenamiento de la primera red neuronal profunda, la segunda red neuronal profunda se entrena previamente según un cierto número de imágenes de muestra, tal como 100, 500, 1000 y similares, y las características de regiones de interés correspondientes a las regiones de interés respectivas.
La región de interés objetivo de la imagen de consulta obtenida por la primera red neuronal profunda entrenada previamente se introduce en la segunda red neuronal profunda entrenada previamente, y se puede obtener la característica de región de interés objetivo de la región de interés objetivo.
Específicamente, se puede calcular una puntuación de capacidad de reconocimiento de una región de interés según la capacidad de reconocimiento correspondiente en la región de interés, y a continuación la puntuación de capacidad de reconocimiento y la región de interés se introducen en la segunda red neuronal profunda entrenada previamente junto con la imagen de consulta. La segunda red neuronal profunda entrenada previamente lleva a cabo extracción de características según la región de interés y su capacidad de reconocimiento correspondiente, para obtener la característica de cada región de interés.
Etapa 204: agregar las características de regiones de interés objetivo en la característica objetivo de la imagen de consulta.
En un proceso de recuperación de imágenes real, puede haber más de una región de interés objetivo obtenida con la primera red neuronal profunda entrenada previamente. Correspondientemente, puede haber más de una característica de región de interés objetivo, más de un tipo o de diferentes tamaños obtenidos con la segunda red neuronal profunda entrenada previamente. Por lo tanto, después de que las características de regiones de interés objetivo de la imagen de consulta se extraen por entrenamiento previo de la primera red neuronal profunda y la segunda red neuronal profunda, diferentes características de regiones de interés objetivo correspondientes a una pluralidad de diferentes características de regiones de interés objetivo se pueden agregar en la característica objetivo de la imagen de consulta. Se debe observar que la agregación puede incluir determinar una colección de una pluralidad de diferentes regiones de interés objetivo en la característica objetivo, o ajustar una pluralidad de características de regiones de interés objetivo con diferentes tamaños o tipos en las características de regiones de interés objetivo con el mismo tamaño o tipo, y a continuación combinar estas características de regiones de interés objetivo como la característica objetivo de la imagen de consulta.
La figura 3 es un diagrama de flujo de determinación de características objetivo de una imagen con dos redes según la invención.
En una primera etapa, se introduce una imagen en una primera red neuronal profunda entrenada previamente, es decir, una subred de detección de región de interés mostrada en la figura 3, para obtener una región de interés de la imagen.
En una segunda etapa, se introduce la región de interés obtenida en una segunda red neuronal profunda entrenada previamente, es decir, una subred de extracción de característica de región de interés mostrada en la figura 3, para obtener una característica de región de interés de la imagen.
En una tercera etapa, las características de regiones de interés correspondientes a todas las regiones de interés se agregan para obtener las características objetivo de la imagen.
Etapa 205: obtener características objetivo de una pluralidad de imágenes a recuperar.
Etapa 206: calcular una similitud entre la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar.
Etapa 207: determinar una imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar, en función de las similitudes calculadas.
En la invención, la etapa 201 es igual a la etapa 101 en la realización anterior, y las etapas 205 a 207 son iguales a las etapas 103 a 105 en la realización anterior, y los detalles no se repiten aquí.
En la invención, una región de interés objetivo de una imagen de consulta se obtiene utilizando una red neuronal profunda entrenada previamente y, a continuación, una característica de región de interés objetivo de la región de interés objetivo se obtiene utilizando otra red neuronal profunda entrenada previamente. Las características de regiones de interés objetivo se agregan en la característica objetivo necesaria en el proceso de recuperación. Dos redes neuronales profundas independientes se pueden entrenar por separado, lo que simplifica la complejidad del entrenamiento y, además, reduce la complejidad de la recuperación de imágenes. Al mismo tiempo, los resultados de cada red neuronal profunda también se pueden enviar al usuario para interactuar con el usuario.
A continuación, se describe un procedimiento de recuperación de imágenes dado a conocer por una realización de la presente solicitud, en combinación con otra realización específica.
En esta realización específica, la característica predeterminada es una característica global, y la característica objetivo es una característica global. En este punto, la característica objetivo de la imagen de consulta se puede obtener con una red neuronal profunda entrenada previamente.
Tal como se muestra en la figura 4, un procedimiento de recuperación de imágenes puede incluir las siguientes etapas:
Etapa 401: adquirir una imagen de consulta.
Etapa 402: introducir la imagen de consulta en una tercera red neuronal profunda entrenada previamente, para obtener una característica global de la imagen de consulta, donde la tercera red neuronal profunda se obtiene por entrenamiento en función de imágenes de muestra respectivas y características globales correspondientes a las imágenes de muestra respectivas.
La imagen de consulta se introduce en una tercera red neuronal profunda entrenada previamente, para obtener la característica global de la imagen de consulta. La tercera red neuronal profunda se obtiene por entrenamiento en función de imágenes de muestra respectivas y características globales correspondientes a las imágenes de muestra respectivas.
Correspondiendo al proceso de entrenamiento de la primera red neuronal profunda y la segunda red neuronal profunda, la tercera red neuronal profunda se obtiene entrenando previamente según un cierto número de imágenes de muestra previamente, tal como 100, 500, 1000, etc., y las características globales correspondientes a las imágenes de muestra respectivas. En el proceso de recuperación de imágenes, una imagen de consulta se introduce en la tercera red neuronal profunda entrenada previamente, para obtener una característica global de la imagen de consulta, y la característica global obtenida de la imagen de consulta se utiliza como característica objetivo de la imagen de consulta.
Específicamente, la imagen de consulta se introduce en la tercera red neuronal profunda entrenada previamente, y la tercera red neuronal profunda opera sobre la imagen de consulta para obtener un mapa de características con una escala de submuestreo que es del mismo tamaño que la imagen de consulta, o mantiene la misma relación de aspecto. El valor de cada posición en el mapa de características no solo indica la capacidad de reconocimiento de la posición correspondiente en la imagen de consulta, sino también la respuesta característica de la imagen de consulta correspondiente. A continuación, se determina la característica global de la imagen de consulta basándose en el mapa de características.
La figura 5 es un diagrama de flujo para determinar una característica objetivo de una imagen utilizando una red neuronal profunda según una realización de la presente solicitud. La imagen se introduce en una red neuronal profunda entrenada previamente, por ejemplo, la subred de extracción de característica global mostrada en la figura 5. La subred de extracción de característica global extrae directamente la característica global de la imagen, y utiliza la característica global como la característica objetivo de la imagen.
Etapa 403: obtener características objetivo de una pluralidad de imágenes a recuperar.
Etapa 404: calcular una similitud entre la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar.
Etapa 405: determinar una imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar, en función de las similitudes calculadas.
En esta realización específica, la etapa 401 es igual a la etapa 101 en la realización anterior, y las etapas 403 a 405 son iguales a las etapas 103 a 105 en la realización anterior, y los detalles no se repiten aquí.
En esta realización, la característica global de la imagen de consulta se obtiene con una red neuronal profunda entrenada previamente, y la característica global es la característica objetivo requerida en el proceso de recuperación. Solo es necesario entrenar una red neuronal profunda, y a continuación la característica objetivo de la imagen se puede obtener con la red neuronal profunda entrenada previamente, lo que simplifica el proceso de entrenamiento y mejora la eficiencia de la recuperación de imágenes.
Tal como se muestra en las realizaciones específicas mostradas en la figura 2 y la figura 4, en el procedimiento de recuperación de imágenes dado a conocer en la realización de la presente solicitud, la extracción de la región de interés de la imagen y la extracción de las características de imagen se determinan mediante una red neuronal profunda entrenada previamente, lo que es una solución global de extremo a extremo similar a la respuesta del sistema visual humano, y, por tanto, hace que las características de imagen extraídas sean más reconocibles y tengan la capacidad de expresar, garantizando a su vez los resultados finales de la recuperación de imágenes. La figura 6 es un diagrama de flujo de un proceso específico de recuperación de imágenes en la realización de la presente solicitud, y un proceso específico de recuperación de imágenes en la realización de la presente solicitud se describe en detalle haciendo referencia a la figura 6.
Etapa 601: adquirir una imagen de consulta enviada por un usuario.
Etapa 602: extraer una región de interés de la imagen de consulta con una red neuronal profunda entrenada previamente, y, a continuación, agregar características de la región de interés o extraer una característica global de la imagen directamente. Además, la información de posición de la región de interés también se puede devolver al usuario para su selección.
Etapa 603: seleccionar un modo de recuperación por el usuario.
Etapa 604: si se selecciona un modo de recuperación global, es decir, determinar características globales de una pluralidad de imágenes a recuperar directamente con una red neuronal profunda entrenada previamente, y, a continuación, comparar la característica global de la imagen de consulta con la característica global de cada imagen a recuperar.
Etapa 605: si se selecciona un modo de recuperación de región de interés, es decir, seleccionar regiones de interés de una pluralidad de imágenes a recuperar con una red neuronal profunda entrenada previamente, y, a continuación, extraer características de regiones de interés de las regiones de interés, y, a continuación, comparar la característica de región de interés de la imagen de consulta con la característica de región de interés de la región de interés para cada imagen a recuperar.
Etapa 606: si se selecciona un modo de recuperación global, después de que las características globales se comparan para obtener una similitud entre la característica global de la imagen de consulta y la característica global de cada imagen a recuperar, a continuación se determina la imagen de recuperación a partir de la pluralidad de imágenes a recuperar según la similitud obtenida comparando las características globales.
Si se selecciona el modo de recuperación de región de interés, después de que se comparan las características de regiones de interés, se obtiene la similitud entre la característica de región de interés de la imagen de consulta y la característica de región de interés de cada imagen a recuperar, y, a su vez, se determina la imagen de recuperación a partir de la pluralidad de imágenes a recuperar según la similitud obtenida comparando las características de regiones de interés.
Específicamente, determinar la imagen de recuperación a partir de la pluralidad de imágenes a recuperar según la similitud obtenida comparando las características globales o determinar la imagen de recuperación a partir de la pluralidad de imágenes a recuperar según la similitud obtenida comparando las características de regiones de interés, puede incluir: ordenar las similitudes, y determinar una imagen de recuperación a partir de la pluralidad de imágenes a recuperar según el resultado de ordenar o seleccionar un número preestablecido de imágenes a recuperar correspondiente a una similitud mayor que un umbral de similitud, como las imágenes de recuperación correspondientes a la imagen de consulta.
Etapa 607: adquirir una imagen a recuperar. Haciendo referencia a la figura 7, se describe en detalle un aparato de recuperación de imágenes según la invención, que incluye:
un módulo de adquisición de imagen 701, configurado para adquirir una imagen de consulta;
un primer módulo de determinación de característica 702, configurado para determinar una característica objetivo de la imagen de consulta basándose en una red neuronal profunda entrenada previamente, donde la red neuronal profunda se obtiene por entrenamiento en función de imágenes de muestra y características predeterminadas con las que se puede formar la característica objetivo y que corresponden a las imágenes de muestra;
un segundo módulo de determinación de característica 703, configurado para obtener características objetivo de una pluralidad de imágenes a recuperar;
un módulo de cálculo 704, configurado para calcular una similitud entre la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar.
un módulo de determinación de imagen de recuperación 705, configurado para determinar una imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar, en función de las similitudes calculadas.
El aparato de recuperación de imágenes dado a conocer en la realización de la presente solicitud puede determinar una característica objetivo de una imagen de consulta basándose en una red neuronal profunda entrenada previamente; calcular una similitud entre la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar; y, a su vez, determinar una imagen de recuperación correspondiente a la imagen de consulta a partir de una pluralidad de imágenes a recuperar, en función de las similitudes calculadas. Se puede ver que el aparato de recuperación de imágenes dado a conocer en la realización de la presente solicitud puede determinar las características que reflejan las características de la imagen con precisión sin extraer las características de la imagen en función de las instrucciones del usuario, es decir, sin la participación subjetiva del usuario, mejorando, por tanto, la precisión de la recuperación de imágenes. Al mismo tiempo, basándose en la red neuronal profunda entrenada previamente, se determina la característica objetivo de la imagen de consulta, se localiza automáticamente la característica objetivo, y se mejora la experiencia de usuario.
Opcionalmente, el segundo módulo de determinación de característica 703 está configurado específicamente para obtener las características objetivo de la pluralidad de imágenes a recuperar almacenadas en una base de datos preestablecida; o para determinar las características objetivo de la pluralidad de imágenes a recuperar basándose en la red neuronal profunda entrenada previamente.
Según la invención, las características predeterminadas son características de regiones de interés, y la característica objetivo es una característica agregada con las características de las regiones de interés; el primer módulo de determinación de característica 702 incluye:
un submódulo de obtención de región de interés, configurado para introducir la imagen de consulta en una primera red neuronal profunda entrenada previamente, para obtener una región de interés objetivo de la imagen de consulta, donde la primera red neuronal profunda se obtiene por entrenamiento en función de las imágenes de muestra y de regiones de interés correspondientes a las imágenes de muestra.
un submódulo de determinación de característica de región de interés, configurado para introducir la región de interés objetivo en una segunda red neuronal profunda entrenada previamente, para obtener una característica de región de interés objetivo de la región de interés objetivo, donde la segunda red neuronal profunda se obtiene por entrenamiento en función de las regiones de interés y de características de regiones de interés de las regiones de interés; y
un primer submódulo de determinación de característica, configurado para agregar las características de regiones de interés objetivo en la característica objetivo de la imagen de consulta.
Opcionalmente, las características predeterminadas son características globales y la característica objetivo es una característica global. El primer módulo de determinación de característica 702 incluye un segundo submódulo de determinación de característica, configurado para introducir la imagen de consulta en una tercera red neuronal profunda entrenada previamente, para obtener una característica global de la imagen de consulta, donde la tercera red neuronal profunda se obtiene por entrenamiento en función de las imágenes de muestra y de características globales correspondientes a las imágenes de muestra.
Opcionalmente, el módulo de determinación de imagen de recuperación 705 está configurado específicamente para ordenar las similitudes calculadas, y determinar la imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar en función de los resultados del ordenamiento; o, determinar una imagen objetivo a recuperar entre la pluralidad de imágenes a recuperar y la imagen de recuperación correspondiente a la imagen de consulta, donde la imagen objetivo a recuperar es una imagen a recuperar con una similitud mayor que un umbral de similitud predeterminado.
Opcionalmente, el aparato de recuperación de imágenes dado a conocer en la realización de la presente solicitud incluye, además, un módulo de salida, configurado para emitir información de posición de la región de interés objetivo después de obtener la región de interés objetivo de la imagen de consulta.
Se debe observar que el aparato de recuperación de imágenes en la realización de la presente solicitud es un dispositivo en el que se aplica el procedimiento de recuperación de imágenes mencionado anteriormente, entonces todas las realizaciones del procedimiento de recuperación de imágenes mencionado anteriormente son aplicables al dispositivo, y todas pueden conseguir efectos beneficiosos iguales o similares.
Una realización de la presente solicitud da a conocer, además, un dispositivo electrónico, tal como se muestra en la figura 8, incluyendo un procesador 801, una interfaz de comunicación 802, una memoria 803 y un bus de comunicación 804, en el que el procesador 801, la interfaz de comunicación 802, y la memoria 803 se comunican entre sí mediante el bus de comunicación 804.
La memoria 803 está configurada para almacenar un programa informático.
El procesador 801 está configurado para llevar a cabo las siguientes etapas cuando ejecuta un programa almacenado en la memoria 803:
adquirir una imagen de consulta; determinar una característica objetivo de la imagen de consulta basándose en una red neuronal profunda entrenada previamente, donde la red neuronal profunda se obtiene por entrenamiento en función de imágenes de muestra y características predeterminadas con las que se puede formar una característica objetivo y que corresponden a las imágenes de muestra; obtener características objetivo de una pluralidad de imágenes a recuperar; calcular una similitud entre la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar; y determinar una imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar, en función de las similitudes calculadas. Opcionalmente, se obtienen las características objetivo de la pluralidad de imágenes a recuperar almacenadas en una base de datos preestablecida; o se determinan las características objetivo de la pluralidad de imágenes a recuperar basándose en la red neuronal profunda entrenada previamente.
Según la invención, las características predeterminadas son características de regiones de interés, y la característica objetivo es una característica agregada con las características de las regiones de interés; la imagen de consulta se introduce en una primera red neuronal profunda entrenada previamente, para obtener una región de interés objetivo de la imagen de consulta, donde la primera red neuronal profunda se obtiene por entrenamiento en función de las imágenes de muestra y de regiones de interés correspondientes a las imágenes de muestra; la región de interés objetivo se introduce en una segunda red neuronal profunda entrenada previamente, para obtener una característica de región de interés objetivo de la región de interés objetivo, donde la segunda red neuronal profunda se obtiene por entrenamiento en función de las regiones de interés y de características de regiones de interés de las regiones de interés; las características de regiones de interés objetivo se agregan en la característica objetivo de la imagen de consulta.
Opcionalmente, las características predeterminadas son características globales y la característica objetivo es una característica global; la imagen de consulta se introduce en una tercera red neuronal profunda entrenada previamente, para obtener una característica global de la imagen de consulta, donde la tercera red neuronal profunda se obtiene por entrenamiento en función de las imágenes de muestra y de características globales correspondientes a las imágenes de muestra.
Opcionalmente, las similitudes calculadas se ordenan, y la imagen de recuperación correspondiente a la imagen de consulta se determina a partir de la pluralidad de imágenes a recuperar en función de los resultados del ordenamiento; o, una imagen objetivo a recuperar entre la pluralidad de imágenes a recuperar se determina como la imagen de recuperación correspondiente a la imagen de consulta, donde la imagen objetivo a recuperar es una imagen a recuperar con una similitud mayor que un umbral de similitud predeterminado.
Opcionalmente, el procesador está configurado, además, para emitir información de posición de la región de interés objetivo después de obtener la región de interés objetivo de la imagen de consulta.
El bus de comunicación mencionado en el dispositivo electrónico anterior puede ser un bus de interconexión de componentes periféricos (Peripheral Component Interconnect, PCI) o un bus de arquitectura estándar de componentes periféricos (Peripheral Component Standard Architecture, EISA). El bus de comunicación puede estar dividido en un bus de direcciones, un bus de datos, un bus de control y similares. Por conveniencia de la representación, el bus se representa en las figuras utilizando solo una línea gruesa, pero esto no significa que solo haya un bus o un tipo de bus.
La interfaz de comunicación se utiliza para la comunicación entre el dispositivo electrónico mencionado anteriormente y otro aparato.
La memoria puede incluir memoria de acceso aleatorio (RAM, Random Access Memory), y también puede incluir memoria no volátil (NVM, Non-Volatile Memory), tal como por lo menos una memoria de disco. Opcionalmente, la memoria también puede ser por lo menos un dispositivo de almacenamiento ubicado lejos del procesador anterior. El procesador mencionado anteriormente puede ser un procesador de propósito general, incluyendo una unidad central de procesamiento (CPU, central processing unit), un procesador de red (NP, network processor) o similares; también puede ser un procesador de señales digitales (DSP, digital signal processor), un circuito integrado específico de aplicación (ASIC, Application Specific Integrated Circuit), una matriz de puertas programable en campo (FPGA, Field-Programmable Gate Array) u otros dispositivos lógicos programables, dispositivos de puertas discretas o de lógica de transistores, componentes de hardware discretos.
El dispositivo electrónico dado a conocer en la realización de la presente solicitud puede determinar una característica objetivo de una imagen de consulta basándose en una red neuronal profunda entrenada previamente; calcular una similitud entre la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar; y, a su vez, determinar una imagen de recuperación correspondiente a la imagen de consulta a partir de una pluralidad de imágenes a recuperar, en función de las similitudes calculadas. Se puede ver que el aparato de recuperación de imágenes dado a conocer en la realización de la presente solicitud puede determinar las características que reflejan las características de la imagen con precisión sin extraer las características de la imagen en función de las instrucciones del usuario, es decir, sin la participación subjetiva del usuario, mejorando, por tanto, la precisión de la recuperación de imágenes. Al mismo tiempo, basándose en la red neuronal profunda entrenada previamente, se determina la característica objetivo de la imagen de consulta, se localiza automáticamente la característica objetivo, y se mejora la experiencia de usuario.
Una realización de la presente solicitud da a conocer, además, un medio de almacenamiento para almacenar códigos ejecutables, y los códigos ejecutables se utilizan para llevar a cabo las siguientes etapas cuando se ejecutan:
adquirir una imagen de consulta; determinar una característica objetivo de la imagen de consulta basándose en una red neurona! profunda entrenada previamente, donde la red neurona! profunda se obtiene por entrenamiento en función de imágenes de muestra y características predeterminadas con las que se puede formar una característica objetivo y que corresponden a las imágenes de muestra; obtener características objetivo de una pluralidad de imágenes a recuperar; calcular una similitud entre la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar; y determinar una imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar, en función de las similitudes calculadas. Opcionalmente, se obtienen las características objetivo de la pluralidad de imágenes a recuperar almacenadas en una base de datos preestablecida; o se determinan las características objetivo de la pluralidad de imágenes a recuperar basándose en una red neuronal profunda entrenada previamente.
Según la invención, las características predeterminadas son características de regiones de interés, y la característica objetivo es una característica agregada con las características de las regiones de interés; la imagen de consulta se introduce en una primera red neuronal profunda entrenada previamente, para obtener una región de interés objetivo de la imagen de consulta, donde la primera red neuronal profunda se obtiene por entrenamiento en función de imágenes de muestra respectivas y regiones de interés correspondientes a las imágenes de muestra respectivas; la región de interés objetivo se introduce en una segunda red neuronal profunda entrenada previamente, para obtener una característica de región de interés objetivo de la región de interés objetivo, donde la segunda red neuronal profunda se obtiene por entrenamiento en función de regiones de interés respectivas y características de regiones de interés de las regiones de interés respectivas; las características de regiones de interés objetivo se agregan en la característica objetivo de la imagen de consulta.
Opcionalmente, la característica predeterminada es una característica global y la característica objetivo es una característica global; la imagen de consulta se introduce en una tercera red neuronal profunda entrenada previamente, para obtener una característica global de la imagen de consulta, donde la tercera red neuronal profunda se obtiene por entrenamiento en función de imágenes de muestra respectivas y características globales correspondientes a las imágenes de muestra respectivas.
Opcionalmente, las similitudes calculadas se ordenan, y la imagen de recuperación correspondiente a la imagen de consulta se determina a partir de la pluralidad de imágenes a recuperar en función de los resultados del ordenamiento; o, una imagen objetivo a recuperar entre la pluralidad de imágenes a recuperar se determina como la imagen de recuperación correspondiente a la imagen de consulta, donde la imagen objetivo a recuperar es una imagen a recuperar con una similitud mayor que un umbral de similitud predeterminado.
Opcionalmente, el procesador está configurado, además, para emitir información de posición de la región de interés objetivo después de obtener la región de interés objetivo de la imagen de consulta.
El medio de almacenamiento dado a conocer en la realización de la presente solicitud puede determinar una característica objetivo de una imagen de consulta basándose en una red neuronal profunda entrenada previamente; calcular una similitud entre la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar; y, a su vez, determinar una imagen de recuperación correspondiente a la imagen de consulta a partir de una pluralidad de imágenes a recuperar, en función de las similitudes calculadas. Se puede ver que el aparato de recuperación de imágenes dado a conocer en la realización de la presente solicitud puede determinar las características que reflejan las características de la imagen con precisión sin extraer las características de la imagen en función de las instrucciones del usuario, es decir, sin la participación subjetiva del usuario, mejorando, por tanto, la precisión de la recuperación de imágenes. Al mismo tiempo, basándose en la red neuronal profunda entrenada previamente, se determina la característica objetivo de la imagen de consulta, se localiza automáticamente la característica objetivo, y se mejora la experiencia de usuario.
Una realización de la presente solicitud da a conocer, además, un programa de aplicación para llevar a cabo las siguientes etapas cuando se ejecuta:
adquirir una imagen de consulta; determinar una característica objetivo de la imagen de consulta basándose en una red neuronal profunda entrenada previamente, donde la red neuronal profunda se obtiene por entrenamiento en función de imágenes de muestra y características predeterminadas con las que se puede formar una característica objetivo y que corresponden a las imágenes de muestra; obtener características objetivo de una pluralidad de imágenes a recuperar; calcular una similitud entre la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar; y determinar una imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar, en función de las similitudes calculadas. Opcionalmente, se obtienen las características objetivo de la pluralidad de imágenes a recuperar almacenadas en una base de datos preestablecida; o se determinan las características objetivo de la pluralidad de imágenes a recuperar basándose en una red neuronal profunda entrenada previamente.
Según la invención, las características predeterminadas son características de regiones de interés, y la característica objetivo es una característica agregada con las características de las regiones de interés; la imagen de consulta se introduce en una primera red neuronal profunda entrenada previamente, para obtener una región de interés objetivo de la imagen de consulta, donde la primera red neuronal profunda se obtiene por entrenamiento en función de imágenes de muestra respectivas y regiones de interés correspondientes a las imágenes de muestra respectivas; la región de interés objetivo se introduce en una segunda red neuronal profunda entrenada previamente, para obtener una característica de región de interés objetivo de la región de interés objetivo, donde la segunda red neuronal profunda se obtiene por entrenamiento en función de regiones de interés respectivas y características de regiones de interés de las regiones de interés respectivas; las características de regiones de interés objetivo se agregan en la característica objetivo de la imagen de consulta.
Opcionalmente, la característica predeterminada es una característica global y la característica objetivo es una característica global; la imagen de consulta se introduce en una tercera red neuronal profunda entrenada previamente, para obtener una característica global de la imagen de consulta, donde la tercera red neuronal profunda se obtiene por entrenamiento en función de imágenes de muestra respectivas y características globales correspondientes a las imágenes de muestra respectivas.
Opcionalmente, las similitudes calculadas se ordenan, y la imagen de recuperación correspondiente a la imagen de consulta se determina a partir de la pluralidad de imágenes a recuperar en función de los resultados del ordenamiento; o, una imagen objetivo a recuperar entre la pluralidad de imágenes a recuperar se determina como la imagen de recuperación correspondiente a la imagen de consulta, donde la imagen objetivo a recuperar es una imagen a recuperar con una similitud mayor que un umbral de similitud predeterminado.
Opcionalmente, el procesador está configurado, además, para emitir información de posición de la región de interés objetivo después de obtener la región de interés objetivo de la imagen de consulta.
El programa de aplicación dado a conocer en la realización de la presente solicitud puede determinar una característica objetivo de una imagen de consulta basándose en una red neuronal profunda entrenada previamente; calcular una similitud entre la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar; y, a su vez, determinar una imagen de recuperación correspondiente a la imagen de consulta a partir de una pluralidad de imágenes a recuperar, en función de las similitudes calculadas. Se puede ver que el aparato de recuperación de imágenes dado a conocer en la realización de la presente solicitud puede determinar las características que reflejan las características de la imagen con precisión sin extraer las características de la imagen en función de las instrucciones del usuario, es decir, sin la participación subjetiva del usuario, mejorando, por tanto, la precisión de la recuperación de imágenes. Al mismo tiempo, basándose en la red neuronal profunda entrenada previamente, se determina la característica objetivo de la imagen de consulta, se localiza automáticamente la característica objetivo, y se mejora la experiencia de usuario.
Se debe observar que, en las reivindicaciones y la memoria descriptiva de la invención, los términos relacionales tales como "primero", "segundo" y similares solo se utilizan para distinguir una entidad u operación de otra entidad u operación, y no requieren ni implican necesariamente que exista dicha relación u orden real entre dichas entidades u operaciones. Además, los términos "incluye", "contiene" o cualquier otra variante están destinados a abarcar una inclusión no exclusiva, de modo que los procesos, procedimientos, objetos o dispositivos que comprenden una serie de elementos incluyan no solo esos elementos, sino también otros elementos no especificados o los elementos inherentes a esos procesos, procedimientos, objetos o dispositivos. Sin otras limitaciones, un elemento limitado por la frase "comprende un/una ..." no excluye que existan otros elementos idénticos en los procesos, procedimientos, objetos o dispositivos que comprende ese elemento.
Cada realización en esta memoria descriptiva se describe de una manera relacionada, y las partes iguales o similares entre las diversas realizaciones se pueden referir unas a otras. Cada realización se centra en las diferencias con respecto a otras realizaciones. En particular, en lo que se refiere a las realizaciones de un dispositivo, dispositivo electrónico, medio de almacenamiento y programa de aplicación, dado que estas son básicamente similares a la realización de procedimiento, la descripción es relativamente sencilla, y la parte relevante puede referirse a la descripción de la realización de procedimiento.

Claims (13)

REIVINDICACIONES
1. Procedimiento de recuperación de imágenes, que comprende:
adquirir (201) una imagen de consulta;
determinar (202) una característica objetivo de la imagen de consulta basándose en una primera red neuronal profunda entrenada previamente; donde la primera red neuronal profunda se obtiene por entrenamiento en función de imágenes de muestra y características predeterminadas con las que se puede formar la característica objetivo y que corresponden a las imágenes de muestra;
obtener (205) una característica objetivo de cada una de una pluralidad de imágenes a recuperar;
calcular (206) una similitud entre la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar; y
determinar (207) una imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar, en función de las similitudes calculadas, donde las características predeterminadas son características de regiones de interés, y la característica objetivo es una característica agregada con las características de las regiones de interés; y
en el que determinar (202) una característica objetivo de la imagen de consulta basándose en la primera red neuronal profunda entrenada previamente, comprende:
introducir la imagen de consulta en la primera red neuronal profunda entrenada previamente, para obtener un mapa de características, donde la primera red neuronal profunda se obtiene por entrenamiento en función de las imágenes de muestra y de regiones de interés correspondientes a las imágenes de muestra, y el valor de cada posición en el mapa de características representa la capacidad de reconocimiento de la posición original de la imagen de consulta introducida correspondientemente;
llevar a cabo operaciones de fijación de umbrales y morfológicas sobre el mapa de características para obtener una pluralidad de subregiones con fuertes capacidades de reconocimiento;
determinar la pluralidad de subregiones como regiones de interés objetivo de la imagen de consulta;
introducir (203) la región de interés objetivo en una segunda red neuronal profunda entrenada previamente, para obtener una característica de región de interés objetivo de la región de interés objetivo, donde la segunda red neuronal profunda se obtiene por entrenamiento en función de las regiones de interés y de características de regiones de interés de las regiones de interés; y
agregar (204) las características de regiones de interés objetivo en la característica objetivo de la imagen de consulta.
2. Procedimiento, según la reivindicación 1, en el que adquirir una característica objetivo de cada una de una pluralidad de imágenes a recuperar, comprende:
obtener una característica objetivo de cada una de la pluralidad de imágenes a recuperar almacenadas en una base de datos preestablecida; o
determinar una característica objetivo de cada una de la pluralidad de imágenes a recuperar basándose en la primera red neuronal profunda entrenada previamente
3. Procedimiento, según la reivindicación 1 o 2, en el que las características predeterminadas son características globales y la característica objetivo es una característica global; y
determinar una característica objetivo de la imagen de consulta basándose en la primera red neuronal profunda entrenada previamente, comprende:
introducir la imagen de consulta en una tercera red neuronal profunda entrenada previamente, para obtener una característica global de la imagen de consulta, donde la tercera red neuronal profunda se obtiene por entrenamiento en función de las imágenes de muestra y de características globales correspondientes a las imágenes de muestra.
4. Procedimiento, según la reivindicación 1 o 2, en el que determinar una imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar, en función de las similitudes calculadas, comprende:
ordenar las similitudes calculadas, y determinar la imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar en función de los resultados del ordenamiento; o
determinar una imagen objetivo a recuperar entre la pluralidad de imágenes a recuperar como la imagen de recuperación correspondiente a la imagen de consulta, donde la imagen objetivo a recuperar es una imagen a recuperar con una similitud mayor que un umbral de similitud predeterminado.
5. Procedimiento, según la reivindicación 1, en el que, después de obtener la región de interés objetivo de la imagen de consulta, el procedimiento comprende, además:
emitir información de posición de la región de interés objetivo.
6. Aparato de recuperación de imágenes, que comprende:
un módulo de adquisición de imagen, configurado para adquirir una imagen de consulta;
un primer módulo de determinación de característica, configurado para determinar una característica objetivo de la imagen de consulta basándose en una primera red neuronal profunda entrenada previamente; donde la primera red neuronal profunda se obtiene por entrenamiento en función de imágenes de muestra y características predeterminadas con las que se puede formar la característica objetivo y que corresponden a las imágenes de muestra;
un segundo módulo de determinación de característica, configurado para obtener una característica objetivo de cada una de una pluralidad de imágenes a recuperar;
un módulo de cálculo, configurado para calcular una similitud entre la característica objetivo de la imagen de consulta y la característica objetivo de cada imagen a recuperar.
un módulo de determinación de imagen de recuperación, configurado para determinar una imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar, en función de las similitudes calculadas,
en el que las características predeterminadas son características de regiones de interés, y la característica objetivo es una característica agregada con las características de las regiones de interés; y
en el que el primer módulo de determinación de característica comprende:
un submódulo de obtención de región de interés, configurado para introducir la imagen de consulta en la primera red neuronal profunda entrenada previamente, para obtener un mapa de características, donde la primera red neuronal profunda se obtiene por entrenamiento en función de las imágenes de muestra y de regiones de interés correspondientes a las imágenes de muestra, y el valor de cada posición en el mapa de características representa la capacidad de reconocimiento de la posición original de la imagen de consulta introducida correspondientemente; llevar a cabo operaciones de fijación de umbrales y morfológicas sobre el mapa de características para obtener una pluralidad de subregiones con fuertes capacidades de reconocimiento; y determinar la pluralidad de subregiones como regiones de interés objetivo de la imagen de consulta;
un submódulo de determinación de característica de región de interés, configurado para introducir la región de interés objetivo en una segunda red neuronal profunda entrenada previamente, para obtener una característica de región de interés objetivo de la región de interés objetivo, donde la segunda red neuronal profunda se obtiene por entrenamiento en función de las regiones de interés y de características de regiones de interés de las regiones de interés; y
un primer submódulo de determinación de característica, configurado para agregar las características de regiones de interés objetivo en la característica objetivo de la imagen de consulta.
7. Aparato, según la reivindicación 6, en el que el segundo módulo de determinación de característica está configurado para obtener una característica objetivo de cada una de la pluralidad de imágenes a recuperar almacenadas en una base de datos preestablecida; o para determinar una característica objetivo de cada una de la pluralidad de imágenes a recuperar basándose en la primera red neuronal profunda entrenada previamente.
8. Aparato, según la reivindicación 6 o 7, en el que, las características predeterminadas son características globales y la característica objetivo es una característica global; y
el primer módulo de determinación de característica comprende:
un segundo submódulo de determinación de característica, configurado para introducir la imagen de consulta en una tercera red neuronal profunda entrenada previamente, para obtener una característica global de la imagen de consulta, donde la tercera red neuronal profunda se obtiene por entrenamiento en función de las imágenes de muestra y de características globales correspondientes a las imágenes de muestra.
9. Aparato, según la reivindicación 6 o 7, en el que, el módulo de determinación de imagen de recuperación está configurado para ordenar las similitudes calculadas, y determinar la imagen de recuperación correspondiente a la imagen de consulta a partir de la pluralidad de imágenes a recuperar en función de los resultados del ordenamiento; o, determinar una imagen objetivo a recuperar entre la pluralidad de imágenes a recuperar como la imagen de recuperación correspondiente a la imagen de consulta, en el que la imagen objetivo a recuperar es una imagen a recuperar con una similitud mayor que un umbral de similitud predeterminado.
10. Aparato, según la reivindicación 9, que comprende, además, un módulo de salida, configurado para emitir información de posición de la región de interés objetivo después de obtener la región de interés objetivo de la imagen de consulta.
11. Dispositivo electrónico, que comprende: un procesador, interfaces de comunicación, una memoria y un bus de comunicación, en el que el procesador, las interfaces de comunicación y la memoria se comunican entre sí mediante el bus de comunicación;
la memoria está configurada para almacenar un programa informático.
el procesador está configurado para ejecutar un programa almacenado en la memoria para implementar el procedimiento de recuperación de imágenes según cualquiera de las reivindicaciones 1 a 5.
12. Medio de almacenamiento con códigos ejecutables almacenados en el mismo, en el que los códigos ejecutables se ejecutan para implementar el procedimiento de recuperación de imágenes según cualquiera de las reivindicaciones 1 a 5.
13. Programa de aplicación, configurado para llevar a cabo el procedimiento de recuperación de imágenes según cualquiera de las reivindicaciones 1 a 5 cuando es ejecutado.
ES18839135T 2017-07-28 2018-07-25 Procedimiento, aparato y dispositivo electrónico de recuperación de imágenes Active ES2924268T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710632446.XA CN110019896B (zh) 2017-07-28 2017-07-28 一种图像检索方法、装置及电子设备
PCT/CN2018/097008 WO2019020049A1 (zh) 2017-07-28 2018-07-25 一种图像检索方法、装置及电子设备

Publications (1)

Publication Number Publication Date
ES2924268T3 true ES2924268T3 (es) 2022-10-05

Family

ID=65040008

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18839135T Active ES2924268T3 (es) 2017-07-28 2018-07-25 Procedimiento, aparato y dispositivo electrónico de recuperación de imágenes

Country Status (5)

Country Link
US (1) US11586664B2 (es)
EP (1) EP3660700B1 (es)
CN (1) CN110019896B (es)
ES (1) ES2924268T3 (es)
WO (1) WO2019020049A1 (es)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488475A (zh) * 2019-01-29 2020-08-04 北京三星通信技术研究有限公司 图像检索方法、装置、电子设备及计算机可读存储介质
CN111723240A (zh) * 2019-03-20 2020-09-29 杭州海康威视数字技术股份有限公司 一种图像检索方法、装置及电子设备
CN110704652A (zh) * 2019-08-22 2020-01-17 长沙千视通智能科技有限公司 基于多重注意力机制的车辆图像细粒度检索方法及装置
CN111242888A (zh) * 2019-12-03 2020-06-05 中国人民解放军海军航空大学 一种基于机器视觉的图像处理方法及系统
CN110942046B (zh) * 2019-12-05 2023-04-07 腾讯云计算(北京)有限责任公司 图像检索方法、装置、设备及存储介质
CN111914110A (zh) * 2020-07-29 2020-11-10 厦门大学 一种基于深度激活显著区域的实例检索方法
CN111950728A (zh) * 2020-08-17 2020-11-17 珠海格力电器股份有限公司 图像特征提取模型的构建方法、图像检索方法及存储介质
CN111930983B (zh) * 2020-08-18 2023-09-22 创新奇智(成都)科技有限公司 一种图像检索方法、装置、电子设备及存储介质
CN112052350B (zh) * 2020-08-25 2024-03-01 腾讯科技(深圳)有限公司 一种图片检索方法、装置、设备和计算机可读存储介质
CN112153571A (zh) * 2020-09-18 2020-12-29 浪潮电子信息产业股份有限公司 一种电子设备及其设备寻回系统
CN112836089B (zh) * 2021-01-28 2023-08-22 浙江大华技术股份有限公司 运动轨迹的确认方法及装置、存储介质、电子装置
CN112990228B (zh) * 2021-03-05 2024-03-29 浙江商汤科技开发有限公司 图像特征匹配方法和相关装置、设备及存储介质
CN112905828B (zh) * 2021-03-18 2023-06-16 西北大学 一种结合显著特征的图像检索器、数据库及检索方法
CN113282781B (zh) * 2021-05-18 2022-06-28 稿定(厦门)科技有限公司 图像检索方法及装置
CN113360038A (zh) * 2021-05-31 2021-09-07 维沃移动通信(杭州)有限公司 应用功能查找方法、装置及电子设备
CN113449130A (zh) * 2021-06-02 2021-09-28 武汉旷视金智科技有限公司 一种图像检索方法、装置、一种计算机可读存储介质和计算设备
CN113743455A (zh) * 2021-07-23 2021-12-03 北京迈格威科技有限公司 目标检索方法、装置、电子设备及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9846836B2 (en) * 2014-06-13 2017-12-19 Microsoft Technology Licensing, Llc Modeling interestingness with deep neural networks
US9195912B1 (en) * 2014-07-24 2015-11-24 National Taipei University Of Technology Face annotation method and a face annotation system
US9569700B1 (en) * 2014-12-17 2017-02-14 Amazon Technologies, Inc. Identification of item attributes using artificial intelligence
CN104517103A (zh) * 2014-12-26 2015-04-15 广州中国科学院先进技术研究所 一种基于深度神经网络的交通标志分类方法
CN106326288B (zh) * 2015-06-30 2019-12-03 阿里巴巴集团控股有限公司 图像搜索方法及装置
CN106355188B (zh) * 2015-07-13 2020-01-21 阿里巴巴集团控股有限公司 图像检测方法及装置
CN106445939B (zh) * 2015-08-06 2019-12-13 阿里巴巴集团控股有限公司 图像检索、获取图像信息及图像识别方法、装置及系统
US10789525B2 (en) * 2015-10-02 2020-09-29 Adobe Inc. Modifying at least one attribute of an image with at least one attribute extracted from another image
US10810252B2 (en) * 2015-10-02 2020-10-20 Adobe Inc. Searching using specific attributes found in images
CN106933867B (zh) * 2015-12-30 2020-02-21 杭州华为企业通信技术有限公司 一种图像查询方法和装置
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
CN106250812B (zh) 2016-07-15 2019-08-20 汤一平 一种基于快速r-cnn深度神经网络的车型识别方法
US10621747B2 (en) * 2016-11-15 2020-04-14 Magic Leap, Inc. Deep learning system for cuboid detection
CN106682092A (zh) * 2016-11-29 2017-05-17 深圳市华尊科技股份有限公司 一种目标检索方法及终端
CN106886573A (zh) * 2017-01-19 2017-06-23 博康智能信息技术有限公司 一种图像检索方法及装置
US20200151577A1 (en) * 2017-06-30 2020-05-14 Facet Labs, Llc Intelligent endpoint systems for managing extreme data

Also Published As

Publication number Publication date
EP3660700A1 (en) 2020-06-03
EP3660700B1 (en) 2022-06-15
CN110019896B (zh) 2021-08-13
US11586664B2 (en) 2023-02-21
EP3660700A4 (en) 2020-06-03
CN110019896A (zh) 2019-07-16
WO2019020049A1 (zh) 2019-01-31
US20200175062A1 (en) 2020-06-04

Similar Documents

Publication Publication Date Title
ES2924268T3 (es) Procedimiento, aparato y dispositivo electrónico de recuperación de imágenes
CN109741309B (zh) 一种基于深度回归网络的骨龄预测方法及装置
CN110245662B (zh) 检测模型训练方法、装置、计算机设备和存储介质
CN109670532B (zh) 生物体器官组织图像的异常识别方法、装置及系统
US10417522B2 (en) Using a probabilistic model for detecting an object in visual data
US10824916B2 (en) Weakly supervised learning for classifying images
KR102117050B1 (ko) 이미지 내 휴먼 분리를 위한 전자 장치 및 방법
CN111160375B (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
CN109960742B (zh) 局部信息的搜索方法及装置
US11288548B2 (en) Target detection method and apparatus, and computer device
CN110263122B (zh) 一种关键词获取方法、装置及计算机可读存储介质
CN109740752B (zh) 深度模型训练方法及装置、电子设备及存储介质
CN111553182A (zh) 一种船只检索方法、装置及电子设备
CN113496208B (zh) 视频的场景分类方法及装置、存储介质、终端
US8989505B2 (en) Distance metric for image comparison
CN111738270B (zh) 模型生成方法、装置、设备和可读存储介质
CN111373393B (zh) 图像检索方法和装置以及图像库的生成方法和装置
CN110490058B (zh) 行人检测模型的训练方法、装置、系统和计算机可读介质
CN111695572A (zh) 一种基于卷积层特征提取的船只检索方法及装置
US11347977B2 (en) Lateral and longitudinal feature based image object recognition method, computer device, and non-transitory computer readable storage medium
CN111651674A (zh) 双向搜索方法、装置及电子设备
CN110956058B (zh) 图像识别方法、装置及电子设备
CN109993165A (zh) 药片板药名识别及药片板信息获取方法、装置与系统
CN112699907A (zh) 数据融合的方法、装置和设备
Li et al. Content and context boosting for mobile landmark recognition