ES2909047T3

ES2909047T3 - Método y sistema para minar eficientemente elementos esenciales de un conjunto de datos con estrategia de remuestreo con reposición en estimación de pose con 6DOF de objetos en 3D

Info

Publication number: ES2909047T3
Application number: ES17713825T
Authority: ES
Inventors: Kai Ma; Shanhui Sun; Stefan Kluckner; Ziyan Wu; Terrence Chen; Jan Ernst
Original assignee: Siemens Mobility GmbH
Current assignee: Siemens Mobility GmbH
Priority date: 2016-03-14
Filing date: 2017-03-13
Publication date: 2022-05-05
Anticipated expiration: 2037-03-13
Also published as: US20190080475A1; US10803619B2; EP3414743A1; EP3414743B1; WO2017160688A1

Abstract

Método implementado por ordenador para identificar una pose en una primera imagen que comprende: establecer una base (101) de datos inicial de tríos de imágenes; en un procesador (420) de estimación de pose: entrenar una red (103) neuronal de aprendizaje profundo usando la base (101) de datos inicial de tríos de imágenes; calcular la pose para la primera imagen usando la red (103) neuronal de aprendizaje profundo; comparar la pose calculada con una base (117) de datos de validación poblada con datos de imágenes para identificar un caso de error en la red (103) neuronal de aprendizaje profundo; crear un nuevo conjunto de datos (113, 115) de entrenamiento que incluyen una pluralidad de casos de error identificados en una pluralidad de imágenes de entrada; entrenar de nuevo la red (103) neuronal de aprendizaje profundo usando el nuevo conjunto de datos (113, 115) de entrenamiento, y estando el método caracterizado por el procesador (420) de estimación de pose que lleva a cabo un análisis (111) estadístico sobre una pluralidad de casos de error para seleccionar un subconjunto de la pluralidad de casos de error que va a incluirse en el nuevo conjunto de datos (113, 115) de entrenamiento, en el que el análisis (111) estadístico comprende al menos uno de: identificar un centro de agrupación de casos de error ubicado dentro de un radio predeterminado dentro de una imagen de entrada, o identificar un grado de error en un caso de error y seleccionar un primer caso de error que tiene un mayor grado de error que un segundo caso de error que tiene un menor grado de error que el primer caso de error, y que incluye el primer caso de error en el nuevo conjunto de datos (113, 115) de entrenamiento, o identificar un primer caso de error que tiene un mayor número de regiones vecinas de la imagen identificadas como casos de error que un segundo caso de error que tiene un menor número de regiones vecinas de la imagen identificadas como casos de error.

Description

DESCRIPCIÓN

Método y sistema para minar eficientemente elementos esenciales de un conjunto de datos con estrategia de remuestreo con reposición en estimación de pose con 6DOF de objetos en 3D

Prioridad

Esta solicitud reivindica el beneficio de la prioridad de la solicitud de patente provisional estadounidense con número de serie 62/307.883, presentada el 14 de marzo de 2016.

Campo técnico

Esta solicitud se refiere al procesamiento de grandes conjuntos de datos usando redes neuronales de aprendizaje profundo. Más particularmente, esta solicitud se refiere a aplicaciones complejas que usan redes neuronales para estimar poses para objetos en una imagen. Por ejemplo, algunos sistemas diseñados para la identificación de piezas dentro de un ensamblaje basándose en imágenes en 2,5 dimensiones (2,5D) capturadas de porciones del ensamblaje.

En estas aplicaciones, el conjunto de datos es extremadamente grande debido a los seis grados de libertad (6DOF) que incluyen tres grados de movimiento de traslación y tres dimensiones de movimiento de rotación. Con respecto al entrenamiento de una red neuronal para estimar una pose, el problema de medir similitudes en los dos espacios métricos (traslación y rotación) no puede resolverse mediante un método de clasificación/regresión binaria.

Para abordar esta limitación, puede usarse una estrategia de muestreo de tríos en la que se mide una distancia relativa en vez de una distancia métrica directa. Sin embargo, usar tríos da como resultado un aumento drástico del tamaño de conjunto de entrenamiento. Por ejemplo, en un conjunto de datos que contiene M imágenes, el número total de tríos se aproxima a M3. Aunque las técnicas actuales de aprendizaje profundo pueden manejar un conjunto de datos de este tamaño, el entrenamiento de la red neuronal en este caso tardaría una cantidad de tiempo infinita, a la vez que proporcionaría una salida que tiene una precisión menor de la deseada. Por consiguiente, los desafíos que se refieren al muestreo del muestreo de espacio de pose de tríos presentan obstáculos para el problema de la estimación de pose con 6DOF. Por tanto, se desean sistemas y métodos que superan estas desventajas.

Antecedentes

En sistemas complejos, se requiere un mantenimiento en el que una pieza en un ensamblaje debe repararse o reemplazarse ocasionalmente. Los fabricantes de estos sistemas o subsistemas de los mismos pueden tener un gran número de piezas de recambio. Estas piezas pueden identificarse a través de un identificador de pieza, tal como un número de pieza. Sin embargo, la identificación de pieza estando en el campo puede ser difícil. En grandes sistemas, tales como soluciones de movilidad que implican trenes, cuando surge un problema, se envía a un técnico de campo a la ubicación del equipo. El técnico de campo tiene un conocimiento especializado en cuanto al funcionamiento del tren e identifica la pieza que tiene que repararse o reemplazarse. Una vez que la pieza se identifica en el campo, la pieza debe pedirse, usando su identificador de pieza, y debe ubicarse una pieza de recambio dentro del sistema de distribución del fabricante. Además, el inventario de piezas puede contener piezas similares, dificultando la identificación de la pieza correcta necesaria.

El entrenamiento profundo de redes neuronales es una tecnología emergente que está haciéndose notar mucho. Las redes de aprendizaje profundo pueden aprender características del objeto sobre el que actúan. Sin embargo, el entrenamiento inicial de estas redes depende de la relevancia y la calidad de los datos de entrenamiento inicial. Además, el tamaño de las bases de datos usadas para el entrenamiento debe gestionarse a un nivel que permita tiempos de procesamiento aceptables.

“Learning descriptors for object recognition and 3D pose estimation”, de WOHLHART, Paul et al, en: IEEE Conference on computer vision and pattern recognition (CVPR), IEEE, 7 de junio de 2015, páginas 3109 - 3118, da a conocer un enfoque para computar desciptores para el reconocimiento de objetos y poses en 3D por medio de una red neuronal.

“Pose embeddings: a deep architecture for learning to match human poses”, de MORI, Greg et al, 1 de julio de 2015, páginas 1 - 9, da a conocer un enfoque para una arquitectura computacional para aprender a emparejar poses humanas a partir de diversas imágenes por medio de una red neuronal.

Se desean sistemas y métodos mejorados que aborden estos desafíos.

Sumario

La invención se define en las reivindicaciones independientes adjuntas. Se definen realizaciones de la invención en las reivindicaciones dependientes adjuntas.

Breve descripción de los dibujos

Los anteriores y otros aspectos de la presente invención se entienden mejor a partir de la siguiente descripción detallada cuando se lee en relación con los dibujos adjuntos. Con el propósito de ilustrar la invención, en los dibujos se muestran realizaciones que se prefieren actualmente, entendiéndose, sin embargo, que la invención no se limita a los medios específicos dados a conocer. En los dibujos se incluyen las siguientes figuras:

la figura 1 es un diagrama que ilustra un procedimiento de entrenamiento iterativo para una red neuronal de aprendizaje profundo según aspectos de una realización de esta divulgación.

la figura 2 es un diagrama de bloques de una red neuronal profunda que puede usarse en aspectos de realizaciones descritas en esta divulgación.

la figura 3 es un diagrama de flujo de procesos para entrenar una red neuronal profunda según aspectos de una realización de esta divulgación.

la figura 4 es un diagrama de bloques de un sistema informático y un dispositivo de captura de imágenes para un sistema de estimación de pose según aspectos de realizaciones de la presente divulgación.

Descripción detallada

En esta divulgación se presenta un método que puede mejorar significativamente la eficiencia del entrenamiento de una red neuronal profunda con un conjunto de datos extremadamente grande. Esto permite identificar automáticamente piezas de recambio de cualquier escala dentro de un ensamblaje de la industria. A modo de ejemplo no limitativo, un ensamblaje de la industria al que pueden aplicarse estos métodos es un ensamblaje de un tren, identificando piezas específicas a partir de una única instantánea de imagen de 2,5 dimensiones tomada a partir de un dispositivo de detección de profundidad.

Con un objetivo orientado a reconocer piezas de recambio independientemente del tamaño del objeto, no puede aplicarse directamente al problema de reconocimiento un método basado en una clasificación de imágenes tradicional. Para superar esto, se formula un problema de reconocimiento de pose de objetos en 3D que estima la pose de cámara de la imagen de entrada y la mapea con respecto al modelo de diseño asistido por ordenador (CAD) en 3D del objeto. Una vez mapeado, puede transferirse la identificación de pieza del CAD a la imagen de entrada.

La identificación de la pose precisa de un objeto en 3D presenta un desafío. Una manera habitual de resolver el problema de estimación de pose es consultar la imagen de entrada dentro de un conjunto de datos grande recopilado previamente, en el que se han calculado las poses de realidad de campo. La consulta de imagen devuelve una lista de vecinos más cercanos, que infieren la pose real de la imagen de entrada. Por tanto, la precisión del algoritmo de estimación de pose se determina por la capacidad del algoritmo de encontrar los vecinos más cercanos reales a partir de un conjunto de datos grande.

En las aplicaciones del mundo real, el conjunto de datos habitualmente es extremadamente grande basado en seis grados de libertad asociados con el objeto en 3D, incluyendo 3 dimensiones de traslación y otras 3 dimensiones de rotación (por ejemplo, la dirección de observación). Debido a que resulta impracticable poner datos a partir de todas las poses en el conjunto de datos, se usa un espacio de pose discreto submuestreado para representar todo el espacio lineal. Conseguir una base de datos representativa y aun así compacta para los propósitos de consulta/indexación es crítico para resolver el problema de estimación de pose.

Otra barrera para el problema de estimación de pose es la organización de los datos de entrenamiento. Puesto que resulta difícil medir directamente las similitudes en dos espacios métricos diferentes (por ejemplo, traslación y rotación), el problema no puede resolverse por un método de clasificación/regresión binaria convencional. Por este motivo, se ha desarrollado una estrategia de muestreo de trío en el que se mide una distancia relativa en vez de una distancia métrica directa.

Específicamente, a cada muestra x en un conjunto de datos se le dará una muestra x+ y x- que se definen como una muestra más cercana y una muestra más lejana, respectivamente. El objetivo es aprender una función de distancia f de tal manera que para cualquier nuevo trío de las muestras (x,x+,x-) el trío obedece la condición de que f(x,x+)<f(x,x). Es habitualmente más fácil aplicar la estrategia de muestreo de trío en aplicaciones a escala muy grande, pero aumenta drásticamente el tamaño del conjunto de entrenamiento. Por ejemplo, considerando un conjunto de datos que contiene M imágenes, el número total de tríos puede aproximarse a M3. Aunque los algoritmos de aprendizaje profundo recientes tales como redes neuronales profundas podrían manejar un conjunto de datos tan grande, tardarían una cantidad de tiempo infinita en completar el entrenamiento. A pesar de este obstáculo, el resultado puede ser, sin embargo, menos útil de lo esperado. Por consiguiente, minar la información de trío más útil es crítico para el problema de estimación de pose.

Tal como se mencionó anteriormente, existen dos cuestiones principales para resolver el problema de estimación de pose con 6DOF de un objeto en 3D. En primer lugar, debe establecerse el muestreo del espacio de pose. En segundo lugar, debe realizarse el muestreo de los tríos. En esta divulgación se implementa una canalización de remuestreo con reposición ("bootstrapping") novedosa para resolver los dos problemas juntos. En realizaciones, se identifican casos de error entre los datos de consulta procesados por la red neuronal y una base de datos de validación. Se identifica un caso de error cuando la red neuronal determina que el trío viola la condición f(x,x+)<f(x,x-) lo que significa que la red neuronal determinó que se pensó que la muestra más cercana en el trío era la muestra más lejana. En el método de remuestreo con reposición canalizado iterativo según realizaciones de la divulgación, algunos o la totalidad de los casos de error identificados se usan para construir un nuevo conjunto de datos de entrenamiento. El nuevo conjunto de datos de entrenamiento se introduce en la red neuronal para entrenar de nuevo o ajustar de manera precisa la red neuronal, reduciendo de ese modo el tamaño del conjunto de entrenamiento.

La figura 1 es una ilustración de una canalización de remuestreo con reposición según aspectos de realizaciones de la divulgación. La canalización completa utiliza un enfoque iterativo y con respecto a la figura 1, los conjuntos de datos se denotan como cilindros, nódulos principales se denotan como círculos y resultados intermedios se denotan por rectángulos.

Se establece un conjunto 101 de datos inicial y se proporcionan datos en el conjunto 101 de datos inicial a una red 103 neuronal de aprendizaje profundo (DL). Los modos 105 de aprendizaje profundo de la red neuronal se validan 107 usando un conjunto 117 de datos de validación. Las muestras de la base 110 de datos inicial con respecto a las cuales se determine que varían del conjunto de datos de validación se identifican como casos 109 de fallo. Se realiza un análisis 111 estadístico sobre los datos de validación, incluyendo los casos de error, para crear de manera iterativa un nuevo conjunto 113, 115 de datos de entrenamiento que se proporciona como realimentación 120 a la red 103 neuronal para un entrenamiento de DL adicional. Por tanto, se genera una lista de conjuntos de datos de entrenamiento comenzando con el conjunto 101 de datos inicial, continuando con un nuevo conjunto 113 de datos de entrenamiento #1, y terminando con un nuevo conjunto 115 de datos de entrenamiento #n, donde n es el número de iteraciones realizadas.

Para establecer la canalización de entrenamiento, tienen que construirse dos conjuntos de datos. El primer conjunto de datos será la base 101 de datos inicial, que almacena imágenes que representan diferentes poses de cámara. El muestreo de poses de la base 101 de datos inicial no es crítico pero puede adoptar una o más estrategias, tales como muestreo aleatorio o uniforme en todo el espacio de poses con 6DOF, o simplemente implementar una comprobación de visibilidad para seleccionar sólo las poses que pueden conseguirse a partir de poses de cámara factibles. La base 101 de datos inicial está configurada para ser suficientemente dispersa de tal manera que la base 101 de datos inicial sólo contiene sólo porciones pequeñas de todo el espacio de poses.

El segundo requerido es el conjunto 117 de datos de validación, que cubre potencialmente todo el espacio de poses. El motivo de este conjunto de datos de validación es para evaluar el rendimiento del algoritmo de aprendizaje profundo automático en la iteración de remuestreo con reposición actual. Según unas realizaciones, el algoritmo de aprendizaje automático es una red neuronal profunda, un ejemplo del cual se muestra en la figura 2.

Haciendo referencia a la figura 2, se muestra una realización a modo de ejemplo de una red neuronal de aprendizaje profundo, que puede usarse para implementar aspectos de esta divulgación. La red neuronal incluye una primera capa 210 convolucional que incluye una capa 211 de unidad lineal rectificada (ReLu) y una capa 212 de agrupamiento. Una segunda capa 220 convolucional, que incluye una capa 221 ReLu y una capa 222 de agrupamiento. Las capas 210, 220 convolucionales primera y segunda proporcionan sus salidas a una primera capa 230 completamente conectada que tiene una capa 231 ReLu y una segunda capa 240 completamente conectada que tiene una capa 241 ReLu. Las capas 211, 221, 231 y 241 ReLu y las capas 212, 222 de agrupamiento aumentan las propiedades de no linealidad de la función de decisión. La salida de la segunda capa 240 completamente conectada da como resultado un vector 250 de característica de N dimensiones.

Con referencia de nuevo a la figura 1, cuando se crea la base 101 de datos de consulta inicial, puede generarse una pequeña lista de muestras de tríos, que se usan para entrenar la red 103 neuronal profunda. La red neuronal divide las muestras de trío de entrada y aprende de manera iterativa una función de mapeo para minimizar una función de pérdida f predefinida. Por ejemplo, la minimización de la función de pérdida predefinida puede conseguirse usando un descenso de gradiente estocástico u otros métodos similares. Cuando se entrena la red neuronal profunda, la capa de pérdida se elimina y la red emite directamente un vector de características para cada dato de entrada. Por tanto, para cada dato en el conjunto 117 de datos de validación, se emite un vector de características de N dimensiones (N-D) por la red neuronal.

Se realiza una búsqueda para identificar los vecinos más cercanos de los datos de entrada dentro de la base de datos inicial. Las diferencias de pose en las imágenes se determinan comparando los vecinos más cercanos consultados con la realidad de campo contenida en los datos de validación. Por consiguiente, este procedimiento se denomina validación. Si la diferencia de pose es mayor que un umbral predefinido, la imagen de entrada a partir del conjunto de datos de validación y sus vecinos consultados se tratará como un caso de error y se etiquetará como x y x-, respectivamente. El método selecciona entonces una muestra aleatoria x+ a partir de la base de datos inicial para formar una nueva muestra de trío. Dicho de otro modo, debe reconocerse que las dos están lejos entre sí según la realidad de campo, sin embargo, la red neuronal las reconoció incorrectamente como un par cercano (por ejemplo x+). Por tanto, este caso de error identificado es útil para el aprendizaje y se puebla en la siguiente iteración de conjunto de datos de entrenamiento.

Puesto que sólo se elige una pequeña porción de las muestras de trío, la red neuronal sobreajustará probablemente el conjunto de datos de entrenamiento en iteraciones tempranas. En estos casos, el error de entrenamiento es cercano a cero pero el error de validación es todavía grande. Por tanto, la red neuronal se entrena de nuevo durante estas primeras iteraciones. Una vez que el rendimiento de validación alcanza algún umbral, sólo se realiza el ajuste fino de la red en lugar de entrenar de nuevo. Este procedimiento reduce significativamente el periodo de entrenamiento global de la canalización y garantiza todavía una convergencia temprana.

Después de la etapa de validación 107, el sistema captura un agrupamiento de casos de error. Una estrategia sencilla implica comenzar la siguiente iteración añadiendo todos los casos de fallo al conjunto de datos de entrenamiento actual y formar un nuevo conjunto de datos de entrenamiento para la siguiente iteración o ronda de entrenamiento. Debido a que los casos de error al principio habitualmente superan en número la base de datos inicial, añadir todos los casos de error genera una desviación en el sentido opuesto. Esta desviación inversa hace que la etapa de entrenamiento oscile entre dos direcciones y resista la convergencia. Por este motivo, durante las primeras iteraciones del procedimiento de remuestreo con reposición, se realiza un análisis 111 estadístico de los casos de fallo y se añaden sólo casos de fallo representativos a la siguiente iteración. Ejemplos de casos de error representativos que se usan pueden caracterizarse tal como sigue:

• Centro de agrupación de casos de error ubicados dentro de un determinado radio;

• Errores relativamente mayores en comparación con otros; y

• Poseer más vecinos de errores que otros.

Después de la etapa de análisis estadístico 111 y la adición de los casos de error al nuevo conjunto 113, 115 de datos de entrenamiento, el algoritmo inicializará la siguiente ronda de remuestreo 120 con reposición. El procedimiento completo se ejecuta a lo largo de varias iteraciones hasta que el rendimiento del conjunto 117 de datos de validación alcanza el objetivo de salida.

Haciendo referencia a la figura 3, se muestra un flujo de procesos para un método de entrenamiento de una red neuronal de aprendizaje profundo para reconocimiento de características con 6DOF según aspectos de realizaciones dadas a conocer. En la etapa 310, se crea una base de datos de consulta inicial. La base de datos inicial puede incluir un conjunto generado aleatoriamente de muestras de trío. El conjunto de muestras de trío se usa para entrenar la red neuronal de aprendizaje profundo. La red neuronal se entrena minimizando una función de pérdida predefinida f en la etapa 320. La calidad de entrenamiento de la red neuronal se valida contra el conjunto 330 de datos de validación. La validación incluye comparar vecinos más cercanos seleccionados de los datos de entrada con valores de realidad de campo en el conjunto 340 de datos de validación. La diferencia tal como se identifica mediante la comparación se compara entonces con una diferencia 250 de umbral. Si la diferencia determinada mediante la comparación supera el valor de umbral, los datos de validación y los datos de entrada junto con sus vecinos más cercanos se identifican como un caso de error usado para un entrenamiento futuro de la base 370 de datos. Los casos de error resultantes a partir de la comparación 340 se examinan para determinar si se ha producido 380 la convergencia. Si los casos de error no han convergido, los casos de error se introducen en la red neuronal de aprendizaje profundo para realizar otra iteración de entrenamiento de la red 320 neuronal. Si se ha producido la convergencia, el procedimiento de entrenamiento se detiene y el procedimiento de entrenamiento finaliza 390.

L figura 4 ilustra un entorno 400 informático a modo de ejemplo en el que pueden implementarse las realizaciones de la invención. Ordenadores y entornos informáticos, tales como el sistema 410 informático y el entorno 400 informático, se conocen por los expertos en la técnica y por tanto se describen brevemente en este caso.

Tal como se muestra en la figura 4, el sistema 410 informático puede incluir un mecanismo de comunicación tal como un bus 421 de sistema u otro mecanismo de comunicación para comunicar información dentro del sistema 410 informático. El sistema 410 informático incluye además uno o más procesadores 420 acoplados con el bus 421 de sistema para el procesamiento de la información.

Los procesadores 420 pueden incluir una o más unidades centrales de procesamiento (CPU), unidades gráficas de procesamiento (GPU), o cualquier otro procesador conocido en la técnica. Más generalmente, un procesador tal como se usa en el presente documento es un dispositivo para ejecutar instrucciones legibles por máquina almacenadas en un medio legible por ordenador, para realizar tareas y puede comprender uno cualquiera o una combinación de, hardware y firmware. Un procesador también puede comprender una memoria que almacena instrucciones legibles por máquina ejecutables para realizar tareas. Un procesador actúa sobre la información manipulando, analizando, modificando, convirtiendo o transmitiendo información para su uso por un procedimiento ejecutable o un dispositivo de información, y/o encaminando la información a un dispositivo de salida. Un procesador puede usar o comprender las capacidades de un ordenador, controlador o microprocesador, por ejemplo, y estar condicionado usando instrucciones ejecutables para realizar funciones de propósito especial no realizadas por un ordenador de propósito general. Un procesador puede acoplarse (eléctricamente y/o como que comprende componentes ejecutables) con cualquier otro procesador que permite la interacción y/o la comunicación entre los mismos. Un generador o procesador de interfaz de usuario es un elemento conocido que comprende un conjunto de circuitos electrónicos o software o una combinación de ambos para la generación de imágenes de representación visual o porciones de las mismas. Una interfaz de usuario comprende una o más imágenes de representación visual que permiten la interacción del usuario con un procesador u otro dispositivo.

Continuando con referencia a la figura 4, el sistema 410 informático también incluye una memoria 430 de sistema acoplada al bus 421 de sistema para almacenar información e instrucciones que van a ejecutarse por procesadores 420. La memoria 430 de sistema puede incluir medios de almacenamiento legibles por ordenador en forma de memoria volátil y/o no volátil, tal como una memoria 431 de sólo lectura (ROM) y/o memoria 432 de acceso aleatorio (RAM). La RAM 432 puede incluir otro(s) dispositivo(s) de almacenamiento dinámico (por ejemplo, RAM dinámica, RAM estática y DRAM síncrona). La ROM 431 puede incluir otro(s) dispositivo(s) de almacenamiento estático (por ejemplo, ROM programable, PROM borrable y PROM eléctricamente borrable). Además, la memoria 430 de sistema puede usarse para almacenar variables temporales u otra información intermedia durante la ejecución de instrucciones por los procesadores 420. Un sistema 433 de entrada/salida básico (BIOS) que contiene las rutinas básicas que ayudan a transferir información entre elementos dentro de un sistema 410 informático, tal como durante el arranque, puede almacenarse en la ROM 431. La RAM 432 puede contener datos y/o módulos de programa que son accesibles inmediatamente para y/o sobre los que actúan en el momento los procesadores 420. La memoria 430 de sistema puede incluir adicionalmente, por ejemplo, un sistema 434 operativo, programas 435 de aplicación, otros módulos 436 de programa y datos 437 de programa.

El sistema 410 informático también incluye un controlador 440 de disco acoplado al bus 421 de sistema para controlar uno o más dispositivos de almacenamiento para almacenar información e instrucciones, tales como un disco 441 duro magnético y una unidad 442 de medios extraíble (por ejemplo, unidad de disquete, unidad de disco compacto, unidad de cinta y/o unidad de estado sólido). Pueden añadirse dispositivos de almacenamiento al sistema 410 informático usando una interfaz de dispositivo apropiada (por ejemplo, una interfaz de sistemas informáticos pequeños (SCSI), electrónica de dispositivo integrado (IDE), bus serie universal (USB), o FireWire).

El sistema 410 informático también puede incluir un controlador 465 de representación visual acoplado al bus 421 de sistema para controlar un elemento de representación visual o monitor 466, tal como un tubo de rayos catódicos (CRT) o una pantalla de cristal líquido (LCD), para representar visualmente información a un usuario del ordenador. El sistema informático incluye una interfaz 460 de entrada y uno o más dispositivos de entrada, tales como un teclado 462 y un dispositivo 461 de puntero, para interactuar con un usuario del ordenador y proporcionar información a los procesadores 420. El dispositivo 461 de puntero, por ejemplo, puede ser un ratón, un lápiz óptico, un puntero de bola o un botón de puntero para comunicar información de dirección y selecciones de comandos a los procesadores 420 y para controlar el movimiento del cursor sobre el elemento 466 de representación visual. El elemento 466 de representación visual puede proporcionar una interfaz de pantalla táctil que permite la entrada para complementar o reemplazar la comunicación de información de dirección y selecciones de comando por el dispositivo 461 de puntero.

El sistema 410 informático puede realizar una porción o la totalidad de las etapas de procesamiento de realizaciones de la invención en respuesta a que los procesadores 420 ejecutan una o más secuencias de una o más instrucciones contenidas en una memoria, tal como la memoria 430 de sistema. Tales instrucciones pueden leerse en la memoria 430 de sistema a partir de otro medio legible por ordenador, tal como un disco 441 duro magnético o una unidad 442 de medios extraíble. El disco 441 duro magnético puede contener uno o más almacenamientos de datos y archivos de datos usados por realizaciones de la presente invención. El contenido de almacenamiento de datos y los archivos de datos pueden encriptarse para mejorar la seguridad. Los procesadores 420 también pueden emplearse en una disposición multiprocesamiento para ejecutar la una o más secuencias de instrucciones contenidas en la memoria 430 de sistema.

Tal como se mencionó anteriormente, el sistema 410 informático puede incluir al menos una memoria o medio legible por ordenador para contener instrucciones programadas según realizaciones de la invención y para contener estructuras de datos, tablas, registros u otros datos descritos en el presente documento. El término “medio legible por ordenador” tal como se usa en el presente documento se refiere a cualquier medio que participa en proporcionar instrucciones a los procesadores 420 para su ejecución. Un medio legible por ordenador puede tomar muchas formar que incluyen, pero no se limitan a, medios no transitorios y no volátiles, medios volátiles y medios de transmisión. Los ejemplos no limitativos de medios no volátiles incluyen discos ópticos, unidades de estado sólido, discos magnéticos y discos magnetoópticos, tales como disco 441 duro magnético o unidad 442 de medios extraíble. Los ejemplos no limitativos de medios volátiles incluyen una memoria dinámica, tal como una memoria 430 de sistema. Los ejemplos no limitativos de medios de transmisión incluyen cables coaxiales, cable de cobre y fibra óptica, incluyendo los cables que componen el bus 421 de sistema. Los medios de transmisión también pueden tomar la forma de ondas acústicas o de luz, tales como las generadas durante comunicaciones de datos por ondas de radio e infrarrojas.

El entorno 400 informático puede incluir además el sistema 410 informático que funciona en un entorno en red que usa conexiones lógicas a uno o más ordenadores remotos, tales como un dispositivo 480 informático remoto. El dispositivo 480 informático remoto puede ser un ordenador personal (portátil o de escritorio), un dispositivo móvil, un servidor, un enrutador, un PC de red, un dispositivo del mismo nivel u otro nodo de red habitual, y normalmente incluye muchos o todos los elementos descritos anteriormente con respecto al sistema 410 informático. Cuando se usa en un entorno de red, el sistema 410 informático puede incluir un módem 472 para establecer comunicaciones a través de una red 471, tal como Internet. El módem 472 puede conectarse a un bus 421 de sistema a través de una interfaz 470 de red de usuario, o a través de otro mecanismo apropiado. Los aspectos de realizaciones de esta divulgación incluyen un dispositivo 490 de captura de imagen en comunicación con la red 471. Las imágenes capturadas por el dispositivo 490 de captura de imágenes se comunican a un sistema 410 informático para su procesamiento. Las imágenes pueden realizarse como archivos digitales en los que los elementos de foto (píxeles) contienen datos relacionados con objetos capturados en la imagen. Los datos de píxel pueden procesarse en un sistema 410 informático para realizar un reconocimiento de características en las imágenes según aspectos de métodos descritos en el presente documento.

La red 471 puede ser cualquier red o sistema conocido de manera general en la técnica, incluyendo Internet, una intranet, una red de área local (LAN), una red de área amplia (WAN), una red de área metropolitana (MAN), una conexión directa o serie de conexiones, una red de teléfono celular, o cualquier otra red o medio capaz de facilitar la comunicación entre un sistema 410 informático y otros ordenadores (por ejemplo, el dispositivo 780 informático remoto). La red 471 puede ser cableada, inalámbrica o una combinación de las mismas. Las conexiones cableadas pueden implementarse usando Ethernet, bus serie universal (USB), RJ-6, o cualquier otra conexión cableada conocida de manera general en la técnica. Pueden implementarse conexiones inalámbricas usando Wi-Fi, WiMAX, y Bluetooth, infrarrojos, redes celulares, satélite o cualquier otra metodología de conexión inalámbrica conocida de manera general en la técnica. Adicionalmente, varias redes pueden trabajar solas o en comunicación entre sí para facilitar la comunicación en la red 471.

Una aplicación ejecutable, tal como se usa en el presente documento, comprende un código o instrucciones legibles por máquina para condicionar al procesador para que implemente funciones predeterminadas, tales como las de un sistema operativo, un sistema de adquisición de datos de contexto u otro sistema de procesamiento de información, por ejemplo, en respuesta a un comando o entrada de usuario. Un procedimiento ejecutable es un segmento de código o instrucción legible por máquina, subrutina u otra sección distinta de código o porción de una aplicación ejecutable para realizar uno o más procedimientos particulares. Estos procedimientos pueden incluir recibir datos y/o parámetros de entrada, realizar operaciones sobre datos de entrada recibidos y/o realizar funciones en respuesta a parámetros de entrada recibidos, y proporcionar datos y/o parámetros de salida resultantes.

Una interfaz gráfica de usuario (GUI), tal como se usa en el presente documento, comprende una o más imágenes de representación visual, generadas por un procesador de elemento de representación visual y que permite la interacción del usuario con un procesador u otro dispositivo y funciones de adquisición y procesamiento de datos asociadas. La GUI también incluye un procedimiento ejecutable o una aplicación ejecutable. El procedimiento ejecutable o la aplicación ejecutable condiciona el procesador de elemento de representación visual para que genere señales que representan las imágenes de representación visual de la GUI. Estas señales se proporcionan a un dispositivo de representación visual que representa visualmente la imagen para que la vea el usuario. El procesador, bajo control de un procedimiento ejecutable o una aplicación ejecutable, manipula las imágenes de representación visual de la GUI en respuesta a señales recibidas desde los dispositivos de entrada. De esta manera, el usuario puede interactuar con la imagen de representación visual usando los dispositivos de entrada, lo que permite la interacción del usuario con el procesador u otro dispositivo.

Las funciones y etapas de procedimiento en el presente documento pueden realizarse automática o completa o parcialmente en respuesta a un comando de usuario. Una actividad (incluyendo una etapa) realizada automáticamente se realiza en respuesta a una o más instrucciones ejecutables o funcionamiento de dispositivo sin la activación directa del usuario de la actividad.

El sistema y los procedimientos de las figuras no son exclusivos. Pueden obtenerse otros sistemas, procedimientos y menús según los principios de la invención para conseguir los mismos objetivos. Aunque esta invención se ha descrito con referencia a realizaciones particulares, debe entenderse que las realizaciones y variaciones mostradas y descritas en el presente documento son sólo por motivos de ilustración. Pueden implementarse modificaciones al diseño actual por parte de los expertos en la técnica, sin aparatarse del alcance de la invención. Tal como se describe en el presente documento, los diversos sistemas, subsistemas, agentes, gestores y procedimientos pueden implementarse usando componentes de hardware, componentes de software y/o combinaciones de los mismos.

Claims

REIVINDICACIONES

i. Método implementado por ordenador para identificar una pose en una primera imagen que comprende: establecer una base (101) de datos inicial de tríos de imágenes;

en un procesador (420) de estimación de pose:

entrenar una red (103) neuronal de aprendizaje profundo usando la base (101) de datos inicial de tríos de imágenes;

calcular la pose para la primera imagen usando la red (103) neuronal de aprendizaje profundo; comparar la pose calculada con una base (117) de datos de validación poblada con datos de imágenes para identificar un caso de error en la red (103) neuronal de aprendizaje profundo;

crear un nuevo conjunto de datos (113, 115) de entrenamiento que incluyen una pluralidad de casos de error identificados en una pluralidad de imágenes de entrada;

entrenar de nuevo la red (103) neuronal de aprendizaje profundo usando el nuevo conjunto de datos (113, 115) de entrenamiento, y estando el método caracterizado por el procesador (420) de estimación de pose que lleva a cabo un análisis (111) estadístico sobre una pluralidad de casos de error para seleccionar un subconjunto de la pluralidad de casos de error que va a incluirse en el nuevo conjunto de datos (113, 115) de entrenamiento, en el que el análisis (111) estadístico comprende al menos uno de:

identificar un centro de agrupación de casos de error ubicado dentro de un radio predeterminado dentro de una imagen de entrada, o

identificar un grado de error en un caso de error y seleccionar un primer caso de error que tiene un mayor grado de error que un segundo caso de error que tiene un menor grado de error que el primer caso de error, y que incluye el primer caso de error en el nuevo conjunto de datos (113, 115) de entrenamiento, o identificar un primer caso de error que tiene un mayor número de regiones vecinas de la imagen identificadas como casos de error que un segundo caso de error que tiene un menor número de regiones vecinas de la imagen identificadas como casos de error.
2. Método implementado por ordenador según la reivindicación 1, que comprende además:

entrenar de nuevo de manera iterativa la red (103) neuronal de aprendizaje profundo con una serie de nuevos conjuntos (113, 115) de datos de entrenamiento.
3. Método implementado por ordenador según la reivindicación 1, en el que la base (117) de datos de validación contiene imágenes anotadas para un ensamblaje de piezas, correspondiendo las imágenes anotadas al ensamblaje de piezas a través de tres grados de libertad de traslación y a través de tres grados de libertad de rotación.
4. Método implementado por ordenador según la reivindicación 1, en el que cada trío de imágenes representa tres imágenes, una primera imagen relacionada con una segunda imagen, que está más cerca de la primera imagen y una tercera imagen que está más lejos de la primera imagen que la segunda imagen.
5. Método implementado por ordenador según la reivindicación 4, en el que identificar un caso de error comprende identificar un trío de imágenes en el que la red (103) neuronal de aprendizaje profundo genera una salida indicativa de que la tercera imagen está más cerca de la primera imagen que la segunda imagen.
6. Método implementado por ordenador de identificar una pieza dentro de un ensamblaje, que comprende: capturar una primera imagen del ensamblaje mediante un dispositivo (490) de captura de imagen; recibir la primera imagen capturada en una red (103) neuronal de aprendizaje profundo, en el que la red (103) neuronal de aprendizaje profundo se entrena con un método según la reivindicación 1;

en el procesador (420) de estimación de pose, determinar una pose del ensamblaje en la primera imagen capturada basándose en el procesamiento de la primera imagen capturada recibida en la red (103) neuronal de aprendizaje profundo;

representar gráficamente a un usuario al menos una pieza identificada en la primera imagen basándose en la pose determinada del ensamblaje;

seleccionar, por parte del usuario, una pieza de la al menos una pieza identificada;

asociar un identificador de pieza con la pieza seleccionada, y

comunicar a un ordenador remoto el identificador de pieza asociado con la pieza seleccionada, en el que la comunicación puede hacerse funcionar para hacer que el ordenador remoto ejecute una orden para una pieza de reemplazo que tiene el identificador de pieza comunicado con el ordenador remoto.

Método implementado por ordenador según la reivindicación 6, que comprende además:

entrenar de nuevo de manera iterativa la red (103) neuronal de aprendizaje profundo con una serie de nuevos conjuntos (113, 115) de datos de entrenamiento.

Medio legible por ordenador no transitorio en el que se almacenan instrucciones que cuando se ejecutan por un ordenador (410) hacen que el ordenador

establezca una base (101) de datos inicial de tríos de imágenes;

haga que un procesador (420) de estimación de pose:

entrene una red (103) neuronal de aprendizaje profundo usando la base (101) de datos inicial de tríos de imágenes;

calcule una pose para la primera imagen usando la red (103) neuronal de aprendizaje profundo; compare la pose calculada con una base (117) de datos de validación poblada con datos de imágenes para identificar un caso de error en la red (103) neuronal de aprendizaje profundo;

cree un nuevo conjunto de datos (113, 115) de entrenamiento que incluye una pluralidad de casos de error identificados en una pluralidad de imágenes de entrada; y

entrene de nuevo la red (103) neuronal de aprendizaje profundo usando el nuevo conjunto de datos (113, 115) de entrenamiento, y caracterizado porque hace además que el procesador (420) de estimación de pose

lleve a cabo un análisis (111) estadístico sobre una pluralidad de casos de error para seleccionar un subconjunto de la pluralidad de casos de error que va a incluirse en el nuevo conjunto de datos (113, 115) de entrenamiento, en el que el análisis (111) estadístico comprende:

identificar un grado de error en un caso de error y seleccionar un primer caso de error que tiene un mayor grado de error que un segundo caso de error que tiene un menor grado de error que el primer caso de error, e incluye el primer caso de error en el nuevo conjunto de datos (113, 115) de entrenamiento, o identificar un primer caso de error que tiene un mayor número de regiones vecinas de la imagen identificadas como casos de error que un segundo caso de error que tiene un menor número de regiones vecinas de la imagen identificadas como casos de error.

Medio legible por ordenador no transitorio según la reivindicación 8, que comprende además: instrucciones que cuando se ejecutan por el procesador (420) de estimación de pose, hacen que el procesador (420) de estimación de pose entrene de nuevo de manera iterativa la red (103) neuronal de aprendizaje profundo con una serie de nuevos conjuntos (113, 115) de datos de entrenamiento.