DESCRIPCIÓN
MÉTODO PARA DETERMINAR UN MODELO DE AGARRE DE MANO
OBJETO DE LA INVENCIÓN
El campo técnico de la invención está relacionado con el procesamiento de imágenes y el uso de algoritmos de aprendizaje profundo para predecir modelos de manos de agarre. En particular, la invención se refiere a un método para determinar un agarre modelo de la mano a partir de una sola imagen RGB (rojo, verde y azul) de un objeto, determinando posibilidades sobre cómo un humano podría agarrar dicho objeto.
Un primer objeto de la invención es proporcionar un método para determinar un modelo de agarre de mano adecuado para agarrar un objeto usando algoritmos de aprendizaje profundo. Por lo tanto, permitiendo predecir un modelo de agarre de mano factible de una manera precisa y eficiente.
La invención también se refiere a un programa de computadora y un medio de almacenamiento legible por computadora, que contiene dicho programa de computadora, que almacena las instrucciones del método de la invención.
ANTECEDENTES DE LA INVENCIÓN
En el estado del arte, aprender a partir de demostraciones humanas (LfD) es un enfoque popular para enseñar a los robots nuevas habilidades sin programarlas explícitamente. En LfD, un robot sigue el ejemplo de una persona cuya pose de cuerpo o mano es extraída e imitada por la propia configuración cinemática del robot.
Sin embargo, este paradigma de aprendizaje requiere que el humano realice la misma tarea, o una muy similar, a la tarea que debe aprender el robot.
El agarre robótico es un tema ampliamente investigado, en el que la mayoría de los enfoques anteriores han considerado pinzas simples con un número reducido de puntos de contacto, lo que sería equivalente a que una mano humana agarre un objeto usando solo dos dedos.
Algunos enfoques recientes han estudiado tareas centradas en humanos basadas en algoritmos de aprendizaje profundo, como la estimación de pose, reconstrucción y predicción de movimiento.
La estimación de la postura de la mano se ha estudiado en gran medida en los últimos años, impulsada en parte por la disponibilidad de numerosos conjuntos de datos anotados y la aparición de sensores de profundidad de bajo coste.
Sin embargo, la mayoría de estos estudios abordan la estimación de la postura de la mano a partir de imágenes RGB-D, aprovechando la información 2.5D contenida en las imágenes de profundidad para predecir directamente las posiciones de las articulaciones de la mano en 3D.
Incluso más recientemente, se han hecho algunos esfuerzos para abordar la tarea más desafiante de la predicción de la forma de la mano en 3D, en lugar de la ubicación de las articulaciones en 3D, a partir de imágenes RGB. Estos métodos se basan en el modelo paramétrico MANO, que proporciona una representación de baja dimensión de 51 grados de libertad (DoF) del espacio de todas las manos humanas posibles. Una capa diferenciable que mapea de manera determinista los parámetros de pose y forma a las articulaciones de las manos y los vértices permite entrenar modelos profundos utilizando métricas de rendimiento en la malla 3D.
En este campo, aunque los trabajos anteriores se basan en la optimización iterativa o comparaciones con una base de datos de referencia, los últimos métodos hacen uso del aprendizaje profundo.
Algunos trabajos han abordado también la estimación de la postura de la mano en el escenario más complejo de una mano o dos manos, agarrando o manipulando un objeto. Las oclusiones significativas producidas por el objeto manipulado hacen que el problema sea mucho más difícil en comparación con la observación de una mano aislada.
La mayoría de estos trabajos consideran objetos sólidos, que tratan con objetos deformables. Por ejemplo, algunos enfoques resuelven el problema como una tarea de clasificación sobre una taxonomía de 71 agarres, donde cada agarre corresponde a una pose particular de la mano y ciertos puntos de contacto y fuerzas. Otros enfoques recientemente propusieron bases de datos para predecir los posibles puntos de contacto para agarre directamente sobre los objetos.
Otros trabajos recientes predicen conjuntamente la pose de objetos y manos, o las mallas 3D de objetos y manos. También, se han construido bases de datos sintéticas de manos que agarran objetos usando un simulador, llamado simulador GraspIt.
Además, en el pasado se han propuesto algunas taxonomías de agarre, que representan los agarres en las tareas de fabricación, que también incluyen una variedad de agarres y características inusuales como la fuerza de agarre, el movimiento y la rigidez y, más recientemente, que incluyen también primitivas de manipulación para el manejo de telas basado en contactos mano-objetos caracterizados como punto, línea y plano.
Otros trabajos han sugerido definir automáticamente una taxonomía agrupando posiciones conjuntas en un enfoque orientado a los datos para comprender mejor las actividades o posiciones de agarre.
Trabajos anteriores han intentado principalmente predecir puntos salientes en los objetos para agarrar, aplicando aprendizaje profundo para detectar regiones de agarre de un objeto. Principalmente, estos agarres se predicen a partir de la estructura 3D del objeto, primero muestreando miles de candidatos de agarre y, luego, desplazando una pinza robótica abierta hasta hacer contacto con la malla del objeto. A continuación, los candidatos de agarre que no contienen partes de la nube de puntos entre los dedos se descartan, y una calidad de agarre se clasifica utilizando redes neuronales convolucionales. Este enfoque es similar al utilizado en el simulador GraspIt, que permite simular agarres dedos los modelos 3D de mano y objeto.
DESCRIPCIÓN DE LA INVENCIÓN
La invención se refiere a un método para determinar un modelo de agarre que emula cómo un humano agarraría naturalmente uno o varios objetos, dada al menos una imagen de estos objetos. Por lo tanto, el método está destinado a producir un modelo de mano operable con varios puntos de contacto con el objeto de destino, pero sin interseccionar con otros elementos de la escena para predecir un agarre humano, es decir, la forma de la mano y pose más probables que permitirían agarrar un objeto observado. Un modelo de mano se refiere a una pose y forma de mano, y tipo de agarre.
La predicción de agarres humanos, es un problema muy difícil, ya que requiere el modelado de las interacciones físicas y contactos entre un modelo de mano de alta dimensión y una
representación 3D de objetos potencialmente ruidosa estimada a partir de imágenes RGB de entrada. Este es un problema significativamente más complejo que el de generar agarres robóticos, ya que los efectores finales de los robots tienen muchos menos grados de libertad (DoF) que la mano humana.
Además, la práctica común en robótica es usar cámaras RGB-D que, a pesar de simplificar el proceso de modelar la geometría de los objetos, no tienen la versatilidad de las cámaras RGB estándar.
El procedimiento de la invención se basa en una red profunda generadora, que divide la determinación del modelo de mano que agarre en una tarea de clasificación y una tarea de regresión, permitiendo seleccionar una pose de mano y refinarla para mejorar la calidad del modelo. Por lo tanto, se aplica un proceso grueso-a-fino, donde la predicción de la mano se aborda primero como un problema de clasificación seguido de una etapa de refinamiento. Además, diferentes métricas de agarre se maximizan al mismo tiempo, mejorando los modelos de agarre de mano generados.
Preferiblemente, el método de la invención podría emplear el modelo MANO, que es un modelo de mano humana de 51 grados de libertad, aumentando así la capacidad de los robots para realizar agarres más difíciles. Este modelo también aumenta la precisión del resultado final al definir y refinar el modelo con más grados de libertad.
El método de la invención representa un modelo generativo con una arquitectura GAN (Generador y Discriminador), que comprende los siguientes pasos:
a) obteniendo al menos una imagen que incluye al menos un objeto;
b) estimando una pose y forma del objeto a partir de la primera imagen del objeto; c) prediciendo una taxonomía del agarre a partir de un conjunto de taxonomías de agarre mediante algoritmos de redes neuronales artificiales, preferiblemente una red neuronal convolucional, con una función de pérdida de entropía cruzada Lclass (definida más adelante), obteniendo así un conjunto de parámetros que definen un modelo de agarre de mano;
d) refinando el modelo de agarre de la mano, minimizando las funciones de pérdida relacionadas con los parámetros del modelo de agarre de la mano; y
e) obteniendo una representación de una mano que agarra el objeto utilizando el modelo de agarre refinado, preferiblemente obteniendo una malla de dicha pose de mano.
Por lo tanto, el modelo permite, dada al menos una imagen de entrada: 1) estimar o regresar la pose 6D (o pose 3D y forma 3D) de los objetos en la escena; 2) predecir el mejor tipo de agarre según una taxonomía; y 3) refinar una primera configuración de mano dada por la taxonomía de agarre para ajustar con precisión las yemas de los dedos a la forma del objeto, a través de una optimización de los 51 parámetros del modelo MANO que minimizan una función de pérdida de la capacidad de agarre. Este proceso implica maximizar el número de puntos de contacto entre el objeto y el modelo de forma de mano al mismo tiempo que se minimiza la interpenetración.
El método podría configurarse para recibir como entrada una imagen RGB o una imagen de profundidad de un objeto, o alternativamente, una imagen 3D. Aunque las imágenes de profundidad codifican información 3D, solo corresponden a una información 3D parcial del objeto, ignorando la superficie 3D ocluida.
Para predecir los agarres factibles, se necesita una comprensión del contenido semántico de la imagen, su estructura geométrica y todas las posibles interacciones con un modelo físico de la mano, que se lleva a cabo mediante el paso de estimar la pose y la forma del objeto.
Dicho paso podría realizarse llevando a cabo una fase de reconstrucción del objeto, obteniendo así una nube de puntos que representan el objeto de la imagen obtenida, preferiblemente mediante el uso de una ResNet-50 pre-entrenada y refinada. Este método de reconstrucción no requiere conocer el objeto de antemano, pero no es fiable en el caso de varios objetos.
En caso de que la imagen RGB comprenda más de un objeto, los pasos b) hasta e) anteriores se repetirían para cada objeto de la imagen, suponiendo que los objetos sean conocidos.
Durante el entrenamiento, se selecciona aleatoriamente un objeto a la vez, cuya forma 3D se conoce, dicha forma 3D se proyecta en el plano de la imagen para obtener una máscara de segmentación que luego se concatena con la imagen de entrada, mientras que la imagen RGB original proporciona información contextual sobre la escena completa para un agarre más operable.
El procedimiento de la invención permite predecir agarres operables, incluso en escenas desordenadas con varios objetos en contacto próximo, prediciendo cómo un humano podría agarrar uno o varios objetos, dada una o más imágenes de estos objetos.
La imagen de entrada podría ser codificada utilizando una red neuronal convolucional pre entrenada, preferiblemente una arquitectura ResNet, y se obtiene una configuración aproximada de la pose de mano más probable que agarraría el objeto. Esta estimación inicial se formula como un problema de clasificación, entre un número reducido de taxonomías. Por lo tanto, la clase de agarre C que mejor se adapta al objeto objetivo se predice a partir de las taxonomías mediante el uso de una red de clasificación con una función de pérdida de entropía cruzada Lclass, definida por la Eq. 1. Preferiblemente, se selecciona una taxonomía con un conjunto de 33 agarres.
L
class _
X
c
e
K
C
o
,
c
log(1 - P
o
,
c )
Eq. 1
En la Eq. 1, C representa un tipo de agarre para el objeto particular (o), c representa las clases de agarre entre las K posibles clases de agarre, y P representa predicciones de pose para el objeto particular (o).
El modelo de agarre predicho está centrado en sí mismo y se alineará en el sistema de coordenadas de la cámara. Por lo tanto, el paso de seleccionar una taxonomía de agarre podría incluir además una fase de predicción de una traslación y rotación absolutas de la pose de la mano y una configuración de la pose de la mano a partir de una red completamente conectada para alinear la pose de la mano con el sistema de coordenadas de la cámara. En el entrenamiento, la rotación absoluta representa la rotación desde un agarre real con ruido adicional. Por lo tanto, se obtiene una pose rígida absoluta de una estimación aproximada de la mano, agregando un incremento para la traslación y rotación y la configuración aproximada. Se observó que el uso de esta estrategia de predecir el incremento para cada uno de los parámetros acelera significativamente la convergencia durante el entrenamiento y mejora los resultados.
Las diferentes taxonomías se crean agrupando una gran cantidad de poses de manos, definiendo así una serie de clases de agarre que podrían usarse como una etapa inicial para aproximar la configuración de la mano.
El resultado de la clasificación es, por lo tanto, una representación aproximada, que requiere que se alinee con el objeto y se refine. Por lo tanto, el modelo de mano se refina para que se adapte a la geometría del objeto.
Para forzar la viabilidad de los modelos de agarre pronosticados, se usa una capa diferenciable y sin parámetros basada en una arquitectura GAN, donde un discriminador clasifica la factibilidad del agarre dada la postura de la mano y los puntos de contacto, maximizando así las métricas de agarre. Por lo tanto, el discriminador asegura que las formas de mano predichas sean operables al evitar auto colisiones con otros objetos dentro de una escena.
Se utiliza un módulo de refinamiento, que preferiblemente es una red totalmente conectada, que toma como entrada la salida del problema de clasificación y la información geométrica sobre el objeto, para generar una pose de mano refinada Ho, una rotación Ro y una traslación relativa To, donde las posiciones de los dedos están optimizadas para adaptarse a la superficie 3D del objeto.
Dicho paso de refinamiento se realiza mediante la optimización de una función de pérdida que minimiza la distancia entre el modelo de la mano y el objeto, al tiempo que evita la interpenetración y procura generar agarres similares a los humanos. Las funciones de pérdida a optimizar son una combinación del siguiente grupo:
- Distancia entre los vértices del objeto y los arcos obtenidos al girar un ángulo de los vértices de los dedos sobre los ejes articulares. En este caso, se consideran 3 rotaciones para cada dedo, una para cada articulación. Siguiendo la cadena cinemática, desde el nudillo hasta la última articulación, el dedo se dobla, dentro de sus límites físicos, hasta que hace contacto con el objeto.
Formalmente, esto se logra minimizando la distancia (D) entre los vértices del objeto
(O k) y cualquiera de los arcos obtenidos al girar un ángulo 0 los vértices de los dedos alrededor los ejes de las articulaciones, como se representa en la Eq. 2:
Dónde A® es el arco obtenido al girar 0 grados el i-ésimo vértice del dedo del conjunto
de vértices del objeto (O ^ ).
Dada la Eq. 2 para calcular el arco, el ángulo (Y j) que el dedo tiene que ser rotado
alrededor de la primera articulación para colisionar con el objeto puede ser estimado, que está representado por la Eq. 3:
Y j ^ a r g m in D 0 5 , V 0 s. t . D 0 < t d Eq. 3
Dónde 5 (ángulo) es un hiperparámetro que controla la interpenetración de la mano en el objeto y, por lo tanto, la estabilidad de agarre. Además, se define un umbral de límite
superior ( t d ), para definir cuando hay contacto objeto-dedo, preferiblemente 2mm.
A partir de estas dos ecuaciones, se pueden definir las siguientes funciones de pérdida que se usarán para entrenar el modelo:
2
Dónde |J| = 5 es el número de dedos, L arc tiene como objetivo minimizar las
distancias mano-objeto al girar la primera articulación de cada dedo, y L y opera
directamente en los ángulos estimados y los compara con los reales Y j , en el
entrenamiento.
- Distancia entre la punta de los dedos y la superficie 3D del objeto. Para forzar la estabilidad de los agarres, en primer lugar, se identifican los vértices de las manos en los dedos (Vcon t) que tienen más probabilidades de estar en contacto con el objeto
objetivo (O t ) y se optimiza la función de pérdida definida a partir de la Eq. 5:
Dónde los vértices de la mano en los dedos (Vcont ) se calculan como los vértices cercanos al objeto en al menos el 8% de las muestras reales del entrenamiento. Se concentran principalmente en la punta de los dedos y la palma de la mano.
- Interpenetración entre la mano y el objeto. Si los dedos están lo suficientemente cerca de la superficie del objeto y la forma de la mano es operativa, las pérdidas anteriores pueden alcanzar un mínimo, incluso si la mano se coloca incorrectamente dentro del objeto. Para evitar esta situación, se penaliza la interpenetración entre la mano predicha y las mallas de objetos de referencia.
Para hacer esto, se irradia un rayo desde la posición de la cámara de origen a cada vértice de la mano y se cuenta el número de veces que el rayo se cruza con el objeto, determinando si los vértices de la mano están dentro o fuera del objeto. Considerando
V j el conjunto de vértices de la mano que están dentro del objeto, la distancia mínima de cada uno de ellos al punto más cercano de la superficie del objeto se puede minimizar utilizando la función de pérdida:
- Interpenetración debajo del plano de la mesa. Las configuraciones de mano que estén debajo del plano de la mesa se penalizan calculando la distancia desde cada vértice de la mano al plano de la mesa y favoreciendo que esta distancia sea positiva.
Dónde Pp representa un punto del plano de la mesa y Vp representa una normal
apuntando hacia arriba.
- Manos antropomórficas. Para generar las manos antropomórficas y modelos de agarre de mano operables, se introduce un discriminador D entrenado usando una función de
pérdida de Wasserstein. Sea G el modelo entrenable definido, H*, R*, T * las muestras de entrenamiento reales (muestras del conjunto de entrenamiento), y H,R,T las interpolaciones entre las muestras y predicciones correctas. Entonces, la pérdida de confrontación se define como:
Ladv
— _
E
H,R,T~p(H,R,T) [
D
(
G
® ) ]
+
E
H,R,T~p(H,R,T)[
D
(
H *,
r * , t * ) ]
Eq. 8
Además, para garantizar la satisfacción de la restricción de Lipschitz en el W-GAN, se
introduce una penalización por pérdida de gradiente
L
gp.
Finalmente, la función de pérdida total L a minimizar es una combinación lineal de todas las funciones de pérdida anteriores, correspondiendo diferentes pesos para cada pérdida:
Lcla ss , Larc, Lgp , LY, Lcont, Lin t, Lp , Lad v
.
L -^classLclass ^^-arcLarc ^^gpLgp ^ ^ y Ly ^^-contLcont AjntLint -l- .
P
^n
^
L
P
n “l- ^ Ga d vLadv
Eq. 9
Dónde ^ -c la ss ,^ -a rc ,^g p ,^y ,^ -co n t,^ - in t,^ -p ,^ -a d v son hiperparámetros pesando la contribución de cada función de pérdida.
Los objetos generalmente se pueden agarrar de varias maneras. Por lo tanto, el objeto se rota al azar varias veces sobre la esfera del Cuaternión y, para cada rotación, la red de refinamiento genera un agarre operable para dicha orientación. Por lo tanto, el método de la invención permite predecir un conjunto de diferentes agarres operables para el mismo objeto.
A continuación, los agarres operables generados pueden ser evaluados mediante el cálculo de parámetros métricos, y las puntuaciones más altas serían seleccionados. Dichos agarres pueden evaluarse utilizando diferentes métricas, como:
- Una métrica de agarre analítica, que calcula una aproximación de la fuerza mínima a aplicar para romper la estabilidad del agarre.
- Un número promedio de dedos de contacto, en el que numerosos puntos de contacto entre la mano y el objeto favorecen un fuerte agarre.
- Un volumen interpenetración mano-objeto, en la que el objeto y la mano están voxelizados, y se calcula el volumen compartido por ambos modelos 3D.
- Una simulación del desplazamiento de la malla del objeto sometido a gravedad.
- Un porcentaje de objetos agarrables para los que un agarre operable podría ser predicho, siendo un agarre operable uno con al menos dos puntos de contacto y no interpenetración.
El método de la invención también podría tener en cuenta las preferencias de agarre del objeto dada la intención funcional, la forma y la categoría semántica, para mejorar el modelo de agarre. El método de la invención también podría emplearse para sintetizar ejemplos de entrenamiento en un marco basado en datos.
El método de la invención tiene un enorme potencial en varios campos, incluida la realidad virtual y aumentada, la interacción humano-robot, el aprendizaje por imitación de robots y nuevas vías en áreas como el diseño protésico.
DESCRIPCION DE LOS DIBUJOS
Para complementar la descripción y ayudar a una mejor comprensión de las características de la invención, de acuerdo con un ejemplo preferido de una realización práctica de la misma, se adjunta un conjunto de dibujos como parte integral de dicha descripción en la que, con carácter ilustrativo y no-limitante, se ha representado lo siguiente:
Figura 1.- Modelos de agarre de mano obtenidos para los objetos en las imágenes.
Figura 2.- Pasos de un método de entrenamiento para anotar las imágenes con el fin de entrenar las redes neuronales para la obtención de modelos de agarre.
Figura 3.- Comparación entre el método de la invención y un simulador GraspIt.
Figura 4.- Representación del método de la invención.
Figura 5.- Imagen de entrada (a la izquierda), agarre predicho cuando se estima de la forma 3D de objetos (medio) y cuando se utiliza la forma real del objeto (derecha).
Figura 6.- Impacto de la capa de optimización, tanto en el proceso de reconstrucción manoobjeto (izquierda) y en el proceso de predicción de agarre (derecha).
Figura 7.- Resultados en algunos casos prácticos aplicando el método de la invención.
REALIZACIÓN PREFERENTE DE LA INVENCIÓN
La invención se refiere a un método para determinar un modelo de agarre. El método de la invención toma como entrada una imagen RGB, que se propone para determinar un modelo de agarre aproximado, esto es, una configuración de mano, una traslación y un vector de rotación. El modelo de agarre aproximado se obtiene utilizando una red neuronal como un problema de clasificación, en el que se selecciona una taxonomía de agarre entre un grupo de taxonomías. Luego, el modelo de agarre aproximado se refina optimizando una o más funciones de pérdida, obteniendo así una forma y pose de mano refinada.
En particular, el método de la invención se puede usar para determinar opciones de agarre dada una imagen RGB de múltiples objetos en una escena compleja.
El método de la invención se aplica a cada objeto en una escena, y se obtienen modelos de agarre para cada objeto. En la Figura 1 se muestran los modelos de agarre obtenidos para los objetos de cada imagen. La figura muestra cuatro resultados obtenidos del conjunto de datos YCB-Affordance, que se ha creado para probar el método de la invención.
La Figura 2 muestra los pasos de un método de entrenamiento para anotar imágenes con el fin de entrenar las redes neuronales para obtener modelos de agarre. El método de entrenamiento en este caso se aplica a una imagen que tiene tres objetos. En primer lugar, se obtiene un modelo de uno de los objetos, como se muestra en el paso a). Luego, manualmente, se anota un conjunto de modelos de agarre operables sobre el modelo, en este caso solo se representan 5 modelos de manos en el paso b). Se obtiene una imagen, en la que el objeto está contenido, y también están presentes más objetos, como en el caso del paso c). Luego, todos los modelos de agarre se transfieren a la imagen como se muestra en el paso d). De todos los modelos de agarre transferidos, solo se seleccionan modelos de manos operables, en donde dichos modelos de manos operables no chocan con otros objetos en la escena. En el caso de la etapa e), solo tres modelos de mano se seleccionan para la representación, pero se podrían obtener muchos más modelos de mano. El método de entrenamiento permite obtener imágenes anotadas que alimentan las redes neuronales.
La Figura 4 muestra una representación del método de la invención. El método comprende los pasos de:
- obtener una imagen RGB de uno o varios objetos para predecir la forma en que un humano podría comprender estos objetos de forma natural,
- alimentar una primera subred para estimar las formas y ubicaciones de los objetos en la escena utilizando un estimador de pose de objeto 6D o una red de reconstrucción, - la predicción de la forma es proyectada sobre el plano de la imagen para obtener una máscara de segmentación,
- se concatena la máscara de segmentación con la imagen de entrada,
- alimentar la segunda subred para predecir el agarre con la máscara de segmentación concatenada con la imagen,
- obtener un modelo de mano aproximado a partir de una red neuronal de predicción de agarres, y
- refinamiento de los parámetros del modelo de mano aproximado para obtener un modelo refinado de la mano, en este caso usando el modelo paramétrico MANO. El método de la invención se entrena utilizando funciones de pérdidas de confrontación, interpenetración, clasificación y optimización.
La Figura 3 muestra una comparación entre el método de la invención y un simulador conocido en el estado de la técnica: GraspIt. En la figura 3 se muestra el porcentaje de modelos manuales encontrados a través del simulador en comparación con los obtenidos con el método de la invención.
Cuando se proporcionan los modelos CAD de los objetos, el simulador solo recupera una parte de los agarres naturales que se anotan en el método de la invención. Por lo tanto, anotar manualmente los modelos de mano en el método de entrenamiento proporciona más realismo a los modelos de mano obtenidos por el método de la invención. Como se muestra, el simulador puede obtener el mismo número de modelos de manos operables en objetos simples. Sin embargo, el simulador encuentra pocos modelos de manos operables cuando las manos están sobre objetos que requieren pulgares abducidos o agarres precisos operables.
Para evaluar la calidad de los modelos de agarre generados, se consideran algunas métricas de evaluación:
- Se utiliza una métrica analítica para puntuar un agarre, que calcula una aproximación de la fuerza mínima que se debe aplicar para romper la estabilidad del agarre.
- También se puede usar el número promedio de dedos que ejercen contacto para medir la calidad de un agarre, ya que tener más puntos de contacto entre la mano y el objeto favorece un agarre fuerte.
- Se podría calcular un volumen de interpenetración de la mano y el objeto. El objeto y la mano se voxelizan, y el volumen compartido por ambos modelos 3D se calcula utilizando un tamaño de voxel de 0.5cm3.
- Se calcula el desplazamiento en la simulación del objeto cuando dicho objeto se somete a gravedad.
- Se calcula el porcentaje de objetos agarrables para los que un agarre operable se podría predecir, siendo un agarre operable el que tiene al menos dos puntos de contacto y no interpenetración.
El método de la invención ha sido entrenado para la predicción de agarres en escenas con múltiples objetos utilizando imágenes naturales que muestran múltiples objetos anotados con agarres humanos operables.
Por lo tanto, se ha recopilado un primer conjunto de datos a gran escala que incluye pose y forma de la mano para un agarre natural y operable en escenas de objetos múltiples. Para
ello, el conjunto de datos YCB-Video se ha aumentado con agarres humanos operables. El conjunto de datos YCB contiene más de 133K cuadros de vídeos de 92 escenas desordenadas con objetos altamente ocluidos cuya pose 6D fue anotada en coordenadas de la cámara.
Por consiguiente, se ha creado un conjunto de datos, llamado YCB-Affordance, que cuenta con agarres para todos los objetos del conjunto de objetos YCB para los que estaba disponible un modelo CAD. Se incluyen 58 objetos domésticos diversos de particular interés para tareas de agarre y manipulación, como herramientas, cubiertos, alimentos o estructuras de formas más básicas.
Cada modelo CAD se anotó primero con agarres operables y, luego, los agarres resultantes se transfirieron a las escenas e imágenes YCB, produciendo más de 28 millones de agarres para 133K imágenes.
En el paso de la anotación, los agarres operables se anotaron manualmente para cubrir todas las formas posibles de recoger o manipular los objetos de forma natural. En este caso, se usó la interfaz visual del simulador GraspIt para adaptar manualmente la posición y rotación de la palma de la mano, y cada uno de los ángulos de las articulaciones de los dedos.
Una integración del simulador GraspIt con un Modelo Lineal Multi-persona de Piel (SMPL) se utiliza para recuperar directamente una representación de dimensión reducida del modelo de mano MANO, y para obtener poses y mallas registradas de formas de manos.
En promedio, los objetos simétricos, tales como latas o botellas, se han anotado con 6 agarres distintos, y objetos más complejos, tales como herramientas o cubiertos, se han anotado con hasta 12 agarres diferentes. En total, se anotaron manualmente 367 diferentes agarres detallados y cada uno se asignó a un tipo de agarre dentro de una taxonomía de 33 agarres.
La taxonomía se definió teniendo en cuenta la posición de los dedos de contacto, el nivel de potencia/precisión de compensación en el agarre y la posición del pulgar. Luego, se anotaron las simetrías rotacionales en todos los objetos del conjunto de objetos YCB considerando cada eje principal.
Una simetría rotacional está representada por su orden, que indica el número de veces que un objeto puede rotarse en un eje particular y resulta en una forma equivalente. Tomando
ventaja de la simetría de los objetos, el número de agarres se ha extendido automáticamente por simple rotación del mano alrededor de los ejes, por ejemplo, repitiendo agarre a lo largo del eje de revolución.
La generación de agarres utilizando el simulador GraspIt solo conduce a un conjunto reducido de modelos de agarre que maximizan la calificación analítica del agarre pero no son necesariamente correctos o naturales, por ejemplo, sostener un cuchillo por la hoja o agarrar una taza con 2 dedos. En lugar de eso, en el conjunto de datos YCB-Affordance, al anotar manualmente las imágenes, solo se incluyen modelos de manos de agarre operables, incluso modelos de manos que GraspIt nunca encontraría, como el agarre de unas tijeras.
Las escenas en el conjunto de datos de video YCB contienen entre 3 y 9 objetos en contacto cercano. A menudo, la ubicación de los objetos hace que no sean fácilmente accesibles para agarrarlos sin tocar otros objetos. Por esta razón, solo las escenas con agarres operables y factibles se han anotado, es decir, agarres para los cuales la mano no colisiona con otros objetos.
Para ello, se usan las anotaciones de las poses 6D de los modelos CAD en coordenadas de cámara que están disponibles para los diferentes objetos. Además, para una representación 3D más completa de la escena, la posición del plano de la mesa también se anota manualmente. En la práctica, esto se hizo manualmente en el primer cuadro de cada video y se propagó a través de los cuadros restantes usando el movimiento de la cámara en cuadros consecutivos.
Después, los agarres anotados en los modelos CAD en 3D se transfieren a las escenas reales, utilizando los datos reales de las poses 6D del objeto y seleccionando sólo agarres operables en los que la malla 3D de la mano no se cruza con los modelos CAD de los objetos o el plano de la mesa. En la mayoría de los casos, permanecen operables para cada objeto varios posibles agarres.
Sin embargo, el conjunto de datos YCB Vídeo contiene algunas escenas complejas en las que se coloca un objeto de un modo que otros objetos ocluyen demasiado para que pueda ser agarrado sin ningún tipo de colisión. En tales casos, se considera que el objeto no es alcanzable y se deja sin anotaciones. El conjunto de datos final contiene 133,936 cuadros con más de 28 millones de anotaciones de agarres operables, que es un tamaño adecuado para entrenar redes profundas.
La aportación de una capa de optimización se evalúa cuando se incluye en un método del estado-del-arte para la estimación de forma de la mano. Entonces, el método de la invención es validado en el conjunto de datos sintético ObMan que contiene un solo objeto por escena, y se evalúa completamente en escenas con múltiples objetos con el conjunto de datos creado YCB-Affordance.
La Figura 6 muestra datos cuantitativos del impacto de la capa de optimización, tanto en la parte de reconstrucción de objetos de mano como en la parte de predicción de agarre. El ángulo de rotación del dedo alrededor de una articulación para minimizar la distancia entre el dedo y el objeto está modulado por un hiper-parámetro (5). La Figura 6 muestra una compensación entre la interpenetración y el desplazamiento de la simulación, al variar el hiperparámetro (5), teniendo en cuenta que cuanto menor es la interpenetración y el desplazamiento de la simulación, mejor se considera el modelo manual. Primera, primera y segunda, y las tres articulaciones de cada dedo se optimizan por la capa de optimización y los resultados se muestran en la Figura 6.
En el gráfico de la izquierda se muestra la contribución de la capa de optimización en la parte de reconstrucción de objetos y mano, y en el gráfico de la derecha, se muestra la contribución de la capa de optimización en la predicción del agarre. Como se muestra, la capa propuesta proporciona una mejora significativa en los resultados de reconstrucción de objetos y mano, reduciendo el desplazamiento en la simulación y las métricas de interpenetración en más del 30%, y también se mejora la parte de predicción.
En una implementación, se hace una base para la comparación a partir de un modelo ResNet-50 pre-entrenado que predice directamente la representación MANO de la mano, la rotación y la translación, todavía usando capas para 'comprensión de la escena 3D' y 'refinamiento de la mano' pero sin la predicción de la taxonomía de agarre.
El conjunto de datos ObMan contiene alrededor de 150k pares sintéticos de objetos y mano con agarres exitosos producidos usando GraspIt para 27k objetos diferentes. Se simularon alrededor de 70k agarres para cada objeto, manteniendo solo los agarres con la puntuación más alta. En este caso, se usaron imágenes que muestran cada objeto solo y se agregaron texturas de fondo básicas. Esta es una versión simplificada del método que no considera las intersecciones con otros elementos de la escena, como el plano y los objetos.
La Figura 5 muestra, para cada objeto, la imagen de entrada (izquierda), el agarre predicho al estimar la forma 3D del objeto (centro) y cuando se usa la forma real del objeto (derecha).
Modelo Base GanHand GraspIt* Opt. Articulaciones - 1 2 3 - 1 2 3 -dedos
Puntuación Agarre
0.19 0.36 0.37 0.43 0.4 0.6 0.56 0.56 0.3 T
Contactos Mano-2.6 4 4.4 4.6 3 3.9 4.4 4.4 4.4 Objeto T
Interpenetración j 42 27 29 29 48 33 34 34 10 Tiempo (seg) j 0.2 0.3 0.3 0.4 0.2 0.3 0.3 0.4 300
Tabla 1.
En la Tabla 1 se proporcionan resultados cuantitativos sobre la comparación de tres modelos de agarre, tanto para GanHand como para la base de comparación. En particular, los modelos de agarre se obtienen evaluando ambos métodos utilizando la optimización para 1, 2 o 3 articulaciones. Luego, se seleccionan los modelos de mano que tienen la puntuación de agarre más alta, lo que proporciona una buena compensación entre la precisión de agarre y el tiempo de ejecución.
En la Tabla 1, las características de cada modelo de mano obtenido se comparan de tal manera que para las características que tienen el símbolo T, cuanto mayor es la puntuación, mejor es el modelo de mano, y al tener el símbolo j, menor es la puntuación, mejor es el modelo de mano. También se destaca que los modelos obtenidos en el caso del simulador se ejecutan usando la forma real de los objetos.
El método de la invención también se ha probado en el conjunto de datos YCB Affordance, generado para el entrenamiento y la prueba del método de la invención. La base de comparación y el método de la invención fueron entrenados en 80 videos de YCB Affordance (130k cuadros). La prueba se evalúa en un subconjunto diferente de 12 videos (2949 cuadros) de los mismos objetos vistos en el entrenamiento, pero usando escenas y poses diferentes.
La Figura 7 muestra los resultados en algunos casos. Como se muestra, el método de la invención logra un mayor porcentaje de objetos agarrables y una mayor precisión en los tipos
de agarre previstos en comparación con la base de comparación. La interpenetración del plano es considerablemente baja para ambos métodos, lo que indica que ambos modelos aprendieron a colocar adecuadamente las manos sobre las mesas
Algunos fallos se resaltan en la fila inferior. En el caso de la parte inferior izquierda, las poses absolutas de la lata y las pinzas no son precisas y se producen agarres superpuestos. En el caso, abajo a la derecha, la copa se detecta como un ladrillo, prediciendo una comprensión incorrecta.
Modelo Base GanHand
Opt. articulaciones dedos - 1 2 3 - 1 2 3
% objetos agarrables f 4 21 33 31 21 58 57 55
Precisión tipo agarre % f 49 62 57 56 78 76 70 76
Puntuación Agarre f 0.37 0.45 0.44 0.45 0.36 0.47 0.46 0.42
Contactos Mano-Objeto f 3.7 3.7 3.7 3.7 3.7 3.7 3.8 3.9
Obj. Interp. (cm3) j 38 30 30 30 26 27 28 26
Plano interp. (cm) j 0.1 0.1 0.1 0.1 0.3 0.3 0.2 0.3
Tabla 2.
En la Tabla 2 se proporcionan resultados cuantitativos que comparan tres modelos de agarre en el conjunto de datos YCB-Affordance para GanHand y la base de comparación. El resultado general es que el método de la invención (GanHand) supera a la base de comparación en todas las métricas, excepto en la interpenetración plana que es insignificante para ambos métodos.
En este método, se muestrean hasta 20 predicciones y se selecciona la que tenga menos interpenetración con todos los objetos predichos. Ambos métodos sacan el máximo partido a la variedad de agarres del conjunto de datos YCB Affordance, y que predicen una buena diversidad de agarres.
Además, se puede tener en cuenta la actividad prevista y el estado del objeto para seleccionar un agarre más adecuado. Por ejemplo, un ser humano no podría manipular una taza al mismo tiempo que bebe el líquido caliente que contiene, o cuando se está lavando.
En un ejemplo de implementación, el módulo de clasificación se basa en un ResNet-50. El discriminador y el refinador de la pose de la mano son redes de 4 capas totalmente conectadas con no linealidades ReLU e inicialización de Xavier.
Las imágenes de entrada se redimensionan a 256x256. Se lleva a cabo una rejilla de búsqueda de los hiper-parámetros para maximizar y entrenar a todos los modelos usando LR = 0,0001, BS = 32, los pesos de pérdida clase = 1, arc = 0:01, cont = 100, int = 4,000, p = 20, adv = 1 y gp = 10 usando el optimizador Adam.
El generador se entrena una vez cada 5 pasadas hacia adelante para mejorar la calidad relativa del discriminador. El modelo está entrenado para 5 epochs, y con decaimiento lineal LR por 25 epochs más.