ES2885077A1 - Metodo para determinar un modelo de agarre de mano - Google Patents

Metodo para determinar un modelo de agarre de mano Download PDF

Info

Publication number
ES2885077A1
ES2885077A1 ES202030553A ES202030553A ES2885077A1 ES 2885077 A1 ES2885077 A1 ES 2885077A1 ES 202030553 A ES202030553 A ES 202030553A ES 202030553 A ES202030553 A ES 202030553A ES 2885077 A1 ES2885077 A1 ES 2885077A1
Authority
ES
Spain
Prior art keywords
grip
hand
model
objects
interpenetration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
ES202030553A
Other languages
English (en)
Inventor
Noguer Francesc Moreno
Ribas Guillem Alenyà
Puyane Enric Corona
Peris Albert Pumarola
Gregory Rogez
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Labs Corp
Original Assignee
Consejo Superior de Investigaciones Cientificas CSIC
Universitat Politecnica de Catalunya UPC
Naver France SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Consejo Superior de Investigaciones Cientificas CSIC, Universitat Politecnica de Catalunya UPC, Naver France SAS filed Critical Consejo Superior de Investigaciones Cientificas CSIC
Priority to ES202030553A priority Critical patent/ES2885077A1/es
Priority to US17/341,970 priority patent/US20220009091A1/en
Publication of ES2885077A1 publication Critical patent/ES2885077A1/es
Priority to US17/833,460 priority patent/US20220402125A1/en
Pending legal-status Critical Current

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1612Programme controls characterised by the hand, wrist, grip control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/1653Programme controls characterised by the control loop parameters identification, estimation, stiffness, accuracy, error analysis
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • B25J9/1666Avoiding collision or forbidden zones
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33027Artificial neural network controller
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40309Simulation of human hand motion

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Orthopedic Medicine & Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

Método para determinar un modelo de agarre adecuado para agarrar un objeto, el método comprende los pasos para obtener una primera imagen RGB que incluye al menos un objeto; obtener un modelo del objeto que estima la pose y forma de dicho objeto a partir de la primera imagen del objeto; seleccionar una taxonomía de agarre de un conjunto de taxonomías de agarre por medio de una red neuronal convolucional, con una función de pérdida de entropía cruzada, obteniendo así un conjunto de parámetros que definen un modelo de agarre aproximado; refinar el modelo aproximado de agarre reduciendo al mínimo las funciones de pérdida referidas a los parámetros del modelo de mano para la obtención de un modelo de agarre operable y reducir al mínimo la distancia entre el dedo del modelo de mano y la superficie del objeto y evitando la interpenetración; y obtener una malla de la mano representada por el conjunto mejorado de parámetros.

Description

DESCRIPCIÓN
MÉTODO PARA DETERMINAR UN MODELO DE AGARRE DE MANO
OBJETO DE LA INVENCIÓN
El campo técnico de la invención está relacionado con el procesamiento de imágenes y el uso de algoritmos de aprendizaje profundo para predecir modelos de manos de agarre. En particular, la invención se refiere a un método para determinar un agarre modelo de la mano a partir de una sola imagen RGB (rojo, verde y azul) de un objeto, determinando posibilidades sobre cómo un humano podría agarrar dicho objeto.
Un primer objeto de la invención es proporcionar un método para determinar un modelo de agarre de mano adecuado para agarrar un objeto usando algoritmos de aprendizaje profundo. Por lo tanto, permitiendo predecir un modelo de agarre de mano factible de una manera precisa y eficiente.
La invención también se refiere a un programa de computadora y un medio de almacenamiento legible por computadora, que contiene dicho programa de computadora, que almacena las instrucciones del método de la invención.
ANTECEDENTES DE LA INVENCIÓN
En el estado del arte, aprender a partir de demostraciones humanas (LfD) es un enfoque popular para enseñar a los robots nuevas habilidades sin programarlas explícitamente. En LfD, un robot sigue el ejemplo de una persona cuya pose de cuerpo o mano es extraída e imitada por la propia configuración cinemática del robot.
Sin embargo, este paradigma de aprendizaje requiere que el humano realice la misma tarea, o una muy similar, a la tarea que debe aprender el robot.
El agarre robótico es un tema ampliamente investigado, en el que la mayoría de los enfoques anteriores han considerado pinzas simples con un número reducido de puntos de contacto, lo que sería equivalente a que una mano humana agarre un objeto usando solo dos dedos.
Algunos enfoques recientes han estudiado tareas centradas en humanos basadas en algoritmos de aprendizaje profundo, como la estimación de pose, reconstrucción y predicción de movimiento.
La estimación de la postura de la mano se ha estudiado en gran medida en los últimos años, impulsada en parte por la disponibilidad de numerosos conjuntos de datos anotados y la aparición de sensores de profundidad de bajo coste.
Sin embargo, la mayoría de estos estudios abordan la estimación de la postura de la mano a partir de imágenes RGB-D, aprovechando la información 2.5D contenida en las imágenes de profundidad para predecir directamente las posiciones de las articulaciones de la mano en 3D.
Incluso más recientemente, se han hecho algunos esfuerzos para abordar la tarea más desafiante de la predicción de la forma de la mano en 3D, en lugar de la ubicación de las articulaciones en 3D, a partir de imágenes RGB. Estos métodos se basan en el modelo paramétrico MANO, que proporciona una representación de baja dimensión de 51 grados de libertad (DoF) del espacio de todas las manos humanas posibles. Una capa diferenciable que mapea de manera determinista los parámetros de pose y forma a las articulaciones de las manos y los vértices permite entrenar modelos profundos utilizando métricas de rendimiento en la malla 3D.
En este campo, aunque los trabajos anteriores se basan en la optimización iterativa o comparaciones con una base de datos de referencia, los últimos métodos hacen uso del aprendizaje profundo.
Algunos trabajos han abordado también la estimación de la postura de la mano en el escenario más complejo de una mano o dos manos, agarrando o manipulando un objeto. Las oclusiones significativas producidas por el objeto manipulado hacen que el problema sea mucho más difícil en comparación con la observación de una mano aislada.
La mayoría de estos trabajos consideran objetos sólidos, que tratan con objetos deformables. Por ejemplo, algunos enfoques resuelven el problema como una tarea de clasificación sobre una taxonomía de 71 agarres, donde cada agarre corresponde a una pose particular de la mano y ciertos puntos de contacto y fuerzas. Otros enfoques recientemente propusieron bases de datos para predecir los posibles puntos de contacto para agarre directamente sobre los objetos.
Otros trabajos recientes predicen conjuntamente la pose de objetos y manos, o las mallas 3D de objetos y manos. También, se han construido bases de datos sintéticas de manos que agarran objetos usando un simulador, llamado simulador GraspIt.
Además, en el pasado se han propuesto algunas taxonomías de agarre, que representan los agarres en las tareas de fabricación, que también incluyen una variedad de agarres y características inusuales como la fuerza de agarre, el movimiento y la rigidez y, más recientemente, que incluyen también primitivas de manipulación para el manejo de telas basado en contactos mano-objetos caracterizados como punto, línea y plano.
Otros trabajos han sugerido definir automáticamente una taxonomía agrupando posiciones conjuntas en un enfoque orientado a los datos para comprender mejor las actividades o posiciones de agarre.
Trabajos anteriores han intentado principalmente predecir puntos salientes en los objetos para agarrar, aplicando aprendizaje profundo para detectar regiones de agarre de un objeto. Principalmente, estos agarres se predicen a partir de la estructura 3D del objeto, primero muestreando miles de candidatos de agarre y, luego, desplazando una pinza robótica abierta hasta hacer contacto con la malla del objeto. A continuación, los candidatos de agarre que no contienen partes de la nube de puntos entre los dedos se descartan, y una calidad de agarre se clasifica utilizando redes neuronales convolucionales. Este enfoque es similar al utilizado en el simulador GraspIt, que permite simular agarres dedos los modelos 3D de mano y objeto.
DESCRIPCIÓN DE LA INVENCIÓN
La invención se refiere a un método para determinar un modelo de agarre que emula cómo un humano agarraría naturalmente uno o varios objetos, dada al menos una imagen de estos objetos. Por lo tanto, el método está destinado a producir un modelo de mano operable con varios puntos de contacto con el objeto de destino, pero sin interseccionar con otros elementos de la escena para predecir un agarre humano, es decir, la forma de la mano y pose más probables que permitirían agarrar un objeto observado. Un modelo de mano se refiere a una pose y forma de mano, y tipo de agarre.
La predicción de agarres humanos, es un problema muy difícil, ya que requiere el modelado de las interacciones físicas y contactos entre un modelo de mano de alta dimensión y una representación 3D de objetos potencialmente ruidosa estimada a partir de imágenes RGB de entrada. Este es un problema significativamente más complejo que el de generar agarres robóticos, ya que los efectores finales de los robots tienen muchos menos grados de libertad (DoF) que la mano humana.
Además, la práctica común en robótica es usar cámaras RGB-D que, a pesar de simplificar el proceso de modelar la geometría de los objetos, no tienen la versatilidad de las cámaras RGB estándar.
El procedimiento de la invención se basa en una red profunda generadora, que divide la determinación del modelo de mano que agarre en una tarea de clasificación y una tarea de regresión, permitiendo seleccionar una pose de mano y refinarla para mejorar la calidad del modelo. Por lo tanto, se aplica un proceso grueso-a-fino, donde la predicción de la mano se aborda primero como un problema de clasificación seguido de una etapa de refinamiento. Además, diferentes métricas de agarre se maximizan al mismo tiempo, mejorando los modelos de agarre de mano generados.
Preferiblemente, el método de la invención podría emplear el modelo MANO, que es un modelo de mano humana de 51 grados de libertad, aumentando así la capacidad de los robots para realizar agarres más difíciles. Este modelo también aumenta la precisión del resultado final al definir y refinar el modelo con más grados de libertad.
El método de la invención representa un modelo generativo con una arquitectura GAN (Generador y Discriminador), que comprende los siguientes pasos:
a) obteniendo al menos una imagen que incluye al menos un objeto;
b) estimando una pose y forma del objeto a partir de la primera imagen del objeto; c) prediciendo una taxonomía del agarre a partir de un conjunto de taxonomías de agarre mediante algoritmos de redes neuronales artificiales, preferiblemente una red neuronal convolucional, con una función de pérdida de entropía cruzada Lclass (definida más adelante), obteniendo así un conjunto de parámetros que definen un modelo de agarre de mano;
d) refinando el modelo de agarre de la mano, minimizando las funciones de pérdida relacionadas con los parámetros del modelo de agarre de la mano; y
e) obteniendo una representación de una mano que agarra el objeto utilizando el modelo de agarre refinado, preferiblemente obteniendo una malla de dicha pose de mano.
Por lo tanto, el modelo permite, dada al menos una imagen de entrada: 1) estimar o regresar la pose 6D (o pose 3D y forma 3D) de los objetos en la escena; 2) predecir el mejor tipo de agarre según una taxonomía; y 3) refinar una primera configuración de mano dada por la taxonomía de agarre para ajustar con precisión las yemas de los dedos a la forma del objeto, a través de una optimización de los 51 parámetros del modelo MANO que minimizan una función de pérdida de la capacidad de agarre. Este proceso implica maximizar el número de puntos de contacto entre el objeto y el modelo de forma de mano al mismo tiempo que se minimiza la interpenetración.
El método podría configurarse para recibir como entrada una imagen RGB o una imagen de profundidad de un objeto, o alternativamente, una imagen 3D. Aunque las imágenes de profundidad codifican información 3D, solo corresponden a una información 3D parcial del objeto, ignorando la superficie 3D ocluida.
Para predecir los agarres factibles, se necesita una comprensión del contenido semántico de la imagen, su estructura geométrica y todas las posibles interacciones con un modelo físico de la mano, que se lleva a cabo mediante el paso de estimar la pose y la forma del objeto.
Dicho paso podría realizarse llevando a cabo una fase de reconstrucción del objeto, obteniendo así una nube de puntos que representan el objeto de la imagen obtenida, preferiblemente mediante el uso de una ResNet-50 pre-entrenada y refinada. Este método de reconstrucción no requiere conocer el objeto de antemano, pero no es fiable en el caso de varios objetos.
En caso de que la imagen RGB comprenda más de un objeto, los pasos b) hasta e) anteriores se repetirían para cada objeto de la imagen, suponiendo que los objetos sean conocidos.
Durante el entrenamiento, se selecciona aleatoriamente un objeto a la vez, cuya forma 3D se conoce, dicha forma 3D se proyecta en el plano de la imagen para obtener una máscara de segmentación que luego se concatena con la imagen de entrada, mientras que la imagen RGB original proporciona información contextual sobre la escena completa para un agarre más operable.
El procedimiento de la invención permite predecir agarres operables, incluso en escenas desordenadas con varios objetos en contacto próximo, prediciendo cómo un humano podría agarrar uno o varios objetos, dada una o más imágenes de estos objetos.
La imagen de entrada podría ser codificada utilizando una red neuronal convolucional pre­ entrenada, preferiblemente una arquitectura ResNet, y se obtiene una configuración aproximada de la pose de mano más probable que agarraría el objeto. Esta estimación inicial se formula como un problema de clasificación, entre un número reducido de taxonomías. Por lo tanto, la clase de agarre C que mejor se adapta al objeto objetivo se predice a partir de las taxonomías mediante el uso de una red de clasificación con una función de pérdida de entropía cruzada Lclass, definida por la Eq. 1. Preferiblemente, se selecciona una taxonomía con un conjunto de 33 agarres.
L class _ X c e K C o , c log(1 - P o , c ) Eq. 1
En la Eq. 1, C representa un tipo de agarre para el objeto particular (o), c representa las clases de agarre entre las K posibles clases de agarre, y P representa predicciones de pose para el objeto particular (o).
El modelo de agarre predicho está centrado en sí mismo y se alineará en el sistema de coordenadas de la cámara. Por lo tanto, el paso de seleccionar una taxonomía de agarre podría incluir además una fase de predicción de una traslación y rotación absolutas de la pose de la mano y una configuración de la pose de la mano a partir de una red completamente conectada para alinear la pose de la mano con el sistema de coordenadas de la cámara. En el entrenamiento, la rotación absoluta representa la rotación desde un agarre real con ruido adicional. Por lo tanto, se obtiene una pose rígida absoluta de una estimación aproximada de la mano, agregando un incremento para la traslación y rotación y la configuración aproximada. Se observó que el uso de esta estrategia de predecir el incremento para cada uno de los parámetros acelera significativamente la convergencia durante el entrenamiento y mejora los resultados.
Las diferentes taxonomías se crean agrupando una gran cantidad de poses de manos, definiendo así una serie de clases de agarre que podrían usarse como una etapa inicial para aproximar la configuración de la mano.
El resultado de la clasificación es, por lo tanto, una representación aproximada, que requiere que se alinee con el objeto y se refine. Por lo tanto, el modelo de mano se refina para que se adapte a la geometría del objeto.
Para forzar la viabilidad de los modelos de agarre pronosticados, se usa una capa diferenciable y sin parámetros basada en una arquitectura GAN, donde un discriminador clasifica la factibilidad del agarre dada la postura de la mano y los puntos de contacto, maximizando así las métricas de agarre. Por lo tanto, el discriminador asegura que las formas de mano predichas sean operables al evitar auto colisiones con otros objetos dentro de una escena.
Se utiliza un módulo de refinamiento, que preferiblemente es una red totalmente conectada, que toma como entrada la salida del problema de clasificación y la información geométrica sobre el objeto, para generar una pose de mano refinada Ho, una rotación Ro y una traslación relativa To, donde las posiciones de los dedos están optimizadas para adaptarse a la superficie 3D del objeto.
Dicho paso de refinamiento se realiza mediante la optimización de una función de pérdida que minimiza la distancia entre el modelo de la mano y el objeto, al tiempo que evita la interpenetración y procura generar agarres similares a los humanos. Las funciones de pérdida a optimizar son una combinación del siguiente grupo:
- Distancia entre los vértices del objeto y los arcos obtenidos al girar un ángulo de los vértices de los dedos sobre los ejes articulares. En este caso, se consideran 3 rotaciones para cada dedo, una para cada articulación. Siguiendo la cadena cinemática, desde el nudillo hasta la última articulación, el dedo se dobla, dentro de sus límites físicos, hasta que hace contacto con el objeto.
Formalmente, esto se logra minimizando la distancia (D) entre los vértices del objeto
(O k) y cualquiera de los arcos obtenidos al girar un ángulo 0 los vértices de los dedos alrededor los ejes de las articulaciones, como se representa en la Eq. 2:
Dónde A® es el arco obtenido al girar 0 grados el i-ésimo vértice del dedo del conjunto
de vértices del objeto (O ^ ).
Dada la Eq. 2 para calcular el arco, el ángulo (Y j) que el dedo tiene que ser rotado
alrededor de la primera articulación para colisionar con el objeto puede ser estimado, que está representado por la Eq. 3:
Y j ^ a r g m in D 0 5 , V 0 s. t . D 0 < t d Eq. 3
Dónde 5 (ángulo) es un hiperparámetro que controla la interpenetración de la mano en el objeto y, por lo tanto, la estabilidad de agarre. Además, se define un umbral de límite
superior ( t d ), para definir cuando hay contacto objeto-dedo, preferiblemente 2mm.
A partir de estas dos ecuaciones, se pueden definir las siguientes funciones de pérdida que se usarán para entrenar el modelo:
Figure imgf000009_0001
l y ^ S Í Iyj - Yj Eq. 4
2
Dónde |J| = 5 es el número de dedos, L arc tiene como objetivo minimizar las
distancias mano-objeto al girar la primera articulación de cada dedo, y L y opera
directamente en los ángulos estimados y los compara con los reales Y j , en el
entrenamiento.
- Distancia entre la punta de los dedos y la superficie 3D del objeto. Para forzar la estabilidad de los agarres, en primer lugar, se identifican los vértices de las manos en los dedos (Vcon t) que tienen más probabilidades de estar en contacto con el objeto
objetivo (O t ) y se optimiza la función de pérdida definida a partir de la Eq. 5:
Figure imgf000010_0001
Dónde los vértices de la mano en los dedos (Vcont ) se calculan como los vértices cercanos al objeto en al menos el 8% de las muestras reales del entrenamiento. Se concentran principalmente en la punta de los dedos y la palma de la mano.
- Interpenetración entre la mano y el objeto. Si los dedos están lo suficientemente cerca de la superficie del objeto y la forma de la mano es operativa, las pérdidas anteriores pueden alcanzar un mínimo, incluso si la mano se coloca incorrectamente dentro del objeto. Para evitar esta situación, se penaliza la interpenetración entre la mano predicha y las mallas de objetos de referencia.
Para hacer esto, se irradia un rayo desde la posición de la cámara de origen a cada vértice de la mano y se cuenta el número de veces que el rayo se cruza con el objeto, determinando si los vértices de la mano están dentro o fuera del objeto. Considerando
V j el conjunto de vértices de la mano que están dentro del objeto, la distancia mínima de cada uno de ellos al punto más cercano de la superficie del objeto se puede minimizar utilizando la función de pérdida:
Figure imgf000010_0002
- Interpenetración debajo del plano de la mesa. Las configuraciones de mano que estén debajo del plano de la mesa se penalizan calculando la distancia desde cada vértice de la mano al plano de la mesa y favoreciendo que esta distancia sea positiva.
Figure imgf000010_0003
Dónde Pp representa un punto del plano de la mesa y Vp representa una normal
apuntando hacia arriba.
- Manos antropomórficas. Para generar las manos antropomórficas y modelos de agarre de mano operables, se introduce un discriminador D entrenado usando una función de
pérdida de Wasserstein. Sea G el modelo entrenable definido, H*, R*, T * las muestras de entrenamiento reales (muestras del conjunto de entrenamiento), y H,R,T las interpolaciones entre las muestras y predicciones correctas. Entonces, la pérdida de confrontación se define como:
Ladv — _ E H,R,T~p(H,R,T) [ D ( G ® ) ]
+ E H,R,T~p(H,R,T)[ D ( H *, r * , t * ) ]
Eq. 8
Además, para garantizar la satisfacción de la restricción de Lipschitz en el W-GAN, se
introduce una penalización por pérdida de gradiente L gp.
Finalmente, la función de pérdida total L a minimizar es una combinación lineal de todas las funciones de pérdida anteriores, correspondiendo diferentes pesos para cada pérdida:
Lcla ss , Larc, Lgp , LY, Lcont, Lin t, Lp , Lad v .
L -^classLclass ^^-arcLarc ^^gpLgp ^ ^ y Ly ^^-contLcont AjntLint -l- . P ^n ^ L P n “l- ^ Ga d vLadv
Eq. 9
Dónde ^ -c la ss ,^ -a rc ,^g p ,^y ,^ -co n t,^ - in t,^ -p ,^ -a d v son hiperparámetros pesando la contribución de cada función de pérdida.
Los objetos generalmente se pueden agarrar de varias maneras. Por lo tanto, el objeto se rota al azar varias veces sobre la esfera del Cuaternión y, para cada rotación, la red de refinamiento genera un agarre operable para dicha orientación. Por lo tanto, el método de la invención permite predecir un conjunto de diferentes agarres operables para el mismo objeto.
A continuación, los agarres operables generados pueden ser evaluados mediante el cálculo de parámetros métricos, y las puntuaciones más altas serían seleccionados. Dichos agarres pueden evaluarse utilizando diferentes métricas, como:
- Una métrica de agarre analítica, que calcula una aproximación de la fuerza mínima a aplicar para romper la estabilidad del agarre.
- Un número promedio de dedos de contacto, en el que numerosos puntos de contacto entre la mano y el objeto favorecen un fuerte agarre.
- Un volumen interpenetración mano-objeto, en la que el objeto y la mano están voxelizados, y se calcula el volumen compartido por ambos modelos 3D.
- Una simulación del desplazamiento de la malla del objeto sometido a gravedad.
- Un porcentaje de objetos agarrables para los que un agarre operable podría ser predicho, siendo un agarre operable uno con al menos dos puntos de contacto y no interpenetración.
El método de la invención también podría tener en cuenta las preferencias de agarre del objeto dada la intención funcional, la forma y la categoría semántica, para mejorar el modelo de agarre. El método de la invención también podría emplearse para sintetizar ejemplos de entrenamiento en un marco basado en datos.
El método de la invención tiene un enorme potencial en varios campos, incluida la realidad virtual y aumentada, la interacción humano-robot, el aprendizaje por imitación de robots y nuevas vías en áreas como el diseño protésico.
DESCRIPCION DE LOS DIBUJOS
Para complementar la descripción y ayudar a una mejor comprensión de las características de la invención, de acuerdo con un ejemplo preferido de una realización práctica de la misma, se adjunta un conjunto de dibujos como parte integral de dicha descripción en la que, con carácter ilustrativo y no-limitante, se ha representado lo siguiente:
Figura 1.- Modelos de agarre de mano obtenidos para los objetos en las imágenes.
Figura 2.- Pasos de un método de entrenamiento para anotar las imágenes con el fin de entrenar las redes neuronales para la obtención de modelos de agarre.
Figura 3.- Comparación entre el método de la invención y un simulador GraspIt.
Figura 4.- Representación del método de la invención.
Figura 5.- Imagen de entrada (a la izquierda), agarre predicho cuando se estima de la forma 3D de objetos (medio) y cuando se utiliza la forma real del objeto (derecha).
Figura 6.- Impacto de la capa de optimización, tanto en el proceso de reconstrucción manoobjeto (izquierda) y en el proceso de predicción de agarre (derecha).
Figura 7.- Resultados en algunos casos prácticos aplicando el método de la invención.
REALIZACIÓN PREFERENTE DE LA INVENCIÓN
La invención se refiere a un método para determinar un modelo de agarre. El método de la invención toma como entrada una imagen RGB, que se propone para determinar un modelo de agarre aproximado, esto es, una configuración de mano, una traslación y un vector de rotación. El modelo de agarre aproximado se obtiene utilizando una red neuronal como un problema de clasificación, en el que se selecciona una taxonomía de agarre entre un grupo de taxonomías. Luego, el modelo de agarre aproximado se refina optimizando una o más funciones de pérdida, obteniendo así una forma y pose de mano refinada.
En particular, el método de la invención se puede usar para determinar opciones de agarre dada una imagen RGB de múltiples objetos en una escena compleja.
El método de la invención se aplica a cada objeto en una escena, y se obtienen modelos de agarre para cada objeto. En la Figura 1 se muestran los modelos de agarre obtenidos para los objetos de cada imagen. La figura muestra cuatro resultados obtenidos del conjunto de datos YCB-Affordance, que se ha creado para probar el método de la invención.
La Figura 2 muestra los pasos de un método de entrenamiento para anotar imágenes con el fin de entrenar las redes neuronales para obtener modelos de agarre. El método de entrenamiento en este caso se aplica a una imagen que tiene tres objetos. En primer lugar, se obtiene un modelo de uno de los objetos, como se muestra en el paso a). Luego, manualmente, se anota un conjunto de modelos de agarre operables sobre el modelo, en este caso solo se representan 5 modelos de manos en el paso b). Se obtiene una imagen, en la que el objeto está contenido, y también están presentes más objetos, como en el caso del paso c). Luego, todos los modelos de agarre se transfieren a la imagen como se muestra en el paso d). De todos los modelos de agarre transferidos, solo se seleccionan modelos de manos operables, en donde dichos modelos de manos operables no chocan con otros objetos en la escena. En el caso de la etapa e), solo tres modelos de mano se seleccionan para la representación, pero se podrían obtener muchos más modelos de mano. El método de entrenamiento permite obtener imágenes anotadas que alimentan las redes neuronales.
La Figura 4 muestra una representación del método de la invención. El método comprende los pasos de:
- obtener una imagen RGB de uno o varios objetos para predecir la forma en que un humano podría comprender estos objetos de forma natural,
- alimentar una primera subred para estimar las formas y ubicaciones de los objetos en la escena utilizando un estimador de pose de objeto 6D o una red de reconstrucción, - la predicción de la forma es proyectada sobre el plano de la imagen para obtener una máscara de segmentación,
- se concatena la máscara de segmentación con la imagen de entrada,
- alimentar la segunda subred para predecir el agarre con la máscara de segmentación concatenada con la imagen,
- obtener un modelo de mano aproximado a partir de una red neuronal de predicción de agarres, y
- refinamiento de los parámetros del modelo de mano aproximado para obtener un modelo refinado de la mano, en este caso usando el modelo paramétrico MANO. El método de la invención se entrena utilizando funciones de pérdidas de confrontación, interpenetración, clasificación y optimización.
La Figura 3 muestra una comparación entre el método de la invención y un simulador conocido en el estado de la técnica: GraspIt. En la figura 3 se muestra el porcentaje de modelos manuales encontrados a través del simulador en comparación con los obtenidos con el método de la invención.
Cuando se proporcionan los modelos CAD de los objetos, el simulador solo recupera una parte de los agarres naturales que se anotan en el método de la invención. Por lo tanto, anotar manualmente los modelos de mano en el método de entrenamiento proporciona más realismo a los modelos de mano obtenidos por el método de la invención. Como se muestra, el simulador puede obtener el mismo número de modelos de manos operables en objetos simples. Sin embargo, el simulador encuentra pocos modelos de manos operables cuando las manos están sobre objetos que requieren pulgares abducidos o agarres precisos operables.
Para evaluar la calidad de los modelos de agarre generados, se consideran algunas métricas de evaluación:
- Se utiliza una métrica analítica para puntuar un agarre, que calcula una aproximación de la fuerza mínima que se debe aplicar para romper la estabilidad del agarre.
- También se puede usar el número promedio de dedos que ejercen contacto para medir la calidad de un agarre, ya que tener más puntos de contacto entre la mano y el objeto favorece un agarre fuerte.
- Se podría calcular un volumen de interpenetración de la mano y el objeto. El objeto y la mano se voxelizan, y el volumen compartido por ambos modelos 3D se calcula utilizando un tamaño de voxel de 0.5cm3.
- Se calcula el desplazamiento en la simulación del objeto cuando dicho objeto se somete a gravedad.
- Se calcula el porcentaje de objetos agarrables para los que un agarre operable se podría predecir, siendo un agarre operable el que tiene al menos dos puntos de contacto y no interpenetración.
El método de la invención ha sido entrenado para la predicción de agarres en escenas con múltiples objetos utilizando imágenes naturales que muestran múltiples objetos anotados con agarres humanos operables.
Por lo tanto, se ha recopilado un primer conjunto de datos a gran escala que incluye pose y forma de la mano para un agarre natural y operable en escenas de objetos múltiples. Para ello, el conjunto de datos YCB-Video se ha aumentado con agarres humanos operables. El conjunto de datos YCB contiene más de 133K cuadros de vídeos de 92 escenas desordenadas con objetos altamente ocluidos cuya pose 6D fue anotada en coordenadas de la cámara.
Por consiguiente, se ha creado un conjunto de datos, llamado YCB-Affordance, que cuenta con agarres para todos los objetos del conjunto de objetos YCB para los que estaba disponible un modelo CAD. Se incluyen 58 objetos domésticos diversos de particular interés para tareas de agarre y manipulación, como herramientas, cubiertos, alimentos o estructuras de formas más básicas.
Cada modelo CAD se anotó primero con agarres operables y, luego, los agarres resultantes se transfirieron a las escenas e imágenes YCB, produciendo más de 28 millones de agarres para 133K imágenes.
En el paso de la anotación, los agarres operables se anotaron manualmente para cubrir todas las formas posibles de recoger o manipular los objetos de forma natural. En este caso, se usó la interfaz visual del simulador GraspIt para adaptar manualmente la posición y rotación de la palma de la mano, y cada uno de los ángulos de las articulaciones de los dedos.
Una integración del simulador GraspIt con un Modelo Lineal Multi-persona de Piel (SMPL) se utiliza para recuperar directamente una representación de dimensión reducida del modelo de mano MANO, y para obtener poses y mallas registradas de formas de manos.
En promedio, los objetos simétricos, tales como latas o botellas, se han anotado con 6 agarres distintos, y objetos más complejos, tales como herramientas o cubiertos, se han anotado con hasta 12 agarres diferentes. En total, se anotaron manualmente 367 diferentes agarres detallados y cada uno se asignó a un tipo de agarre dentro de una taxonomía de 33 agarres.
La taxonomía se definió teniendo en cuenta la posición de los dedos de contacto, el nivel de potencia/precisión de compensación en el agarre y la posición del pulgar. Luego, se anotaron las simetrías rotacionales en todos los objetos del conjunto de objetos YCB considerando cada eje principal.
Una simetría rotacional está representada por su orden, que indica el número de veces que un objeto puede rotarse en un eje particular y resulta en una forma equivalente. Tomando ventaja de la simetría de los objetos, el número de agarres se ha extendido automáticamente por simple rotación del mano alrededor de los ejes, por ejemplo, repitiendo agarre a lo largo del eje de revolución.
La generación de agarres utilizando el simulador GraspIt solo conduce a un conjunto reducido de modelos de agarre que maximizan la calificación analítica del agarre pero no son necesariamente correctos o naturales, por ejemplo, sostener un cuchillo por la hoja o agarrar una taza con 2 dedos. En lugar de eso, en el conjunto de datos YCB-Affordance, al anotar manualmente las imágenes, solo se incluyen modelos de manos de agarre operables, incluso modelos de manos que GraspIt nunca encontraría, como el agarre de unas tijeras.
Las escenas en el conjunto de datos de video YCB contienen entre 3 y 9 objetos en contacto cercano. A menudo, la ubicación de los objetos hace que no sean fácilmente accesibles para agarrarlos sin tocar otros objetos. Por esta razón, solo las escenas con agarres operables y factibles se han anotado, es decir, agarres para los cuales la mano no colisiona con otros objetos.
Para ello, se usan las anotaciones de las poses 6D de los modelos CAD en coordenadas de cámara que están disponibles para los diferentes objetos. Además, para una representación 3D más completa de la escena, la posición del plano de la mesa también se anota manualmente. En la práctica, esto se hizo manualmente en el primer cuadro de cada video y se propagó a través de los cuadros restantes usando el movimiento de la cámara en cuadros consecutivos.
Después, los agarres anotados en los modelos CAD en 3D se transfieren a las escenas reales, utilizando los datos reales de las poses 6D del objeto y seleccionando sólo agarres operables en los que la malla 3D de la mano no se cruza con los modelos CAD de los objetos o el plano de la mesa. En la mayoría de los casos, permanecen operables para cada objeto varios posibles agarres.
Sin embargo, el conjunto de datos YCB Vídeo contiene algunas escenas complejas en las que se coloca un objeto de un modo que otros objetos ocluyen demasiado para que pueda ser agarrado sin ningún tipo de colisión. En tales casos, se considera que el objeto no es alcanzable y se deja sin anotaciones. El conjunto de datos final contiene 133,936 cuadros con más de 28 millones de anotaciones de agarres operables, que es un tamaño adecuado para entrenar redes profundas.
La aportación de una capa de optimización se evalúa cuando se incluye en un método del estado-del-arte para la estimación de forma de la mano. Entonces, el método de la invención es validado en el conjunto de datos sintético ObMan que contiene un solo objeto por escena, y se evalúa completamente en escenas con múltiples objetos con el conjunto de datos creado YCB-Affordance.
La Figura 6 muestra datos cuantitativos del impacto de la capa de optimización, tanto en la parte de reconstrucción de objetos de mano como en la parte de predicción de agarre. El ángulo de rotación del dedo alrededor de una articulación para minimizar la distancia entre el dedo y el objeto está modulado por un hiper-parámetro (5). La Figura 6 muestra una compensación entre la interpenetración y el desplazamiento de la simulación, al variar el hiperparámetro (5), teniendo en cuenta que cuanto menor es la interpenetración y el desplazamiento de la simulación, mejor se considera el modelo manual. Primera, primera y segunda, y las tres articulaciones de cada dedo se optimizan por la capa de optimización y los resultados se muestran en la Figura 6.
En el gráfico de la izquierda se muestra la contribución de la capa de optimización en la parte de reconstrucción de objetos y mano, y en el gráfico de la derecha, se muestra la contribución de la capa de optimización en la predicción del agarre. Como se muestra, la capa propuesta proporciona una mejora significativa en los resultados de reconstrucción de objetos y mano, reduciendo el desplazamiento en la simulación y las métricas de interpenetración en más del 30%, y también se mejora la parte de predicción.
En una implementación, se hace una base para la comparación a partir de un modelo ResNet-50 pre-entrenado que predice directamente la representación MANO de la mano, la rotación y la translación, todavía usando capas para 'comprensión de la escena 3D' y 'refinamiento de la mano' pero sin la predicción de la taxonomía de agarre.
El conjunto de datos ObMan contiene alrededor de 150k pares sintéticos de objetos y mano con agarres exitosos producidos usando GraspIt para 27k objetos diferentes. Se simularon alrededor de 70k agarres para cada objeto, manteniendo solo los agarres con la puntuación más alta. En este caso, se usaron imágenes que muestran cada objeto solo y se agregaron texturas de fondo básicas. Esta es una versión simplificada del método que no considera las intersecciones con otros elementos de la escena, como el plano y los objetos.
La Figura 5 muestra, para cada objeto, la imagen de entrada (izquierda), el agarre predicho al estimar la forma 3D del objeto (centro) y cuando se usa la forma real del objeto (derecha).
Modelo Base GanHand GraspIt* Opt. Articulaciones - 1 2 3 - 1 2 3 -dedos
Puntuación Agarre
0.19 0.36 0.37 0.43 0.4 0.6 0.56 0.56 0.3 T
Contactos Mano-2.6 4 4.4 4.6 3 3.9 4.4 4.4 4.4 Objeto T
Interpenetración j 42 27 29 29 48 33 34 34 10 Tiempo (seg) j 0.2 0.3 0.3 0.4 0.2 0.3 0.3 0.4 300
Tabla 1.
En la Tabla 1 se proporcionan resultados cuantitativos sobre la comparación de tres modelos de agarre, tanto para GanHand como para la base de comparación. En particular, los modelos de agarre se obtienen evaluando ambos métodos utilizando la optimización para 1, 2 o 3 articulaciones. Luego, se seleccionan los modelos de mano que tienen la puntuación de agarre más alta, lo que proporciona una buena compensación entre la precisión de agarre y el tiempo de ejecución.
En la Tabla 1, las características de cada modelo de mano obtenido se comparan de tal manera que para las características que tienen el símbolo T, cuanto mayor es la puntuación, mejor es el modelo de mano, y al tener el símbolo j, menor es la puntuación, mejor es el modelo de mano. También se destaca que los modelos obtenidos en el caso del simulador se ejecutan usando la forma real de los objetos.
El método de la invención también se ha probado en el conjunto de datos YCB Affordance, generado para el entrenamiento y la prueba del método de la invención. La base de comparación y el método de la invención fueron entrenados en 80 videos de YCB Affordance (130k cuadros). La prueba se evalúa en un subconjunto diferente de 12 videos (2949 cuadros) de los mismos objetos vistos en el entrenamiento, pero usando escenas y poses diferentes.
La Figura 7 muestra los resultados en algunos casos. Como se muestra, el método de la invención logra un mayor porcentaje de objetos agarrables y una mayor precisión en los tipos de agarre previstos en comparación con la base de comparación. La interpenetración del plano es considerablemente baja para ambos métodos, lo que indica que ambos modelos aprendieron a colocar adecuadamente las manos sobre las mesas
Algunos fallos se resaltan en la fila inferior. En el caso de la parte inferior izquierda, las poses absolutas de la lata y las pinzas no son precisas y se producen agarres superpuestos. En el caso, abajo a la derecha, la copa se detecta como un ladrillo, prediciendo una comprensión incorrecta.
Modelo Base GanHand
Opt. articulaciones dedos - 1 2 3 - 1 2 3
% objetos agarrables f 4 21 33 31 21 58 57 55
Precisión tipo agarre % f 49 62 57 56 78 76 70 76
Puntuación Agarre f 0.37 0.45 0.44 0.45 0.36 0.47 0.46 0.42
Contactos Mano-Objeto f 3.7 3.7 3.7 3.7 3.7 3.7 3.8 3.9
Obj. Interp. (cm3) j 38 30 30 30 26 27 28 26
Plano interp. (cm) j 0.1 0.1 0.1 0.1 0.3 0.3 0.2 0.3
Tabla 2.
En la Tabla 2 se proporcionan resultados cuantitativos que comparan tres modelos de agarre en el conjunto de datos YCB-Affordance para GanHand y la base de comparación. El resultado general es que el método de la invención (GanHand) supera a la base de comparación en todas las métricas, excepto en la interpenetración plana que es insignificante para ambos métodos.
En este método, se muestrean hasta 20 predicciones y se selecciona la que tenga menos interpenetración con todos los objetos predichos. Ambos métodos sacan el máximo partido a la variedad de agarres del conjunto de datos YCB Affordance, y que predicen una buena diversidad de agarres.
Además, se puede tener en cuenta la actividad prevista y el estado del objeto para seleccionar un agarre más adecuado. Por ejemplo, un ser humano no podría manipular una taza al mismo tiempo que bebe el líquido caliente que contiene, o cuando se está lavando.
En un ejemplo de implementación, el módulo de clasificación se basa en un ResNet-50. El discriminador y el refinador de la pose de la mano son redes de 4 capas totalmente conectadas con no linealidades ReLU e inicialización de Xavier.
Las imágenes de entrada se redimensionan a 256x256. Se lleva a cabo una rejilla de búsqueda de los hiper-parámetros para maximizar y entrenar a todos los modelos usando LR = 0,0001, BS = 32, los pesos de pérdida clase = 1, arc = 0:01, cont = 100, int = 4,000, p = 20, adv = 1 y gp = 10 usando el optimizador Adam.
El generador se entrena una vez cada 5 pasadas hacia adelante para mejorar la calidad relativa del discriminador. El modelo está entrenado para 5 epochs, y con decaimiento lineal LR por 25 epochs más.

Claims (14)

REIVINDICACIONES
1. Procedimiento para determinar un modelo de agarre adecuado para agarrar un objeto, el método comprende:
a) obtener al menos una imagen que incluye al menos un objeto;
b) obtener un modelo del objeto y una estimación de la pose y forma de dicho objeto a partir de la primera imagen del objeto;
c) predecir una clase de agarre de un conjunto de agarres de una taxonomía por medio de una red neuronal artificial, y por lo consiguiente, la obtención de un conjunto de parámetros que definen un agarre aproximado;
d) refinar el agarre aproximado reduciendo al mínimo las funciones de pérdida referentes a los parámetros de la mano para la obtención de un modelo de la mano que corresponde a un agarre operable reduciendo al mínimo la distancia entre los dedos del modelo de la mano y la superficie del objeto, y evitando la interpenetración;
e) la obtención de una representación de una mano que agarra el objeto usando el modelo refinado de la mano.
2. Método según la reivindicación 1, en el que la red neuronal artificial es una red
neuronal convolucional, con una pérdida de entropía cruzada L cj ass definida como:
L class — X ceK C o,c lOg(1 - P o,c) Eq. 1 dónde C representa el tipo de agarre para el objeto particular (o), c representa las clases de agarre entre las K posibles clases de agarres, y P representa las predicciones de la pose del objeto (o).
3. Método según la reivindicación 1, en el que la representación obtenida en la etapa e) es una malla del modelo de mano refinada.
4. Método según la reivindicación 1, en el que el modelo de la mano se representa mediante el uso de un modelo MANO, esto es un modelo de 51 grados de libertad (DOF) de una posible mano humana.
5. Método según la reivindicación 1, que comprende además una etapa de evaluación del modelo de agarre obtenido calculando al menos una métrica de evaluación de: - una métrica analítica de agarre, que calcula una aproximación de la fuerza mínima que se debe aplicar para romper la estabilidad del agarre;
- un número medio de contactos con los dedos, en el que numerosos puntos de contacto entre la mano y el objeto favorecen un agarre fuerte;
- un volumen de interpenetración mano-objeto, en el que el objeto y la mano están voxelizados y se calcula el volumen compartido por ambos modelos 3D;
- una simulación del desplazamiento del modelo del objeto sometida a gravedad; y - un porcentaje de objetos agarrables para los que un agarre operable podría predecirse, siendo un agarre operable aquel con al menos dos puntos de contacto y no interpenetración.
6. Método según la reivindicación 5, que comprende además el paso de:
- girar al azar el modelo de los objetos,
- obtener un modelo de agarre para cada modelo de objeto girado, repitiendo los pasos c) a e),
- evaluar cada modelo de agarre girado utilizando métricas de evaluación, y - seleccionando los modelos de agarre girada que tienen la puntuación más alta.
7. Método según la reivindicación 1, en el que el paso de estimar una pose y forma del objeto comprende una fase de reconstrucción del objeto para obtener una nube de puntos que representan el objeto en la imagen obtenida.
8. Método según la reivindicación 1, en el que la imagen RGB comprende más de un objeto y el método comprende además el paso de repetir los pasos b) a e) para cada objeto en la imagen, en el que los objetos son conocidos.
9. Método según la reivindicación 1, en el que el paso de seleccionar una taxonomía de agarre comprende además una fase de predicción de un incremento de traslación y rotación del modelo de mano y una configuración aproximada modificada del modelo manual mediante una red completamente conectada.
10. Método según la reivindicación 1, en el que el paso de refinar el modelo de mano, comprende las fases de:
(i) seleccionar al menos una articulación (i) del modelo de mano,
(ii) calcular un arco (Ai) entre un dedo (j) del modelo de mano y los vértices de objetos cercanos (O),
Figure imgf000024_0001
(iii) estimar el ángulo en que debe rotarse el dedo para colisionar con el objeto, girando la articulación para minimizar el arco, reduciendo así la distancia entre el modelo de la mano y los vértices del objeto, incluido un hiper-parámetro para controlar la interpenetración del modelo de mano en el objeto,
yj ^ a r g min D0 5 , V0 s. t. D0 < t d Eq. 3
(iv) definir las siguientes funciones de pérdida:
Figure imgf000024_0002
(v) minimizar las funciones de pérdida definidas.
11. Método según la reivindicación 8, en el que el paso de refinar el modelo de mano comprende además la fase de repetir las fases (ii) a (iii) para cada articulación secuencialmente desde el nudillo hasta la punta de cada dedo.
12. Método según la reivindicación 1, en el que el paso de refinar el modelo manual además comprende la fase de minimizar una función de pérdida seleccionada entre: - una distancia entre los vértices de la mano y el objeto objetivo, en el que se considera que hay un contacto cuando la distancia es inferior a 2 mm, definida por:
Figure imgf000024_0003
- una distancia de interpenetración entre un vértice del modelo de mano y el objeto, definida por:
J in t_ |VilS í ^EveVj min v,°k Eq. 6
- una distancia debajo del plano de la mesa, entre un vértice del modelo de mano y el plano de la mesa, en donde la distancia se favorece como positiva, definida por:
Figure imgf000024_0004
- una función de pérdida antagónica, que utiliza una pérdida de Wasserstein que incluye una pérdida por penalización de gradiente, definida por:
Ladv — _ EH,R,T~p(H,R,T) [D( G® ) ]
e h,r,t ~p(h,r,t )[d ( H * ,R V T * ) ]
Eq. 8
13. Programa informático adaptado para realizar los pasos del método según cualquiera de las reivindicaciones 1 a 10.
14. Un medio de almacenamiento legible por computadora que comprende el programa de la reivindicación 11.
ES202030553A 2020-06-09 2020-06-09 Metodo para determinar un modelo de agarre de mano Pending ES2885077A1 (es)

Priority Applications (3)

Application Number Priority Date Filing Date Title
ES202030553A ES2885077A1 (es) 2020-06-09 2020-06-09 Metodo para determinar un modelo de agarre de mano
US17/341,970 US20220009091A1 (en) 2020-06-09 2021-06-08 Method for determining a grasping hand model
US17/833,460 US20220402125A1 (en) 2020-06-09 2022-06-06 System and method for determining a grasping hand model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ES202030553A ES2885077A1 (es) 2020-06-09 2020-06-09 Metodo para determinar un modelo de agarre de mano

Publications (1)

Publication Number Publication Date
ES2885077A1 true ES2885077A1 (es) 2021-12-13

Family

ID=78822224

Family Applications (1)

Application Number Title Priority Date Filing Date
ES202030553A Pending ES2885077A1 (es) 2020-06-09 2020-06-09 Metodo para determinar un modelo de agarre de mano

Country Status (2)

Country Link
US (1) US20220009091A1 (es)
ES (1) ES2885077A1 (es)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116652940A (zh) * 2023-05-19 2023-08-29 兰州大学 仿人手精密操控方法和装置、电子设备及存储介质
CN117021122A (zh) * 2023-10-09 2023-11-10 知行机器人科技(苏州)有限公司 一种抓取机器人控制方法及系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12097614B2 (en) 2021-09-10 2024-09-24 Honda Motor Co., Ltd. Object manipulation
US20230084968A1 (en) * 2021-09-10 2023-03-16 Honda Motor Co., Ltd. Object manipulation
US20230241771A1 (en) * 2022-02-02 2023-08-03 Intrinsic Innovation Llc Object placement
FR3136568A1 (fr) * 2022-06-08 2023-12-15 Orange Procédé de construction de transitions fluides d’une main dans un environnement en réalité virtuelle ou augmentée
EP4321309A1 (en) * 2022-08-09 2024-02-14 Naver Corporation Systems and methods for grasping objects like humans using robot grippers

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190022863A1 (en) * 2017-07-20 2019-01-24 Tata Consultancy Services Limited Systems and methods for detecting grasp poses for handling target objects

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190022863A1 (en) * 2017-07-20 2019-01-24 Tata Consultancy Services Limited Systems and methods for detecting grasp poses for handling target objects

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CAI JUNHAO ET AL. MetaGrasp: Data Efficient Grasping by Affordance Interpreter Network. 2019 International Conference on Robotics and Automation (ICRA), 20190520 IEEE. , 20/05/2019, Páginas 4960 - 4966 (DOI: doi:10.1109/ICRA.2019.8793912) <p>Todo el documento</p> *
GUAN HENG ET AL. An Efficient Robotic Grasping Pipeline Base on Fully Convolutional Neural Network. 2019 5th International Conference on Control, Automation and Robotics (ICCAR), 20190419 IEEE. , 19/04/2019, Páginas 172 - 176 (DOI: doi:10.1109/ICCAR.2019.8813502) <p>Todo el documento.</p> *
HASSON YANA ET AL. Learning Joint Reconstruction of Hands and Manipulated Objects. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 20190615 IEEE. , 15/06/2019, Páginas 11799 - 11808 (DOI: doi:10.1109/CVPR.2019.01208) <p>Todo el documento</p> *
KOKIC MIA ET AL. Learning to Estimate Pose and Shape of Hand-Held Objects from RGB Images. 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 20191103 IEEE. , 03/11/2019, Páginas 3980 - 3987 (DOI: doi:10.1109/IROS40897.2019.8967961) <p>Todo el documento</p> *
LIU MIN ET AL. Generating Grasp Poses for a High-DOF Gripper Using Neural Networks. 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 20191103 IEEE. , 03/11/2019, Páginas 1518 - 1525 (DOI: doi:10.1109/IROS40897.2019.8968115) Secciones III y IV *
SAHBANI A ET AL. An overview of 3D object grasp synthesis algorithms. ROBOTICS AND AUTONOMOUS SYSTEMS Elsevier BV, AMSTERDAM, NL. Ferrï¿¿ndez Josï¿¿ Manuel; Paz Fï¿¿lix de la; Lope Javier de, 30/11/0002, Vol. 60, Páginas 326 - 336 ISSN 0921-8890, (DOI: doi:10.1016/j.robot.2011.07.016) <p>Todo el documento</p> *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116652940A (zh) * 2023-05-19 2023-08-29 兰州大学 仿人手精密操控方法和装置、电子设备及存储介质
CN116652940B (zh) * 2023-05-19 2024-06-04 兰州大学 仿人手精密操控方法和装置、电子设备及存储介质
CN117021122A (zh) * 2023-10-09 2023-11-10 知行机器人科技(苏州)有限公司 一种抓取机器人控制方法及系统
CN117021122B (zh) * 2023-10-09 2024-01-26 知行机器人科技(苏州)有限公司 一种抓取机器人控制方法及系统

Also Published As

Publication number Publication date
US20220009091A1 (en) 2022-01-13

Similar Documents

Publication Publication Date Title
ES2885077A1 (es) Metodo para determinar un modelo de agarre de mano
Brahmbhatt et al. Contactgrasp: Functional multi-finger grasp synthesis from contact
Newbury et al. Deep learning approaches to grasp synthesis: A review
Kokic et al. Affordance detection for task-specific grasping using deep learning
Li et al. Data-driven grasp synthesis using shape matching and task-based pruning
Bohg et al. Data-driven grasp synthesis—a survey
Aleotti et al. Part-based robot grasp planning from human demonstration
Oprea et al. A visually realistic grasping system for object manipulation and interaction in virtual reality environments
Hamer et al. An object-dependent hand pose prior from sparse training data
Lu et al. Modeling grasp type improves learning-based grasp planning
Kopicki et al. Learning dexterous grasps that generalise to novel objects by combining hand and contact models
Choi et al. Towards a natural motion generator: A pipeline to control a humanoid based on motion data
Aktaş et al. Deep dexterous grasping of novel objects from a single view
Valarezo Anazco et al. Natural object manipulation using anthropomorphic robotic hand through deep reinforcement learning and deep grasping probability network
Chen et al. Learning robust real-world dexterous grasping policies via implicit shape augmentation
US20220402125A1 (en) System and method for determining a grasping hand model
Li et al. Dexdeform: Dexterous deformable object manipulation with human demonstrations and differentiable physics
Tee et al. A framework for tool cognition in robots without prior tool learning or observation
Aleotti et al. Grasp programming by demonstration in virtual reality with automatic environment reconstruction
Dong et al. Quasi-static soft fixture analysis of rigid and deformable objects
US11620416B2 (en) Systems and methods for determining digital model positioning for grasping
Hang et al. DexFuncGrasp: A Robotic Dexterous Functional Grasp Dataset Constructed from a Cost-Effective Real-Simulation Annotation System
D'Avella et al. The cluttered environment picking benchmark (cepb) for advanced warehouse automation: evaluating the perception, planning, control, and grasping of manipulation systems
JP2013182554A (ja) 把持姿勢生成装置、把持姿勢生成方法及び把持姿勢生成プログラム
Du et al. Multi-Finger Grasping Like Humans

Legal Events

Date Code Title Description
PC2A Transfer of patent

Owner name: NAVER FRANCE

Effective date: 20201209

BA2A Patent application published

Ref document number: 2885077

Country of ref document: ES

Kind code of ref document: A1

Effective date: 20211213

PC2A Transfer of patent

Owner name: NAVER FRANCE

Effective date: 20221103

PC2A Transfer of patent

Owner name: NAVER LABS CORPORATION

Effective date: 20221129