ES2967691T3

ES2967691T3 - Ajuste de una representación digital de una región de cabeza

Info

Publication number: ES2967691T3
Application number: ES18844651T
Authority: ES
Inventors: Eric Sommerlade; Alexandros Neophytou
Original assignee: RealD Spark LLC
Current assignee: RealD Spark LLC
Priority date: 2017-08-08
Filing date: 2018-08-07
Publication date: 2024-05-03
Anticipated expiration: 2038-08-07
Also published as: CN111183405A; US20220207847A1; WO2019032604A1; US20210012575A1; US10740985B2; EP3665553A1; US11232647B2; EP4293574A3; US20190051057A1; EP3665553B1; EP4293574A2; EP3665553A4; US11836880B2

Abstract

Se divulgan métodos y dispositivos para generar datos de referencia para ajustar una representación digital de una región de la cabeza, y métodos y dispositivos para ajustar la representación digital de una región de la cabeza. En algunos acuerdos, se reciben datos de entrenamiento. Un primer algoritmo de aprendizaje automático genera los primeros datos de referencia utilizando los datos de entrenamiento. Un segundo algoritmo de aprendizaje automático genera segundos datos de referencia utilizando los mismos datos de entrenamiento y los primeros datos de referencia generados por el primer algoritmo de aprendizaje automático. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Ajuste de una representación digital de una región de cabeza

Campo técnico

Esta solicitud se refiere al ajuste de una representación digital, tal como una imagen o una representación geométrica tridimensional, de una región principal, particularmente una región facial y/o del cuello. La solicitud se refiere particularmente al ajuste de características objetivo de la representación digital de la región de cabeza, por ejemplo, para corregir la dirección de la mirada percibida de los ojos, o para modificar la textura y/o forma de rasgos tales como la nariz, boca, barbilla o cuello.

Antecedentes

En muchos sistemas, imágenes de una cabeza, que pueden comprender imágenes únicas en diferentes momentos, o pares estereoscópicos de imágenes u otras imágenes de vistas múltiples, pueden capturarse en un dispositivo y mostrarse en un dispositivo diferente para que lo vea un observador. Un ejemplo no limitativo es un sistema para realizar teleconferencias entre dos dispositivos de telecomunicaciones. En ese caso, cada dispositivo puede capturar imágenes del observador de ese dispositivo y transmitirlas al otro dispositivo a través de una red de telecomunicaciones para que el observador del otro dispositivo las muestre y las vea. También podrán capturarse representaciones digitales distintas de las imágenes y/o complementarias a las imágenes, por ejemplo, utilizando mediciones de profundidad (por ejemplo, utilizando una cámara de tiempo de vuelo).

Cuando se captura y muestra una imagen u otra representación digital de una cabeza, la mirada de la cabeza no puede dirigirse al observador. Esto puede deberse, por ejemplo, a que la mirada de la cabeza no esté dirigida al sistema de detección (por ejemplo, un sistema de cámara) utilizado para capturar la representación digital (por ejemplo, una imagen), por ejemplo, porque un usuario cuya cabeza es fotografiada está observando una pantalla en el mismo dispositivo que un sistema de cámara y el sistema de cámara está desplazado por encima (o por debajo) de esa pantalla. En ese caso, la mirada en las imágenes mostradas se percibirá hacia abajo (o hacia arriba). El sistema visual humano ha desarrollado una alta sensibilidad a la mirada durante la interacción social, utilizando señales obtenidas de la posición relativa del iris y la esclerótica blanca de otros observadores. Errores en la mirada percibida son desconcertantes. Por ejemplo, en un sistema para realizar teleconferencias, los errores en la mirada percibida pueden crear interacciones antinaturales entre los usuarios.

La presente divulgación se refiere a técnicas de procesamiento (por ejemplo, técnicas de procesamiento de imágenes) para ajustar representaciones digitales (por ejemplo, imágenes) de una región de cabeza para corregir la mirada percibida y/o mejorar otros aspectos de una visualización generada por computadora de la región de cabeza. La presente divulgación se refiere particularmente a la implementación de tales técnicas de procesamiento con demandas mínimas de hardware y/o energía del ordenador, de modo que proporcionen resultados en o cerca de la velocidad de cuadros de datos de entrada o los requisitos de retroalimentación del usuario.

Yaroslav Ganinet al.:"DeepWarp: Photorealistic Image Resynthesis for Gaze Manipulation", páginas 1 a 18, 26 de julio de 2016, divulga métodos para generar imágenes de un rostro determinado con una mirada redirigida. El problema se trata como un caso específico de generación de imágenes condicional. Se divulga una arquitectura profunda para manejar la tarea. La arquitectura profunda realiza una deformación de gruesa a fina con una corrección de intensidad adicional de píxeles individuales. Todas estas operaciones se realizan de manera anticipada y los parámetros asociados con diferentes operaciones se aprenden conjuntamente de un extremo a otro. Después de aprender, la red neuronal resultante puede sintetizar imágenes con la mirada manipulada, mientras que el ángulo de redireccionamiento se puede seleccionar arbitrariamente dentro de un cierto rango y proporcionarse como entrada a la red.

El documento US 2017/195662 A1 divulga un método en el que la mirada se corrige ajustando imágenes de vistas múltiples de una cabeza. Se identifican parches de imagen que contienen los ojos izquierdo y derecho de la cabeza y se deriva un vector de características a partir de varios descriptores de imagen locales del parche de imagen en al menos una imagen de las imágenes de vistas múltiples. Se deriva un campo vectorial de desplazamiento que representa una transformación de un parche de imagen, usando el vector de características derivado para buscar datos de referencia que comprenden campos de vectores de desplazamiento de referencia asociados con posibles valores del vector de características producido por el aprendizaje automático. Las imágenes de vistas múltiples se ajustan transformando los parches de imagen que contienen los ojos izquierdo y derecho de la cabeza de acuerdo con el campo vectorial de desplazamiento derivado.

Breve sumario

El alcance de la invención se define en las reivindicaciones adjuntas.

De acuerdo con un aspecto de la invención, se proporciona el método de la reivindicación 1 para generar datos de referencia para ajustar una representación digital de una región de cabeza.

El uso descrito de dos algoritmos de aprendizaje automático permite lograr un equilibrio mejorado entre la precisión del proceso de ajuste y la velocidad de ejecución. El primer algoritmo de aprendizaje automático se puede configurar para proporcionar primeros datos de referencia muy detallados, lo que proporciona una alta precisión. El uso de estos primeros datos de referencia directamente en una técnica de procesamiento (por ejemplo, técnica de procesamiento de imágenes) para ajustar una representación digital (por ejemplo, imagen o representación geométrica tridimensional) de una región de cabeza sería relativamente costoso en términos de recursos computacionales debido al alto nivel de detalle. Al disponer, en cambio, que los primeros datos de referencia se proporcionen a un segundo algoritmo de aprendizaje automático, que proporciona, basado en los primeros datos de referencia y los datos de entrenamiento originales, los datos de referencia (los segundos datos de referencia) que se van a utilizar para el ajuste de la representación digital de la región de cabeza, es posible beneficiarse hasta cierto punto de la alta precisión del primer algoritmo de aprendizaje automático y al mismo tiempo proporcionar datos de referencia que son menos detallados y, por lo tanto, más fáciles de procesar de manera eficiente al realizar el ajuste de la representación digital de la región de cabeza. Se descubre que la calidad de los datos de referencia proporcionados por el segundo algoritmo de aprendizaje automático mejora significativamente cuando el segundo algoritmo de aprendizaje automático se proporciona tanto con los primeros datos de referencia como con los datos de entrenamiento en comparación con cuando el segundo algoritmo de aprendizaje automático se proporciona solo con los datos de entrenamiento.

La eficiencia se mejora aún más proporcionando instrucciones de edición (por ejemplo, instrucciones de edición de imágenes) en los segundos datos de referencia en una representación comprimida. El uso de una representación comprimida reduce los requisitos de almacenamiento de datos y ancho de banda durante el uso de las instrucciones de edición para realizar el ajuste de una representación digital de una región de cabeza.

De acuerdo con un aspecto alternativo de la invención, se proporciona un dispositivo correspondiente de la reivindicación 15.

La presente divulgación también describe un método para ajustar una representación digital de una región de cabeza, comprendiendo el método: identificar un parche objetivo en la representación digital de la región de cabeza, comprendiendo el parche objetivo una característica objetivo de la representación digital de la región de cabeza; derivar un vector de características a partir de varios descriptores locales del parche objetivo; usar el vector de características para seleccionar instrucciones de edición a partir de datos de referencia, comprendiendo los datos de referencia instrucciones de edición para un rango de valores posibles del vector de características; y aplicar las instrucciones de edición seleccionadas al parche objetivo para ajustar la representación digital de la región de cabeza, en donde: las instrucciones de edición en los datos de referencia se proporcionan en una representación comprimida.

La presente divulgación también describe un dispositivo configurado para realizar el método anterior.

La presente divulgación también describe un método para entrenar un algoritmo de aprendizaje automático para ajustar una representación digital de una región de cabeza, que comprende: recibir datos de entrenamiento que comprende: un conjunto de parches de entrada, comprendiendo cada parche de entrada una característica objetivo de una representación digital de una región de cabeza antes del ajuste de la representación digital de la región de cabeza, en donde la característica objetivo es la misma para cada parche de entrada; y primeros datos de referencia generados por un primer algoritmo de aprendizaje automático previamente entrenado, comprendiendo los primeros datos de referencia un conjunto de instrucciones de edición en correspondencia uno a uno con los parches de entrada, siendo cada instrucción de edición para ajustar la representación digital de la región de cabeza; actualizar un segundo algoritmo de aprendizaje automático previamente entrenado para generar segundos datos de referencia, donde la entrada para la actualización comprende los datos de entrenamiento y los primeros datos de referencia generados, los segundos datos de referencia comprenden instrucciones de edición para ajustar la representación digital de la región de cabeza.

La presente divulgación también describe un método para entrenar un algoritmo de aprendizaje automático para ajustar una representación digital de una región de cabeza, comprendiendo el método: recibir datos de entrenamiento que comprenden un conjunto de representaciones digitales de entrada de una región de cabeza; entrenar un primer algoritmo de aprendizaje automático usando los datos de entrenamiento para realizar un ajuste de una representación digital de una región de cabeza; utilizar el primer algoritmo de aprendizaje automático entrenado para generar los primeros datos de referencia, comprendiendo los primeros datos de referencia una representación digital ajustada de la región de cabeza para cada uno de al menos un subconjunto de las representaciones digitales de entrada, obteniéndose cada representación digital ajustada realizando el ajuste para el que fue entrenado el primer algoritmo de aprendizaje automático; y entrenar un segundo algoritmo de aprendizaje automático usando al menos un subconjunto de los datos de entrenamiento usados para entrenar el primer algoritmo de aprendizaje automático y los primeros datos de referencia para realizar el mismo ajuste de una representación digital de una región de cabeza que el primer algoritmo de aprendizaje automático.

Breve descripción de los dibujos

Realizaciones no limitativas se ilustran a modo de ejemplo en las figuras adjuntas, en las que números de referencia similares indican piezas similares, y en el que:

LaFIGURA 1es una vista en perspectiva esquemática de un dispositivo que captura un par de imágenes estereoscópicas;

LaFIGURA 2es una vista en perspectiva esquemática de un dispositivo que muestra el par de imágenes estereoscópicas;

LaFIGURA 3es un diagrama de flujo de un método de ajuste de un par de imágenes estereoscópicas;

LaFIGURA 4es un diagrama que ilustra el procesamiento del par de imágenes estereoscópicas en el método de la FIGURA 3;

LaFIGURA 5es un diagrama de flujo de una etapa de extraer un parque de imagen;

LaFIGURA 6y laFIGURA 7son diagramas de flujo de dos alternativas para una etapa de ajuste de una imagen; LaFIGURA 8es un diagrama de flujo de un método para generar datos de referencia;

LaFIGURA 9representa esquemáticamente el flujo de datos en un método de ejemplo para generar datos de referencia;

LaFIGURA 10representa un dispositivo para generar datos de referencia;

LaFIGURA 11es un diagrama de flujo de un método de ajuste de una imagen de una región de cabeza;

LaFIGURA 12representa esquemáticamente el flujo de datos en un ejemplo de un método para ajustar una imagen de una región de cabeza;

LaFIGURA 13es un diagrama de un sistema de telecomunicaciones en el que puede implementarse el método; LaFIGURA 14representa esquemáticamente el flujo de datos en un método de ejemplo de generación de datos de referencia para convertir una representación digital bidimensional de una región de cabeza en una representación digital tridimensional de una región de cabeza; y

LaFIGURA 15representa esquemáticamente el flujo de datos en un ejemplo de un método para ajustar una representación digital de una región de cabeza en el que un segundo algoritmo de aprendizaje automático se actualiza en línea.

Descripción detallada

LaFIGURA 1y laFIGURA 2ilustran cómo se percibe la mirada incorrecta cuando un par de imágenes estereoscópicas de una cabeza es capturado por el dispositivo 10 mostrado en la FIGURA 1, al que se hará referencia como el dispositivo de origen 10, y se muestra en un dispositivo 20 diferente que se muestra en la FIGURA 2, que será denominado dispositivo de destino 20. Como ejemplo se muestra la captura de un par de imágenes estereoscópicas. Puede ocurrir un efecto similar cuando se captura una imagen monocular y cuando se capturan más de dos vistas de la cabeza. También puede producirse un efecto similar cuando se utilizan técnicas de detección alternativas o adicionales para construir una representación digital de la cabeza (por ejemplo, cuando se utiliza un sensor de profundidad, como una cámara de tiempo de vuelo, para obtener información geométrica tridimensional sobre las posiciones en la superficie de la cabeza).

En la realización mostrada, el dispositivo de captura 10 incluye una pantalla 11 y un sistema de cámara 12. En este ejemplo particular, el sistema de cámara comprende dos cámaras 13 para capturar el par de imágenes estereoscópicas de la cabeza de un observador fuente 14. En una implementación monocular se puede proporcionar una única cámara en lugar de las dos cámaras 13. En otras implementaciones, de forma alternativa o adicional, se proporciona un sensor de profundidad. El observador de la fuente 14 ve la pantalla 11, a lo largo de la línea 15. Las cámaras 13 (que incluyen opcionalmente uno o más sensores de profundidad) del sistema de cámara 12 están desplazadas de la pantalla 11, estando en este caso encima de la pantalla 11. Por tanto, las cámaras 13 miran efectivamente hacia abajo al observador fuente 14 a lo largo de la línea 16.

El dispositivo de pantalla 20 incluye una pantalla 21, que en este ejemplo puede ser una pantalla estereoscópica de cualquier tipo conocido, por ejemplo, una pantalla autoestereoscópica de cualquier tipo conocido. La pantalla 21 muestra el par de imágenes estereoscópicas capturadas por el dispositivo de captura 10. Un observador de destino 24 ve la pantalla 21. Si el observador de destino 24 está ubicado en una posición de visión normal perpendicular al centro de la pantalla 21, como se muestra en el contorno definido del observador de destino 24, entonces, el observador de destino 24 percibe que la mirada del observador de origen 14 está hacia abajo, en lugar de mirar al observador de destino 24, porque las cámaras 13 del dispositivo de origen 10 miran hacia abajo al observador fuente 14.

Aunque las cámaras 13 están encima de la pantalla 11 en este ejemplo, las cámaras 13 podrían en general estar en cualquier ubicación adyacente a la pantalla 11, y la mirada del observador de origen 14 percibida por el observador de destino 24 sería correspondientemente incorrecta.

Si el observador de destino 24 está situado en una posición de visualización desplazada, como se muestra mediante el contorno de puntos del observador de destino 24 de modo que el observador de destino 24 ve la pantalla 21 a lo largo de la línea 26, entonces el desplazamiento del observador de destino 24 crea un error adicional en la mirada del observador de origen 14 percibido por el observador de destino 24. Un error adicional similar en la mirada percibida del observador fuente 14 ocurre si el observador destino 24 está ubicado en la posición de observación normal a lo largo de la línea 25, pero la imagen visualizada (o el par de imágenes estereoscópicas en este ejemplo) se visualiza en la pantalla 25 en una posición desplazada desde el centro de la pantalla 25.

Un par de imágenes estereoscópicas es un ejemplo de imágenes de vistas múltiples donde hay dos imágenes. Aunque la FIGURA 1 ilustra un ejemplo en el que el sistema de cámara 12 incluye dos cámaras 13 que capturan un par de imágenes estereoscópicas, alternativamente, el sistema de cámara puede incluir más de dos cámaras 13 que capturan más de dos imágenes de múltiples vistas, en cuyo caso existen problemas similares de percepción de mirada incorrecta. Alternativamente, el sistema de cámara puede incluir solo una cámara y/o uno o más sensores de profundidad.

LaFIGURA 3ilustra un método para ajustar imágenes de vistas múltiples para corregir tales errores en la mirada percibida. El método de la FIGURA 3 es un ejemplo específico de un método para ajustar representaciones digitales de una región de cabeza en un caso en el que las representaciones digitales comprenden imágenes de la región de cabeza y en el que las imágenes comprenden una o más imágenes de múltiples vistas de la región de cabeza. Por motivos de simplicidad, este método se describirá con respecto al ajuste de imágenes de vistas múltiples que comprenden un par de imágenes estereoscópicas. El método puede generalizarse a imágenes de vistas múltiples que comprenden más de dos imágenes, simplemente realizando un procesamiento similar en una mayor cantidad de imágenes. El método también puede generalizarse al caso en el que se utilizan imágenes de vista única (monocular) de la región de cabeza y al caso en el que información de otras modalidades de detección, tales como mediciones de profundidad, se incluye dentro de las representaciones digitales de la región principal.

El método puede realizarse en un procesador de imágenes 30 (u otro procesador). El procesador de imágenes 30 puede implementarse mediante un procesador que ejecuta un programa informático adecuado o mediante hardware dedicado o mediante alguna combinación de software y hardware. Cuando se utilice un programa informático, el programa informático puede comprender instrucciones en cualquier lenguaje adecuado y puede almacenarse en un medio de almacenamiento legible por ordenador, que puede ser de cualquier tipo, por ejemplo: un medio de grabación que se inserta en una unidad del sistema informático y que puede almacenar información magnéticamente, ópticamente u optomagnéticamente; un medio de grabación fijo del sistema informático tal como un disco duro; o una memoria de ordenador.

El procesador de imágenes 30 (u otro procesador) puede proporcionarse en el dispositivo de origen 10, el dispositivo de destino 10 o en cualquier otro dispositivo, por ejemplo, un servidor en una red de telecomunicaciones, lo que puede ser adecuado en el caso de que el dispositivo de origen 10 y el dispositivo de destino 10 se comuniquen a través de dicha red de telecomunicaciones.

En este ejemplo, un par de imágenes estereoscópicas 31 son capturadas por el sistema de cámara 12. Aunque los sistemas de cámara 12 se ilustran en la FIGURA 1 incluyen dos cámaras 13, esto no es limitativo y más generalmente el sistema de cámara 13 puede tener las siguientes propiedades.

El sistema de cámaras comprende un conjunto de una o más cámaras 13, con al menos dos cámaras 13 en el caso de que se procesen imágenes de múltiples vistas. Cuando se proporcionan dos cámaras, las cámaras suelen estar espaciadas por una distancia menor que la distancia intrapupilar humana promedio. En la alternativa de que el método se aplique a más de dos imágenes de múltiples vistas, entonces hay más de dos cámaras 13, es decir, una cámara 13 por imagen. En algunas realizaciones, se proporciona un sensor de profundidad para obtener información geométrica tridimensional sobre una superficie de la región de cabeza, opcionalmente además de una o más cámaras (por ejemplo, cámaras ópticas). El sensor de profundidad puede comprender una cámara de tiempo de vuelo.

Cuando se proporcionan varias cámaras 13, las cámaras 13 pueden estar relacionadas espacialmente entre sí y con la pantalla 11. La relación espacial entre las propias cámaras 13 y entre las cámaras 13 y la pantalla 11 se conoce de antemano. Se pueden aplicar métodos conocidos para encontrar la relación espacial, por ejemplo, un método de calibración utilizando una imagen de referencia o una especificacióna priori.

La cámara o cámaras 13 miran en la misma dirección que la pantalla 11. Por tanto, cuando el observador fuente 14 está viendo la pantalla 11, luego la cámara o cámaras 13 se enfrentan al observador fuente 14 y a la información capturada, tal como información de profundidad, la imagen o imágenes (por ejemplo, un par de imágenes estereoscópicas) son representaciones digitales (por ejemplo, imágenes y/o representaciones geométricas tridimensionales) de la cabeza del observador fuente 14. Las diferentes cámaras del sistema de cámaras pueden tener diferentes campos de visión.

El sistema de cámara 12 puede incluir cámaras 13 que tienen diferentes modalidades de detección, incluyendo, aunque no estando limitado a luz visible, infrarrojos y tiempo de vuelo (profundidad).

En algunas realizaciones, la salida principal del sistema de cámara 13 son imágenes 31 que normalmente son imágenes de vídeo emitidas a una velocidad de vídeo. La salida del sistema de cámara 13 también puede incluir datos que representan la relación espacial entre las cámaras 13 y la pantalla 11, la naturaleza de las modalidades de detección y los parámetros internos de las cámaras 13 (por ejemplo, distancia focal, eje óptico) que puede usarse para la localización angular, así como información geométrica tridimensional, por ejemplo, a partir de mediciones de profundidad.

Un ejemplo del método realizado en una representación digital de una región de cabeza que comprende un par de imágenes estereoscópicas 31, para el caso del ajuste de las regiones oculares, es de la siguiente manera. Para ilustrar este método de ejemplo, también se hace referencia a laFIGURA 4, que muestra un ejemplo del par de imágenes estereoscópicas 31 en diversas etapas del método.

En la etapa S1, el par de imágenes estereoscópicas 31 se analizan para detectar la ubicación de la cabeza y en particular los ojos del observador fuente 14 dentro del par de imágenes estereoscópicas 31. Esto se realiza detectando la presencia de una cabeza, rastrear la cabeza y localizar los ojos de la cabeza. La etapa S1 se puede realizar usando una variedad de técnicas conocidas en la técnica.

Una posible técnica para detectar la presencia de la cabeza es utilizar cascadas de características de Haar, por ejemplo, como se divulga en Viola y Jones, "Rapid Object Detection using a Boosted Cascade of Simple Features", CVPR 2001, págs. 1-9.

Una posible técnica para rastrear la cabeza es utilizar el enfoque de Modelos de Apariencia Activa para proporcionar la posición de la cabeza del sujeto, así como de la ubicación de los ojos, por ejemplo, como se divulga en Cooteset al.,"Active shape models - their training and application", Computer Vision and Image Understanding, 61(1):38-59, enero 1995 y en Cooteset al."Active appearance models", IEEE Trans. Pattern Analysis and Machine Intelligence, 23(6):681-685, 2001.

En la etapa S1, típicamente, un conjunto de puntos individuales ("puntos de referencia") se establecen en regiones de la cara, normalmente los ojos, por ejemplo, esquinas del ojo, ubicaciones del párpado superior e inferior, etc., localizando así los ojos.

En la etapa S2, parches que representan porciones de una representación digital de la región de cabeza, que en este ejemplo puede referirse a parches de imágenes, que contiene los ojos izquierdo y derecho de la cabeza, respectivamente, se identifican en cada imagen 31 del par estereoscópico. La FIGURA 4 muestra los parches de imagen identificados 32 del ojo derecho en cada imagen 31 (los parches de imagen para el ojo izquierdo se omiten en la FIGURA 4 para mayor claridad).

La etapa S2 se puede realizar como se muestra en laFIGURA 5,como sigue.

En la etapa S2-1, los parches de imagen 32 que contienen los ojos izquierdo y derecho de la cabeza se identifican en cada imagen 31 del par estereoscópico. Esto se hace identificando un parche de imagen 39 en cada imagen 31 ubicado alrededor de los puntos identificados ("puntos de referencia") correspondientes a características de un ojo, como se muestra, por ejemplo, en la FIGURA 4.

En la etapa S2-2, los parches de imagen 32 identificados en la etapa S2-1 se transforman en un sistema de coordenadas normalizado, siendo el mismo sistema de coordenadas normalizado que se utiliza en el proceso de aprendizaje automático que se describe más adelante. La transformación se elige para alinear los puntos ("puntos de referencia") del ojo dentro del parche de imagen que se identificaron en la etapa S1, con ubicaciones predeterminadas en el sistema de coordenadas normalizado. La transformación puede incluir traslación, rotación y escala, en la medida adecuada para lograr esa alineación. El resultado de la etapa S2-2 son parches de imagen 33 identificados del ojo derecho en cada imagen en el sistema de coordenadas normalizado como se muestra, por ejemplo, en la FIGURA 4.

Los siguientes pasos se pueden realizar por separado (a) con respecto a los parches de imagen que contienen los ojos izquierdos de la cabeza en cada imagen 31 del par estereoscópico, y (b) con respecto a los parches de imagen que contienen los ojos derechos de la cabeza en cada imagen 31 del par estereoscópico (en este ejemplo). Para mayor brevedad, la siguiente descripción se referirá simplemente a parches de imágenes y ojos sin especificar el ojo izquierdo o derecho, pero tenga en cuenta que se realizan las mismas etapas tanto para el ojo izquierdo como para el derecho.

En la etapa S3, un vector de características 34 se deriva de varios descriptores locales (que representan información sobre una región local en un parche), que en este ejemplo pueden denominarse descriptores de imágenes locales, de un parche de imagen 33 en al menos una imagen 31 del par estereoscópico (en este ejemplo). Dependiendo del enfoque y como se describe más adelante, esto puede ser un parche de imagen en una única imagen 31 del par estereoscópico o pueden ser ambas imágenes 31 del par estereoscópico. Por tanto, los descriptores de imágenes locales son descriptores de imágenes locales derivados en el sistema de coordenadas normalizado.

Los vectores de características 34 son representaciones de los parches de imagen 33 que son adecuados para su uso en la búsqueda de datos de referencia 35 que se usarán para ajustar los parches de imagen. Los datos de referencia 35 pueden comprender campos de vectores de desplazamiento de referencia que representan transformaciones del parche de imagen, u otras representaciones de transformaciones del parche de imagen, incluidas representaciones comprimidas como se describe a continuación, y están asociadas con posibles valores del vector de características.

Los datos de referencia 35 se obtienen y analizan previamente utilizando una técnica de aprendizaje automático. La técnica de aprendizaje automático puede derivar la forma de los vectores de características 34 y asociar transformaciones tales como los campos de vectores de desplazamiento de referencia con los posibles valores del vector de características. Un ejemplo específico de una técnica de aprendizaje automático aplicada en el caso en el que se desea corregir la mirada utilizando representaciones digitales de una región de cabeza que comprende imágenes de la región de cabeza, ahora se describirá antes de volver al método de la FIGURA 3.

La entrada de entrenamiento para la técnica de aprendizaje automático son dos conjuntos de imágenes (o parches de imágenes), que pueden ser pares de imágenes estereoscópicas o imágenes monoscópicas, como se analiza más adelante. Cada conjunto puede comprender imágenes de la cabeza del mismo grupo de individuos pero capturadas con cámaras en diferentes ubicaciones con respecto a la mirada, de modo que la mirada percibida difiera entre ellos (en el caso en que la mirada deba corregirse).

El primer conjunto son imágenes de entrada, siendo imágenes de cada individuo con una mirada incorrecta donde se conoce el errora priori.En particular, las imágenes del primer conjunto pueden ser capturadas por al menos una cámara en una ubicación de cámara conocida donde la mirada del individuo está en una dirección conocida diferente. Por ejemplo, en el caso del dispositivo de origen de la FIGURA 1, la ubicación de la cámara puede ser la ubicación de una cámara 13 y mientras la mirada del individuo fotografiado está hacia el centro de la pantalla 11.

El segundo conjunto son imágenes de salida, siendo imágenes de cada individuo con la mirada correcta para una ubicación predeterminada del observador con respecto a una ubicación de visualización en la que se va a mostrar la imagen. En el caso más sencillo, la ubicación del observador es una posición de visualización normal perpendicular al centro de la ubicación de visualización, por ejemplo, como se muestra en el contorno definido del observador de destino 24 en el caso del dispositivo de destino 20 de la FIGURA 2.

Para cada imagen de los dos conjuntos, la imagen se analiza para detectar la ubicación de la cabeza y en particular los ojos usando la misma técnica que se usa en la etapa S1 descrito anteriormente, y luego se muestran parches que contienen los ojos izquierdo y derecho de la cabeza, respectivamente, se identifican utilizando la misma técnica que se utiliza en la etapa S2 descrita anteriormente. Las siguientes etapas pueden realizarse entonces por separado (a) con respecto a los parches de imagen que contienen los ojos izquierdos de la cabeza en cada imagen, y (b) con respecto a los parches de imagen que contienen los ojos derechos de la cabeza en cada imagen. Para mayor brevedad, la siguiente descripción se referirá simplemente a parches de imágenes y ojos sin especificar el ojo izquierdo o derecho, pero debe tenerse en cuenta que en esta realización se realizan las mismas etapas para los ojos izquierdo y derecho.

Cada parche de imagen se transforma en el mismo sistema de coordenadas normalizado que se utiliza en el paso S2 descrito anteriormente. Como se ha descrito anteriormente, la transformación se elige para alinear puntos ("puntos de referencia") del ojo con ubicaciones predeterminadas en el sistema de coordenadas normalizado. La transformación puede incluir, por ejemplo, traslación, rotación y/o escalado, en la medida adecuada para lograr esa alineación.

Por tanto, las imágenes de entrada y salida de los parches de imágenes de cada individuo están alineadas en el sistema de coordenadas normalizado.

A partir de una imagen de entrada y salida de cada individuo, se deriva un campo vectorial de desplazamiento que representa la transformación del parche de imagen en la imagen de entrada requerida para obtener el parche de imagen de la imagen de salida, por ejemplo, como sigue. Definir posiciones en los parches de la imagen mediante (x,y), el campo vectorial de desplazamiento F está dado por

F={u(x, y), v(x, y)}

donde u y v definen las componentes horizontal y vertical del vector en cada posición (x,y).

El campo del vector de desplazamiento F se elige de modo que el parche de imagen de la imagen de salida O(x,y) se derive del parche de imagen de la imagen de entrada I(x,y) como

O(x, y) = I(x+u(x, y), y+v(x,y))

Para datos de imagen de más de una cámara, el sistema entrega un campo vectorial de desplazamiento para la imagen de entrada de cada cámara.

El campo del vector de desplazamiento F para una imagen de entrada y salida de un individuo se puede derivar usando un proceso en el que se modifica un vector de características de prueba F'={u',v'} para minimizar el error, opcionalmente en un proceso iterativo, por ejemplo, de acuerdo con:

A modo de ejemplo no limitante, el campo vectorial de desplazamiento F puede derivarse como se describe en Kononenkoet al.,"Learning To Look Up: Realtime Monocular Gaze Correction Using Machine Learning", Computer Vision and Pattern Recognition, 2015, págs. 4667-4675, en el que el campo vectorial de desplazamiento F se denomina "campo de flujo".

Otro ejemplo para editar instrucciones, que pueden denominarse instrucciones de edición de imágenes en los casos en que la representación digital de la región de cabeza consista en imágenes, que puede usarse adicionalmente o como alternativa al campo de vector de desplazamiento en cualquiera de las disposiciones descritas en el presente documento, viene dado por el campo de filtro L = {k(P, x, y) }, que define un núcleo de filtro para una ubicación determinada (x, y). Este campo de filtro L se elige de modo que el parche de imagen de la imagen de salida O(x, y) se deriva del parche de imagen de la imagen de entrada I(x, y) como O(x, y) = k(P(I, x, y)), x, y)), donde P(I, x, y) es una región local alrededor del punto (x,y) en la imagen I, y k(P, x, y) opera sobre el parche P con coeficientes que dependen de la posición (x, y). Por ejemplo, podría ser la salida de una convolución del parche con un filtro gaussiano con un ancho que depende de la posición x en la imagen, o un aumento de brillo de un píxel local dependiendo de la posición vertical y.

Otro ejemplo de instrucciones de edición (por ejemplo, instrucciones de edición de imágenes) que se pueden usar adicionalmente o como alternativa al campo de vector de desplazamiento en cualquiera de las disposiciones descritas en el presente documento, viene dado por un conjunto de componentes de imagen típicos que conforman el área de la imagen editada, por ejemplo, textura que muestra barba incipiente. Luego, estos se combinan con un factor que depende de las coordenadas de la imagen y el contenido de la imagen local (es decir, un campo de combinación de texturas). Se pueden utilizar otros campos de transformación, tal como un campo de ajuste de brillo.

Se utiliza una técnica de aprendizaje automático para obtener un mapa del campo del vector de desplazamiento F (u otras instrucciones de edición, como instrucciones de edición de imágenes) de cada individuo a los respectivos vectores de características derivados de descriptores locales plurales (por ejemplo, imágenes) de un parche objetivo de una imagen de entrada.

Los descriptores locales (por ejemplo, descriptores de imágenes locales) capturan información relevante de una parte local de un parche (por ejemplo, parche de imagen) de una representación digital de entrada de la región de cabeza (por ejemplo, una imagen de entrada) y el conjunto de descriptores locales generalmente forman un vector continuo. producción.

Los descriptores locales introducidos en el proceso de aprendizaje automático son del tipo que se espera que proporcione discriminación entre diferentes individuos, aunque los descriptores de imágenes específicos son seleccionados y optimizados por el propio proceso de aprendizaje automático. Por lo general, los descriptores locales puede ser de cualquier tipo, algunos ejemplos no limitativos que pueden aplicarse en cualquier combinación son los siguientes.

Los descriptores locales pueden incluir valores de píxeles individuales o una combinación lineal de los mismos. Tal combinación lineal puede ser, por ejemplo, una diferencia entre los píxeles en dos puntos, un núcleo derivado dentro de una máscara en una ubicación arbitraria, o una diferencia entre dos núcleos en diferentes ubicaciones.

Los descriptores locales pueden incluir distancias de la ubicación de un píxel desde la posición de un punto de vista ("punto de referencia").

Los descriptores locales pueden incluir características SIFT (características de transformación de características invariantes de escala), por ejemplo, como se divulga en Lowe, "Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision 60 (2), págs. 91-110.

Los descriptores locales pueden incluir características HOG (histograma de características de gradientes orientados), por ejemplo, como se divulga en Dalalet al."Histograms of Oriented Gradients for Human Detection", Computer Vision and Pattern Recognition, 2005, p. 886-893.

Los descriptores locales pueden incluir "representaciones de bajo nivel" de etapas de preclasificación en redes neuronales de aprendizaje profundo, por ejemplo, como se divulga en Yang y Ramanan, "Multi-scale recognition with DAG-CNNs", ICCV 2015. En una red neuronal de aprendizaje profundo de clasificación con múltiples capas aplicadas a una representación digital de entrada (por ejemplo, una imagen), por ejemplo, estas características de bajo nivel podrían tomarse de una capa anterior a la capa de clasificación final de la red.

La derivación del vector de características a partir de descriptores locales plurales depende del tipo de aprendizaje automático aplicado.

En un primer tipo de técnica de aprendizaje automático, el vector de características puede comprender características que son valores derivados de los descriptores locales (por ejemplo, descriptores de imágenes locales) en un espacio discreto, siendo valores binarios o valores discretizados en más de dos valores posibles. En este caso, la técnica de aprendizaje automático asocia un campo vectorial de desplazamiento de referencia F derivado de la entrada de entrenamiento con cada valor posible del vector de características en el espacio discreto, de modo que los datos de referencia 35 pueden proporcionar una funcionalidad similar a una tabla de consulta, con el aprendizaje automático generando un conjunto de parámetros de aprendizaje automático que se puede utilizar para generar las instrucciones de edición correspondientes. Esto permite seleccionar simplemente un campo de vector de desplazamiento de referencia F a partir de los datos de referencia 35 basándose en el vector de características 34 derivado en la etapa S3, como se describe a continuación.

En el caso de que el vector de características comprenda características que sean valores binarios derivados de los descriptores locales, el vector de características tiene una representación binaria. Estos valores binarios pueden derivarse de diversas formas a partir de los valores de los descriptores, por ejemplo, comparando el valor de un descriptor con un umbral, comparando el valor de dos descriptores, o comparando la distancia de la ubicación de un píxel desde la posición de un punto de vista ("hito").

De manera alternativa, el vector de características puede comprender características que son valores discretizados de los descriptores locales. En este caso, son posibles más de dos valores discretos de cada característica.

Se puede aplicar cualquier técnica de aprendizaje automático adecuada, por ejemplo, usando un árbol de decisión, un bosque de decisiones, un helecho de decisión o un conjunto o combinación de los mismos, o una red neuronal.

A modo de ejemplo, una técnica de aprendizaje automático adecuada que utiliza un vector de características que comprende características que son valores binarios derivados comparando un conjunto de píxeles individuales o una combinación lineal de los mismos con un umbral, se divulga en Ozuysalet al."Fast Keypoint Recognition in Ten Lines of Code", Computer Vision and Pattern Recognition, 2007, p. 1-8.

A modo de ejemplo adicional, se describe una técnica de aprendizaje automático adecuada que utiliza una distancia de la ubicación de un píxel con la posición de un punto de referencia ocular en Kononenkoet al.,"Learning To Look Up: Realtime Monocular Gaze Correction Using Machine Learning", Computer Vision and Pattern Recognition, 2015, p. 4667-4675.

A modo de ejemplo adicional, en Ho se describe una técnica de aprendizaje automático adecuada que utiliza un bosque de decisión aleatoria, "Random Decision Forests", Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montréal, QC, 14-16 de Agosto de 1995, p. 278-282.

En un segundo tipo de técnica de aprendizaje automático, el vector de características puede comprender características que son valores discretos de los descriptores locales (por ejemplo, descriptores de imágenes locales) en un espacio continuo. En este caso, la técnica de aprendizaje automático asocia un campo vectorial de desplazamiento de referencia F (en este ejemplo, pero se podrían usar otras instrucciones de edición) derivadas de la entrada de entrenamiento con posibles valores discretos del vector de características en el espacio continuo. Esto permite derivar un campo de vector de desplazamiento F a partir de los datos de referencia 35 mediante interpolación de los campos de vector de desplazamiento de referencia basándose en la relación entre el vector de característica 34 derivado en la etapa S3 y los valores del vector de característica asociado con los campos de vector de desplazamiento de referencia.

Se puede aplicar cualquier técnica de aprendizaje automático adecuada, por ejemplo, utilizando la regresión del vector de soporte.

A modo de ejemplo, una técnica de aprendizaje automático adecuada que utiliza la regresión de vectores de soporte se divulga en Druckeret al."Support Vector Regression Machines", Advances in Neural Information Processing Systems 9, NIPS 1996, 155-161. El resultado de la técnica es un conjunto de direcciones de interpolación que varían continuamente y que forman parte de los datos de referencia 35 y se utilizan en la interpolación.

La técnica del aprendizaje automático, independientemente de su tipo, inherentemente también deriva la forma de los vectores característicos 34 que se utilizan para derivar los campos vectoriales de desplazamiento de referencia F (u otras instrucciones de edición de imágenes). Esta es la forma de los vectores de características 34 que se derivan en la etapa S3.

La descripción vuelve ahora al método de la FIGURA 3.

En la etapa S4, al menos un campo de vector de desplazamiento 37 que representa una transformación de un parche de imagen se deriva utilizando el vector de características 34 obtenido en la etapa S3 para buscar los datos de referencia 35. Debido a la derivación del campo vectorial de desplazamiento 37 a partir de los datos de referencia 35, la transformación representada corrige así la mirada que se percibirá cuando se muestre el par de imágenes estereoscópicas 31.

En el caso de que el vector de características 34 comprenda características que son valores en un espacio discreto y los campos vectoriales de desplazamiento de referencia de los datos de referencia 35 comprendan un campo de vector de desplazamiento de referencia asociado con cada valor posible del vector de características en el espacio discreto, luego, el campo de vector de desplazamiento para el parche de imagen se deriva seleccionando el campo de desplazamiento de referencia asociado con el valor real del vector de características derivado 34.

En el caso de que el vector de características 34 comprenda características que son valores discretos de los descriptores locales en un espacio continuo, luego, el campo de vector de desplazamiento para el parche de imagen se deriva interpolando un campo de vector de desplazamiento a partir de los campos de vector de desplazamiento de referencia basándose en la relación entre el valor real del vector de características derivado 34 y los valores de los vectores de características asociados con el desplazamiento de referencia. campos vectoriales. En el caso de que la técnica de aprendizaje automático fuera la regresión de vectores de soporte, esto se puede hacer usando las direcciones de interpolación que forman parte de los datos de referencia 35.

En la etapa S5, cada imagen 31 del par estereoscópico se ajusta transformando los parches de imagen que contienen los ojos izquierdo y derecho de la cabeza de acuerdo con los campos vectoriales de desplazamiento derivados 37. Esto produce un par estereoscópico ajustado de imágenes 38 como se muestra en la FIGURA 4, en el que se ha corregido la mirada. En particular, el ajuste puede realizarse utilizando dos métodos alternativos, como sigue.

Un primer método para realizar la etapa S5 se muestra enFIGURA 6y realizado de la siguiente manera.

En la etapa S5-1, el parche de imagen se transforma en el sistema de coordenadas normalizado de acuerdo con el correspondiente campo vectorial de desplazamiento 37 con respecto a la misma imagen, corrigiendo así la mirada. Como se ha descrito anteriormente, para un campo vectorial de desplazamiento F, la transformación del parche de imagen de la imagen de entrada I(x,y) proporciona la imagen de salida O(x,y) de acuerdo con

O(x, y) = I(x+u(x, y), y+v(x,y))

En la etapa S5-2, la salida del parche de imagen transformada de la etapa S5-1 se transforma fuera del sistema de coordenadas normalizado, de nuevo al sistema de coordenadas original de la imagen 31 correspondiente. Esto se hace utilizando la transformación inversa de la aplicada en la etapa S2-2.

En la etapa S5-3, la salida del parche de imagen transformada de la etapa S5-2 se superpone a la imagen 31 correspondiente. Esto se puede hacer con un reemplazo completo dentro de una región de ojo correspondiente al ojo mismo, y una transición suavizada entre el parche de imagen transformada y la imagen original 31 sobre una región límite alrededor de la región de ojo. La anchura de la región límite puede ser de tamaño fijo o un porcentaje del tamaño del parche de imagen en la imagen original 31.

Un segundo método para realizar la etapa S5 se muestra enFIGURA 7y realizado de la siguiente manera.

En este segundo, método alternativo, la transformación de nuevo al sistema de coordenadas de la imagen 31 correspondiente se produce antes de la transformación del parche de imagen de acuerdo con el campo vectorial de desplazamiento transformado F.

En la etapa S5-4, el campo vectorial de desplazamiento F se transforma fuera del sistema de coordenadas normalizado, de nuevo al sistema de coordenadas original de la imagen 31 correspondiente. Esto se hace utilizando la transformación inversa de la aplicada en la etapa S2-2.

En la etapa S5-5, el parche de imagen 32 en el sistema de coordenadas de la imagen 31 se transforma de acuerdo con el campo vectorial de desplazamiento F que se ha transformado en el mismo sistema de coordenadas en la etapa S5-4. Como se ha descrito anteriormente, para un campo vectorial de desplazamientoF, la transformación del parche de imagen de la imagen de entrada I(x,y) proporciona la imagen de salida O(x,y) de acuerdo con

O(x, y) = I(x+u(x, y), y+v(x,y))

pero esto ahora se realiza en el sistema de coordenadas de la imagen original 31.

La etapa S5-6 es la misma que la S5-3. Por tanto, en la etapa S5-6, la salida del parche de imagen transformada de la etapa S5-5 se superpone a la imagen 31 correspondiente. Esto se puede hacer con un reemplazo completo dentro de una región de ojo correspondiente al ojo mismo, y una transición suavizada entre el parche de imagen transformada y la imagen original 31 sobre una región límite alrededor de la región de ojo. La anchura de la región límite puede ser de tamaño fijo o un porcentaje del tamaño del parche de imagen en la imagen original 31.

LaFIGURA 8representa un método para generar datos de referencia (incluidos datos de referencia 37 del tipo descrito en los ejemplos específicos discutidos anteriormente) para ajustar una representación digital de una región de cabeza. En algunas realizaciones, la representación digital de la región de cabeza comprende o consiste en una imagen de la región de cabeza. En algunas realizaciones, la representación digital de la región de cabeza comprende o consiste en una representación digital tridimensional (que representa, por ejemplo, información geométrica tridimensional). La representación digital tridimensional se puede obtener a partir de mediciones de profundidad, utilizando, por ejemplo, una cámara de tiempo de vuelo. En una realización, la representación digital de la región de cabeza se puede utilizar para proporcionar una visualización generada por ordenador de la región de cabeza. En una realización, el ajuste de la representación digital comprende convertir una representación digital bidimensional de la región de cabeza en una representación digital tridimensional de la región de cabeza.

En el caso de que la representación digital de la región de cabeza (antes del ajuste, después del ajuste, o ambos) comprende una representación digital tridimensional, esto puede proporcionarse de cualquiera de las diversas formas conocidas. Por ejemplo, la representación digital tridimensional puede comprender una nube de puntos, un sistema de partículas o una representación de malla. La representación de malla puede comprender una o más de: una superficie poligonal, una superficie multiresolución, una superficie de subdivisión. La representación digital puede comprender una representación digital tridimensional e información de textura asociada con la representación digital tridimensional, por ejemplo, a través de un mapa de textura. La representación digital puede comprender una representación geométrica tridimensional e información de color (por ejemplo, obtenida de una cámara óptica) alineada con la representación geométrica tridimensional. También se pueden utilizar otras representaciones volumétricas, como sistemas de partículas o definiciones implícitas, como funciones de distancia con signo.

El método comprende una etapa S100 de recibir datos de entrenamiento 100. Los datos de entrenamiento 100 pueden proporcionarse, por ejemplo, a través de una interfaz de comunicaciones 112 (por ejemplo, conectándose a una conexión de datos externa o un dispositivo de almacenamiento) conectada a una unidad de procesamiento de datos 120 que va a realizar el método (como se representa esquemáticamente en la FIGURA 10). Los datos de entrenamiento 100 comprenden un conjunto de parches de entrada. Un parche consiste en una porción objetivo de una representación digital de una región de cabeza. En el caso de que la representación digital comprenda una imagen, el parche puede denominarse como un parche de imagen. Cada parche de entrada (por ejemplo, parche de imagen de entrada) comprende una característica objetivo de la representación digital (por ejemplo, imagen) de la región de cabeza antes del ajuste de la representación digital (por ejemplo, ajuste de la imagen a visualizar) de la región de cabeza. La característica objetivo es la misma para cada parche de entrada. La característica objetivo puede comprender uno o más de los siguientes: una región de ojo que comprende al menos parte de un ojo (como en los ejemplos específicos discutidos anteriormente con referencia a la FIGURA 4, por ejemplo), una región de nariz que comprende al menos parte de una nariz, una región de boca que comprende al menos parte de una boca, una región de mentón que comprende al menos parte de un mentón, y una región de cuello que comprende al menos parte de un cuello. En una realización, cada parche de imagen de entrada comprende una parte de la imagen de la región de cabeza correspondiente a la característica objetivo, tal como la región de ojo mencionada anteriormente, región de nariz, región de boca, región de mentón o región de cuello.

En una realización, la característica objetivo comprende una región de ojo que comprende al menos parte de un ojo y el ajuste de la representación digital (por ejemplo, imagen) de la región de cabeza comprende ajustar la dirección de la mirada.

En una realización, la característica objetivo comprende una región de nariz que comprende al menos parte de una nariz y el ajuste de la representación digital (por ejemplo, imagen) de la región de cabeza comprende ajustar una forma y/o textura de la nariz (por ejemplo, para hacer que la nariz parezca más pequeña y/o más delgado en una proporción fija, similar al efecto de un "teleobjetivo").

En una realización, la característica objetivo comprende una región de mentón que comprende al menos parte de un mentón y el ajuste de la representación digital (por ejemplo, imagen) de la región de cabeza comprende ajustar una forma y/o textura del mentón (por ejemplo, para reducir o eliminar la apariencia del doble mentón).

En una realización, la característica objetivo comprende una región de cuello que comprende al menos parte de un cuello y el ajuste de la representación digital (por ejemplo, imagen) de la región de cabeza comprende ajustar una forma y/o textura del cuello (por ejemplo, para reducir o eliminar arrugas).

En una realización, la característica objetivo comprende una región de cabello que comprende cabello y el ajuste de la representación digital (por ejemplo, imagen) de la región de cabeza comprende ajustar un color del cabello (por ejemplo, mediante un tono fijo).

En el caso en el que la característica objetivo comprenda una región de ojo, los parches de entrada se pueden obtener usando la metodología descrita anteriormente con referencia a las etapas S2-1 y S2-2, excepto que no necesariamente se requieren pares estereoscópicos de imágenes. Por tanto, los parches de entrada se pueden obtener usando puntos identificados ("puntos de referencia") correspondientes a características de un ojo para localizar la región relevante de la representación digital (por ejemplo, imagen) de la región de cabeza (por ejemplo, que rodea el ojo) y/o la transformación de la parche de entrada en un sistema de coordenadas normalizado, incluyendo la alineación de los puntos de referencia con ubicaciones predeterminadas en el sistema de coordenadas normalizado mediante traslación, rotación y/o escalado.

En algunas realizaciones, los datos de entrenamiento 100 comprenden además un conjunto de parches de salida. Como se ha descrito anteriormente, cada parche consiste en una porción objetivo de una representación digital de una región de cabeza. En el caso de que la representación digital comprenda una imagen, el parche puede denominarse como un parche de imagen. Los parches de salida (por ejemplo, parches de imágenes de salida) están en correspondencia uno a uno con los parches de entrada. Cada parche de salida comprende la característica objetivo de la representación digital (por ejemplo, imagen) de la región de cabeza después del ajuste de la representación digital (por ejemplo, ajuste de la imagen a visualizar) de la región de cabeza. Por tanto, en el caso en el que se deba ajustar una imagen de la región de cabeza para corregir la dirección de la mirada, cada parche de salida comprende una región de ojo que se ha ajustado para que la mirada parezca estar en la dirección deseada (por ejemplo, directamente hacia un observador de destino 24).

El método comprende además una etapa S101 que comprende usar un primer algoritmo de aprendizaje automático para generar primeros datos de referencia 101 usando los datos de entrenamiento 100. Los primeros datos de referencia 101 comprenden instrucciones de edición (por ejemplo, instrucciones de edición de imágenes) para ajustar la representación digital (por ejemplo, imagen) de la región de cabeza para una gama de posibles representaciones digitales (por ejemplo, representaciones digitales que representan diferentes estados de la cabeza, como diferentes posiciones y/u orientaciones, opcionalmente representado como imágenes diferentes) de la región de cabeza.

El método comprende además una etapa S102 que comprende usar un segundo algoritmo de aprendizaje automático para generar segundos datos de referencia 102. El segundo algoritmo de aprendizaje automático utiliza los mismos datos de entrenamiento 100 que el primer algoritmo de aprendizaje automático en la etapa S101. El segundo algoritmo de aprendizaje automático utiliza además los primeros datos de referencia 101 generados por el primer algoritmo de aprendizaje automático en el paso S101. Los segundos datos de referencia 102 comprenden instrucciones de edición (por ejemplo, instrucciones de edición de imágenes) para ajustar la representación digital (por ejemplo, imagen) de la región de cabeza para una gama de posibles representaciones digitales (por ejemplo, diferentes posiciones y/u orientaciones, opcionalmente representado como imágenes diferentes) de la región de cabeza.

En una realización, los primeros datos de referencia 101 comprenden primeras instrucciones de edición (por ejemplo, primeras instrucciones de edición de imágenes) para una gama de posibles configuraciones de la característica objetivo (por ejemplo, diferentes direcciones de la mirada y/o morfologías oculares en el caso en que la característica objetivo comprenda una región de ojo) y primeros instrucciones de selección para seleccionar instrucciones de edición (a partir de las primeras instrucciones de edición) para un parche de entrada particular (por ejemplo, parche de imagen de entrada) en función de la configuración de la característica objetivo del parche de entrada (por ejemplo, la dirección de la mirada particular y/o la morfología del ojo particular de ese parche de entrada).

En una realización, los segundos datos de referencia comprenden segundas instrucciones de edición (por ejemplo, segundas instrucciones de edición de imágenes) para una gama de posibles configuraciones de la característica objetivo y segundas instrucciones de selección para seleccionar instrucciones de edición (a partir de las segundas instrucciones de edición) para un parche de entrada particular (por ejemplo, parche de imagen de entrada) según la configuración de la función de destino del parche de entrada.

La configuración de la característica objetivo de cada parche de entrada puede representarse mediante un vector de características derivado de varios descriptores locales (por ejemplo, descriptores de imágenes locales) del parche de entrada, como se describió anteriormente con referencia a la etapa S3 de la FIGURA 3 para el caso particular donde se procesan pares estereoscópicos de imágenes que contienen regiones del ojo (pero el método es aplicable de manera más general que este caso particular). Como se ha descrito anteriormente, el vector de características puede adoptar diversas formas, pero generalmente está adaptado para que sea adecuado para buscar instrucciones de edición para realizar ajustes de la representación digital (por ejemplo, imagen) de la región de cabeza. En la presente realización, la primera y segunda instrucciones de selección definen cómo se utiliza el vector de características para seleccionar instrucciones de edición para el parche de entrada. En una realización, las instrucciones de edición comprenden un campo de vector de desplazamiento que define cómo se transformará el parche de entrada para realizar el ajuste. El campo vectorial de desplazamiento puede adoptar cualquiera de las formas analizadas anteriormente. Las instrucciones de edición no se limitan a campos vectoriales de desplazamiento, sin embargo. Otras operaciones de edición pueden asociarse adicional o alternativamente con los vectores de características para realizar otros ajustes deseados de la representación digital (por ejemplo, imagen) de la región de cabeza, incluyendo, por ejemplo, ajustes a los colores o intensidades de los píxeles, o cambios a las geometrías subyacentes (por ejemplo, a través de un campo de filtro, campo de ajuste de brillo o campo de fusión de texturas).

En una realización, el primer algoritmo de aprendizaje automático utiliza un primer algoritmo de edición (por ejemplo, un primer algoritmo de edición de imágenes) para definir cómo se aplicarán las primeras instrucciones de edición a un parche de entrada para derivar un parche de salida. El segundo algoritmo de aprendizaje automático utiliza un segundo algoritmo de edición (por ejemplo, un segundo algoritmo de edición de imágenes) para definir cómo se aplicarán las segundas instrucciones de edición a un parche de entrada para derivar un parche de salida. El primer y segundo algoritmos de edición pueden comprender cualquiera de los métodos descritos anteriormente para la etapa implementada S5 de la FIGURA 3, descrita con referencia a las FIGURAS 6 y 7.

De acuerdo con la invención, las segundas instrucciones de edición en los segundos datos de referencia se proporcionan en una representación comprimida. La representación comprimida puede comprender una representación de análisis de componentes principales o una representación de ondas, por ejemplo. En este caso, el primer y segundo algoritmos de edición pueden adaptarse para definir cómo operar eficientemente en este contexto.

En una realización, las segundas instrucciones de edición son componentes de análisis de componentes principales de un análisis de componentes principales de las primeras instrucciones de edición. En este caso, el segundo algoritmo de edición transforma las segundas instrucciones de edición en las primeras instrucciones de edición mediante transformación de análisis de componentes de principio inverso.

En un enfoque alternativo, las segundas instrucciones de edición son componentes de ondícula de las primeras instrucciones de edición. En este caso, el segundo algoritmo de edición transforma las segundas instrucciones de edición en las primeras instrucciones de edición mediante transformada de ondícula inversa.

En una realización, las primeras instrucciones de selección para los primeros datos de referencia pueden seleccionar entre un número mayor de instrucciones de edición alternativas (por ejemplo, instrucciones de edición de imágenes) que las segundas instrucciones de selección para los segundos datos de referencia. Por lo tanto, se puede describir que el primer algoritmo de aprendizaje automático tiene más parámetros de entrada que el segundo algoritmo de aprendizaje automático. El primer algoritmo de aprendizaje automático puede proporcionar una mayor precisión que el segundo algoritmo de aprendizaje automático, pero normalmente funcionará considerablemente más lento. Adicionalmente, las primeras instrucciones de selección pueden ser significativamente más complejas (por ejemplo, implicando álgebra lineal u otras operaciones relativamente intensivas en ordenador) que las segundas instrucciones de selección (donde las instrucciones de selección pueden parecerse a una tabla de consulta computacionalmente sencilla, una combinación de una tabla de consulta y una estructura de árbol, o similar).

En una realización particular, el primer algoritmo de aprendizaje automático comprende una red neuronal (conocida por proporcionar una precisión relativamente alta, pero a expensas de demandas computacionales relativamente altas). En tal realización, y otras, el segundo algoritmo de aprendizaje automático puede comprender un bosque de regresión (conocido por proporcionar una mayor eficiencia computacional, pero a expensas de una precisión reducida). Los inventores han descubierto que la combinación de los dos algoritmos de aprendizaje automático diferentes proporciona datos de referencia que pueden usarse en un método de ajuste con alta eficiencia y al mismo tiempo lograr una alta precisión de ajuste. El primer algoritmo de aprendizaje automático puede comprender alternativamente una máquina de vectores de soporte o una red generativa adversaria (GAN). El segundo algoritmo de aprendizaje automático puede comprender alternativamente helechos de regresión, centros de agrupación, una tabla de búsqueda o bancos de filtros separables. En una realización, el primer algoritmo de aprendizaje automático comprende una primera red neuronal y el segundo algoritmo de aprendizaje automático comprende una segunda red neuronal, en donde la segunda red neuronal comprende menos capas y/o campos de convolución más pequeños que la primera red neuronal.

LaFIGURA 9representa esquemáticamente el flujo de datos en un ejemplo detallado del método de generación de datos de referencia de la FIGURA 8. El primer y segundo algoritmo de aprendizaje automático están denominados respectivamente MLA1 y MLA2. El primer algoritmo de aprendizaje automático MLA1 recibe los datos de entrenamiento (etiquetados TD) y, opcionalmente, el primer algoritmo de edición EA1 y una métrica de similitud SM. La métrica de similitud SM proporciona un valor numérico para medir la similitud entre una imagen ajustada y una imagen deseada y puede usarse para controlar el primer algoritmo de aprendizaje automático MLA1 y el segundo algoritmo de aprendizaje automático MLA2 para variar el grado en que se penalizan las diferencias según la naturaleza de las diferencias. Por ejemplo, la métrica de similitud SM puede configurarse para penalizar reducciones en porciones de imágenes que se desea mantener (por ejemplo, la esclerótica en el caso de que se ajusten las regiones del ojo) o desviaciones de características ajustadas de una forma conocida (por ejemplo, desviaciones en la forma de un iris de una forma elíptica) o de una forma que se observa en los datos de entrenamiento. Como alternativa o adicionalmente, los datos de entrenamiento pueden comprender una diferencia absoluta o cuadrada promedio entre la imagen ajustada y un objetivo, o una diferencia absoluta o cuadrada promedio entre representaciones de bajo nivel de la imagen ajustada y el objetivo, como funciones de bajo nivel de una red de aprendizaje profundo (como se analizó anteriormente). De acuerdo con la invención, el primer algoritmo de edición EA1 recibe datos auxiliares AuxD, que definen un conjunto básico utilizado para proporcionar una representación comprimida de instrucciones de edición de imágenes. El primer algoritmo de aprendizaje automático MLA1 genera las primeras instrucciones de selección LA1 y las primeras instrucciones de edición ED1. El segundo algoritmo de aprendizaje automático MLA2 recibe los mismos datos de entrenamiento TD y, opcionalmente, el segundo algoritmo de edición EA2 y la métrica de similitud SM. El segundo algoritmo de aprendizaje automático MLA2 recibe además las primeras instrucciones de edición ED1. El segundo algoritmo de aprendizaje automático genera segundas instrucciones de selección LA2 y segundas instrucciones de edición ED2.

El segundo algoritmo de aprendizaje automático, MLA2, obtiene así que las instrucciones de edición coincidan o se aproximen, y no tiene que inferirlas a partir de las imágenes de entrada coincidentes como MLA1.

LaFIGURA 10representa un dispositivo 110 para generar los datos de referencia. El dispositivo 110 comprende una unidad de procesamiento de datos 120 configurada para realizar el método de generar los datos de referencia según cualquiera de las realizaciones divulgadas. La unidad de procesamiento de datos 110 puede implementarse mediante un procesador que ejecuta un programa informático adecuado o mediante hardware dedicado o mediante alguna combinación de software y hardware. La entrada/salida de datos puede proporcionarse a través de una interfaz de comunicaciones 112. Cuando se utilice un programa informático, el programa informático puede comprender instrucciones en cualquier lenguaje adecuado y puede almacenarse en un medio de almacenamiento legible por ordenador, que puede ser de cualquier tipo, por ejemplo: un medio de grabación que se inserta en una unidad del sistema informático y que puede almacenar información magnéticamente, ópticamente u optomagnéticamente; un medio de grabación fijo del sistema informático tal como un disco duro; o una memoria de ordenador.

LaFIGURA 11representa un método para ajustar una representación digital de una región de cabeza. En el ejemplo mostrado, la representación digital comprende una imagen de una región de cabeza, pero el método se puede adaptar para utilizar cualquiera de las representaciones digitales analizadas anteriormente (por ejemplo, para procesar adicional o alternativamente representaciones digitales tridimensionales). El método puede usar datos de referencia generados usando cualquiera de los métodos de generación de datos de referencia divulgados en el presente documento o puede usar datos de referencia generados usando otros métodos.

El método comprende una etapa S200 en la que se identifica un parche objetivo (en este caso un parche de imagen) en una imagen 200 de una región de cabeza que se va a ajustar. El parche objetivo comprende una característica objetivo de la región de cabeza. La característica objetivo puede adoptar cualquiera de las formas analizadas anteriormente. La etapa S200 puede comprender opcionalmente detectar una ubicación de la cabeza y/o del ojo como se describe anteriormente con referencia a la etapa S1 de la FIGURA 3. La etapa S200 puede comprender además opcionalmente identificar parches de imagen usando la metodología descrita anteriormente con referencia a las etapas S2-1 y S2-2 de la FIGURA 5, excepto que no es necesario identificar necesariamente los parches de imagen como pares estereoscópicos (aunque pueden identificarse si se desea).

En la etapa S201, un vector de características se deriva de varios descriptores locales (por ejemplo, descriptores de imágenes locales) del parche objetivo (por ejemplo, imagen). El vector de características se puede derivar usando la metodología descrita anteriormente con referencia a la etapa S3 de la FIGURA 3. El vector de características puede adoptar cualquiera de las formas analizadas anteriormente.

En la etapa S202, el vector de características se usa para seleccionar instrucciones de edición (por ejemplo, instrucciones de edición de imágenes) a partir de los datos de referencia 102. Los datos de referencia 102 comprenden instrucciones de edición para un rango de valores posibles del vector de características (que representan, por ejemplo, diferentes direcciones de mirada y/o morfologías oculares en el caso en que la característica objetivo comprenda una región de ojo).

En la etapa S203, las instrucciones de edición seleccionadas se aplican al parche objetivo para ajustar la imagen de la región de cabeza (por ejemplo, para corregir la dirección de la mirada).

De acuerdo con la invención, las instrucciones de edición (por ejemplo, instrucciones de edición de imágenes) se proporcionan en una representación comprimida, que comprende, por ejemplo, uno o más de los siguientes: una representación de análisis de componentes principales; una representación de ondícula; componentes de transformada de coseno discreta y/o de Fourier; centros de agrupación. El uso de una representación comprimida reduce los requisitos de almacenamiento de datos y ancho de banda durante el uso de las instrucciones de edición de imágenes para realizar el ajuste de la representación digital (por ejemplo, imagen) de la región de cabeza. Como alternativa o adicionalmente, los datos de referencia que contienen las instrucciones de edición pueden generarse utilizando cualquiera de las realizaciones descritas en el presente documento. De acuerdo con la invención, los datos de referencia comprenden los segundos datos de referencia discutidos anteriormente

Se entiende que la referencia a las instrucciones de edición en el presente documento abarca cualquier dato que pueda usarse para definir cómo se debe ajustar una representación digital (por ejemplo, una imagen) de una región de cabeza para lograr un objetivo deseado (por ejemplo, corrección de la mirada o conversión de una representación digital bidimensional a una representación digital tridimensional o ambas). Las instrucciones de edición pueden comprender datos que pueden usarse directamente para modificar una representación digital (por ejemplo, una imagen), tal como un campo vectorial, o datos intermedios como un conjunto de parámetros de aprendizaje automático que se pueden usar para generar datos que se pueden usar directamente para modificar la representación digital (por ejemplo, una imagen).

LaFIGURA 12representa esquemáticamente el flujo de datos en un ejemplo detallado de un método para ajustar una representación digital de una región de cabeza en el caso en que la representación digital comprenda una imagen, utilizando datos de referencia generados según el ejemplo detallado de la FIGURA 9. El ID de datos de entrada se proporciona desde un sistema de sensor SS (por ejemplo, que comprende una o más cámaras). El ID de datos de entrada se introduce en las segundas instrucciones de selección LA2 para seleccionar instrucciones de edición apropiadas para el ID de datos de entrada de las segundas instrucciones de edición ED2. Las instrucciones de edición seleccionadas, que según la invención se proporcionan en una representación comprimida (por ejemplo, componentes de análisis de componentes principales o componentes de ondícula) a partir de las segundas instrucciones de edición comprimidas ED2, luego son utilizados por el segundo algoritmo de edición EA2, en combinación con los datos auxiliares AuxD que proporcionan la base establecida para la representación comprimida, para proporcionar datos de salida OD. Los datos de salida OD comprenden una imagen ajustada de la zona de la cabeza y se muestran a través de una pantalla DS.

Como se ha descrito anteriormente, el método de ajustar una representación digital de una región de cabeza (por ejemplo, una imagen de una región de cabeza) puede implementarse en un procesador de imágenes 30 proporcionado en varios dispositivos diferentes. A modo de ejemplo no limitante, a continuación se describirá una implementación particular en un sistema de telecomunicaciones que se muestra en laFIGURA 13y ordenados de la siguiente manera.

En esta implementación, el dispositivo de origen 10 y el dispositivo de destino 10 se comunican a través de dicha red de telecomunicaciones 50. Para comunicación a través de una red de telecomunicaciones 50, el dispositivo de origen 10 incluye una interfaz de telecomunicaciones 17 y el dispositivo de destino 20 incluye una interfaz de telecomunicaciones 27.

En esta implementación, el procesador de imágenes 30 se proporciona en el dispositivo de origen 10 y se proporciona con una imagen de una región de cabeza directamente desde un sistema de cámara 12 (en este ejemplo, un par de imágenes estereoscópicas). La interfaz de telecomunicaciones 17 está dispuesta para transmitir las imágenes ajustadas 38 a través de la red de telecomunicaciones 50 al dispositivo de destino 20 para su visualización en el mismo.

El dispositivo de destino 20 incluye un módulo de visualización de imágenes 28 que controla la visualización 26. Las imágenes ajustadas 38 se reciben en el dispositivo de destino 20 mediante la interfaz de telecomunicaciones 27 y se suministran al módulo de visualización de imágenes 28, lo que hace que se muestren en la pantalla 26.

Los siguientes elementos del dispositivo de destino 20 se incluyen opcionalmente en el caso de que el método corrija la mirada de un observador de destino 24 en una ubicación del observador distinta de una posición de visualización normal perpendicular al centro de la ubicación de visualización. En este caso, el dispositivo de destino 20 incluye un sistema de cámara 23 y un módulo de ubicación del observador 29. El sistema de cámara 23 captura una imagen del observador de destino 24. El módulo de ubicación del observador 29 deriva los datos de ubicación 40. El módulo de ubicación del observador 29 incluye un módulo de seguimiento de la cabeza que utiliza la salida del sistema de cámara 23 para detectar la ubicación del observador de destino 24. Donde la ubicación relativa del observador también tiene en cuenta la ubicación de la imagen mostrada en la pantalla 21, el módulo de ubicación del observador 29 obtiene la ubicación de la imagen mostrada en la pantalla 21 del módulo de visualización de imágenes 28. La interfaz de telecomunicaciones 17 está dispuesta para transmitir los datos de ubicación 40 a través de la red de telecomunicaciones 50 al dispositivo de origen 10 para su uso.

Aunque la descripción anterior se refiere a un método aplicado a imágenes suministradas desde un dispositivo de origen 10 a un dispositivo de destino 20, el método puede aplicarse igualmente a imágenes suministradas en la dirección opuesta desde el dispositivo de destino 20 al dispositivo de origen 10, en cuyo caso el dispositivo de destino 20 se convierte efectivamente en el "dispositivo de origen" y el dispositivo de origen 10 se convierte efectivamente en el "dispositivo de destino". Cuando las imágenes se suministran bidireccionalmente, las etiquetas "origen" y "destino" pueden aplicarse a ambos dispositivos, dependiendo de la dirección de comunicación que se considere.

LaFIGURA 14representa una realización adicional de un método para generar datos de referencia para ajustar una representación digital de una región de cabeza usando un marco del tipo representado en la FIGURA 8. En esta realización, los datos de entrenamiento 100 recibidos en la etapa S100 (FIGURA 8) comprenden un conjunto de representaciones digitales de entrada de una región de cabeza (por ejemplo, parches de entrada, cada uno de los cuales consta de una porción objetivo de una representación digital bidimensional de la región de cabeza, tal como una imagen capturada).

En la etapa S101, se entrena un primer algoritmo de aprendizaje automático MLA1 utilizando los datos de entrenamiento 100, el entrenamiento hace que el primer algoritmo de aprendizaje automático MLA1 sea capaz de realizar un ajuste de una representación digital de una región de cabeza. En una realización, el ajuste de la representación digital comprende convertir de una representación digital bidimensional a una representación digital tridimensional (por ejemplo, convertir de una imagen 2D de una porción de una región de cabeza a una malla 3D de una porción de la región de cabeza). A continuación, se utiliza el primer algoritmo de aprendizaje automático entrenado MLA1 para generar los primeros datos de referencia 101. Los primeros datos de referencia 101 comprenden una representación digital ajustada de la región de cabeza para cada uno de al menos un subconjunto de las representaciones digitales de entrada en los datos de entrenamiento 100. Cada representación digital ajustada se obtiene realizando el ajuste para el que fue entrenado el primer algoritmo de aprendizaje automático MLA1.

En la etapa S102, un segundo algoritmo de aprendizaje automático MLA2, se entrena usando al menos un subconjunto de los datos de entrenamiento 100 usados para entrenar el primer algoritmo de aprendizaje automático MLA2 y los primeros datos de referencia 101. El entrenamiento hace que el segundo algoritmo de aprendizaje automático MLA2 sea capaz de realizar el mismo ajuste de una representación digital de una región de cabeza que el primer algoritmo de aprendizaje automático MLA1.

En la realización particular de la FIGURA 14, el primer algoritmo de aprendizaje automático MLA1 comprende un primer codificador 306A y un primer predictor 308A. Los datos de entrenamiento 100 se introducen en el primer codificador 306A. En esta realización, el primer codificador 306A comprende un algoritmo de extracción de características. El algoritmo de extracción de características deriva valores informativos y no redundantes de los datos de entrenamiento 100 (es decir, extrae características significativas de los datos de entrenamiento 100). Ejemplos de algoritmos de extracción de características incluyen redes neuronales convolucionales, Análisis de componentes principales, SIFT (Transformación de características invariantes de escala). Una salida del primer codificador 306A se introduce en un primer predictor 308A. El primer predictor 308A genera una versión ajustada de cada representación digital de entrada en los datos de entrenamiento 100 en función de la salida del primer codificador 306A (por ejemplo, características extraídas por el primer codificador 306A). En esta realización, cada representación digital de entrada comprende una representación digital bidimensional (por ejemplo, una imagen bidimensional) y la versión ajustada de cada representación digital de entrada comprende una representación digital tridimensional (por ejemplo, una malla). Cada representación digital tridimensional se introduce en un procesador 310. El renderizador 310 sintetiza una o más representaciones digitales bidimensionales correspondientes a cada representación digital tridimensional de entrada (por ejemplo, una o más imágenes fotorrealistas de la región de cabeza definida por la representación digital tridimensional). La salida del procesador 310 luego se ingresa a un segundo codificador 306B. El segundo codificador 306B puede ser idéntico al primer codificador 306A. Una salida del segundo codificador 306B se introduce en un segundo predictor 308B. El segundo predictor 308B puede ser idéntico al primer predictor 308A. Se proporciona un primer regularizador 314 que compara la salida del primer codificador 306A con la salida del segundo codificador 306B e impone una o más primeras restricciones predeterminadas. Se proporciona un segundo regularizador 316 que compara la salida del primer predictor 308A con la salida del segundo predictor 308B e impone una o más segundas restricciones predeterminadas. El primer regularizador 314 y el segundo regularizador 316 pueden usar un conjunto de restricciones semánticamente significativas (ejemplos de las primeras restricciones y segundas restricciones) o información adicional para ayudar a alcanzar una solución deseable y evitar el sobreajuste. Las restricciones pueden ayudar a garantizar que las representaciones digitales tridimensionales generadas tengan un aspecto natural, por ejemplo, al requerir altos niveles de niveles naturales de suavidad. Usando esta arquitectura, el primer algoritmo de aprendizaje automático MLA1 actualiza iterativamente las propiedades del primer predictor 308A y el segundo predictor 308B (por ejemplo, ajustando parámetros tales como pesos que definen la operación del predictor) para maximizar la coincidencia entre las salidas del primer y segundo codificadores (según lo medido por el primer regularizador 314) sujeto a las primeras restricciones y para maximizar la coincidencia entre las salidas del primer y segundo predictores (según lo medido por el segundo regularizador 316) sujeto a las segundas restricciones. En otras realizaciones, el primer codificador 306<a>y el segundo codificador 306B también pueden actualizarse iterativamente. El entrenamiento del primer algoritmo de aprendizaje automático MLA1 comprende así utilizar iterativamente un proceso de representación para generar una representación digital bidimensional a partir de una representación digital tridimensional generada por el primer algoritmo de aprendizaje automático MLA1 y comparar la representación digital generada con una representación digital correspondiente. en los datos de entrenamiento. Una vez que se ha logrado la coincidencia o se ha realizado un número predeterminado de iteraciones, el primer algoritmo de aprendizaje automático MLA1 se considera entrenado y la salida resultante del segundo predictor 308B se puede usar para proporcionar los primeros datos de referencia 101 (que en esta realización comprende representaciones digitales tridimensionales correspondientes a las representaciones bidimensionales de entrada en los datos de entrenamiento 100).

Como una extensión, se pueden generar nuevas representaciones digitales bidimensionales y/o tridimensionales aplicando instrucciones de edición a representaciones digitales bidimensionales (que se convierten en representaciones digitales tridimensionales mediante el primer algoritmo de aprendizaje automático entrenado MLA1) o a representaciones digitales tridimensionales generadas por el primer algoritmo de aprendizaje automático entrenado MLA1). En este caso, los primeros datos de referencia 101 pueden incluir las representaciones digitales bidimensionales y/o representaciones tridimensionales después de la modificación mediante las instrucciones de edición.

Un conjunto de representaciones digitales tridimensionales así generadas como primeros datos de referencia 101 y representaciones digitales bidimensionales correspondientes (por ejemplo, directamente a partir de los datos de entrenamiento 100 como se muestra en la FIGURA 14) se utilizan para entrenar el segundo algoritmo de aprendizaje automático MLA2 (entrada en bloque 304). En esta realización, el segundo algoritmo de aprendizaje automático MLA2 también comprende un codificador 306C y un predictor 308C, que puede configurarse como se describe anteriormente para el primer algoritmo de aprendizaje automático MLA1. El predictor 308C (y, opcionalmente, el codificador 308C) puede actualizarse (entrenarse) iterativamente usando un regularizador 318 basado en los datos de entrenamiento de entrada 100 y los primeros datos de referencia 101. Por tanto, el segundo algoritmo de aprendizaje automático MLA2 aprende a convertir entre una representación digital bidimensional y una representación digital tridimensional basándose en el mapeo entre representaciones digitales bidimensionales y representaciones digitales tridimensionales derivadas usando el procesador 310 en el primer algoritmo de aprendizaje automático MLA1. Siempre que el mapeo derivado del primer algoritmo de aprendizaje automático MLA1 sea fiable, el segundo algoritmo de aprendizaje automático, MLA2, podrá proporcionar una conversión precisa entre representaciones digitales bidimensionales y representaciones digitales tridimensionales utilizando un modelo de aprendizaje automático entrenado más simple (que puede almacenarse y operarse utilizando menos recursos informáticos que el primer algoritmo de aprendizaje automático, MLA1).

LaFIGURA 15representa el flujo de datos en una implementación de ejemplo de una realización en la que un segundo algoritmo de aprendizaje automático MLA2 previamente entrenado se actualiza (es decir, se entrena más) en o cerca de la velocidad de fotogramas de datos de entrada (es decir, en línea). En realizaciones de este tipo, se puede recibir una pluralidad de representaciones digitales (por ejemplo, imágenes) de la región de cabeza como ID de datos de entrada (por ejemplo, desde un sistema sensor SS como se describe anteriormente) y ajustar (por ejemplo, como se describe anteriormente con referencia a las FIGURAS 11, 12 y 14) para proporcionar datos de salida OD que se muestran posteriormente a través de la pantalla DS (como se describe anteriormente con referencia a la FIGURA 12). El ID de datos de entrada puede comprender un conjunto de parches de entrada, comprendiendo cada parche de entrada una característica objetivo de una representación digital de una región de cabeza antes del ajuste de la representación digital de la región de cabeza, en donde la característica objetivo es la misma para cada parche de entrada. El ajuste se puede realizar utilizando una versión previamente entrenada del segundo algoritmo de aprendizaje automático MLA2, opcionalmente en combinación con un modelo geométrico. El ID de los datos de entrada puede comprender representaciones digitales capturadas en diferentes momentos del tiempo, tales como diferentes fotogramas en una secuencia de imágenes obtenidas por el sistema sensor SS en un modo de captura de vídeo. En una realización, el método comprende actualizar el segundo algoritmo de aprendizaje automático MLA2 previamente entrenado utilizando primeros datos de referencia (por ejemplo, instrucciones de edición) generados por el primer algoritmo de aprendizaje automático MLA1 utilizando una o más de las representaciones digitales recibidas (a partir del ID de datos de entrada). Los primeros datos de referencia pueden comprender un conjunto de instrucciones de edición en correspondencia uno a uno con los parches de entrada, siendo cada instrucción de edición para ajustar la representación digital de la región de cabeza. En el ejemplo mostrado en la FIGURA 15, los primeros datos de referencia para la actualización se generan en un proceso en segundo plano y el segundo algoritmo de aprendizaje automático MLA2 se actualiza a una velocidad de cuadros de datos de entrada o cerca de ella (es decir, en línea).

Por lo tanto, la actualización utiliza una versión previamente entrenada del primer algoritmo de aprendizaje automático MLA1 (que, como se ha descrito anteriormente, está configurado para proporcionar datos de referencia más detallados a expensas de mayores demandas computacionales, con respecto al segundo algoritmo de aprendizaje automático MLA2) para generar primeros datos de referencia que se usan para actualizar el segundo algoritmo de aprendizaje automático MLA2. Cuando el primer algoritmo de aprendizaje automático MLA1 es más lento que el segundo algoritmo de aprendizaje automático MLA2 (que normalmente será el caso cuando el primer algoritmo de aprendizaje automático MLA1 está configurado para proporcionar datos de referencia más detallados que el segundo algoritmo de aprendizaje automático MLA2), solo se utiliza un subconjunto del ID de datos de entrada (que comprende las representaciones digitales recibidas y ajustadas) para actualizar el segundo algoritmo de aprendizaje automático MLA2, permitiendo así que el proceso de actualización se mantenga al día con el ajuste de la ID de los datos de entrada mediante el segundo algoritmo de aprendizaje automático MLA2 para proporcionar la OD de los datos de salida. Se puede utilizar cualquiera de las diversas técnicas conocidas para realizar la actualización del segundo algoritmo de aprendizaje automático MLA2. Por ejemplo, la actualización en línea puede realizarse como se describe en Amir Saffari, Christian Leistner, Jakob Santner, Martín Godec y Horst Bischof, "On-line Random Forests", en el 3rd IEEE ICCV Workshop on Online Computer Vision, 2009, o como se describe en Online Deep Learning: Learning Deep Neural Networks on the Fly, Doyen Sahoo, Quang Pham, Jing Lu, Steven C.H., Hoi School of Information Systems, Singapore Management University, https://arxiv.org/pdf/1711.03705.pdf. Por lo tanto, el segundo algoritmo de aprendizaje automático MLA2 se puede mejorar gradualmente durante su uso, a medida que el sistema encuentra y procesa más ID de datos de entrada.

Claims

REIVINDICACIONES

1. Un método implementado por ordenador para generar datos de referencia para ajustar una representación digital de una región de cabeza, comprendiendo el método:

recibir datos de entrenamiento (100, TD) que comprenden:

un conjunto de parches de entrada, comprendiendo cada parche de entrada una característica objetivo de una representación digital de una región de cabeza antes del ajuste de la representación digital de la región de cabeza, en donde la característica objetivo es la misma para cada parche de entrada;

un conjunto de parches de salida en correspondencia uno a uno con los parches de entrada, comprendiendo cada parche de salida la característica objetivo de la representación digital de la región de cabeza después del ajuste de la representación digital de la región de cabeza; y

un conjunto básico utilizado para proporcionar una representación comprimida de instrucciones de edición;

usar un primer algoritmo de aprendizaje automático (MLA1) para generar primeros datos de referencia (101) usando los datos de entrenamiento (100, TD), comprendiendo los primeros datos de referencia (101) instrucciones de edición para ajustar la representación digital de la región de cabeza para una gama de posibles representaciones digitales de la región de cabeza; y

usar un segundo algoritmo de aprendizaje automático (MLA2) para generar segundos datos de referencia (102) usando los mismos datos de entrenamiento (100, TD) como el primer algoritmo de aprendizaje automático (MLA1) y los primeros datos de referencia (101) generados por el primer algoritmo de aprendizaje automático (MLA1), comprendiendo los segundos datos de referencia (102) instrucciones de edición para ajustar la representación digital de la región de cabeza para una gama de posibles representaciones digitales de la región de cabeza, en donde las segundas instrucciones de edición (ED2) en los segundos datos de referencia (102) se proporcionan en la representación comprimida utilizando el conjunto básico.

2. El método de la reivindicación 1, en donde:

los primeros datos de referencia (101) comprenden primeras instrucciones de edición (ED1) para una gama de posibles configuraciones de la característica objetivo y primeras instrucciones de selección (LA1) para seleccionar instrucciones de edición para un parche de entrada particular a partir de las primeras instrucciones de edición (ED1) basadas en la configuración de la característica objetivo del parche de entrada; y

los segundos datos de referencia (102) comprenden segundas instrucciones de edición (ED2) para una variedad de posibles configuraciones de la característica objetivo y segundas instrucciones de selección (LA2) para seleccionar instrucciones de edición para un parche de entrada particular a partir de las segundas instrucciones de edición de imágenes basadas en la configuración de la característica objetivo del parche de entrada,

en donde, opcionalmente: la configuración de la característica objetivo de cada parche de entrada está representada por un vector de características derivado de varios descriptores locales del parche de entrada, y la primera y segunda instrucciones de selección definen cómo se usa el vector de características para seleccionar instrucciones de edición para el parche de entrada.

3. El método de la reivindicación 2, en donde las instrucciones de edición comprenden:

un campo vectorial de desplazamiento que define cómo se transformará el parche de entrada o un campo de filtro, un campo de ajuste de brillo o un campo de fusión de texturas.

4. El método de la reivindicación 2 o 3, en donde:

el primer algoritmo de aprendizaje automático (MLA1) utiliza un primer algoritmo de edición (EA1) para definir cómo se aplicarán las primeras instrucciones de edición (ED1) a un parche de entrada para derivar un parche de salida; y

el segundo algoritmo de aprendizaje automático (MLA2) utiliza un segundo algoritmo de edición (EA2) para definir cómo se aplicarán las segundas instrucciones de edición (ED2) a un parche de entrada para derivar un parche de salida.

5. El método de la reivindicación 4, en donde:

las segundas instrucciones de edición (ED2) son componentes de análisis de componentes principales de un análisis de componentes principales de las primeras instrucciones de edición (ED1); y el segundo algoritmo de edición de imágenes (EA2) está configurado para transformar las segundas instrucciones de edición (ED2) en las primeras instrucciones de edición (ED1) mediante transformación de análisis de componentes de principio inverso; o

las segundas instrucciones de edición (ED2) son componentes de ondícula de las primeras instrucciones de edición (ED1); y el segundo algoritmo de edición (EA2) está configurado para transformar las segundas instrucciones de edición (ED2) en las primeras instrucciones de edición (ED1) mediante transformada de ondícula inversa.

6. El método de cualquiera de las reivindicaciones 2-5, en donde las primeras instrucciones de selección (LA1) para los primeros datos de referencia (101) pueden seleccionar entre un número mayor de instrucciones de edición alternativas que las segundas instrucciones de selección (LA2) para los segundos datos de referencia (102).

7. El método de cualquiera de las reivindicaciones 1-6, en donde el primer algoritmo de aprendizaje automático (MLA1) comprende una primera red neuronal y el segundo algoritmo de aprendizaje automático (MLA2) comprende una segunda red neuronal, en donde la segunda red neuronal comprende menos capas y/o campos de convolución más pequeños que la primera red neuronal.

8. El método de cualquier reivindicación anterior, en donde la característica objetivo comprende uno o más de los siguientes: una región de ojo que comprende al menos parte de un ojo, una región de nariz que comprende al menos parte de una nariz, una región de boca que comprende al menos parte de una boca, una región de mentón que comprende al menos parte de un mentón, una región de cuello que comprende al menos parte de un cuello, y una región de cabello que comprende cabello, en donde, opcionalmente:

la característica objetivo comprende una región de ojo que comprende al menos parte de un ojo y el ajuste de la representación digital de la región de cabeza comprende ajustar la dirección de la mirada;

la característica objetivo comprende una región de nariz que comprende al menos parte de una nariz y el ajuste de la representación digital de la región de cabeza comprende ajustar una forma y/o textura de la nariz;

la característica objetivo comprende una región de mentón que comprende al menos parte de un mentón y el ajuste de la representación digital de la región de cabeza comprende ajustar una forma y/o textura del mentón;

la característica objetivo comprende una región de cuello que comprende al menos parte de un cuello y el ajuste de la representación digital de la región de cabeza comprende ajustar una forma y/o textura del cuello; y/o la característica objetivo comprende una región de cabello que comprende cabello y el ajuste de la representación digital de la región de cabeza comprende ajustar un color del cabello.

9. El método de cualquier reivindicación anterior, en donde la representación comprimida comprende uno o más de los siguientes: una representación de análisis de componentes principales; una representación de ondícula; componentes de transformada de coseno discreta y/o de Fourier; centros de agrupación.

10. Un método para ajustar una representación digital de una región de cabeza, comprendiendo el método

recibir una representación digital de una región de cabeza; y

usar datos de referencia que comprenden instrucciones de edición para ajustar la representación digital de la región de cabeza, en el que los datos de referencia comprenden los segundos datos de referencia generados mediante el método de cualquiera de las reivindicaciones 1 a 9.

11. El método de la reivindicación 10, que comprende:

identificar un parche objetivo en la representación digital de la región de cabeza, comprendiendo el parche objetivo una característica objetivo de la representación digital de la región de cabeza;

derivar un vector de características a partir de varios descriptores locales del parche objetivo;

usar el vector de características para seleccionar instrucciones de edición a partir de los datos de referencia, comprendiendo los datos de referencia instrucciones de edición para un rango de valores posibles del vector de características; y

aplicar las instrucciones de edición seleccionadas al parche de destino para ajustar la representación digital de la región de cabeza.

12. El método de la reivindicación 10 u 11, en donde se reciben y ajustan una pluralidad de representaciones digitales de la región de cabeza, siendo capturada cada representación digital de la región de cabeza en un momento diferente, y el método comprende además actualizar el segundo algoritmo de aprendizaje automático (MLA2) usando instrucciones de edición generadas por el primer algoritmo de aprendizaje automático (MLA1) usando uno o más de los recibidos y representaciones digitales ajustadas, en donde la actualización del segundo algoritmo de aprendizaje automático (MLA2) se realiza opcionalmente en o cerca de la velocidad de fotogramas de datos de entrada y, opcionalmente, solo se utiliza un subconjunto de las representaciones digitales recibidas y ajustadas para actualizar el segundo algoritmo de aprendizaje automático (MLA2).

13. Un programa informático capaz de ser ejecutado por un procesador y dispuesto durante la ejecución para provocar que el procesador realice un método según cualquiera de las reivindicaciones anteriores.

14. Un medio de almacenamiento legible por ordenador que almacena un programa informático de acuerdo con la reivindicación 13.

15. Un dispositivo para generar datos de referencia para ajustar una representación digital de una región de cabeza, comprendiendo el dispositivo una unidad de procesamiento de datos (120) dispuesta para:

recibir datos de entrenamiento (100, TD) que comprenden:

un conjunto de parches de entrada, comprendiendo cada parche de entrada información sobre una característica objetivo de una representación digital de la región de cabeza antes del ajuste de la representación digital de la región de cabeza, en donde la característica objetivo es la misma para cada parche de entrada; y un conjunto de parches de salida en correspondencia uno a uno con los parches de entrada, comprendiendo cada parche de salida la característica objetivo de la representación digital de la región de cabeza después del ajuste de la representación digital de la región de cabeza;

utilizar un primer algoritmo de aprendizaje automático (MLA1) para generar los primeros datos de referencia (101) utilizando los datos de entrenamiento (100, TD), comprendiendo los primeros datos de referencia (101) instrucciones de edición para ajustar la representación digital de la región de cabeza para una gama de posibles representaciones digitales de la región de cabeza; y