ES3019883T3

ES3019883T3 - Systems and methods for image registration and camera calibration using learned error functions

Info

Publication number: ES3019883T3
Application number: ES20175677T
Authority: ES
Inventors: Roshtkhari Mehrsan Javan; Wei Jiang; Higuera Juan Camilo Gamboa; Kwang Moo Yi
Original assignee: Sportlogiq Inc
Current assignee: Sportlogiq Inc
Priority date: 2019-05-21
Filing date: 2020-05-20
Publication date: 2025-05-21
Anticipated expiration: 2040-05-20
Also published as: EP3742399A1; US20200372679A1; CA3081034A1; EP3742399B1; EP3742399C0; US11455745B2; CA3081034C

Abstract

Se proporciona un sistema y un método para registrar imágenes de entrada en objetos de referencia y generar parámetros de salida. El método incluye la obtención de una imagen de entrada y un objeto de referencia, donde este último comprende una imagen de referencia o una plantilla que corresponde a un modelo de contenido en la imagen de referencia. El método también incluye el registro de la imagen de entrada mediante la estimación de una transformación geométrica o un conjunto de parámetros de transformación no lineal, sin utilizar características de imagen predefinidas. El método también incluye la medición del error de desalineación entre las imágenes de entrada y el objeto de referencia y la generación de un conjunto de parámetros de salida. Estos parámetros pueden incluir uno o más parámetros de cámara o un conjunto de parámetros de transformación geométrica y no lineal. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Sistemas y métodos para el alineamiento de imágenes y la calibración de una cámara usando funciones de error aprendidas

Campo técnico

La siguiente descripción se refiere a sistemas y a métodos para el alineamiento de imágenes y la calibración de una cámara usando funciones de error aprendidas, por ejemplo, para estimar de manera automática una transformación geométrica entre dos imágenes, o entre una imagen y un modelo de plantilla del mundo real, para estimar de manera automática una transformación homográfica y parámetros de la cámara e implementar un mecanismo de auto-calibración de cámara.

Antecedentes

La estimación de la relación geométrica entre un modelo y una imagen observada es un problema fundamental de la visión artificial (referencias [1], [2]). Este problema se ha abordado en la literatura relativa tanto al alineamiento de imágenes como a la calibración de cámaras. Muchas aplicaciones de visión, incluyendo el análisis deportivo y la realidad mixta y aumentada, se basan en transformaciones geométricas calculadas de manera precisa. La estimación de la posición y orientación de la cámara, o la calibración de la cámara a partir de una única imagen, está mal planteada por naturaleza. Es decir, la información tridimensional (3D) tiende a perderse cuando se proyecta en dos dimensiones (2D) y, de esta manera, una posición inicial lo suficientemente buena combinada con una optimización apropiada puede conducir a registros precisos (referencia [3]). En la práctica, la mayoría de los algoritmos de calibración de cámara se basan en la captura de múltiples imágenes de objetos de referencia para estimar los parámetros de la cámara. Los objetos de referencia normalmente son un objeto de calibración diseñado específicamente con dimensiones e información geométrica 3D conocidas, a los que se hace referencia como "patrón de calibración".

Un patrón de calibración puede incluir un objeto 3D, un plano 2D o una línea unidimensional (1D). Los parámetros de la cámara se estiman usando diferentes vistas del patrón de calibración, bien moviendo la cámara con relación al patrón de calibración [4]. En los algoritmos de calibración de cámara estándar, es necesario identificar la correspondencia entre las imágenes y las características geométricas en el mundo real para permitir la estimación de los parámetros desconocidos de la cámara.

Los intentos anteriores de alinear un campo de deportes para transmitir vídeos (referencias [5] [6]) se basan típicamente en un conjunto de imágenes de referencia precalibradas, y realizando una búsqueda en la base de datos para encontrar imágenes similares con una posición y orientación de cámara u homografía conocida. Estas referencias calibradas se usan para estimar una posición y orientación relativa a la imagen de interés. Para recuperar la posición y orientación relativa, estos métodos o bien suponen que las imágenes corresponden a fotogramas consecutivos en un vídeo (referencia [5]), o bien usan características locales, tales como transformación de característica invariable a la escala (SIFT) y regiones extremas máximamente estables (MSER), para encontrar correspondencias (referencia [6]). Sin embargo, estos métodos requieren que el conjunto de imágenes calibradas contenga imágenes con una apariencia similar a la imagen de interés actual, ya que se ha demostrado que las características locales tradicionales son débiles frente a los cambios temporales a largo plazo.

Para superar estas limitaciones en los enfoques anteriores, algunos de los enfoques recientes se han centrado en convertir vídeos para difusión en imágenes que solo contienen información acerca de los campos de deportes, por ejemplo, líneas marcadoras conocidas, y, a continuación, realizar un alineamiento (referencias [7], [8], [9]).

Los intentos anteriores de realizar una estimación homográfica entre imágenes incluyen enfoques basados en características dispersas (referencia [10]) y enfoques directos densos, donde en ambos enfoques la homografía se obtiene encontrando correspondencias de puntos característicos entre las dos imágenes y encontrando una transformación geométrica que minimiza el error de proyección. Independientemente de si son dispersos o densos, estos enfoques están limitados principalmente por la calidad de las características locales o por la robustez de la función objetivo usada para la optimización. Se han usado también enfoques basados en el aprendizaje profundo para aprender las características para estimar la homografía entre dos imágenes. Algunas técnicas de aproximación, tales como las redes neuronales profundas (DNNs), se han estudiado también en soluciones anteriores y han propuesto la realización de un regresión directa desde una imagen a la posición y orientación de seis grados de libertad (6 DoF) de una cámara. WEI JIANG ET AL: "Optimizing Through Learned Errors for Accurate Sports Field Registration''. ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 17 de Septiembre de 2019 describe un esquema basado en la optimización para alinear plantillas de campos de deportes en vídeos para difusión. El documento US 2018/336704 A1 describe un sistema y un método para calibrar y recalibrar un dispositivo de formación de imágenes. Sascha E A Muenzing: "Learning-Based Approaches to Deformable Image Registration", 11 de Junio de 2014, describe métodos de aprendizaje automático para el alineamiento deformable de tomografías computarizadas (TC) de pulmones humanos tomadas del mismo paciente en diferentes puntos en el tiempo. EPPENHOF KOEN A J ET AL: "Error estimation of deformable image registration of pulmonary CR scans using convolutional neural networks", JOURNAL OF MEDICAL IMAGING, SOCIETY OF PHOT-OPTICAL INSTRUMENTATION ENGINEERS, 100020TH ST. BELLINGHAM WA 98225-6705 EE. UU., vol. 5, no. 2, 1 de Abril de 2018, página 24003, describe la estimación del error en el alineamiento de imágenes médicas no lineales. ZITOVA B ET AL: "IMAGE REGISTRATION METHODS: A SURVEY", IMAGE AND VISION COMPUTING, ELSEVIER, GUILDFORD, GB, vol. 21, N° 11, 1 de Octubre de 2003 (01-10-2003), páginas 977-1000 describe una revisión de los métodos de alineamiento de imágenes recientes y clásicos.

Un objeto de la siguiente descripción es abordar al menos uno de los problemas indicados anteriormente.

Sumario

Se proporciona un método según la reivindicación 1.

Se proporciona también un medio legible por ordenador según la reivindicación 13.

Se proporciona también un dispositivo electrónico según la reivindicación 14.

Breve descripción de los dibujos

A continuación, se describirán realizaciones con referencia a los dibujos adjuntos, en los que:

La Fig. 1 es un diagrama de bloques de un sistema de estimación de parámetros para estimar los parámetros de una cámara o los parámetros de una transformación geométrica y no lineal a partir de una imagen de entrada y un objeto de referencia, tal como otra imagen o una plantilla.

La Fig. 2 es un diagrama de bloques de un sistema de estimación de parámetros en una configuración alternativa. La Fig. 3 es un diagrama de flujo esquemático que muestra un ejemplo de una estimación de parámetros ejecutada usando el sistema mostrado en la Fig. 1 y/o la Fig. 2.

La Fig. 4(a) es un ejemplo de alineamiento de imágenes deportivas con una plantilla para fútbol.

La Fig. 4(b) es un ejemplo de alineamiento de imágenes deportivas con una plantilla para hockey.

La Fig. 5 es un conjunto de imágenes ejemplar que demuestra el efecto de una serie de iteraciones de optimización sobre la precisión del alineamiento.

Descripción detallada

La siguiente descripción se refiere a la auto-calibración de una cámara, la estimación de una transformación de homografía plana, el alineamiento de imágenes y la estimación de la posición y orientación de la cámara, que optimiza un objetivo de error de alineación aprendido a partir de las imágenes observadas, y particularmente para recalibrar y estimar de manera continua los parámetros de la cámara a partir de una secuencia de imágenes observadas. El sistema ajusta de manera adaptativa los parámetros de la cámara, dada una nueva imagen observada, para minimizar la disparidad entre la imagen re-proyectada en un sistema de coordenadas absoluto y una plantilla absoluta con propiedades geométricas conocidas.

El sistema descrito en el presente documento está configurado para alinear una imagen con una plantilla u otra imagen usando un proceso de optimización basado en el aprendizaje, estimando de esta manera la transformación homográfica y los parámetros de la cámara. En un aspecto, el sistema alinea una imagen con una "imagen de referencia", mientras que en otro aspecto el método alinea la imagen con una denominada "plantilla", en el que la plantilla es una representación de uno o más objetos 3D o uno o más planos 2D con dimensiones conocidas. La palabra plantilla puede usarse indistintamente con objetos 3D y/o planos 2D en la siguiente descripción. El sistema aplica: i) un proceso de estimación inicial, que genera una aproximación inicial de los parámetros de la cámara o de la transformación homográfica, ii) una función de error que estima el error de alineamiento entre la imagen recibida y la plantilla, iii) y un proceso de optimización para actualizar de manera iterativa los parámetros de transformación homográfica para minimizar el error estimado. Una realización ejemplar descrita a continuación incluye alinear vídeos para difusión de un partido o juego deportivo con modelos de campos de deportes, y estimar los parámetros de la cámara. Puede apreciarse que el sistema y los métodos descritos en el presente documento pueden usarse también para otras aplicaciones relevantes, tales como la localización y mapeo simultáneos en aplicaciones robóticas, la estimación de la posición y orientación de la cámara con respecto a objetos planos con dimensiones conocidas y el alineamiento de imagen a imagen para aplicaciones de imágenes biomédicas, por mencionar algunas.

La descripción siguiente describe también un método para el alineamiento de imágenes (con 6 DoF) que aprende una función de mapeo para actualizar una estimación de posición y orientación de la cámara y simultáneamente aprende una función de error que predice lo bien alineadas que están las dos imágenes. El alineamiento incluye una función de mapeo que mapea píxeles desde una imagen a otra, o a la posición y orientación de la cámara, y puede ser una transformación geométrica o una transformación no lineal. El método divulgado incluye un proceso de dos etapas, en el que la primera etapa, a la que puede hacerse referencia como la red de alineamiento inicial, proporciona una estimación aproximada del alineamiento, parametrizada por una transformada homográfica. La segunda etapa incluye una función de mapeo que toma la entrada de la primera etapa y calcula el error de las estimaciones, al que puede hacerse referencia como red de error de alineamiento. Las dos redes pueden usarse para proporcionar una suposición inicial (usando la primera red) y refinar la hipótesis usando los gradientes proporcionados por la diferenciación a través de la segunda red. Esto permite estimaciones más precisas en comparación con las soluciones anteriores. El término "red" se usa en el presente documento como término genérico para un método de aproximación de funciones y no debe restringirse a redes neuronales artificiales (NNs).

El sistema divulgado puede aprender también a evaluar los errores de alineamiento para su corrección y puede medir una métrica de error alineando una plantilla objetivo y la imagen de entrada en un espacio común, que puede ser también el espacio de plantilla o el espacio de imagen, y, a continuación, evaluando su corrección. El alineamiento de la imagen y la plantilla permite que el método incorpore los esquemas de geometría convencionales en el proceso de inferencia. Aunque ciertos aspectos del sistema divulgado están relacionados con cámaras de transmisión para eventos deportivos, los sistemas y los métodos descritos en el presente documento pueden usarse para calibrar y recalibrar cualquier cámara, alinear imágenes de múltiples cámaras en un espacio unificado y alinear imágenes de diferentes modalidades de imagen.

Una realización ejemplar del sistema puede usar una única imagen a partir de un vídeo para difusión de un evento deportivo para alinear esa imagen con una plantilla buscando la transformación geométrica entre las dos. Ciertos aspectos se refieren a un método para alinear imágenes y vídeos de eventos deportivos con la plantilla de campo de deportes. El sistema incluye una interfaz para introducir una o más imágenes de la escena y métodos para obtener cualquiera de entre una calibración de la cámara, una orientación de la cámara y una reconstrucción métrica parcial o total de la escena.

Con referencia ahora a las figuras, la Fig. 1 ilustra un sistema 8 de estimación de parámetros que proporciona un módulo 10 de estimación de parámetros que puede estar configurado para estimar de manera automática los parámetros de la cámara y/o para estimar una transformación geométrica y no lineal. Dicha estimación automatizada aplica una transformación geométrica entre una imagen 12 de entrada y un objeto 14 de referencia, que puede incluir otra imagen o una plantilla. La transformación puede incluir una transformación homográfica o puede generar un conjunto de uno o más parámetros de cámara (es decir, una calibración de la cámara). Es decir, el objeto 14 de referencia puede ser una imagen, similar a la imagen de entrada, o una plantilla del mundo real y puede tener una geometría 3D conocida.

El módulo 10 de estimación de parámetros en la configuración ejemplar mostrada en la Fig. 1 incluye módulos, rutinas, procesos o unidades para realizar una estimación 16 de parámetros de alineamiento, una medición 18 de error y una transformación 20 de alineamiento, a aplicar a la imagen 12. La estimación 16 de parámetros de alineamiento inicial puede ser un proceso completamente automatizado, que usa una técnica de aproximación de funciones o una búsqueda en una base de datos. Los parámetros de alineamiento inicial son los parámetros de una función lineal o no lineal que mapea los píxeles de la imagen 12 de entrada al objeto 14 de referencia. Los parámetros de alineamiento inicial pueden usarse para medir la precisión de la transformación estimada, o el error de alineamiento, usando un mecanismo para realizar la medición 18 de error, que puede ser un proceso separado o una parte de la misma estimación 16 de los parámetros de alineamiento y, de esta manera, se muestra por separado con propósitos ilustrativos. Si el error no es aceptable, la transformación 20 de alineamiento puede aplicarse a la imagen 12 de entrada y el proceso puede repetirse, tal como se muestra en la Fig. 1. Puede usarse un conocimiento previo en la medición 18 de error, si está disponible, o la medición 18 de error puede aprender a estimar el error usando técnicas de aproximación de funciones. El módulo 10 genera un conjunto de uno o más parámetros 22 de salida, que pueden incluir parámetros de la cámara, o parámetros de la transformación geométrica y no lineal, que son valores numéricos de los parámetros intrínsecos y extrínsecos de la cámara o un subconjunto de los mismos.

La Fig. 2 ilustra una configuración alternativa para un módulo 100 de estimación de parámetros. En esta configuración alternativa, se proporciona un módulo, una rutina, un proceso o una unidad para realizar un ajuste y un afinamiento de los parámetros 30. El proceso mostrado en la Fig. 2 puede usarse también para una estimación automatizada de parámetros de alineamiento para generar parámetros 22 de salida usando una medición 18 de error, sin embargo, en esta configuración alternativa, después de realizar la medición 18 de error, los parámetros de alineamiento se ajustan mediante un proceso de optimización. Cabe señalar que la Fig. 1 y la Fig. 2 son representativas de dos formas de aplicar el proceso iterativo. El proceso iterativo en la Fig. 1 aplica la transformación estimada a la imagen de entrada y reestima los parámetros (repitiendo el proceso para alcanzar la convergencia), mientras que en la Fig. 2 los parámetros se ajustan de manera diferente. Es decir, la Fig. 1 y 2 representan dos configuraciones diferentes del mismo proceso.

La Fig. 3 ilustra el proceso de alineamiento y optimización para imágenes deportivas según la configuración mostrada en la Fig. 1 y la configuración mostrada en la Fig. 2. Se divulgan diferentes metodologías de ajuste de parámetros con el fin de minimizar el error en los parámetros estimados. Dada una imagen 12 de entrada, la posición y orientación inicial de la cámara, o los parámetros de la cámara, representados en el presente documento mediante una transformación 22 homográfica, h, se obtienen usando una técnica de aproximación de funciones mostrada como una DNN 16 que calcula una regresión de las imágenes directamente a la parametrización homográfica. El objeto 14 de referencia (es decir, la imagen o plantilla) del modelo de campo de deportes se deforma según esta estimación inicial. El proceso 18 de estimación de error toma la plantilla deformada de la imagen de entrada y estima el error de desalineación entre ambas. La deformación puede aplicarse a la imagen 12 en lugar de al objeto 14 de referencia (plantilla). A continuación, el error estimado se usa como una función objetivo para optimizar de manera iterativa los parámetros 22 de transformación y para actualizar los parámetros para maximizar la alineación entre la imagen 12 y el objeto 14 de referencia (plantilla).

Una realización ejemplar descrita ilustra cómo la estimación de parámetros/posición y orientación de cámara y el alineamiento de imágenes propuestos pueden aplicarse a vídeos deportivos para difusión. Más específicamente, la metodología de calibración descrita en el presente documento estima la transformación homográfica de objetos planos alineando una plantilla plana con la imagen observada de esa plantilla. Sin embargo, la transformación homográfica puede aumentarse con transformaciones no lineales para modelar y medir los coeficientes de distorsión en los parámetros intrínsecos de la cámara, lo que puede ser un proceso sencillo para las personas familiarizadas con los intentos anteriores de calibración de cámaras. La alineación de la imagen 12 con el objeto 14 de referencia (plantilla) puede realizarse optimizando una función de error aprendida que mide la precisión de la alineación entre la imagen transformada y la plantilla transformada en el mismo espacio común, tal como se muestra en las Figs. 4(a) y 4(b).

En esta realización ejemplar, puede suponerse un modelo 14 de campo de deportes plano e imágenes 12 conocidos, de manera que la alineación imagen-modelo puede representarse con una matriz homográfica como parámetros 22 de salida. El esquema puede dividirse en dos etapas: la primera etapa que proporciona una estimación 16 inicial de la salida 22 de matriz homográfica, y la segunda etapa que refina de manera iterativa esta estimación 16. La primera etapa puede seguir un procedimiento de aproximación de funciones, y puede emplearse un paradigma de alimentación directa que utiliza una técnica de aproximación de funciones, tal como una NN artificial profunda. Sin embargo, en el presente documento puede usarse cualquier método como alternativa, por ejemplo, una búsqueda en una base de datos. Con la estimación 16 de la primera etapa, el modelo del campo de juego puede deformarse a la vista actual, puede combinarse con la imagen 12 observada actual, y el error de alineamiento puede evaluarse mediante el segundo procedimiento de aproximación de funciones, es decir, la medición 18 de error, que puede elegirse para que sea una NN. No es necesario que la deformación de la plantilla 14 y de la imagen 12 se realice necesariamente en el espacio de imagen actual y puede realizarse en cualquier espacio elegido arbitrariamente.

Para actualizar de manera iterativa los parámetros 22 homográficos de salida (por ejemplo, tal como se muestra en la Fig. 2), puede tomarse la derivada de la salida de la red con respecto a la red de alineamiento inicial para obtener un gradiente, que proporciona la dirección en la que deben actualizarse los parámetros 22 y puede usarse cualquier técnica de optimización basada en gradiente para actualizar los parámetros 22. La actualización iterativa, a la que se hace referencia como proceso de refinamiento, puede realizarse de manera iterativa hasta la convergencia o hasta que se realice un número máximo deseado de iteraciones. Puede usarse también cualquier otro método de optimización, incluidos los que no requieren gradientes, tales como las optimizaciones por enjambre de partículas (PSOs).

De manera alternativa, para actualizar de manera iterativa los parámetros 22 homográficos (por ejemplo, tal como se muestra en la Fig. 1), puede usarse la salida del proceso de alineamiento inicial, puede aplicarse el alineamiento estimado a una de las imágenes y, a continuación, pueden usarse las imágenes transformadas como la entrada al proceso y puede repetirse el mismo proceso para el alineamiento inicial. Este proceso puede realizarse de manera repetida hasta que se alcance un número predefinido de iteraciones o hasta que el error de alineamiento sea menor que un umbral aceptable.

La Fig. 5 proporciona un ejemplo que demuestra el efecto del número de iteraciones de optimización sobre la precisión del alineamiento. En este ejemplo, el resultado del alineamiento en la iteración 0 (es decir, el alineamiento inicial) puede compararse con las iteraciones 20, 40 y 60 para apreciar la mejora en la precisión del alineamiento. Es decir, a medida que se realizan más iteraciones de optimización, el alineamiento puede ser más preciso.

Alineamiento inicial

Puede emplearse una parametrización de "coordenadas proyectadas para posición y orientación" y, en el caso de homografías, esto puede hacerse con cuatro (4) puntos. Puede parametrizarse la homografía h que define la relación entre la imagen I de entrada y el modelo m objetivo a través de las coordenadas de los cuatro puntos de control en la imagen 12 de entrada actual cuando se deforma al modelo de campo de deportes.

Específicamente, considerando un sistema de coordenadas de imagen normalizado donde la anchura y la altura de la imagen se establecen a uno, y el centro de la imagen está en el origen, pueden usarse (-0,5, 0,1), (-0,5, 0,5), (0,5, 0,5) y (0,5, 0,1), es decir, las esquinas de las tres quintas partes inferiores de la imagen 12 como puntos de control.

Se usan las partes inferiores de la imagen 12 debido a que los vídeos para difusión de campo de deportes están típicamente en una configuración en la que la cámara está orientada hacia abajo hacia el campo.

Supóngase que (uk, vk) indica el k-ésimo punto de control de la imagen I actual proyectado sobre la plantilla, o modelo m de campo de deportes. Entonces, la homografía h puede escribirse como

Dada una función de alineamiento inicial, f$(-),puede obtenerse una estimación h(0) de homografía aproximada para la imagen I como h(0) = fy(I), donde el superíndice entre paréntesis indica la iteración de la optimización de refinamiento. Refinamiento

Con la estimación de homografía actual h(i) en la iteración de optimización i, el modelo I de campo de juego se deforma para obtener una imagen del modelo en la vista actual, usando un muestreador bilineal para conservar la diferenciabilidad. Puede concatenarse el resultado de esta operación de deformación W(m,h(i)) y la imagen I, y pasar el resultado como una entrada al modelo gv(-) para obtener una predicción del error é® de alineamiento como:

donde [;] denota una concatenación a lo largo de la dirección del canal de dos imágenes.

El gradiente de é® con respecto a h(i) puede recuperarse y este gradiente puede aplicarse para recuperar una estimación actualizada.

Matemáticamente, se escribirá como: h(i+1) = h(i) AVñ(¡)£(i), donde A es el tamaño del paso. En la práctica, en lugar de un descenso de gradiente estocástico (SGD) puro, puede usarse cualquier técnica de optimización para una optimización más estable.

Aprendiendo a estimar las funciones de mapeo

El proceso de aprendizaje o entrenamiento de las redes de aproximación de funciones para las dos etapas del método divulgado puede realizarse de manera conjunta o por separado. La realización ejemplar describe cómo puede realizarse el entrenamiento de las dos redes de aproximación de funciones desacoplando las mismas, sin embargo, el proceso de entrenamiento puede realizarse fácilmente de manera conjunta.

Alineamiento inicial

Con la homografía h<gt>fiel a la realidad, la red de aproximación de funciones se entrena para minimizar:

donde II ||2 indica la norma euclidiana. Cabe señalar que, aunque se usa una NN artificial profunda para obtener la estimación homográfica inicial, puede usarse también conjuntamente cualquier otro método.

Red de error de alineamiento

Para entrenar la red de error de alineamiento, pueden crearse perturbaciones aleatorias en la homografía fiel a la realidad. A continuación, el modelo objetivo puede deformarse a la imagen usando la homografía fiel a la realidad perturbada, y puede concatenarse con la imagen 12 de entrada a ser usada como datos de entrada para el entrenamiento. El modelo de red se entrena para predecir una métrica de error de alineamiento, por ejemplo, la intersección sobre la unión (IoU) media. Pueden usarse otras métricas de error de alineamiento, tales como el error de reproyección o la puntuación de información mutua.

Más detalladamente, con la homografía h<gt>fiel a la realidad, puede crearse una homografía h<pert>perturbada aplicando un ruido uniforme, de manera jerárquica: uno para la traslación global y otro para la traslación local de cada punto de control. Específicamente, un ruido aleatorio uniforme común de ac ~ U(-5C, 5C), donde e se añade a todos los puntos de control, y un ruido aleatorio uniforme separado de as ~ U(-5S, 5S), donde&■=E IRB, se añade individualmente para cada punto de control. A continuación, el modelo objetivo se deforma según la homografía perturbada para crear los datos de entrada para el entrenamiento.

De esta manera, la entrada a la red de error de alineamiento para el entrenamiento es [I;W(m,h<pert>)]. A continuación, para entrenar la red, puede minimizarse:

donde Err(,) es la métrica de error, por ejemplo, el valor loU.

Experimentos y resultados

Red de alineamiento inicial

Esta realización ejemplar usa las NNs para la aproximación de funciones y los resultados ejemplares se obtienen usando la arquitectura ResNet-18 (referencia [11]). Cabe señalar que en el presente documento puede usarse cualquier otra técnica de aproximación de funciones distinta de las NNs, y el sistema 10, 100 no está limitado al uso de una arquitectura NN específica. En lugar de la capa de clasificación, simplemente puede reemplazarse la última capa completamente conectada para estimar ocho (8) números sin ninguna activación.

Red de error de alineamiento

Para la red de error de alineamiento, puede basarse también en la arquitectura ResNet-18, pero con normalización espectral (referencia [12]) en todas las capas convolucionales, y puede tomarse como entrada una imagen de 6 canales, es decir, la concatenación de la imagen 12 de entrada y el modelo objetivo deformado. La normalización espectral suaviza las predicciones de error al restringir la constante de Lipschitz del modelo, lo que limita la magnitud de sus gradientes. Debido a que la salida de la red de error de alineamiento no puede ser negativa, simplemente puede usarse el cuadrado de la salida de la red como la función de activación final. Para la red de alineamiento, la entrada es muy diferente de una red típica basada en imágenes, ya que el entrenamiento se realiza partiendo de cero.

Para evaluar experimentalmente los resultados del método divulgado, las pruebas se realizaron sobre dos conjuntos de datos. El conjunto de datos de la Copa del Mundo (referencia [7]) es un conjunto de datos compuesto por vídeos difundidos de partidos de fútbol. Cuando se realizaron estas pruebas, tenía 209 imágenes para el entramiento y la validación, y 186 imágenes para pruebas. Este conjunto de datos se considera extremadamente pequeño, lo que lo convierte en poco adecuado para el entrenamiento de NNs profundas de alimentación directa. Por lo tanto, el estado de la técnica para este conjunto de datos (referencia [9]) se basa en aprender a transferir la imagen 12 de entrada para que sea similar al modelo de campo de deportes, y, a continuación, buscar en una base de datos de homografías conocidas y modelos deformados para recuperar la estimación. Para los experimentos, se usaron treinta y nueve (39) imágenes de la división válida para el entrenamiento como conjunto de datos de validación, y se respetó la división de prueba original para las pruebas.

El conjunto de datos de hockey está compuesto por vídeos para difusión de partidos de hockey sobre hielo de la Liga Nacional de Hockey (NHL) (referencia [7]). Este es un conjunto de datos relativamente más grande que el conjunto de datos de la Copa del Mundo, con 1,67 millones de imágenes en total cuando se realizaron estos experimentos. De este gran conjunto de datos, se usaron 800 fragmentos consecutivos de imágenes como validación y prueba, respectivamente. Se garantiza que las imágenes de marcos de tiempo similares no caigan en divisiones diferentes. (Véanse las Figs. 4(a) y 4(b) para imágenes ejemplares. Las Figuras 4(a) y 4(b) proporcionan ejemplos de alineamiento de imágenes deportivas con las plantillas de fútbol (Fig. 4(a)) y hockey (Fig. 4(b)). En estas imágenes, las líneas superiores corresponden a las líneas del campo de deportes superpuestas en la vista actual usando homografías estimadas. La vista actual inferior está superpuesta en la plantilla de campo de deportes.

Referencia

Con referencia a la Tabla 1 siguiente, el método divulgado se comparó con tres trabajos existentes para el alineamiento de campos de deportes (referencias [7], [8], [9]). Debido a que no hay ninguna implementación disponible públicamente de los otros dos métodos, los resultados se informan en las documentaciones técnicas respectivas para el conjunto de datos de la Copa del Mundo. Para el conjunto de datos de Hockey, los resultados informados se obtuvieron de la referencia [7] como punto de comparación. Además, el método divulgado se comparó con las referencias de alimentación directa: una red de alimentación directa de una sola etapa (SSF) y una red de refinamiento de alimentación directa de dos etapas (FFR). Se exploró también adicionalmente si la red de error de alineamiento puede usarse o no de manera autónoma recuperando el alineamiento inicial mediante una búsqueda en una base de datos de posición y orientación conocidas, por ejemplo, el conjunto de entrenamiento, y usando el ejemplo que proporciona la estimación de error más baja. Al alineamiento inicial obtenido mediante este método se hace referencia como NN, y a la estimación completamente refinada se hace referencia como NNr.

. . . . . .

S í,m mt<irw d ta ->S í<9.a>9,7<4,9 Í 3 4.9 ’O m edrana 7ry>3,9 7.9w<.3,7>V>■<m edia t s 1 13.5 TU! X X 4 ,4 5,1 j>JE<m ediana>- - 12.7<3 ,0>V4,5<1>JBZ<m edia * * *>9 j64.02A2,7<2,9 6 1 “ fo U jaren)1 1 m ediana>---9,0\ r2M1,72,4

Tabla 1: Resultados cuantitativos comparativos

Métricas

Debido a que la literatura existente usa métricas diferentes (referencias [7], [8], [9]), IoU<parcial>e IoU<total>, se proporcionan ambos resultados. IoU<parcial>es la intersección media sobre la unión cuando solo se considera la región visible, mientras que IoU<total>es el mismo considerando toda la plantilla.

Resultados

Los hitos cualitativos se muestran en las Figs. 4(a) y 4(b), y los resultados cuantitativos se resumen en la Tabla 1 anterior.

En la Tabla 1, para el conjunto de datos de la Copa del Mundo, el presente método funciona mejor en términos de IoU<parcial>, y es comparable a la referencia [9] en términos de IoU<total>. Sin embargo, cabe señalar que el método divulgado no requiere una búsqueda en una base de datos. Para el conjunto de datos de hockey, el método divulgado ofrece resultados casi perfectos.

Tal como se muestra en la Tabla 1, la provisión de una red (FFR) de refinamiento de alimentación directa adicional solo proporciona una mejora menor sobre la estimación inicial (SSF). Este fenómeno es más evidente en los resultados del conjunto de datos de la Copla del Mundo, donde los datos de entrenamiento son escasos. Por el contrario, la red de error puede proporcionar una reducción significativa en el error de alineamiento.

Los resultados pueden compararse también cuando se usa un error objetivo diferente para el entrenamiento de la red de error; comparando la regresión con IoU<total>, IoU<parcial>y el error de reproyección promedio de todos los píxeles en la vista actual (Repro.). Cabe señalar que la regresión a IoU<parcial>no garantiza el mejor rendimiento en términos de IoU<parcial>. En todos los casos, la regresión a IoU<total>parece proporcionar el mejor rendimiento.

Las dos variantes, NN y NNr, proporcionan información acerca de la capacidad de las redes de error. A pesar de que se entrena para estimar el error de alineamiento para un rango estrecho, NN proporciona estimaciones iniciales que son incluso comparables con la red de alimentación directa (SSF) de una sola etapa. Con la optimización (NNr), la red de estimación de error proporciona resultados de alineamiento que son incluso más precisos que una red de alimentación directa de dos etapas. Sin embargo, los mejores resultados pueden obtenerse cuando las dos redes se usan conjuntamente.

Por lo tanto, la presente solicitud divulga una canalización de dos etapas para alinear imágenes 12 con una realización ejemplar para alinear modelos de campos de deportes para difundir vídeos de manera precisa. El sistema descrito en el presente documento puede usar una inferencia basada en optimización que se basa en el aprendizaje de una función 18 de error de alineamiento (desalineación) a optimizar.

Usando dos procesos (16, 30), el método hace uso de dos componentes de aproximación de funciones, uno que proporciona una estimación inicial para la homografía de alineamiento y otro que estima el error de la homografía hipotética actual. Mediante la optimización a través de la red de error de alineamiento (es decir, medición 18 de error), se obtuvieron resultados precisos. En esta realización, se muestra mediante experimentos que el método divulgado puede entrenarse con muy pocos datos, tan solo 170 imágenes, y puede conseguirse un rendimiento de vanguardia. Esta realización ejemplar divulga el uso de una sola imagen como entrada para el método, pero son posibles varias modificaciones para hacer uso de una secuencia de imágenes en lugar de una imagen dentro de los principios descritos en el presente documento. Por ejemplo, puede incrustarse naturalmente una consistencia temporal en una secuencia de imágenes reutilizando el estado de optimización para imágenes consecutivas.

En aras de la simplicidad y la claridad de la ilustración, cuando se considera apropiado, los números de referencia pueden repetirse entre las figuras para indicar elementos correspondientes o análogos. Además, se exponen numerosos detalles específicos con el fin de proporcionar una comprensión profunda de los ejemplos descritos en el presente documento. Sin embargo, las personas expertas en la técnica entenderán que los ejemplos descritos en el presente documento pueden ponerse en práctica sin estos detalles específicos. En otros casos, los métodos, procedimientos y componentes conocidos no se han descrito en detalle para no oscurecer los ejemplos descritos en el presente documento. Además, la descripción no debe considerarse como limitativa del alcance de los ejemplos descritos en el presente documento.

Se apreciará también que cualquier módulo o componente ejemplificado en el presente documento que ejecuta instrucciones puede incluir, o si no puede tener acceso a, medios legibles por ordenador, tales como medios de almacenamiento, medios de almacenamiento informático o dispositivos de almacenamiento de datos (extraíbles y/o no extraíbles) tales como, por ejemplo, discos magnéticos, discos ópticos o cinta. Los medios de almacenamiento informático pueden incluir medios volátiles y no volátiles, extraíbles y no extraíbles implementados en cualquier método o tecnología para el almacenamiento de información, tales como instrucciones legibles por ordenador, estructuras de datos, módulos de programa u otros datos. Los ejemplos de medios de almacenamiento informático incluyen RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento óptico, casetes magnéticos, cinta magnética, almacenamiento en disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que pueda usarse para almacenar la información deseada y al que pueda accederse mediante una aplicación, un módulo o ambos. Cualquiera de dichos medios de almacenamiento informático puede ser parte del módulo 10, 100 de estimación de parámetros, cualquier componente de, o relacionado con, el módulo 10, 100 de estimación de parámetros, etc., o accesible o conectable al mismo. Cualquier aplicación o módulo descrito en el presente documento puede implementarse usando instrucciones legibles/ejecutables por ordenador que pueden almacenarse o si no pueden mantenerse en dichos medios legibles por ordenador.

Aunque los principios anteriores se han descrito con referencia a ciertos ejemplos específicos, varias modificaciones de los mismos serán evidentes para las personas expertas en la técnica, tal como se describe en las reivindicaciones adjuntas.

REFERENCIAS

[1] Mehrsan Javan Roshtkhari, Juan Camilo Gamboa Higuera, Gregory L. Dudek. Systems and Methods for Automated Camera Calibration, US20180336704A1

[2] G Peter K Carr, lain Matthews. Method And System For Determining Camera Parameters From A Long Range Gradient Based On Alignment Differences In Non-Point Image Landmarks. Patente US US13/737.627.

[3] Anastasia Tkach, Andrea Tagliasacchi, Edoardo Remelli, Mark Pauly y Andrew Fitzgibbon. Online Generative Model Personalization for Hand Tracking. ACM Transactions on Graphics, 2017.

[4] Yunfang Zhu, Shuiping Li, Xin Du. Parameter calibration method and apparatus. US20150093042A1,2014.

[5] A. Gupta, J. J. Little, R. J. Woodham. Using Line and Ellipse Features for Rectification of Broadcast Hockey Video. Computer and Robot Vision (CRV), 2011 Canadian Conference on:32-39, 2011.

[6] Jens Puwein, Remo Ziegler, Julia Vogel y Marc Pollefeys. Robust Multi-view Camera Calibration for Wide-baseline Camera Networks. En IEEE Winter Conference on Applications of Computer Vision, 2011.

[7] N. Homayounfar, S. Fidler y R. Urtasun. Sports Field Localization via Deep Structured Models. En Conference on Computer Vision and Pattern Recognition, CVPR, 2017.

[8] Rahul Anand Sharma, Bharath Bhat, Vineet Gandhi y C. V. Jawahar. Automated Top View Registration of Broadcast Football Videos. En IEEE Winter Conference on Applications of Computer Vision, 2018.

[9] Jianhui Chen y James J. Little. Sports Camera Calibration via Synthetic Data. arXiv Prepublicación, 2018.

[10] Qing Yan, Yi Xu, Xiaokang Yang y Truong Nguyen. HEASK: Robust Homography Estimation Based on Appearance Similarity and Keypoint Correspondences. Pattern Recognition, 2014.

[11] K. He, X. Zhang, S. Ren y J. Sun. Deep Residual Learning for Image Recognition. En Conference on Computer Vision and Pattern Recognition, 2016.

[12] Takeru Miyato, Toshiki Kataoka, Masanori Koyama y Yuichi Yoshida. Spectral Normalization for Generative Adversarial Networks. En International Conference on Learning Representations, 2018.

Claims

REIVINDICACIONES

1. Método para alinear imágenes de entrada con objetos de referencia para generar parámetros de salida, comprendiendo el método:

obtener una imagen de entrada y un objeto de referencia, en el que el objeto de referencia comprende una imagen de referencia o una plantilla correspondiente a un modelo de contenido en la imagen de referencia; realizar un alineamiento de la imagen de entrada mediante la estimación de los parámetros de transformación de una transformada geométrica que mapea los píxeles desde la imagen de entrada al objeto de referencia; deformar el objeto de referencia o la imagen de entrada según los parámetros de transformación estimados y medir un error de desalineación entre la imagen de entrada y el objeto de referencia usando una técnica de aproximación de funciones entrenada en base a una comparación de un error estimado con una métrica de error; actualizar de manera iterativa los parámetros de transformación para minimizar el error de desalineación; y generar un conjunto de parámetros de salida a partir de los parámetros de transformación actualizados, que comprende un conjunto de uno o más parámetros de cámara o un conjunto de parámetros de transformación geométrica.

2. Método según la reivindicación 1, en el que el alineamiento comprende calibrar un dispositivo de formación de imágenes, y en el que la transformada geométrica representa parámetros intrínsecos y extrínsecos del dispositivo de formación de imágenes.

3. Método según la reivindicación 2, en el que la imagen de entrada se recibe desde el dispositivo de formación de imágenes, y en el que una superficie plana de un objeto con una geometría conocida es observable a partir de la imagen de entrada recibida y la plantilla corresponde a una forma del objeto.

4. Método según una cualquiera de las reivindicaciones 1 a 3, en el que el ajuste de parámetros iterativo alinea dos imágenes o la imagen de entrada y la plantilla, aplica la transformación estimada a una de las imágenes y alinea la imagen transformada con la otra imagen o la plantilla mediante la estimación de la transformada geométrica.

5. Método según la reivindicación 4, en el que la operación de ajuste iterativo se repite hasta que se alcanza una condición de convergencia.

6. Método según la reivindicación 4 o la reivindicación 5, en el que el ajuste de parámetros iterativo comprende una técnica de optimización que minimiza el error de desalineación entre la imagen de entrada y el objeto de referencia.

7. Método según una cualquiera de las reivindicaciones 1 a 6 que comprende además estimar la transformada geométrica usando otra técnica de aproximación de funciones y, opcionalmente, en el que la otra técnica de aproximación de funciones comprende usar una red neuronal artificial.

8. Método según una cualquiera de las reivindicaciones 1 a 7, en el que la técnica de aproximación de funciones comprende usar una red neuronal artificial.

9. Método según la reivindicación 8, en el que la métrica de error es al menos uno de entre un error de reproyección entre uno o más puntos de anclaje en dos imágenes que están siendo alineadas, una intersección sobre la unión o una puntuación de información mutua entre las imágenes registradas después de aplicar la técnica de alineamiento.

10. Método según una cualquiera de las reivindicaciones 1 a 9, en el que el error estimado del error de desalineación es entre la imagen de entrada y el objeto de referencia.

11. Método según una cualquiera de las reivindicaciones 1 a 10, en el que la imagen muestra una parte de un campo de deportes y la plantilla comprende una forma del campo de deportes y, opcionalmente, en el que la transformada geométrica comprende una homografía entre una imagen del campo de deportes y su plantilla.

12. Método según la reivindicación 2, en el que el dispositivo de formación de imágenes comprende una cámara de difusión y la imagen de entrada se obtiene de un evento deportivo, en el que la transformada geométrica mapea cada píxel en la imagen de entrada a su ubicación correspondiente en el mundo real.

13. Medio legible por ordenador que comprende instrucciones ejecutables por ordenador para alinear imágenes de entrada con objetos de referencia para generar parámetros de salida, que comprende instrucciones para realizar el método según una cualquiera de las reivindicaciones 1 a 12.

14. Dispositivo electrónico que comprende un procesador y una memoria, en el que la memoria comprende instrucciones ejecutables por ordenador para alinear imágenes de entrada con objetos de referencia para generar parámetros de salida según una cualquiera de las reivindicaciones 1 a 12.

15. Dispositivo electrónico según la reivindicación 14, acoplado a un dispositivo de formación de imágenes o incorporado en el dispositivo de formación de imágenes.