ES2942621T3

ES2942621T3 - Construcción de modelo en una red neuronal para detección de objetos

Info

Publication number: ES2942621T3
Application number: ES17720668T
Authority: ES
Inventors: Ken Falk; Jeanette B Pedersen; Henrik Thorsgaard
Original assignee: Scopito ApS
Current assignee: Scopito ApS
Priority date: 2016-05-02
Filing date: 2017-04-25
Publication date: 2023-06-05
Anticipated expiration: 2037-04-25
Also published as: CN109313717A; WO2017190743A1; FI3452959T3; EP3452959B1; EP3452959A1; US20190156202A1; DK3452959T3

Abstract

La presente invención se refiere a un método implementado por computadora para construir un modelo en una red neuronal para la detección de objetos en una imagen sin procesar, donde la construcción se puede realizar en base a al menos un lote de entrenamiento de imágenes. El modelo se construye entrenando una o más variables de modelo colectivas en la red neuronal para clasificar los objetos anotados individuales como miembros de una clase de objeto. El modelo en combinación con el conjunto de especificaciones cuando se implementa en una red neuronal es capaz de detectar objetos en una imagen sin procesar con probabilidad de detección de objetos. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Construcción de modelo en una red neuronal para detección de objetos

Campo de la invención

La presente invención se refiere a un método implementado por computadora para construir un modelo en una red neuronal para detección de objetos en una imagen no procesada, donde la construcción se puede realizar con base en al menos un lote de entrenamiento de imágenes. El modelo se construye entrenando una o más variables de modelo colectivo en la red neuronal para clasificar los objetos anotados individuales como miembros de una clase de objeto. El modelo en combinación con el conjunto de especificaciones cuando se implementa en una red neuronal es capaz de detección de objetos en una imagen no procesada con probabilidad de detección de objetos.

Antecedentes de la invención

Los enormes potenciales de aprendizaje profundo, redes neuronales e infraestructura en la nube para realizar análisis de datos complejos de manera eficiente se hacen cada vez más evidentes a medida que crece la cantidad de datos y la demanda de tareas automatizadas se expande cada vez más.

La investigación masiva y las inversiones en todo el mundo están entrando en el aprendizaje automático y redes neuronales convolucionales profundas (CNN). Las grandes empresas e instituciones de investigación muestran soluciones del estado de la técnica en las que una sola red neuronal puede reemplazar algoritmos muy complejos que anteriormente se necesitaban desarrollar específicamente para cada caso de uso.

Las soluciones comerciales de reconocimiento de imágenes de aprendizaje automático están comenzando a aparecer en el mercado. Sin embargo, estas soluciones están utilizando modelos pre-entrenados que pueden identificar tipos de objetos comunes como personas, automóviles, perros o edificios. El problema con las CNN es que es muy complejo preparar datos y configurar las redes para obtener buenos resultados de entrenamiento. Además, se requieren PC y unidades de procesamiento de gráficos (GPU) muy potentes.

Hoy en día, la tecnología de aprendizaje automático compleja todavía se realiza y accede por personas altamente calificadas para construir modelos pre-entrenados. Por ejemplo, se requiere un alto nivel de ciencias de la computación y competencias de aprendizaje profundo para anotar, entrenar y configurar redes neuronales para detectar objetos personalizados con alta precisión. En general, los modelos pre-entrenados solo encuentran uso dentro del campo estrecho del que se entrena.

Uno de los principales problemas es que las implementaciones de modelos pre-entrenados hoy en día se realizan sobre datos de entrenamiento estandarizados. Estos datos de entrenamiento estandarizados están limitados tanto en el tamaño como en los campos de aplicación y, por lo tanto, presentan un problema en términos de expandir el entrenamiento para desarrollar modelos pre-entrenados para otras aplicaciones. Se han hecho intentos, especialmente por investigadores en el campo de las redes neuronales, de convertir las redes neuronales a nuevos dominios, sin embargo, a menudo utilizan muy pocas imágenes, debido a la tarea muy lenta de anotar datos.

En general, las implementaciones de modelos pre-entrenados hoy en día son una tarea que consume mucho tiempo de entrenamiento y construcción de modelos y existe una necesidad de conocimiento especializado. La configuración de las redes neuronales requiere un especialista, en tanto que la anotación de datos lleva mucho tiempo y puede llevar semanas o más.

Como ejemplo de una tecnología de aprendizaje automático, se puede mencionar WO 2016/020391. WO 2016/020391 divulga un método para entrenar un clasificador. El clasificador se utiliza en un método para el análisis automatizado de imágenes biológicas en el campo de histología.

El método se basa en analizar la imagen usando un dispositivo de análisis de imágenes biológicas que se programa para realizar una función de clasificador. La clasificación se realiza al combinar una característica de objeto con una característica de contexto asociada con la característica de objeto. Las características de objeto pueden incluir el tamaño, forma e intensidad promedio de todos los píxeles dentro del objeto y la característica de contexto es una característica de un grupo de objetos o píxeles. En histología, la presencia, extensión, tamaño, forma y otras apariencias morfológicas de estas estructuras son indicadores importantes para la presencia o gravedad de la enfermedad que motiva la necesidad de una identificación precisa de objetos específicos. Por lo tanto, el método divulgado tiene como objetivo lograr un alto nivel de especificidad de los objetos.

Para implementar el método, se utilizan SVM. Las SVM son modelos de aprendizaje supervisados con algoritmos de aprendizaje asociados que analizan datos y reconocen patrones, utilizados para clasificación y análisis de regresión. Dado un conjunto de imágenes digitales de entrenamiento con manchas de píxeles, cada una marcada para pertenecer a una de dos categorías, un algoritmo de entrenamiento SVM construye un modelo que asigna nuevos ejemplos en una categoría u otra, lo que lo convierte en un clasificador binario no probabilístico. Un modelo SVM es una representación de los ejemplos como puntos en el espacio, mapeados de modo que los ejemplos de las clases separadas se dividen por una brecha clara que es lo más amplia posible. Nuevos ejemplos se mapean en ese mismo espacio y se predice que pertenecen a una categoría basada en el lado de la brecha en la que caen.

El método para entrenar el clasificador divulgado en el documento WO 2016/020391 se basa en un marco de tres factores donde se utiliza un conjunto de entrenamiento de imágenes digitales de entrenamiento. Las imágenes se analizan para calcular valores de características de contexto de entrenamiento y determinar valores de características de una característica de objeto particular. El clasificador se entrena en una única característica de objeto y una o más características de contexto.

Durante la fase de entrenamiento, el clasificador construye un modelo que especifica inexplicablemente la relación entre la característica de objeto y una o más de las características de contexto. En un ejemplo, se usó un conjunto de datos de entrenamiento que consistía en un total de 210 imágenes de campo de visión (FOV) donde las células tumorales negativas y los linfocitos se anotaron manualmente como los datos de entrenamiento. Los datos de entrenamiento se introdujeron en un clasificador SVM lineal no entrenado. El ejemplo mostró que las características de contexto tienen un mayor poder descriptivo que la característica de objeto sola.

El documento 2014/0254923 divulga un método implementado por computadora para clasificar objetos en una imagen. El método divulgado no se basa en características de contexto como lo hace el documento WO 2016/020391, sino en la detección de objetos individuales. El método utiliza una descripción vectorial, con el fin de tener en cuenta la rotación y modificación de escala, y los objetos en imágenes se clasifican mediante un proceso de clasificación de objetos entrenado. Sin embargo, el proceso de clasificación de objetos se entrena mediante el uso de un conjunto de datos de entrenamiento conocido de imágenes con contenidos conocidos.

Otro ejemplo en el que se usan SVM se divulga en el documento "LSUN: Construcción de un conjunto de datos de imagen a gran escala usando aprendizaje profundo con humanos en el bucle" por Fisher Yu et al., que divulga la construcción de un conjunto de datos de imagen a gran escala usando un método que incluye anotación humana. El método divulgado es comparable al aprendizaje activo. Sin embargo, el método no tiene como objetivo aprender un modelo, sino que tiene como objetivo usar modelos pre-entrenados existentes para construir un conjunto de datos de imágenes anotadas a gran escala que se puede usar para entrenar un modelo y verificar un modelo entrenado. La red neuronal pre-entrenada es una red neuronal disponible en el mercado, Alexnet. El modelo pre-entrenado comprende características pre-entrenadas que se utilizan para agrupar inicialmente las imágenes comprendidas en el conjunto de datos de imagen. En los pasos posteriores, se refinan la clasificación de objetos y los límites que definen la clasificación de objetos y la distinción de o brecha entre las clasificaciones. La anotación humana en un número de imágenes se usa para entrenar varios modelos SVM para lograr una amplificación del esfuerzo humano preliminar de anotación y, por lo tanto, el refinamiento de la clasificación.

Para aprovechar realmente los enormes potenciales de la tecnología de aprendizaje automático y las redes neuronales para realizar análisis de datos complejos de manera eficiente, se necesitan soluciones para procedimientos simplificados. Soluciones, que incluyen modelos genéricos pre-entrenados para que se utilicen en una amplia gama de inspecciones de estructuras e infraestructura, soluciones, que permiten a personas no técnicas entrenar modelos en CNN y usar estos modelos construidos para analizar sus datos, y soluciones, que aprovechan las fortalezas de la infraestructura en la nube y las CNN para crear una única solución escalable que puede funcionar en muchos dominios de inspección diferentes.

Al mismo tiempo, la grabación de imágenes se ha vuelto fácil a una escala y calidad sin precedentes. La grabación o recopilación también se puede realizar por vehículos aéreos no tripulados tal como drones. Las recopilaciones de imágenes de una inspección de dron incluyen una gran cantidad de datos y han demostrado introducir problemas de precisión al entrenar o aplicar redes neuronales para el reconocimiento de imágenes.

Objeto de la invención

Es un objetivo superar una o más de las deficiencias anteriormente mencionadas de la técnica anterior.

Descripción de la invención

La invención se logra mediante un método implementado por computadora para construir un modelo en una red neuronal para detección de objetos en una imagen no procesada de acuerdo con la reivindicación 1, donde la construcción se puede realizar con base en al menos un lote de entrenamiento de imágenes. El método comprende un acto de proporcionar una red neuronal configurada con un conjunto de especificaciones, un acto de establecer al menos un lote de entrenamiento de imágenes, cuyo lote comprende al menos una imagen de entrenamiento que comprende uno o más objetos donde un objeto individual es un miembro de una clase de objeto, y un acto de proporcionar una interfaz gráfica de usuario (GUI) configurada para mostrar una imagen de entrenamiento del lote de entrenamiento de imágenes. Además, el método comprende un acto de realizar iterativamente los siguientes actos: un acto de anotar objetos en la imagen de entrenamiento mediante la interacción de usuario que genera objetos anotados individualmente, otro acto de asociar una anotación con una clase de objeto para el objeto anotado en la imagen de entrenamiento mediante la interacción de usuario. Otro acto de devolver un conjunto de datos de entrenamiento de imágenes anotados por usuario que comprende la imagen de entrenamiento con objeto(s) anotado(s), cada objeto anotado individual asociado con una clase de objeto. Y aún otro acto de construcción de un modelo entrenando una o más variables de modelo colectivo en la red neuronal para clasificar los objetos anotados individuales como miembros de una clase de objeto. El modelo en combinación con el conjunto de especificaciones cuando se implementa en una red neuronal es capaz de detección de objetos en una imagen no procesada con probabilidad de detección de objetos.

La red neuronal puede ser una red neuronal convolucional (CNN), red neuronal regional (R-NN), red neuronal convolucional regional (R-CNN), R-CNN rápida, CNN completamente segmentada o cualquier estructura similar. La red neuronal se puede implementar en diferentes marcos, como ejemplos, pero no se limitan a estos, se pueden mencionar marcos comerciales tal como Tensorflow, Theano, Caffe o Torch.

Las especificaciones de la red neuronal pueden incluir, por ejemplo, especificaciones sobre tipos de datos, velocidad de aprendizaje, tamaño de paso, número de iteraciones, memento, número y estructuras de capas, configuraciones de capa tal como funciones de activación (relu, sigmoide, tanh), agrupación, número de capas convolucionales, tamaño de filtros convolucionales, número de capas completamente conectadas, tamaño de capas completamente conectadas, número de salidas (clases de salida) y funciones de clasificación. Además, las especificaciones pueden incluir información sobre la profundidad de la red y estructuras para la configuración de la red neuronal. La red neuronal se puede configurar con especificaciones diferentes o adicionales y, por lo tanto, no se limita de ninguna manera a los ejemplos mencionados. La amplia gama de especificaciones a menudo se puede reutilizar y muchas redes neuronales ya están configuradas con un conjunto de especificaciones, como ejemplos disponibles se pueden mencionar Alexnet o VGG comercialmente disponibles, que especifican un intervalo de las especificaciones mencionadas anteriormente. Un experto en la técnica sabrá cómo usar redes neuronales ya establecidas configuradas con un conjunto de especificaciones, adaptar o configurar las especificaciones de redes neuronales ya establecidas o incluso puede configurar una red neuronal con un conjunto de especificaciones.

La imagen puede hacer referencia a cualquier representación multidimensional de puntos de datos registrados por un sensor, ortomosaicos u otra representación multidimensional de puntos de datos. Esto puede incluir, por ejemplo, imágenes de radar, imágenes de barrido de un microscopio electrónico o un escáner MR, imágenes ópticas, imágenes térmicas, nube de puntos, registro de datos acústicos o registros sísmicos. Esto es solo unos pocos ejemplos de imágenes y, por lo tanto, el alcance de la invención no se limita de ninguna manera a los ejemplos mencionados.

Los actos realizados de forma iterativa solo se pueden realizar si la imagen proporciona el acto específico. En caso de que el lote de entrenamiento de imágenes comprenda una imagen de entrenamiento en blanco o una imagen de entrenamiento que no comprenda objetos relevantes para anotar, se pueden omitir los actos relacionados con anotar un objeto.

La detección de objetos en una imagen comprende tanto el reconocimiento de objetos como la localización del objeto. El reconocimiento de objetos también se puede percibir como clasificación de objetos.

La detección de objetos se puede usar, por ejemplo, para mapear o inspeccionar infraestructura donde la detección de objetos puede ser objetos de imagen reales, cambios de temperatura en imágenes térmicas o escalas de frecuencia específicas en imágenes acústicas. La detección de objetos puede comprender, por ejemplo, objetos que se producen en común, objetos que se producen rara vez o una combinación. De nuevo, se debe mencionar que estos son solo un número limitado de ejemplos, y el alcance de la invención no se limita de ninguna manera a estos.

La probabilidad de detección de objetos se refiere a la posibilidad de detección de objetos en una imagen por parte de la red y la posibilidad de que ese objeto pertenezca a una clase de objeto, mientras que la precisión se refiere a la precisión de la red al determinar un objeto y una clase de objeto donde las predicciones de la red se prueban en un lote de verificación de imágenes.

En un aspecto, la precisión de la detección de objetos puede describir la circunstancia de que el usuario establezca un umbral en el programa. Si el objeto marcado está por encima de este umbral, la red neuronal sugerirá que esta clase de objeto se asocie con el objeto marcado.

Un efecto de la realización es que los datos utilizados para entrenar las variables de modelo colectivo en la red neuronal, para modelos de construcción para clasificar los objetos anotados individuales como miembros de una clase de objeto, solo comprenden un lote de datos de imagen de entrenamiento, anotación de objetos relevantes y clases de objeto asociadas. Por lo tanto, la preparación de datos proporcionada no requiere un alto nivel de ciencias de la computación y competencias de aprendizaje profundo, lo que tiene la ventaja de que el entrenamiento se puede realizar por personas no calificadas dentro de las ciencias de la computación y el aprendizaje profundo. Las personas que realizan el entrenamiento solo necesitan las habilidades para reconocer objetos relevantes en las imágenes.

Otro efecto de la realización es que el entrenamiento se puede realizar en una amplia gama de objetos con la ventaja de que las variables de modelo colectivo se pueden entrenar para construir modelos para una amplia gama de detección de objetos. Por lo tanto, esta realización es ventajosa con respecto a la construcción de modelos para la detección de objetos para el trabajo en muchos dominios de inspección diferentes. Además, es ventajoso con respecto a la construcción de modelos para la detección de objetos con un alto grado de invariancia, por ejemplo, para delinear específicamente los objetos, tamaño, escala, rotación, color o similares. La invariancia puede abarcar una serie de características y no se limita de ninguna manera a los ejemplos mencionados en la presente.

Por lo tanto, de acuerdo con lo anterior, el entrenamiento puede abarcar un modelo para detección de uno o más objetos o múltiples modelos, cada modelo construido para detección de uno o más objetos.

Aún otro efecto de la realización es que el entrenamiento se puede realizar para detección de objetos con una precisión dada. La ventaja es que el entrenamiento se puede completar con una precisión de detección de objetos evaluada para que sea suficiente para la tarea dada, limitando así el esfuerzo y tiempo de entrenamiento al mínimo. Esto también puede ser ventajoso con respecto al hecho de que el nivel de entrenamiento puede estar acostumbrado a la complejidad de la detección de objetos.

Un efecto adicional de la realización es que el entrenamiento se puede realizar usando un lote de entrenamiento de imágenes, que comprende imágenes de entrenamiento con múltiples objetos, donde cada objeto individual pertenece a diferentes clases de objetos. Una ventaja de esto puede ser que se pueden construir múltiples modelos para clases de objetos individuales en un proceso de entrenamiento, limitando así el esfuerzo y el tiempo de entrenamiento al mínimo. Los múltiples modelos se pueden usar, por ejemplo, como un modelo integral para la detección de múltiples objetos en una amplia gama de inspecciones de estructuras e infraestructura, o se puede separar un solo modelo para una detección de objetos más enfocada en una sola estructura en inspecciones de infraestructura muy específicas.

Aún un efecto adicional de la realización es que el entrenamiento se puede realizar por múltiples usuarios en múltiples lotes de entrenamiento de imágenes, o en un lote de entrenamiento de imágenes con la ventaja de aprovechar las fortalezas de la infraestructura en la nube y las CNN para construir un modelo con esfuerzo de entrenamiento limitado y consumo de tiempo para cada usuario.

En caso de entrenamiento con varios usuarios, puede ser preferible incorporar el historial en las interacciones de usuario y designar diferentes niveles de usuario, donde el nivel de usuario está asociado con una jerocracia para la anotación de objetos y la clasificación de objetos.

El efecto de múltiples usuarios puede ser que el entrenamiento se pueda dividir en más usuarios. Además, más usuarios pueden proporcionar un lote de entrenamiento de imágenes más diverso, si cada usuario contribuye con imágenes diferentes. Además, se puede establecer un lote de entrenamiento de imágenes más completo si más usuarios contribuyen con sus propias imágenes. Esto puede ser ventajoso con respecto a un consumo de tiempo reducido para el usuario individual, una precisión mejorada de detección de objetos y, por lo tanto, la construcción de modelos más precisos.

Un objeto de la invención se puede lograr mediante el método implementado por computadora que comprende un acto adicional de realizar iterativamente los siguientes actos, donde un acto comprende mostrar una imagen de entrenamiento que comprende uno o más objetos marcados por máquina asociados con una clasificación realizada por máquina del uno o más objetos individuales, otro acto comprende cambiar el marcado de objetos de máquina, la clasificación de objetos de máquina o ambos, y aún otro acto comprende evaluar el nivel de entrenamiento de las variables de modelo colectivo para terminar el entrenamiento del modelo.

La anotación se utiliza en relación con una acción realizada por la interacción de usuario a través de la interfaz gráfica de usuario, en tanto que el marcado se utiliza en relación con una acción realizada por la red neuronal basada en el modelo construido.

Un efecto de esta realización puede ser que las variables de modelo colectivo se entrenan continuamente en los actos iterativos realizados y que el modelo construido se mejora en consecuencia después de cada iteración realizada. Esto es ventajoso con respecto a evaluar continuamente el nivel de entrenamiento de tal manera que el entrenamiento se puede terminar una vez que se alcanza una precisión apropiada de detección de objetos, limitando así el esfuerzo de entrenamiento y el consumo de tiempo de entrenamiento excesivo.

El entrenamiento iterativo puede tener el efecto adicional de que las marcas correctas realizadas simplemente se pueden aceptar y, por lo tanto, se deben realizar cada vez menos anotaciones a medida que avanza el entrenamiento. A medida que avanza el entrenamiento, las anotaciones se pueden limitar a realizarse en imágenes con nueva información, diferentes puntos de vista u objetos dentro de la misma clase pero con características no vistas en las imágenes anteriores. Por lo tanto, el entrenamiento iterativo puede presentar la ventaja de que el tiempo consumido para el entrenamiento se reduce por factores de tiempo.

Otro efecto de la realización puede ser que el marcado de objetos y la clasificación de objetos se pueden cambiar para corregir el entrenamiento de las variables de modelo colectivo. Esto puede ser ventajoso con respecto a ajustar continuamente el entrenamiento.

El modelo también puede incluir variables colectivas para la parte o partes de las imágenes que no comprenden objetos, que se pueden denominar fondo. Por lo tanto, el acto iterativo de anotar puede incluir anotar secciones del fondo y asociar esta o estas anotaciones con una clase de objeto aplicable, por ejemplo, "fondo", "otro", "no aplicable", "no objeto" u otras clases con nombre creativo. La anotación del fondo puede comprender pequeñas secciones del fondo de imagen, una imagen completa o la parte restante de la imagen que rodea otros objetos anotados. El efecto de anotar las secciones que comprenden el fondo y clasificar esto es establecer la segregación entre el fondo y otros objetos, los objetos relevantes que se van a detectar. Es importante obtener una amplia diversidad en las secciones anotadas del fondo para mejorar la precisión de segregación entre el fondo y otros objetos y, por lo tanto, la probabilidad y precisión de la detección de objetos.

Con base en los experimentos realizados, los mejores resultados se obtienen anotando pequeñas secciones del fondo de imagen en combinación con la anotación de imágenes completas sin ningún objeto relevante. Sin embargo, todos los métodos descritos anteriormente, solos o en combinación, todavía pueden ser aplicables con buenos resultados.

Un objeto de la invención se logra por el método implementado por computadora donde los actos de anotar, asociar y devolver se realizan iterativamente antes de realizar posteriormente el acto de construir.

Un efecto de esta realización puede ser que la interacción de usuario se puede realizar en un sublote de imágenes de entrenamiento sin esperar a que se realice el acto de construcción entre cada imagen. Al posponer el acto de construcción y recopilar el acto de construcción para todo el sublote, el usuario puede obtener las ventajas de un esfuerzo de trabajo concentrado en el sublote y el tiempo consecutivo para realizar otras tareas en tanto que se realiza el acto de construcción.

El método implementado por computadora de la invención comprende un acto adicional de realizar un aumento inteligente.

El aumento de datos es el arte de cambiar la imagen de un objeto sin cambiar la clase de objeto, independientemente de la localización en la imagen. Esto significa que es el mismo objeto sin importar si el objeto es más claro o más oscuro que antes, si está girado o no, si está volteado o no, por mencionar algunos ejemplos. Una práctica común, para reducir el número de datos de entrenamiento requeridos para entrenar una o más variables de modelo colectivo en la red neuronal, es adaptar el presente conjunto de entrenamiento de imágenes para simular diferentes imágenes. Esto significa que una imagen de un objeto se puede expandir a múltiples imágenes del mismo objeto, pero se pueden obtener imágenes con diferentes variaciones: el número de nuevas imágenes puede ser de hasta 500 o más. Por aumento inteligente se entiende que solo se consideran los cambios relevantes en una imagen de un objeto. Por lo tanto, el propósito del aumento inteligente es utilizar el aumento de datos de manera inteligente para reducir la complejidad de la red neuronal. Por ejemplo, si una rotación de un objeto fotografiado nunca se produce en imágenes reales, ocupará complejidad en la red neuronal y puede que nunca se use. Esto significa que algunos factores de ponderación se reservarán para esta información y, por lo tanto, no se pueden utilizar para otra cosa que pueda ser más relevante, lo que puede costar la precisión.

Por lo tanto, el aumento inteligente incorporado en esta realización proporciona el procesamiento de la imagen para una mejor precisión de detección de objetos. Este procesamiento puede incluir modificación de escala de las imágenes, rotación de las imágenes con base en anotaciones y asociación de anotaciones y clases de objetos. La anotación se puede realizar en objetos de diferentes tamaños o se puede mostrar en diferentes ángulos, que es exactamente lo que se puede usar en el aumento inteligente para una detección de objetos más precisa.

Un objeto de la invención se puede lograr por el método implementado por computadora que comprende un acto adicional de establecer al menos un lote de verificación de imágenes.

Establecer un lote de verificación de imágenes puede tener el efecto de evaluar la precisión del modelo construido. El lote de verificación de imágenes no se utiliza para entrenamiento, sino solo para probar el modelo construido. Esto puede ser ventajoso al comparar un nivel de entrenamiento alcanzado previamente con un modelo posterior construido después de un entrenamiento adicional.

Además, a partir del lote de verificación y la precisión con la que se realiza la detección de objetos, la precisión se puede utilizar en sí misma para establecer si el modelo tiene la precisión suficiente. De este modo, es posible evaluar si el modelo se debe cambiar, se deben proporcionar más datos de entrenamiento o se puede alcanzar la precisión utilizando un modelo más simple. La ventaja de usar, por ejemplo, un modelo más simple es que se requiere menos memoria y, por lo tanto, se puede requerir menos espacio en disco y menos datos de entrenamiento.

Un objeto se puede lograr por el método implementado por computadora que comprende un acto adicional de evaluar el modelo construido o el uso de las especificaciones de red neuronal para reducir la complejidad del modelo, reducir las especificaciones o ambos.

Un efecto de esto puede ser que se puede utilizar un modelo más simple o una red neuronal más simple para entrenar las variables de modelo colectivo. Esto puede ser ventajoso con respecto a un tiempo de procesamiento reducido. Otra ventaja puede ser que se puede reducir la capacidad de PC requerida. Otra ventaja más puede ser que se pueden usar unidades de procesamiento gráfico (GPU) menos potentes. Esto inicia el uso de elementos de hardware más económicos y, por lo tanto, reduce los costos de entrenamiento o reconocimiento de objetos, o ambos.

Como se mencionó anteriormente, la ventaja de usar, por ejemplo, un modelo más simple es que se requiere menos memoria y, por lo tanto, se puede requerir menos espacio en disco y menos datos de entrenamiento.

Un objeto de la invención se puede lograr por el método implementado por computadora que comprende un acto adicional de evaluar la precisión de la detección de objetos para reducir el lote de entrenamiento de imágenes.

El efecto de reducir el lote de entrenamiento de imágenes es que el esfuerzo de entrenamiento y el tiempo dedicado por el usuario se pueden reducir, lo que resulta en costos reducidos para el entrenamiento.

En otro aspecto, el lote de entrenamiento de imágenes se puede reducir omitiendo imágenes desordenadas, agitadas o borrosas. Incluir estas imágenes puede dañar el entrenamiento con una precisión reducida como resultado. Alternativamente, los objetos relevantes en estas imágenes se pueden podar y, por lo tanto, aún se pueden usar en el lote de entrenamiento de imágenes, lo que puede tener la ventaja de ampliar el reconocimiento de objetos e incrementar así la precisión de detección de objetos.

Un objeto de la invención se puede lograr por el método implementado por computadora donde la anotación de un objeto se realiza por una selección de área de la imagen de entrenamiento que comprende el objeto o segmentación de píxeles del objeto.

Un efecto de esta realización es que se puede usar la práctica común de anotar objetos con la ventaja de facilitar que el método implementado por computadora se pueda implementar en una amplia gama de redes neuronales.

Un objeto de la invención se puede lograr por el método implementado por computadora donde la anotación de un objeto se realiza mediante el uso de una herramienta de anotación implementada por computadora configurada con una función de acercamiento. La herramienta de anotación implementada por computadora se configura para proporcionar una interfaz de selección de área para la selección de área de un objeto en la imagen de entrenamiento mediante la interacción de usuario, cuya selección de área es ajustable, configurada para proporcionar una interfaz de segmentación de píxeles para la segmentación de píxeles de un objeto en la imagen de entrenamiento mediante la interacción de usuario, cuya segmentación de píxeles se configurada para presegmentar píxeles al agrupar píxeles similares a una pequeña selección de píxeles elegidos mediante la interacción de usuario, o configurada para ambos. Además, la herramienta de anotación se configura para transformar la anotación de la segmentación de píxeles de un objeto en la selección de área del objeto en la imagen de entrenamiento.

La función de acercamiento tiene el efecto de que se pueden realizar anotaciones más precisas que comprenden un mínimo de fondo con la ventaja de la detección precisa de objetos.

La selección de área ajustable proporciona el mismo efecto y ventaja que la función de acercamiento.

Un efecto del hecho de que la segmentación de píxeles en esta realización está configurada para presegmentar píxeles es que solo se puede elegir una pequeña selección de píxeles por interacción de usuario, después de lo cual la herramienta de anotación implementada por computadora presegmenta píxeles al agrupar píxeles similares a la pequeña selección de píxeles elegida por interacción de usuario. Por lo tanto, cada píxel comprendido en el objeto no se tiene que seleccionar por el usuario, lo que puede ser un proceso tedioso y poco preciso.

Otro efecto de la realización, ya que la herramienta de anotación se configura para transformar la anotación de segmentación de píxeles de un objeto en selección de área del objeto en la imagen de entrenamiento es que la anotación se puede guardar en otros formatos de redes neuronales y, por lo tanto, se puede usar independientemente del formato o tipo de las redes neuronales.

Un objeto de la invención se puede lograr por el método implementado por computadora donde la herramienta de anotación implementada por computadora proporciona además una anotación de superposición de colores, cuyo color se asocia con una clasificación de objetos y cuya clasificación de objetos se asocia con la anotación, proporciona una reclasificación de uno o más objetos anotados individuales, objetos marcados de máquina o una combinación de ambos. Además, la herramienta de anotación se configura para mostrar todas las anotaciones y marcas de máquina asociadas con una clase de objeto en una o más imágenes de entrenamiento.

Un efecto de esta realización es que las clases asociadas se identifican fácilmente debido a la superposición de color. Típicamente, habrá varios tipos de clases de objetos en la misma imagen, lo que es especialmente ventajoso para identificar fácilmente la clase asociada diferente y, por lo tanto, identificar anotaciones o clasificaciones erróneas. La realización tiene el efecto adicional de que las anotaciones o clasificaciones erróneas se pueden corregir inmediatamente.

Otro efecto de esta realización es que cuando se muestran todas las anotaciones, marcas y clases de objetos asociados, se proporciona una fácil corrección de errores con la ventaja de optimizar el entrenamiento.

Un objeto de la invención se puede lograr por el método implementado por computadora donde la herramienta de anotación implementada por computadora proporciona además un historial de la anotación realizada.

En caso de entrenamiento con varios usuarios, esta realización puede tener el efecto de que las anotaciones realizadas por los super-usuarios no se pueden sobrescribir por usuarios menos experimentados, lo que puede ser ventajoso con respecto a lograr un alto nivel de entrenamiento. Un efecto adicional es que el usuario puede ver su propio historial de anotaciones, lo que puede ser ventajoso con respecto a la mejora de sus propias habilidades.

Otro efecto de esto puede ser que el historial comprende información relevante sobre si un objeto está originalmente anotado por un humano o si está originalmente marcado por la red neuronal. Incluso si se acepta la anotación o marcado, puede haber problemas con la precisión de los bordes. El usuario podría estar inclinado a aceptar un resultado impreciso pero correcto de la red neuronal en comparación con si el usuario tuviera que hacer la anotación. Esto puede presentar inexactitudes en el entrenamiento si no se corrige. Por lo tanto, para un usuario experimentado, esto se puede descubrir al consultar el historial sobre las anotaciones/marcas y se puede corregir para restaurar o mejorar la precisión en el entrenamiento.

En un aspecto, la herramienta de anotación implementada por computadora puede comprender una función para rotar una marca o una anotación. La marca rotada o una anotación proporciona la selección de objetos que están inclinados, sin obtener demasiado fondo. De este modo, se logran marcas/anotaciones con un mejor ajuste para la selección para que el entrenamiento sea más preciso.

En otro aspecto, la herramienta de anotación implementada por computadora puede comprender una función para mover una selección de área a un nuevo objeto y, por lo tanto, evitar volver a dibujar el cuadro de anotación si el nuevo objeto tiene las mismas propiedades.

En aun otro aspecto, la herramienta de anotación implementada por computadora puede comprender una función para repetir una selección de área. Si aparecen varios objetos en una imagen, esta función puede repetir la selección de área al siguiente objeto, evitando así volver a dibujar el cuadro de anotación si el siguiente objeto tiene las mismas propiedades.

En aun otro aspecto, la herramienta de anotación implementada por computadora puede comprender una función de una clave para guardar la imagen que incluye anotación y clases de objeto y cuya función proporciona identificadores únicos para el conjunto de datos de imagen que se va a guardar. De este modo se evita sobrescribir los datos existentes y se reduce el consumo de tiempo. Además, el usuario no tiene que recordar la secuencia de nombres ya que la función puede realizar un seguimiento de estos.

Un objeto de la invención se puede lograr por el método implementado por computadora donde la navegación en el lote de entrenamiento de imágenes se realiza utilizando una herramienta de navegación implementada por computadora que proporciona navegación por gestión de imágenes y proporciona el estado en la progresión de la evaluación del lote de entrenamiento de imágenes.

Un efecto de esta realización puede ser que el usuario se puede motivar al seguir el progreso, con la ventaja de mantener al usuario alerta y, por lo tanto, evitar anotaciones erróneas o clases de objetos incorrectas asociadas con las anotaciones.

Otro efecto puede ser que el usuario puede obtener una mejor visión general del lote de entrenamiento de imágenes y puede hojear las imágenes de entrenamiento, enfocándose así solo en imágenes con objetos relevantes. Esto puede tener la ventaja de mantener al usuario alerta para evitar errores y además limitar el esfuerzo de entrenamiento y el consumo de tiempo proporcionado por el usuario para el entrenamiento.

Un objeto de la invención se puede lograr por un método implementado por computadora en una red neuronal para detección de objetos en una imagen no procesada con probabilidad de detección de objetos. El método comprende un acto de proporcionar un modelo construido a una red neuronal configurada con un conjunto de especificaciones, un acto de establecer al menos un lote de imágenes no procesadas, cuyo lote comprende al menos una imagen no procesada para ser objeto de detección de objetos, un acto de proporcionar una interfaz gráfica de usuario (GUI) configurada para mostrar una o más imágenes no procesadas con un conjunto de objetos marcados, cada objeto marcado individual asociado con una clase de objeto, un acto de realizar la detección de objetos en una imagen no procesada y un acto de devolver la imagen no procesada con un conjunto de objetos marcados, cada objeto marcado individual asociado con una clase de objeto.

Un efecto de esta realización es que el enorme potencial de la tecnología de aprendizaje automático y las redes neuronales para realizar análisis de datos complejos de manera eficiente se puede utilizar por personas no calificadas dentro de las ciencias de la computación. Esto es ventajoso con respecto a permitir que personas no calificadas dentro de las ciencias de la computación utilicen modelos construidos en redes neuronales para analizar sus datos, lo que puede proporcionar un tiempo y costo reducidos. La reducción en costo y tiempo puede ser tanto con respecto a los requisitos de hardware como en mano de obra.

Un objeto de la invención se puede lograr mediante un método implementado por computadora en una red neuronal para detección de objetos que comprende un acto adicional de proporcionar acceso a una red neuronal para entrenar aún más una o más variables de modelo colectivo del modelo, de modo que el modelo se somete a una precisión mejorada de detección de objetos.

Un efecto de esta realización es que el modelo se puede mejorar o actualizar continuamente. Esto es ventajoso si aparecen objetos con nuevas características en las marcas, cuyos objetos pertenecen a una clase de objeto ya existente. En este caso, el modelo se puede entrenar para incluir este objeto sin entrenar un nuevo modelo.

Ejemplos de casos de usuario:

Caso 1:

Un usuario ha realizado una inspección que da como resultado 1000 imágenes y le gustaría configurar un nuevo modelo para detectar una clase de objeto, en este caso aislantes. Por lo tanto, el conjunto de entrenamiento de imágenes comprende 1000 imágenes.

El usuario selecciona una red neuronal existente que comprende un conjunto de especificaciones. Entonces, el usuario especifica el número relevante de clases de objetos, en este caso dos clases: aislantes y fondo. Además, el usuario especifica que la anotación se realiza mediante segmentación de píxeles.

El usuario luego examina las primeras 10 imágenes de entrenamiento y elige una pequeña selección de píxeles donde después de la herramienta de anotación a través de la presegmentación de píxeles en la imagen realiza la segmentación de píxeles completa.

Después de anotar las primeras 10 imágenes, se realiza el primer proceso de entrenamiento de las variables de modelo colectivo y se construye un modelo. El modelo puede entonces dar marcas sugeridas para las 990 imágenes restantes.

El usuario examina las siguientes 40 imágenes. En 30 imágenes, los objetos están marcados correctamente y, por lo tanto, el usuario los acepta sin cambiar las marcas o las clasificaciones. En 10 imágenes, los objetos no están marcados correctamente, por lo que se corrigen.

Ahora, se realiza un segundo proceso de entrenamiento de las variables de modelo colectivo y se construye un modelo actualizado. El modelo se mejora mediante el segundo proceso y con una precisión mejorada de detección de objetos.

A medida que se mejora el modelo, el usuario examina las siguientes 100 imágenes. Esta vez, solo 10 de las imágenes comprenden marcas incorrectas. Las marcas en las otras 90 imágenes son correctas y aceptadas.

Aceptar una imagen es un clic de un botón y el programa pasa automáticamente a la siguiente imagen. A medida que el usuario alcanza el número de imagen 500, esta imagen y las siguientes 100 imágenes no comprenden ningún objeto relevante (aislantes) para este caso. El usuario va a la vista en miniatura de navegación donde se resalta la imagen actual y se desplaza a través de las siguientes 100 imágenes hasta la imagen núm. 600, la siguiente imagen en la que aparecen nuevamente los aislantes. Entonces, el usuario elige esta imagen a través de la interfaz de usuario haciendo clic en esa imagen, después de lo cual el usuario continúa aceptando o corrigiendo las marcas.

Entremedio, el usuario se puede detener opcionalmente para entrenar el modelo de modo que las marcas mejoren iterativamente. El usuario se puede detener después de completar las 1000 imágenes, se construye un modelo actualizado, para este caso el modelo de "primera versión".

Antes de continuar, el usuario ahora inicia un nuevo entrenamiento en las mismas 1000 imágenes a partir del modelo de "primera versión" construido. Esta vez el entrenamiento se realiza con un mayor número de iteraciones. Esto extiende el tiempo de entrenamiento, pero se hace para mejorar la precisión del modelo. Después de completar las 1000 imágenes, se construye el modelo actualizado adicional, para este caso el modelo de "segunda versión".

Un segundo usuario también está interesado en los aislantes, pero quiere distinguir entre los aislantes de vidrio y los aislantes de cerámica. Por lo tanto, el usuario especifica dos nuevas clases: “Aislante, vidrio" y "Aislante, cerámica".

El segundo usuario se beneficia del hecho de que ya se ha utilizado un lote grande de entrenamiento de imágenes para construir un modelo para detección de objetos en aislantes. El segundo usuario carga ahora el conjunto de entrenamiento anotado previamente y en la vista en miniatura el usuario puede ver ahora todas las marcas de aislantes. Para cada aislante, el segundo usuario puede ahora, a través de la interfaz de usuario, simplemente hacer clic en cada marca y cambiar la clase de objeto a cualquiera de las dos clases recién especificadas. El segundo usuario no tiene que hacer el marcado de nuevo, y además no tiene que mirar a través de las imágenes sin aislantes. El segundo usuario ahora puede terminar el entrenamiento al construir el nuevo modelo actualizado, para este caso el modelo de "tercera versión".

Un tercer usuario solo quiere saber si un aislante está comprendido en un lote de imágenes no procesadas o no. Este usuario no está interesado en saber exactamente qué imagen de píxeles contiene el aislante. Este usuario especifica que se va a utilizar la selección de área. Este usuario, al igual que el segundo usuario, se beneficia del hecho de que ya se ha utilizado un lote grande de entrenamiento de imágenes para construir un modelo de "primera versión" para detección de objetos en aislantes. Además, este usuario, de nuevo al igual que el segundo usuario, ahora carga el conjunto de entrenamiento previamente anotado y la red neuronal convierte los aislantes segmentados por píxeles en aislantes seleccionados por área utilizando un aumento inteligente de datos para este tipo de red neuronal. El tercer usuario ahora puede terminar el entrenamiento construyendo otro modelo actualizado nuevo, para este caso el modelo de "cuarta versión".

Un objetivo se puede lograr mediante el uso de un método implementado por computadora para construir un modelo en una red neuronal como se describe y donde las imágenes se recopilan mediante el uso de un vehículo aéreo tal como un dron.

En particular, se pueden utilizar vehículos aéreos no tripulados, tal como drones, para la inspección de áreas o infraestructura. Los drones han demostrado ser una herramienta valiosa que lleva dispositivos de grabación de imágenes a lugares no accesibles hasta ahora. Del mismo modo, los drones han demostrado ser capaces de posicionar dispositivos de grabación de imágenes en un intervalo de ángulos, distancias, etc. de los sujetos. Además, los drones han demostrado ser capaces de rastrear rutas de estructuras o infraestructura y de ser capaces de recopilar grandes cantidades de imágenes durante la operación.

En la práctica, los operadores e inspectores de drones intentarán recopilar tantas imágenes como sea posible durante un vuelo que a menudo se planifica en detalle y se debe realizar teniendo en cuenta el tiempo de vuelo limitado.

Por lo tanto, un lote de imágenes de un vuelo de dron comprende una gran cantidad de imágenes a menudo de diferentes ángulos, o ligeramente diferentes, de un sujeto o sujetos a menudo similares de diferentes ubicaciones a lo largo de una ruta de vuelo. Otro problema con este serie o recopilación de imágenes es que la inspección con drones da como resultado imágenes tomadas desde una perspectiva hasta ahora no vista por inspección humana.

El método divulgado ha demostrado superar los problemas con el entrenamiento o construcción de modelos y permitir la gestión de los grandes datos recopilados.

Asimismo, un método implementado por computadora en una red neuronal para detección de objetos como se describe y donde se obtiene una imagen no procesada o un lote de imágenes de un vuelo de dron ha demostrado ser más preciso que hasta ahora.

Aspectos adicionales del caso 1:

Los usuarios pueden elegir que el 20% de las imágenes se reserven para un lote de verificación de imágenes y, por lo tanto, el 80% restante de las imágenes comprende el lote de entrenamiento de imágenes. El lote de verificación de imágenes se puede usar para probar la precisión del modelo construido.

Mediante el entrenamiento de las variables de modelo colectivo y a medida que se construyen los modelos intermedios, se puede probar la precisión de un modelo intermedio mediante el uso del lote de verificación. De este modo, la precisión del modelo se puede poner a disposición del usuario. Además, la red neuronal puede sugerir si el modelo se debe mejorar aún más o si se pueden hacer simplificaciones al entrenamiento.

Como un entrenamiento adicional tanto del modelo de "tercera versión" como del de "cuarta versión", el segundo y el tercer usuario respectivos pueden añadir y anotar nuevas imágenes con aislantes fotografiados. Estos aislantes fotografiados podrían ser aislantes previamente conocidos o una nueva clase desconocida para el sistema.

Caso 2:

Un usuario carga un mapa de imágenes satelitales de Groenlandia. El usuario marca los osos polares x número de veces. El sistema ahora puede detectar ubicaciones de osos polares y el número total de osos polares.

Caso 3:

Un usuario añade una o más imágenes térmicas de tuberías de calentamiento central para un área determinada. El usuario especifica 5 clases, cada una de las cuales representa la gravedad de una fuga. Después de marcar estas clases, el sistema ahora puede identificar fugas con un grado de severidad de 1-5. En este caso, la invención se utiliza para detección de objetos en los que las clases de objetos consisten en clases de fallas.

Caso 4:

Siempre que se completa el entrenamiento de las variables de modelo colectivo y, por lo tanto, se completa un modelo construido, la red neuronal evalúa si el modelo completado se debe poner a disposición de otros usuarios. Los criterios de evaluación podrían ser, por ejemplo, clasificación de usuarios, precisión de modelo y número de imágenes en el lote de verificación, por lo que el número de imágenes que se utilizan para determinar la precisión.

Descripción de los dibujos

La figura 1 ilustra una realización del método implementado por computadora para construir un modelo en una red neuronal para detección de objetos en una imagen no procesada.

La figura 2 ilustra una realización de construcción de un modelo en una red neuronal para detección de objetos en una imagen no procesada.

La figura 3 ilustra una realización del método implementado por computadora para construir un modelo en una red neuronal para detección de objetos en una imagen no procesada.

La figura 4 ilustra una realización del método implementado por computadora para construir un modelo en una red neuronal para detección de objetos en una imagen no procesada.

La figura 5 ilustra una realización del método implementado por computadora para construir un modelo en una red neuronal para detección de objetos en una imagen no procesada.

La figura 6 ilustra una imagen de entrenamiento.

La figura 7 ilustra segmentación de área (7A) y segmentación de píxeles (7B y 7C).

La figura 8 ilustra una realización de la herramienta de anotación implementada por computadora.

La figura 9 ilustra una realización de aumento de datos inteligente.

La figura 10 ilustra una realización de la herramienta de navegación implementada por computadora.

La figura 11 ilustra una realización del método implementado por computadora en una red neuronal para detección de objetos en una imagen no procesada.

Descripción detallada de la invención

La figura 1 ilustra una realización del método implementado por computadora (100) para construir (102) un modelo (20) en una red neuronal (10) para detección de objetos (40) en una imagen no procesada (50). El método comprende los actos de proporcionar (104) una red neuronal (10) y una GUI (80). Además, se establece un lote de entrenamiento de imágenes (60) que comprende imágenes de entrenamiento (66) (106) en esta realización. La red neuronal (10) se configura con un conjunto de especificaciones (12). Estas especificaciones pueden comprender, entre otras, información sobre el número de capas y variables de modelo colectivo. La GUI (80) se puede configurar para mostrar una imagen de entrenamiento (66) y para mostrar interacciones de usuario (82) tal como objetos anotados y clases de objetos.

El método implementado por computadora (100) comprende además actos que se pueden realizar iterativamente (108). Estos actos incluyen anotar (110) objetos (70) en las imágenes de entrenamiento (66) y asociar (112) cada anotación con una clase de objeto (90). Los actos de anotar (110) y asociar (112) se pueden realizar en cualquier orden preferido, de modo que se pueda anotar un objeto después de lo cual se asocia una clase de objeto con la anotación de objeto, o se puede asociar un objeto con una clase de objeto después de lo cual se anota el objeto. Los actos realizados de manera iterativa ilustrados adicionalmente en la realización incluyen devolver (114) un conjunto de datos de entrenamiento de imágenes anotados por usuario, conjunto de datos de entrenamiento que comprende la imagen de entrenamiento y el objeto anotado con una clase de objeto asociada si hay objetos relevantes presentes en la imagen y construir (102) uno o más modelos.

Las líneas discontinuas ilustran que el acto de anotación (110) y asociación (112) se puede intercambiar, como ya se describió. Además, la línea discontinua ilustra que los actos se pueden realizar en un proceso iterativo, donde la construcción de modelo recibe una entrada adicional para cada iteración realizada. La realización puede comprender solo una única iteración de actos y, por lo tanto, cada acto solo se puede realizar una vez. Además, cada iteración puede comprender solo algunos de los actos. Por ejemplo, si no hay objetos relevantes presentes en la imagen, no se realizará ningún acto de anotar (110) y asociar (112) de la clase de objeto.

Después de completar el lote de entrenamiento de imágenes (60), se construye un modelo entrenado (20) (102).

La figura 2 ilustra una realización de construcción de un modelo (20) en una red neuronal (10) para detección de objetos en una imagen no procesada. Una imagen de entrenamiento (66) se puede describir en un conjunto de datos de imagen (18), ilustrado aquí por triángulos, cruces y círculos. El conjunto de datos de imagen se interpreta por las variables de modelo colectivo en la red neuronal (10). La imagen de entrenamiento (66) puede comprender una anotación (24) y, por lo tanto, parte del conjunto de datos de imagen se puede interpretar como datos anotados. El modelo construido (20) comprende las variables de modelo colectivo entrenadas (16) resultantes del proceso de interpretación de conjuntos de datos de imagen por las variables de modelo colectivo (14) en la red neuronal (10).

El modelo construido (20) comprende además el conjunto de especificaciones (12) con el que se configura la red neuronal (10).

La figura 3 ilustra una realización de un método implementado por computadora (100) para construir (102) un modelo (20) en una red neuronal (10) para detección de objetos en una imagen no procesada. La realización ilustrada comprende un método de acuerdo con la figura 1 pero con actos adicionales. Las líneas de puntos se refieren a actos ya descritos en la figura 1. La realización ilustra los actos adicionales que se pueden realizar después de que se construye un modelo (102) y, por lo tanto, la flecha de puntos que apunta al acto de construir (102) un modelo es donde los actos iterativos realizados continúan a partir de los actos ilustrados en la figura 1.

El modelo se puede construir sobre la base de una única imagen de entrenamiento (66). Por lo tanto, una vez que se construye un modelo (102), el método implementado por computadora (100) puede comprender los siguientes actos descritos que se pueden realizar iterativamente junto con los actos realizados iterativamente descritos en la figura 1 de anotar (110), asociar (112) y devolver (114).

Estos actos pueden comprender mostrar una imagen de entrenamiento (66) del lote de entrenamiento de imágenes (60), cuya imagen de entrenamiento puede comprender un objeto marcado por máquina (74) y la clasificación de objetos asociada (94) realizada usando el modelo construido. Si el marcado o clasificación de máquina o ambos son incorrectos, esto se puede tener que corregir y, por lo tanto, un acto de cambiar (130) el marcado, clasificación de objetos, o ambos, se puede realizar por la interacción de usuario. Si no se realiza ningún cambio (130), se puede realizar un acto de evaluación (124) del nivel de entrenamiento. Si no se realizan cambios (130) y además no se encuentran objetos relevantes sin marcar, sin clasificar o ambos, el nivel de entrenamiento se puede evaluar (124) como suficiente y el entrenamiento se puede terminar con el modelo construido (102) como resultado.

La figura 4 ilustra una realización del método implementado por computadora (100) para construir (102) un modelo (20) en una red neuronal (10) para detección de objetos (40) en una imagen no procesada (50).

De acuerdo con la realización ilustrada en la figura 1, el método comprende los actos de proporcionar (104) una red neuronal (10) y una GUI (80). Además, se establece un lote de entrenamiento de imágenes (60) que comprende imágenes de entrenamiento (60) en esta realización. La red neuronal (10) se configura con un conjunto de especificaciones (12). Estas especificaciones pueden comprender, entre otras, información sobre el número de capas y variables de modelo colectivo. La GUI (80) se puede configurar para mostrar una imagen de entrenamiento (66) y para mostrar interacciones de usuario (82) tal como objetos anotados y clases de objetos.

El método implementado por computadora (100) comprende además actos que se pueden realizar iterativamente (108). Estos actos incluyen anotar (110) objetos (70) en las imágenes de entrenamiento (66) y asociar (112) cada anotación con una clase de objeto (90). Los actos de anotar (110) y asociar (112) se pueden realizar en cualquier orden preferido, de modo que se pueda anotar un objeto después de lo cual se asocia una clase de objeto con la anotación de objeto, o se puede asociar un objeto con una clase de objeto después de lo cual se anota el objeto. Los actos realizados de forma iterativa incluyen además devolver (114) un conjunto de datos de entrenamiento de imágenes anotados por usuario, conjunto de datos de entrenamiento que comprende la imagen de entrenamiento y el objeto anotado con clases de objeto asociadas si están presentes objetos relevantes en la imagen.

Esta realización difiere de la realización en la figura 1 ya que los actos de anotar (110), asociar (112) y devolver (114) se pueden realizar (108) iterativamente antes de realizar (108) posteriormente el acto de construir (102).

Una realización alternativa del método ilustrado puede comprender que se realicen dos procesos iterativos. Un proceso iterativo interno que comprende los actos de anotar (110), asociar (112) y devolver (114) se puede realizar (108) iterativamente antes de realizar posteriormente (108) un proceso iterativo externo donde se realiza el acto adicional de construir (102).

La figura 5 ilustra otra realización de un método implementado por computadora (100) para construir un modelo (20) en una red neuronal para detección de objetos en una imagen no procesada. El método comprende los actos de proporcionar (104) una red neuronal (10) y una g Ui (80) no ilustrada. Además, se establece un lote de entrenamiento de imágenes (60) que comprende imágenes de entrenamiento (66) (106) en esta realización. En esta realización, la anotación (110) de objetos se realiza en un primer sublote del lote de entrenamiento de imágenes (60). Con base en las imágenes anotadas, las variables de modelo colectivo se entrenan (116) en la red neuronal para construir un modelo (20). Posteriormente se establece un segundo sublote del lote de entrenamiento de imágenes restante (106) y se utiliza el modelo construido para marcar (122) objetos en el segundo sublote. Después del marcado realizado por máquina (122), estas marcas se evalúan (124) por la interacción de usuario. Esta evaluación del segundo sublote puede conducir a un cambio (130) del marcado de máquina, una anotación adicional (110) de objetos o ambos. Dependiendo de si la evaluación (124) del marcado de máquina da razones para cambiar (130) las marcas de objeto o anotar (110) objetos adicionales, las variables de modelo colectivo se pueden entrenar adicionalmente (116) confirmando que la marca de objeto (122) es correcta o mediante cambios realizados y/o anotaciones adicionales.

Si se evalúa el modelo para entrenarlo adicionalmente, se puede establecer un tercer sublote de imágenes y se puede realizar otra iteración, comenzando con marcar (122) objetos utilizando el modelo construido actualizado.

Si las variables de modelo colectivo se evalúan como que están suficientemente entrenadas, el método se puede terminar (126) y las variables de modelo colectivo entrenadas (16) comprenden el modelo construido (20) para uso posterior en una red neuronal para detección de objetos en una imagen no procesada.

En la figura 6 se ilustra una imagen de entrenamiento (66) en la que se anotan diferentes objetos (70) (24) y se asocian con una clase de objeto (90). Los objetos (70) se anotan (24) usando la selección de área (28). El ejemplo en la imagen de entrenamiento se refiere a sistemas de cables de alto voltaje. Los objetos anotados son dos absorbentes de vibraciones y dos aislantes. Los cuatro objetos (70) se anotan individualmente (24) y se asocian con una clase de objeto (90). Otros objetos que podrían ser relevantes en otras conexiones podrían ser, por ejemplo, los cables o el mástil, que luego se deberían haber anotado (24) como objetos y asociados con una clase de objeto (90).

La figura 7 ilustra dos enfoques diferentes para anotación de objetos: selección de área (28) y segmentación de píxeles (26). Para las realizaciones ilustradas, se utiliza un aislante como el objeto para fines de ejemplo. La herramienta de anotación implementada por computadora proporciona ambos tipos de anotación y se puede usar en ambos casos. Sin embargo, también se pueden usar otras herramientas de anotación apropiadas.

En la figura 7A se ilustra la selección de área (28). La selección de área se realiza simplemente enmarcando el objeto, como se ilustra por la línea discontinua. La segmentación de píxeles (26) se ilustra en las figuras 7B y 7C. La segmentación de píxeles (26) se realiza eligiendo los píxeles que constituyen el objeto fotografiado o una pequeña selección de los píxeles que constituyen una pequeña parte del objeto fotografiado. A partir de los píxeles seleccionados, la herramienta de anotación ubica los límites del objeto. Por lo tanto, el objeto se anota por los límites ubicados como se ilustra en la figura 7C por las áreas con patrones.

En la figura 8 se ilustra una realización de la anotación (24) que usa la herramienta de anotación implementada por computadora (160). La anotación se puede usar posteriormente para un aumento inteligente (140). En la figura 8A, un objeto (70) en la imagen de entrenamiento (66) se anota (24) usando selección de área. El objeto de ejemplo es un absorbente de vibraciones. En la figura 8B se utiliza selección de área rotada. La selección de área rotada se puede usar posteriormente para el aumento inteligente como se ilustra en la figura 9. La anotación rotada en la figura 8B puede proporcionar una clasificación de objetos más precisa.

La figura 9 ilustra una realización de aumento de datos inteligente. En la figura 9A el objeto se anota usando selección de área y en la figura 9B se usa segmentación de píxeles para anotar el objeto. En ambos casos se realiza un aumento inteligente (140) extrayendo información de las dimensiones y por rotación del objeto. En la realización ilustrada se extrae un ancho, longitud y rotación del objeto. La información relativa de las dimensiones y rotación se puede utilizar para modificar la escala de las imágenes para una detección de objetos más precisa. Además, esto se puede usar cuando se convierte de segmentación de píxeles a anotación o marcado seleccionado por área.

En la figura 10 se ilustra una realización de la herramienta de navegación implementada por computadora. La ilustración muestra la herramienta de navegación gráfica como se muestra en la GUI (80). La GUI (80) se puede dividir en varias secciones: Una sección, donde la imagen de entrenamiento actual (66) con anotaciones (24) se muestra y se proporciona con navegación hacia adelante y hacia atrás (30) entre las imágenes de entrenamiento (66), otra sección, ilustrada por debajo de la imagen de entrenamiento (66), puede mostrar el estado (194) en la progresión (196) de la evaluación del lote de entrenamiento de imágenes. El estado puede mostrar cuántas de las imágenes de entrenamiento (66) de la anotación de lote de entrenamiento de imágenes y la clasificación de objetos se han realizado. El estado se puede mostrar en porcentaje, como el número de imágenes actual versus la cantidad total de imágenes, o en otras mediciones apropiadas. Aún otra sección puede mostrar dos filas de imágenes que comprenden el lote de entrenamiento de imágenes (60), donde una fila muestra imágenes de entrenamiento anteriores en las que se han realizado la anotación (24) y clasificación, por lo tanto, esta fila muestra el historial de anotaciones. La otra fila puede mostrar las imágenes de entrenamiento posteriores, que aún no se han sometido a anotación (24) y clasificación de objetos. Ambas filas se pueden proporcionar con navegación hacia adelante y hacia atrás (30) entre las imágenes de entrenamiento (66). Cada fila se puede mostrar sola o junta.

La figura 11 ilustra una realización del método implementado por computadora (200) en una red neuronal (10) para detección de objetos en una imagen no procesada (50) con probabilidad de detección de objetos. El método comprende los actos de proporcionar (104) una red neuronal (10) configurada con un conjunto de especificaciones (12) y una interfaz gráfica de usuario (GUI) (80). Además, un acto de establecer (106) al menos un lote de imágenes no procesadas (52) está comprendido en el método.

El lote de imágenes no procesadas (52) puede comprender al menos una imagen no procesada (50) para que se someta a detección de objetos. La red neuronal (10) está provista de un modelo construido (20) con variables de modelo colectivo entrenadas y la GUI (80) se configurada para mostrar una o más imágenes no procesadas (50) con un conjunto de objetos marcados (74) y clases de objetos asociadas (90).

En lo sucesivo, el método comprende las acciones adicionales de realizar (108) detección de objetos en una imagen no procesada y devolver (114) la imagen no procesada (50) con un conjunto de objetos marcados (74) y objetos clasificados por máquina (94).

Claims

REIVINDICACIONES

1. Un método implementado por computadora (100) para construir (102) un modelo (20) en una red neuronal (10) para detección de objetos (40) en una imagen no procesada (50), la construcción (102) que se realiza con base en al menos un lote de entrenamiento de imágenes (60), el método que comprende actos de:

- Proporcionar (104) una red neuronal (10) configurada con un conjunto de especificaciones (12);

- Establecer (106) al menos un lote de entrenamiento de imágenes (60), cuyo lote (60) comprende al menos una imagen de entrenamiento (66) que comprende uno o más objetos (70) donde un objeto individual (70) es un miembro de una clase de objeto (90);

- Proporcionar (104) una interfaz gráfica de usuario (GUI) (80) configurada para mostrar una imagen de entrenamiento (66) del lote de entrenamiento de imágenes (60); y

- Realizar iterativamente (108) los siguientes actos:

0 Anotar (110) objetos (70) en la imagen de entrenamiento (66) mediante interacción de usuario (82) generando objetos anotados individualmente (72);

⁰Asociar (112) una anotación (24) con una clase de objeto (90) para el objeto anotado (72) en la imagen de entrenamiento (66) mediante la interacción de usuario (82);

⁰Devolver (114) un conjunto de datos de entrenamiento de imágenes anotados por usuario (62) que comprende la imagen de entrenamiento (66) con objetos anotados (72), cada objeto anotado individual (72) asociado con una clase de objeto (90); y

⁰Construir (102) un modelo (20) al entrenar (116) una o más variables de modelo colectivo (14) en la red neuronal (10) para clasificar (118) los objetos anotados individuales (72) como un miembro de una clase de objeto (90),

cuyo modelo (20) en combinación con el conjunto de especificaciones (12) cuando se implementa en una red neuronal (10) es capaz de detección de objetos (40) en una imagen no procesada (50) con una cierta probabilidad (42) de detección de objetos (40), caracterizado porque el método comprende un acto adicional de realizar un aumento inteligente (140), el aumento inteligente (140) comprende actos de procesar múltiples objetos anotados (72) en una imagen de entrenamiento (66) y otorgar a cada objeto anotado aumentado (72) resultante una ponderación para una cierta probabilidad de aparición.

2. Un método implementado por computadora (100) de acuerdo con la reivindicación 1, que comprende un acto adicional de realizar iterativamente (108) los siguientes actos:

⁰Visualizar (120) una imagen de entrenamiento (66) que comprende uno o más objetos marcados por máquina (74) asociados con una clasificación realizada por máquina (94) del uno o más objetos individuales (70);

⁰Cambiar (130) la marca de objeto de máquina (122), la clasificación de objeto de máquina (118) o ambas; y

⁰Evaluar (124) el nivel de entrenamiento (116) de las variables de modelo colectivo (14) para terminar (126) el entrenamiento (116) del modelo (20).

3. Un método implementado por computadora (100) de acuerdo con cualquiera de las reivindicaciones anteriores, donde los actos de anotar (110), asociar (112) y devolver (114) se realizan (108) iterativamente antes de realizar (108) posteriormente el acto de construir (102).

4. Un método implementado por computadora (100) de acuerdo con cualquiera de las reivindicaciones anteriores que comprende un acto adicional de establecer (106) al menos un lote de verificación de imágenes (68) para probar el modelo construido (20) con un modelo construido posterior (20) construido después de entrenamiento adicional al comparar la certeza de probabilidad (42) de detección de objetos (40) alcanzada con los dos modelos construidos (20).

5. Un método implementado por computadora (100) de acuerdo con cualquiera de las reivindicaciones anteriores que comprende un acto adicional de usar una precisión (43) mediante la cual se realiza detección de objetos (40) para evaluar (124) la precisión (43) del modelo construido (20) de detección de objetos (40) y para evaluar el uso de un lote de entrenamiento de imágenes reducido (128) (60).

6. Un método implementado por computadora (100) de acuerdo con cualquiera de las reivindicaciones anteriores, donde la anotación (110) de un objeto (70) se realiza mediante una selección de área (28) de la imagen de entrenamiento (66) que comprende el objeto (70) o segmentación de píxeles (26) del objeto (70).

7. Un método implementado por computadora (100) de acuerdo con cualquiera de las reivindicaciones anteriores, donde la anotación (110) de un objeto (70) se realiza utilizando una herramienta de anotación implementada por computadora (160) configurada con una función de acercamiento (162) para:

- Proporcionar (104) una interfaz de selección de área (164) para selección de área (28) de un objeto (70) en la imagen de entrenamiento (66) mediante interacción de usuario (82), cuya selección de área (28) es ajustable (166);

- Proporcionar (104) una interfaz de segmentación de píxeles (168) para segmentación de píxeles (26) de un objeto (70) en la imagen de entrenamiento (66) mediante interacción de usuario (82), cuya segmentación de píxeles (26) se configura para presegmentar (170) píxeles (172) al agrupar píxeles (172) similares a una pequeña selección de píxeles (172) elegidos mediante interacción de usuario (82); o

- ambos,

cuya herramienta de anotación (160) se configura para transformar la anotación (24) de segmentación de píxeles (26) de un objeto (70) en selección de área (28) del objeto (70) en la imagen de entrenamiento (66).

8. Un método implementado por computadora (100) de acuerdo con la reivindicación 7, donde la herramienta de anotación implementada por computadora (160) proporciona además:

- anotación de superposición de colores (174), cuyo color se asocia con una clasificación de objeto (90) y cuya clasificación de objeto (90) se asocia con la anotación (24);

- reclasificación (96) de uno o más objetos anotados individuales (72), objetos marcados por máquina (74) o una combinación de ambos; o

- ambos,

cuya herramienta de anotación (160) se configura para mostrar todas las anotaciones (24) y marcas de máquina (22) asociadas con una clase de objeto (90) en una o más imágenes de entrenamiento (66).

9. Un método implementado por computadora (100) de acuerdo con la reivindicación 7 o 8, donde la herramienta de anotación implementada por computadora (160) proporciona además un historial (180) de la anotación realizada (24).

10. Un método implementado por computadora (100) de acuerdo con cualquiera de las reivindicaciones anteriores, donde la navegación (30) en el lote de entrenamiento de imágenes (60) se realiza utilizando una herramienta de navegación implementada por computadora (190) que proporciona:

- navegación (30) por gestión de imágenes (192); y

- estado (194) en la progresión (196) de la evaluación del lote de entrenamiento de imágenes (60).

11. Un método implementado por computadora (200) en una red neuronal (10) para detección de objetos (40) en una imagen no procesada (50) con una cierta probabilidad (42) de detección de objetos (40) que comprende actos de:

- Proporcionar (104) un modelo construido (20) de acuerdo con el método de cualquiera de las reivindicaciones 1-10 a una red neuronal (10) configurada con un conjunto de especificaciones (12);

- Establecer (106) al menos un lote de imágenes no procesadas (52), cuyo lote (52) comprende al menos una imagen no procesada (50) para que se someta a detección de objetos (40);

- Proporcionar (104) una interfaz gráfica de usuario (GUI) (80) configurada para mostrar una o más imágenes no procesadas (50) con un conjunto de objetos marcados (74), cada objeto marcado individual (74) asociado con una clase de objeto (90);

- Realizar (108) detección de objetos (40) en una imagen no procesada (50); y

- Devolver (114) la imagen no procesada (50) con un conjunto de objetos marcados (74), cada objeto marcado individual (74) asociado con una clase de objeto (90).

12. Un método implementado por computadora (200) de acuerdo con la reivindicación 11 que comprende un acto adicional de proporcionar (104) acceso a una red neuronal (10) para entrenamiento adicional (116) de una o más variables de modelo colectivo (14) del modelo (20), de modo que el modelo (20) se somete a una precisión mejorada (43) de detección de objetos (40).

13. El uso de un método implementado por computadora (100) para construir (102) un modelo (20) en una red neuronal (10) de acuerdo con cualquiera de las reivindicaciones 1 a 10 o un método implementado por computadora (200) en una red neuronal (10) para detección de objetos (40) de acuerdo con la reivindicación 11 o 12, donde al menos un lote de entrenamiento de imágenes (60) o una imagen no procesada (50) se recopila mediante el uso de un vehículo aéreo tal como un dron.