ES2947935T3

ES2947935T3 - Método de formación de imágenes de la pared lateral de un neumático

Info

Publication number: ES2947935T3
Application number: ES20702345T
Authority: ES
Inventors: Syed Wajahat Ali Shah Kazmi; Ian Thomas Nabney; George Vogiatzis; Alexander Paul Codd
Original assignee: Wheelright Ltd
Current assignee: Wheelright Ltd
Priority date: 2019-01-23
Filing date: 2020-01-20
Publication date: 2023-08-24
Anticipated expiration: 2040-01-20
Also published as: AU2020211766A1; PL3915042T3; JP2022517471A; CN112740223A; GB201900915D0; EP3915042B1; US20220058417A1; AU2020211766B2; ZA202104551B; JP7198922B2; GB2580675A; EP3915042C0; EP3915042A1; KR20210114383A; US11922683B2; WO2020152440A1; CA3110975A1; BR112021014182A2

Abstract

Se proporciona un método implementado por computadora para generar una región de interés en una imagen digital de un flanco de un neumático, teniendo el flanco una o más marcas en relieve y/o grabadas. El método comprende generar un histograma de mapa de características de gradientes orientados de la imagen digital, ingresar el histograma de mapa de características de gradientes orientados en una red neuronal convolucional entrenada, en donde dicha red neuronal convolucional entrenada está configurada para generar una primera probabilidad basada en el histograma de entrada de mapa de características de gradientes orientados que una región de píxeles de la imagen digital contiene las marcas en relieve y/o grabadas, y si la primera probabilidad está en o por encima de un primer umbral predeterminado, aceptar dicha región de píxeles como dicha región de interés. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Método de formación de imágenes de la pared lateral de un neumático

Campo técnico

La presente invención se refiere al campo técnico del reconocimiento de patrones - visión artificial y a un método para leer marcas en relieve y/o grabadas en una pared lateral de un neumático, y más particularmente a un método implementado por ordenador para generar una región de interés.

Antecedentes

La cara exterior de los neumáticos de los vehículos, conocida como la pared lateral del neumático, lleva un código basado en texto. El código lleva información sobre, por ejemplo, la marca del neumático, planta de fabricación, antigüedad, tipo de neumático, carga prevista, índice de velocidad y tamaño, información de lote de fabricación, detalles del fabricante y otra información de producto. El código puede comprender, por ejemplo, una mezcla de una o más letras, números, logotipos, símbolos, pictogramas, y/o cualquier otra representación visual de información. Para los usuarios de vehículos, especialmente los operadores de flotas, esta información es crítica ya que proporciona una forma consistente y fiable de rastrear el uso y la condición del neumático a través de una flota de vehículos, mejorando de esta manera en gran medida la capacidad del operador de la flota para llevar a cabo análisis de datos sobre el stock de neumáticos de la flota y detectar cuándo los neumáticos desarrollan un fallo y/o comienzan a fallar.

Ha habido intentos de automatizar el proceso de lectura de la pared lateral de un neumático, sin embargo, tales sistemas son sistemas basados en escáneres 3D para su uso en tareas de inspección controladas y en interiores (disponibles a partir de MicroEpsilon, Cognex y Numetrix) o dispositivos láser de mano para aplicaciones tanto en interiores como en exteriores. Tales sistemas son costosos de fabricar debido a los componentes de luz láser estructurados, difíciles de calibrar, propensos a romperse y/o aún requieren la asistencia de un operador humano, por lo que no se puede decir que sean verdaderamente automatizados y rentables.

La aplicación de reconocimiento óptico de caracteres (OCR) en imágenes tomadas sin luz estructurada reduciría significativamente los costes de hardware. Sin embargo, debido a que el uso de neumáticos en exteriores provoca el desgaste del texto de la pared lateral (por ejemplo, debido a la erosión del material, polvo, sequedad y/o humedad), y debido a que el texto tiene un contraste muy bajo (negro sobre negro) que en ocasiones es difícil de descifrar incluso para los observadores humanos, mucho menos para un sistema automatizado, los intentos anteriores basados en OCR de imagen en color o en escala de grises no han tenido éxito.

Un desafío en la producción de un sistema de este tipo es que es deseablemente lo suficientemente rápido para leer tanto el texto en un neumático de vehículo en movimiento cuando pasa por el sistema como en un neumático estacionario cuando el campo de visión del sistema se mueve sobre el neumático. También es deseable que pueda compensar las condiciones variables (por ejemplo, diferentes condiciones climáticas en exteriores y/o condiciones de polvo/suciedad en interiores de un depósito de flota) y producir resultados precisos y reproducibles sin la ayuda de un operador humano.

En el documento WO2017060739 A1 se propone un sistema de formación de imágenes que proporciona imágenes de contraste mejoradas. En particular, para leer texto en relieve o grabado, tal como el código de la pared lateral de un neumático, la iluminación es importante porque el contraste y, por lo tanto, la legibilidad del texto, se pueden mejorar mediante la proyección de sombras. Si bien el documento WO2017060739 A1 propone usar software de análisis de imágenes para realizar OCR en tales imágenes para leer marcas en relieve, las técnicas de OCR convencionales, como se describe en el documento WO2017060739 A1, no funcionan bien porque son demasiado lentas y/o tienen poca precisión en configuraciones no ideales que no son de laboratorio.

Wahdan (en el artículo "Tire type Recognition through Treads Pattern Recognition and Dot Code OCR", Ubiquitous Computing and Communication Journal, 9(3),1481 -1488, 2015, XP055682499) desveló una técnica para detectar la región del código de DOT en las paredes laterales de los neumáticos usando la coincidencia de plantillas y propuso leerlo con OCR. Sin embargo, Wahdan no logró obtener suficientes muestras de imágenes reales de áreas de DOT.

Los desarrollos recientes en la clasificación de imágenes basadas en el aprendizaje profundo y el reconocimiento de texto han llevado a las redes neuronales convolucionales profundas (CNN) a la cima de las tablas de rendimiento para el reconocimiento de texto de conjuntos de datos de referencia, de modo que casi todos los resultados mejor clasificados en el procesamiento de imágenes ahora usan el aprendizaje profundo en lugar de características elaboradas a mano. Sin embargo, las redes neuronales convolucionales profundas que ocupan un lugar destacado en las tablas de rendimiento están ajustadas para funcionar bien en conjuntos de datos de referencia que no incluyen datos de imágenes de neumáticos. De hecho, no se deduce que dichas redes vayan a tener éxito cuando se usan en datos tales como imágenes de neumáticos obtenidas de cámaras en el campo. Tales redes profundas se han usado para detectar y leer texto en la naturaleza (es decir, en entornos de alto ruido), pero en estos casos los datos usados han mostrado un grado razonable de contraste y diferencia de color entre el texto que se lee y el fondo de la imagen.

Por lo tanto, se requiere un sistema y un método mejorados para reconocer el texto en la pared lateral de un neumático.

Declaración de la invención

En términos generales, la invención se refiere a un método para identificar de manera más precisa y eficiente regiones de interés en imágenes que tienen un contraste bajo y una diferencia de color baja, tales como imágenes de las paredes laterales de los neumáticos. El método combina la técnica de histograma de gradientes orientados (HOG) con capas de redes neuronales convolucionales para mejorar la eficiencia y la precisión en comparación con las técnicas conocidas, a pesar del bajo contraste y la diferencia de color.

Identificando regiones de interés con bajo contraste, imágenes de baja diferencia de color con mayor precisión y eficiencia, los fallos tales como rasgaduras cerca de las marcas en relieve y/o grabadas del neumático que de otro modo se habrían pasado por alto pueden identificarse más fácilmente, asociarse con un neumático específico, y rastrearse, proporcionando de esta manera el efecto de mejorar la seguridad de los neumáticos. Adicionalmente, se puede actualizar una base de datos central de información de identificación de neumáticos y fallos de neumáticos asociados y/o información de seguridad. A continuación, se puede usar para determinar cuándo es necesario reparar o reemplazar un neumático.

Más particularmente, la invención se refiere a un método para generar una región de interés asociada con una secuencia de caracteres especificada por el usuario en la pared lateral de un neumático en donde se genera un HOG de la imagen de entrada para obtener un mapa de las características del HOG que se usa como entrada a una red neuronal convolucional que clasifica las características de HOG para determinar si la secuencia de caracteres especificada por el usuario está presente o no. En una realización, las características de HOG se pueden generar externamente y por separado a la red neuronal convolucional usando, por ejemplo, uno de los dos métodos proporcionados por la biblioteca de código abierto VLFeat (DalalTriggs y UoCTTI). En otra realización, se pueden generar usando una aproximación de HOG implementada por CNN tal como la descrita en Mahendran y Vedaldi (2015), Understanding Deep Image Representations by Inverting Them, IEEE Conference on Computer Vision and Pattern Recognition, IEEE Compt. Soc. Este artículo indica que la generación de características de HOG usando una CNN es numéricamente indistinguible del enfoque de generación de características de HOG proporcionado por la biblioteca de código abierto VLFeat, excepto que también permite el cálculo de derivados de características de HOG, lo que reduce ventajosamente la complejidad de cualquier operación de procesamiento posterior. Se usan en el presente documento las expresiones características de HOG y HOG para significar aquellas generadas usando un enfoque tal como el proporcionado por la biblioteca de código abierto VLFeat y/o el enfoque de CNN tal como el establecido en Mahendran y Vedaldi (2015) y los otros artículos a los que se hace referencia en el mismo.

Adicionalmente, los siguientes términos como se usan en el presente documento, tienen las siguientes definiciones:

"datos sintéticos/generados sintéticamente" - datos generados usando un algoritmo y usados para aumentar el volumen total de datos disponibles para el entrenamiento, por ejemplo, cuando únicamente están disponibles datos limitados de otras fuentes;

"detección de neumáticos" - identificar qué píxeles en una imagen de un neumático corresponden al neumático y qué píxeles corresponden al fondo, tal como un tapacubos o la carrocería del vehículo;

"deformación" - mapeo de una imagen de una pared lateral de neumático curvo a una imagen donde se ha retirado o enderezado la curva;

"pila de filtros convolucionales" - una cascada de operaciones de procesamiento de imágenes que incluyen filtros convolucionales, formando juntos una o parte de una red neuronal convolucional;

"capas convolucionales completamente conectadas" - un filtro convolucional cuyo tamaño de máscara en altura, anchura y el número de canales es el mismo que el tamaño del mapa de características en la capa anterior. Produce el mismo tamaño de salida del mapa de características que haría una capa completamente conectada.

Breve descripción de los dibujos

La Figura 1 ilustra un método de cinco etapas de acuerdo con una realización.

La Figura 2 muestra un esquema de deformación en el que se indican los radios interior y exterior de un neumático.

La Figura 3 es un diagrama de flujo de un método generador de propuesta/región de interés de acuerdo con una realización.

La Figura 4 es un diagrama de flujo de un método para generar un histograma de gradientes orientados y el correspondiente mapa de características con una arquitectura de HOG-CNN de acuerdo con una realización.

La Figura 5 es un diagrama de flujo de un método para generar un histograma de gradientes orientados y el correspondiente mapa de características con una arquitectura de HOG-MLP de acuerdo con una realización.

La Figura 6(a) es un diagrama de bloques de la arquitectura de CNN de acuerdo con una realización.

La Figura 6(b) es un diagrama de bloques de la arquitectura de CNN de acuerdo con una realización.

La Figura 6(c) es un diagrama de bloques de la arquitectura de CNN de acuerdo con una realización.

La Figura 7 es un diagrama de flujo de un método para verificar regiones de interés de acuerdo con una realización.

La Figura 8(a) es un diagrama de bloques de la arquitectura de red de acuerdo con una realización.

La Figura 8(b) es un diagrama de bloques de la arquitectura de red de acuerdo con una realización.

La Figura 9 es un diagrama de flujo de un método para localizar/verificar el código de la pared lateral de un neumático de acuerdo con una realización.

La Figura 10 es un diagrama de bloques de la arquitectura de red de acuerdo con una realización.

La Figura 11 es un diagrama de bloques de la arquitectura de red de acuerdo con una realización.

Descripción detallada

Se propone un método de cinco etapas que es una realización de la invención, como se muestra en la Figura 1, que comprende la iluminación de objetos y la adquisición de imágenes de alta velocidad de fotogramas 101, la detección de neumáticos 102, la deformación de neumáticos 103, la detección de texto 104 (en donde el texto en la pared lateral del neumático se localiza encontrando una secuencia de caracteres especificada por el usuario, tal como "D", "O", "T"), y la lectura de código 105 (en donde se detecta y reconoce el código de la pared lateral del neumático que contiene información del producto con respecto al neumático).

Las etapas pueden usarse juntas como un solo sistema o usarse individualmente y/o combinarse con sistemas no descritos en el presente documento, tal como con el sistema de formación de imágenes descrito en el documento WO2017060739 A1, o con un sistema de formación de imágenes en movimiento que usa una cámara y el flash de un teléfono inteligente, tableta u otro dispositivo similar. En otros casos, donde la luz del día proporciona suficiente iluminación, un flash puede omitirse por completo.

En particular, en la etapa de detección de texto 104, se proporciona un método generador de propuestas (es decir, región de interés) 104a que identifica regiones de interés que pueden contener la secuencia de caracteres especificada por el usuario. Como se describirá con mayor detalle a continuación, en una primera etapa, el método generador de propuestas 104a genera a partir de una imagen de entrada de una pared lateral de un neumático, un mapa de características de histograma de gradientes orientados (HOG), siendo cada característica un HOG, usando un método tal como el proporcionado por la biblioteca de código abierto VLFEAT o usando una CNN. En una segunda etapa, las características de HOG se introducen en una arquitectura de clasificador de CNN. Generando en primer lugar las funciones de HOG y usándolas como entrada a la arquitectura de clasificador de CNN, se descubrió que el generador de propuestas superó en precisión a los métodos basados únicamente en características elaboradas a mano con un clasificador independiente o en eficiencia a los basados únicamente en una CNN profunda.

Además, teniendo características de HOG generadas a priori e introducidas en la arquitectura de CNN, la tarea de aprendizaje se reduce clasificando las entradas de HOG en una o más clases para generar una región de interés, en lugar de clasificar imágenes negro sobre negro de bajo contraste cuyas características, es decir, valores de píxeles, son difíciles de determinar y aprender patrones en ellas. Esto significa que el sistema en su conjunto es mucho más apto para generalizar conjuntos de datos desconocidos, tales como los que se encuentran en la naturaleza. A modo de contraste, si una arquitectura de CNN pura (sin una entrada de HOG) recibe imágenes negro sobre negro de bajo contraste, la arquitectura se hace más compleja (por ejemplo, más capas y/o conexiones más complejas entre capas) para que la CNN pueda aprender las características de la imagen. El aumento de la complejidad da como resultado una mayor sobrecarga de recursos computacionales, aumento de la sobrecarga de recursos de memoria y reducción de la eficiencia. Por tanto, mientras que las arquitecturas CNN profundas puras aún pueden superar las arquitecturas de HOG y CNN combinadas actualmente propuestas, medidas puramente por la precisión, fallan en términos de eficiencia para aplicaciones en tiempo real y sistemas de baja memoria cuando se aplican al problema del mundo real de las paredes laterales de los neumáticos. Además, en términos de uso de recursos, usar una CNN profunda para los fines de generación de propuestas aumenta en gran medida la sobrecarga de recursos del sistema, por lo que no es un uso eficiente de los recursos en un sistema de bajos recursos, particularmente cuando la arquitectura de HOG-CNN propuesta descrita en el presente documento puede generar propuestas igualmente pertinentes con un orden de mejora de magnitud en la eficiencia computacional y reducción en la huella de memoria, superando de esta manera el requisito de GPU costosas, memoria y otro hardware requerido para arquitecturas de CNN profundas.

Se prevé que el método generador de propuestas 104a descrito en el presente documento puede mejorar por tanto el rendimiento de cualquier sistema que genere regiones de interés en la pared lateral de un neumático basándose en marcas en relieve y/o grabadas. Los inventores contemplan su uso como una invención independiente y/o para su uso con cualquier técnica de OCR conocida.

Los detalles de las otras etapas: iluminación de objetos y adquisición de imágenes de alta velocidad de fotogramas 101, la detección de neumáticos 102, la deformación de neumáticos 103, la verificación 104b de las regiones de interés propuestas por el generador de propuestas y la lectura de texto 105 no son esenciales para habilitar las ventajas proporcionadas por el método generador de propuestas 104a. Los detalles de estas etapas se describirán a continuación antes de que se explique con más detalle una implementación ilustrativa del método generador de propuestas.

Adquisición de imágenes 101

Como se ha descrito anteriormente, se puede usar un sistema de formación de imágenes tal como el propuesto por el documento WO2017060739 A1 para obtener una imagen digital de la pared lateral de un neumático en el que están presentes marcas o texto en relieve y/o grabado. Este sistema captura únicamente una porción de la pared lateral del neumático en cualquier imagen dada, por lo que normalmente se toma una serie de imágenes a medida que el neumático pasa rodando para garantizar que se captura toda la circunferencia de la pared lateral del neumático y, por lo tanto, que cualquier porción de la pared lateral que tenga marcas en relieve y/o grabadas también se capturan.

Detección de neumáticos 102 y deformación 103

Una vez adquirida la imagen o imágenes, el segmento circular del neumático puede detectarse (es decir, se localizan sus radios interior y exterior) usando una Transformada Circular de Hough (CHT) u otras técnicas adecuadas. Antes de realizar la CHT, la imagen se puede preprocesar usando un filtro de diferencia de gaussiana (DoG) que no solo normaliza la iluminación, sino que también realza los bordes. Como parte del preprocesamiento, opcionalmente, las imágenes pueden muestrearse descendentemente a entre 1/4 - 1/8 del tamaño original, lo que mejora tanto la eficiencia como la precisión de la detección de neumáticos. Las imágenes muestreadas de manera descendente se rellenan con píxeles negros, ya que el centro del neumático puede estar fuera del fotograma de la imagen capturada por la cámara (es decir, se añaden píxeles negros para proporcionar un sistema de coordenadas de tamaño adecuado en el que la CHT puede identificar el centro del neumático). Una vez que se ha producido el preprocesamiento, a continuación, se usa CHT para detectar la unión circular del tapacubos y, por lo tanto, detecta el neumático, el radio interior 204 con cierto desplazamiento seguro y el radio exterior 203 como se ilustra en la Figura 2(a) que corresponden al radio interior real 201 y al radio exterior 202 del neumático como se muestra en la Figura 2(b). Sin embargo, en ocasiones se detecta un círculo erróneo debido a la presencia de otra circularidad dominante en la imagen (tal como un paso de rueda o la circularidad de un tapacubos como se indica en la Figura 2(b)) que puede ser, a veces, más dominante como resultado de un mayor contraste. Para evitar esta situación, todas las imágenes capturadas asociadas con un neumático en particular (eje) se procesan para intervalos de n radios (en hilos paralelos). Los círculos detectados a continuación se usan para generar un histograma de intervalo de radio. El radio correspondiente al intervalo de valores de rango de radio con el número más alto de círculos detectados en él se selecciona como el mejor radio de neumático interior detectado 201. Este enfoque es sencillo (es decir, eficiente en recursos) y puede retirar cualquier valor atípico de manera efectiva y exitosa debido al consenso que surge del neumático en movimiento donde domina la circularidad del neumático como resultado del campo de visión de una imagen dada.

Una vez que se detecta la unión del tapacubos y el neumático (es decir, el radio interior del neumático 201), se elige un segundo círculo correspondiente al radio exterior 202 del neumático 200 con un desplazamiento fijo del primer radio. Esto es suficiente para cubrir el área en la que se espera que aparezca el texto de la pared lateral del neumático (por ejemplo, el texto de un código de DOT), ya que el texto de la pared lateral del neumático generalmente cae cerca del radio interior o en el medio en lugar de cerca de la banda de rodadura cerca del radio exterior 202 del neumático 200. Debido a su proximidad con el radio interior, el radio interno detectado también se reduce en un número fijo de píxeles, como se muestra en la Figura 2(a), para garantizar que los casos límite se manejen correctamente.

Después de la detección de neumáticos, el parche de imagen radial entre los radios interior 201 y exterior 202 se deforma a una retícula rectangular usando un mapeo de polar a cartesiano. Esto no sólo deforma la circularidad, sino que también recorta solo la parte necesaria de la imagen, lo que mejora la eficiencia de las siguientes etapas.

Las tres primeras etapas de la canalización, en concreto, iluminación de objetos y adquisición de imágenes 101, la detección de neumáticos 102 y la deformación 103 pueden implementarse en cualquier lenguaje informático adecuado, ya sea implementando todos los algoritmos desde cero o, preferiblemente, usando OpenCV. Pero también se pueden usar otras bibliotecas de visión artificial y técnicas de procesamiento de visión.

Detección de texto: Detección de DOT 104

En la etapa de detección de texto 104, se emplea un enfoque basado en el aprendizaje automático para la detección y localización de texto. Se usan imágenes deformadas de la etapa de deformación de neumático 103. Debido a las reglamentaciones de la industria, la mayoría de los códigos de pared lateral de neumáticos comerciales están precedidos por la secuencia de caracteres "D", "O" y "T" que significa Departamento de Transporte, Estados Unidos. En el presente ejemplo, la secuencia de caracteres de DOT se usa como anclaje para localizar el texto relacionado con el código de la pared lateral del neumático. Sin embargo, se prevé que otras secuencias de caracteres, letras, números, logotipos, símbolos, pictogramas y/o cualquier otra representación visual de la información también se pueden usar como anclaje con el que se puede localizar el texto del código de la pared lateral del neumático. Por ejemplo, si un operador de flota únicamente usa una marca de neumáticos, se puede usar un logotipo de marca o una marca comercial asociada para localizar el texto en la pared lateral del neumático.

El propósito del anclaje es reducir el espacio de búsqueda, como en la mayoría de los casos precede al texto del resto del código de la pared lateral del neumático. La etapa de detección de texto 104 tiene dos cascadas, es decir, conjuntos de operaciones de procesamiento de imágenes posteriores: generación de propuestas (es decir, región de interés) 104a seguida de verificación o localización de texto 104b. Como se ha descrito anteriormente, se prevé que el método generador de propuestas 104a, como se describe en el presente documento, se puede usar como un método independiente con su salida procesada por separado (por ejemplo, usando equipo propiedad de un tercero) usando técnicas de procesamiento de imágenes conocidas que se basan en la generación de propuestas (es decir, región de interés) para detectar y/o reconocer texto en las paredes laterales de los neumáticos.

Generación de propuestas 104a

Como el texto tiene muy poco contraste, para la generación de propuestas, se encontraron inadecuados los enfoques basados en características de bajo nivel (tales como los cuadros de borde propuestos por "Zitnick y Dollar, Edge Boxes: Locating object Proposals from Edges, ECCV, European Conference on Computer Vision, 2014") porque los bordes fuertes de otros segmentos del neumático dominan (la mayoría de los cuales no contienen texto), dando como resultado un gran número de propuestas que no contienen ningún texto. Determinar cuál de estas propuestas contiene o no texto aumenta significativamente la sobrecarga de recursos.

Además, mientras que las características elaboradas a mano se han usado con éxito para la detección de texto (como se describe, por ejemplo, en "Wang et al, End-to-end Scene Text Recognition, Proceedings of the 2011 International Conference on Computer Vision, IEEE Computer Society, Washington, ICCV '11 págs. 1457-1464 DOI 10.1109/ICCV.2011.6126402", "Mishra et al, Top-down and bottom-up cues for scene text recognition, 2012 IEEE Conference on Computer Vision and Pattern Recognition, págs. 2687-2694, DOI 10.1109/CVPR.2012.6247990 y "Mishra et al, Image Retrieval Using Textual Cues, 2013 IEEE International Conference on Computer Vision and Pattern Recognition, págs. 3040-3047) tales técnicas son demasiado lentas para la aplicación industrial de reconocer el texto de la pared lateral del neumático en la naturaleza en un tiempo razonable.

En particular, cuando los inventores intentaron usar HOG combinado con un clasificador de máquina vectorial de soporte (SVM) en forma de ventana deslizante, produjo resultados razonablemente precisos para la detección de texto (es decir, detectar la secuencia de caracteres "D", "O", "T"), pero el tamaño de la imagen (500 x 2000 a 4000 píxeles) todavía significa que lleva unos minutos escanear cada imagen, por lo que cada neumático tiene varias imágenes asociadas con él. Esta escala de tiempo es demasiado larga y es inaceptable para aplicaciones industriales donde no se puede esperar razonablemente que un operador de flota de vehículos espere un tiempo de escaneo tan largo para cada neumático si el sistema va a ser superior a un sistema donde un operador humano lee y registra códigos de pared lateral del neumático manualmente. Idealmente, un sistema práctico requiere resultados de extremo a extremo en menos de un minuto. Además, un sistema de este tipo debería poder ejecutarse solo con procesamiento basado en CPU únicamente (porque los costes de las GPU pueden ser prohibitivos para esta aplicación). Las imágenes de menor resolución, tales como las de cámaras de menor resolución o el muestreo descendente de las imágenes de mayor resolución, no son adecuadas para un reconocimiento de texto tan pequeño y de bajo contraste.

Las arquitecturas ramificadas basadas en Deep-CNN tales como Faster-RCNN (como se describe, por ejemplo, en "Ren et al, Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, Advances in Neural Information Processing Systems 28, Curran Associates, Inc., págs. 91-99, 2015") que usan una red de propuestas de región para escanear una imagen y producir propuestas para la rama de localización son un enfoque alternativo. Se ha demostrado que Faster-RCNN es preciso y mantiene la eficiencia en las GPU. Pero el uso de redes troncales de redes profundas, tales como las que normalmente requiere Faster-RCNN (tal como VGG16 o ResNet50) para la generación de propuestas y mapas de características en los tamaños de las imágenes usadas en la formación de imágenes de la pared lateral de los neumáticos, sería demasiado costoso en una CPU, por lo que requeriría una GPU de gran memoria (11 GB o más), lo que aumenta el coste total del sistema hasta el punto en que sería más rentable para un operador de flota de vehículos contratar a un operador humano para leer y registrar manualmente los códigos de las paredes laterales de los neumáticos. Las GPU también pueden requerir disposiciones de enfriamiento adicionales que pueden limitar potencialmente su uso en situaciones de exteriores en climas cálidos.

Como se ha descrito anteriormente, la presente invención proporciona una solución a este problema combinando la generación de características de HOG con un clasificador basado en CNN para generar propuestas de manera eficiente. En una arquitectura, las características de HOG se generan usando métodos conocidos, tales como los proporcionados por la biblioteca de código abierto VLFeat, y a continuación se introducen en un clasificador basado en CNN. En otra arquitectura, las características de HOG se generan por una CNN y se introducen en el clasificador basado en CNN. La primera arquitectura se describe en el presente documento HOG-MLP (perceptrón multicapa), la segunda como HOG-CNN.

Ejecuciones de entrenamiento

Todas las ejecuciones de entrenamiento de CNN analizadas en el presente documento usan el descenso de gradiente estocástico como optimizador con retropropagación en Matlab usando la biblioteca MatConvNet de A. Vedaldi y Lenc (2015) como se describe en A Vedadi y Lenc (2015) MatConvNet-Convolutional Neural Networks for Matlab, Proceedings of the ACM, Int. Conf, on Multimedia. Sin embargo, se prevé que cualquier técnica alternativa adecuada de entrenamiento y optimización y bibliotecas como TensorFlow, Caffe, Torch etc. también pueda usarse. Además, en un ejemplo, los datos de entrenamiento de clase de texto pueden generarse sintéticamente mientras que los datos de entrenamiento de clase de fondo pueden extraerse de imágenes de neumáticos reales. Sin embargo, se prevé que la generación de datos sintéticos puede no ser necesaria en absoluto, por ejemplo, cuando se dispone de suficientes datos de imágenes de neumáticos reales. Adicionalmente, se pueden usar capas de exclusión para evitar el sobreajuste. Además, mientras que las redes descritas en el presente documento usaron una o más capas de exclusión del 50 % durante el entrenamiento para evitar el sobreajuste, se prevé que en su lugar también se puedan usar otras técnicas usadas para evitar el sobreajuste, tales como, validación cruzada, entrenar con más datos, retirada de características, regularización de parada anticipada y otras. Se aplicó el filtrado de diferencia de gaussiano (DoG) a los datos de entrada para la normalización de la iluminación y la mejora de los bordes. También pueden usarse otras técnicas de normalización de contraste tales como ecualización de histograma o ecualización de histograma adaptativa.

Generación de datos sintéticos

Como se ha descrito anteriormente, si no hay suficientes datos de imagen reales disponibles, opcionalmente se puede usar la generación de datos sintéticos. Como un lector automático de texto de paredes laterales de neumáticos desplegado en la naturaleza tendrá que leer el texto de las paredes laterales en diferentes condiciones de luz, clima y desgaste, puede ser necesaria una cantidad sustancial de datos de entrenamiento para lograr una buena generalización. La recopilación de un gran conjunto de datos en la naturaleza es un proceso muy costoso y lento. En su lugar, los datos de entrenamiento pueden generarse sintéticamente usando varias fuentes diferentes y un motor de representación de texto. Inicialmente, se crea una máscara de texto en blanco y negro usando diversas fuentes en tamaños aleatorios. A continuación, la máscara se puede difuminar de forma incremental (añadiendo múltiples copias o cambiando la posición de representación en una cercanía pequeña (píxeles dx, dy)). Esto tiene lugar en direcciones variables (para representar las sombras giratorias) y longitudes (para representar diferentes longitudes de sombra). A continuación, la máscara de imagen se fusiona con los fondos de los neumáticos para producir imágenes de texto en relieve/grabadas realistas tal como deberían aparecer en las imágenes reales de las paredes laterales de los neumáticos. Dado que los histogramas de características de gradiente orientadas se usan como entrada para el clasificador de CNN, los datos de entrenamiento pueden comprender en algunas realizaciones una pluralidad de histogramas de mapas de características de gradiente orientados generados a partir de una pluralidad de imágenes digitales de las paredes laterales de los neumáticos.

Implementación del método generador de propuestas 104a

La Figura 3 es un diagrama de flujo que muestra las etapas de un método generador de propuestas 304 que es una realización de la invención correspondiente a la etapa de generación de propuestas 104a en la Figura 1. Se usa como entrada una imagen digital 300 de una porción de una pared lateral de neumático deformada obtenida, por ejemplo, como se ha descrito anteriormente. La pared lateral del neumático tiene una o más marcas en relieve y/o grabadas, tal como un código de la pared lateral del neumático. Se genera 301 un histograma de gradientes orientados y su mapa de características asociado, de la imagen digital. El histograma generado de gradientes orientados se introduce en una red neuronal entrenada 302. La red neuronal entrenada está configurada para emitir una primera probabilidad 303, basándose en el histograma de entrada de gradientes orientados y su mapa de características asociado, que una región de píxeles de la imagen digital contiene las marcas en relieve y/o grabadas. Si la primera probabilidad está en o por encima de un primer umbral predeterminado 305a, la región de píxeles se acepta como una región de interés y se emite 305. En caso contrario, se rechaza 305b. De esta manera, el método generador de propuestas 104a puede generar regiones de interés en la imagen digital asociada con la una o más marcas en relieve y/o grabadas.

Como se ha descrito anteriormente, se proporcionan dos formas alternativas de generar funciones de HOG. En la primera, las características de HOG se generan de forma externa y separada del clasificador de CNN entrenado (por ejemplo, usando los métodos proporcionados por la biblioteca de código abierto VLFeat). Esto se describe en el presente documento como HOG-MLP. En una segunda, las características de HOG se generan por una CNN. Esto se describe en el presente documento como HOG-CNN.

La Figura 4 es un diagrama de flujo de un método para generar un histograma de gradientes orientados 401 y su mapa de características con una CNN de acuerdo con la arquitectura de HOG-CNN descrita anteriormente. En particular, después de recibir una entrada 400 de una imagen digital de una porción de la pared lateral de un neumático, se usa una pila de filtros convolucionales 402 para generar un histograma de gradientes orientados y el mapa de características de HOG correspondiente que se emite 403.

La Figura 5 es un diagrama de flujo de un método para generar un histograma de gradientes orientados 501 y un mapa de características de HOG correspondiente con un generador de HOG externo separado 502 de acuerdo con la arquitectura de HOG-MLP descrita anteriormente. En particular, después de recibir una entrada 500 de una imagen digital de una porción de la pared lateral de un neumático, se usa el generador de HOG para generar un histograma de gradientes orientados y el mapa de características de HOG correspondiente que se emite 503.

Un efecto proporcionado por la combinación de las características de HOG con un clasificador de CNN es que el número total de propuestas/regiones de interés generadas es significativamente menor y hay menos falsos positivos que con técnicas puramente elaboradas a mano tales como un HOG+SVM (es decir, un clasificador de máquina vectorial de soporte en forma de ventana deslizante espacial). Otra ventaja es que los tiempos de escaneo/cálculo generales son mucho más cortos debido al hecho de que la generación de características de HOG es menos profunda y/o más eficiente de calcular que intentar generar propuestas/regiones de interés solo con redes convolucionales profundas. Como se ha descrito anteriormente, los inventores creen que una de las razones de esto es que la generación de HOG proporciona la subestructura de imagen (o mapa de características) al clasificador de CNN sin que el clasificador de CNN tenga que aprenderla de los datos de imagen sin procesar. De esta manera, se omite de forma efectiva la necesidad de una arquitectura de CNN profunda. Una arquitectura profunda necesitaría aprender la subestructura de la imagen solo a partir de los datos de entrenamiento, lo que es particularmente difícil cuando las imágenes tienen un bajo contraste entre el primer plano y el fondo, ya que requerirá una orden para medir más datos y tiempo de entrenamiento. En contraste, el entrenamiento de un HOG-CNN se puede realizar con un conjunto de datos relativamente mucho más pequeño y se puede realizar de manera muy eficiente con una CPU.

HOG-CNN

La Figura 6(a) es un diagrama de bloques de una arquitectura de HOG-CNN de acuerdo con una realización. Una red convolucional completamente conectada se conecta al final de una pila de filtros convolucionales, es decir, una cascada de operaciones de procesamiento de imágenes que terminan en una capa de descomposición de HOG que compone las capas generadoras de características de HOG. Juntas, esto proporciona una arquitectura de CNN completa que termina en una capa de pérdida de entropía cruzada (para entrenamiento) o una capa softmax (para probar, aplicar u operar) que emite la probabilidad de que una imagen de entrada dada contenga marcas en relieve y/o grabadas. Una red de este tipo es poco profunda, con menos capas y canales convolucionales que las redes profundas, tales como aquellas en las que se usan capas de CNN para producir características profundas. La poca profundidad de la red proporciona por lo tanto una mejora significativa en la velocidad, lo que la hace mucho más adecuada para la lectura de texto de la pared lateral de los neumáticos en la naturaleza.

Aunque se usan capas de CNN para HOG como se describe en "Mahendran y Vedaldi (2015), Understanding Deep Image Representations by Inverting Them, IEEE Conference on Computer Vision and Pattern Recognition, IEEE Compt. Soc", se prevé que en su lugar se puede usar cualquier implementación adecuada de capa de HOG basada en CNN. Además, también se puede usar cualquiera de los métodos de HOG descritos en "Dalai y Triggs (2005), Histograms of Oriented Gradients for Human Detection, Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'o5) - volumen 1 - págs. 886-893, DOI 10.1109/CVPR.2005.177", y "Felzenszwalb et al (2010), UoCTTI, Object Detection with Discriminatively Trained Part-Based Models, IEEE Transactions on Pattern Analysis and Machine Intelligence 32(9): 1627-1645, d O i 10.1109/TPAMI.2009.167".

La arquitectura de ejemplo mostrada en la Figura 6 tiene una imagen de entrada de texto de DOT 601 de 60 x 130 píxeles preprocesada usando una técnica de diferencia de Gauss como se analizó anteriormente. Como se describe en "Mahendran y Vedaldi (2015), Understanding Deep Image Representations by Inverting Them, IEEE Conference on Computer Vision and Pattern Recognition, IEEE Compt. Soc", las características de HOG se extraen usando una pila de filtros convolucionales en donde se aplica un filtro direccional en K = 2 veces el número de orientaciones (O) donde K es un índice K=1,...k. El filtro direccional de orden K se da por:

El filtro direccional proyecta la proyección de la entrada a lo largo del vector de dirección Uk como guk (donde g es una constante). Después del filtrado direccional, puede realizarse el agrupamiento de HOG 602 mediante la siguiente función de activación:

La pila de filtros convolucionales se muestra en la Figura 6(a) comenzando con una arquitectura 601 Conv (3x3x1x2*O), sin embargo, se apreciará que también se pueden usar otras arquitecturas de filtro. (por ejemplo, Conv (5x5x1x2*O) o Conv (7x7x1x2*O)). Se pueden encontrar otros ejemplos de filtros en las implementaciones de HOG citadas anteriormente.

En la extracción de características de HOG, los gradientes agrupados se agrupan en celdas que a continuación se combinan en bloques de 2 x 2. Esto se hace a través de una pila de filtros lineales 603. Después de la normalización 604 (norma L2), los bloques se descomponen de vuelta a la estructura de la celda y los valores se fijan 605 en 0,2 (es decir, máx{x, 0,2}). En la implementación de ejemplo descrita en el presente documento, los gradientes dirigidos se agrupan para el doble del número de orientaciones (h^do) dentro del intervalo [0,2n) junto con un conjunto de gradientes no dirigidos (h^uo). Por tanto, se usa un total de 3 x O canales en la capa de descomposición de HOG 606

Usando el ejemplo anterior, para una imagen de entrada que tiene 60 (atura) x 130 (anchura) píxeles, el HOG basado en CNN produjo un mapa de características de 7 x 16 x 27 para un tamaño de celda de 8 x 8 y 9 orientaciones. También se pueden usar otros tamaños de celda y número de orientaciones.

Esta salida de HOG a continuación se introduce en un clasificador (por ejemplo, un perceptrón multicapa o MLP) 607a, 607b. En el presente ejemplo, el clasificador 607a, 607b comprende capas completamente conectadas (FC) inicializadas aleatoriamente 607a con un tamaño de máscara de 7 x 16 x 27 ^cH (CH representa el número de canales en la capa actual). A esto le siguió una exclusión del 50 % y otra capa de FC 607b, como se muestra en la Figura 6(a). La exclusión es una técnica de regularización que evita el sobreajuste simplemente omitiendo algunas neuronas. Se prevé que también se puedan aplicar otras técnicas para evitar el sobreajuste, ejemplos de las cuales se han descrito anteriormente, tal como la validación cruzada, entrenar con más datos, retirada de características, parada anticipada, regularización y otras. Dado que tanto la generación de características de HOG como la clasificación posterior se realizan con FC conectadas entre sí como una arquitectura de CNN unificada, se utiliza el término HOG-CNN.

También se proporciona una capa de pérdida de entropía cruzada final 608 para entrenar al clasificador de CNN a través de la retropropagación para identificar el texto 609 'DOT'. De manera similar a OverFeat (Sermanet, P., Eigen, D., Zhang, X., Mathieu, M., Fergus, R., & Lecun, Y. (2014). Overfeat: Integrated recognition, localization and detection using convolutional networks. In International Conference on Learning Representations (ICLR2014)), la arquitectura de la Figura 6(a) usa capas convolucionales como capas de FC y la red de HOG-CNN puede escanear la imagen completa si es más grande que el tamaño mínimo requerido, es decir, 60x130 píxeles.

El entrenamiento de una red de este tipo puede ser difícil, ya que se predefinen pocas capas mientras que el clasificador final se inicializa aleatoriamente. En el presente caso, se entrenó en un conjunto de datos que contenía menos de 600.000 imágenes (de un tamaño de 60x130 píxeles) en total con la clase de ^dO^tgenerada sintéticamente. El conjunto de entrenamiento contenía una clase de ^dO^tgenerada sintéticamente y una clase de fondo compuesta por una mezcla de texto no de DOT, bordes, texturas y fondos planos. Se consideró suficiente un total de 80-90 épocas de entrenamiento cuando se alcanzó un punto de saturación. Continuar con el entrenamiento tiende a sobreajustar el modelo. Sin embargo, dado que la red es poco profunda y usa filtros dispersos, se puede entrenar de manera eficiente incluso en una CPU (con un tiempo de entrenamiento de aproximadamente menos de 5 horas).

Se apreciará que la arquitectura de ejemplo anterior tiene fines ilustrativos.

Como se ha explicado anteriormente, el problema de la alta sobrecarga computacional y el gasto de técnicas tales como HOG+SVM (en forma de ventana deslizante espacial) o de técnicas de CNN profundas para reconocer el texto de la pared lateral del neumático en la naturaleza puede resolverse usando el concepto de entrada de la salida de una implementación de HOG en una CNN poco profunda.

HOG-MLP

Para HOG-MLP, en lugar de usar una arquitectura de CNN unificada, Las características de HOG se pueden extraer de la entrada 601 usando una implementación de HOG 610 independiente, tal como la de la biblioteca VLFeat (Vedaldi y Fulkerson 2008, An Open and Portable Library of Computer Vision Algorithms, ver (0.9.16), p, http://www.vlfeat.org) y a continuación se alimenta a una red de ^mL^pmulticlase (HOG-MLP) como se muestra en la Figura 6(b). En la implementación 610 de VLFEAT HOG usada en el presente ejemplo, los gradientes se agrupan para 3*0 4 componentes de textura. Por lo tanto, para un tamaño de imagen de entrada 601 de 60 (altura) x 130 (anchura), un tamaño de celda de HOG de 8 x 8 y 12 orientaciones (40 componentes en total), la primera capa 611 en la red era de 8 x 16 x 40 CH. El tamaño de celda y el número de orientaciones se eligieron a través de una búsqueda sistemática para lograr la mejor precisión de detección posible en un conjunto de datos de validación cruzada. También se pueden usar otros tamaños de celda y número de orientaciones, precisión en un conjunto de datos de validación cruzada. También se pueden usar otros tamaños de celda y número de orientaciones. Se entrenó en un conjunto de datos de 11 clases (nC = 11) de más de un millón de imágenes que contenían 7 clases de DOT sintetizadas para fuentes redondas/cuadradas/finas y anchas, apariencia clara y difusa, sombras largas y cortas, espacio sencillo y doble entre los caracteres, y otras variaciones, junto con 4 clases de fondo divididas entre fondos planos, texto no de DOT y bordes / texturas. También se proporcionó una segunda capa 612, junto con una capa de pérdida de entropía cruzada 613. La salida 614 se mapeó a una probabilidad de clase binaria, es decir, DOT / no DOT predeterminando cuáles de las clases de salida de la capa de pérdida de entropía cruzada corresponden a un código de DOT y cuáles no. Esta representación multiclase permite la incorporación de conocimientos previos al entrenamiento y, de esta manera, aumenta la generalización de la red, por ejemplo, para que pueda hacer frente a los cambios en la configuración de iluminación de la adquisición de imágenes, por ejemplo, durante la instalación, calibración y/o desarrollo de productos de hardware.

Si no se requieren cambios en la adquisición de imágenes y/o iluminación, la luz / direcciones de las sombras en las imágenes adquiridas son más consistentes. En una situación de este tipo, se proporciona un ejemplo ilustrativo alternativo de un generador de propuestas de HOG-MLP como se muestra en la Figura 6(c) con tamaño de celda = 8 x 8, O = 16 (que compone un total de 52 componentes), pero con solo cuatro clases de salida nC = 4 (es decir, DOT, fondo plano, borde/textura, texto no de DOT). Las salidas 615 se mapean de nuevo a una clasificación binaria (DOT / no de DOT). En este ejemplo, la red se entrenó en un conjunto de datos de poco más de un millón de imágenes con la clase de DOT generada sintéticamente como se ha descrito anteriormente. Para las redes de HOG-MLP ilustrativas, se obtuvieron resultados satisfactorios después del entrenamiento durante 30-50 épocas. Al igual que HOG-CNN, estas redes dispersas también se pueden entrenar de manera eficiente en una CPU, algo que no es posible de manera eficiente con una implementación de CNN profunda.

Al igual que con HOG-CNN, se apreciará que los ejemplos anteriores de arquitecturas de HOG-MLP son para fines ilustrativos. La alta sobrecarga computacional y el coste de, por ejemplo, HOG+SVM (clasificador de máquina vectorial de soporte en forma de ventana deslizante espacial) o de técnicas de CNN profundas para reconocer el texto de la pared lateral del neumático en la naturaleza puede resolverse usando el concepto de entrada de la salida de una implementación de HOG en una CNN poco profunda.

Comparación

En la comparación de los dos métodos de generación de propuestas, HOG-CNN frente a HOG MLP, los tiempos de escaneo para una imagen de 500 x 3000 píxeles) fueron de aproximadamente 550 y 250 ms respectivamente en una CPU Intel CoreH de 3,6 GHz. Tanto para HOG-CNN como para HOG-MLP, esto es significativamente más rápido que el orden de minutos de las implementaciones elaboradas a mano de HOG+SVM en forma de ventana deslizante o implementaciones basadas en CNN profunda.

En HOG-MLP, no es posible retropropagar a través de la etapa de extracción de características ya que la parte de HOG de la arquitectura no es parte de la arquitectura de CNN. En contraste, en HOG-CNⁿ, es posible la retropropagación a través de toda la red, lo que aumenta de esta manera la capacidad de la implementación de HOG-CNN para adaptarse a las variaciones en los datos.

Los inventores han observado que las precisiones tanto de las arquitecturas de HOG-CNN como de HOG-MLP que usan los mismos tamaños de celda y el mismo número de orientaciones son comparables, aunque HOG-CNN genera menos propuestas y, por lo tanto, generaliza mejor (por ejemplo, debido a la retropropagación) que HOG-MLP.

Localización de texto: Localización de DOT 104b

Para finalmente localizar y verificar el texto de la pared lateral del neumático (es decir, el código de DOT de la pared lateral del neumático) de las propuestas filtradas, se aplica un clasificador a la región o regiones de interés generadas para aceptar o rechazar una o más de ellas como un falso positivo.

La Figura 7 es un diagrama de flujo que muestra un método 704 de acuerdo con una realización correspondiente a la etapa 104b de la Figura 1. Las regiones de interés de salida 700 del método generador de propuestas 104a se introducen en un clasificador 701. El clasificador 701 localiza el texto dentro de las regiones de interés y de esta manera verifica las regiones de interés genuinas, así como los falsos positivos. En otras palabras, para cada región de interés, determina cuáles son falsos positivos y cuáles no. Los falsos positivos se descartan mientras que las regiones de interés genuino se seleccionan. El clasificador 701 puede ser una red neuronal profunda que emite una probabilidad 702 de que una dada región de interés realmente contenga las marcas en relieve/grabadas (tal como la secuencia de caracteres "D", "O", "T" descrita anteriormente). Si la probabilidad está por debajo de un umbral predeterminado, se determina que la región de interés dada es un falso positivo y se rechaza 703b. De lo contrario, se acepta 703a como una región de interés genuina y se emite 704.

En la figura 8(a) se muestra un ejemplo ilustrativo de una red profunda 801 que puede usarse como clasificador 701. Se prevé que pueden usarse otras arquitecturas similares, tal como la descrita en "Jaderberg et al (2016), Reading Text in the Wild with Convolutional Neural networks, International Journal of Computer Vision 116(1): 1-20 DOI 10.1007/s11263-015-0823-z". De hecho, el método con el que se rechazan los falsos positivos es independiente y no es esencial para permitir las ventajas proporcionadas por la etapa 104a. Para comparar las probabilidades de detección con un umbral predefinido, se puede usar una capa Softmax al final del clasificador de CNN.

El conjunto de entrenamiento para esta red ilustrativa 801 contenía múltiples DOT y clases de fondo (1,6 millones de imágenes en 10 clases: 7 clases de DOT y 3 clases de fondo para fondo plano, bordes/textura y texto no de DOT). En el ejemplo mostrado en la Figura 14(a), se usa una imagen de texto de DOT de entrada 800 de 32 x 100 píxeles, es decir, el resultado de detección de HOG-CNN o HOG-MLP es de 60x130 píxeles que se muestrean de manera descendente a 32x100 píxeles. Los resultados de clasificación 802 se mapean a continuación a una salida binaria (DOT / no de DOT). Similar a HOG-MLP, cuando la configuración de formación de imágenes e iluminación ya no requiere más cambios durante, por ejemplo, la instalación, la calibración y/o el desarrollo de productos de hardware y los conjuntos de datos se hacen más consistentes, la red de localización de texto 1001 se puede reducir a un clasificador de 4 vías 803 (DOT, fondo plano, texto y bordes / texturas no de DOT) como se muestra en la Figura 8(b). Como resultado, se pueden rechazar muchos falsos positivos generados por el generador de propuestas y solo se mantienen unos pocos candidatos fuertes. Los falsos positivos que se filtran en esta etapa pueden tratarse mediante el reconocimiento de texto en la etapa de lectura de código 105, en caso de que se requiera.

Lectura de código 105

La lectura de código 105 consiste en las dos etapas como se ilustra en la Figura 1: detección/localización de texto o caracteres 105a (en la que se localizan los caracteres del código) y reconocimiento de texto o caracteres 105b (en el que se reconocen y emiten los caracteres). Las etapas 105a y 105b pueden realizarse por el mismo clasificador en una única etapa o por clasificadores separados. El parche de código (es decir, la porción de la imagen que contiene el código de DOT y los caracteres que siguen a la posición de anclaje de 'DOT') de la imagen se preprocesa en primer lugar para recortarlo hasta la altura del texto usando un filtrado de bordes de bajo nivel. A continuación, la altura del parche cambia de tamaño a 40-50 píxeles de acuerdo con el paso de la red de detección de código (número de píxeles omitidos entre dos ventanas de detección consecutivas en la imagen de entrada).

La Figura 9 es un diagrama de flujo de un método 901 usado para localizar y/o clasificar el código de la pared lateral del neumático (es decir, para leer las marcas en relieve y/o grabadas de la pared lateral del neumático) usando un único clasificador que corresponde a las etapas 105a y 105b de Figura 1. Las áreas adyacentes a las regiones de interés verificadas se seleccionan y se introducen en el clasificador único 901. El clasificador 901 localiza a continuación los caracteres/símbolos del código dentro del área seleccionada y emite una probabilidad 903 de que un carácter/símbolo dado se reconozca como, por ejemplo, un carácter tal como una letra o un número, a partir del cual se puede proporcionar una lectura de salida de las marcas en relieve y/o grabadas (es decir, el código de la pared lateral del neumático).

Como alternativa, las Figuras 10 y 11 ilustran redes separadas que pueden realizar las etapas 105a y 105b por separado. Se apreciará que existen numerosas técnicas de OCR y se prevé que cualquiera de tales técnicas pueda usarse una vez que se hayan generado las propuestas/regiones de interés como se describe en la etapa 104a.

Con referencia a la Figura 10, ya que el texto tiene muy poco contraste con respecto al fondo, se requiere un mecanismo de predicción denso tal como el proporcionado por la arquitectura 1001 mostrada en la Figura 10. En las CNN, las capas de agrupación máxima reducen la muestra de la imagen, lo que aumenta el paso de la red. La retirada de las capas de agrupación máxima permitirá predicciones densas (píxel por píxel), pero aumentará enormemente el espacio de parámetros, lo que afectará tanto la eficiencia como a la precisión. Las técnicas de regularización tales como exclusiones (dropout) en combinación con activaciones MaxOut son útiles para mejorar la precisión. Por lo tanto, como se muestra en la Figura 10, se usó MaxOut en esta arquitectura. Los inventores observaron que, si un ReLU precede a las capas MaxOut, la red converge rápidamente al mínimo durante el entrenamiento. La entrada 1000 de la Figura 10 se ilustra como una imagen de DoG que tiene un tamaño de 32 x 32 píxeles. También se prevén otras arquitecturas de red, tales como, por ejemplo, las descritas en "Goodfellow et al (2013), Maxout Networks, Proceedings of the 30th International Conference on Machine Learning - volumen 28, JMLR.org, ICML'13, págs. NM319-MM327" y "Jaderberg et al (2014), Deep Features for Text Spotting, European Conference on Computer Vision". Finalmente, del mismo modo que en HOG-CNN y HOG-MLP, las capas totalmente conectadas (FC) compuestas de capas convolucionales permiten que la red se deslice sobre todo el parche de código, detectando y localizando texto en el camino y evitando cualquier necesidad de un mecanismo de ventana deslizante espacial.

En el presente ejemplo, el entrenamiento se realizó en un conjunto de datos de 700.000 imágenes con una clase de texto generada sintéticamente como se ha descrito anteriormente. La clase de fondo se extrajo de parches de neumáticos reales. Contenía bordes sencillos, patrones de cresta, formas fundidas o de troquel y un fondo plano. La salida se mapeó a una probabilidad de clase binaria, es decir, texto / no texto. El detector de caracteres produjo cuadros delimitadores al escanear convolucionalmente el parche de código completo como se ha analizado anteriormente. Los recuadros detectados de esta manera se centran en las regiones con las probabilidades más altas de que esté presente el texto. Se aplicó supresión no máxima a los cuadros detectados para filtrar las propuestas. También se puede usar opcionalmente un clasificador de caracteres para la detección de caracteres. Sin embargo, los inventores han encontrado que un clasificador especializado para la detección de caracteres de código que está separado de un clasificador de caracteres para el reconocimiento de texto de código rinde mejor.

Como se ha descrito anteriormente, una red de reconocimiento de caracteres separada 1101 como se muestra en la Figura 11 se usa en este ejemplo ilustrativo para realizar la etapa 105b. Después de que se haya realizado la localización en la etapa 105a usando, por ejemplo, la arquitectura mostrada en la Figura 10, se usan las ubicaciones de caracteres de código detectadas para extraer caracteres que se alimentan en una red clasificadora de caracteres 1101. También se pueden usar otros clasificadores de caracteres, tales como los descritos por "Jaderberg et al (2016), Reading Text in the Wild with Convolutional Neural networks, International Journal of Computer Vision 116(1): 1-20 DOI 10.1007/s11263-015-0823-z". Esta red tiene clases para los números del 0 al 9, letras mayúsculas de la A a la Z (excluyendo I, Q, S y O que no se usan en los códigos de DOT de neumáticos) y siete clases de fondos, lo que hacen un clasificador de 39 vías que se asigna a 33 clases (32 caracteres y 1 clase de fondo). El modelo fue entrenado en el conjunto de datos de caracteres sintéticos de los inventores de aproximadamente 700.000 imágenes. Un clasificador también puede estar entrenado para reconocer marcas particulares, logotipos o símbolos encontrados en el código de la pared lateral del neumático, si esto se requiriera.

Ventajas

Como el sistema propuesto es un sistema industrial, tanto la precisión como la eficiencia son igualmente importantes. En particular, el generador de propuesta/región de interés descrito anteriormente en la etapa 104a proporciona un aumento significativo en la eficiencia de un sistema de lectura de paredes laterales de neumáticos sin sufrir una caída notable en la precisión. Los inventores prevén que el generador de propuesta/región de interés puede usarse por tanto con cualquier técnica conocida de visión artificial y OCR aplicada a la lectura de paredes laterales de neumáticos cuyos métodos requieran la generación de propuestas/regiones de interés.

Precisión

Aunque la precisión depende en última instancia de la muestra de datos que se esté analizando. El error de entrenamiento de las arquitecturas descritas en el presente documento fue inferior al 5 %. El sobreajuste de las redes puede reducirse aún más si los datos de entrenamiento sintéticos se mezclan con datos de imágenes reales y/o se añade un aumento de datos de tiempo de entrenamiento, tal como deformaciones afines. Por tanto, HOG-CNN y HOG-MLP proporcionan una tasa de falsos positivos menor que el 5 % para la región de generación de interés en el texto de la pared lateral del neumático. Esto es a pesar de las amplias variaciones en la altura de los neumáticos, el radio y posición relativa a un paso de rueda.

Eficiencia

Para un sistema industrial, con un usuario final esperando resultados, la eficiencia es crucial. Las GPU (unidades gráficas de procesamiento) se han usado ampliamente en sistemas basados en aprendizaje profundo, pero desplegar GPU significa escalar el coste total del sistema, a medida que se despliegan en cada sitio de formación de imágenes. Con una demanda creciente y requiriendo cada sitio dos unidades (una para cada lado derecho e izquierdo del vehículo), mantener el coste total bajo se convierte en un atributo clave. Por tanto, como se ha descrito anteriormente, idealmente se busca un sistema basado en CPU.

Explorar toda la imagen deformada (tamaño promedio de 500 x 3000 píxeles) con una red profunda, tarda más de 20 segundos en una CPU Core H de 3,6 GHz (requiere una memoria de parámetros de 496 MB). De hecho, cuando se aplican algunos de los algoritmos de mayor rendimiento para la detección de objetos/texto (es decir, aquellos que tienen una clasificación alta en los conjuntos de datos de referencia) a la imagen del texto de la pared lateral del neumático, rápidamente se convierten en un cuello de botella computacional.

En contraste, la red poco profunda propuesta (ya sea HOG-CNN o HOG-MLP) requiere una memoria de parámetros de solo 1 a 3 MB. Cuando a continuación es seguido por un escaneo profundo de solo las propuestas generadas de esta manera, el tiempo total de escaneo se reduce a aproximadamente de 3 s. Esta es una mejora de un orden de magnitud en términos de eficiencia (casi un 95 % de aceleración), así como una reducción significativa en el coste total del sistema y la complejidad (debido a que solo tiene operaciones basadas en CPU), sin ningún compromiso aparente en la precisión, ya que la recuperación de HOG-CNN o HOG-MLP es casi del 100 %. Con esto, los resultados de extremo a extremo para el procesamiento de una imagen para la detección y deformación de neumáticos y, a continuación, el escaneo de una imagen resultante de 500 x 3000 píxeles deformada en tres escalas diferentes seguido de la detección y lectura del código tarda en promedio de 3 a 5 segundos en la CPU mencionada anteriormente.

Por ejemplo, mientras que la Figura 6(a) prevé dos capas convolucionales completamente conectadas 607a, 607b, esto se puede reducir a una capa para reducir aún más la sobrecarga computacional a costa de la precisión. En otras palabras, la red neuronal convolucional puede comprender una o dos capas convolucionales completamente conectadas. Como alternativa, para aumentar la precisión, el número de capas completamente conectadas puede incrementarse a tres o más capas a costa de la complejidad computacional. Sin embargo, se prevé que el uso de más de dos capas puede aumentar la complejidad computacional hasta el punto de que el tiempo de cómputo aumenta a niveles inaceptables para un operador de flota y/o requiere GPU, reduciendo o eliminando de esta manera por completo cualquier ventaja obtenida usando HOG-CNN o HOG-MLP. Si bien esto puede no ser problemático para los ajustes de laboratorio ideales, es para un sistema industrial donde el coste y la eficiencia son prioridades y, por lo tanto, donde las redes poco profundas proporcionan ventajas mucho mayores.

Claims

REIVINDICACIONES

1. Un método implementado por ordenador para generar una región de interés en una imagen digital de una pared lateral de un neumático, teniendo la pared lateral una o más marcas en relieve y/o grabadas, comprendiendo el método:

generar un histograma de un mapa de características de gradientes orientados de la imagen digital;

introducir el histograma del mapa de características de gradientes orientados en una red neuronal entrenada, en donde dicha red neuronal entrenada está configurada para emitir una primera probabilidad, basándose en el histograma de entrada del mapa de características de gradientes orientados, de que una región de píxeles de la imagen digital contenga las marcas en relieve y/o grabadas; y

si la primera probabilidad está en o por encima de un primer umbral predeterminado, aceptar dicha región de píxeles como dicha región de interés.

2. El método implementado por ordenador de la reivindicación 1, en donde dicha generación de un histograma de un mapa de características de gradientes orientados se realiza mediante una pila de filtros convolucionales en una red neuronal convolucional entrenada.

3. El método implementado por ordenador de la reivindicación 1, en donde dicha generación de un histograma de un mapa de características de gradientes orientados se realiza mediante un generador de histograma de gradientes orientados separado de dicha red neuronal entrenada.

4. El método implementado por ordenador de cualquier reivindicación anterior, en donde dicha red neuronal entrenada comprende una o dos capas completamente conectadas.

5. El método implementado por ordenador de cualquier reivindicación anterior, en donde dicha red neuronal convolucional entrenada se entrena con datos de entrenamiento que comprenden una pluralidad de histogramas de mapas de características de gradientes orientados generados a partir de una pluralidad de imágenes digitales de las paredes laterales de los neumáticos.

6. El método implementado por ordenador de la reivindicación 5, en donde dichos datos de entrenamiento comprenden además datos sintéticos.

7. El método implementado por ordenador de cualquier reivindicación anterior, que comprende, además si la primera probabilidad está por debajo del primer umbral predeterminado, rechazar dicha región de píxeles como una región de interés.

8. El método implementado por ordenador de cualquier reivindicación anterior, que comprende, además aplicar un clasificador a dicha región de interés;

en donde dicho clasificador está configurado para emitir una segunda probabilidad de que dicha región de interés contenga las marcas en relieve y/o grabadas; y

si la segunda probabilidad está por debajo de un segundo umbral predeterminado, determinar que dicha región de interés es un falso positivo.

9. Un método implementado por ordenador para leer marcas en relieve y/o grabadas en una pared lateral de un neumático, comprendiendo el método:

proporcionar una imagen digital de la pared lateral del neumático;

deformar la imagen digital;

generar una región de interés en la imagen digital de acuerdo con el método implementado por ordenador de la reivindicación 1;

aplicar un clasificador para determinar si dicha región de interés es un falso positivo, y si dicha región de interés es un falso positivo, descartar dicha región de interés, o si dicha región de interés no es un falso positivo, seleccionar dicha región de interés;

seleccionar un área de la imagen digital adyacente a la región de interés seleccionada;

aplicar un clasificador a dicha área de la imagen digital adyacente a la región de interés para leer dichas marcas en relieve y/o grabadas.

10. El método de la reivindicación 9, en donde dicha generación de un histograma de un mapa de características de gradientes orientados se realiza mediante una pila de filtros convolucionales en una red neuronal convolucional entrenada.

11. El método de la reivindicación 9, en donde dicha generación de un mapa de características de histograma de gradientes orientados se realiza mediante un generador de histograma de gradientes orientados separado de dicha red neuronal entrenada.

12. Un aparato de procesamiento de datos que comprende medios para llevar a cabo las etapas de cualquiera de los métodos de las reivindicaciones 1-11.

13. El aparato de procesamiento de datos de la reivindicación 12, en donde dichas etapas son realizadas por una unidad de procesamiento de procesador central (CPU).

14. Un programa informático que comprende instrucciones que, cuando el programa es ejecutado por un ordenador, hacen que el ordenador lleve a cabo las etapas de cualquiera de los métodos de las reivindicaciones 1-11.

15. Un medio de almacenamiento legible por ordenador que tiene almacenado en el mismo un programa informático de acuerdo con la reivindicación 14.