ES2275474T3

ES2275474T3 - Metodo de segmentacion de caracteres para reconocimiento de placas de matricula de vehiculos.

Info

Publication number: ES2275474T3
Application number: ES00307697T
Authority: ES
Inventors: Jenn-Kwei Tyan; Claus Neubauer
Original assignee: Siemens Corporate Research Inc
Current assignee: Siemens Corporate Research Inc
Priority date: 1999-09-15
Filing date: 2000-09-07
Publication date: 2007-06-16
Anticipated expiration: 2020-09-07
Also published as: EP1085456A3; ATE346350T1; US6473517B1; EP1085456B1; DE60031929D1; DE60031929T2; EP1085456A2

Abstract

Método para segmentar y reconocer placas de matrícula que comprende las etapas de: capturar (10) una imagen de una placa de matrícula; procesar (11) previamente la imagen para preparar la imagen para la segmentación y el reconocimiento; dividir (114) directamente regiones de la imagen de la placa de matrícula en supuestas regiones de caracteres; reconocer (115) las supuestas regiones de caracteres en la imagen de la placa de matrícula y proporcionar una puntuación de seguridad basada en una probabilidad de coincidencia correcta; si los supuestos caracteres tienen una puntuación de seguridad por debajo de un valor umbral, fusionar (116) inversamente supuestas regiones de caracteres adyacentes para evaluar regiones en la imagen para determinar si puede lograrse una mayor seguridad al combinar regiones; reconocer las supuestas regiones de caracteres fusionadas inversamente en la placa de matrícula; y si las supuestas regiones de caracteres fusionadas inversamente tienen una puntuación de seguridad por debajo del valor umbral, repetir las etapas de fusión inversa y de reconocimiento; en el que la etapa de procesamiento previo de la imagen para preparar la imagen para la segmentación y el reconocimiento incluye las etapas de: refinar (18) una posición de la placa de matrícula: determinando una altura de los caracteres en la imagen de la placa de matrícula empleando una función de proyección; calculando una variancia espacial para determinar una posición central de los caracteres; empleando la posición central y la altura de los caracteres para reducir un tamaño de una región de interés detectando los bordes de un límite de placa y calculando una longitud de los bordes para identificar la región de interés.

Description

Método de segmentación de caracteres para reconocimiento de placas de matrícula de vehículos.

Antecedentes 1. Campo técnico

Esta descripción se refiere al reconocimiento de caracteres y, más en particular, a un método de segmentación de caracteres en una placa de matrícula para su reconocimiento.

2. Descripción de la técnica relacionada

En el pasado se han desarrollado diversos sistemas en la técnica anterior basados en la visión por ordenador para leer un número de placa de matrícula. Estos sistemas normalmente consisten en tres módulos principales: localización de la placa, segmentación de caracteres y reconocimiento de caracteres. En un esquema de modo en serie, la segmentación de caracteres es necesaria para realizar el reconocimiento de caracteres que se basa totalmente en caracteres aislados. Los caracteres segmentados de manera incorrecta no se reconocerán probablemente correctamente. De hecho, la mayoría de errores de reconocimiento en los sistemas de bucle abierto convencionales no se debe a una falta de capacidad de reconocimiento sino a errores de segmentación en diferentes niveles de la imagen. Resulta difícil desarrollar una segmentación de caracteres robusta para el reconocimiento de placas de matrícula. Las razones son principalmente que la resolución limitada de los caracteres de la placa junto con la suciedad, arañazos, sombras y sesgos etc., normalmente degradan el rendimiento de la segmentación. Además, el entorno exterior sujeto a grandes variaciones de cambios de iluminación

\hbox{podría hacer muy complicado  el desarrollo
de un esquema de segmentación fiable.}

La segmentación de caracteres basada en la proyección de píxeles se usa ampliamente en los sistemas de reconocimiento óptico de caracteres (OCR, del inglés "optical carácter recognition") convencionales. En general, los sistemas convencionales dan un buen resultado para la mayoría de tareas de reconocimiento de texto impreso a máquina. La ventaja de tales sistemas es que se gana en velocidad de ejecución. Si los caracteres en una placa de matrícula están en perfectas condiciones, es decir, están suficientemente separados o intactos, la segmentación de caracteres puede efectuarse directamente a partir de la función de proyección. Sin embargo, en escenarios de la vida real normalmente no se dispone de imágenes de placas de matrícula limpias e iluminadas de manera uniforme.

LU Y: "Machine printed character segmentation - an overview" Pattern Recognition, Pergamon Press Inc. Elmsford, N.Y., EE.UU., vol. 28,nº 1, 1995, páginas 67-80, da a conocer un método para la segmentación y el reconocimiento de caracteres impresos que se dividen en supuestas regiones de caracteres. Los segmentos se vuelven a dividir en segmentos más pequeños si contienen múltiples caracteres. El documento EP 0862132 también da a conocer un método para la segmentación y el reconocimiento de placas de matrícula en el que se capturan imágenes y se procesan previamente y hay una división de regiones en supuestas regiones de caracteres. Cuando hay un espacio más ancho de la media entre dos caracteres sucesivos, puede haber una nueva segmentación para comprobar si hay caracteres adicionales. R.M Bozinovic y S.N. Srihari en "Off-Line Cursive Script Word Recognition" (IEEE Transc. Pattern Analysis and Machine Intelligence, enero de 1989) presentan un proceso de reconocimiento de caracteres que emplea la segmentación directa y la reagrupación de regiones de caracteres. Según este artículo, todas las hipótesis de letras obtenidas agrupando una, dos o tres regiones de caracteres se evalúan frente a las letras y símbolos del alfabeto (a...z), entonces las hipótesis de letras con puntuación de alta seguridad se consideran en combinación con las hipótesis de letras que han obtenido altas puntuaciones en el ciclo anterior etc. Sin embargo, estos métodos de la técnica anterior puede que no proporcionen un reconocimiento de caracteres completo en todas las circunstancias.

Por lo tanto, existe una necesidad de un método de segmentación robusto para la segmentación de caracteres en una pluralidad de diferentes condiciones de iluminación y ambientales.

Sumario de la invención

Un método para la segmentación y el reconocimiento de placas de matrícula, según la presente invención, que puede implementarse usando un dispositivo de almacenamiento de programas legible por ordenador, que incorpora de manera tangible un programa de instrucciones ejecutable por el ordenador para realizar las etapas del método, incluye capturar una imagen de una placa de matrícula y procesar previamente la imagen para preparar la imagen para la segmentación y el reconocimiento. La imagen se divide directamente en supuestas regiones de caracteres de la imagen de la placa de matrícula. Las supuestas regiones de caracteres en la imagen de la placa de matrícula se reconocen y se les proporciona una puntuación de seguridad basada en una probabilidad de coincidencia correcta. Si los supuestos caracteres tienen una puntuación de seguridad por debajo de un valor umbral, se realiza una fusión inversa de supuestas regiones de caracteres adyacentes. Se reconocen las supuestas regiones de caracteres fusionados inversamente en la placa de matrícula y, si las supuestas regiones de caracteres fusionadas inversamente tienen una puntuación de seguridad por debajo del valor umbral, se repiten las etapas de fusión inversa y reconocimiento.

La etapa de procesamiento previo de la imagen para preparar la imagen para la segmentación y el reconocimiento incluye las etapas de refinar una posición de la placa de matrícula determinando una altura de los caracteres en la imagen de la placa de matrícula empleando una función de proyección, calcular una varianza espacial para determinar una posición central de los caracteres, emplear la posición central y la altura de los caracteres para reducir un tamaño de una región de interés detectando los bordes de un límite de placa y calcular una longitud de los bordes para identificar una región de interés.

En realizaciones alternativas, que pueden emplear el dispositivo de almacenamiento de programas, la etapa de reconocer supuestas regiones de caracteres en la imagen de la placa de matrícula puede incluir determinar regiones con una puntuación de seguridad por debajo de un umbral, y la etapa de dividir directamente regiones puede incluir la etapa de segmentar caracteres que se tocan o se solapan en supuestas regiones de caracteres adyacentes empleando una función de discriminación basada en proyecciones del contorno de los caracteres. La etapa de segmentar caracteres que se tocan o se solapan puede aplicarse de manera recursiva para lograr el valor umbral de una puntuación de seguridad. La etapa de reconocer supuestas regiones de caracteres en la imagen de la placa de matrícula y proporcionar una puntuación de seguridad basada en una probabilidad de una coincidencia correcta puede incluir la etapa de reconocer caracteres en la imagen de la placa de matrícula empleando

\hbox{al menos una de entre una
red neuronal y una correlación de plantillas.}

En otras realizaciones adicionales, la etapa de reconocer las supuestas regiones de caracteres fusionadas inversamente en la placa de matrícula puede incluir la etapa de reconocer caracteres en la imagen de la placa de matrícula empleando al menos una de entre una red neuronal y una correlación de plantillas. La etapa de procesar previamente la imagen para preparar la imagen para la segmentación y el reconocimiento puede incluir las etapas de detectar la inclinación previa en la imagen de la placa de matrícula detectando bordes y seleccionando puntos distintivos para determinar una matriz de proyección en los bordes, seleccionar la matriz de proyección que tiene el mayor coste para determinar un ángulo de rotación y corregir la imagen de la placa de matrícula según el ángulo de rotación. La etapa de procesamiento previo de la imagen para preparar la imagen para la segmentación y el reconocimiento puede incluir las etapas de proporcionar un perfil de proyección de intensidades de píxeles a través de líneas verticales de píxeles de la imagen, filtrar el perfil de proyección e identificar ubicaciones de caracteres en la imagen ilustradas por áreas por debajo de un valor umbral en el perfil de proyección filtrado. Preferiblemente se realiza la etapa de extraer caracteres reconocidos de la imagen de la placa de matrícula. Puede incluirse la etapa de comparar caracteres reconocidos y bloques de caracteres de códigos de placas de matrícula predeterminados y convenciones para comprobar la precisión del reconocimiento.

Estos y otros objetos, características y ventajas de la presente invención resultarán evidentes a partir de la siguiente descripción detallada de realizaciones ilustrativas de la misma, que debe leerse en conexión con los dibujos acompañantes.

Breve descripción de los dibujos

Esta memoria presentará detalladamente la siguiente descripción de realizaciones preferidas con referencia a las siguientes figuras en las que:

La figura 1 es un diagrama de flujo que muestra un método de reconocimiento de placas de matrícula según la presente invención;

la figura 2 es una gráfica del coste frente al ángulo de inclinación para determinar un ángulo de inclinación para las placas de matrícula según la presente invención;

la figura 3 es una gráfica de S(j) frente a píxeles para determinar la altura de caracteres para los caracteres de la placa de matrícula según la presente invención;

la figura 4 es un diagrama de bloques que muestra diferentes fases del refinamiento de la posición de la placa según la presente invención;

la figura 5A ilustra píxeles de caracteres solapados que han de segmentarse según la presente invención;

la figura 5B es una proyección del contorno para determinar las posiciones de los caracteres de la figura 5A que han de segmentarse según la presente invención;

la figura 5C es una gráfica del coste de discriminación para determinar una ubicación para segmentar los caracteres de la figura 5A según la presente invención;

la figura 5D ilustra perfiles superior e inferior para determinar las alturas de los caracteres de la figura 5A que han de segmentarse según la presente invención;

la figura 6A ilustra píxeles para caracteres que se tocan y que han de segmentarse según la presente invención;

la figura 6B es una proyección del contorno para determinar las posiciones de los caracteres de la figura 6A que han de segmentarse según la presente invención;

la figura 6C es una gráfica del coste de discriminación para determinar una ubicación para la segmentación de los caracteres de la figura 6A según la presente invención;

la figura 6D ilustra perfiles superior e inferior para determinar las alturas de los caracteres de la figura 6A que han de segmentarse según la presente invención;

la figura 7 es un diagrama de flujo de un método de segmentación basado en el reconocimiento según la presente invención;

la figura 8 ilustra supuestas regiones de caracteres determinadas por un proceso de división directa según la presente invención;

la figura 9 es un árbol de decisión empleado para realizar una fusión inversa según la presente invención; y

las figuras 10A y 10B muestran ejemplos de k variable, una constante para ajustar límites de caracteres, usada para proporcionar una mayor puntuación de seguridad en el reconocimiento de caracteres.

Descripción detallada de realizaciones preferidas

La presente invención se refiere al reconocimiento de caracteres y, más en particular, a un método robusto para segmentar caracteres en una placa de matrícula para su reconocimiento. El reconocimiento automático de placas de matrícula de vehículos es particularmente útil para aplicaciones de gran precisión en las que se lleva a cabo la identificación de coches. El reconocimiento de placas de matrícula de vehículos es beneficioso en la monitorización y control del tráfico así como en el mantenimiento de registros del tráfico en tránsito, por ejemplo en una entrada a un aparcamiento. Para mejorar el rendimiento de la segmentación de caracteres, la presente invención realiza un procesamiento previo de las imágenes para tratar el sesgo de la placa y refinar la posición de la placa tras rotar la imagen. Esto es necesario para preparar los datos para un procesamiento posterior. Las imágenes de vehículos se deterioran debido a caracteres separados y que se tocan. La incapacidad de reconocer y segmentar estos caracteres tiene como resultado que el proceso de segmentación sea responsable de la mayoría de errores experimentados en los sistemas de reconocimiento.

La presente invención proporciona un método para separar de manera más precisa caracteres que se tocan y fusionar caracteres separados. La presente invención proporciona una función de discriminación potente y eficaz para identificar caracteres que se tocan basándose en un análisis diferencial de la distancia del contorno de caracteres. La presente invención también separa caracteres salientes que se solapan con caracteres vecinos.

En lugar de un esquema de funcionamiento de bucle abierto, la presente invención emplea un método de segmentación recursiva de manera condicional que puede extraer caracteres individuales, por ejemplo, de una placa de matrícula, con precisión y eficacia. Los métodos de la invención están interrelacionados entre segmentación y reconocimiento para comprobar si los caracteres de la placa se han segmentado correctamente basándose en el resultado del reconocimiento de caracteres. En una realización, para un procedimiento de división directa, se aplica selectivamente una función de discriminación a las supuestas regiones de caracteres que determina el mejor punto de separación si los caracteres se tocan o se solapan. A continuación, sigue un procedimiento de fusión inversa para recuperar la falsa segmentación debida a caracteres separados. Tanto el procedimiento de división como de fusión emplean la retroalimentación de clasificación de la etapa de reconocimiento de caracteres.

La invención cuenta con un clasificador que incluye una correlación de plantilla y redes neuronales. Esto aumenta ventajosamente la potencia de reconocimiento y proporciona mejores resultados de segmentación. La presente invención incluye además características basadas en reglas y características de medición en la segmentación de la placa. Esto incluye las normas y códigos de registro que establecen la apariencia de las placas (por ejemplo, códigos de ciudad/locales), campos alfanuméricos y tamaño de fuente del carácter. Ha de indicarse que los caracteres reconocidos por la presente invención en las placas de matrícula pueden variar y los caracteres pueden no estar fijados de manera uniforme.

Debería entenderse que los elementos mostrados en las figuras 1 y 7 pueden implementarse en varias formas de hardware, software o combinaciones de los mismos. Preferiblemente, estos elementos se implementan en software en uno o más procesamientos digitales de carácter general programado de manera apropiada que presentan un procesador y una memoria e interfaces de entrada/salida.

En referencia ahora de manera específica y detallada a los dibujos en los que los números de referencia iguales identifican elementos similares o idénticos en todas las diversas vistas, e inicialmente a la figura 1, se muestra un diagrama de bloque/flujo según la presente invención. En el bloque 10, se captura o adquiere una imagen, preferiblemente por una cámara digital que presenta un procesador y una memoria. En el bloque 11, la imagen se localiza para enfocar un área de interés (por ejemplo, una placa de matrícula). Esto puede designarse como localización aproximada.

En el bloque 12, se realiza un procesamiento previo de la imagen o segmentación para mejorar la tasa de reconocimiento. Sin un procesamiento previo adecuado, las posteriores etapas de segmentación y reconocimiento podrían resultar difíciles. Diversos métodos de procesamiento previo para el reconocimiento de redes neuronales, por ejemplo, pueden incluir ecualización de imágenes y/o caracteres. En el bloque 14, efectos tales como efectos de luz (por ejemplo, iluminación, distancia y/u orientación) deben tenerse en cuenta para lograr una imagen de referencia buena. Un ejemplo de estos efectos que es importante para el posterior procesamiento, es la normalización del brillo. El procesamiento específico para la segmentación, la detección de la inclinación de la placa (bloque 16) y el refinamiento de la posición de la placa de matrícula (bloque 18) se dan a continuación.

En el bloque 16, se detecta la inclinación o sesgo de la placa y se tiene en cuenta. La inclinación o sesgo de la placa tiene un efecto perjudicial sobre la segmentación de caracteres. Detectar la inclinación de una imagen placa de matrícula y corregirla mejora la precisión de la segmentación y el reconocimiento. Para estimar la inclinación de la placa de matrícula, su precisión depende de rasgos selectivos en la imagen de la placa.

Los algoritmos de detección de la inclinación para placas de matrícula de la técnica anterior se basan en píxeles locales mínimos y máximos extraídos de las regiones de caracteres. Un análisis de la distancia de dispersión de los píxeles distintivos a través de un conjunto de proyecciones ortogonales determina un posible ángulo de inclinación. Sin embargo, la precisión está sujeta al fondo del carácter. Si la placa tiene suciedad, ruido o iluminación no uniforme, entonces los puntos distintivos no deseados puede incluirse y la precisión resultante no es satisfactoria. En lugar de ello, la presente invención emplea el uso de puntos distintivos obtenidos de los bordes superior e inferior de los caracteres junto con un límite de placa, que es paralelo en la dimensión horizontal.

Un detector de bordes se aplica para identificar todos los bordes de carácter y los bordes de la placa en la dirección horizontal. Los puntos dominantes de los bordes se seleccionan entonces usando un umbral adaptativo basado en la desviación media y estándar. Por ejemplo, dado un ángulo de \theta grados girado con respecto a la posición central de la imagen, se calcula una proyección vertical de los puntos obtenidos en la etapa anterior, lo que da una matriz de proyección unidimensional P(\theta). Usando un tamaño de intervalo (bin) con una unidad de píxel en la resolución muestreada debido al pequeño ángulo de rotación, el ángulo de inclinación se determina como sigue. Para cada dirección de proyección, se calcula una función de coste, C(\theta), la suma del cuadrado de los valores acumulados de cada intervalo. Por lo tanto, C(\theta) se obtiene como:

(1)C(\theta) = \sum\limits^{n}_{i=1} p^{2}_{i} (\theta)

siendo P_{i}(\theta) el valor del intervalo de orden i encontrado para el ángulo \theta, y n el número de intervalos. El ángulo que da el C(\theta) máximo corresponde al ángulo de inclinación correcto. De hecho, debido una resolución de grado de la proyección, el C(\theta) máximo puede interpolarse adicionalmente a través de una función de ajuste cuadrático para mejorar la precisión. En una realización, el tiempo de cálculo se reduce limitando un intervalo de ángulo estimado. El intervalo de ángulo estimado puede limitarse dentro de una inclinación de 10 grados de modo que una búsqueda exhaustiva todavía pueda tener un buen resultado sin perjudicar la velocidad. Si la placa está inclinada en un ángulo grande, una búsqueda exhaustiva podría llevar tiempo, una búsqueda de aproximada a fina (tal como una búsqueda binaria o Fibonacci) puede resultar útil para reducir la cantidad de búsqueda necesaria para encontrar un máximo. Los métodos de mínimos cuadrados no lineales pueden emplearse también. El ángulo de inclinación se tiene en cuenta para ayudar al reconocimiento de caracteres de la placa.

En referencia a la figura 2, se traza un gráfico de la función de coste C(\theta) (coste) frente a un ángulo de rotación o ángulo de inclinación. Una placa de matrícula que ha de reconocerse, en este ejemplo, está inclinada en un ángulo con respecto al eje horizontal. El gráfico determina que un ángulo de inclinación de aproximadamente 4 grados está presente en la imagen de entrada de la placa de matrícula (por ejemplo, el coste más alto). Este ángulo se corrige entonces para dar una imagen con un ángulo de rotación de aproximadamente cero grados ajustando la imagen de la placa de matrícula.

En el bloque 18, se lleva a cabo el refinamiento de la posición de la placa. La imagen de salida de la localización (bloque 11) de la placa de matrícula normalmente da un área más amplia que incluye no sólo los caracteres de la placa sino también el marco de la placa y, posiblemente, el cuerpo del vehículo. Es necesario realizar una localización refinada que descarte regiones innecesarias pero que mantenga los caracteres de la placa. La presente invención realiza el refinamiento de la posición de la placa en las dimensiones vertical y horizontal teniendo en cuenta características tales como el límite de placa, el fondo de la placa y los caracteres de la placa.

En general, la mejor característica para facilitar el refinamiento de la posición es la presencia del límite de la placa en la imagen donde forma una forma rectangular y un entorno con zona texturizada. Al detectar los bordes verticales y horizontales y buscar la máxima longitud de los bordes de cada lado, el refinamiento puede realizarse de forma precisa. Sin embargo, para algunas placas de matrícula, si no pueden detectarse uno o más bordes debido a un fondo homogéneo con el cuerpo del vehículo, entonces pueden obtenerse errores importantes. En estos casos, se miden las características de los caracteres de la placa, es decir, altura y anchura.

La presente invención estima la altura de los caracteres en la imagen con la inclinación correcta. Se emplea una signatura de un número de transición de trazo como una característica de medición que corresponde a la existencia de un carácter. Suponiendo que una región candidata de placa tiene la dimensión MxN (píxeles), la función S(j) de proyección se define como la suma de todas las signaturas de caracteres en la fila:

(2)S(j) = \sum\limits^{M-1}_{i=0} r(i,j), 0\leq j\leq N-1

siendo r(i,j) el número de transiciones (objeto-fondo o fondo-objeto) en el píxel (i,j). Esta característica se calcula en la posible imagen binarizada de placa, es decir donde se sitúa la supuesta imagen de la placa de matrícula. La binarización se basa preferiblemente en una media local y una desviación estándar local sobre la imagen. El umbral en el píxel (i,j) se calcula como:

(3)T(i,j) = m(i,j) + k \cdot d(i,j)

siendo m(i,j) y d(i,j) los valores de la media de muestreo y la desviación estándar en una proximidad local de (i,j), respectivamente. En una realización preferida, una proximidad de 16x16 sirve para conservar detalles locales y minimizar efectos de ruido. El valor de k se usa para ajustar qué cantidad del límite del carácter se toma como parte de la imagen dada. Por ejemplo, k = -0,2 para dar caracteres de imprenta bien separados. Ha de observarse que una k constante puede dar como resultado variación de anchura entre caracteres debido a la iluminación no uniforme. El efecto de k correspondiente a un resultado de reconocimiento se ilustrará más adelante. Estadísticamente, el número de transición promedio por fila de zona texturizada es mucho mayor que el de zonas no texturizadas. Si S(j) se segmenta de manera adecuada, el resultado de la distancia de difusión máxima corresponderá a las alturas de los caracteres.

En referencia a la figura 3, se muestra una función S(j) de proyección en la que la altura de los caracteres es la distancia desde los valores de S(j) por encima de un umbral. El umbral de S(j) se obtiene de manera adaptativa basándose en un valor medio y en una desviación estándar de S(j). Una vez determinada la altura de los caracteres, se extrae posteriormente la región de interés en la dimensión vertical.

La anchura de los números de placa puede estimarse basándose en el conocimiento previo de la relación de la anchura de la placa y la altura de la placa, y sólo tiene que determinarse la posición central del número de placa en el eje horizontal. Puede implementare un método de variancia espacial para estimar esta posición. Si la variancia espacial se calcula a lo largo de una línea de la placa de matrícula (por ejemplo, horizontal), las regiones con una alta variancia espacial correspondes a regiones de texto, y las regiones con una baja variancia espacial corresponden a regiones sin texto. Por tanto, la posición asociado a la variancia mayor puede seleccionarse como la posición central del número de placa en el eje horizontal.

Con el análisis de los bordes de la placa, la precisión del refinamiento puede mejorarse y puede eliminarse una detección falsa. Después de haberse realizado el refinamiento a lo largo del eje horizontal, la región de interés se extrae nuevamente y se vuelve a muestrear a una resolución fija para una posterior segmentación y clasificación. La figura 4 muestra el resultado del refinamiento de la posición de la placa en diferentes fases del proceso.

En el bloque 20, se lleva a cabo la segmentación de caracteres. Esto incluye identificar los caracteres en la placa de matrícula separando imágenes de los caracteres para su reconocimiento. (Véase también el bloque 110 de la figura 7). Según la invención, el bloque 22 emplea una segmentación basada en el reconocimiento. En el bloque 22 se realiza la segmentación de caracteres que se tocan/solapan, si es necesario. Resolver la segmentación de caracteres que se tocan es importante para cualquier aplicación de reconocimiento óptico de caracteres (OCR). Se han desarrollado diversas técnicas en la técnica anterior que sufren una incapacidad para discriminar entre caracteres salientes (es decir, caracteres que se solapan con caracteres vecinos) o caracteres que se tocan con caracteres adyacentes.

La invención emplea una función de discriminación basada en la proyección del contorno. Considerando un carácter que se toca con la anchura W, una función V_{c}(k) de proyección de contorno se define como:

(4)V_{c}(k) = (k)inferior - (k)superior, k = 1,2,3,...,W

en la que la función (k)superior da una posición superior en el eje vertical vista desde el perfil superior del contorno externo de los caracteres que se tocan, y la función (k)inferior da una posición inferior en el eje vertical vista desde el perfil inferior del contorno externo de los caracteres que se tocan. Véase las figuras 5D y 6D para los perfiles superior e inferior del carácter saliente "17" en la figura 5A y los caracteres que se tocan "48" en la figura 6A, respectivamente. Utilizando la función de proyección anterior con varias columnas adyacentes, la función F_{c}(k) de discriminación de segmentación se define entonces como sigue:

\hskip1,8cm

1

siendo d una desviación de la posición de un carácter actual hacia posiciones de caracteres adyacentes. El intervalo de suma desde n1 hasta n2 indica todas las desviaciones posibles determinadas empíricamente basándose en el tamaño de los caracteres y la condición solapada en el texto. Dada la robustez de la presente invención, se encontró que n1=1 y n2=2 daban como resultado una buena capacidad de discriminación. También se contemplan otros valores para n1 y n2. Las figuras 5B y 6B muestran proyecciones V_{c}(k) de contorno en función de (k) para las figuras 5A y 6A, respectivamente. Las figuras 5C y 6C ilustran los valores de la función de discriminación, F_{c}(k) en función de k. Cada desviación d participa en los valores de la función de discriminación con aumentos significativos cercanos al punto de contacto de los caracteres. Empleando un umbral adecuado, se seleccionan posibles puntos de separación para ubicaciones en las que dividir la imagen. Debería observarse que la proyección de contorno propuesta sólo se aplica para caracteres sospechosos de haber fracasado durante la clasificación. Es redundante comprobar aquellos caracteres segmentados si pueden reconocerse con una buena medición de seguridad. Además, la proyección de contorno propuesta puede combinarse con una proyección de píxeles para identificar caracteres que se tocan que se mezclan con caracteres en minúsculas en documentos impresos a máquina.

La segmentación basada en el reconocimiento del bloque 22 se realiza según la presente invención. La segmentación basada en el reconocimiento busca en la imagen componentes de caracteres que coincidan con las clases en su alfabeto. El reconocimiento compara plantillas o emplea un clasificador estadístico para identificar caracteres y devolver una puntuación de seguridad basada en una probabilidad de que el carácter se haya identificado correctamente.

El principio de funcionamiento de la presente invención es bastante diferente de la segmentación de bucle abierto basada en distinguir los límites en todas las fuentes desde las regiones interiores, pero está unido íntimamente con el reconocimiento de caracteres. Las segmentaciones basadas en el reconocimiento de la técnica anterior utilizan una ventana deslizante de anchura variable para proporcionar secuencias de segmentaciones candidatas que se confirman por el reconocimiento de caracteres. La imagen de entrada puede generar múltiples secuencias variando la colocación y el tamaño de la ventana. La mejor secuencia asociada con la medición de mayor seguridad se escoge como un resultado de segmentación. Sin embargo, el problema con los métodos de la técnica anterior es que es difícil escoger una ventana adecuada en la prueba inicial, particularmente de caracteres separados de manera proporcional. Tsujimoto y Asada, en "Resolving ambiguity in segmenting touching characters", Primera Conferencia Internacional sobre análisis y reconocimiento de documentos, págs. 701-709, octubre de 1991, desarrollaron un algoritmo de segmentación-y-reconocimiento recursivo para segmentar caracteres que se tocan. Introdujeron una función de coste de separación que encuentra posiciones de separación provisionales, y después confirma esas posiciones de separación buscando un árbol de decisión construido por los resultados del reconocimiento. Desafortunadamente, su trabajo podría requerir un gran esfuerzo de cálculo si hay implicadas más posiciones de separación para construir un árbol de decisión.

En referencia a la figura 7, según la invención, se muestra un método de segmentación recursiva de manera condicional que implementa un procedimiento de división directa y fusión inversa y se basa en la salida del reconocimiento. En el bloque 100, se realiza una segmentación previa sobre una imagen, por ejemplo una imagen de placa de matricula como descrito anteriormente. En el bloque 110, se realiza una segmentación inicial. La imagen de entrada se segmenta en regiones basándose en una proyección vertical que puede eliminar muchos posibles errores para la prueba inicial. Como una desviación de la proyección de píxeles negros convencional, la función de proyección se obtiene seleccionando el píxel más oscuro de cada columna. La proyección vertical incluye aplicar un filtro de paso bajo al perfil de proyección. Entonces, las posiciones diferenciadas entre caracteres se determinan mediante la resta de la función de proyección original y la función de filtrado. El motor de reconocimiento se emplea preferiblemente como una comprobación. Si la imagen segmentada incluye una puntuación de seguridad por debajo de un umbral, el proceso se repite después de haber dividido o combinado caracteres sospechosos.

Tras la segmentación inicial, cada región resultante (es decir, región supuesta o potencial de carácter) puede clasificarse como un carácter separado, un carácter individual, un carácter que se toca o un símbolo desconocido. Si la placa de matrícula tiene una buena calidad de imagen, casi todas las regiones segmentadas pueden clasificarse con una medición de seguridad alta que indica un carácter reconocido en esta fase. Sin embargo, la mayoría de imágenes de placas de matrícula no se encuentran en esta condición. Si las regiones dan como resultado caracteres no reconocidos, cada uno de ellos se comprobará por un análisis de componentes para eliminar por filtrado pequeños componentes tales como tornillos o pernos presentes en la imagen de la placa de matrícula.

En el bloque 114 se aplica entonces la función de discriminación descrita para separar caracteres que se tocan a aquellas regiones de tamaño excesivo para ver si pueden dividirse adicionalmente. Resulta práctico asumir que el coste asociado de la función de discriminación es superior al umbral definido de modo que pueda evitarse una división innecesaria. El procedimiento de división directa del bloque 114 va seguido inmediatamente de un reconocimiento recursivo que vuelve al bloque 114 hasta que no se encuentren puntos de separación en regiones sospechosas en la que se obtiene una puntuación de seguridad baja para reconocer el carácter en cuestión. En la figura 8 se muestra un ejemplo en el que seis regiones de caracteres (1-6), tal como se indica entre flechas, indican posiciones en las que dividir la imagen del carácter.

En el bloque 116 se realiza un proceso de fusión inversa para evaluar regiones en la imagen para determinar si puede lograrse una mayor seguridad combinando regiones. Se trata de un proceso de reconocimiento recursivo tal como se indica por el bucle de retroalimentación en la figura 7. En referencia a la figura 9, cada nodo 200 para cada región 1-6 de caracteres sospechosos (véase la figura 8) podría formar un carácter real dependiendo del reconocimiento de la región. Cuando un nodo puede clasificarse con una medición de seguridad significativa, el resultado se almacena en el nodo relevante. Entonces se procesan los nodos posteriores que son las posibles combinaciones de las regiones restantes. Los nodos que dan un reconocimiento pobre no se evalúan adicionalmente (por ejemplo nodos con * en la figura 8). Cada evaluación posterior se limita a sólo la proximidad en la región en cuestión y a sus 2 nodos adyacentes contiguos. Esto reduce el tiempo de cálculo. El árbol se construye hasta que no quedan regiones. El camino más probable a través del árbol se seleccionará como la segmentación correcta, y el reconocimiento correspondiente estará disponible inmediatamente. Si ninguno de los caminos da como resultado un buen reconocimiento, pueden evaluarse ramas menos probables. Por ejemplo, considerando la figura 8, la región 1 se determina en el nodo 200a como que no incluye un carácter reconocido (se coloca un * en el nodo). El proceso considera entonces las regiones 1 y 2 en el nodo 200b. Se reconoce una "N" con suficiente seguridad. En el nodo 200c se comprueban las regiones 1, 2 y 3, pero la evaluación no da resultados con un nivel de seguridad suficiente. El procesamiento continúa tal como se muestra.

En el bloque 115 se realiza el reconocimiento de caracteres según la presente invención. El reconocimiento de caracteres puede realizarse de una pluralidad de formas diferentes. En realizaciones particularmente útiles, pueden emplearse una red neuronal, correspondencia de plantillas o una combinación de ambas. La correspondencia de plantillas se describirá ahora más detalladamente.

El método de segmentación de la presente invención depende para su precisión del método de reconocimiento de caracteres que se aplica a las regiones divididas. Es independiente de ese algoritmo en el sentido de que puede emplearse cualquier método de reconocimiento con la segmentación. Por lo tanto, además de la red neuronal que sirve como motor OCR, la presente invención implementa la correspondencia de plantillas para facilitar adicionalmente la tarea de reconocimiento. La correspondencia de plantillas se aplica a regiones segmentadas encerradas por rectángulos con componentes conectados en las regiones que presentan un tamaño medio. Además, las regiones (con un carácter o parte del mismo) se reconocen por la red neuronal con una medición de seguridad menor (por debajo de un umbral). En tal caso, la región de interés se binariza primero y se ajusta a escala al mismo tamaño de las plantillas en una base de datos. Por ejemplo, 15x25 o 20x30 píxeles. Un índice de correspondencia normalizado con el intervalo de -1 y 1 se define como la medición de seguridad obtenida por la comparación píxel a píxel entre la imagen simbólica guardada y la imagen de objeto de entrada. A medida que la medición de seguridad se aproxima a 1, se clasifican las imágenes guardadas (muestras virtuales) asociadas con símbolos de carácter, lo que implica una correspondencia perfecta (seguridad 1) de que la imagen de entrada es la misma que la de la guardada, y viceversa. Puede elegirse un umbral de aproximadamente 0,5 para eliminar por filtrado caracteres no correspondientes. El umbral puede ajustarse según la aplicación. La correspondencia de plantillas proporciona una búsqueda exhaustiva en una base de datos almacenada que incluye una variedad de imágenes de símbolos, incluyendo diferentes tamaños y estilos del mismo carácter, varios efectos de iluminación, sombras, imágenes borrosas, etc.

En el proceso de correspondencia, debería observarse que los píxeles de fondo que coinciden normalmente no se tienen en cuenta, ya que desvía enormemente el índice de correspondencia. Sin embargo, si se considera un orificio como una estructura, el conjunto de píxeles de fondo en el orificio se acepta como un carácter. Para ello, los orificios se marcan con un valor de píxel distinto de los usados para los píxeles de fondo y de objetos. Entonces, se combina una caja adicional (es decir, los píxeles de orificios) para la correspondencia. Esencialmente, los píxeles de orificios se tratan del mismo modo que los píxeles de objetos, pero son una clase distinta y no coinciden con un píxel de objeto.

El método de Niblack puede adaptarse para la binarización de imágenes basándose en la media local y la desviación estándar local sobre la imagen. (Véase por ejemplo O.D. Trier, et al., "Goal-directed evaluation of binarization methods", IEEE Transaction on Pattern Analysis and Machine Intelligence, vol. 17, nº 12, págs. 1191-1201, diciembre de 1995). En la ecuación 3, el valor de k se usa para ajustar qué cantidad del límite del carácter se toma como parte de la imagen dada. A medida que el entorno de la imagen cambia, es probable que las anchuras de los caracteres varíen en diferentes niveles. Una k constante puede no ser adecuada para dar una buena correlación. Por lo tanto, se derivan múltiples umbrales basándose en la variación de k. En una realización, si k aumenta de -0,5 a 0,5 en un intervalo de 0,25, es una buena selección que abarca una gran variación en símbolos del conjunto de datos. Las figuras 10A y 10B muestran cómo los diferentes umbrales afectan a los límites de los caracteres. La imagen 400 y 410 son la imagen que va a cotejarse. Al variar k puede obtenerse una mejor correspondencia para cada imagen. La imagen 400 tiene una mayor seguridad cuando k=0,5 en la figura 10A, y la imagen 410 tiene una seguridad mayor cuando k=0,0 en la figura 10B.

Los inventores llevaron a cabo experimentos según la presente invención empleando una cámara inteligente. El rendimiento del sistema se basó en la tasa de reconocimiento global de placas de matrícula enteras a distancias variables y con efectos de iluminación variables. Los cambios de iluminación se realizaron variando la apertura de la lente con número f 2, 2,4 y 4. Debería observarse que la tasa de reconocimiento definida aquí es en términos de número de placas de matrícula en lugar de número de caracteres.

Un bucle cerrado de la fase de reconocimiento y segmentación aumenta la robustez respecto a los efectos de cambios ambientales. Aunque la presente invención se ha demostrando usando placas de matrícula alemanas, los algoritmos son generales y pueden extenderse a diferentes nacionalidades de placas de matrícula así como a otras tareas de reconocimiento de caracteres.

En el sistema de reconocimiento de placas de matrícula automatizado, muchos errores de lectura están provocados por una segmentación de caracteres inadecuada. En particular, la segmentación de caracteres se vuelve difícil cuando las imágenes adquiridas de los vehículos están gravemente deterioradas. La presente invención utiliza técnicas de visión por ordenador y propone un método segmentación basado en el reconocimiento junto con una correspondencia de plantillas y una red neuronal. Esto mejora la precisión del sistema de reconocimiento que tiene como objetivo leer automáticamente placas de matrícula. En la presente memoria se describen mejoras algorítmicas para una segmentación basada en proyecciones. En la fase de procesamiento previa, se desarrollan métodos de refinamiento de la posición y la detección de sesgos de la placa, para preparar los datos para el procesamiento posterior. Para separar caracteres que se tocan se presenta una función de discriminación basada en un análisis diferencial de la distancia del contorno de caracteres. Se desarrolla una segmentación recursiva de manera condicional con la retroalimentación del reconocimiento para dividir de manera efectiva caracteres que se tocan y fundir caracteres separados.

Una vez descritas las realizaciones preferidas para el método de segmentación de caracteres para el reconocimiento de placas de matrícula de vehículos (que pretenden ser ilustrativas y no limitativas), ha de observarse que los expertos en la técnica pueden realizar modificaciones y variaciones a la luz de las enseñanzas anteriores. Por lo tanto, ha de entenderse que pueden realizarse cambios en las realizaciones particulares de la invención descritas que se encuentren dentro del alcance de la invención tal como se expone en las reivindicaciones adjuntas.

Claims

```
\global\parskip0.930000\baselineskip
```
1. Método para segmentar y reconocer placas de matrícula que comprende las etapas de:

capturar (10) una imagen de una placa de matrícula;

procesar (11) previamente la imagen para preparar la imagen para la segmentación y el reconocimiento;

dividir (114) directamente regiones de la imagen de la placa de matrícula en supuestas regiones de caracteres;

reconocer (115) las supuestas regiones de caracteres en la imagen de la placa de matrícula y proporcionar una puntuación de seguridad basada en una probabilidad de coincidencia correcta;

si los supuestos caracteres tienen una puntuación de seguridad por debajo de un valor umbral, fusionar (116) inversamente supuestas regiones de caracteres adyacentes para evaluar regiones en la imagen para determinar si puede lograrse una mayor seguridad al combinar regiones;

reconocer las supuestas regiones de caracteres fusionadas inversamente en la placa de matrícula; y

si las supuestas regiones de caracteres fusionadas inversamente tienen una puntuación de seguridad por debajo del valor umbral, repetir las etapas de fusión inversa y de reconocimiento;

en el que la etapa de procesamiento previo de la imagen para preparar la imagen para la segmentación y el reconocimiento incluye las etapas de:

refinar (18) una posición de la placa de matrícula:

determinando una altura de los caracteres en la imagen de la placa de matrícula empleando una función de proyección;

calculando una variancia espacial para determinar una posición central de los caracteres;

empleando la posición central y la altura de los caracteres para reducir un tamaño de una región de interés detectando los bordes de un límite de placa y calculando una longitud de los bordes para identificar la región de interés.
2. Dispositivo de almacenamiento de programas legible por ordenador, que incorpora de manera tangible un programa de instrucciones ejecutable por el ordenador para realizar las etapas del método para segmentar y reconocer placas de matrícula, comprendiendo el método las etapas de:

capturar (10) una imagen de una placa de matrícula;

procesar (11) previamente la imagen para preparar la imagen para la segmentación y el reconocimiento;

dividir (114) directamente regiones de la imagen de la placa de matrícula en supuestas regiones de caracteres;

reconocer (115) las supuestas regiones de caracteres en la imagen de la placa de matrícula y proporcionar una puntuación de seguridad basada en una probabilidad de coincidencia correcta;

si los supuestos caracteres tienen una puntuación de seguridad por debajo de un valor umbral, fusionar (116) inversamente supuestas regiones de caracteres adyacentes para evaluar regiones en la imagen para determinar si puede lograrse una mayor seguridad al combinar regiones;

reconocer las supuestas regiones de caracteres fusionadas inversamente en la placa de matrícula; y

si las supuestas regiones de caracteres fusionadas inversamente tienen una puntuación de seguridad por debajo del valor umbral, repetir las etapas de fusión inversa y de reconocimiento;

en el que la etapa de procesamiento previo de la imagen para preparar la imagen para la segmentación y el reconocimiento incluye las etapas de:

refinar (18) una posición de la placa de matrícula:

determinando una altura de los caracteres en la imagen de la placa de matrícula empleando una función de proyección;

calculando una variancia espacial para determinar una posición central de los caracteres;

empleando la posición central y la altura de los caracteres para reducir un tamaño de una región de interés detectando los bordes de un límite de placa y calculando una longitud de los bordes para identificar la región de interés.
3. Método según la reivindicación 1 o dispositivo de almacenamiento de programas según la reivindicación 2, en los que la etapa de reconocer (115) supuestas regiones de caracteres en la imagen de la placa de matrícula incluye determinar regiones con una puntuación de seguridad por debajo de un umbral, y la etapa de dividir (114) directamente regiones incluye la etapa de segmentar caracteres que se tocan o solapan en supuestas regiones de caracteres adyacentes empleando una función de discriminación basada en proyecciones de contorno de los caracteres.
4. Método o dispositivo de almacenamiento de programas según la reivindicación 3, en los que la etapa de segmentar caracteres que se tocan o se solapan se aplica de forma iterativa para lograr el valor umbral de una puntuación de seguridad.
5. Método o dispositivo de almacenamiento de programas según la reivindicación 1 ó 2, en los que la etapa de reconocer (115) supuestas regiones de caracteres en la imagen de la placa de matrícula y proporcionar una puntuación de seguridad basada en una probabilidad de una coincidencia correcta incluye la etapa de reconocer caracteres en la imagen de la placa de matrícula empleando al menos una red neuronal y una correspondencia de plantillas.
6. Método o dispositivo de almacenamiento de programas según la reivindicación 1 ó 2, en los que la etapa de reconocer las supuestas regiones de caracteres fusionadas inversamente en la placa de matrícula incluye la etapa de reconocer caracteres en la imagen de la placa de matrícula empleando al menos una red neuronal y una correspondencia de plantillas.
7. Método o dispositivo de almacenamiento de programas según la reivindicación 1 ó 2, en los que la etapa de procesamiento previo de la imagen para preparar la imagen para la segmentación y el reconocimiento incluye las etapas de:

detectar una inclinación previa (16) en la imagen de la placa de matrícula detectando bordes y seleccionado puntos distintivos para determinar una matriz de proyección en los bordes;

seleccionar la matriz de proyección que tiene un mayor coste para determinar un ángulo de rotación; y

corregir la imagen de la placa de matrícula según el ángulo de rotación.
8. Método o dispositivo de almacenamiento de programas según la reivindicación 1 ó 2, en los que la etapa de procesamiento previo de la imagen para preparar la imagen para la segmentación y el reconocimiento incluye las etapas (14) de:

proporcionar un perfil de proyección de intensidades de píxeles a través de líneas verticales de píxeles de la imagen;

filtrar el perfil de proyección; e

identificar ubicaciones de los caracteres en la imagen ilustrada por el área por debajo de un valor umbral en el perfil de proyección filtrado.
9. Método o dispositivo de almacenamiento de programas según la reivindicación 1 ó 2, que comprenden además la etapa de extraer caracteres reconocidos de la imagen de la placa de matrícula.
10. Método o dispositivo de almacenamiento de programas según la reivindicación 1 ó 2, que comprenden además la etapa de comparar caracteres reconocidos y bloques de caracteres con códigos de placas de matrícula predeterminados y convenciones para comprobar la precisión del reconocimiento.
11. Método según cualquiera de las reivindicaciones de método anteriores:

en el que la división (14) directa de regiones de la imagen de la placa de matrícula en supuestas regiones de caracteres es mediante segmentación de caracteres que se tocan o se solapan en supuestas regiones de caracteres adyacentes, empleando una función de discriminación basada en proyecciones de contorno de los caracteres;

y en el que la fusión (116) inversa de supuestas regiones de caracteres adyacentes tiene lugar si los supuestos caracteres tienen una puntuación de seguridad por debajo de un valor umbral distinto del debido a caracteres que se tocan o solapan;

comprendiendo además las etapas de comparar caracteres reconocidos y bloques de caracteres con códigos de placas de matrícula predeterminados y convenciones para comprobar la precisión del reconocimiento; y

extrayendo los caracteres reconocidos de la imagen de la placa de matrícula.