ES2610467T3

ES2610467T3 - Reconocimiento óptico de caracteres de baja resolución para documentos adquiridos con cámara

Info

Publication number: ES2610467T3
Application number: ES05104250.5T
Authority: ES
Inventors: Charles E. Jacobs; James R. Rinker; Patrice Y. Simard; Paul A. Viola
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2004-05-20
Filing date: 2005-05-19
Publication date: 2017-04-27
Anticipated expiration: 2025-05-19
Also published as: EP1598770B1; KR101114135B1; JP2011008802A; CN100446027C; US20050259866A1; EP1598770A2; EP1598770A3; JP5073022B2; KR20060046128A; JP4698289B2; US7499588B2; CN1737822A; JP2005346707A

Abstract

Un sistema que facilita el reconocimiento óptico de caracteres, OCR, de símbolos de baja resolución, en el que una cadena de símbolos es representativa de una palabra, y en el que los símbolos representan caracteres, que comprende: un componente de segmentación para detectar espacios entre los símbolos para determinar las líneas de texto, y para fragmentar las líneas de texto en palabras individuales; y un componente de reconocimiento para reconocer caracteres (206) usando un reconocedor de caracteres basado en el aprendizaje de máquina para explorar a través de cada una de las palabras individuales para predecir qué carácter es probable que se presente en una localización determinada, para reconocer el signo de puntuación y para reconocer las palabras; en el que dicho reconociendo de un signo de puntuación se usa para identificar si un carácter final de una palabra es un signo de puntuación, que comprende: determinar un carácter más probable para cada posible posición de carácter final de la palabra; generar una puntuación para cada carácter más probable; determinar si la palabra es una palabra puntuada, en el que la palabra es una palabra puntuada si el carácter más probable con la puntuación más alta es un signo de puntuación y si la puntuación del carácter más probable con la puntuación más alta está por encima de un umbral predeterminado; y en el que dicho reconocimiento de palabras comprende: reconocer la palabra usando el resto de la palabra sin el signo de puntuación, y añadir el signo de puntuación a la palabra reconocida; y reconocer las palabras (208) individuales reconciliando una secuencia de salidas del reconocedor de caracteres con una palabra específica usando una programación dinámica y un diccionario.

Description

imagen1

imagen2

imagen3

imagen4

imagen5

imagen6

imagen7

imagen8

5

10

15

20

25

30

35

40

45

50

55

Haciendo referencia ahora a la figura 22, se ilustra una tabla 2200 de programación dinámica de muestra para una optimización del modelo de diccionario de acuerdo con la presente invención que se usa para determinar una asignación óptima de observaciones 2202 para las letras de una palabra específica. En una implementación, el reconocedor de palabras intenta encontrar qué palabra de un diccionario de palabras es la coincidencia más probable para una imagen de entrada dada. Si no hay una palabra lo suficientemente plausible en el léxico para describir la imagen, el sistema recurre a un procedimiento anterior.

En una primera implementación, se emplea una versión del reconocedor basado en el diccionario que simplemente explora linealmente a través de todo el léxico, evaluando la probabilidad para cada palabra, y emitiendo la palabra más probable. Una segunda implementación describe una organización alternativa que permite el intercalado de la optimización de programación dinámica con el recorrido del diccionario para calcular más rápidamente la palabra más probable.

En este problema, cada columna de la tabla 2200 de programación dinámica representa los subproblemas que terminan en una posición específica (hueco) en la secuencia de entrada, y cada fila de la tabla representa una letra de la palabra en cuestión. Una entrada en la columna c y la fila r de la tabla 2200 representa una palabra parcialmente reconocida que termina en el hueco c, y que termina con la letra representada por fila r. En esta localización de la tabla se almacena un puntero de vuelta a la letra y al hueco anterior donde termina la letra, así como, a una puntuación acumulada.

Un procedimiento de puntuación similar se usa para la segunda aplicación del reconocedor de palabras, la probabilidad de que la observación coincida con la letra implícita de la celda actual, los tiempos de un factor de escalado que dependen de la anchura de hueco y la anchura media del carácter. Una vez más, la puntuación acumulada es la puntuación de la celda actual más la puntuación acumulada para la celda que representa la solución parcial anterior. Una vez que se ha completado el llenado de la tabla, la puntuación óptima para la palabra se almacena en la celda final (superior derecha). Esta puntuación se normaliza a continuación, dividiendo por el número de letras de la palabra. Sin esta normalización, las palabras largas con letras con relativamente mal puntuación pueden acumular puntuaciones altas y vencer a palabras más cortas que tienen muy buenas puntuaciones de letra. Por lo tanto, se desea maximizar la puntuación para cada letra.

Ya que muchas palabras en el diccionario comparten prefijos con otras palabras, hay una duplicación del trabajo calculando esta información compartida para cada palabra. Por ejemplo, considérese una tabla de programación dinámica empleada para encontrar la puntuación de la palabra “FOOL”. Esta tiene las mismas primeras tres filas en el ejemplo anterior “FOOD”. Por lo tanto, se desea una manera de compartir estas filas idénticas al calcular las puntuaciones de las palabras con prefijos comunes.

Cabe señalar que algunas celdas no necesitan llenarse, ya que es imposible para cualquier carácter que no sea el primero en ocupar el primer hueco, y cada letra solo puede ser responsable de hasta cuatro huecos. La ruta óptima está representada por las flechas que se mueven a lo largo de las celdas con los más altos valores observados.

Haciendo referencia ahora a la figura 23, se ilustra un diagrama 2200 de diccionario de búsqueda basado en un árbol de prefijos de acuerdo con la presente invención. Un árbol de prefijos (derivado de recuperación) es una estructura de datos o estructura de árbol de posición k-aria para almacenar cadenas en las que hay un nodo para cada prefijo común. Las cadenas se almacenan en los nodos hoja adicionales. Los árboles de prefijos se usan para implementar un tipo de datos de abstracción (ADT) de diccionario, donde pueden realizarse operaciones básicas como anular, buscar, insertar y suprimir. Pueden usarse para codificar y comprimir y, buscar expresiones regulares y hacer coincidir cadenas aproximadas.

Una solución es crear y evaluar una fila de la tabla 2200 (de la figura 22) a la vez que se recorre el diccionario. Para recorrer el diccionario en un orden que maximiza la cantidad de cálculos reutilizados, el diccionario está dispuesto en la estructura 2300 de árbol de prefijos. Cualquier nodo 2302 en el árbol 2300 de prefijos representa o una palabra parcial o una palabra completa (o, ambos -“fool” es una palabra y también un prefijo de “foolish”). A medida que se recorre el árbol de prefijos de diccionario, se construye la tabla de programación dinámica. Durante la visita a un nodo, se crea una nueva “fila” 2304 para esta tabla 2300 virtual que corresponde a la letra representada por ese nodo en el árbol de prefijos, y la fila se llena con las puntuaciones.

Por lo tanto, el árbol 2300 de prefijos resultante tiene un nodo “F” de nivel superior al que está asociada la fila “F” de los valores de la tabla 2200 de diccionario de la figura 22. Recorriendo hacia abajo, un segundo nodo (un primer nodo “O”) tiene una primera fila “O” asociada de la tabla 2200. Continuando, un tercer nodo (un segundo nodo “O”) tiene la fila correspondiente asociada con el mismo de la tabla 2200. Este tercer nodo tiene una primera rama que corresponde a un nodo “D” de la palabra “FOOD” y una segunda rama que corresponde a un nodo “L” de la palabra “FOOL”. El nodo “D” se asocia con la línea “D” de la tabla 2200. Se realiza una valoración de fila similar, pero más baja y se asocia con el nodo “L”.

Cabe señalar que el único contexto necesario para esta operación es la fila anterior, que se pasa como parámetro a la rutina de recorrido de árbol de prefijos recursiva. Si el nodo en cuestión representa una palabra completa, puede observarse la última entrada de la fila para encontrar la suma de las puntuaciones de las letras de esa palabra. Una

10 5

10

15

20

25

30

35

40

45

50

55

vez más, la suma de las puntuaciones de letra se divide por la longitud de la palabra para obtener la puntuación final de la palabra. Cuando termina el recorrido del árbol de prefijos, se devuelve la palabra de mayor puntuación encontrada.

Hay algunas optimizaciones heurísticas que aceleran inmensamente el cálculo. En primer lugar, solo visitar las palabras que comienzan con las letras que son propensas a ser la letra inicial de la palabra. Esta optimización proporciona un aumento de varias veces en la velocidad, en especial para las palabras que comienzan con las letras poco comunes. Otro aumento de velocidad proviene del recorte de la búsqueda de manera que no se siguen los enlaces en el árbol de prefijos que son poco probables que resulten en una palabra de alta puntuación. Si la puntuación media de las letras del prefijo de palabra en un nodo dado (el valor en la entrada final de la columna, dividido por el número de letras) es peor que un umbral, se supone que no importa cuán buena sea la puntuación de palabra de las letras restantes, ya que nunca será lo suficientemente buena para hacer que el promedio supere la mejor palabra vista hasta ahora. Esta segunda optimización proporciona un aumento significativo en la velocidad sin comprometer notablemente los resultados.

El signo de puntuación plantea un problema al reconocedor de palabras basado en el diccionario, en que las palabras con un signo de puntuación de arrastre pueden no estar presentes en el léxico. Haciendo referencia ahora a la figura 24, se ilustra una metodología de detección de signo de puntuación de acuerdo con la presente invención. Antes de que una secuencia de localizaciones de reconocimiento se pase al reconocedor de palabras, el sistema determina la probabilidad de que el último carácter de la palabra sea un signo de puntuación, como se indica en 2400. Si es así, se usa el reconocedor de caracteres para identificar el signo de puntuación específico. Con el fin de determinar si el carácter final es un signo de puntuación, el sistema busca el carácter más probable para cada posible posición de carácter final, como se indica en 2402. En 2404, se genera una puntuación para cada carácter más probable. En 2406, cada puntuación se compara con un umbral predeterminado. En 2408, el sistema determina si la puntuación ha superado el umbral. Si la puntuación más alta entre estas salidas del reconocedor de caracteres está por encima de un umbral, el flujo es hacia 2410 para considerar también si el carácter es más probable un signo de puntuación. Si se dan ambas situaciones, el flujo es hacia 2412 donde se supone que es una palabra puntuada. El resto de la palabra se envía a continuación al reconocedor basado en el diccionario, como se indica en 2414. En 2416, el signo de puntuación se añade a continuación al resultado del reconocedor de palabras. A continuación, el procedimiento llega a un bloque de parada. Si la puntuación no supera el umbral, o si lo hace, pero no se considera un signo de puntuación, el flujo es de 2408 y 2410 hacia el bloque de parada.

Haciendo referencia ahora a la figura 25, se ilustran los resultados 2500 de una muestra 2502 captada de acuerdo con la arquitectura de la presente invención. El procesamiento se ve facilitado por una interfaz de usuario que produce una ventana 2506 para visualizar una comparación de lado a lado del texto 2502 captado y los resultados 2500 procesados. En este ejemplo, el sistema realiza el OCR correctamente de 104 de 118 caracteres y signos de puntuación. Los resultados son mejores si se ignora la separación de sílabas, en donde los fragmentos de palabras asociadas no están en el diccionario. En esta interfaz, el usuario puede seleccionar entre no modo de lenguaje, un modelo de frecuencia, y el modelo de diccionario.

Haciendo referencia ahora a la figura 26, se ilustra una comparación de modelos de lenguaje a lo largo de una parte del texto captado de acuerdo con la arquitectura de la presente invención. A la izquierda, se usa el modelo de diccionario, y se muestra una tasa de reconocimiento mucho más alta que la mostrada a la derecha, que no usa un modelo.

CLASIFICADOR

Como se ha indicado anteriormente en el presente documento, la presente invención puede emplear diversos esquemas basados en inteligencia artificial para realizar diversos aspectos de la invención objeto. Por ejemplo, puede facilitarse un procedimiento para determinar un umbral para determinar si un carácter es un signo de puntuación a través de un sistema y procedimiento clasificador automático.

Un clasificador es una función que mapea un vector de atributo de entrada, x = (x1, x2, x3, x4, xn), a una confianza en que la entrada pertenece a una clase, es decir, f(x) = confianza (clase). Tal clasificación puede emplear un análisis probabilístico y/o basado en la estadística (por ejemplo, la factorización en las utilidades de análisis y los costes) para pronosticar o deducir una acción que un usuario desea que se realice automáticamente.

Una máquina de vectores de soporte (SVM) es un ejemplo de un clasificador que puede emplearse. La SVM opera encontrando una hipersuperficie en el espacio de posibles entradas, hipersuperficie que intenta dividir los criterios de activación a partir de los eventos no activados. Intuitivamente, esto hace que la clasificación correcta de los datos de prueba sea próxima, pero no idéntica a los datos de adiestramiento. Se incluyen otros enfoques dirigidos y no dirigidos del modelo de clasificación, por ejemplo, puede emplearse el bayesiano ingenuo, las redes bayesianas, los árboles de decisión, y los modelos de clasificación probabilísticos que proporcionan diferentes patrones de independencia. La clasificación como se usa en el presente documento, incluye también la regresión estadística que se utiliza para desarrollar modelos de prioridad.

11 5

15

25

35

45

55

Como se apreciará fácilmente a partir de la especificación objeto, la invención objeto puede emplear clasificadores que están adiestrados explícitamente (por ejemplo, a través de unos datos de adiestramiento genérico), así como adiestrados implícitamente (por ejemplo, a través de la observación del comportamiento del usuario que recibe la información extrínseca). Por ejemplo, las SVM se configuran a través de una fase de aprendizaje o de adiestramiento dentro de un constructor clasificador y un módulo de selección de características. Por lo tanto, el clasificador(s) puede usarse para realizar automáticamente una serie de funciones, que incluyen, pero no se limitan a lo siguiente: determinar el contexto sustantivo del documento con el fin de resolver mejor el símbolo reconocido; y realizar un procesamiento de bigrama, trigrama etc., para aumentar la probabilidad de que la palabra actual sea correcta. Por ejemplo, si la palabra se reconoce inicialmente como “wosd”, la palabra anterior o siguiente (bigrama) también podría procesarse. Si la palabra siguiente es procesador, es más probable que “wosd” deba ser “word”.

En otra implementación, el contenido de la palabra puede analizarse para aumentar la tasa de reconocimiento. Por ejemplo, si la palabra es money, y una palabra reconocida posterior es securities, y puede hacerse una inferencia de que el contenido puede tratarse de finanzas, valores, o similares. De este modo, el sistema puede activar automáticamente uno o más modelos de lenguaje que incluyen términos y/o capacidades relacionadas con la resolución de estos términos. Por otra parte, tal modularización del modelo de lenguaje facilita los requisitos de datos reducidos en que el dispositivo informático en el que se emplea la novedosa arquitectura se utiliza principalmente en un entorno financiero, solo el módulo(s) de lenguaje de este tipo necesita instalarse o ponerse a disposición en el dispositivo. Esto está en contraste con proporcionar un modelo de lenguaje de cajón de sastre que puede sobrecargar las capacidades de almacenamiento y/o las capacidades de procesamiento del dispositivo en el que está instalado.

En otra aplicación más, el clasificador pueden emplearse para estimar el número de símbolos a resolver y deducir, de manera que si el número de símbolos es dos, por ejemplo, es más que probable que la palabra sea un pronombre o artículo. En consecuencia, tal preprocesamiento de la palabra relacionada puede emplearse antes de que se habiliten otros modelos de lenguaje.

El clasificador también puede usarse para ajustar automáticamente los umbrales usados para determinar el signo de puntuación, y otros símbolos a reconocerse. Este ajuste puede basarse en el contenido correctamente reconocido por el que avanza el procedimiento de OCR. Es decir, existe un mecanismo de retroalimentación que automáticamente impacta en el umbral basado en la historia.

El umbral también puede ajustarse automáticamente basándose en la importancia del contenido. Por ejemplo, a medida que avanza el procedimiento de OCR, si se determina que las palabras reconocidas son cada vez más relacionadas con un documento contractual legal, el clasificador puede hacer que el sistema eleve el umbral para mejorar la precisión (también, para registros médicos, por ejemplo), e incluso volver a ejecutar el procedimiento, si se desea. Considerando que, si el contenido está determinado a estar más relacionado con una lista de la compra, el umbral podría relajarse a medida que el procedimiento de OCR continua.

Muchos otros usos para el clasificador incluyen hacer inferencias basadas en el tamaño del símbolo, el tipo de signo de puntuación, duración de las frases, el tipo de símbolo en relación a su localización en una cadena de símbolos, etc.

Obsérvese que la novedosa arquitectura no se limita al empleo de una red neuronal convolucional para el reconocimiento de caracteres. Puede emplearse un procedimiento de cálculo o de clasificación total de los resultados en cada posición en el documento, y obtener la programación dinámica sin el procesamiento convolucional. Sin embargo, en una implementación menos robusta, esto podría afectar al rendimiento del sistema.

Haciendo referencia ahora a la figura 27, se ilustra un diagrama de bloques de un ordenador que puede operar para ejecutar la arquitectura desvelada. Con el fin de proporcionar un contexto adicional para diversos aspectos de la presente invención, la figura 27 y la siguiente exposición están destinados a proporcionar una breve descripción general de un entorno 2700 informático adecuado en el que pueden implementarse los diversos aspectos de la presente invención. Aunque la invención se ha descrito anteriormente en el contexto general de las instrucciones ejecutables por ordenador que puede ejecutarse en uno o más ordenadores, los expertos en la materia reconocerán que la invención también puede implementarse en combinación con otros módulos de programa y/o como una combinación de hardware y software.

En general, los módulos de programa incluyen rutinas, programas, componentes, estructuras de datos, etc., que realizan tareas específicas o implementan tipos de datos abstractos específicos. Por otra parte, los expertos en la materia apreciarán que los procedimientos de la invención puedan practicarse con otras configuraciones de sistemas informáticos, incluyendo sistemas informáticos multiprocesador o de un solo procesador o, miniordenadores, ordenadores centrales, así como los ordenadores personales, dispositivos informáticos de mano, electrónica de consumo basada en microprocesadores o programable, y similares, cada uno de los cuales puede acoplarse operativamente a uno o más dispositivos asociados.

Los aspectos ilustrados de la invención también pueden ponerse en práctica en entornos informáticos distribuidos donde ciertas tareas se realizan por dispositivos de procesamiento remoto que están enlazados a través de una red

12

imagen9

imagen10

imagen11

Claims

imagen1

imagen2

imagen3