ES2610467T3 - Reconocimiento óptico de caracteres de baja resolución para documentos adquiridos con cámara - Google Patents
Reconocimiento óptico de caracteres de baja resolución para documentos adquiridos con cámara Download PDFInfo
- Publication number
- ES2610467T3 ES2610467T3 ES05104250.5T ES05104250T ES2610467T3 ES 2610467 T3 ES2610467 T3 ES 2610467T3 ES 05104250 T ES05104250 T ES 05104250T ES 2610467 T3 ES2610467 T3 ES 2610467T3
- Authority
- ES
- Spain
- Prior art keywords
- word
- character
- punctuation mark
- score
- recognizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18029—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering filtering with Haar-like subimages, e.g. computation thereof with the integral image technique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/268—Lexical context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
- Document Processing Apparatus (AREA)
Abstract
Un sistema que facilita el reconocimiento óptico de caracteres, OCR, de símbolos de baja resolución, en el que una cadena de símbolos es representativa de una palabra, y en el que los símbolos representan caracteres, que comprende: un componente de segmentación para detectar espacios entre los símbolos para determinar las líneas de texto, y para fragmentar las líneas de texto en palabras individuales; y un componente de reconocimiento para reconocer caracteres (206) usando un reconocedor de caracteres basado en el aprendizaje de máquina para explorar a través de cada una de las palabras individuales para predecir qué carácter es probable que se presente en una localización determinada, para reconocer el signo de puntuación y para reconocer las palabras; en el que dicho reconociendo de un signo de puntuación se usa para identificar si un carácter final de una palabra es un signo de puntuación, que comprende: determinar un carácter más probable para cada posible posición de carácter final de la palabra; generar una puntuación para cada carácter más probable; determinar si la palabra es una palabra puntuada, en el que la palabra es una palabra puntuada si el carácter más probable con la puntuación más alta es un signo de puntuación y si la puntuación del carácter más probable con la puntuación más alta está por encima de un umbral predeterminado; y en el que dicho reconocimiento de palabras comprende: reconocer la palabra usando el resto de la palabra sin el signo de puntuación, y añadir el signo de puntuación a la palabra reconocida; y reconocer las palabras (208) individuales reconciliando una secuencia de salidas del reconocedor de caracteres con una palabra específica usando una programación dinámica y un diccionario.
Description
5
10
15
20
25
30
35
40
45
50
55
Haciendo referencia ahora a la figura 22, se ilustra una tabla 2200 de programación dinámica de muestra para una optimización del modelo de diccionario de acuerdo con la presente invención que se usa para determinar una asignación óptima de observaciones 2202 para las letras de una palabra específica. En una implementación, el reconocedor de palabras intenta encontrar qué palabra de un diccionario de palabras es la coincidencia más probable para una imagen de entrada dada. Si no hay una palabra lo suficientemente plausible en el léxico para describir la imagen, el sistema recurre a un procedimiento anterior.
En una primera implementación, se emplea una versión del reconocedor basado en el diccionario que simplemente explora linealmente a través de todo el léxico, evaluando la probabilidad para cada palabra, y emitiendo la palabra más probable. Una segunda implementación describe una organización alternativa que permite el intercalado de la optimización de programación dinámica con el recorrido del diccionario para calcular más rápidamente la palabra más probable.
En este problema, cada columna de la tabla 2200 de programación dinámica representa los subproblemas que terminan en una posición específica (hueco) en la secuencia de entrada, y cada fila de la tabla representa una letra de la palabra en cuestión. Una entrada en la columna c y la fila r de la tabla 2200 representa una palabra parcialmente reconocida que termina en el hueco c, y que termina con la letra representada por fila r. En esta localización de la tabla se almacena un puntero de vuelta a la letra y al hueco anterior donde termina la letra, así como, a una puntuación acumulada.
Un procedimiento de puntuación similar se usa para la segunda aplicación del reconocedor de palabras, la probabilidad de que la observación coincida con la letra implícita de la celda actual, los tiempos de un factor de escalado que dependen de la anchura de hueco y la anchura media del carácter. Una vez más, la puntuación acumulada es la puntuación de la celda actual más la puntuación acumulada para la celda que representa la solución parcial anterior. Una vez que se ha completado el llenado de la tabla, la puntuación óptima para la palabra se almacena en la celda final (superior derecha). Esta puntuación se normaliza a continuación, dividiendo por el número de letras de la palabra. Sin esta normalización, las palabras largas con letras con relativamente mal puntuación pueden acumular puntuaciones altas y vencer a palabras más cortas que tienen muy buenas puntuaciones de letra. Por lo tanto, se desea maximizar la puntuación para cada letra.
Ya que muchas palabras en el diccionario comparten prefijos con otras palabras, hay una duplicación del trabajo calculando esta información compartida para cada palabra. Por ejemplo, considérese una tabla de programación dinámica empleada para encontrar la puntuación de la palabra “FOOL”. Esta tiene las mismas primeras tres filas en el ejemplo anterior “FOOD”. Por lo tanto, se desea una manera de compartir estas filas idénticas al calcular las puntuaciones de las palabras con prefijos comunes.
Cabe señalar que algunas celdas no necesitan llenarse, ya que es imposible para cualquier carácter que no sea el primero en ocupar el primer hueco, y cada letra solo puede ser responsable de hasta cuatro huecos. La ruta óptima está representada por las flechas que se mueven a lo largo de las celdas con los más altos valores observados.
Haciendo referencia ahora a la figura 23, se ilustra un diagrama 2200 de diccionario de búsqueda basado en un árbol de prefijos de acuerdo con la presente invención. Un árbol de prefijos (derivado de recuperación) es una estructura de datos o estructura de árbol de posición k-aria para almacenar cadenas en las que hay un nodo para cada prefijo común. Las cadenas se almacenan en los nodos hoja adicionales. Los árboles de prefijos se usan para implementar un tipo de datos de abstracción (ADT) de diccionario, donde pueden realizarse operaciones básicas como anular, buscar, insertar y suprimir. Pueden usarse para codificar y comprimir y, buscar expresiones regulares y hacer coincidir cadenas aproximadas.
Una solución es crear y evaluar una fila de la tabla 2200 (de la figura 22) a la vez que se recorre el diccionario. Para recorrer el diccionario en un orden que maximiza la cantidad de cálculos reutilizados, el diccionario está dispuesto en la estructura 2300 de árbol de prefijos. Cualquier nodo 2302 en el árbol 2300 de prefijos representa o una palabra parcial o una palabra completa (o, ambos -“fool” es una palabra y también un prefijo de “foolish”). A medida que se recorre el árbol de prefijos de diccionario, se construye la tabla de programación dinámica. Durante la visita a un nodo, se crea una nueva “fila” 2304 para esta tabla 2300 virtual que corresponde a la letra representada por ese nodo en el árbol de prefijos, y la fila se llena con las puntuaciones.
Por lo tanto, el árbol 2300 de prefijos resultante tiene un nodo “F” de nivel superior al que está asociada la fila “F” de los valores de la tabla 2200 de diccionario de la figura 22. Recorriendo hacia abajo, un segundo nodo (un primer nodo “O”) tiene una primera fila “O” asociada de la tabla 2200. Continuando, un tercer nodo (un segundo nodo “O”) tiene la fila correspondiente asociada con el mismo de la tabla 2200. Este tercer nodo tiene una primera rama que corresponde a un nodo “D” de la palabra “FOOD” y una segunda rama que corresponde a un nodo “L” de la palabra “FOOL”. El nodo “D” se asocia con la línea “D” de la tabla 2200. Se realiza una valoración de fila similar, pero más baja y se asocia con el nodo “L”.
Cabe señalar que el único contexto necesario para esta operación es la fila anterior, que se pasa como parámetro a la rutina de recorrido de árbol de prefijos recursiva. Si el nodo en cuestión representa una palabra completa, puede observarse la última entrada de la fila para encontrar la suma de las puntuaciones de las letras de esa palabra. Una
10 5
10
15
20
25
30
35
40
45
50
55
vez más, la suma de las puntuaciones de letra se divide por la longitud de la palabra para obtener la puntuación final de la palabra. Cuando termina el recorrido del árbol de prefijos, se devuelve la palabra de mayor puntuación encontrada.
Hay algunas optimizaciones heurísticas que aceleran inmensamente el cálculo. En primer lugar, solo visitar las palabras que comienzan con las letras que son propensas a ser la letra inicial de la palabra. Esta optimización proporciona un aumento de varias veces en la velocidad, en especial para las palabras que comienzan con las letras poco comunes. Otro aumento de velocidad proviene del recorte de la búsqueda de manera que no se siguen los enlaces en el árbol de prefijos que son poco probables que resulten en una palabra de alta puntuación. Si la puntuación media de las letras del prefijo de palabra en un nodo dado (el valor en la entrada final de la columna, dividido por el número de letras) es peor que un umbral, se supone que no importa cuán buena sea la puntuación de palabra de las letras restantes, ya que nunca será lo suficientemente buena para hacer que el promedio supere la mejor palabra vista hasta ahora. Esta segunda optimización proporciona un aumento significativo en la velocidad sin comprometer notablemente los resultados.
El signo de puntuación plantea un problema al reconocedor de palabras basado en el diccionario, en que las palabras con un signo de puntuación de arrastre pueden no estar presentes en el léxico. Haciendo referencia ahora a la figura 24, se ilustra una metodología de detección de signo de puntuación de acuerdo con la presente invención. Antes de que una secuencia de localizaciones de reconocimiento se pase al reconocedor de palabras, el sistema determina la probabilidad de que el último carácter de la palabra sea un signo de puntuación, como se indica en 2400. Si es así, se usa el reconocedor de caracteres para identificar el signo de puntuación específico. Con el fin de determinar si el carácter final es un signo de puntuación, el sistema busca el carácter más probable para cada posible posición de carácter final, como se indica en 2402. En 2404, se genera una puntuación para cada carácter más probable. En 2406, cada puntuación se compara con un umbral predeterminado. En 2408, el sistema determina si la puntuación ha superado el umbral. Si la puntuación más alta entre estas salidas del reconocedor de caracteres está por encima de un umbral, el flujo es hacia 2410 para considerar también si el carácter es más probable un signo de puntuación. Si se dan ambas situaciones, el flujo es hacia 2412 donde se supone que es una palabra puntuada. El resto de la palabra se envía a continuación al reconocedor basado en el diccionario, como se indica en 2414. En 2416, el signo de puntuación se añade a continuación al resultado del reconocedor de palabras. A continuación, el procedimiento llega a un bloque de parada. Si la puntuación no supera el umbral, o si lo hace, pero no se considera un signo de puntuación, el flujo es de 2408 y 2410 hacia el bloque de parada.
Haciendo referencia ahora a la figura 25, se ilustran los resultados 2500 de una muestra 2502 captada de acuerdo con la arquitectura de la presente invención. El procesamiento se ve facilitado por una interfaz de usuario que produce una ventana 2506 para visualizar una comparación de lado a lado del texto 2502 captado y los resultados 2500 procesados. En este ejemplo, el sistema realiza el OCR correctamente de 104 de 118 caracteres y signos de puntuación. Los resultados son mejores si se ignora la separación de sílabas, en donde los fragmentos de palabras asociadas no están en el diccionario. En esta interfaz, el usuario puede seleccionar entre no modo de lenguaje, un modelo de frecuencia, y el modelo de diccionario.
Haciendo referencia ahora a la figura 26, se ilustra una comparación de modelos de lenguaje a lo largo de una parte del texto captado de acuerdo con la arquitectura de la presente invención. A la izquierda, se usa el modelo de diccionario, y se muestra una tasa de reconocimiento mucho más alta que la mostrada a la derecha, que no usa un modelo.
CLASIFICADOR
Como se ha indicado anteriormente en el presente documento, la presente invención puede emplear diversos esquemas basados en inteligencia artificial para realizar diversos aspectos de la invención objeto. Por ejemplo, puede facilitarse un procedimiento para determinar un umbral para determinar si un carácter es un signo de puntuación a través de un sistema y procedimiento clasificador automático.
Un clasificador es una función que mapea un vector de atributo de entrada, x = (x1, x2, x3, x4, xn), a una confianza en que la entrada pertenece a una clase, es decir, f(x) = confianza (clase). Tal clasificación puede emplear un análisis probabilístico y/o basado en la estadística (por ejemplo, la factorización en las utilidades de análisis y los costes) para pronosticar o deducir una acción que un usuario desea que se realice automáticamente.
Una máquina de vectores de soporte (SVM) es un ejemplo de un clasificador que puede emplearse. La SVM opera encontrando una hipersuperficie en el espacio de posibles entradas, hipersuperficie que intenta dividir los criterios de activación a partir de los eventos no activados. Intuitivamente, esto hace que la clasificación correcta de los datos de prueba sea próxima, pero no idéntica a los datos de adiestramiento. Se incluyen otros enfoques dirigidos y no dirigidos del modelo de clasificación, por ejemplo, puede emplearse el bayesiano ingenuo, las redes bayesianas, los árboles de decisión, y los modelos de clasificación probabilísticos que proporcionan diferentes patrones de independencia. La clasificación como se usa en el presente documento, incluye también la regresión estadística que se utiliza para desarrollar modelos de prioridad.
11 5
15
25
35
45
55
Como se apreciará fácilmente a partir de la especificación objeto, la invención objeto puede emplear clasificadores que están adiestrados explícitamente (por ejemplo, a través de unos datos de adiestramiento genérico), así como adiestrados implícitamente (por ejemplo, a través de la observación del comportamiento del usuario que recibe la información extrínseca). Por ejemplo, las SVM se configuran a través de una fase de aprendizaje o de adiestramiento dentro de un constructor clasificador y un módulo de selección de características. Por lo tanto, el clasificador(s) puede usarse para realizar automáticamente una serie de funciones, que incluyen, pero no se limitan a lo siguiente: determinar el contexto sustantivo del documento con el fin de resolver mejor el símbolo reconocido; y realizar un procesamiento de bigrama, trigrama etc., para aumentar la probabilidad de que la palabra actual sea correcta. Por ejemplo, si la palabra se reconoce inicialmente como “wosd”, la palabra anterior o siguiente (bigrama) también podría procesarse. Si la palabra siguiente es procesador, es más probable que “wosd” deba ser “word”.
En otra implementación, el contenido de la palabra puede analizarse para aumentar la tasa de reconocimiento. Por ejemplo, si la palabra es money, y una palabra reconocida posterior es securities, y puede hacerse una inferencia de que el contenido puede tratarse de finanzas, valores, o similares. De este modo, el sistema puede activar automáticamente uno o más modelos de lenguaje que incluyen términos y/o capacidades relacionadas con la resolución de estos términos. Por otra parte, tal modularización del modelo de lenguaje facilita los requisitos de datos reducidos en que el dispositivo informático en el que se emplea la novedosa arquitectura se utiliza principalmente en un entorno financiero, solo el módulo(s) de lenguaje de este tipo necesita instalarse o ponerse a disposición en el dispositivo. Esto está en contraste con proporcionar un modelo de lenguaje de cajón de sastre que puede sobrecargar las capacidades de almacenamiento y/o las capacidades de procesamiento del dispositivo en el que está instalado.
En otra aplicación más, el clasificador pueden emplearse para estimar el número de símbolos a resolver y deducir, de manera que si el número de símbolos es dos, por ejemplo, es más que probable que la palabra sea un pronombre o artículo. En consecuencia, tal preprocesamiento de la palabra relacionada puede emplearse antes de que se habiliten otros modelos de lenguaje.
El clasificador también puede usarse para ajustar automáticamente los umbrales usados para determinar el signo de puntuación, y otros símbolos a reconocerse. Este ajuste puede basarse en el contenido correctamente reconocido por el que avanza el procedimiento de OCR. Es decir, existe un mecanismo de retroalimentación que automáticamente impacta en el umbral basado en la historia.
El umbral también puede ajustarse automáticamente basándose en la importancia del contenido. Por ejemplo, a medida que avanza el procedimiento de OCR, si se determina que las palabras reconocidas son cada vez más relacionadas con un documento contractual legal, el clasificador puede hacer que el sistema eleve el umbral para mejorar la precisión (también, para registros médicos, por ejemplo), e incluso volver a ejecutar el procedimiento, si se desea. Considerando que, si el contenido está determinado a estar más relacionado con una lista de la compra, el umbral podría relajarse a medida que el procedimiento de OCR continua.
Muchos otros usos para el clasificador incluyen hacer inferencias basadas en el tamaño del símbolo, el tipo de signo de puntuación, duración de las frases, el tipo de símbolo en relación a su localización en una cadena de símbolos, etc.
Obsérvese que la novedosa arquitectura no se limita al empleo de una red neuronal convolucional para el reconocimiento de caracteres. Puede emplearse un procedimiento de cálculo o de clasificación total de los resultados en cada posición en el documento, y obtener la programación dinámica sin el procesamiento convolucional. Sin embargo, en una implementación menos robusta, esto podría afectar al rendimiento del sistema.
Haciendo referencia ahora a la figura 27, se ilustra un diagrama de bloques de un ordenador que puede operar para ejecutar la arquitectura desvelada. Con el fin de proporcionar un contexto adicional para diversos aspectos de la presente invención, la figura 27 y la siguiente exposición están destinados a proporcionar una breve descripción general de un entorno 2700 informático adecuado en el que pueden implementarse los diversos aspectos de la presente invención. Aunque la invención se ha descrito anteriormente en el contexto general de las instrucciones ejecutables por ordenador que puede ejecutarse en uno o más ordenadores, los expertos en la materia reconocerán que la invención también puede implementarse en combinación con otros módulos de programa y/o como una combinación de hardware y software.
En general, los módulos de programa incluyen rutinas, programas, componentes, estructuras de datos, etc., que realizan tareas específicas o implementan tipos de datos abstractos específicos. Por otra parte, los expertos en la materia apreciarán que los procedimientos de la invención puedan practicarse con otras configuraciones de sistemas informáticos, incluyendo sistemas informáticos multiprocesador o de un solo procesador o, miniordenadores, ordenadores centrales, así como los ordenadores personales, dispositivos informáticos de mano, electrónica de consumo basada en microprocesadores o programable, y similares, cada uno de los cuales puede acoplarse operativamente a uno o más dispositivos asociados.
Los aspectos ilustrados de la invención también pueden ponerse en práctica en entornos informáticos distribuidos donde ciertas tareas se realizan por dispositivos de procesamiento remoto que están enlazados a través de una red
12
Claims (1)
-
imagen1 imagen2 imagen3
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/850,335 US7499588B2 (en) | 2004-05-20 | 2004-05-20 | Low resolution OCR for camera acquired documents |
US850335 | 2004-05-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2610467T3 true ES2610467T3 (es) | 2017-04-27 |
Family
ID=34939897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05104250.5T Active ES2610467T3 (es) | 2004-05-20 | 2005-05-19 | Reconocimiento óptico de caracteres de baja resolución para documentos adquiridos con cámara |
Country Status (6)
Country | Link |
---|---|
US (1) | US7499588B2 (es) |
EP (1) | EP1598770B1 (es) |
JP (2) | JP4698289B2 (es) |
KR (1) | KR101114135B1 (es) |
CN (1) | CN100446027C (es) |
ES (1) | ES2610467T3 (es) |
Families Citing this family (176)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6823084B2 (en) * | 2000-09-22 | 2004-11-23 | Sri International | Method and apparatus for portably recognizing text in an image sequence of scene imagery |
WO2005048188A2 (en) | 2003-11-11 | 2005-05-26 | Sri International | Method and apparatus for capturing paper-based information on a mobile computing device |
US20100092095A1 (en) * | 2008-10-14 | 2010-04-15 | Exbiblio B.V. | Data gathering in digital and rendered document environments |
US20060095504A1 (en) * | 2004-08-24 | 2006-05-04 | Gelsey Jonathan I | System and method for optical character information retrieval (OCR) via a thin-client user interface |
US9530050B1 (en) | 2007-07-11 | 2016-12-27 | Ricoh Co., Ltd. | Document annotation sharing |
US9495385B2 (en) | 2004-10-01 | 2016-11-15 | Ricoh Co., Ltd. | Mixed media reality recognition using multiple specialized indexes |
US7812986B2 (en) | 2005-08-23 | 2010-10-12 | Ricoh Co. Ltd. | System and methods for use of voice mail and email in a mixed media environment |
US9171202B2 (en) | 2005-08-23 | 2015-10-27 | Ricoh Co., Ltd. | Data organization and access for mixed media document system |
US10192279B1 (en) | 2007-07-11 | 2019-01-29 | Ricoh Co., Ltd. | Indexed document modification sharing with mixed media reality |
US9405751B2 (en) | 2005-08-23 | 2016-08-02 | Ricoh Co., Ltd. | Database for mixed media document system |
US9384619B2 (en) | 2006-07-31 | 2016-07-05 | Ricoh Co., Ltd. | Searching media content for objects specified using identifiers |
US7702673B2 (en) | 2004-10-01 | 2010-04-20 | Ricoh Co., Ltd. | System and methods for creation and use of a mixed media environment |
US9373029B2 (en) | 2007-07-11 | 2016-06-21 | Ricoh Co., Ltd. | Invisible junction feature recognition for document security or annotation |
US20060245654A1 (en) * | 2005-04-29 | 2006-11-02 | Microsoft Corporation | Utilizing grammatical parsing for structured layout analysis |
US20070077987A1 (en) * | 2005-05-03 | 2007-04-05 | Tangam Gaming Technology Inc. | Gaming object recognition |
US7640037B2 (en) * | 2005-05-18 | 2009-12-29 | scanR, Inc, | System and method for capturing and processing business data |
US8249344B2 (en) * | 2005-07-01 | 2012-08-21 | Microsoft Corporation | Grammatical parsing of document visual structures |
TWI265715B (en) * | 2005-07-21 | 2006-11-01 | Inventec Appliances Corp | Method for collecting business card data in mobile communication apparatus |
US7454063B1 (en) * | 2005-09-22 | 2008-11-18 | The United States Of America As Represented By The Director National Security Agency | Method of optical character recognition using feature recognition and baseline estimation |
EP1955471A4 (en) | 2005-12-01 | 2009-03-11 | Firestar Software Inc | SYSTEM AND METHOD FOR EXCHANGING INFORMATION BETWEEN EXCHANGE APPLICATIONS |
US8509563B2 (en) | 2006-02-02 | 2013-08-13 | Microsoft Corporation | Generation of documents from images |
EP2038822A4 (en) * | 2006-05-08 | 2011-07-27 | Firestar Software Inc | SYSTEM AND METHOD FOR THE EXCHANGE OF TRANSACTION INFORMATION USING IMAGES |
US7787697B2 (en) * | 2006-06-09 | 2010-08-31 | Sony Ericsson Mobile Communications Ab | Identification of an object in media and of related media objects |
US8098934B2 (en) | 2006-06-29 | 2012-01-17 | Google Inc. | Using extracted image text |
US7953295B2 (en) * | 2006-06-29 | 2011-05-31 | Google Inc. | Enhancing text in images |
US8031940B2 (en) * | 2006-06-29 | 2011-10-04 | Google Inc. | Recognizing text in images using ranging data |
US8489987B2 (en) | 2006-07-31 | 2013-07-16 | Ricoh Co., Ltd. | Monitoring and analyzing creation and usage of visual content using image and hotspot interaction |
US8201076B2 (en) | 2006-07-31 | 2012-06-12 | Ricoh Co., Ltd. | Capturing symbolic information from documents upon printing |
US9063952B2 (en) | 2006-07-31 | 2015-06-23 | Ricoh Co., Ltd. | Mixed media reality recognition with image tracking |
US9176984B2 (en) | 2006-07-31 | 2015-11-03 | Ricoh Co., Ltd | Mixed media reality retrieval of differentially-weighted links |
US7986843B2 (en) * | 2006-11-29 | 2011-07-26 | Google Inc. | Digital image archiving and retrieval in a mobile device system |
US8238624B2 (en) * | 2007-01-30 | 2012-08-07 | International Business Machines Corporation | Hybrid medical image processing |
US8326092B2 (en) * | 2007-04-23 | 2012-12-04 | International Business Machines Corporation | Heterogeneous image processing system |
US8462369B2 (en) * | 2007-04-23 | 2013-06-11 | International Business Machines Corporation | Hybrid image processing system for a single field of view having a plurality of inspection threads |
US8331737B2 (en) * | 2007-04-23 | 2012-12-11 | International Business Machines Corporation | Heterogeneous image processing system |
US9277090B2 (en) | 2007-10-01 | 2016-03-01 | Hewlett-Packard Development Company, L.P. | System and method of document reproduction |
US8675219B2 (en) * | 2007-10-24 | 2014-03-18 | International Business Machines Corporation | High bandwidth image processing with run time library function offload via task distribution to special purpose engines |
US20090132582A1 (en) * | 2007-11-15 | 2009-05-21 | Kim Moon J | Processor-server hybrid system for processing data |
US9135073B2 (en) | 2007-11-15 | 2015-09-15 | International Business Machines Corporation | Server-processor hybrid system for processing data |
KR101291195B1 (ko) * | 2007-11-22 | 2013-07-31 | 삼성전자주식회사 | 문자인식장치 및 방법 |
US8594384B2 (en) * | 2007-11-30 | 2013-11-26 | Hewlett-Packard Development Company, L.P. | Method and system for measuring text-rendering quality |
US20090150556A1 (en) * | 2007-12-06 | 2009-06-11 | Kim Moon J | Memory to storage communication for hybrid systems |
US9332074B2 (en) * | 2007-12-06 | 2016-05-03 | International Business Machines Corporation | Memory to memory communication and storage for hybrid systems |
US8229251B2 (en) * | 2008-02-08 | 2012-07-24 | International Business Machines Corporation | Pre-processing optimization of an image processing system |
US8379963B2 (en) * | 2008-03-28 | 2013-02-19 | International Business Machines Corporation | Visual inspection system |
KR100942257B1 (ko) | 2008-04-11 | 2010-02-16 | 엔에이치엔(주) | 이미지 전처리를 위한 방법, 장치 및 컴퓨터 판독 가능한기록 매체 |
US8131009B2 (en) * | 2008-11-11 | 2012-03-06 | Xerox Corporation | Automatic spine creation from book covers without spines |
US8719701B2 (en) * | 2009-01-02 | 2014-05-06 | Apple Inc. | Identification of guides and gutters of a document |
US8290273B2 (en) * | 2009-03-27 | 2012-10-16 | Raytheon Bbn Technologies Corp. | Multi-frame videotext recognition |
US8331610B2 (en) * | 2009-05-26 | 2012-12-11 | Xerox Corporation | Method for measurement of reflectance profiles of image surfaces |
US8345106B2 (en) * | 2009-09-23 | 2013-01-01 | Microsoft Corporation | Camera-based scanning |
EP2320390A1 (en) * | 2009-11-10 | 2011-05-11 | Icar Vision Systems, SL | Method and system for reading and validation of identity documents |
TWI420403B (zh) * | 2009-11-13 | 2013-12-21 | Primax Electronics Ltd | 影像處理方法及影像處理裝置 |
CN102078186B (zh) * | 2009-12-01 | 2013-02-13 | 深圳先进技术研究院 | 生理参数收集方法、手机及系统 |
US8560466B2 (en) * | 2010-02-26 | 2013-10-15 | Trend Micro Incorporated | Method and arrangement for automatic charset detection |
US8509534B2 (en) * | 2010-03-10 | 2013-08-13 | Microsoft Corporation | Document page segmentation in optical character recognition |
US8401293B2 (en) | 2010-05-03 | 2013-03-19 | Microsoft Corporation | Word recognition of text undergoing an OCR process |
US8218875B2 (en) * | 2010-06-12 | 2012-07-10 | Hussein Khalid Al-Omari | Method and system for preprocessing an image for optical character recognition |
US8655071B2 (en) | 2011-02-24 | 2014-02-18 | Sharp Laboratories Of America, Inc. | Methods and systems for determining a document region-of-interest in an image |
US8606010B2 (en) * | 2011-03-18 | 2013-12-10 | Seiko Epson Corporation | Identifying text pixels in scanned images |
US9058331B2 (en) | 2011-07-27 | 2015-06-16 | Ricoh Co., Ltd. | Generating a conversation in a social network based on visual search results |
US9082035B2 (en) * | 2011-08-29 | 2015-07-14 | Qualcomm Incorporated | Camera OCR with context information |
US9576284B2 (en) | 2011-09-29 | 2017-02-21 | Paypal, Inc. | Social proximity payments |
US8996350B1 (en) | 2011-11-02 | 2015-03-31 | Dub Software Group, Inc. | System and method for automatic document management |
WO2013136295A1 (en) * | 2012-03-15 | 2013-09-19 | Northstar Telemetrics, S. L. | Method for automatically reading a utility meter, retrofittable meter reader and automatic meter reading system using the same |
US8983211B2 (en) * | 2012-05-14 | 2015-03-17 | Xerox Corporation | Method for processing optical character recognizer output |
US9519641B2 (en) * | 2012-09-18 | 2016-12-13 | Abbyy Development Llc | Photography recognition translation |
US9058536B1 (en) * | 2012-09-26 | 2015-06-16 | Amazon Technologies, Inc. | Image-based character recognition |
JP5840104B2 (ja) * | 2012-10-19 | 2016-01-06 | 日立建機株式会社 | 作業車両の走行制御装置 |
KR20150028627A (ko) * | 2013-09-06 | 2015-03-16 | 삼성전자주식회사 | 사용자 필기를 텍스트 정보로 변환하는 방법 및 이를 수행하기 위한 전자 기기 |
US9292739B1 (en) * | 2013-12-12 | 2016-03-22 | A9.Com, Inc. | Automated recognition of text utilizing multiple images |
KR102208893B1 (ko) | 2013-12-30 | 2021-01-28 | 삼성전자주식회사 | 디스플레이 장치 및 디스플레이 장치의 채널 맵 관리 방법 |
US9189708B2 (en) * | 2013-12-31 | 2015-11-17 | Google Inc. | Pruning and label selection in hidden markov model-based OCR |
US9277123B2 (en) | 2014-05-30 | 2016-03-01 | Apple Inc. | Systems and methods for exposure metering for timelapse video |
US9251431B2 (en) | 2014-05-30 | 2016-02-02 | Apple Inc. | Object-of-interest detection and recognition with split, full-resolution image processing pipeline |
US9992443B2 (en) | 2014-05-30 | 2018-06-05 | Apple Inc. | System and methods for time lapse video acquisition and compression |
US9565370B2 (en) | 2014-05-30 | 2017-02-07 | Apple Inc. | System and method for assisting in computer interpretation of surfaces carrying symbols or characters |
US9449239B2 (en) | 2014-05-30 | 2016-09-20 | Apple Inc. | Credit card auto-fill |
US9361531B2 (en) * | 2014-07-21 | 2016-06-07 | Optum, Inc. | Targeted optical character recognition (OCR) for medical terminology |
US9953425B2 (en) * | 2014-07-30 | 2018-04-24 | Adobe Systems Incorporated | Learning image categorization using related attributes |
US9239961B1 (en) * | 2014-09-24 | 2016-01-19 | Amazon Technologies, Inc. | Text recognition near an edge |
US9324376B2 (en) | 2014-09-30 | 2016-04-26 | Apple Inc. | Time-lapse video capture with temporal points of interest |
US9426409B2 (en) | 2014-09-30 | 2016-08-23 | Apple Inc. | Time-lapse video capture with optimal image stabilization |
US10409909B2 (en) * | 2014-12-12 | 2019-09-10 | Omni Ai, Inc. | Lexical analyzer for a neuro-linguistic behavior recognition system |
CN104537347A (zh) * | 2014-12-25 | 2015-04-22 | 安徽寰智信息科技股份有限公司 | 一种基于云端分析和模型匹配的唇形识别文字输入方法 |
DE102015102369A1 (de) * | 2015-02-19 | 2016-08-25 | Bundesdruckerei Gmbh | Mobilgerät zum Erfassen eines Textbereiches auf einem Identifikationsdokument |
US9984287B2 (en) | 2015-03-05 | 2018-05-29 | Wipro Limited | Method and image processing apparatus for performing optical character recognition (OCR) of an article |
US10105051B2 (en) | 2015-03-22 | 2018-10-23 | Spect Inc. | System and method for a portable eye examination camera |
KR101866617B1 (ko) * | 2015-08-17 | 2018-06-12 | 한국과학기술원 | 해파리 퇴치용 군집 로봇 시스템을 효율적으로 운용하기 위한 해파리 분포 인식 방법 및 시스템 |
US11048934B2 (en) * | 2015-08-27 | 2021-06-29 | Longsand Limited | Identifying augmented features based on a bayesian analysis of a text document |
CN105512682B (zh) * | 2015-12-07 | 2018-11-23 | 南京信息工程大学 | 一种基于Krawtchouk矩和KNN-SMO分类器的密级标识识别方法 |
US9799106B2 (en) | 2015-12-16 | 2017-10-24 | Dropbox, Inc. | Enhancing a digital image |
US9785855B2 (en) * | 2015-12-17 | 2017-10-10 | Conduent Business Services, Llc | Coarse-to-fine cascade adaptations for license plate recognition with convolutional neural networks |
JP6739937B2 (ja) | 2015-12-28 | 2020-08-12 | キヤノン株式会社 | 情報処理装置、情報処理装置の制御方法、及びプログラム |
CN107180220B (zh) * | 2016-03-11 | 2023-10-31 | 松下电器(美国)知识产权公司 | 危险预测方法 |
US9984471B2 (en) * | 2016-07-26 | 2018-05-29 | Intuit Inc. | Label and field identification without optical character recognition (OCR) |
US10579741B2 (en) | 2016-08-17 | 2020-03-03 | International Business Machines Corporation | Proactive input selection for improved machine translation |
US10311330B2 (en) | 2016-08-17 | 2019-06-04 | International Business Machines Corporation | Proactive input selection for improved image analysis and/or processing workflows |
CN106446899A (zh) * | 2016-09-22 | 2017-02-22 | 北京市商汤科技开发有限公司 | 文字检测方法和装置、及文字检测训练方法和装置 |
US10325148B2 (en) * | 2016-09-30 | 2019-06-18 | Wipro Limited | Method and a system for optical character recognition |
US20180101726A1 (en) * | 2016-10-10 | 2018-04-12 | Insurance Services Office Inc. | Systems and Methods for Optical Character Recognition for Low-Resolution Documents |
KR101805318B1 (ko) * | 2016-11-01 | 2017-12-06 | 포항공과대학교 산학협력단 | 텍스트 영역 식별 방법 및 장치 |
US10276189B1 (en) * | 2016-12-28 | 2019-04-30 | Shutterstock, Inc. | Digital audio track suggestions for moods identified using analysis of objects in images from video content |
CN106845530B (zh) * | 2016-12-30 | 2018-09-11 | 百度在线网络技术(北京)有限公司 | 字符检测方法和装置 |
AU2018221709B2 (en) * | 2017-02-17 | 2022-07-28 | The Coca-Cola Company | System and method for character recognition model and recursive training from end user input |
US10803378B2 (en) * | 2017-03-15 | 2020-10-13 | Samsung Electronics Co., Ltd | System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions |
US11354577B2 (en) | 2017-03-15 | 2022-06-07 | Samsung Electronics Co., Ltd | System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions |
JP7102103B2 (ja) | 2017-03-31 | 2022-07-19 | キヤノン株式会社 | 携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム |
KR102056822B1 (ko) * | 2017-05-04 | 2019-12-17 | 주식회사 매스프레소 | 학습 서비스 제공 방법 및 그 장치 |
WO2018213492A1 (en) | 2017-05-16 | 2018-11-22 | Spect Inc. | Stereoscopic mobile retinal imager |
WO2019009916A1 (en) | 2017-07-07 | 2019-01-10 | Hewlett-Packard Development Company, L.P. | ALIGNMENTS OF IMAGES THROUGH OPTICAL RECOGNITION OF CHARACTERS |
US10192127B1 (en) | 2017-07-24 | 2019-01-29 | Bank Of America Corporation | System for dynamic optical character recognition tuning |
US10346702B2 (en) | 2017-07-24 | 2019-07-09 | Bank Of America Corporation | Image data capture and conversion |
US10482323B2 (en) | 2017-08-22 | 2019-11-19 | Autonom8, Inc. | System and method for semantic textual information recognition |
US10354132B2 (en) | 2017-08-22 | 2019-07-16 | Autonom8, Inc. | System and method for generating a virtual assistant |
CN107704857B (zh) * | 2017-09-25 | 2020-07-24 | 北京邮电大学 | 一种端到端的轻量级车牌识别方法及装置 |
JP7088661B2 (ja) * | 2017-10-30 | 2022-06-21 | 株式会社インフォディオ | 紙帳票データ化システム、ocrエンジン学習用画像生成装置および画像分析装置 |
US10679085B2 (en) * | 2017-10-31 | 2020-06-09 | University Of Florida Research Foundation, Incorporated | Apparatus and method for detecting scene text in an image |
US10810265B2 (en) * | 2017-10-31 | 2020-10-20 | Jpmorgan Chase Bank, N.A. | Automatic note board data capture and export |
US10592787B2 (en) * | 2017-11-08 | 2020-03-17 | Adobe Inc. | Font recognition using adversarial neural network training |
US11709854B2 (en) | 2018-01-02 | 2023-07-25 | Bank Of America Corporation | Artificial intelligence based smart data engine |
JP7234495B2 (ja) * | 2018-01-25 | 2023-03-08 | 富士フイルムビジネスイノベーション株式会社 | 画像処理装置及びプログラム |
CN108256493A (zh) * | 2018-01-26 | 2018-07-06 | 中国电子科技集团公司第三十八研究所 | 一种基于车载视频的交通场景文字识别系统及识别方法 |
RU2695489C1 (ru) * | 2018-03-23 | 2019-07-23 | Общество с ограниченной ответственностью "Аби Продакшн" | Идентификация полей на изображении с использованием искусственного интеллекта |
GB2572386B (en) * | 2018-03-28 | 2021-05-19 | Canon Europa Nv | An image processing system and an image processing method |
CN108648748B (zh) * | 2018-03-30 | 2021-07-13 | 沈阳工业大学 | 医院噪声环境下的声学事件检测方法 |
EP3776335A2 (en) * | 2018-04-05 | 2021-02-17 | Chevron U.S.A., Inc. | Classification of piping and instrumental diagram information using machine-learning |
CA3100495A1 (en) | 2018-05-16 | 2019-11-21 | Benevis Informatics, Llc | Systems and methods for review of computer-aided detection of pathology in images |
EP3572972A1 (en) * | 2018-05-23 | 2019-11-27 | IDEMIA Identity & Security Germany AG | Extendend convolutional neural network for document analysis |
CN110163192B (zh) * | 2018-05-28 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置及可读介质 |
US10824854B2 (en) * | 2018-06-18 | 2020-11-03 | Sap Se | Systems and methods for extracting data from an image |
CA3009685C (en) | 2018-06-27 | 2023-08-08 | The Toronto-Dominion Bank | Automatic generation and population of digital interfaces based on adaptively processed image data |
US10915788B2 (en) * | 2018-09-06 | 2021-02-09 | Sap Se | Optical character recognition using end-to-end deep learning |
CN109117848B (zh) * | 2018-09-07 | 2022-11-18 | 泰康保险集团股份有限公司 | 一种文本行字符识别方法、装置、介质和电子设备 |
CN109388404B (zh) * | 2018-10-10 | 2022-10-18 | 北京如布科技有限公司 | 一种路径解码方法、装置、计算机设备及存储介质 |
WO2020079605A1 (en) * | 2018-10-16 | 2020-04-23 | Indian Institute Of Science | Device and method for enhancing readability of a low-resolution binary image |
RU2703270C1 (ru) | 2018-10-31 | 2019-10-16 | Общество с ограниченной ответственностью "Аби Продакшн" | Оптическое распознавание символов посредством применения специализированных функций уверенности, реализуемое на базе нейронных сетей |
US10846524B2 (en) * | 2018-11-14 | 2020-11-24 | Adobe Inc. | Table layout determination using a machine learning system |
US10824808B2 (en) * | 2018-11-20 | 2020-11-03 | Sap Se | Robust key value extraction |
KR102152508B1 (ko) * | 2018-12-19 | 2020-09-04 | (주)린치핀 | 온라인 파츠북 서비스 제공 방법 및 시스템 |
JP7460633B2 (ja) * | 2018-12-19 | 2024-04-02 | パックサイズ リミティド ライアビリティ カンパニー | コンピュータビジョンを使用する複合視覚検査タスクの連携学習のためのシステムと方法 |
CN111401099B (zh) * | 2018-12-28 | 2023-04-07 | 中国电信股份有限公司 | 文本识别方法、装置以及存储介质 |
CN109670480B (zh) * | 2018-12-29 | 2023-01-24 | 深圳市丰巢科技有限公司 | 图像判别方法、装置、设备及存储介质 |
JP2020123925A (ja) * | 2019-01-31 | 2020-08-13 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP7298223B2 (ja) | 2019-03-19 | 2023-06-27 | 富士フイルムビジネスイノベーション株式会社 | 画像処理装置及びプログラム |
US11631266B2 (en) * | 2019-04-02 | 2023-04-18 | Wilco Source Inc | Automated document intake and processing system |
KR102104605B1 (ko) * | 2019-04-24 | 2020-04-27 | 도프텍(주) | 인공지능 기반 플랜트 도면 내 심볼 자동인식 방법 및 장치 |
US11227176B2 (en) * | 2019-05-16 | 2022-01-18 | Bank Of Montreal | Deep-learning-based system and process for image recognition |
CN110349147B (zh) * | 2019-07-11 | 2024-02-02 | 腾讯医疗健康(深圳)有限公司 | 模型的训练方法、眼底黄斑区病变识别方法、装置及设备 |
US11481605B2 (en) | 2019-10-25 | 2022-10-25 | Servicenow Canada Inc. | 2D document extractor |
EP4049167A4 (en) * | 2019-10-25 | 2022-12-21 | Servicenow Canada Inc. | 2D DOCUMENT EXTRACTOR |
ES2849123B2 (es) | 2020-02-13 | 2023-03-07 | Univ Illes Balears | Elemento de generación de señales estocásticas, neurona estocástica y red neuronal a partir de esta |
US11270153B2 (en) | 2020-02-19 | 2022-03-08 | Northrop Grumman Systems Corporation | System and method for whole word conversion of text in image |
KR102142238B1 (ko) * | 2020-02-25 | 2020-08-07 | 주식회사 엔디소프트 | 소정 이미지에 포함된 축약어, 손글씨, 비정형 단어 및 문장과 같은 텍스트 정보를 추출한 후 그 추출 결과를 소정 언어로 자동 번역하는 방법 |
CN111492370B (zh) * | 2020-03-19 | 2023-05-26 | 香港应用科技研究院有限公司 | 用于识别结构化布局的文本图像的装置和方法 |
US11790489B2 (en) | 2020-04-07 | 2023-10-17 | Samsung Electronics Co., Ltd. | Systems and method of training networks for real-world super resolution with unknown degradations |
US20220019932A1 (en) * | 2020-07-14 | 2022-01-20 | Sap Se | Automatic generation of odata services from sketches using deep learning |
KR102391068B1 (ko) | 2020-07-24 | 2022-04-28 | 엄춘호 | 문서 인식 시스템 및 방법 |
US20230315478A1 (en) * | 2020-08-13 | 2023-10-05 | Google Llc | Reducing power consumption by hardware accelerator during generation and transmission of machine learning inferences |
KR102165096B1 (ko) * | 2020-08-31 | 2020-10-13 | (주)린치핀 | 온라인 파츠북 뷰어 시스템 |
KR102165116B1 (ko) * | 2020-08-31 | 2020-10-13 | (주)린치핀 | 온라인 파츠북을 이용한 파츠 주문 배송 시스템 |
KR102165094B1 (ko) * | 2020-08-31 | 2020-10-13 | (주)린치핀 | 클라우드 기반 온라인 파츠북 서비스 제공 방법 및 시스템 |
US11281928B1 (en) * | 2020-09-23 | 2022-03-22 | Sap Se | Querying semantic data from unstructured documents |
WO2022081127A1 (en) * | 2020-10-12 | 2022-04-21 | Hewlett-Packard Development Company, L.P. | Document language prediction |
CN112434689A (zh) * | 2020-12-01 | 2021-03-02 | 天冕信息技术(深圳)有限公司 | 识别图片中信息的方法、装置、设备及存储介质 |
KR20220084679A (ko) * | 2020-12-14 | 2022-06-21 | (주)윕스 | 도면 독해 및 검색 기능 제공방법 및 그 장치와 시스템 |
WO2022154783A1 (en) | 2021-01-13 | 2022-07-21 | Hewlett-Packard Development Company, L.P. | Output resolution selections |
WO2021081562A2 (en) * | 2021-01-20 | 2021-04-29 | Innopeak Technology, Inc. | Multi-head text recognition model for multi-lingual optical character recognition |
CN112784857B (zh) * | 2021-01-29 | 2022-11-04 | 北京三快在线科技有限公司 | 一种模型训练以及图像处理方法及装置 |
EP4047519B1 (en) | 2021-02-22 | 2024-08-07 | Carl Zeiss Vision International GmbH | Devices and methods for processing eyeglass prescriptions |
CN112949257A (zh) * | 2021-02-26 | 2021-06-11 | 深圳市英威腾电气股份有限公司 | 字符显示方法、装置、设备以及计算机可读存储介质 |
EP4101367A1 (en) | 2021-06-09 | 2022-12-14 | Carl Zeiss Vision International GmbH | Method and device for determining a visual performance |
US20230237822A1 (en) * | 2022-01-22 | 2023-07-27 | Jpmorgan Chase Bank, N.A. | System and method for generating best potential rectified data based on past recordings of data |
CN114627482B (zh) * | 2022-05-16 | 2022-08-12 | 四川升拓检测技术股份有限公司 | 基于图像处理与文字识别实现表格数字化处理方法及系统 |
CN115497106B (zh) * | 2022-11-14 | 2023-01-24 | 合肥中科类脑智能技术有限公司 | 基于数据增强和多任务模型的电池激光喷码识别方法 |
CN116781771B (zh) * | 2023-08-21 | 2023-11-17 | 南京粒聚智能科技有限公司 | 一种使用ocr技术的工位机自动截屏图片解析方法 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4173772A (en) | 1977-12-30 | 1979-11-06 | International Business Machines Corporation | Solid state image scanning system for producing a binary output |
JPH07117995B2 (ja) * | 1989-07-21 | 1995-12-18 | セイコーエプソン株式会社 | 文字認識装置 |
US5048097A (en) * | 1990-02-02 | 1991-09-10 | Eastman Kodak Company | Optical character recognition neural network system for machine-printed characters |
US5321770A (en) * | 1991-11-19 | 1994-06-14 | Xerox Corporation | Method for determining boundaries of words in text |
JP2979109B2 (ja) | 1992-12-03 | 1999-11-15 | 日本アイ・ビー・エム 株式会社 | 認識文字の情報作成方法及び装置 |
GB9226137D0 (en) | 1992-12-15 | 1993-02-10 | Ibm | Data entry system |
JPH0728946A (ja) * | 1993-07-15 | 1995-01-31 | Hitachi Eng Co Ltd | 文字認識装置及び方法 |
SG45100A1 (en) | 1994-03-07 | 1998-01-16 | Ibm | Improvements in image processing |
CA2155891A1 (en) | 1994-10-18 | 1996-04-19 | Raymond Amand Lorie | Optical character recognition system having context analyzer |
JPH08235312A (ja) * | 1995-02-23 | 1996-09-13 | Smk Corp | 光学式文字認識における文字切り出し方法 |
JP3309174B2 (ja) * | 1995-05-15 | 2002-07-29 | 日本電信電話株式会社 | 文字認識方法及び装置 |
US6128606A (en) * | 1997-03-11 | 2000-10-03 | At&T Corporation | Module for constructing trainable modular network in which each module inputs and outputs data structured as a graph |
JPH11232378A (ja) * | 1997-12-09 | 1999-08-27 | Canon Inc | デジタルカメラ、そのデジタルカメラを用いた文書処理システム、コンピュータ可読の記憶媒体、及び、プログラムコード送出装置 |
EP0961218B1 (en) | 1998-05-28 | 2004-03-24 | International Business Machines Corporation | Method of binarization in an optical character recognition system |
US6192360B1 (en) | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
US6553131B1 (en) * | 1999-09-15 | 2003-04-22 | Siemens Corporate Research, Inc. | License plate recognition with an intelligent camera |
US6687421B1 (en) | 2000-03-17 | 2004-02-03 | International Business Machines Corporation | Skew detection of text in a noisy digitized image |
US6735335B1 (en) | 2000-05-30 | 2004-05-11 | Microsoft Corporation | Method and apparatus for discriminating between documents in batch scanned document files |
US6738512B1 (en) | 2000-06-19 | 2004-05-18 | Microsoft Corporation | Using shape suppression to identify areas of images that include particular shapes |
JP2002032713A (ja) * | 2000-07-17 | 2002-01-31 | Victor Co Of Japan Ltd | 文字認識処理方法 |
US6687697B2 (en) | 2001-07-30 | 2004-02-03 | Microsoft Corporation | System and method for improved string matching under noisy channel conditions |
JP4240859B2 (ja) * | 2001-09-05 | 2009-03-18 | 株式会社日立製作所 | 携帯端末装置及び通信システム |
CN1426017A (zh) * | 2001-12-14 | 2003-06-25 | 全景软体股份有限公司 | 一种校对多个电子文件的方法及其系统 |
US20030164819A1 (en) * | 2002-03-04 | 2003-09-04 | Alex Waibel | Portable object identification and translation system |
US20030236104A1 (en) * | 2002-06-21 | 2003-12-25 | Gvc Corporation | Method and device for quickly storing a telephone book in a mobile device |
-
2004
- 2004-05-20 US US10/850,335 patent/US7499588B2/en active Active
-
2005
- 2005-05-19 ES ES05104250.5T patent/ES2610467T3/es active Active
- 2005-05-19 EP EP05104250.5A patent/EP1598770B1/en not_active Not-in-force
- 2005-05-20 KR KR1020050042600A patent/KR101114135B1/ko active IP Right Grant
- 2005-05-20 JP JP2005147966A patent/JP4698289B2/ja not_active Expired - Fee Related
- 2005-05-20 CN CNB2005100923807A patent/CN100446027C/zh not_active Expired - Fee Related
-
2010
- 2010-08-02 JP JP2010173815A patent/JP5073022B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1598770B1 (en) | 2016-10-12 |
KR101114135B1 (ko) | 2012-02-20 |
JP2011008802A (ja) | 2011-01-13 |
CN100446027C (zh) | 2008-12-24 |
US20050259866A1 (en) | 2005-11-24 |
EP1598770A2 (en) | 2005-11-23 |
EP1598770A3 (en) | 2008-12-10 |
JP5073022B2 (ja) | 2012-11-14 |
KR20060046128A (ko) | 2006-05-17 |
JP4698289B2 (ja) | 2011-06-08 |
US7499588B2 (en) | 2009-03-03 |
CN1737822A (zh) | 2006-02-22 |
JP2005346707A (ja) | 2005-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2610467T3 (es) | Reconocimiento óptico de caracteres de baja resolución para documentos adquiridos con cámara | |
Kallmeyer et al. | Data-driven parsing using probabilistic linear context-free rewriting systems | |
US8140332B2 (en) | Technique for searching out new words that should be registered in dictionary for speech processing | |
US8239188B2 (en) | Example based translation apparatus, translation method, and translation program | |
Ciobanu et al. | Automatic detection of cognates using orthographic alignment | |
Antony et al. | Parts of speech tagging for Indian languages: a literature survey | |
de Lhoneux et al. | Parameter sharing between dependency parsers for related languages | |
US10528664B2 (en) | Preserving and processing ambiguity in natural language | |
JP6828335B2 (ja) | 検索プログラム、検索装置および検索方法 | |
Zhao et al. | Using relative entropy for authorship attribution | |
WO2021230054A1 (ja) | 文抽出装置及び文抽出方法 | |
JP7163618B2 (ja) | 学習装置、学習方法、プログラム及び推定装置 | |
Dellert | Combining information-weighted sequence alignment and sound correspondence models for improved cognate detection | |
US11568150B2 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space | |
Makhambetov et al. | Data-driven morphological analysis and disambiguation for kazakh | |
Kumar et al. | Morphological analysis of the Dravidian language family | |
Song et al. | Reranking with multiple features for better transliteration | |
Sun et al. | Detecting new words from Chinese text using latent semi-CRF models | |
Virpioja et al. | Unsupervised morpheme analysis with Allomorfessor | |
Rama | Siamese convolutional networks based on phonetic features for cognate identification | |
CN115917527A (zh) | 文档检索装置、文档检索系统、文档检索程序、以及文档检索方法 | |
Kokosinskii et al. | Deep-change at AXOLOTL-24: Orchestrating WSD and WSI models for semantic change modeling | |
JP5348964B2 (ja) | 情報処理装置、情報処理方法、情報処理システム、およびプログラム | |
Hanada et al. | Effective spelling correction for eye-based typing using domain-specific information about error distribution | |
Talbot et al. | Lack of spatial indicators in Hamlet |