JP5755655B2 - 光学式文字認識(ocr)の精度を向上させるためのシステムおよび方法 - Google Patents
光学式文字認識(ocr)の精度を向上させるためのシステムおよび方法 Download PDFInfo
- Publication number
- JP5755655B2 JP5755655B2 JP2012537459A JP2012537459A JP5755655B2 JP 5755655 B2 JP5755655 B2 JP 5755655B2 JP 2012537459 A JP2012537459 A JP 2012537459A JP 2012537459 A JP2012537459 A JP 2012537459A JP 5755655 B2 JP5755655 B2 JP 5755655B2
- Authority
- JP
- Japan
- Prior art keywords
- ocr
- character
- learning set
- imagelet
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012015 optical character recognition Methods 0.000 title claims description 213
- 238000000034 method Methods 0.000 title claims description 78
- 238000012549 training Methods 0.000 claims description 11
- 238000007621 cluster analysis Methods 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000006872 improvement Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000010191 image analysis Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 241000282412 Homo Species 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000000540 analysis of variance Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/12—Detection or correction of errors, e.g. by rescanning the pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1914—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries, e.g. user dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Description
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
少なくとも1つのアイテムに対する光学式文字認識(OCR)の精度を向上させる方法において、
少なくとも1つのOCRモジュールから、OCRスキャニングのOCR結果を取得することと、
前記OCR結果の少なくとも一部分を使用して、少なくとも1つのOCRシードを生成させることと、
前記OCRシードの少なくとも一部分を使用して、少なくとも1つのOCR学習セットを生成させることと、
前記OCR学習セットを前記少なくとも1つのアイテムに適用して、付加的な光学式文字認識(OCR)結果を取得することとを含む方法。
[C2]
前記少なくとも1つのOCR学習セットに基づいて、イメージ統計を演繹するC1記載の方法。
[C3]
前記少なくとも1つのアイテムは、
少なくとも1つのページ、
少なくとも1つのドキュメント、
少なくとも1つのドキュメントの少なくとも1つの部分、
少なくとも1つのゾーン、
少なくとも1つのパラグラフ、
少なくとも1つの行、
少なくとも1つのワード、または、
少なくとも1つのキャラクタ、または、
これらの任意の組み合わせを含むC1記載の方法。
[C4]
異なるアイテムに対して、前記少なくとも1つのOCR学習セットを使用するC1記載の方法。
[C5]
異なるOCRモジュールおよび/または異なるパラメータセットおよび/または異なる前処理ステップを使用するC1記載の方法。
[C6]
前記付加的なOCR結果は、
フォントサイズ、
フォントタイプ、または、
フォント属性、または、
これらの任意の組み合わせを考慮に入れるC1記載の方法。
[C7]
前記少なくとも1つのOCR学習セットを生成させる際に、ホワイトスペース特性を考慮に入れるC1記載の方法。
[C8]
前記方法の改良を可能にするために、前記方法は反復して前もって形成されるC1記載の方法。
[C9]
前記OCR結果において識別されたそれぞれのキャラクタに対応しているイメージレットをコンパイルすることによって、前記少なくとも1つのOCRシードを生成させるC1記載の方法。
[C10]
前記少なくとも1つのOCR学習セットは、記憶されているイメージレットおよび/または新しいイメージレットを含むC9記載の方法。
[C11]
統計的測定および/またはクラスタ解析を使用して、類似したイメージレットを選択するC15記載の方法。
[C12]
前記統計的測定および/またはクラスタ解析は、
少なくとも1つのベイズ分類器、
少なくとも1つのニューラルネットワーク分類器、
少なくとも1つのサポートベクター分類器、または
これらの任意の組み合わせを含むC11記載の方法。
[C13]
前記少なくとも1つのOCR学習セットを増加させるために、記憶されているイメージレットを使用するC9記載の方法。
[C14]
少なくとも1つのイメージフィルタリング技術を得るために、前記少なくとも1つのOCR学習セットおよび関連する統計を使用するC9記載の方法。
[C15]
前記OCR結果において識別されたそれぞれのキャラクタに対する類似したイメージレットを選択することによって、前記少なくとも1つのOCRシードがクリーンされるC9記載の方法。
[C16]
前記少なくとも1つのOCRクリーンされたシードにおけるそれぞれのキャラクタに対するイメージ表現と、前記それぞれのキャラクタに対するイメージ表現からの類似したイメージレットのばらつきとに関連する情報を取得することによって、前記OCR学習セットを生成させるC1記載の方法。
[C17]
前記イメージ表現は、ビットマップであるC16記載の方法。
[C18]
前記ビットマップは、グレースケールまたはカラーであるC17記載の方法。
[C19]
前記少なくとも1つのOCR学習セットをそれぞれのイメージレットと比較して、それぞれのイメージレットと比較した前記少なくとも1つのOCR学習セットの少なくとも1つの不整合の分布を生成させることと、
前記少なくとも1つの不整合の分布に基づいて、前記OCRの付加的な結果を発生させることとをさらに含むC9記載の方法。
[C20]
少なくとも1つのアイテムに対する光学式文字認識(OCR)の精度を向上させるシステムにおいて、
少なくとも1つのプロセッサを具備し、
前記少なくとも1つのプロセッサは、
少なくとも1つのOCRモジュールから、OCRスキャニングのOCR結果を取得することと、
前記OCR結果の少なくとも一部分を使用して、少なくとも1つのOCRシードを生成させることと、
前記OCRシードの少なくとも一部分を使用して、少なくとも1つのOCR学習セットを生成させることと、
前記OCR学習セットを前記少なくとも1つのアイテムに適用して、付加的な光学式文字認識(OCR)結果を取得することとを実行するように構成されているシステム。
[C21]
前記少なくとも1つのOCR学習セットに基づいて、イメージ統計を演繹するC20記載のシステム。
[C22]
前記少なくとも1つのアイテムは、
少なくとも1つのページ、
少なくとも1つのドキュメント、
少なくとも1つのドキュメントの少なくとも1つの部分、
少なくとも1つのゾーン、
少なくとも1つのパラグラフ、
少なくとも1つの行、
少なくとも1つのワード、または、
少なくとも1つのキャラクタ、または、
これらの任意の組み合わせを含むC20記載のシステム。
[C23]
異なるアイテムに対して、前記少なくとも1つのOCR学習セットをC20記載のシステム。
[C24]
異なるOCRモジュールおよび/または異なるパラメータセットおよび/または異なる前処理ステップを使用するC20記載のシステム。
[C25]
前記付加的なOCR結果は、
フォントサイズ、
フォントタイプ、または、
フォント属性、または、
これらの任意の組み合わせを考慮に入れるC20記載のシステム。
[C26]
前記少なくとも1つのOCR学習セットを生成させる際に、ホワイトスペース特性を考慮に入れるC20記載のシステム。
[C27]
方法の改良を可能にするために、前記方法は反復して前もって形成されるC20記載のシステム。
[C28]
前記OCR結果において識別されたそれぞれのキャラクタに対応しているイメージレットをコンパイルすることによって、前記少なくとも1つのOCRシードを生成させるC20記載のシステム。
[C29]
前記少なくとも1つのOCR学習セットは、記憶されているイメージレットおよび/または新しいイメージレットを含むC28記載のシステム。
[C30]
統計的測定および/またはクラスタ解析を使用して、類似したイメージレットを選択するC34記載のシステム。
[C31]
前記統計的測定および/またはクラスタ解析は、
少なくとも1つのベイズ分類器、
少なくとも1つのニューラルネットワーク分類器、
少なくとも1つのサポートベクター分類器、または
これらの任意の組み合わせを含むC30記載のシステム。
[C32]
前記少なくとも1つのOCR学習セットを増加させるために、記憶されているイメージレットを使用するC28記載のシステム。
[C33]
少なくとも1つのイメージフィルタリング技術を得るために、前記少なくとも1つのOCR学習セットおよび関連する統計を使用するC28記載のシステム。
[C34]
前記OCR結果において識別されたそれぞれのキャラクタに対する類似したイメージレットを選択することによって、前記少なくとも1つのOCRシードがクリーンされるC28記載のシステム。
[C35]
前記少なくとも1つのOCRクリーンされたシードにおけるそれぞれのキャラクタに対するイメージ表現と、前記それぞれのキャラクタに対するイメージ表現からの類似したイメージレットのばらつきとに関連する情報を取得することによって、前記OCR学習セットを生成させるC20記載のシステム。
[C36]
前記イメージ表現は、ビットマップであるC35記載の方法。
[C37]
前記ビットマップは、グレースケールまたはカラーであるC36記載の方法。
[C38]
前記少なくとも1つのOCR学習セットをそれぞれのイメージレットと比較して、それぞれのイメージレットと比較した前記少なくとも1つのOCR学習セットの少なくとも1つの不整合の分布を生成させることと、
前記少なくとも1つの不整合の分布に基づいて、前記OCRの付加的な結果を発生させることとをさらに含むC28記載の方法。
Claims (32)
- 少なくとも1つのアイテムに対する光学式文字認識(OCR)の精度を向上させる方法において、
少なくとも1つのOCRモジュールから、OCRスキャニングのOCR結果を取得することと、
前記OCR結果の少なくとも一部分を使用して、少なくとも1つのOCRシードを生成させることと、前記少なくとも1つのOCRシードは、前記OCR結果の前記少なくとも一部分において識別されたそれぞれのキャラクタに対応している複数のイメージレットを含み、前記少なくとも1つのOCRシードは、前記OCR結果の前記少なくとも一部分において識別されたそれぞれのキャラクタに対し互いに類似したイメージレットを選択することによって、クリーンされ、
前記OCRシードの少なくとも一部分を使用して、少なくとも1つのOCR学習セットを生成させることと、
前記少なくとも1つのOCR学習セットをそれぞれのイメージレットと比較して、それぞれのイメージレットと比較した前記少なくとも1つのOCR学習セットの少なくとも1つの不整合の分布を生成させることと、前記少なくとも1つの不整合の分布は、少なくとも1つの可能性のあるキャラクタと比較した前記イメージレットに対する信頼度スコアを含む少なくとも1つの信頼度レーティングを含み、
前記少なくとも1つの不整合の分布を適用し付加的なOCR結果を取得する場合に、しきい値より高い信頼度スコアを有している、可能性のあるキャラクタだけが検討されるように、前記OCR学習セットおよび前記少なくとも1つの不整合の分布を前記少なくとも1つのアイテムに適用して、前記付加的なOCR結果を取得することとを含む方法。 - 前記少なくとも1つのOCR学習セットに基づいて、イメージ統計を演繹する請求項1記載の方法。
- 前記少なくとも1つのアイテムは、
少なくとも1つのページ、
少なくとも1つのドキュメント、
少なくとも1つのドキュメントの少なくとも1つの部分、
少なくとも1つのゾーン、
少なくとも1つのパラグラフ、
少なくとも1つの行、
少なくとも1つのワード、または、
少なくとも1つのキャラクタ、または、
これらの任意の組み合わせを含む請求項1記載の方法。 - 異なるアイテムに対して、前記少なくとも1つのOCR学習セットを使用する請求項1記載の方法。
- 異なるOCRモジュールおよび/または異なるパラメータセットおよび/または異なる前処理ステップを使用する請求項1記載の方法。
- 前記付加的なOCR結果は、
フォントサイズ、
フォントタイプ、または、
フォント属性、または、
これらの任意の組み合わせを考慮に入れる請求項1記載の方法。 - 前記少なくとも1つのOCR学習セットを生成させる際に、ホワイトスペース特性を考慮に入れる請求項1記載の方法。
- 前記方法の改良を可能にするために、前記方法は反復して実行される請求項1記載の方法。
- 前記少なくとも1つのOCR学習セットは、記憶されているイメージレットおよび/または新しいイメージレットを含む請求項1記載の方法。
- 統計的測定および/またはクラスタ解析を使用して、類似したイメージレットを選択する請求項1記載の方法。
- 前記統計的測定および/またはクラスタ解析は、
少なくとも1つのベイズ分類器、
少なくとも1つのニューラルネットワーク分類器、
少なくとも1つのサポートベクター分類器、または
これらの任意の組み合わせを含む請求項10記載の方法。 - 前記少なくとも1つのOCR学習セットを増加させるために、記憶されているイメージレットを使用する請求項1記載の方法。
- 少なくとも1つのイメージフィルタリング技術を得るために、前記少なくとも1つのOCR学習セットおよび関連する統計を使用する請求項1記載の方法。
- 前記少なくとも1つのOCRクリーンされたシードにおけるそれぞれのキャラクタに対するイメージ表現と、前記それぞれのキャラクタに対するイメージ表現からの類似したイメージレットのばらつきとに関連する情報を取得することによって、前記OCR学習セットを生成させる請求項1記載の方法。
- 前記イメージ表現は、ビットマップである請求項14記載の方法。
- 前記ビットマップは、グレースケールまたはカラーである請求項15記載の方法。
- 少なくとも1つのアイテムに対する光学式文字認識(OCR)の精度を向上させるシステムにおいて、
少なくとも1つのプロセッサを具備し、
前記少なくとも1つのプロセッサは、
少なくとも1つのOCRモジュールから、OCRスキャニングのOCR結果を取得することと、
前記OCR結果の少なくとも一部分を使用して、少なくとも1つのOCRシードを生成させることと、前記少なくとも1つのOCRシードは、前記OCR結果の前記少なくとも一部分において識別されたそれぞれのキャラクタに対応している複数のイメージレットを含み、前記少なくとも1つのOCRシードは、前記OCR結果の前記少なくとも一部分において識別されたそれぞれのキャラクタに対し互いに類似したイメージレットを選択することによって、クリーンされ、
前記OCRシードの少なくとも一部分を使用して、少なくとも1つのOCR学習セットを生成させることと、
前記少なくとも1つのOCR学習セットをそれぞれのイメージレットと比較して、それぞれのイメージレットと比較した前記少なくとも1つのOCR学習セットの少なくとも1つの不整合の分布を生成させることと、前記少なくとも1つの不整合の分布は、少なくとも1つの可能なキャラクタと比較した前記イメージレットに対する信頼度スコアを含む少なくとも1つの信頼度レーティングを含み、
前記少なくとも1つの不整合の分布を適用し付加的なOCR結果を取得する場合に、しきい値より高い信頼度スコアを有している、可能性のあるキャラクタだけが検討されるように、前記OCR学習セットおよび前記少なくとも1つの不整合の分布を前記少なくとも1つのアイテムに適用して、前記付加的なOCR結果を取得することとを実行するように構成されているシステム。 - 前記少なくとも1つのOCR学習セットに基づいて、イメージ統計を演繹する請求項17記載のシステム。
- 前記少なくとも1つのアイテムは、
少なくとも1つのページ、
少なくとも1つのドキュメント、
少なくとも1つのドキュメントの少なくとも1つの部分、
少なくとも1つのゾーン、
少なくとも1つのパラグラフ、
少なくとも1つの行、
少なくとも1つのワード、または、
少なくとも1つのキャラクタ、または、
これらの任意の組み合わせを含む請求項17記載のシステム。 - 異なるアイテムに対して、前記少なくとも1つのOCR学習セットを請求項17記載のシステム。
- 異なるOCRモジュールおよび/または異なるパラメータセットおよび/または異なる前処理ステップを使用する請求項17記載のシステム。
- 前記付加的なOCR結果は、
フォントサイズ、
フォントタイプ、または、
フォント属性、または、
これらの任意の組み合わせを考慮に入れる請求項17記載のシステム。 - 前記少なくとも1つのOCR学習セットを生成させる際に、ホワイトスペース特性を考慮に入れる請求項17記載のシステム。
- 方法の改良を可能にするために、前記方法は反復して実行される請求項17記載のシステム。
- 前記少なくとも1つのOCR学習セットは、記憶されているイメージレットおよび/または新しいイメージレットを含む請求項17記載のシステム。
- 統計的測定および/またはクラスタ解析を使用して、類似したイメージレットを選択する請求項17記載のシステム。
- 前記統計的測定および/またはクラスタ解析は、
少なくとも1つのベイズ分類器、
少なくとも1つのニューラルネットワーク分類器、
少なくとも1つのサポートベクター分類器、または
これらの任意の組み合わせを含む請求項26記載のシステム。 - 前記少なくとも1つのOCR学習セットを増加させるために、記憶されているイメージレットを使用する請求項17記載のシステム。
- 少なくとも1つのイメージフィルタリング技術を得るために、前記少なくとも1つのOCR学習セットおよび関連する統計を使用する請求項17記載のシステム。
- 前記少なくとも1つのOCRクリーンされたシードにおけるそれぞれのキャラクタに対するイメージ表現と、前記それぞれのキャラクタに対するイメージ表現からの類似したイメージレットのばらつきとに関連する情報を取得することによって、前記OCR学習セットを生成させる請求項17記載のシステム。
- 前記イメージ表現は、ビットマップである請求項30記載の方法。
- 前記ビットマップは、グレースケールまたはカラーである請求項31記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/588,928 US9152883B2 (en) | 2009-11-02 | 2009-11-02 | System and method for increasing the accuracy of optical character recognition (OCR) |
US12/588,928 | 2009-11-02 | ||
PCT/IB2010/003252 WO2011051817A2 (en) | 2009-11-02 | 2010-10-29 | System and method for increasing the accuracy of optical character recognition (ocr) |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013509664A JP2013509664A (ja) | 2013-03-14 |
JP5755655B2 true JP5755655B2 (ja) | 2015-07-29 |
Family
ID=43922702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012537459A Active JP5755655B2 (ja) | 2009-11-02 | 2010-10-29 | 光学式文字認識(ocr)の精度を向上させるためのシステムおよび方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9152883B2 (ja) |
EP (1) | EP2497053A2 (ja) |
JP (1) | JP5755655B2 (ja) |
AU (1) | AU2010311067B2 (ja) |
CA (1) | CA2777930C (ja) |
WO (1) | WO2011051817A2 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9213756B2 (en) | 2009-11-02 | 2015-12-15 | Harry Urbschat | System and method of using dynamic variance networks |
GB2485833A (en) * | 2010-11-26 | 2012-05-30 | S3 Res & Dev Ltd | Improved OCR Using Configurable Filtering for Analysing Set Top Boxes |
JP5585472B2 (ja) * | 2011-01-28 | 2014-09-10 | 富士通株式会社 | 情報照合装置、情報照合方法および情報照合プログラム |
JP6119952B2 (ja) * | 2012-05-15 | 2017-04-26 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
US9147275B1 (en) * | 2012-11-19 | 2015-09-29 | A9.Com, Inc. | Approaches to text editing |
US9870520B1 (en) * | 2013-08-02 | 2018-01-16 | Intuit Inc. | Iterative process for optimizing optical character recognition |
US10176392B2 (en) | 2014-01-31 | 2019-01-08 | Longsand Limited | Optical character recognition |
US10410218B2 (en) | 2014-09-12 | 2019-09-10 | Nextiva, Inc. | Customer management system |
US10255516B1 (en) | 2016-08-29 | 2019-04-09 | State Farm Mutual Automobile Insurance Company | Systems and methods for using image analysis to automatically determine vehicle information |
US10528649B2 (en) * | 2016-09-29 | 2020-01-07 | Adobe Inc. | Recognizing unseen fonts based on visual similarity |
US10089523B2 (en) * | 2016-10-05 | 2018-10-02 | Intuit Inc. | Automating creation of accurate OCR training data using specialized UI application |
JP6401806B2 (ja) * | 2017-02-14 | 2018-10-10 | 株式会社Pfu | 日付識別装置、日付識別方法及び日付識別プログラム |
CN108875748B (zh) * | 2018-06-27 | 2021-10-01 | 上海尚往网络科技有限公司 | 无线访问接入点信息的生成方法、设备和计算机可读介质 |
US11631266B2 (en) | 2019-04-02 | 2023-04-18 | Wilco Source Inc | Automated document intake and processing system |
JP7243409B2 (ja) * | 2019-04-17 | 2023-03-22 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
US11093774B2 (en) | 2019-12-04 | 2021-08-17 | International Business Machines Corporation | Optical character recognition error correction model |
US11776287B2 (en) | 2021-04-27 | 2023-10-03 | International Business Machines Corporation | Document segmentation for optical character recognition |
Family Cites Families (119)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4731861A (en) * | 1983-08-26 | 1988-03-15 | Texas Instruments Incorporated | Method of optical character recognition |
JPS61204733A (ja) | 1985-03-07 | 1986-09-10 | Oki Electric Ind Co Ltd | 視野管理システム |
JPS61217863A (ja) | 1985-03-23 | 1986-09-27 | Brother Ind Ltd | 電子辞書 |
AU595378B2 (en) | 1986-08-22 | 1990-03-29 | Commonwealth Scientific And Industrial Research Organisation | Content-addressable memory system with active memory circuit |
US4864501A (en) | 1987-10-07 | 1989-09-05 | Houghton Mifflin Company | Word annotation system |
AU632267B2 (en) | 1987-10-09 | 1992-12-24 | Nucleus International Corporation | A relational database representation with relational database operation capability |
EP0320266A3 (en) | 1987-12-11 | 1992-03-11 | Hewlett-Packard Company | View composition in a data base management system |
JPH01277977A (ja) | 1988-04-28 | 1989-11-08 | Nec Corp | パタン照合装置 |
JPH02186484A (ja) | 1989-01-12 | 1990-07-20 | Ricoh Co Ltd | 認識辞書の学習方式 |
US5201047A (en) | 1989-12-21 | 1993-04-06 | International Business Machines Corporation | Attribute-based classification and retrieval system |
US5191525A (en) | 1990-01-16 | 1993-03-02 | Digital Image Systems, Corporation | System and method for extraction of data from documents for subsequent processing |
US5344132A (en) | 1990-01-16 | 1994-09-06 | Digital Image Systems | Image based document processing and information management system and apparatus |
FR2660085A1 (fr) | 1990-03-20 | 1991-09-27 | Philips Electronique Lab | Dispositif de traitement de donnees et procede pour selectionner des mots de donnees contenus dans un dictionnaire. |
JP2991754B2 (ja) * | 1990-09-14 | 1999-12-20 | 株式会社リコー | 認識辞書作成方法 |
JP3329806B2 (ja) | 1990-11-09 | 2002-09-30 | 株式会社日立製作所 | ニューラルネット構築装置 |
JPH04123283U (ja) | 1991-04-19 | 1992-11-06 | 鐘紡株式会社 | 編立機の不使用糸処理装置 |
US5278980A (en) | 1991-08-16 | 1994-01-11 | Xerox Corporation | Iterative technique for phrase query formation and an information retrieval system employing same |
US5245672A (en) | 1992-03-09 | 1993-09-14 | The United States Of America As Represented By The Secretary Of Commerce | Object/anti-object neural network segmentation |
US5377348A (en) | 1992-06-04 | 1994-12-27 | International Business Machines Corporation | System for searching a data base by creating a marking matrix in which two dimensional patterns control the search and selection |
US5491758A (en) * | 1993-01-27 | 1996-02-13 | International Business Machines Corporation | Automatic handwriting recognition using both static and dynamic parameters |
US5649068A (en) | 1993-07-27 | 1997-07-15 | Lucent Technologies Inc. | Pattern recognition system using support vectors |
US5619709A (en) | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
GB2281997B (en) * | 1993-09-20 | 1997-10-15 | Ricoh Kk | Method and apparatus for improving a text image by using character regeneration |
US5537491A (en) | 1993-11-24 | 1996-07-16 | Xerox Corporation | Analyzing an image or other data to obtain a stable number of groups |
US5742806A (en) | 1994-01-31 | 1998-04-21 | Sun Microsystems, Inc. | Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system |
NZ248751A (en) * | 1994-03-23 | 1997-11-24 | Ryan John Kevin | Text analysis and coding |
JPH07271916A (ja) | 1994-03-31 | 1995-10-20 | Suzuki Motor Corp | 学習パターン生成装置及びこれを用いた文字認識装置 |
US5671333A (en) | 1994-04-07 | 1997-09-23 | Lucent Technologies Inc. | Training apparatus and method |
US5956419A (en) * | 1995-04-28 | 1999-09-21 | Xerox Corporation | Unsupervised training of character templates using unsegmented samples |
US5689620A (en) * | 1995-04-28 | 1997-11-18 | Xerox Corporation | Automatic training of character templates using a transcription and a two-dimensional image source model |
US5675710A (en) | 1995-06-07 | 1997-10-07 | Lucent Technologies, Inc. | Method and apparatus for training a text classifier |
JPH096799A (ja) | 1995-06-19 | 1997-01-10 | Sharp Corp | 文書分類装置及び文書検索装置 |
EP0856175A4 (en) | 1995-08-16 | 2000-05-24 | Univ Syracuse | SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON |
US5889886A (en) | 1995-11-28 | 1999-03-30 | Xerox Corporation | Method and apparatus for detecting running text in an image |
US6009196A (en) | 1995-11-28 | 1999-12-28 | Xerox Corporation | Method for classifying non-running text in an image |
US6076088A (en) | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
US5864855A (en) | 1996-02-26 | 1999-01-26 | The United States Of America As Represented By The Secretary Of The Army | Parallel document clustering process |
JP2987099B2 (ja) | 1996-03-27 | 1999-12-06 | 株式会社日立国際ビジネス | 文書作成支援システム及び用語辞書 |
US5787201A (en) | 1996-04-09 | 1998-07-28 | The United States Of America As Represented By The Secretary Of The Navy | High order fractal feature extraction for classification of objects in images |
US5937084A (en) | 1996-05-22 | 1999-08-10 | Ncr Corporation | Knowledge-based document analysis system |
US6101515A (en) * | 1996-05-31 | 2000-08-08 | Oracle Corporation | Learning system for classification of terminology |
US5778362A (en) | 1996-06-21 | 1998-07-07 | Kdl Technologies Limted | Method and system for revealing information structures in collections of data items |
DE19627472A1 (de) | 1996-07-08 | 1998-01-15 | Ser Systeme Ag | Datenbanksystem |
US5918223A (en) | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
US5745889A (en) | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Method for parsing information of databases records using word-location pairs and metaword-location pairs |
WO1998012616A2 (en) | 1996-09-23 | 1998-03-26 | Lowrie Mcintosh | Defining a uniform subject classification system incorporating document management/records retention functions |
US6275610B1 (en) | 1996-10-16 | 2001-08-14 | Convey Corporation | File structure for scanned documents |
US6327387B1 (en) | 1996-12-27 | 2001-12-04 | Fujitsu Limited | Apparatus and method for extracting management information from image |
DE19715723A1 (de) | 1997-04-15 | 1998-11-12 | Dci Datenbank Fuer Wirtschafts | Array-Verfahren |
US6353840B2 (en) | 1997-08-15 | 2002-03-05 | Ricoh Company, Ltd. | User-defined search template for extracting information from documents |
JPH11184894A (ja) | 1997-10-07 | 1999-07-09 | Ricoh Co Ltd | 論理要素抽出方法および記録媒体 |
US6665841B1 (en) | 1997-11-14 | 2003-12-16 | Xerox Corporation | Transmission of subsets of layout objects at different resolutions |
US5999664A (en) | 1997-11-14 | 1999-12-07 | Xerox Corporation | System for searching a corpus of document images by user specified document layout components |
US5987457A (en) | 1997-11-25 | 1999-11-16 | Acceleration Software International Corporation | Query refinement method for searching documents |
JP4116688B2 (ja) | 1997-12-22 | 2008-07-09 | 株式会社日本デジタル研究所 | 辞書学習方法および文字認識装置 |
US6289342B1 (en) | 1998-01-05 | 2001-09-11 | Nec Research Institute, Inc. | Autonomous citation indexing and literature browsing using citation context |
US6115708A (en) | 1998-03-04 | 2000-09-05 | Microsoft Corporation | Method for refining the initial conditions for clustering with applications to small and large database clustering |
US6192360B1 (en) | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
US6161130A (en) | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
US6243713B1 (en) | 1998-08-24 | 2001-06-05 | Excalibur Technologies Corp. | Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types |
US6324551B1 (en) | 1998-08-31 | 2001-11-27 | Xerox Corporation | Self-contained document management based on document properties |
US6212532B1 (en) | 1998-10-22 | 2001-04-03 | International Business Machines Corporation | Text categorization toolkit |
US20030069873A1 (en) | 1998-11-18 | 2003-04-10 | Kevin L. Fox | Multiple engine information retrieval and visualization system |
JP2000155803A (ja) | 1998-11-20 | 2000-06-06 | Nec Corp | 文字読取方法および光学式文字読取装置 |
US6189002B1 (en) | 1998-12-14 | 2001-02-13 | Dolphin Search | Process and system for retrieval of documents using context-relevant semantic profiles |
US6622134B1 (en) | 1999-01-05 | 2003-09-16 | International Business Machines Corporation | Method of constructing data classifiers and classifiers constructed according to the method |
DE60042165D1 (de) * | 1999-01-13 | 2009-06-18 | Computer Ass Think Inc | Unterschriften-erkennungs-system und -verfahren |
US6477551B1 (en) | 1999-02-16 | 2002-11-05 | International Business Machines Corporation | Interactive electronic messaging system |
DE19912648A1 (de) * | 1999-03-20 | 2000-09-21 | Aesculap Ag & Co Kg | Flächiges Implantat, Verfahren zu seiner Herstellung und Verwendung in der Chirurgie |
EP1049030A1 (en) | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
US6629097B1 (en) | 1999-04-28 | 2003-09-30 | Douglas K. Keith | Displaying implicit associations among items in loosely-structured data sets |
US6611825B1 (en) | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
US6501855B1 (en) * | 1999-07-20 | 2002-12-31 | Parascript, Llc | Manual-search restriction on documents not having an ASCII index |
US6785810B1 (en) | 1999-08-31 | 2004-08-31 | Espoc, Inc. | System and method for providing secure transmission, search, and storage of data |
US6453315B1 (en) | 1999-09-22 | 2002-09-17 | Applied Semantics, Inc. | Meaning-based information organization and retrieval |
US6990238B1 (en) | 1999-09-30 | 2006-01-24 | Battelle Memorial Institute | Data processing, analysis, and visualization system for use with disparate data types |
US6188010B1 (en) | 1999-10-29 | 2001-02-13 | Sony Corporation | Music search by melody input |
DE19952769B4 (de) | 1999-11-02 | 2008-07-17 | Sap Ag | Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache |
DE60005293T2 (de) | 2000-02-23 | 2004-07-01 | Ser Solutions Inc. | Methode und Vorrichtung zur Verarbeitung elektronischer Dokumente |
US7149347B1 (en) | 2000-03-02 | 2006-12-12 | Science Applications International Corporation | Machine learning of document templates for data extraction |
US7213024B2 (en) | 2000-03-09 | 2007-05-01 | The Web Access, Inc. | Method and apparatus for accessing information within an electronic system |
US6741724B1 (en) * | 2000-03-24 | 2004-05-25 | Siemens Dematic Postal Automation, L.P. | Method and system for form processing |
US20070033252A1 (en) | 2000-03-30 | 2007-02-08 | Combest Ricky F | Dynamic virtual network and method |
JP2001318948A (ja) | 2000-05-09 | 2001-11-16 | Hitachi Ltd | 文書検索方法及び装置並びにその処理プログラムを記憶した媒体 |
AU2001264928A1 (en) | 2000-05-25 | 2001-12-03 | Kanisa Inc. | System and method for automatically classifying text |
US6895552B1 (en) * | 2000-05-31 | 2005-05-17 | Ricoh Co., Ltd. | Method and an apparatus for visual summarization of documents |
US6944340B1 (en) * | 2000-08-07 | 2005-09-13 | Canon Kabushiki Kaisha | Method and apparatus for efficient determination of recognition parameters |
EP1182577A1 (en) | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
US6766316B2 (en) | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US20020156816A1 (en) * | 2001-02-13 | 2002-10-24 | Mark Kantrowitz | Method and apparatus for learning from user self-corrections, revisions and modifications |
US6732090B2 (en) | 2001-08-13 | 2004-05-04 | Xerox Corporation | Meta-document management system with user definable personalities |
ES2375403T3 (es) | 2001-08-27 | 2012-02-29 | BDGB Enterprise Software Sàrl | Un método para la indexación automática de documentos. |
EP1315096B1 (en) | 2001-11-21 | 2012-07-18 | Werner Voegeli | Method and apparatus for retrieving relevant information |
JP4006239B2 (ja) * | 2002-02-21 | 2007-11-14 | 株式会社日立製作所 | 文書の検索方法および検索システム |
GB0308413D0 (en) * | 2003-04-11 | 2003-05-21 | Enseal Systems Ltd | Verification of authenticity of check data |
JP4366108B2 (ja) | 2003-04-30 | 2009-11-18 | キヤノン株式会社 | 文書検索装置、文書検索方法及びコンピュータプログラム |
JP2005038077A (ja) | 2003-07-17 | 2005-02-10 | Hitachi Ltd | 筆記データ入力装置 |
JP2005043977A (ja) | 2003-07-23 | 2005-02-17 | Hitachi Ltd | 文書間の類似度算出方法および装置 |
US7483570B1 (en) | 2004-02-11 | 2009-01-27 | Knight Andrew F | Software and method for creating a dynamic handwriting font |
US7805446B2 (en) | 2004-10-12 | 2010-09-28 | Ut-Battelle Llc | Agent-based method for distributed clustering of textual information |
US20060142993A1 (en) | 2004-12-28 | 2006-06-29 | Sony Corporation | System and method for utilizing distance measures to perform text classification |
US8570586B2 (en) * | 2005-05-02 | 2013-10-29 | Digimarc Corporation | Active images through digital watermarking |
US7865018B2 (en) * | 2005-06-02 | 2011-01-04 | Microsoft Corporation | Personalized implicit and explicit character shape adaptation and recognition |
US7949714B1 (en) | 2005-12-05 | 2011-05-24 | Google Inc. | System and method for targeting advertisements or other information using user geographical information |
US7472121B2 (en) | 2005-12-15 | 2008-12-30 | International Business Machines Corporation | Document comparison using multiple similarity measures |
US8090743B2 (en) | 2006-04-13 | 2012-01-03 | Lg Electronics Inc. | Document management system and method |
WO2007149004A1 (en) | 2006-06-13 | 2007-12-27 | Freescale Semiconductor, Inc. | Methods and apparatus for simulating distributed effects |
US7945627B1 (en) | 2006-09-28 | 2011-05-17 | Bitdefender IPR Management Ltd. | Layout-based electronic communication filtering systems and methods |
US7610281B2 (en) | 2006-11-29 | 2009-10-27 | Oracle International Corp. | Efficient computation of document similarity |
US7720721B1 (en) | 2006-12-28 | 2010-05-18 | Amazon Technologies, Inc. | Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms |
WO2008097194A1 (en) | 2007-02-09 | 2008-08-14 | Agency For Science, Technology And Research | Keyword classification and determination in language modelling |
US8280877B2 (en) | 2007-02-22 | 2012-10-02 | Microsoft Corporation | Diverse topic phrase extraction |
US20080212877A1 (en) | 2007-03-04 | 2008-09-04 | John Franco | High speed error detection and correction for character recognition |
US8049921B2 (en) | 2007-04-16 | 2011-11-01 | Bottomline Technologies (De) Inc. | System and method for transferring invoice data output of a print job source to an automated data processing system |
US20090228777A1 (en) * | 2007-08-17 | 2009-09-10 | Accupatent, Inc. | System and Method for Search |
US20090125529A1 (en) | 2007-11-12 | 2009-05-14 | Vydiswaran V G Vinod | Extracting information based on document structure and characteristics of attributes |
US20090198677A1 (en) | 2008-02-05 | 2009-08-06 | Nuix Pty.Ltd. | Document Comparison Method And Apparatus |
JP5402099B2 (ja) | 2008-03-06 | 2014-01-29 | 株式会社リコー | 情報処理システム、情報処理装置、情報処理方法およびプログラム |
JP4538507B2 (ja) | 2008-05-02 | 2010-09-08 | シャープ株式会社 | 画像照合方法、画像照合装置、画像データ出力処理装置、プログラム及び記憶媒体 |
-
2009
- 2009-11-02 US US12/588,928 patent/US9152883B2/en active Active
-
2010
- 2010-10-29 AU AU2010311067A patent/AU2010311067B2/en active Active
- 2010-10-29 JP JP2012537459A patent/JP5755655B2/ja active Active
- 2010-10-29 WO PCT/IB2010/003252 patent/WO2011051817A2/en active Application Filing
- 2010-10-29 EP EP10805634A patent/EP2497053A2/en not_active Withdrawn
- 2010-10-29 CA CA2777930A patent/CA2777930C/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2011051817A2 (en) | 2011-05-05 |
AU2010311067B2 (en) | 2016-08-04 |
JP2013509664A (ja) | 2013-03-14 |
US20110103688A1 (en) | 2011-05-05 |
WO2011051817A3 (en) | 2012-03-29 |
AU2010311067A1 (en) | 2012-05-10 |
US9152883B2 (en) | 2015-10-06 |
EP2497053A2 (en) | 2012-09-12 |
CA2777930C (en) | 2018-07-10 |
CA2777930A1 (en) | 2011-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5755655B2 (ja) | 光学式文字認識(ocr)の精度を向上させるためのシステムおよび方法 | |
US11501061B2 (en) | Extracting structured information from a document containing filled form images | |
US11348353B2 (en) | Document spatial layout feature extraction to simplify template classification | |
JP2020095713A (ja) | 対話型インタフェース及びデータベースクエリを用いた文書画像からの情報抽出の方法及びシステム | |
JP4504702B2 (ja) | 文書処理装置、文書処理方法、および文書処理プログラム | |
JP5710624B2 (ja) | 抽出のための方法及びシステム | |
Seethalakshmi et al. | Optical character recognition for printed Tamil text using Unicode | |
JP2001167131A (ja) | 文書シグネチュアを使用する文書の自動分類方法 | |
JP2006252333A (ja) | データ処理方法、データ処理装置およびそのプログラム | |
CN111401099A (zh) | 文本识别方法、装置以及存储介质 | |
Yalniz et al. | Ottoman archives explorer: A retrieval system for digital Ottoman archives | |
Biswas et al. | A hybrid deep architecture for robust recognition of text lines of degraded printed documents | |
Ramesh et al. | Recognition of Kannada handwritten words using SVM classifier with convolutional neural network | |
Jyothi et al. | Innovative feature sets for machine learning based Telugu character recognition | |
Sarika et al. | Deep learning techniques for optical character recognition | |
Ganai et al. | A novel holistic unconstrained handwritten urdu recognition system using convolutional neural networks | |
Smitha et al. | Document image analysis using imagemagick and tesseract-ocr | |
Doughman et al. | Time-aware word embeddings for three Lebanese news archives | |
Nguyen-Trong | An End-to-End Method to Extract Information from Vietnamese ID Card Images | |
Jabonete et al. | Development of an Automatic Document to Digital Record Association Feature for a Cloud-Based Accounting Information System | |
JP2010205122A (ja) | レイアウト構造解析装置及びレイアウト構造解析方法 | |
JP4332161B2 (ja) | 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置 | |
JP2020047031A (ja) | 文書検索装置、文書検索システム及びプログラム | |
Ansari et al. | Automatic recognition of offline handwritten Urdu digits In unconstrained environment using daubechies wavelet transforms | |
Mnasri | Arabic-Character Historical Document Processing: Why and How To? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140617 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140917 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140925 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150428 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150527 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5755655 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |