JP4873787B2 - 文書を認識及びインデックスする方法 - Google Patents
文書を認識及びインデックスする方法 Download PDFInfo
- Publication number
- JP4873787B2 JP4873787B2 JP2001082072A JP2001082072A JP4873787B2 JP 4873787 B2 JP4873787 B2 JP 4873787B2 JP 2001082072 A JP2001082072 A JP 2001082072A JP 2001082072 A JP2001082072 A JP 2001082072A JP 4873787 B2 JP4873787 B2 JP 4873787B2
- Authority
- JP
- Japan
- Prior art keywords
- box
- document
- computer
- point
- ocr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- Character Discrimination (AREA)
Description
【発明の属する技術分野】
本発明は、文書を認識し且つデータベース内にインデックス即ち索引付けする技術分野に関するものである。本発明は、特に、技術的図面及びフォームの要素のうちの幾つかを認識するだけでそれらをインデックス即ち索引付けすることを可能とする装置及び方法を提供するものである。
【0002】
【従来の技術】
文書を認識するための多数の公知の方法が存在している。それらは、最初に、スキャニングステップを使用し、それに続いてセグメント化ステップを行い、次いで光学的キャラクタ認識(OCR)ステップを行う。セグメント化ステップ(文書の細分化)は文書全体に対して(従来の「全頁」)又は文書の一部のみに対して適用することが可能である。
【0003】
然しながら、後に文書を自動的にインデックス即ち索引付けさせることを可能とするこのような従来の方法は、認識すべき文書が余り複雑なものでない場合にのみ行うことが可能であるに過ぎない。更に、それは技術的な図面に対して適用されるものではない。この特定の分野においては、スキャニングの初期的なステップのみが実施され、セグメント化ステップ及び認識ステップはオペレータによって直接的に実施されるステップによって置換され且つ図面の1つ又はそれ以上のゾーン(実際には、図面のタイトルブロック即ち表題欄内に存在するもの)から図面をインデックスするために必要な特定な要素を手作業によって入力を行うものである。
【0004】
このような状況下において、異なるタイプ(即ち、異なる形状の情報ブロック)のものである可能性がある12個を超える技術的な図面をインデックス即ち索引付けすることが必要である場合には非常に厄介な作業となることが理解される。従って、現在のところ、自動認識に基づいてこのような図面をインデックスする方法に対する必要性が存在している。
【0005】
【発明が解決しようとする課題】
本発明は、以上の点に鑑みなされたものであって、上述した如き従来技術の欠点を解消し、文書を認識し且つインデックスする簡単且つ低コストな技術を提供することを目的とする。
【0006】
【課題を解決するための手段】
本発明によれば、コンピュータに接続されているスキャナを使用して文書のスキャニングを開始し、次いでコンピュータのポインティング装置を使用して文書の少なくとも1つのボックス内の任意の点Pを指定し、該ボックス内のキャラクタをOCRによって認識し該キャラクタをコンピュータに接続されている第一データベース内に格納しこのようにしてスキャニングした文書をインデックス即ち索引付けさせることを可能とする技術が提供される。指定するステップは、ユーザによって指定された点Pを包含する文書のボックスをサーチし且つ識別することを包含している。
【0007】
従って、本発明によれば、従来の手作業による入力は、同一のタイプの最初の文書をインデックスするために必要な要素の自動認識が使用可能な所定のゾーン(「ボックス」とも呼称する)を指定することに制限されている。認識し且つインデックスすべき文書は、1組の技術的な図面又はフォームによって構成することが可能であり、且つそれらは、オプションとして、異なるタイプのものとすることが可能である。
【0008】
該ボックスを探し出し且つ識別するステップは、前にユーザによって指定された点Pの周りの所定のゾーンにわたって形状サーチアルゴリズムを適用することによって行われる。該形状サーチアルゴリズムは、ハフ(Hough)変換に基づいたアルゴリズム、又は該決定したサーチゾーンの各垂直又は水平の線内に存在するピクセルの数をカウントし且つそれらの数に基づいてX及びY射影プロファイル内のピークを検査して該サーチゾーン内に存在する水平及び垂直の線を見つけ出すプロジェクション即ち射影アルゴリズムとすることが可能である。
【0009】
従って、該アルゴリズムを適用する区域を制限することによって、該文書のボックスを認識するのに必要な繰返し数を制限しながら、その実行速度を著しく増加させることを可能とする。
【0010】
スキャニングステップは、好適には、処理すべき文書の全てに対して初期的に実施され、ボックスを識別するステップ及びその内容に関してOCRを実施するステップは、その後に、該文書の各々に対して相次いで行われる。然しながら、同様に、スキャニングステップを最初に第一文書に対して実施し、ボックスを識別するステップ及びその内容に関してOCRを実施するステップを同一の文書に対して実施し、これら3つのステップを処理すべき文書の全てに対して相次いで繰返し行うことが可能である。
【0011】
本発明は、又、上述したステップを実行することによって文書を認識し且つインデックスする装置を提供している。好適には、本装置は、更に、前もってボックスの任意の点Pを指定することなしに、後にボックスを自動的に識別することを可能とするデータ(特性付けデータと呼称する)を格納するためにコンピュータに接続されている第二データベースを有している。
【0012】
これらのデータベースは、コンピュータのメモリ内に組込むことが可能であり、又それらはコンピュータ外部に設けることが可能である。ポインティング装置はコンピュータのキーボード又はユーザの指によって置換させることが可能である。
【0013】
【発明の実施の形態】
図1及び2に示したように、シート10のような技術的又は産業上の図面は、図12自身と種々の寸法の複数個の矩形状のボックスからなる情報ブロック14とを有している。
【0014】
これらの種々のボックスの殆どは技術的な図面をインデックス即ち索引付けするのに全てが同じように適した特定の記述を包含している。このことは、例えば、図面の投影、スケール又はフォーマットを特定する記述に対して適用される。インデックス即ち索引付けのために重要な記述は、一般的に、少なくとも、図面を識別する番号を包含している第一ボックス16と、図面のタイトル即ち名称を包含している第二ボックス18と、その図面を誰が描いたかを特定する第三ボックス20とを包含している。勿論、これら3つの記述は制限的なものとして考えるべきものではなく、第四ボックス22において得られるその最も最近の更新日付又は第五ボックス24内に存在する頁番号等も考慮に入れることが可能である。
【0015】
図3は図1に示したタイプの文書を認識し且つインデックスするための本発明方法を実施することを可能とするためにコンピュータシステムによって必要とされる最小のハードウエアアーキテクチャを示している。
【0016】
このコンピュータシステムは、先ず、後にインデックスされるべき文書(特に、図面シート)をスキャニングするためのスキャナ30又はデジタイザを有している。該スキャナはスキャニングのために従来のソフトウエア手段100が設けられている従来のタイプのコンピュータ又はマイクロコンピュータ32へ接続されている。コンピュータ32へ接続されている第一データベース34は、このようにしてスキャニングされた文書を格納する。理解されるように、コンピュータの内部記憶容量及びスキャニングされるべき文書に対応するデータの量に依存して、第一データベース34は、図示した如く、外部的なものとするか、又はコンピュータ内部に直接的に受納させることが可能である。コンピュータは、勿論、この第一データベースを制御(それを作成し、それを検討し、それを修正する)ためのソフトウエア手段110を有している。
【0017】
第一データベース34において文書をインデックス即ち索引付けするために、これらの文書のある特定の要素を認識し且つ識別するための従来のタイプのOCRソフトウエア手段120がコンピュータ32に設けられている。然しながら、これらのOCR手段は、特性付けデータを包含しており且つこれらの文書を特に簡単且つ高速の態様で処理することを可能とさせる第二データベース38と関連して特定のソフトウエア130によって制御される。
【0018】
本発明においては、この認識は文書の決定された即ち所定のゾーン内においてのみ行われ、且つより詳細には、技術的な図面の場合には、例えばマウス、トラックボール、又はボックス内の任意の点Pを指定することを可能とさせるその他の任意の等価な装置(タッチスクリーンが使用される場合にはユーザ自身の指を含む)等のコンピュータのポインティング装置36を使用してユーザによって特定された情報ブロックのボックス内においてのみ行われる。更に、指定が行われた後で、且つ処理を更に改善させるために、これらのソフトウエア手段130は、オプションとして、例えば、一連の数字キャラクタ(識別番号の場合)、又は一連の英文字キャラクタ(例えば、表題又は著者の氏名の場合)等の指定されているボックス内において認識されるべきデータのタイプをユーザが定義するように促すことが可能である。
【0019】
上述した装置において実行される方法を図4に示してあり、それは以下のようなステップに従って実行される。ソフトウエア手段100と関連しているスキャナ30によって第一文書を第一ステップ200においてスキャニングした後に、その文書の画像が、第二ステップ210において、コンピュータ32のメモリ内に一時的に格納され、且つ、それがコンピュータのディスプレイスクリーン上に同時的に表示される場合もある(必要である場合には、倍率又は「ズーム」操作を行った後に)。処理用のソフトウエア手段130が特性付けデータベース38からのデータに基づいてスキャニングされた文書のタイプを識別することが不可能である場合には(ステップ220における判定)、この識別は処理の持続のステップ期間中に実施され、且つ、特に、そのソフトウエア手段130と関連しているポインティング装置36を使用してステップ230を初期的に実施し、その際に、ユーザがその文書の最初の所定のゾーン、例えばその図面の識別番号を包含している該図面の情報ブロック14内のボックス16、における点Pを指定する。オプションとして、且つステップ240において点線で示したように、ユーザは、次いで、このボックス内において認識されるべきキャラクタのタイプを特定することが可能である。この表示は認識されるべきキャラクタの選択(例えば、0乃至9の数字のみ)を制限することが可能であり、それにより後のOCRステップを改善させる。この点が指定されると(その座標が所定の原点と相対的に決定される)、新たなステップ250が実行され、その場合に点Pを包含するボックスがサーチ即ち探索され且つ識別され(即ち、そのボックスの境界線がサーチされ且つ図5を参照してより詳細に説明するように識別され)、且つそのボックスが識別されると(例えば、そのボックスの輪郭が輝度が増加されて表示されるか又は別の色で表示され)、その特性付け要素がステップ260において第二データベース38内に格納され(そのボックスの寸法及びその中心位置も格納される)、且つそのすぐ後のステップ270において、従来のソフトウエア手段120を使用してそのボックス内のキャラクタに関してOCRが実行され、この認識操作の終りは、例えば、コンピュータがユーザに対して制御を返すことによって示される。
【0020】
次いで、上述した5つのステップ230,240,250,260,270を2番目の決定したゾーンに対して繰返し行い、次いで、その文書が完全に識別されるまで、即ち、ソフトウエア手段110が、それがなされるべき使用に依存して以前に決定されたようにその文書をインデックスするのに必要な全てのゾーンを考慮するまで、別のゾーンについて繰返し行われる。この操作が実施されると、新たなステップ280が実行され、その場合にスキャニングされた画像が第一データベース34内に格納される。前述したステップの全てが、オプションとして、第二のタイプの文書に対して繰返し行われ、且つスキャニングし且つインデックスすべき文書が存在しなくなるまで同様に行われる。その後に、第一データベース34をソフトウエア手段110によって取り扱うことが可能であり、該ソフトウエア手段はユーザによって選択された基準の関数として及び最初に表示したインデックス用要素の1つ又はそれ以上に対応して該データベース内の文書の各々へのアクセスを与えるべく機能する。
【0021】
重要なことは、上述した指定操作は与えられたタイプの最初の文書をインデックスする場合にのみ実行されるということであり、何故ならば、処理の為に供給する次続の文書が同一のタイプのものである場合には、ステップ220における判別の結果「YES」が得られ、且つインデックスのために必要な種々の項目を担持する同一のゾーンを指し示すことは最早必要ではないからである。ボックスの座標が最初に指定された場合にソフトウエア手段130がそれらを特性付けデータベース38内に格納するので、原点から開始して次続の文書において同一のボックスをサーチするだけで充分であり(ボックスの区域にわたってテストされている類似性及び図5を参照して説明するようなある大きさの公差を有している)、且つ各ボックスが識別されると、ボックス内における点を指定することなしに、その内容がOCRによって自動的に解析される。
【0022】
従って、容易に理解されるように、本発明方法は極めて高速であり且つ効果的である。何故ならば、1組の類似した文書の場合には、ユーザが介入することが必要な最初の場合に与えられたタイプの文書が識別されると、次続の文書はユーザが何等動作を行うことなしに継続して自動的に識別することが可能である。各場合において、OCRは文書をインデックスするのに必要な要素に対してのみ適用され、従来技術における場合のように文書全体に関して適用されるものではない。
【0023】
上述したような「1つづつ」のスキャニング(1つの文書の後に次の文書)はバッチ毎のスキャニング又は処理すべき1組の文書の全てのスキャニング(即ち、自動的に且つ対応するスキャニングした画像をコンピュータ内に格納)によって置換することが可能であり、最初のスキャニング操作が完了した後に、相次いでその組内の文書の各々に関して識別ステップ及びOCRステップを実行することが可能である。
【0024】
図5はユーザがボックス内の点Pを指定することのみによって決定される場合にボックスを識別するためのソフトウエア手段130において実施されるサーチサブプログラムによって実行される種々の操作を示している。これらの操作は射影アルゴリズム又はハフ変換(丸い形状の場合)等の形状サーチアルゴリズムを適用することに基づいている。特に、従来の射影アルゴリズムの特定の適用が実施され、それは画像の各垂直及び水平線内に存在するピクセル数をカウントし、且つこれらのカウント数に基づいて、X及びY射影プロファイルによってそのボックスの画像内の水平線及び垂直線を見つけ出す(その場合に、該射影プロファイルにおけるピークによってそれらの線が決定される)。このアルゴリズムは非常に高い信号対雑音比を与える利点を有している。何故ならば、1本の線内の「穴」の存在(即ち、混合ピクセル)はピークの高さに殆ど影響を有するものではなく、且つ同様に、その線が幾分勾配を有する場合にも、それはピークの位置に殆ど影響を与えるものではないからである。
【0025】
然しながら、本発明においては、この射影アルゴリズムは文書全体に適用されるものではなく、ポインティング即ち指定ステップ220期間中に指定された点P周りに定義されるその決定された即ち所定のゾーン(第一ステップ300において定義された区域Si)に適用されるに過ぎない。従って、このサーチゾーンが完全に認識されるべきボックスを包含しているものと仮定すると、そのボックスの右側を見つけ出すためには点Pの右側へ垂直線の全てを単に射影するだけで充分である(それは、ピークが最も大きいか又は与えられたスレッシュホールドよりも大きい場合である)。そのボックスの左側に対する点の左側における垂直線についても同じことが行われ、且つそのボックスの夫々上側及び下側を見つけ出すためにその点の上側及び下側の水平線についても同じことが行われる。然しながら、実際には、この最初のサーチゾーンは識別されるべきボックス内に存在しているか又はそれとオーバーラップしており(例えば、図6Aにおける区域S1参照)、従って、それがボックスを完全にカバーするまでこのゾーンの面積を段階的に(相次いで決定されるステップで)増加させることが適切であり、それによりそれを識別させることを可能とする(図8Aにおける区域S3参照)。各場合において、射影アルゴリズム(ステップ310)が適用される。2つの相次ぐ区域に対して、先行するステップ320において決定された射影ピークの位置が同じままである場合に識別が終了する(ステップ330における判別)。次いで、見つけ出されたボックスの座標が、後に、次続の文書の自動的な認識のために使用されるべく次のステップ340において格納される。該アルゴリズムの実施の1例が図6A乃至8Cに示してあり、それはインデックスを行うための情報を包含しているボックス18を識別するために実行される処理を示している。
【0026】
ユーザがボックスの最も左側をクリックしたものと仮定する。次いで、ソフトウエア手段130が、図6Aに示したように、この点の周りに面積S1の第一矩形サーチゾーンを形成し、そのゾーンは右側の垂直側部400及び識別されるべきボックスの上部部分及び底部部分402及び404を包含している。射影アルゴリズムを第一サーチゾーンへ適用することによって図6B及び6Cの水平及び垂直射影が得られる。図6Bは夫々の水平側部402及び404に対応する2つのピーク412及び414を明らかに示しており、且つ図6Cは垂直側部400に対応する単一のピーク410を示している。この初期的な解析はボックス18を解析することを可能とするものではなく、従って次いで、面積S2の第二サーチゾーンが自動的に検査され、且つ図7Aに示したように、この区域は未だに右側垂直側部400及びより長いものではあるが2つの水平側部402,404の一部を包含している。水平及び垂直射影アルゴリズムの結果は図7B及び7Cに示してある。ピーク410,412,414が水平射影及び垂直射影においてどの程度記述「FLANK」が表われるかに依存してより多く又はより少なく表現されているその他のピーク418及び420と共に示されている。最後に、この2番目のアルゴリズムの適用は、未だに、ボックス18を完全に識別することを可能とするものではないので、面積S3の第三サーチゾーンが自動的に定義され、それは、この場合には、ボックス18全体をカバーし(図8A参照)、特に、その左側の垂直側部406と共に、その水平側部402及び404を完全にカバーしている。対応するアルゴリズムから得られる水平射影を図8Bに示してあり、それは2つの水平側部402及び404に対応する2つのピーク412及び414を有している。然しながら、この垂直射影は、この場合には、一連のピーク420に加えて、ボックス18の右側400に対応するピーク410のみならず、ボックスの左側406に対応する新たなピーク416も示しており、従ってボックス18を完全に識別することを可能としている。
【0027】
本発明方法及び装置を、基本的に、技術的な図面を認識し且つインデックスする点について説明したが、本発明をその他のタイプの文書について使用することも可能であり、特に、最も有益的な適用は、例えば注文タイプ(特にメールオーダー用)又は手術シート等のフォームを認識し且つインデックスする場合である。現在のところ、このようなフォームを処理する場合には該フォーム上の特別の位置に位置させた特別の記号によって前もって特性付けされることを必要とし、そのような記号がそのフォームのタイプを自動的に識別することを可能とする。このような状況下にあっては、フォームの特性付けを行うことは時間がかかり且つ複雑な処理であり且つ大量の同様の文書をスキャニングすることが必要である場合にのみ正当化されるに過ぎない。
【0028】
本発明の場合には、このような従来技術において必要とされる特性付けは解消されており且つ処理されるべきフォームのボックスのみを指定/識別するステップによって置換されている。
【0029】
従って、本発明は特に高速であり(2,3の技術的図面又はフォームのみを処理するに過ぎない場合には重要である)、簡単であり、且つ熟練していないオペレータによっても実施することが可能である。更に、スキャニングされる文書が動かされることによって発生する場合のあるノイズに対しても安定なものである。
【0030】
以上、本発明の具体的実施の態様について詳細に説明したが、本発明は、これら具体例にのみ制限されるべきものではなく、本発明の技術的範囲を逸脱することなしに種々の変形が可能であることは勿論である。
【図面の簡単な説明】
【図1】 技術的な図面の一例を示した概略図。
【図2】 図1に示した種類の図面における情報ブロックの一例を示した概略図。
【図3】 本発明に基づいて文書を認識し且つインデックスするための装置のハードウエア構成を示した概略図。
【図4】 図1の図面を認識し且つインデックスする場合の図3の装置の動作を示したフローチャート。
【図5】 図2のブロックにおける1つのボックスをサーチし且つ識別するための機能のより詳細な処理を示したフローチャート。
【図6A】 識別されるべきボックスの一部を組込んだ第一サーチゾーンを示した概略図。
【図6B】 図6Aのサーチゾーンから得られた射影プロファイルを示した概略図。
【図6C】 図6Aのサーチゾーンから得られた射影プロファイルを示した概略図。
【図7A】 識別されるべきボックスのより大きな部分を組込んだ第二サーチゾーンを示した概略図。
【図7B】 図7Aのサーチゾーンから得られた射影プロファイルを示した概略図。
【図7C】 図7Aのサーチゾーンから得られた射影プロファイルを示した概略図。
【図8A】 識別されるべきボックスを完全に包含する第三サーチゾーンを示した概略図。
【図8B】 図8Aのサーチゾーンから得られた射影プロファイルを示した概略図。
【図8C】 図8Aのサーチゾーンから得られた射影プロファイルを示した概略図。
【符号の説明】
10 図面(シート)
12 図面
14 情報ブロック
16,18,20,22,24 ボックス
30 スキャナ
32 コンピュータ
34 第一データベース
38 第二データベース
110 ソフトウエア手段
120 OCRソフトウエア手段
130 ソフトウエア
Claims (13)
- 文書(10)を認識し且つインデックスする方法において、
コンピュータ(32)ヘ接続されているスキャナ(30)が文書のスキャニングをし(200)、
次いで該コンピュータのポインティング装置(36)がスキャニングされた前記文書の少なくとも1個のボックス(16−24)における任意の点Pをユーザの操作に基づいて指定し(250)、
前記コンピュータが前記指定された点Pを取り囲む決められたサーチゾーンにわたって形状サーチアルゴリズムを適用することによって前記ボックスをサーチすると共に識別し、
このようにしてスキャニングした文書をインデックスさせることを可能とするために前記コンピュータへ接続されている第一データベース(34)内に前記ボックス内のキャラクタを格納するために(280)前記コンピュータのOCRが前記ボックス内のキャラクタを認識する(270)、
ことを特徴とする方法。 - 請求項1において、前記形状サーチアルゴリズムが前記サーチゾーンの各垂直又は水平の線内に存在するピクセルの数をカウントする射影アルゴリズムであって、前記射影アルゴリズムは、これらのカウント数に基づいて、X及びY射影プロファイルにおけるピークを検査することによって前記サーチゾーン内に存在する水平及び垂直の線を見つけ出すことを特徴とする方法。
- 請求項1において、前記形状サーチアルゴリズムがハフ変換に基づいたアルゴリズムであることを特徴とする方法。
- 請求項1において、前記OCRが前記ボックス内のキャラクタを認識する前に、ユーザ入力に基づいて前記コンピュータが前記文書の前記ボックス内において認識されるべきキャラクタのタイプを定義付けするステップ(260)が行われることを特徴とする方法。
- 請求項1において、前記文書のスキャニングが初期的に処理されるべき1組の文書に対して行われ、前記ボックスを識別し且つその内容に関してOCRを実施することがその後に相次いで前記文書の各々に対して実施されることを特徴とする方法。
- 請求項1において、前記文書のスキャニングが初期的に第一文書に対して実施され、前記ボックスを識別し且つその内容に関してOCRを実施することがその後に前記文書に関して実施され、次いでこれら3つの操作を処理すべき文書の全てに対して相次いで繰返し行うことを特徴とする方法。
- 請求項1乃至6のうちのいずれか1項において、前記認識し且つインデックスすべき文書がオプションとして異なるタイプの1組の技術的図面によって構成されていることを特徴とする方法。
- 請求項1乃至6のうちのいずれか1項において、前記認識し且つインデックスすべき文書がオプションとして異なるタイプの1組のフォームによって構成されていることを特徴とする方法。
- 文書(10)を認識し且つインデックスする装置において、
文書をスキャニングし且つ前記文書の画像を送給するスキャナ(30)、
前記スキャニングした画像を受取るために前記スキャナへ接続されているコンピュータ(32)、
前記スキャニングした画像を格納するために前記コンピュータへ接続されている第一データベース(34)、
前記コンピュータのポインティング装置(36)を使用して前記画像の少なくとも1個のボックス(16−24)内の任意の点Pを指定し、その後に前記ユーザによって指定された前記点Pを取り囲む決められたサーチゾーンにわたって形状サーチアルゴリズムを適用することによって前記点Pを包含するボックスをサーチし且つ識別し、且つこのようにしてスキャニングした画像をインデックスさせることを可能とするために前記ボックス内のキャラクタをOCRによって認識させるソフトウエア手段(120,130)、
を有していることを特徴とする装置。 - 請求項9において、更に、前記ボックス内の点Pを指定することなしに前記ボックスをその後自動的に識別させることを可能とするデータ(特性付けデータと呼称する)を格納するためにコンピュータ(32)ヘ接続されている第二データベース(38)を有していることを特徴とする装置。
- 請求項9において、更に、前記文書のボックス内において認識されるべきデータのタイプを定義するソフトウエア手段(120,130)を有していることを特徴とする装置。
- 請求項10において、前記第一及び第二データベース(34,38)が前記コンピュータ(32)のメモリ内に組込まれていることを特徴とする装置。
- 請求項9において、前記ポインティング装置が前記コンピュータ(32)のキーボード又はユーザの指によって置換されていることを特徴とする装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0003639A FR2806814B1 (fr) | 2000-03-22 | 2000-03-22 | Procede de reconnaissance et d'indexation de documents |
FR0003639 | 2000-03-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001312500A JP2001312500A (ja) | 2001-11-09 |
JP4873787B2 true JP4873787B2 (ja) | 2012-02-08 |
Family
ID=8848371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001082072A Expired - Fee Related JP4873787B2 (ja) | 2000-03-22 | 2001-03-22 | 文書を認識及びインデックスする方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7319799B2 (ja) |
EP (1) | EP1136938B1 (ja) |
JP (1) | JP4873787B2 (ja) |
DE (1) | DE60120810T2 (ja) |
FR (1) | FR2806814B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7111785B2 (ja) | 2020-09-11 | 2022-08-02 | 矢崎総業株式会社 | 雌端子の製造方法 |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE602004005216T2 (de) * | 2003-08-20 | 2007-12-20 | Oce-Technologies B.V. | Dokumentenscanner |
CN100382096C (zh) * | 2003-08-20 | 2008-04-16 | 奥西-技术有限公司 | 文档扫描设备及方法 |
US20050185225A1 (en) * | 2003-12-12 | 2005-08-25 | Brawn Dennis E. | Methods and apparatus for imaging documents |
GB2413420A (en) * | 2004-04-23 | 2005-10-26 | Hewlett Packard Development Co | Interactive document reading |
GB2415519A (en) * | 2004-06-24 | 2005-12-28 | Canon Europa Nv | A scanning and indexing device |
EP1791088A4 (en) * | 2004-09-14 | 2009-04-15 | Nec Corp | DATA COLLATION SYSTEM, DATA COLLAGING DEVICE AND DATA COLLATION METHOD |
US8340476B2 (en) * | 2005-03-18 | 2012-12-25 | The Invention Science Fund I, Llc | Electronic acquisition of a hand formed expression and a context of the expression |
US7791593B2 (en) * | 2005-03-18 | 2010-09-07 | The Invention Science Fund I, Llc | Machine-differentiatable identifiers having a commonly accepted meaning |
US20060212430A1 (en) | 2005-03-18 | 2006-09-21 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware | Outputting a saved hand-formed expression |
US8229252B2 (en) * | 2005-03-18 | 2012-07-24 | The Invention Science Fund I, Llc | Electronic association of a user expression and a context of the expression |
US20070273674A1 (en) * | 2005-03-18 | 2007-11-29 | Searete Llc, A Limited Liability Corporation | Machine-differentiatable identifiers having a commonly accepted meaning |
US7826687B2 (en) | 2005-03-18 | 2010-11-02 | The Invention Science Fund I, Llc | Including contextual information with a formed expression |
US8823636B2 (en) * | 2005-03-18 | 2014-09-02 | The Invention Science Fund I, Llc | Including environmental information in a manual expression |
US7809215B2 (en) | 2006-10-11 | 2010-10-05 | The Invention Science Fund I, Llc | Contextual information encoded in a formed expression |
US8787706B2 (en) * | 2005-03-18 | 2014-07-22 | The Invention Science Fund I, Llc | Acquisition of a user expression and an environment of the expression |
US7542610B2 (en) * | 2005-05-09 | 2009-06-02 | Like.Com | System and method for use of images with recognition analysis |
EP1889207A4 (en) * | 2005-05-09 | 2012-12-12 | Google Inc | SYSTEM AND METHOD FOR THE USE OF CAPTURED IMAGES BY RECOGNITION |
US8732025B2 (en) | 2005-05-09 | 2014-05-20 | Google Inc. | System and method for enabling image recognition and searching of remote content on display |
US7809722B2 (en) * | 2005-05-09 | 2010-10-05 | Like.Com | System and method for enabling search and retrieval from image files based on recognized information |
US7809192B2 (en) * | 2005-05-09 | 2010-10-05 | Like.Com | System and method for recognizing objects from images and identifying relevancy amongst images and information |
US7657100B2 (en) | 2005-05-09 | 2010-02-02 | Like.Com | System and method for enabling image recognition and searching of images |
US7783135B2 (en) * | 2005-05-09 | 2010-08-24 | Like.Com | System and method for providing objectified image renderings using recognition information from images |
US20080177640A1 (en) | 2005-05-09 | 2008-07-24 | Salih Burak Gokturk | System and method for using image analysis and search in e-commerce |
US7760917B2 (en) | 2005-05-09 | 2010-07-20 | Like.Com | Computer-implemented method for performing similarity searches |
US7657126B2 (en) * | 2005-05-09 | 2010-02-02 | Like.Com | System and method for search portions of objects in images and features thereof |
US7519200B2 (en) * | 2005-05-09 | 2009-04-14 | Like.Com | System and method for enabling the use of captured images through recognition |
US7660468B2 (en) * | 2005-05-09 | 2010-02-09 | Like.Com | System and method for enabling image searching using manual enrichment, classification, and/or segmentation |
US7945099B2 (en) * | 2005-05-09 | 2011-05-17 | Like.Com | System and method for use of images with recognition analysis |
WO2007041647A2 (en) * | 2005-10-03 | 2007-04-12 | Riya, Inc. | System and method for use of images with recognition analysis |
US8571272B2 (en) * | 2006-03-12 | 2013-10-29 | Google Inc. | Techniques for enabling or establishing the use of face recognition algorithms |
US9690979B2 (en) | 2006-03-12 | 2017-06-27 | Google Inc. | Techniques for enabling or establishing the use of face recognition algorithms |
US20070300295A1 (en) * | 2006-06-22 | 2007-12-27 | Thomas Yu-Kiu Kwok | Systems and methods to extract data automatically from a composite electronic document |
US8233702B2 (en) * | 2006-08-18 | 2012-07-31 | Google Inc. | Computer implemented technique for analyzing images |
US7986843B2 (en) | 2006-11-29 | 2011-07-26 | Google Inc. | Digital image archiving and retrieval in a mobile device system |
US20080162602A1 (en) * | 2006-12-28 | 2008-07-03 | Google Inc. | Document archiving system |
US8416981B2 (en) | 2007-07-29 | 2013-04-09 | Google Inc. | System and method for displaying contextual supplemental content based on image content |
US20090282009A1 (en) * | 2008-05-09 | 2009-11-12 | Tags Ltd | System, method, and program product for automated grading |
KR20110081802A (ko) * | 2008-07-14 | 2011-07-14 | 구글 인코포레이티드 | 관심 있는 다른 콘텐츠 아이템들을 식별하기 위해 탐색 기준용 보충 콘텐츠 아이템들을 사용하는 시스템 및 방법 |
US9396540B1 (en) * | 2012-03-28 | 2016-07-19 | Emc Corporation | Method and system for identifying anchors for fields using optical character recognition data |
US9645729B2 (en) * | 2012-10-18 | 2017-05-09 | Texas Instruments Incorporated | Precise object selection in touch sensing systems |
US9811925B2 (en) | 2014-10-15 | 2017-11-07 | Texas Instruments Incorporated | Method and apparatus to render lines on a display screen |
JP2021149439A (ja) * | 2020-03-18 | 2021-09-27 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及び情報処理プログラム |
US11823476B2 (en) | 2021-05-25 | 2023-11-21 | Bank Of America Corporation | Contextual analysis for digital image processing |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0488489A (ja) * | 1990-08-01 | 1992-03-23 | Internatl Business Mach Corp <Ibm> | 一般化ハフ変換を用いた文字認識装置および方法 |
JPH10506735A (ja) * | 1995-03-24 | 1998-06-30 | ユナイテッド パーセル サービス オブ アメリカ,インコーポレイテッド | 循環パターンを含む画像において重なった線を除去しピクセル値を復元するための方法及び装置 |
US5822454A (en) * | 1995-04-10 | 1998-10-13 | Rebus Technology, Inc. | System and method for automatic page registration and automatic zone detection during forms processing |
US5815595A (en) * | 1995-12-29 | 1998-09-29 | Seiko Epson Corporation | Method and apparatus for identifying text fields and checkboxes in digitized images |
JPH09325854A (ja) * | 1996-06-05 | 1997-12-16 | Sharp Corp | 画像処理型座標入力装置 |
JP3113827B2 (ja) * | 1996-11-28 | 2000-12-04 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 矩形オブジェクトの認識方法及び認識装置 |
JPH10240958A (ja) * | 1996-12-27 | 1998-09-11 | Fujitsu Ltd | 画像から管理情報を抽出する管理情報抽出装置および方法 |
US6327387B1 (en) * | 1996-12-27 | 2001-12-04 | Fujitsu Limited | Apparatus and method for extracting management information from image |
US6621941B1 (en) * | 1998-12-18 | 2003-09-16 | Xerox Corporation | System of indexing a two dimensional pattern in a document drawing |
-
2000
- 2000-03-22 FR FR0003639A patent/FR2806814B1/fr not_active Expired - Fee Related
-
2001
- 2001-03-09 EP EP01200872A patent/EP1136938B1/en not_active Expired - Lifetime
- 2001-03-09 DE DE60120810T patent/DE60120810T2/de not_active Expired - Lifetime
- 2001-03-22 US US09/813,955 patent/US7319799B2/en not_active Expired - Fee Related
- 2001-03-22 JP JP2001082072A patent/JP4873787B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7111785B2 (ja) | 2020-09-11 | 2022-08-02 | 矢崎総業株式会社 | 雌端子の製造方法 |
Also Published As
Publication number | Publication date |
---|---|
FR2806814A1 (fr) | 2001-09-28 |
FR2806814B1 (fr) | 2006-02-03 |
JP2001312500A (ja) | 2001-11-09 |
DE60120810T2 (de) | 2006-12-07 |
US7319799B2 (en) | 2008-01-15 |
DE60120810D1 (de) | 2006-08-03 |
EP1136938B1 (en) | 2006-06-21 |
US20010033690A1 (en) | 2001-10-25 |
EP1136938A1 (en) | 2001-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4873787B2 (ja) | 文書を認識及びインデックスする方法 | |
US5877963A (en) | Intelligent document recognition and handling | |
US8644621B2 (en) | Image processing apparatus and image retrieval method | |
US5848186A (en) | Feature extraction system for identifying text within a table image | |
US20070168382A1 (en) | Document analysis system for integration of paper records into a searchable electronic database | |
US20090106699A1 (en) | Image processing device and image processing method | |
EP0854433A2 (en) | Caption and photo extraction from scanned document images | |
US5999653A (en) | Fast techniques for searching images using the Hausdorff distance | |
JPH06282588A (ja) | フルテキスト索引の生成、調査、検索および表示方法 | |
KR960002079A (ko) | 이미지 인식장치 및 방법 | |
JP2001109895A (ja) | 複数のディジタル画像の処理方法 | |
JPH10162150A (ja) | ページ解析システム | |
JPH09237282A (ja) | 文書画像データベース検索方法、画像特徴ベクトル抽出方法、文書画像閲覧システム、機械読み取り可能な媒体及び画像表示方法 | |
CA2668413A1 (en) | Media material analysis of continuing article portions | |
JPH06176195A (ja) | 手書き文字を切出し及び分類するための方法及び装置 | |
JPH0314184A (ja) | 文書画像再配置ファイリング装置 | |
JP4859054B2 (ja) | 画像処理装置、画像処理方法、プログラムおよび記録媒体 | |
US6816633B1 (en) | Image retrieval apparatus and method | |
JPH04241620A (ja) | 情報処理装置 | |
JP4040905B2 (ja) | 縮小画像表示装置、方法、プログラムおよびプログラムを記録した記録媒体 | |
CN112183253A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
JPH0877295A (ja) | 手書き情報検索方法及びそれを用いた手書き入力装置 | |
JP2005071014A (ja) | 文書画像処理装置、方法、プログラムおよび記憶媒体 | |
JP2938490B2 (ja) | 領域指定方法および領域指定装置 | |
JP4164976B2 (ja) | 文字認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100629 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100928 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101001 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20101027 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101101 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20101129 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101227 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110810 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110818 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111025 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111122 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141202 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |