JP3812719B2 - 文書検索装置 - Google Patents

文書検索装置 Download PDF

Info

Publication number
JP3812719B2
JP3812719B2 JP2001116751A JP2001116751A JP3812719B2 JP 3812719 B2 JP3812719 B2 JP 3812719B2 JP 2001116751 A JP2001116751 A JP 2001116751A JP 2001116751 A JP2001116751 A JP 2001116751A JP 3812719 B2 JP3812719 B2 JP 3812719B2
Authority
JP
Japan
Prior art keywords
character
search
document
characters
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001116751A
Other languages
English (en)
Other versions
JP2002312398A (ja
Inventor
泰三 亀代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001116751A priority Critical patent/JP3812719B2/ja
Priority to CN 02105715 priority patent/CN1266632C/zh
Publication of JP2002312398A publication Critical patent/JP2002312398A/ja
Application granted granted Critical
Publication of JP3812719B2 publication Critical patent/JP3812719B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、文書や図面等の画像を電子的に保存し検索・閲覧する文書検索装置に関し、特に文書画像や図面に記載された文字を認識することにより作成・蓄積した文書・図面データから任意のキーワードを用いて全文検索する文書検索装置に関するものである。
【0002】
【従来の技術】
紙文書をコンピュータが読取可能な文書イメージとして電子的に登録・保存し、検索・表示するためには従来から、文書登録時に文書イメージに対して人手でキーワード情報を付加する方法や、OCR(Optical Character Reader:光学的文字読取装置)を用いて文書イメージ中の文字を認識して作成した文書テキストを文書イメージとともに保存する方法がある。
【0003】
前者の方法は、文書登録時のキーワード付加に膨大な労力と時間を要する。一方、後者の方法は、文字認識性能が不完全であるために誤認識が避けられず、文字認識で得た文字コードを修正せずに登録するとキーワード検索時に所望の文書が検索結果として表示されない「検索もれ」や、検索キーワードと異なる文字列が検索結果として表示される「検索ノイズ」が発生するという問題がある。人手による誤認識の修正には前者の方法と同様に膨大な労力を必要とする。
【0004】
後者の方法の問題を解決する方法の1つに、文字切出し誤り・文字認識誤りがあっても「検索もれ」を低減し高精度に文書検索を実現する手法(特開2000−057315号公報)がある。これは文字認識処理で得た文字コードに加え文字画像から各文字の形状を表現する特徴量(形状特徴)を作成・保持し、検索時には文字コードと形状特徴を併用して照合する手法である。
【0005】
従来の文書検索装置について図面を参照しながら説明する。図18は、例えば特開2000−057315号公報に示された従来の文書検索装置の構成を示す図である。
【0006】
図18において、101は入力手段、102は制御手段、103は文字認識手段、104は特徴作成手段、105は表示手段、106は検索手段、107は特徴照合判定手段、108は検索特徴作成手段、109は認識辞書、110は検索データ格納部、111は形状特徴辞書である。
【0007】
つぎに、従来の文書検索装置の動作について図面を参照しながら説明する。
【0008】
はじめに文書登録の説明をする。図19(a)は、登録する文書画像であり、図19(a)を文字認識手段103が認識した結果を図19(b)に示す。
【0009】
次に、特徴作成手段104は、認識した各文字の形状特徴を作成する。形状特徴は、図20に示すように各文書画像を8分割した各領域中の文字外郭部の水平、垂直、右上、右下の各方向成分を抽出することで作成する。その結果を図21に示す。
【0010】
次に、図22を用いて、キーワード「文字認識」と検索データ「文宇認識」との照合処理の説明をする。
【0011】
検索手段106は、はじめに文字コードを用いた照合を行う。図22では、入力キーワード中の文字「文」「認」「識」が検索データと一致するが、「字」が一致しない。
【0012】
次に、検索手段106は、一致しない文字同士の形状特徴による照合を行う。具体的には、文字が一致しないキーワード中の「字」の形状特徴122と、検索データ中の「宇」の認識結果を出力した文字画像の形状特徴123の照合を行う。キーワード中の文字「字」に対する形状特徴は、形状特徴辞書111に格納された標準パターンの特徴値を用いる。
【0013】
いま、Cを文字コード間の距離、Dを形状特徴間の距離とすると、キーワードと検索データ間の距離を数式(1)で表す。
【0014】
Dist=(ΣD+ΣC)/キーワード文字数 数式(1)
【0015】
ただし、Cij=α(α:定数)の場合は、キーワードのi文字目と検索データj文字目の文字コードが一致しない。Cij=0の場合は、キーワードのi文字目と検索データj文字目の文字コードが一致する。
【0016】
Figure 0003812719
ただし、最初のΣの範囲はk=1〜K、2番目のΣの範囲はl=1〜Lである。
【0017】
ここで、Fdicは形状特徴辞書111に格納されたキーワードのi文字目の特徴値、Fimgは検索データのj文字目の特徴値、Kは方向成分数、Lは各方向成分毎の特徴数である。Dist<TH(TH:閾値)を満たす場合に文字列とキーワードが一致したとみなし、検索結果として出力する。
【0018】
形状特徴の照合を行う文字数がキーワードと検索データで異なる場合には、動的計画法を用いることで照合が可能となる。これにより、文字切出し誤り、文字認識誤りを許容する曖昧性のある照合を実現している。
【0019】
【発明が解決しようとする課題】
上述したような従来の文書検索装置では、文字認識誤り・文字切出し誤りを許容する検索を実現するために曖昧性のある照合を行っている。このため、例えば1文字毎の文字枠(以下1文字枠)を有する記入欄に書かれた文字などの、文字切出し誤りが存在しない文字列に対して検索を行うと、文字切出し誤りを許容しない検索に比べて誤抽出(検索ノイズ)が増加するという問題点があった。
【0020】
また、1文字枠がないフィールドに書かれた手書き文字は、活字に比べて文字の大きさや文字間隔のばらつきが大きく、文字認識で1行中の文字の切れ目を正しく検知するのが難しい。このために、手書き文字は、活字に比べて文字切出し誤りが増加し、認識率が低下する。その結果、手書き文字を認識して作成した文書データから検索を実行すると、検索もれが多くなるという問題点があった。
【0021】
このように、1文字枠の有無や書かれた文字が活字であるか手書き文字であるかによって文字認識での誤り傾向が異なり、文書検索の際にこれを考慮しないと高精度な検索を実現できないという問題点があった。
【0022】
この発明は、前述した問題点を解決するためになされたもので、検索補助情報を文書登録時に認識結果とともに保存し、検索時には検索補助情報をもとに照合を実行することで各文書データに応じて精度の高い検索処理ができ、これにより、検索補助情報を使用しない場合に比べて検索もれ・検索ノイズを削減することができる文書検索装置を得ることを目的とする。
【0023】
【課題を解決するための手段】
この発明の請求項1に係る文書検索装置は、定型用紙から読み取った文書画像を入力する文書入力手段と、前記定型用紙のフィールド毎の1文字枠の有無情報及び矩形座標情報について記述したフィールド情報を保持するフォーマット定義ファイルと、文字の標準パターンの特徴を格納する文字辞書と、複数の検索用文書データを格納する検索用文書データベースと、前記フォーマット定義ファイルのフィールド毎の1文字枠の有無情報及び矩形座標情報に基づいて、1文字枠があるフィールドに対しては画像の直線成分から文字枠抽出を行い、各文字枠内画像を1文字として切出し認識し、1文字枠がないフィールドに対しては矩形座標内から文字列抽出を行い、文字列の周辺分布を用いて1文字毎に分割することにより、前記文書入力手段が入力した文書画像から1文字毎の画像を抽出し、各1文字画像から文字認識で使用する特徴を抽出して、前記文字辞書内の各文字の標準パターンの特徴との距離を計算し、距離の小さな順に1文字以上を認識候補文字として出力するとともに、1行内における各文字の文字外接矩形大きさの第1の分散を算出して、学習用活字データ及び手書き文字データから予め算出した第2の分散の閾値と比較し、前記第1の分散が閾値より大きい場合は手書き文字、閾値以下の場合は活字と判定した検索補助情報を抽出する文字認識手段と、前記文字認識手段によって、フィールド毎に、出力された認識候補文字及び抽出された検索補助情報を検索用文書データとして前記検索用文書データベースに蓄積する文書蓄積手段と、文書検索のキーワードを入力するキーワード入力手段と、前記検索用文書データベースから検索用文書データを順次読み出し、読み出した検索用文書データの検索補助情報が手書きの場合には、読み出した検索用文書データの認識候補文字の連続する文字列から、一致度=(キーワード文字と検索用文書データ中文字の一致文字数)/(キーワード文字数)を算出し、一致度が一定値以上の場合、当該検索用文書データを検索結果として出力するような、入力キーワードとの文字コードの部分的な一致を照合に成功したとみなして当該検索用文書データを検索結果として出力する文字切出し・認識誤り対応検索を実行し、読み出した検索用文書データの検索補助情報が活字の場合には、文字認識の結果が誤りとなるのは文字を誤って切出した場合であると限定して、照合はキーワード文字と読み出した検索用文書データ中の認識候補第1位文字と行い、照合で部分的に一致しない文字があっても対応する文字数が異なる場合に照合に成功したとみなして当該検索用文書データを検索結果として出力する文字切出し誤り対応検索を実行する文書検索手段と、前記文書検索手段による検索結果を出力する検索結果出力手段とを備えたものである。
【0024】
この発明の請求項2に係る文書検索装置は、定型用紙から読み取った文書画像を入力する文書入力手段と、前記定型用紙のフィールド毎の1文字枠の有無情報及び矩形座標情報について記述したフィールド情報を保持するフォーマット定義ファイルと、文字の標準パターンの特徴を格納する文字辞書と、複数の検索用文書データを格納する検索用文書データベースと、前記フォーマット定義ファイルのフィールド毎の1文字枠の有無情報及び矩形座標情報に基づいて、1文字枠があるフィールドに対しては画像の直線成分から文字枠抽出を行い、各文字枠内画像を1文字として切出し認識し、1文字枠がないフィールドに対しては矩形座標内から文字列抽出を行い、文字列の周辺分布を用いて1文字毎に分割することにより、前記文書入力手段が入力した文書画像から1文字毎の画像を抽出し、各1文字画像から文字認識で使用する特徴を抽出して、前記文字辞書内の各文字の標準パターンの特徴との距離を計算し、距離の小さな順に1文字以上を認識候補文字として出力するとともに、1行内における各文字の文字外接矩形大きさの第1の分散を算出して、学習用活字データ及び手書き文字データから予め算出した第2の分散の閾値と比較し、前記第1の分散が閾値より大きい場合は手書き文字、閾値以下の場合は活字と判定した第1の検索補助情報を抽出する文字認識手段と、前記文字認識手段によって、フィールド毎に、出力された認識候補文字及び抽出された第1の検索補助情報、並びに前記フォーマット定義ファイルのフィールド毎の1文字枠の有無情報である第2の検索補助情報を検索用文書データとして前記検索用文書データベースに蓄積する文書蓄積手段と、文書検索のキーワードを入力するキーワード入力手段と、前記検索用文書データベースから検索用文書データを順次読み出し、読み出した検索用文書データの第1の検索補助情報が手書きの場合、かつ第2の検索補助情報が1文字枠無しの場合には、読み出した検索用文書データの認識候補文字の連続する文字列から、一致度=(キーワード文字と検索用文書データ中文字の一致文字数)/(キーワード文字数)を算出し、一致度が一定値以上の場合、当該検索用文書データを検索結果として出力するような、入力キーワードとの文字コードの部分的な一致を照合に成功したとみなして当該検索用文書データを検索結果として出力する文字切出し・認識誤り対応検索を実行し、読み出した検索用文書データの第1の検索補助情報が手書きの場合、かつ第2の検索補助情報が1文字枠有りの場合には、入力キーワードと読み出した検索用文書データ中の文字列で部分的な一致を許容する検索であって、互いに対応する不一致文字の文字数が同一の場合に当該検索用文書データを検索結果として出力する文字認識誤り対応検索を実行し、読み出した検索用文書データの第1の検索補助情報が活字の場合、かつ第2の検索補助情報が1文字枠無しの場合には、文字認識の結果が誤りとなるのは文字を誤って切出した場合であると限定して、照合はキーワード文字と読み出した検索用文書データ中の認識候補第1位文字と行い、照合で部分的に一致しない文字があっても対応する文字数が異なる場合に照合に成功したとみなして当該検索用文書データを検索結果として出力する文字切出し誤り対応検索を実行し、読み出した検索用文書データの第1の検索補助情報が活字の場合、かつ第2の検索補助情報が1文字枠有りの場合には、入力キーワードと読み出した検索用文書データ中の文字列が完全に一致する場合に当該検索用文書データを検索結果として出力する完全一致検索を実行する文書検索手段と、前記文書検索手段による検索結果を出力する検索結果出力手段とを備えたものである。
【0025】
この発明の請求項3に係る文書検索装置は、前記文字認識手段が、1行内における各文字の文字外接矩形大きさの第1の分散を算出して、学習用活字データ及び手書き文字データから予め算出した第2の分散の閾値と比較し、前記第1の分散が閾値より大きい場合は手書き文字、閾値以下の場合は活字と判定した第1の検索補助情報を抽出する代わりに、前記文字辞書に文字毎に活字と手書きの標準パターンを両方保持し、文字画像から抽出した特徴と、手書き文字及び活字の標準パターンの特徴との距離計算を行い、文字画像と一番距離の近い文字の標準パターンが手書き文字であるか活字であるかで判定した第1の検索補助情報を抽出するものである。
【0030】
【発明の実施の形態】
実施の形態1.
この発明の実施の形態1に係る文書検索装置について図面を参照しながら説明する。図1は、この発明の実施の形態1に係る文書検索装置の構成を示す図である。なお、各図中、同一符号は同一又は相当部分を示す。
【0031】
図1において、1は文書入力手段、2は文書入力手段1が入力した文書イメージ中の文字を認識し、文字コードと文字画像から検索補助情報を抽出する文字認識手段、3は文字の標準パターンの画像特徴を格納する文字辞書、4は文字認識手段2が出力する文字認識結果と検索補助情報を蓄積する文書蓄積手段、5はキーワード入力手段、6は文書検索手段、7は文字蓄積手段4が出力する検索用文書データを格納する検索用文書データベース、8は検索結果出力手段、9はフォーマット定義ファイルである。
【0032】
つぎに、この実施の形態1に係る文書検索装置の動作について図面を参照しながら説明する。
【0033】
はじめに文書登録処理の説明をする。ここでは、図6に示す定型用紙を使用して登録する。図6において、202は氏名フィールド、203は住所フィールド、204は電話番号フィールド、205は商品名フィールドを示す。
【0034】
図6に示す定型用紙の読取りに使用するフォーマット定義ファイルの例を図7に示す。図7では、各フィールド毎の1文字枠の有無、およびフィールド矩形座標を示している。図7に示すフォーマット定義ファイルは人手で作成する。
【0035】
図2は、この実施の形態1に係る文書検索装置の登録処理のフローチャートである。
【0036】
この図2を用いて登録処理の説明をする。はじめに、図2のステップS100において、文書入力手段1は、文書画像を入力する。この文書入力手段1は、スキャナを用いて紙文書を光電変換することで実現可能である。また、既に光電変換されたイメージをネットワーク経由等で取込むことでも実現可能である。文書入力手段1で取込んだ文書画像の例を、図8および図9に示す。
【0037】
次に、図2のステップS200において、文字認識を行う。文字認識手段2は、文書入力手段1が入力した文書画像から文字画像を抽出し、各文字画像に対応する文字コードを出力する。本実施の形態1では、文字認識手段2は、公知である画像処理技術を用いて実現する。はじめに、フォーマット定義ファイル9のフィールド矩形座標、文字枠情報をもとに文書画像から1文字毎の画像を抽出する。1文字枠があるフィールドに対しては画像の直線成分から文字枠抽出を行い、各文字枠内画像を1文字として切出し認識する。1文字枠がないフィールドに対しては矩形座標内から文字列抽出を行い、文字列の周辺分布を用いて1文字毎に分割する。
【0038】
次に、各1文字画像から文字認識で使用する特徴を抽出して、文字辞書3内各文字の標準パターンの画像特徴との距離を計算し、距離の小さな順に1文字以上を認識候補文字として出力する。
【0039】
具体的には、1文字枠があるフィールドからの文字枠検出は、フィールド矩形領域から水平、垂直方向長が一定値以上の直線成分を検出し、その交点で囲まれる矩形を1文字枠とする。直線成分検出は、公知の画像処理技術を用いて実行する。この結果得られた1文字枠内の文字を1文字とする。1文字枠がないフィールドに対しては文字列抽出、文字切出しを行う。文字列抽出は、はじめに入力画像(白画素値=0、黒画素値=1の2値画像)に対してユークリッド距離が一定値以内の黒画素同士の結合処理を行う。次に、画像処理手法であるラベリング処理を行い、各ラベルの形状が短冊状であるものを文字列と決定する。
【0040】
次に、各文字列を水平方向と垂直方向から走査して黒画素数の周辺分布を求め、黒画素数が極小となる位置を文字分割候補点として文字列を1文字画像に分割する。
【0041】
文字認識処理は、1文字画像に対し、文字の特徴として例えば縦8次元×横8次元のメッシュ特徴を用いる。具体的には、8×8の碁盤目状の各小領域に存在する黒画素数を計数し、文字辞書3内の標準パターンの特徴と各次元毎の差分の絶対値和から距離を求め、その小さな順に1つもしくは複数の文字を認識候補文字として出力する。
【0042】
次に、文字認識手段2は、認識する文字列の画像特徴から検索補助情報を抽出する。ここでは、文字が活字であるか手書きであるかを判定する。その判定方法は、例えば「1行中の手書き文字は活字に比べて1文字の大きさにばらつきがあり、その分散が大きい」という知識を利用し、1行内における各文字の文字外接矩形大きさの平均および分散を算出して、学習用活字データ及び手書き文字データから予め算出した分散の閾値と比較し、分散が閾値より大きい場合は手書き文字、閾値以下の場合は活字と判定する。また、文字辞書3に文字毎に活字と手書きの標準パターンを両方保持し、文字画像から抽出した特徴と、手書き文字および活字の標準パターン特徴との距離計算を行い、文字画像と一番距離の近い文字の標準パターンが手書き文字であるか活字であるかで判定することも可能である。
【0043】
最後に、ステップS300において、文書蓄積手段4は、認識候補文字を保存して終了する。ここでは、文字認識手段2が出力した文字コードに加えて手書き/印刷を判別する検索補助情報を保存する。
【0044】
図8に示す文書画像に対する検索用文書データを図10に、図9に示す文書画像に対する検索用文書データを図11に示す。図10および図11の認識候補文字で[]に囲まれる文字は、1文字画像から複数の認識候補文字の出力を示す。複数の認識候補文字を保持することで文字列中に含まれる正解文字数を増加させ、その結果検索もれを低減することができる。図10、図11に示す検索用文書データを、検索用文書データベース7に登録して終了する。
【0045】
次に、検索処理の手順について、図3、図4のフローチャートをもとに説明する。
【0046】
ここでは、検索キーワードに「一郎」および「一朗」の2つを用いて説明する。はじめに、図3のステップS1100において、キーワード入力手段5は、検索キーワードを入力する。このキーワード入力手段5は、キーボードやマウス、ペンとタブレット等で実現可能である。はじめに、検索キーワードとして「一郎」と入力する。
【0047】
次に、ステップS1200において、文書検索手段6は、検索用文書データベース7と入力キーワードの照合処理を行う。照合処理の手順を、図4のフローチャートを用いて説明する。
【0048】
図4のステップS1210において、検索用文書データベース7から検索用文書データを1つ取り出し、その検索補助情報と認識候補文字を図示しないバッファにロードする。いま、検索用文書データベース7には、図10、図11に示す2文書が格納されている。はじめに、図10に示す検索用文書データをバッファにロードする。
【0049】
次に、ステップS1220において、文書検索手段6は、フィールド内検索を実行する。
【0050】
フィールド内検索は、図5に示すように検索補助情報に応じた検索を行う。図5では、検索補助情報が手書きの場合は、文字切出し・認識誤り対応検索151を実行し、活字の場合は、文字切出し誤り対応検索152を実行する。
【0051】
はじめに、図10からフィールド番号1(氏名)の検索補助情報を得る。ここでは「手書き」であるので、文字切出し・認識誤り対応検索151を実行する。文字切出し・認識誤り対応検索151を実現するには、従来例に示すような文字コードと形状特徴を併用することで文字切出し・認識誤りを許容してもよいし、入力キーワードとの文字コードの部分的な一致を照合に成功したとみなして検索結果として出力することで文字切出し・認識誤りを許容する方法でもよい。
【0052】
ここでは、後者の例を示す。後者の場合では、連続する文字列から、一致度=(キーワード文字と検索用文書データ中文字の一致文字数)/(キーワード文字数)を算出し、これが一定値(ここでは0.5とする)以上の場合検索結果として出力する。認識候補文字「川上一[朗郎]」とキーワード「一郎」は第1位認識候補文字は「朗」と「郎」は互いに一致しないが、第2位候補に「郎」があるために一致する。このときの一致度は、2/2=1.0であるので、検索結果出力候補とする。
【0053】
次に、ステップS1230へ進み、全てのフィールドを処理したか否かを判定する。図10にはまだ照合していないフィールドが存在するのでステップS1220へ進み、フィールド番号2(住所)とのフィールド内照合を実行する。フィールド番号2の文字認識結果とキーワード文字との一致文字はないので出力する検索結果は存在しない。
【0054】
以下同様に繰り返し、全てのフィールド内検索が終わったらステップS1240へ進み、検索用文書データベース7中に照合処理を行っていない検索用文書データが存在するか否かを調べる。いま、図11に示す検索用文書データが検索用文書データベース7中に存在するので、ステップS1210へ進み同様に実行する。
【0055】
図5に示す検索用文書データの検索補助情報は「活字」であるので、文字切出し誤り対応検索152を実行する。この文字切出し誤り対応検索152とは、ここでは文字認識の結果が誤りとなるのは文字を誤って切出した場合であると限定して、照合はキーワード文字と検索用文書データ中の認識候補第1位文字と行い、照合で部分的に一致しない文字があっても対応する文字数が異なる場合に照合に成功するとみなす照合とする。
【0056】
例えば、キーワード「○×電機」と文字列「○酸機」との照合では、「○」および「機」が違いに一致するが、「×電」と「酸」が一致せず、文字数がそれぞれ「2」と「1」で異なる。この場合に、文字切出し誤り対応検索152では文字認識手段2が「×電」を誤って「酸」と認識したと解釈して照合に成功する。更に精度を向上させるには従来例と同様に「×電」と「酸」の形状特徴を照合することで不一致文字の形状を検定して、形状が類似していると判定した場合に照合に成功するようにしてもよい。
【0057】
図11では、入力キーワード「一郎」と氏名フィールドの認識候補文字である「山田一[郎朗]」では「一」および「郎」が互いに一致するので検索結果として出力する。以下未照合フィールドがなくなるまでステップS1220〜ステップS1240を繰り返し、全てのデータとの照合が終わったらS1250へ進み、出力結果作成を行う。検索結果出力手段8は、図10、図11の検索用文書データの何れも検索結果として出力する。最後に、図3でステップS1300へ進み検索結果を出力する。
【0058】
次に、本方式でキーワード「一朗」を用いて検索を実行する。「一朗」を用いた検索では、図10、11の検索用文書データの何れも検索結果として出力されないのが理想的な結果である。はじめに、図10と文字切出し・認識誤り対応検索151を行う。図10の「川上一[朗郎]」とはキーワードの何れの文字とも一致するので照合に成功する。その結果、図10の検索用文書データは検索結果として出力され、検索ノイズとなる。
【0059】
次に、図11と文字切出し誤り対応検索152を実行する。図11の「山田一[郎朗]」と、キーワード文字「一」が一致するが、キーワード文字「朗」と文字列中の第1位候補文字「郎」が一致せず不一致文字数がともに「1」と同一であるためキーワードとの照合に失敗する。その結果、図11の検索用文書データは、検索結果として出力されない。
【0060】
以上より、本手法ではキーワード「一郎」で検索もれがなく、キーワード「一朗」で検索ノイズが1文書となる。
【0061】
比較のために、図10、11に対して検索補助条件を用いずに同一方法で検索する場合を考える。文字切出し・認識誤り対応検索151を用いてキーワード「一郎」で検索すると、図10、11の何れもキーワード文字と一致するので照合に成功する。
【0062】
同様に、キーワード「一朗」を用いて検索を行うと、図10、図11の何れもキーワード文字と一致して照合に成功して検索ノイズとなる。この結果、文字切出し・認識誤り対応検索151による検索では、キーワード「一郎」で検索もれがないが、「一朗」で検索ノイズが2文書となる。
【0063】
同様に、検索補助条件を用いずに文字切出し誤り対応検索152の場合を考える。キーワード「一郎」との照合では、図11とは照合に成功するが図10との照合ではキーワード文字「郎」と検索用文書データ中の「朗」とが一致せず不一致文字数が同一であるために照合に成功せず検索もれとなる。
【0064】
一方、キーワード「一朗」による検索では、図10は照合に成功して検索ノイズとなるが、図11との照合ではキーワード文字「一」が一致するが「朗」が一致せず検索結果として出力されない。この結果、文字切出し誤り対応検索152では、キーワード「一郎」で検索もれが1文書、キーワード「一朗」で検索ノイズが1文書となる。
【0065】
キーワード「一郎」「一朗」を用いた検索では、本手法は文字切出し・認識誤り対応検索151のみの場合に比べて検索ノイズが1文書減少する。また、文字切出し誤り対応検索152のみの場合に比べて検索もれが1文書減少する。このように、検索補助情報を用いて検索方法を切替えることで検索もれ、検索ノイズを削減し精度の良い検索を実現することができる。
【0066】
この実施の形態1の第2の実現方式として、検索補助情報が「手書き」であるか「活字」であるかで文書検索手段6が異なる照合を実行することに加えて、フォーマット定義ファイル中のフィールド情報も検索補助情報として用いることでより詳細な条件に応じた照合が可能となる。
【0067】
その例を、図12、13、14を用いて示す。図2のステップS300において、文書蓄積手段4は、文字認識手段2が出力した認識候補文字と検索補助情報に加え、図7のフォーマット定義ファイル9中の1文字枠あり/なし情報も検索補助情報として検索用文書データに加え、検索用文書データベース7に蓄積する。
【0068】
その例を、図13、14に示す。図13、図14では、検索補助情報1が手書き/活字情報を指し、検索補助情報2が1文字枠あり/なし情報を指す。
【0069】
キーワードと検索用文書データベース7との照合には印刷/手書き情報と、1文字枠の有無情報の組合せから4種類の方法を設定する。その例を図12に示す。活字で1文字枠があるフィールドの文書データとの照合には文字認識誤り・文字切出し誤りはほとんどないので完全一致検索154と設定する。これは入力キーワードと検索用文書データ中の文字列が完全に一致する場合にのみ検索結果として出力する方法である。
【0070】
活字で1文字枠なしの場合は、本実施の形態1の第1の実現方式と同様の文字切出し誤り対応検索152とする。
【0071】
また、手書きで1文字枠がない場合も、本実施の形態1の第1の実現方式と同様の文字切出し・認識誤り対応検索151とする。
【0072】
手書きで1文字枠がある場合は、文字認識誤り対応検索153を実施する。この文字認識誤り対応検索153とは、入力キーワードと検索用文書データ中の文字列で部分的な一致を許容する検索であって、互いに対応する不一致文字の文字数が同一の場合に検索に成功とする。
【0073】
例えば、入力キーワード「○×電機」と文字列「○×雷機」の照合を考えると、これらは「○」「×」「機」が互いに一致し、対応する「電」「雷」が一致しない。このとき一致しない文字は各1文字と同一であるので「○×雷機」を検索結果として出力する。このように、検索補助情報に応じた検索方式を用意することで、個々の認識誤りに最適に対応した検索方式を実現することができる。
【0074】
この実施の形態1の第2の実現方式では、検索補助情報とフォーマット定義ファイルのフィールド情報を検索に使用したが、これに限ったことではなく、例えばフォーマット情報のみ登録して検索に使用してもよい。
【0075】
また、本実施の形態1では、検索補助情報に印刷・手書きの判別を用いたが、検索補助情報はこれに限ったものではなく、例えば文書画像の品質(ノイズの多少)、縦書き・横書き、フォントの種類、文字サイズ等を用いることも可能である。
【0076】
また、本実施の形態1では、1つの検索用文書データベース7に手書き文字、活字等の検索用文書データを混在して保持しているが、これに限ったものではなく、手書き文字、活字別等の検索補助情報別に検索用文書データベース7を独立して作成し、各々に特化した検索方式で検索することも可能である。この実施の形態1の第2の実現方式では、図12に検索補助情報毎に4つの検索方式を示しており、各検索方式で最適な検索用インデックス(文字位置索引情報)を作成することで検索の高速化が実現可能となる。
【0077】
ここでは、検索用インデックスは、図15、図16,図17に示す。各インデックスでは、文字コード、フィールド番号、文字位置を索引情報として保持する。これにより、文字認識結果をキーワードと直接照合することなく文書内に存在するキーワードを高速に探索することができる。
【0078】
図17は、完全一致検索154の検索用インデックスであり、検索補助情報が「活字」で「1文字枠あり」であるフィールド、即ち図14のフィールド番号3、4から作成する。例えばフィールド番号「4」の認識結果である「ピアノ」から「ピ」のフィールド番号は4、文字位置はフィールドの先頭から数えて1文字目であるので「1」となる。同様に、「ア」のフィールド番号は4、文字位置は2となる。以下同様に作成する。また、「ピア」のフィールド番号4、文字位置番号1、「アノ」のフィールド番号4、文字位置番号2と連接する2文字のインデックスも作成する。連接文字数を増加させるほど入力キーワード文字のインデックスの読み込み、照合回数が少なくなるため完全一致検索154の高速化を実現できる。
【0079】
図15は、文字認識誤り対応検索153、および文字切出し・文字認識誤り対応検索151の検索インデックスであり、図13の文字認識結果から作成する。同様に、図16は文字切出し対応検索152の検索用インデックスの例であり、図14のフィールド番号1、2から作成する。図15、図16は、曖昧性を有する検索方式のインデックスであり、文字切出し誤り・文字認識誤りに起因する検索もれを防止するために1文字インデックスのみを用いて検索する。これにより、図17のように連接文字インデックスを保持する場合に比べてインデックス容量を削減し、かつ高速検索を実現することができる。手書き・印刷で同一検索を実行する場合は、図15、図16に示す検索用インデックスを1つにまとめてもよい。
【0080】
以上説明したように、本実施の形態1によると、検索補助情報を文書登録時に認識結果とともに保存し、検索時には検索補助情報をもとに照合を実行することで各文書データに応じて精度の高い検索処理が可能となる。これにより、検索補助情報を使用しない場合に比べて検索もれ・検索ノイズの削減が可能となる。
【0081】
【発明の効果】
この発明の請求項1に係る文書検索装置は、以上説明したとおり、定型用紙から読み取った文書画像を入力する文書入力手段と、前記定型用紙のフィールド毎の1文字枠の有無情報及び矩形座標情報について記述したフィールド情報を保持するフォーマット定義ファイルと、文字の標準パターンの特徴を格納する文字辞書と、複数の検索用文書データを格納する検索用文書データベースと、前記フォーマット定義ファイルのフィールド毎の1文字枠の有無情報及び矩形座標情報に基づいて、1文字枠があるフィールドに対しては画像の直線成分から文字枠抽出を行い、各文字枠内画像を1文字として切出し認識し、1文字枠がないフィールドに対しては矩形座標内から文字列抽出を行い、文字列の周辺分布を用いて1文字毎に分割することにより、前記文書入力手段が入力した文書画像から1文字毎の画像を抽出し、各1文字画像から文字認識で使用する特徴を抽出して、前記文字辞書内の各文字の標準パターンの特徴との距離を計算し、距離の小さな順に1文字以上を認識候補文字として出力するとともに、1行内における各文字の文字外接矩形大きさの第1の分散を算出して、学習用活字データ及び手書き文字データから予め算出した第2の分散の閾値と比較し、前記第1の分散が閾値より大きい場合は手書き文字、閾値以下の場合は活字と判定した検索補助情報を抽出する文字認識手段と、前記文字認識手段によって、フィールド毎に、出力された認識候補文字及び抽出された検索補助情報を検索用文書データとして前記検索用文書データベースに蓄積する文書蓄積手段と、文書検索のキーワードを入力するキーワード入力手段と、前記検索用文書データベースから検索用文書データを順次読み出し、読み出した検索用文書データの検索補助情報が手書きの場合には、読み出した検索用文書データの認識候補文字の連続する文字列から、一致度=(キーワード文字と検索用文書データ中文字の一致文字数)/(キーワード文字数)を算出し、一致度が一定値以上の場合、当該検索用文書データを検索結果として出力するような、入力キーワードとの文字コードの部分的な一致を照合に成功したとみなして当該検索用文書データを検索結果として出力する文字切出し・認識誤り対応検索を実行し、読み出した検索用文書データの検索補助情報が活字の場合には、文字認識の結果が誤りとなるのは文字を誤って切出した場合であると限定して、照合はキーワード文字と読み出した検索用文書データ中の認識候補第1位文字と行い、照合で部分的に一致しない文字があっても対応する文字数が異なる場合に照合に成功したとみなして当該検索用文書データを検索結果として出力する文字切出し誤り対応検索を実行する文書検索手段と、前記文書検索手段による検索結果を出力する検索結果出力手段とを備えたので、精度の高い検索処理ができ、検索もれ・検索ノイズを削減することができるという効果を奏する。
【0082】
この発明の請求項2に係る文書検索装置は、以上説明したとおり、定型用紙から読み取った文書画像を入力する文書入力手段と、前記定型用紙のフィールド毎の1文字枠の有無情報及び矩形座標情報について記述したフィールド情報を保持するフォーマット定義ファイルと、文字の標準パターンの特徴を格納する文字辞書と、複数の検索用文書データを格納する検索用文書データベースと、前記フォーマット定義ファイルのフィールド毎の1文字枠の有無情報及び矩形座標情報に基づいて、1文字枠があるフィールドに対しては画像の直線成分から文字枠抽出を行い、各文字枠内画像を1文字として切出し認識し、1文字枠がないフィールドに対しては矩形座標内から文字列抽出を行い、文字列の周辺分布を用いて1文字毎に分割することにより、前記文書入力手段が入力した文書画像から1文字毎の画像を抽出し、各1文字画像から文字認識で使用する特徴を抽出して、前記文字辞書内の各文字の標準パターンの特徴との距離を計算し、距離の小さな順に1文字以上を認識候補文字として出力するとともに、1行内における各文字の文字外接矩形大きさの第1の分散を算出して、学習用活字データ及び手書き文字データから予め算出した第2の分散の閾値と比較し、前記第1の分散が閾値より大きい場合は手書き文字、閾値以下の場合は活字と判定した第1の検索補助情報を抽出する文字認識手段と、前記文字認識手段によって、フィールド毎に、出力された認識候補文字及び抽出された第1の検索補助情報、並びに前記フォーマット定義ファイルのフィールド毎の1文字枠の有無情報である第2の検索補助情報を検索用文書データとして前記検索用文書データベースに蓄積する文書蓄積手段と、文書検索のキーワードを入力するキーワード入力手段と、前記検索用文書データベースから検索用文書データを順次読み出し、読み出した検索用文書データの第1の検索補助情報が手書きの場合、かつ第2の検索補助情報が1文字枠無しの場合には、読み出した検索用文書データの認識候補文字の連続する文字列から、一致度=(キーワード文字と検索用文書データ中文字の一致文字数)/(キーワード文字数)を算出し、一致度が一定値以上の場合、当該検索用文書データを検索結果として出力するような、入力キーワードとの文字コードの部分的な一致を照合に成功したとみなして当該検索用文書データを検索結果として出力する文字切出し・認識誤り対応検索を実行し、読み出した検索用文書データの第1の検索補助情報が手書きの場合、かつ第2の検索補助情報が1文字枠有りの場合には、入力キーワードと読み出した検索用文書データ中の文字列で部分的な一致を許容する検索であって、互いに対応する不一致文字の文字数が同一の場合に当該検索用文書データを検索結果として出力する文字認識誤り対応検索を実行し、読み出した検索用文書データの第1の検索補助情報が活字の場合、かつ第2の検索補助情報が1文字枠無しの場合には、文字認識の結果が誤りとなるのは文字を誤って切出した場合であると限定して、照合はキーワード文字と読み出した検索用文書データ中の認識候補第1位文字と行い、照合で部分的に一致しない文字があっても対応する文字数が異なる場合に照合に成功したとみなして当該検索用文書データを検索結果として出力する文字切出し誤り対応検索を実行し、読み出した検索用文書データの第1の検索補助情報が活字の場合、かつ第2の検索補助情報が1文字枠有りの場合には、入力キーワードと読み出した検索用文書データ中の文字列が完全に一致する場合に当該検索用文書データを検索結果として出力する完全一致検索を実行する文書検索手段と、前記文書検索手段による検索結果を出力する検索結果出力手段とを備えたので、精度の高い検索処理ができ、検索もれ・検索ノイズを削減することができるという効果を奏する。
【0083】
この発明の請求項3に係る文書検索装置は、以上説明したとおり、前記文字認識手段が、1行内における各文字の文字外接矩形大きさの第1の分散を算出して、学習用活字データ及び手書き文字データから予め算出した第2の分散の閾値と比較し、前記第1の分散が閾値より大きい場合は手書き文字、閾値以下の場合は活字と判定した第1の検索補助情報を抽出する代わりに、前記文字辞書に文字毎に活字と手書きの標準パターンを両方保持し、文字画像から抽出した特徴と、手書き文字及び活字の標準パターンの特徴との距離計算を行い、文字画像と一番距離の近い文字の標準パターンが手書き文字であるか活字であるかで判定した第1の検索補助情報を抽出するので、精度の高い検索処理ができ、検索もれ・検索ノイズを削減することができるという効果を奏する。
【図面の簡単な説明】
【図1】 この発明の実施の形態1に係る文書検索装置の構成を示す図である。
【図2】 この発明の実施の形態1に係る文書検索装置の文書登録動作を示すフローチャートである。
【図3】 この発明の実施の形態1に係る文書検索装置の文書検索動作を示すフローチャートである。
【図4】 この発明の実施の形態1に係る文書検索装置の文書検索動作を示すフローチャートである。
【図5】 この発明の実施の形態1に係る文書検索装置の検索補助情報と照合方式の対応関係を示す図である。
【図6】 この発明の実施の形態1に係る文書検索装置の文書登録用紙を示す図である。
【図7】 この発明の実施の形態1に係る文書検索装置の文書登録用紙のフォーマット情報を示す図である。
【図8】 この発明の実施の形態1に係る文書検索装置の手書き文字による記入例を示す図である。
【図9】 この発明の実施の形態1に係る文書検索装置の活字による記入例を示す図である。
【図10】 図8の文書データを示す図である。
【図11】 図9の文書データを示す図である。
【図12】 この発明の実施の形態1に係る文書検索装置の検索補助情報、フィールド情報と照合方式の対応関係を示す図である。
【図13】 図8の文書データの別の例を示す図である。
【図14】 図9の文書データの別の例を示す図である。
【図15】 この発明の実施の形態1に係る文書検索装置の手書き文書の文字インデックスの例を示す図である。
【図16】 この発明の実施の形態1に係る文書検索装置の印刷文書の1文字枠なしフィールドの文字インデックスの例を示す図である。
【図17】 この発明の実施の形態1に係る文書検索装置の印刷文書の1文字枠ありフィールドの文字インデックスの例を示す図である。
【図18】 従来の文書検索装置の構成を示す図である。
【図19】 従来の文書検索装置の文字画像と文字認識結果を示す図である。
【図20】 従来の文書検索装置での形状特徴を作成する領域を示す図である。
【図21】 従来の文書検索装置での文字認識結果と形状特徴を示す図である。
【図22】 従来の文書検索装置での照合動作を説明するための図である。
【符号の説明】
1 文書入力手段、2 文字認識手段、3 文字辞書、4 文書蓄積手段、5キーワード入力手段、6 文書検索手段、7 検索用文書データベース、8 検索結果出力手段、9 フォーマット定義ファイル。

Claims (3)

  1. 定型用紙から読み取った文書画像を入力する文書入力手段と、
    前記定型用紙のフィールド毎の1文字枠の有無情報及び矩形座標情報について記述したフィールド情報を保持するフォーマット定義ファイルと、
    文字の標準パターンの特徴を格納する文字辞書と、
    複数の検索用文書データを格納する検索用文書データベースと、
    前記フォーマット定義ファイルのフィールド毎の1文字枠の有無情報及び矩形座標情報に基づいて、1文字枠があるフィールドに対しては画像の直線成分から文字枠抽出を行い、各文字枠内画像を1文字として切出し認識し、1文字枠がないフィールドに対しては矩形座標内から文字列抽出を行い、文字列の周辺分布を用いて1文字毎に分割することにより、前記文書入力手段が入力した文書画像から1文字毎の画像を抽出し、各1文字画像から文字認識で使用する特徴を抽出して、前記文字辞書内の各文字の標準パターンの特徴との距離を計算し、距離の小さな順に1文字以上を認識候補文字として出力するとともに、1行内における各文字の文字外接矩形大きさの第1の分散を算出して、学習用活字データ及び手書き文字データから予め算出した第2の分散の閾値と比較し、前記第1の分散が閾値より大きい場合は手書き文字、閾値以下の場合は活字と判定した検索補助情報を抽出する文字認識手段と、
    前記文字認識手段によって、フィールド毎に、出力された認識候補文字及び抽出された検索補助情報を検索用文書データとして前記検索用文書データベースに蓄積する文書蓄積手段と、
    文書検索のキーワードを入力するキーワード入力手段と、
    前記検索用文書データベースから検索用文書データを順次読み出し、読み出した検索用文書データの検索補助情報が手書きの場合には、読み出した検索用文書データの認識候補文字の連続する文字列から、一致度=(キーワード文字と検索用文書データ中文字の一致文字数)/(キーワード文字数)を算出し、一致度が一定値以上の場合、当該検索用文書データを検索結果として出力するような、入力キーワードとの文字コードの部分的な一致を照合に成功したとみなして当該検索用文書データを検索結果として出力する文字切出し・認識誤り対応検索を実行し、
    読み出した検索用文書データの検索補助情報が活字の場合には、文字認識の結果が誤りとなるのは文字を誤って切出した場合であると限定して、照合はキーワード文字と読み出した検索用文書データ中の認識候補第1位文字と行い、照合で部分的に一致しない文字があっても対応する文字数が異なる場合に照合に成功したとみなして当該検索用文書データを検索結果として出力する文字切出し誤り対応検索を実行する文書検索手段と、
    前記文書検索手段による検索結果を出力する検索結果出力手段と
    を備えたことを特徴とする文書検索装置。
  2. 定型用紙から読み取った文書画像を入力する文書入力手段と、
    前記定型用紙のフィールド毎の1文字枠の有無情報及び矩形座標情報について記述したフィールド情報を保持するフォーマット定義ファイルと、
    文字の標準パターンの特徴を格納する文字辞書と、
    複数の検索用文書データを格納する検索用文書データベースと、
    前記フォーマット定義ファイルのフィールド毎の1文字枠の有無情報及び矩形座標情報に基づいて、1文字枠があるフィールドに対しては画像の直線成分から文字枠抽出を行い、各文字枠内画像を1文字として切出し認識し、1文字枠がないフィールドに対しては矩形座標内から文字列抽出を行い、文字列の周辺分布を用いて1文字毎に分割することにより、前記文書入力手段が入力した文書画像から1文字毎の画像を抽出し、各1文字画像から文字認識で使用する特徴を抽出して、前記文字辞書内の各文字の標準パターンの特徴との距離を計算し、距離の小さな順に1文字以上を認識候補文字として出力するとともに、1行内における各文字の文字外接矩形大きさの第1の分散を算出して、学習用活字データ及び手書き文字データから予め算出した第2の分散の閾値と比較し、前記第1の分散が閾値より大きい場合は手書き文字、閾値以下の場合は活字と判定した第1の検索補助情報を 抽出する文字認識手段と、
    前記文字認識手段によって、フィールド毎に、出力された認識候補文字及び抽出された第1の検索補助情報、並びに前記フォーマット定義ファイルのフィールド毎の1文字枠の有無情報である第2の検索補助情報を検索用文書データとして前記検索用文書データベースに蓄積する文書蓄積手段と、
    文書検索のキーワードを入力するキーワード入力手段と、
    前記検索用文書データベースから検索用文書データを順次読み出し、読み出した検索用文書データの第1の検索補助情報が手書きの場合、かつ第2の検索補助情報が1文字枠無しの場合には、読み出した検索用文書データの認識候補文字の連続する文字列から、一致度=(キーワード文字と検索用文書データ中文字の一致文字数)/(キーワード文字数)を算出し、一致度が一定値以上の場合、当該検索用文書データを検索結果として出力するような、入力キーワードとの文字コードの部分的な一致を照合に成功したとみなして当該検索用文書データを検索結果として出力する文字切出し・認識誤り対応検索を実行し、
    読み出した検索用文書データの第1の検索補助情報が手書きの場合、かつ第2の検索補助情報が1文字枠有りの場合には、入力キーワードと読み出した検索用文書データ中の文字列で部分的な一致を許容する検索であって、互いに対応する不一致文字の文字数が同一の場合に当該検索用文書データを検索結果として出力する文字認識誤り対応検索を実行し、
    読み出した検索用文書データの第1の検索補助情報が活字の場合、かつ第2の検索補助情報が1文字枠無しの場合には、文字認識の結果が誤りとなるのは文字を誤って切出した場合であると限定して、照合はキーワード文字と読み出した検索用文書データ中の認識候補第1位文字と行い、照合で部分的に一致しない文字があっても対応する文字数が異なる場合に照合に成功したとみなして当該検索用文書データを検索結果として出力する文字切出し誤り対応検索を実行し、
    読み出した検索用文書データの第1の検索補助情報が活字の場合、かつ第2の検索補助情報が1文字枠有りの場合には、入力キーワードと読み出した検索用文書データ中の文字列が完全に一致する場合に当該検索用文書データを検索結果として出力する完全一致検索を実行する文書検索手段と、
    前記文書検索手段による検索結果を出力する検索結果出力手段と
    を備えたことを特徴とする文書検索装置。
  3. 前記文字認識手段は、
    1行内における各文字の文字外接矩形大きさの第1の分散を算出して、学習用活字データ及び手書き文字データから予め算出した第2の分散の閾値と比較し、前記第1の分散が閾値より大きい場合は手書き文字、閾値以下の場合は活字と判定した第1の検索補助情報を抽出する代わりに、
    前記文字辞書に文字毎に活字と手書きの標準パターンを両方保持し、文字画像から抽出した特徴と、手書き文字及び活字の標準パターンの特徴との距離計算を行い、文字画像と一番距離の近い文字の標準パターンが手書き文字であるか活字であるかで判定した第1の検索補助情報を抽出する
    ことを特徴とする請求項1又は2記載の文書検索装置。
JP2001116751A 2001-04-16 2001-04-16 文書検索装置 Expired - Fee Related JP3812719B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001116751A JP3812719B2 (ja) 2001-04-16 2001-04-16 文書検索装置
CN 02105715 CN1266632C (zh) 2001-04-16 2002-04-15 文书检索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001116751A JP3812719B2 (ja) 2001-04-16 2001-04-16 文書検索装置

Publications (2)

Publication Number Publication Date
JP2002312398A JP2002312398A (ja) 2002-10-25
JP3812719B2 true JP3812719B2 (ja) 2006-08-23

Family

ID=18967439

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001116751A Expired - Fee Related JP3812719B2 (ja) 2001-04-16 2001-04-16 文書検索装置

Country Status (2)

Country Link
JP (1) JP3812719B2 (ja)
CN (1) CN1266632C (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4649512B2 (ja) * 2006-02-14 2011-03-09 株式会社日立製作所 文字列検索方法およびその装置
JP4436894B2 (ja) * 2007-08-09 2010-03-24 パナソニック株式会社 コンテンツ検索装置
CN105787415B (zh) * 2014-12-18 2020-04-07 富士通株式会社 文档图像的处理装置、方法以及扫描仪
CN105302626B (zh) * 2015-11-09 2021-07-23 深圳市巨鼎医疗股份有限公司 Xps结构化数据的解析方法

Also Published As

Publication number Publication date
CN1381799A (zh) 2002-11-27
JP2002312398A (ja) 2002-10-25
CN1266632C (zh) 2006-07-26

Similar Documents

Publication Publication Date Title
US7630551B2 (en) Method and system for line extraction in digital ink
US7349576B2 (en) Method, device and computer program for recognition of a handwritten character
US7437001B2 (en) Method and device for recognition of a handwritten pattern
US6782144B2 (en) Document scanner, system and method
JP2713622B2 (ja) 表形式文書読取装置
US6944344B2 (en) Document search and retrieval apparatus, recording medium and program
US5787197A (en) Post-processing error correction scheme using a dictionary for on-line handwriting recognition
KR100412317B1 (ko) 문자인식/수정방법및장치
JP3345224B2 (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
Yin et al. Transcript mapping for handwritten Chinese documents by integrating character recognition model and geometric context
CN111340020A (zh) 一种公式识别方法、装置、设备及存储介质
EP2138959B1 (en) Word recognizing method and word recognizing program
JPH11161736A (ja) 文字認識方法
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
JP3812719B2 (ja) 文書検索装置
JP2003030654A (ja) パターン識別装置、パターン識別方法及びパターン識別用プログラム
JPH08287188A (ja) 文字列認識装置
JP2963474B2 (ja) 類似文字識別方法
JP2906758B2 (ja) 文字読取装置
JP2977244B2 (ja) 文字認識方法及び文字認識装置
JP3428504B2 (ja) 文字認識装置
AU2004214901B2 (en) Line extraction in digital ink
JP2020119206A (ja) 情報処理装置、及びプログラム
JP3138665B2 (ja) 手書き文字認識方式および記録媒体
JPH01171080A (ja) 誤り自動訂正文字認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060524

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100609

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100609

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110609

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees