JP3873612B2 - Document registration device, document search device, document registration method, and document search method - Google Patents

Document registration device, document search device, document registration method, and document search method Download PDF

Info

Publication number
JP3873612B2
JP3873612B2 JP2000354423A JP2000354423A JP3873612B2 JP 3873612 B2 JP3873612 B2 JP 3873612B2 JP 2000354423 A JP2000354423 A JP 2000354423A JP 2000354423 A JP2000354423 A JP 2000354423A JP 3873612 B2 JP3873612 B2 JP 3873612B2
Authority
JP
Japan
Prior art keywords
character
search
document
shape
shape feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000354423A
Other languages
Japanese (ja)
Other versions
JP2002157260A (en
Inventor
泰三 亀代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2000354423A priority Critical patent/JP3873612B2/en
Publication of JP2002157260A publication Critical patent/JP2002157260A/en
Application granted granted Critical
Publication of JP3873612B2 publication Critical patent/JP3873612B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【産業上の利用分野】
本発明は、文書や図面等の画像を検索が容易なように文字認識して電子的に保存する文書登録装置及びその登録装置から任意のキーワードを用いて検索する文書検索装置並びに文書登録方法及び文書検索方法に関するものである。
【0002】
【従来の技術】
紙文書をコンピュータが読取可能なイメージとして電子的に登録・保存し、検索・表示するためには従来から、文書登録時にイメージに人手でキーワード情報を付加する方法や、OCR( Optical Character Reader:光学的文字読取装置)を用いてイメージ中の文字を認識して作成した文書テキストをイメージとともに保存する方法がある。
【0003】
前者の方法は文書登録時のキーワード付加に膨大な労力と時間を要し、後者の方法は文字認識性能が不完全であるために誤認識が避けられず、文字認識で得た文字コードを修正せずに登録するとキーワード検索時に所望の文書が検索結果として表示されない「検索もれ」や、検索キーワードと異なる文字列が検索結果として表示される「検索ノイズ」が発生するという問題がある。人手による誤認識の修正には前者の方法と同様に膨大な労力を必要とする。
【0004】
後者の方法の問題を解決する方法の1つに、文字認識誤りがあっても「検索もれ」を低減し高精度に文書検索を実現する方法(特開2000-057315)がある。これは文字認識処理で得た文字コードに加え文字画像から各文字の形状を表現する特徴量(形状特徴)を作成・保持し、検索時には文字コードと形状特徴を併用して照合する手法である。
【0005】
以下に特開2000-057315における文書検索の動作を図23,図24を用いて説明する。図23は従来例の構成図であり、図23で101は入力手段、102は制御手段、103は文字認識手段、104は特徴作成手段、105は表示手段、106は検索手段、107は特徴照合判定手段、108は検索特徴作成手段、109は認識辞書、110は検索データ格納部、111は特徴辞書である。図23はキーワードと検索データの内容を示す。
【0006】
図24で、キーワード「文字認識」と検索データ「文宇認識」を用いた検索処理の説明をする。検索手段106は、はじめに文字コードを用いた照合を行う。図24では入力キーワード「文」「認」「識」が検索データと一致するが、「字」が一致しない。次に一致しない文字同士の形状特徴による照合を行う。
文字が一致しないキーワード中の「字」の形状特徴122と検索データ中の「宇」の認識結果を出力した文字画像の形状特徴123の照合を行う。キーワード中の文字「字」に対する形状特徴は特徴辞書111に格納された標準パターンの特徴値を用いる。
【0007】
形状特徴の抽出では、 1 文字画像を 4 領域に仮想的に分割し、各領域中の文字画像の外郭部の方向成分特徴を求める。具体的には、文字の外郭部の水平、垂直、右上がり、右下がりの 4 方向を方向成分に割当て、その方向成分の長さを抽出し、方向成分毎に和をとる。抽出した方向成分を図 6 、図 7 中の矢印で示す。図 6 で水平成分特徴 25 の特徴値「 10 62 は領域 21 から抽出した水平成分特徴を示し、特徴値「 6 63 は領域 22 から抽出した水平成分特徴を示す。同様に「 0 64 0 65 はそれぞれ領域 23, 領域 24 から抽出した水平成分特徴を示す。この場合、方向成分数は 4 であり、各方向成分毎の特徴数は 4 となる。
次に、形状特徴の照合における特徴値間の距離計算を説明する。いま、Cを文字コード間の距離、Dを形状特徴間の距離とすると、キーワードと検索データ間の距離を数式1で表す。
【0008】
【数1】

Figure 0003873612
【0009】
【数2】
Figure 0003873612
【0010】
ここで、Fdicは形状特徴辞書に格納されたキーワードのi文字目の形状特徴値、Fimgは検索データのj文字目の形状特徴値を表わす。また、Kは方向成分数であり、例えば、前述したように、文字の外郭部の水平、垂直、右上がり、右下がりの方向成分の場合、方向成分数は 4 である。Lは各方向成分毎の特徴数であり、例えば、前述したように、 1 文字画像を 4 領域に仮想的に分割した場合には、各方向成分毎の特徴数は 4 である。このような数式 (1) 及び数式 (2) に従って計算された総合距離値を Dist とすると、Dist < TH (TH:閾値)を満たす場合に文字列とキーワードが一致したとみなし、検索結果として出力する。
【0011】
【発明が解決しようとする課題】
特開2000-057315は以上のように動作し、高精度検索を実現する反面、通常の文字コードのみを用いる検索に比べて検索時における形状特徴の距離計算を行う必要があり検索時間が著しく増大する問題点があった。
特に、文字がかすれたりノイズを多く含む文書画像や、FAX受信文書などの低品質な文書画像が入力され、文字認識において誤認識文字が多く発生する場合、検索時にはキーワードと一部分が一致しない文字列が増加し、形状特徴照合に要する演算量の増加がより顕著となる。
【0012】
また、従来例で誤認識文字を修正せずに登録し、文字列検索で検索結果として出力させるためには誤認識文字に対して常に形状特徴との照合をする必要があり、同一キーワードで何度検索処理を実行しても検索時間が改善されない問題があった。
【0013】
【課題を解決するための手段】
本発明に係る文書登録装置は、文書画像を入力する文書入力手段と、入力された文書画像から文字を認識して認識候補文字を出力する文字認識手段と、前記文字認識手段が認識する文字の標準パターンの特徴を格納する文字辞書と、前記文字認識手段が出力する認識結果が正解であるか否かを判定する文字判定手段と、前記文字判定手段が不正解と判定した文字に対して文字の形状を表現する形状特徴を作成する形状特徴作成手段と、単語を保持する単語辞書と、文字の標準パターンの形状を表現する形状特徴を格納する形状特徴辞書と、認識候補文字と文字の形状を表現する形状特徴を検索用文書データに格納する文書蓄積手段と、前記検索用文書データと前記単語辞書および前記形状特徴辞書を用いて前記単語辞書内の単語と前記検索用文書データ内の文字列の形状を表現する形状特徴値の差の合計を予め計算して追加文字データに格納する文字追加手段とを備えたものである。
【0014】
また、本発明に係る文書登録装置は、前記形状特徴作成手段は、文字画像の外郭部から方向成分とその大きさを表現する形状特徴を作成する構成にされたものである。
【0015】
また、本発明に係る文書登録装置は、前記文字追加手段は、単語辞書と検索用文書データとから定期的に、または単語辞書が更新されたとき追加文字データを再作成する構成にされたものである。
【0016】
また、本発明に係る文書検索装置は、検索キーワードを入力するキーワード入力手段と、認識候補文字と文字の形状を表現する形状特徴が格納された検索用文書データおよび単語を保持する単語辞書内の単語と前記検索用文書データ内の文字列の形状を表現する形状特徴値の差の合計を予め計算して格納された追加文字データ並びに入力キーワードとの照合を行い、前記検索用文書データまたは前記追加文字データに前記入力キーワードを構成する文字が全て存在する場合には前記検索用文書データ中の該当文字から算出した距離値および前記追加文字データの該当文字との形状を表現する形状特徴値の差の合計を用いて入力キーワードとの距離計算を行い、キーワードを構成する文字が1文字でも存在しない場合には前記入力キーワードと前記検索用文書データで一致しない文字同士による形状を表現する形状特徴値の差の合計計算を行いその結果から照合に成功したか否かを判断する検索手段とを備えたものである。
【0017】
また、本発明に係る文書検索装置は、入力キーワードが単語辞書に存在するか否かを判定して、単語辞書に存在しない場合に前記入力キーワードを単語辞書に追加する単語辞書追加手段をさらに備えたものである。
【0018】
また、本発明に係る文書登録方法は、文書入力手段により入力された文書画像から文字を認識して認識候補文字を出力する文字認識手段を備えた文書登録装置の文書登録方法において、
前記文字認識手段が認識する文字の標準パターンの形状特徴を文字辞書に格納する辞書格納工程と、前記文字認識工程が出力する認識結果が正解であるか否かを判定する文字判定工程と、前記文字判定工程が不正解と判定した文字に対して文字の形状を表現する形状特徴を作成する形状特徴作成工程と、文字の標準パターンの形状を表現する形状特徴を形状特徴辞書に格納する形状特徴格納工程と、認識候補文字と文字の形状を表現する形状特徴を検索用文書データに格納する文書データ格納工程と、前記検索用文書データと単語を保持する単語辞書および前記形状特徴辞書を用いて前記単語辞書内の単語と前記検索用文書データ内の文字列の形状を表現する形状特徴値の差の合計を予め計算して追加文字データに格納する追加文字格納工程とを備えたものである。
【0019】
また、本発明に係る文書検索方法は、キーワード入力手段により入力された検索キーワードから文書を検索する検索手段を備えた文書検索装置の文書検索方法において、
認識候補文字と文字の形状を表現する形状特徴が格納された検索用文書データと単語を保持する単語辞書内の単語と前記検索用文書データ内の文字列の形状を表現する形状特徴値の差の合計を予め計算して格納された追加文字データと、前記入力キーワードとの照合を行い、前記検索用文書データまたは前記追加文字データに前記入力キーワードを構成する文字が全て存在する場合には前記検索用文書データ中の該当文字から算出した距離値および前記追加文字データの該当文字との形状を表現する形状特徴値の差の合計を用いて入力キーワードとの距離計算を行い、キーワードを構成する文字が1文字でも存在しない場合には前記入力キーワードと前記検索用文書データで一致しない文字同士による形状を表現する形状特徴値の差の合計計算を行いその結果から照合に成功したか否かを判断する検索工程を前記検索手段に備えるものである。
【0020】
【発明の実施の形態】
【実施の形態1】
本発明の実施の形態1を図1〜図13を用いて説明する。図1は本実施の形態1の構成図であり、図1において、1はコンピュータ読取可能なイメージを入力する文書入力手段、2は入力イメージから文字を抽出・認識し文字コードを出力する文字認識手段、3は文字認識で得た結果が正解であるか否か判定する文字判定手段、4は文字画像から文字の形状特徴を作成する形状特徴作成手段である。
【0021】
8は単語を格納する単語辞書、5は形状特徴を保持する文字が照合し得る単語と予め形状特徴の照合を行い距離を計算し、その結果を保持する文字追加手段、6は文字判定手段3が正解と判定した文書の文字コードと形状特徴作成手段4が作成した形状特徴を蓄積する文書蓄積手段、7は文字認識手段2が使用する、文字の標準パターンの特徴値を格納する文字辞書、9は文字の標準パターンの形状特徴を格納する形状特徴辞書、10は文書蓄積手段6が蓄積する検索用文書データ、11は文字追加手段5が作成する追加文字データ、13はキーワード入力手段、14は検索結果出力手段、15は文書検索手段である。
【0022】
本実施の形態1における文書登録動作を図2のフローチャートをもとに説明する。
はじめに図2のステップS101で文書入力手段1により文書画像(登録文書)を入力する。文書入力手段1は、スキャナを用いることで実現できる。また既に光電変換されたイメージをネットワーク経由等で取込むことでも実現可能である。文書入力手段1で取込んだ文書画像の例を図3に示す。
【0023】
次に図2のステップS102で文字認識手段2により文字認識を行う。文字認識手段2は文書入力手段1が入力した文書画像中に存在する文字画像を文字コードに変換して出力する。本実施の形態では文字認識手段2は公知である画像処理技術を用いて実現する。具体的には文書画像中から文字列を抽出し、各文字列を文字毎に分割する。次に分割した各文字画像から文字認識で使用する特徴量を抽出して文字辞書7内の各文字の標準パターンの画像特徴との距離を計算し、距離の小さな順に1文字以上を認識候補文字として出力する。
【0024】
文字列抽出は、はじめに入力画像(白画素値=0、黒画素値=1の2値画像)に対してユークリッド距離が一定値以内の黒画素同士の結合処理を行う。次に画像処理の一手法であるラベリング処理を行い、各ラベルの形状が短冊状であるものを文字列と決定する。
【0025】
次に各文字列を水平方向と垂直方向から走査して黒画素数の周辺分布を求め、黒画素数が極小となる位置を文字分割の候補点として文字列を1文字画像に分割する。文字認識処理は1文字毎に分割した画像に対し、文字の特徴量として例えば縦8次元×横8次元のメッシュ特徴を用いる。具体的には8×8の碁盤目状の各小領域に存在する黒画素数を計数し、文字辞書7内の標準パターンの特徴量と各次元毎の差分の絶対値和から類似度を求め、その大きな順に最大5文字を認識候補文字として出力する。類似度とは本来2ベクトル間の余弦値であるが、ここでは便宜的に各次元の差分の絶対和から求めた値を類似度とする。
【0026】
このようにして図3の文書画像に対して文字認識処理を実行した結果を図4に示す。図4では文字切出し処理で得た71から83の文字画像に対して文字認識によって得た第1位から第5位までの認識候補文字と各類似度を示す。
【0027】
次に図2のステップS103へ進み、文字判定手段3が文字判定を行う。文字判定とは認識候補文字に正解文字が含まれる可能性が高いか否かを判定する処理であり、正解である可能性が高い文字は第1位認識候補文字のみを保持し、可能性が低い文字には複数の認識候補文字や形状特徴を保持する処理である。これを用いることで第1位認識候補文字のみの保持に比べて文書検索時の「検索もれ」を削減し、また候補文字を保持する文字を絞り込むことで全文字に対して第5位認識候補文字まで保持する場合に比べて文書保存のための容量を削減する。
【0028】
文字判定は、学習データを用いて統計的に算出した閾値TH1を用いる。ここでTH1は学習データで第1位認識候補文字の正解率が100%である閾値であり、TH1以上の類似度の文字は正解と判定する。第1位認識候補文字の類似度がTH1未満の文字は正解でないと判定し第1位から第5位の認識候補文字を保持する。
【0029】
図4に示す全ての第1位認識候補文字に対して類似度による文字判定を行って認識候補文字を絞り込んだ結果を図5に示す。ここではTH1=200とする。図5で文字画像「こ」71、「こ」72、「で」73、「は」74、「、」75、「文」76、「字」77、「を」78、「す」81、「る」82、「。」83に対する第1位認識候補文字類似度はTH1(=200)以上であるので正解と判定し、それぞれ第1位認識候補文字のみ保持する。文字画像「認」79「識」80の第1位類似度はそれぞれ170,160とTH1未満であるので、全ての認識候補文字を保持する。
【0030】
次に図2のステップS104へ進み、形状特徴作成手段4で形状特徴作成を行う。形状特徴は文書検索において検索もれを防止するために保持するものであるので、文字認識で使用する特徴よりコンパクトで大局的な特徴を使用する。形状特徴作成手段4は、文字判定で第1位認識候補文字の類似度がTH1未満の文字に対して文字画像から形状特徴を抽出する。図5では「認」79「識」80に対して形状特徴を作成する。それぞれの文字で形状特徴を抽出する様子を図6、図7に示す。
【0031】
形状特徴抽出は、1文字画像を4領域に仮想的に分割し、各領域中の文字画像の外郭部の方向成分特徴を求める。具体的には文字の外郭部の方向成分(ここでは水平、垂直、右上がり、右下がりの4方向に割当てる)とその長さを抽出し、各成分毎に和をとる。抽出した方向成分を図6、図7中の矢印で示す。図6で水平成分特徴25の特徴値「10」62は領域21から抽出した水平成分特徴を示し、特徴値「6」63は領域22から抽出した水平成分特徴を示す。同様に「0」64「0」65はそれぞれ領域23,領域24から抽出した水平成分特徴を示す。
【0032】
次に図2のステップS105で、文書蓄積手段6により検索用文書データ保存を行う。文書蓄積手段6は、図5に示す認識候補文字及び図6、図7に示す形状特徴を検索用文書データ10へ保存する。保存するデータの内容を図8に示す。図8では、9文字目および10文字目に5位までの認識候補文字と形状特徴を保持しており、他は第1位認識候補文字のみ保存する。
【0033】
次にステップS106で、文字追加手段5が追加文字データ作成を行う。文字追加手段5は図8の形状特徴を含む文字列に対して単語辞書8内の単語を検索キーワードとして文字コードと形状特徴を併用した照合を行いその距離を計算する。照合方法は従来例と同一であり距離計算には数式1,2を用いる。即ちステップS106ではキーワード検索の照合処理を予め行い、検索用文書データの中からキーワードと一致する可能性のある文字列との形状特徴間の距離を保持する処理を実行する。
【0034】
文字追加手段5は、図8中で形状特徴を保持する9文字目、または10文字目の文字を含む文字列と単語辞書8内の単語との照合を行う。単語辞書8からの単語の抽出方法は単語辞書8中の全単語を対象としてもよいし、照合する文字列と文字が1文字以上一致する文字を含む単語を対象としてもよい。単語辞書8の例を図9に示す。
【0035】
いま、図8に示す文字列と単語辞書8(図9では一部のみ示している)内の単語「詔勅」「詔書」「詔論」「製織」「知識」「認識」「認知」「休講」「論議」「家裁」とそれぞれ1文字が一致する。そこでこれらの単語と図8の検索用文書データ10で一致しない文字の形状特徴の照合を行う。例えば「詔勅」は「詔」が図8の9文字目と一致するが「勅」が図8の10文字目と一致しないので「勅」と10文字目の形状特徴照合を行う。他の単語も同様に行いその結果を図10に示す。それぞれの距離を追加文字データ11に保持して終了する。これを図11に記す。図11で、「勅」は図8の10文字目の形状特徴との照合を行い、その距離が「60」であることを示す。
【0036】
次に、文書検索方法について説明する。検索処理の流れを図12、図13のフローチャートをもとに説明する。図12は検索処理の全体のフローを示し、図13は文書検索手段15による照合処理の詳細フローを示す。はじめに、図12のステップS210でキーワード入力手段13はユーザからの検索キーワードを得る。ここでは「認識」を入力キーワードとする。
【0037】
次に、ステップS220で文書検索手段15はキーワードと検索用文書データ10および追加文字データ11との照合処理を行う。いま、検索用文書データ10および追加文字データ11内には文書1に関するデータのみが存在する。はじめに図13のステップS221で、文書検索手段15は文字コードを用いた照合を行う。ここでは検索用文書データ10と入力キーワード「認識」を照合する。図8に示す文書1の検索用文書データ10には「認」が一致するがキーワード中の「識」は存在せず、ステップS222において一致個所があるのでステップS223へ進む。ステップS223では「識」が一致しないためステップS225へ進む。
【0038】
ステップS225では、一致しない文字の形状特徴同士の照合を行う。はじめに形状特徴の照合をするキーワード文字が追加文字データ11の照合文字位置にある場合は照合計算を行わずにデータ中の距離値を用いる。追加文字データ11に文字が存在しない場合は従来例と同様に数式(1)、数式(2)を用いて形状特徴照合の計算を実施する。いま、図11の追加文字データ11の文書1の10文字目との照合結果には「識」が存在するので、その距離「30」を数式1に代入する。DistがTH以下の場合にキーワードと一致したものとする。
【0039】
次に図12のステップS230で検索結果出力手段14は検索結果を出力する。
ここでは検索結果として文書1を出力する。
【0040】
本実施の形態では登録時に追加文字データ11を作成しているが、これは登録時に限らずあとで一括して作成してもよい。
【0041】
このように、登録時に追加文字データ11を保持し、検索時にこれを参照することで、形状特徴の計算を毎回行わなくとも同一精度での検索が可能となり、従来に比べて高速に形状特徴併用検索を実現することが可能となる。
【0042】
また、追加文字データ11を参照しても所望の文字コードが存在しない場合は従来と同様の形状特徴同士による距離の算出を行うので、追加文字データ11に所望の文字列が存在しなくとも、すなわち単語辞書8中にキーワードが存在しなくとも検索結果として出力することが可能である。
【0043】
なお、上記実施の形態1では文書登録装置と文書検索装置との機能を有するものを共に備えたもので説明したが、これは別々であってもよい。即ち、文書検索装置はキーワード入力手段13、検索結果出力手段14、文書検索手段15のみを備えネットワーク等の回線を介して文書登録装置にアクセスし検索のみを行うものであってもよいことは論を俟たない。
【0044】
【実施の形態2】
図14は実施の形態2の構成図であり、この実施の形態2は図1に示す実施の形態1に加えて単語辞書更新手段12を設け、単語辞書8に存在しないキーワードとの照合を行う。
【0045】
つぎに動作の説明を行う。
まず、登録の動作について説明する。実施の形態1と同様に、はじめに図2のステップS101で文書入力手段1は画像を入力する。ここでは図15に示す画像を入力する。次に、ステップS102で文字認識手段2は文字認識を行う。その結果を図16に示す。図16では「we」41の2文字を1文字に誤って文字切出し、文字認識を行っている。次にステップS103で文字判定手段3が文字判定を行う。その結果を図17に示す。図17では1文字目のみ第1位認識候補文字の類似度がTH1以下であるので第5位までの認識候補文字を保持する。
【0046】
次にステップS104で形状特徴作成手段4が形状特徴作成を行う。ここでは1文字目の「we」41のみについて形状特徴を作成する。その結果を図18に示す。次にステップS105で文書蓄積手段6により検索用文書データ保存を行う。ここでは図20に示す内容を保存する。図20では1文字目のみが第5位までの認識候補文字と形状特徴を保持している。
【0047】
次にステップS106で文字追加手段5が追加文字データ作成・保存を行う。ステップS106では図20の1文字目を含む文字列と単語辞書8中の単語とを照合する。いま単語辞書8には「web」という単語が存在しない場合を考える。図9に示す単語辞書8からは「sub」と「b」が一致するので一致しない「su」と「we」41の形状特徴間の距離計算を実行する。その距離がいま50になったとし、追加文字データ11の1文字目に文字列「su」とその距離「50」を保持する。図19に文書2の追加文字データ11の内容を示す。
【0048】
次に検索方法について図22、図13のフローチャートをもとに説明する。
はじめに図22のステップS210で操作者はキーワード入力手段13から検索キーワードを入力する。ここでは「web」を入力する。
ステップS220で文書1、文書2との照合を行う。図13のステップS221ではじめに図8に示す文書1との文字コードを用いた照合を行う。図8中には「web」のいずれの文字も存在しないため、ステップS222からステップS227、ステップS228へと進み、ステップS228で文書2をセットする。
【0049】
図20に示す文書2の検索用文書データ10とステップS221で文字コードを用いた照合を行う。文書2中には2文字目に「b」が存在するので、ステップS222からステップS223に進み完全一致か否かを判定する。「we」と一致しないのでステップS225へと進む。ステップS225でははじめに図19に示す文書2の追加文字データ11の1文字目に「we」が存在するか否かを判定する。
【0050】
いま、図19には「we」が存在しないので、キーワード文字の文字コードが一致しない「w」「e」の形状特徴を形状特徴辞書9から図示しないバッファにロードし、図20の1文字目の「我」の形状特徴との距離計算を数式1,2を用いて実行する。ここで、照合するキーワードの形状特徴は「w」「e」の2文字であり、検索用文書データ10の形状特徴は1文字であるので次元が一致しない。そこで、ここでは「w」「e」の隣合う領域を合成し、「w」「e」それぞれ2領域として距離計算を実行する。数式(1)の距離DistがTH以下の場合に一致したものとし、検索結果として出力する。
【0051】
次に、ステップS240で単語辞書更新処理を行う。ここでは、単語辞書更新手段12は入力キーワード「web」が単語辞書8に既に存在するか否かを調査し、単語辞書8に存在しない場合には単語辞書8に追加する。これによって、今後の登録文書に対して、「web」を追加文字データ11に登録することが可能となる。
【0052】
また、文字追加手段5が、単語が追加された単語辞書8と検索用文書データ10とから定期的に追加文字データ11を再作成することで既に登録済の文書に対しても常に新しい追加文字データ11内を作成することが可能となる。
【0053】
単語辞書8に単語が存在するか否かの判断方法としては、単語辞書を直接調査する以外に、追加文字データ11に存在しない文字を含む文字列が検索結果となった場合に、入力キーワードが単語辞書中にないと判断し、文字追加手段5を起動して追加文字データ11を再作成することが可能である。
【0054】
なお、この実施の形態2においても文書登録装置と文書検索装置との機能を有するものを共に備えたもので説明したが、これは実施の形態1と同様に別々であってもよい。即ち、文書検索装置はキーワード入力手段13、検索結果出力手段14、文書検索手段15、単語辞書更新手段12のみを備えネットワーク等の回線を介して文書登録装置にアクセスし検索および単語辞書8への単語の追加を行うものであってもよいことは論を俟たない。
【0055】
【発明の効果】
以上説明したとおり本発明によると文字認識の結果が誤りである場合に形状特徴を保持すると共に単語辞書中の単語と予め照合処理を行って形状特徴同士の距離を追加文字データ11中に保存するので、従来方法に比べて検索時間の大幅な短縮を実現することができる。
【0056】
また、追加文字データ11中に存在しないキーワードに対しては、形状特徴を用いた照合の結果、検索結果として出力する条件を満たす場合に追加文字データ11を更新するとともに単語辞書に追加するため、常に追加文字データ11内に単語辞書中の単語との距離がもれなく保存されている。そのため、使うほどに単語辞書が増加し、追加登録データの更新が図れるために検索時間が短縮される。
【図面の簡単な説明】
【図1】 本発明の実施の形態1を示す構成図。
【図2】 文書登録のフローチャート。
【図3】 実施例1で用いる文書画像の説明図。
【図4】 図3の文字認識結果の説明図。
【図5】 図4から文字判定を行った結果の説明図。
【図6】 「認」の形状特徴の説明図。
【図7】 「識」の形状特徴の説明図。
【図8】 図3で保存する検索用データの説明図。
【図9】 単語辞書の内容の説明図。
【図10】 単語辞書と検索用データの距離計算結果の説明図。
【図11】 文書1での追加文字データの内容の説明図。
【図12】 検索フローチャート。
【図13】 照合フローチャート。
【図14】 本発明の実施の形態2を示す構成図。
【図15】 実施例2で用いる文書画像の説明図。
【図16】 文書2の文字認識結果の説明図。
【図17】 文書2の正解文字判定を行った結果の説明図。
【図18】 「we」の形状特徴の説明図。
【図19】 文書2での追加文字データの説明図。
【図20】 文書2で作成した検索用データの説明図。
【図21】 更新後の単語辞書の説明図。
【図22】 実施の形態2での検索フローチャート。
【図23】 従来例の構成図。
【図24】 従来例の辞書の説明図。
【符号の説明】
1 文字入力手段
2 文字認識手段
3 文字判定手段
4 形状特徴作成手段
5 文字追加手段
6 文書蓄積手段
7 文字辞書
8 単語辞書
9 形状特徴辞書
10 検索用文書データ
11 追加文字データ
12 単語辞書更新手段
13 キーワード入力手段
14 検索結果出力手段
15 文書検索手段[0001]
[Industrial application fields]
The present invention relates to a document registration apparatus for recognizing characters electronically so as to easily search for images such as documents and drawings, a document search apparatus for searching using arbitrary keywords from the registration apparatus, a document registration method, and The present invention relates to a document search method.
[0002]
[Prior art]
In order to register and store paper documents electronically as images that can be read by computers, and to search and display them, it has traditionally been possible to add keyword information to images manually when registering documents, or to use OCR (Optical Character Reader). There is a method of storing document text created by recognizing characters in an image using an automatic character reader) together with the image.
[0003]
The former method requires enormous effort and time to add keywords at the time of document registration, and the latter method cannot correct misrecognition because character recognition performance is incomplete, and corrects the character code obtained by character recognition. If registration is not performed, there is a problem that “search leakage” in which a desired document is not displayed as a search result during keyword search, or “search noise” in which a character string different from the search keyword is displayed as a search result. In the same way as the former method, a great amount of labor is required to correct manual recognition errors.
[0004]
One of the methods for solving the problem of the latter method is a method (Japanese Patent Laid-Open No. 2000-057315) that realizes a document search with high accuracy by reducing “search leakage” even if there is a character recognition error. This is a technique that creates and maintains a feature quantity (shape feature) that represents the shape of each character from the character image in addition to the character code obtained by the character recognition process, and collates the character code and the shape feature together during the search. .
[0005]
The document search operation in Japanese Patent Laid-Open No. 2000-057315 will be described below with reference to FIGS. FIG. 23 is a block diagram of a conventional example. In FIG. 23, 101 is input means, 102 is control means, 103 is character recognition means, 104 is feature creation means, 105 is display means, 106 is search means, 107 is feature matching Determination means, 108 is a search feature creation means, 109 is a recognition dictionary, 110 is a search data storage unit, and 111 is a feature dictionary. FIG. 23 shows the keywords and the contents of the search data.
[0006]
A search process using the keyword “character recognition” and the search data “Bunyu recognition” will be described with reference to FIG. The search means 106 first performs collation using a character code. In FIG. 24, the input keywords “sentence”, “approval”, and “knowledge” match the search data, but “characters” do not match. Next, collation is performed based on the shape characteristics of characters that do not match.
The shape feature 122 of “character” in the keyword whose characters do not match is collated with the shape feature 123 of the character image that outputs the recognition result of “U” in the search data. The feature value of the standard pattern stored in the feature dictionary 111 is used as the shape feature for the character “character” in the keyword.
[0007]
In the extraction of shape features, 1 Text image Four Virtually dividing into regions, the direction component features of the outline of the character image in each region are obtained. Specifically, the horizontal, vertical, right-up, and right-down of the character outline Four A direction is assigned to a direction component, the length of the direction component is extracted, and a sum is obtained for each direction component. Figure of extracted direction component 6 The figure 7 Indicated by the arrow inside. Figure 6 With horizontal component characteristics twenty five Feature value of Ten " 62 Is the area twenty one The horizontal component feature extracted from the feature value 6 " 63 Is the area twenty two The horizontal component feature extracted from is shown. Similarly " 0 " 64 " 0 " 65 Is the area twenty three, region twenty four The horizontal component feature extracted from is shown. In this case, the number of directional components is Four And the number of features for each direction component is Four It becomes.
Next, distance calculation between feature values in shape feature matching will be described.Now, let C be the distance between the character codes and D be the distance between the shape features.
[0008]
[Expression 1]
Figure 0003873612
[0009]
[Expression 2]
Figure 0003873612
[0010]
Here, Fdic is the i-th character of the keyword stored in the shape feature dictionary.shapeFeature value, Fimg is the jth character of the search datashapeFeature valueRepresents. Also,K is the number of directional componentsFor example, as described above, in the case of the horizontal, vertical, right-up and right-down direction components of the outline of the character, the number of direction components is Four It is.L is the number of features for each direction componentFor example, as described above, 1 Text image Four When virtually divided into regions, the number of features for each direction component is Four It is. A formula like this (1) And mathematical formula (2) The total distance value calculated according to Dist Then,If Dist <TH (TH: threshold) is satisfied, the character string and the keyword are considered to match and output as a search result.
[0011]
[Problems to be solved by the invention]
Japanese Patent Laid-Open No. 2000-057315 operates as described above, and realizes high-precision search. On the other hand, compared to a search using only ordinary character codes, it is necessary to calculate the distance of the shape feature at the time of search, and the search time is significantly increased. There was a problem to do.
In particular, when a character image with faint or noisy characters or a low-quality document image such as a fax received document is input, and many erroneously recognized characters occur in character recognition, the character string that does not partially match the keyword during search And the increase in the amount of computation required for shape feature matching becomes more significant.
[0012]
In addition, in order to register an unrecognized character without correction in the conventional example and output it as a search result in a character string search, it is necessary to always match the misrecognized character with a shape feature. There is a problem that the search time is not improved even if the search process is executed frequently.
[0013]
[Means for Solving the Problems]
A document registration apparatus according to the present invention includes a document input unit that inputs a document image, a character recognition unit that recognizes characters from the input document image and outputs a recognition candidate character, and a character recognition unit that recognizes characters recognized by the character recognition unit. Standard pattern featuresvalueA character dictionary for storing the character, a character determination unit for determining whether or not the recognition result output by the character recognition unit is correct, and a character shape for the character determined to be incorrect by the character determination unit DoshapeCharacteristicvalueA shape feature creation means for creating a word, a word dictionary that holds words, and a shape of a standard pattern of charactersshapeCharacteristicvalueA shape feature dictionary that stores characters, recognition candidate characters and character shapesshapeCharacteristicvalueA document storage means for storing the data in the search document data, and using the search document data, the word dictionary, and the shape feature dictionary to express the shape of the word in the word dictionary and the character string in the search document data DoTotal difference in shape feature valuesIs added in advance to a character adding means for storing in the additional character data.
[0014]
Further, in the document registration apparatus according to the present invention, the shape feature creating means expresses a direction component and its size from the outline portion of the character image.shapeCharacteristicvalueIs configured to create.
[0015]
In the document registration apparatus according to the present invention, the character adding means is configured to recreate the additional character data periodically from the word dictionary and the search document data or when the word dictionary is updated. It is.
[0016]
The document search apparatus according to the present invention expresses a keyword input means for inputting a search keyword, a recognition candidate character, and a character shape.shapeCharacteristicvalueRepresents the search document data in which the word is stored, the word in the word dictionary holding the word, and the shape of the character string in the search document dataTotal difference in shape feature valuesIs added to the additional character data and the input keyword stored in advance, and the search document data when the search keyword data or the additional character data includes all the characters constituting the input keyword. Expresses the distance value calculated from the corresponding character and the shape of the additional character data with the corresponding characterTotal difference in shape feature valuesIs used to calculate the distance from the input keyword, and if there is no character constituting the keyword, the shape of the input keyword and the search document data is represented by the non-matching characters.Total difference in shape feature valuesSearch means for calculating and judging from the result whether or not the collation is successful is provided.
[0017]
The document search device according to the present invention further includes word dictionary adding means for determining whether or not the input keyword exists in the word dictionary and adding the input keyword to the word dictionary when the input keyword does not exist in the word dictionary. It is a thing.
[0018]
In addition, the document registration method according to the present invention includes:In a document registration method of a document registration apparatus provided with character recognition means for recognizing characters from a document image input by a document input means and outputting a recognition candidate character,
Character recognitionmeansOf the standard pattern of characters recognized byshapeCharacteristicvalueIs stored in a character dictionary, a character determination step for determining whether or not the recognition result output by the character recognition step is correct, and a character for the character that the character determination step determines to be incorrect Represent the shape ofshapeCharacteristicvalueThe shape feature creation process to create the character and the shape of the standard pattern of charactersshapeCharacteristicvalueShape feature storage step of storing the character in the shape feature dictionary, and representing the recognition candidate character and character shapeshapeCharacteristicvalueA document data storage step of storing the search document data in the search document data, a word dictionary holding the search document data and words, and a character string in the search document data using the shape feature dictionary Represent the shape ofTotal difference in shape feature valuesAnd an additional character storage step of storing the additional character data in advance.
[0019]
The document search method according to the present invention includes:In a document search method of a document search apparatus provided with search means for searching for a document from a search keyword input by a keyword input means,
Represent recognition candidate characters and character shapesshapeCharacteristicvalueRepresents the search document data storing the word, the word in the word dictionary holding the word, and the shape of the character string in the search document dataTotal difference in shape feature valuesThe additional character data calculated and stored in advance and the input keyword are collated, and when all the characters constituting the input keyword are present in the search document data or the additional character data, the search The distance value calculated from the corresponding character in the document data and the shape of the additional character data with the corresponding character are expressed.Total difference in shape feature valuesIs used to calculate the distance from the input keyword, and if there is no character constituting the keyword, the shape of the input keyword and the search document data is represented by the non-matching characters.Total difference in shape feature valuesA search process to calculate and judge whether the verification is successful from the resultIn the search meansIt is to be prepared.
[0020]
DETAILED DESCRIPTION OF THE INVENTION
Embodiment 1
Embodiment 1 of the present invention will be described with reference to FIGS. FIG. 1 is a block diagram of Embodiment 1. In FIG. 1, 1 is a document input means for inputting a computer-readable image, 2 is a character recognition for extracting and recognizing characters from the input image and outputting a character code. Means 3, character determining means for determining whether or not the result obtained by character recognition is correct, and 4 is a shape feature creating means for creating a character shape feature from the character image.
[0021]
8 is a word dictionary for storing words, 5 is a character adding means for preliminarily matching the shape feature with a word that can be matched by a character having shape characteristics, and calculating the distance, and 6 is a character determining means 3. Document storage means for storing the character code of the document determined to be correct and the shape feature created by the shape feature creation means 4, 7 is a character dictionary for storing feature values of standard character patterns used by the character recognition means 2, 9 is a shape feature dictionary that stores the shape features of the standard pattern of characters, 10 is search document data stored by the document storage means 6, 11 is additional character data created by the character addition means 5, 13 is keyword input means, Is search result output means, and 15 is a document search means.
[0022]
The document registration operation in the first embodiment will be described with reference to the flowchart of FIG.
First, a document image (registered document) is input by the document input means 1 in step S101 of FIG. The document input means 1 can be realized by using a scanner. It can also be realized by capturing an already photoelectrically converted image via a network or the like. An example of a document image captured by the document input means 1 is shown in FIG.
[0023]
Next, character recognition is performed by the character recognition means 2 in step S102 of FIG. The character recognition means 2 converts the character image existing in the document image input by the document input means 1 into a character code and outputs it. In the present embodiment, the character recognition means 2 is realized using a known image processing technique. Specifically, a character string is extracted from the document image, and each character string is divided into characters. Next, the feature quantity used for character recognition is extracted from each divided character image, and the distance from the image feature of the standard pattern of each character in the character dictionary 7 is calculated, and one or more characters are recognized as candidate characters in ascending order of distance. Output as.
[0024]
In the character string extraction, first, a black pixel whose Euclidean distance is within a certain value is combined with an input image (a binary image with a white pixel value = 0 and a black pixel value = 1). Next, a labeling process, which is a method of image processing, is performed, and each label having a strip shape is determined as a character string.
[0025]
Next, each character string is scanned from the horizontal direction and the vertical direction to obtain a peripheral distribution of the number of black pixels, and the character string is divided into one character image with the position where the number of black pixels is minimized as a candidate point for character division. The character recognition process uses, for example, 8D × 8D mesh features as character feature amounts for images divided for each character. Specifically, the number of black pixels present in each 8 × 8 grid-like small area is counted, and the similarity is obtained from the feature value of the standard pattern in the character dictionary 7 and the absolute value sum of the differences for each dimension. The maximum 5 characters are output as recognition candidate characters in the descending order. The similarity is originally a cosine value between two vectors, but here, for convenience, a value obtained from the absolute sum of differences in each dimension is used as the similarity.
[0026]
FIG. 4 shows the result of executing the character recognition process on the document image of FIG. 3 in this way. FIG. 4 shows the first to fifth recognition candidate characters obtained by character recognition for the 71 to 83 character images obtained by the character cutting process and the respective similarities.
[0027]
Next, the process proceeds to step S103 in FIG. 2, and the character determination means 3 performs character determination. Character determination is a process to determine whether or not there is a high possibility that the correct candidate character is included in the recognition candidate character, and the character that is highly likely to be correct holds only the first recognition candidate character and may be This is a process of holding a plurality of recognition candidate characters and shape features for low characters. By using this, it is possible to reduce the “missing search” during document search compared to holding only the first recognition candidate character, and to recognize the fifth character for all characters by narrowing down the characters that hold the candidate character. The capacity for document storage is reduced as compared with the case of holding up to candidate characters.
[0028]
The character determination uses a threshold TH1 that is statistically calculated using learning data. Here, TH1 is a threshold value at which the correctness rate of the first recognition candidate character is 100% in the learning data, and a character having a similarity degree equal to or higher than TH1 is determined to be correct. A character whose similarity of the first recognition candidate character is less than TH1 is determined not to be correct, and the first to fifth recognition candidate characters are held.
[0029]
FIG. 5 shows the result of narrowing down the recognition candidate characters by performing character determination based on similarity for all the first recognition candidate characters shown in FIG. Here, TH1 = 200. In FIG. 5, the character images `` ko '' 71, `` ko '' 72, `` de '' 73, `` ha '' 74, ``, '' 75, `` sentence '' 76, `` character '' 77, `` to '' 78, `` su '' 81, The first recognition candidate character similarity for “RU” 82 and “.” 83 is equal to or higher than TH1 (= 200), so it is determined to be correct, and only the first recognition candidate character is held. Since the first rank similarity of the character images “recognition” 79 “recognition” 80 is less than 170, 160 and TH1, respectively, all recognition candidate characters are retained.
[0030]
Next, the process proceeds to step S104 in FIG. Since the shape feature is retained in order to prevent retrieval leakage in the document retrieval, a feature that is more compact and global than the feature used in character recognition is used. The shape feature creation means 4 extracts shape features from the character image for characters whose similarity of the first recognition candidate character is less than TH1 in character determination. In FIG. 5, a shape feature is created for “approval” 79 “knowledge” 80. Figures 6 and 7 show how the shape features are extracted for each character.
[0031]
In the shape feature extraction, one character image is virtually divided into four regions, and the direction component feature of the outline portion of the character image in each region is obtained. Specifically, the direction components (assigned in the four directions of horizontal, vertical, right-up and right-down in this case) and their lengths are extracted and the sum is taken for each component. The extracted directional components are indicated by arrows in FIGS. In FIG. 6, the feature value “10” 62 of the horizontal component feature 25 indicates the horizontal component feature extracted from the region 21, and the feature value “6” 63 indicates the horizontal component feature extracted from the region 22. Similarly, “0” 64 “0” 65 indicate horizontal component features extracted from the regions 23 and 24, respectively.
[0032]
Next, in step S105 in FIG. 2, the document storage means 6 stores search document data. The document storage means 6 stores the recognition candidate characters shown in FIG. 5 and the shape features shown in FIGS. 6 and 7 in the search document data 10. The contents of the data to be saved are shown in FIG. In FIG. 8, the ninth and tenth characters hold recognition candidate characters and shape features up to the fifth place, and the others are stored only for the first recognition candidate characters.
[0033]
In step S106, the character adding means 5 creates additional character data. The character adding means 5 collates the character string including the shape feature of FIG. 8 using the word in the word dictionary 8 as a search keyword and uses the character code and the shape feature together to calculate the distance. The collation method is the same as in the conventional example, and Equations 1 and 2 are used for distance calculation. That is, in step S106, a keyword search collation process is performed in advance, and a process of holding the distance between the shape features of the character string that may match the keyword from the search document data is executed.
[0034]
The character adding means 5 collates the character string including the ninth or tenth character holding the shape feature in FIG. 8 with the word in the word dictionary 8. The method of extracting words from the word dictionary 8 may target all words in the word dictionary 8, or may include words including characters that match one or more characters with the character string to be verified. An example of the word dictionary 8 is shown in FIG.
[0035]
Now, the words "詔 勅", "詔書", "詔 論", "weaving", "knowledge", "recognition", "recognition", "cancellation" in the character string and word dictionary 8 (shown only partially in FIG. 9) ”,“ Discussion ”, and“ Home Court ”each match one letter. Accordingly, the shape features of characters that do not match these words with the search document data 10 in FIG. 8 are collated. For example, “詔 勅” matches the ninth character in FIG. 8, but “勅” does not match the tenth character in FIG. The other words were performed in the same manner and the results are shown in FIG. Each distance is held in the additional character data 11, and the process ends. This is shown in FIG. In FIG. 11, “勅” indicates that the distance is “60” by collating with the shape feature of the tenth character in FIG.
[0036]
Next, a document search method will be described. The flow of search processing will be described with reference to the flowcharts of FIGS. FIG. 12 shows the overall flow of the search process, and FIG. 13 shows the detailed flow of the collation process by the document search means 15. First, in step S210 of FIG. 12, the keyword input means 13 obtains a search keyword from the user. Here, “recognition” is an input keyword.
[0037]
Next, in step S220, the document search means 15 performs a matching process between the keyword and the search document data 10 and the additional character data 11. Now, only the data relating to the document 1 exists in the search document data 10 and the additional character data 11. First, in step S221 in FIG. 13, the document search means 15 performs collation using character codes. Here, the search document data 10 is collated with the input keyword “recognition”. In the search document data 10 of the document 1 shown in FIG. 8, “approval” matches, but “knowledge” in the keyword does not exist, and there is a match in step S222, so the process proceeds to step S223. In step S223, since “knowledge” does not match, the process proceeds to step S225.
[0038]
In step S225, matching is performed between the shape features of characters that do not match. First, when the keyword character for matching the shape feature is at the matching character position of the additional character data 11, the distance value in the data is used without performing the matching calculation. When there is no character in the additional character data 11, the shape feature matching calculation is performed using Equations (1) and (2) as in the conventional example. Now, since “intelligence” exists in the collation result of the additional character data 11 in FIG. 11 with the tenth character of the document 1, the distance “30” is substituted into Equation 1. If Dist is less than or equal to TH, it is assumed to match the keyword.
[0039]
Next, in step S230 of FIG. 12, the search result output means 14 outputs the search result.
Here, document 1 is output as a search result.
[0040]
In the present embodiment, the additional character data 11 is created at the time of registration. However, this is not limited to the time of registration, and may be created at a later time.
[0041]
In this way, additional character data 11 is retained at the time of registration and can be searched with the same accuracy without having to calculate the shape features each time by referring to this when searching, and combined with shape features at a higher speed than before. Search can be realized.
[0042]
In addition, when the desired character code does not exist even if the additional character data 11 is referred to, the distance between the shape features similar to the conventional one is calculated, so even if the desired character string does not exist in the additional character data 11, That is, even if no keyword exists in the word dictionary 8, it can be output as a search result.
[0043]
Although the first embodiment has been described as having both the functions of the document registration device and the document search device, these may be separate. That is, the document search apparatus may include only the keyword input means 13, the search result output means 14, and the document search means 15, and may access the document registration apparatus via a line such as a network and perform only the search. Do not hesitate.
[0044]
Embodiment 2
FIG. 14 is a block diagram of the second embodiment. In the second embodiment, a word dictionary updating means 12 is provided in addition to the first embodiment shown in FIG. .
[0045]
Next, the operation will be described.
First, the registration operation will be described. As in the first embodiment, first, the document input means 1 inputs an image in step S101 in FIG. Here, the image shown in FIG. 15 is input. Next, in step S102, the character recognition means 2 performs character recognition. The results are shown in FIG. In FIG. 16, two characters “we” 41 are mistakenly extracted as one character, and character recognition is performed. In step S103, the character determination means 3 performs character determination. The results are shown in FIG. In FIG. 17, since the similarity of the first recognition candidate character is equal to or lower than TH1 only for the first character, the recognition candidate characters up to the fifth are held.
[0046]
In step S104, the shape feature creating means 4 creates shape features. Here, a shape feature is created only for the first character “we” 41. The results are shown in FIG. In step S105, the document storage means 6 stores search document data. Here, the contents shown in FIG. 20 are stored. In FIG. 20, only the first character holds recognition candidate characters and shape features up to the fifth place.
[0047]
Next, in step S106, the character adding means 5 creates and stores additional character data. In step S106, the character string including the first character in FIG. 20 and the word in the word dictionary 8 are collated. Consider the case where the word “web” does not exist in the word dictionary 8 now. Since “sub” and “b” match from the word dictionary 8 shown in FIG. 9, distance calculation between the shape features “su” and “we” 41 that do not match is executed. If the distance is now 50, the character string “su” and the distance “50” are held as the first character of the additional character data 11. FIG. 19 shows the contents of the additional character data 11 of document 2.
[0048]
Next, the search method will be described with reference to the flowcharts of FIGS.
First, in step S210 in FIG. 22, the operator inputs a search keyword from the keyword input means 13. Here, “web” is input.
In step S220, collation with document 1 and document 2 is performed. First, in step S221 in FIG. 13, collation with the document 1 shown in FIG. 8 is performed using character codes. Since none of the characters “web” exists in FIG. 8, the process proceeds from step S222 to steps S227 and S228, and document 2 is set in step S228.
[0049]
Collation using the character code is performed in step S221 with the search document data 10 of the document 2 shown in FIG. Since “b” exists in the document 2 as the second character, the process proceeds from step S222 to step S223, and it is determined whether or not there is a complete match. Since it does not match “we”, the process proceeds to step S225. In step S225, first, it is determined whether or not “we” exists in the first character of the additional character data 11 of the document 2 shown in FIG.
[0050]
Now, since “we” does not exist in FIG. 19, the shape features of “w” and “e” whose character codes do not match are loaded from the shape feature dictionary 9 into a buffer (not shown), and the first character of FIG. The distance calculation with the shape feature of "I" is executed using Equations 1 and 2. Here, since the shape feature of the keyword to be collated is two characters “w” and “e”, and the shape feature of the search document data 10 is one character, the dimensions do not match. Therefore, here, adjacent areas of “w” and “e” are synthesized, and distance calculation is executed with 2 areas of “w” and “e”. When the distance Dist in the equation (1) is equal to or less than TH, it is assumed that the distance matches and is output as a search result.
[0051]
Next, word dictionary update processing is performed in step S240. Here, the word dictionary updating means 12 checks whether or not the input keyword “web” already exists in the word dictionary 8 and adds it to the word dictionary 8 if it does not exist in the word dictionary 8. This makes it possible to register “web” in the additional character data 11 for future registered documents.
[0052]
In addition, the character adding means 5 periodically recreates the additional character data 11 from the word dictionary 8 to which the word has been added and the search document data 10, so that new additional characters are always added to the already registered document. The data 11 can be created.
[0053]
As a method for determining whether or not a word exists in the word dictionary 8, in addition to directly investigating the word dictionary, when a character string including a character that does not exist in the additional character data 11 is a search result, the input keyword is It is possible to determine that it is not in the word dictionary and activate the character adding means 5 to recreate the additional character data 11.
[0054]
In the second embodiment, the document registration apparatus and the document search apparatus are both provided. However, this may be separate as in the first embodiment. That is, the document search apparatus includes only the keyword input means 13, the search result output means 14, the document search means 15, and the word dictionary update means 12. The document search apparatus accesses the document registration apparatus via a line such as a network to search and access the word dictionary 8. There is no doubt that words may be added.
[0055]
【The invention's effect】
As described above, according to the present invention, when the result of character recognition is incorrect, the shape feature is retained, and the distance between the shape features is stored in the additional character data 11 by performing a matching process in advance with the word in the word dictionary. Therefore, the search time can be significantly shortened compared with the conventional method.
[0056]
Further, for keywords that do not exist in the additional character data 11, in order to update the additional character data 11 and add it to the word dictionary when the conditions to be output as search results are satisfied as a result of matching using the shape feature, The distance from the words in the word dictionary is always stored in the additional character data 11. For this reason, the number of word dictionaries increases with use, and additional registration data can be updated, thereby shortening the search time.
[Brief description of the drawings]
FIG. 1 is a configuration diagram showing Embodiment 1 of the present invention.
FIG. 2 is a flowchart of document registration.
FIG. 3 is an explanatory diagram of a document image used in the first embodiment.
FIG. 4 is an explanatory diagram of a character recognition result of FIG.
FIG. 5 is an explanatory diagram of a result of character determination from FIG.
FIG. 6 is an explanatory diagram of the shape feature of “OK”.
FIG. 7 is an explanatory diagram of a shape feature of “Kin”.
8 is an explanatory diagram of search data stored in FIG. 3. FIG.
FIG. 9 is an explanatory diagram of the contents of a word dictionary.
FIG. 10 is an explanatory diagram of a distance calculation result between a word dictionary and search data.
11 is an explanatory diagram of the contents of additional character data in document 1. FIG.
FIG. 12 is a search flowchart.
FIG. 13 is a collation flowchart.
FIG. 14 is a configuration diagram showing a second embodiment of the present invention.
FIG. 15 is an explanatory diagram of a document image used in the second embodiment.
FIG. 16 is an explanatory diagram of a character recognition result of document 2.
FIG. 17 is an explanatory diagram of a result of performing correct character determination for document 2;
FIG. 18 is an explanatory diagram of a shape feature of “we”.
FIG. 19 is an explanatory diagram of additional character data in the document 2;
FIG. 20 is an explanatory diagram of search data created in the document 2;
FIG. 21 is an explanatory diagram of a word dictionary after update.
FIG. 22 is a search flowchart according to the second embodiment.
FIG. 23 is a configuration diagram of a conventional example.
FIG. 24 is an explanatory diagram of a conventional dictionary.
[Explanation of symbols]
1 Character input method
2 Character recognition means
3 Character judgment means
4 Shape feature creation means
5 Character addition method
6 Document storage means
7 character dictionary
8 word dictionary
9 Shape feature dictionary
10 Search document data
11 Additional character data
12 Word dictionary update means
13 Keyword input means
14 Search result output means
15 Document search means

Claims (7)

文書画像を入力する文書入力手段と、入力された文書画像から文字を認識して認識候補文字を出力する文字認識手段と、前記文字認識手段が認識する文字の標準パターンの特徴を格納する文字辞書と、前記文字認識手段が出力する認識結果が正解であるか否かを判定する文字判定手段と、前記文字判定手段が不正解と判定した文字に対して文字の形状を表現する形状特徴を作成する形状特徴作成手段と、単語を保持する単語辞書と、文字の標準パターンの形状を表現する形状特徴を格納する形状特徴辞書と、認識候補文字と文字の形状を表現する形状特徴を検索用文書データに格納する文書蓄積手段と、前記検索用文書データと前記単語辞書および前記形状特徴辞書を用いて前記単語辞書内の単語と前記検索用文書データ内の文字列の形状を表現する形状特徴値の差の合計を予め計算して追加文字データに格納する文字追加手段とを備えたことを特徴とする文書登録装置。Document input means for inputting a document image, character recognition means for recognizing a character from the input document image and outputting a recognition candidate character, and a character for storing a characteristic value of a standard pattern of the character recognized by the character recognition means A dictionary, a character determination unit that determines whether or not the recognition result output by the character recognition unit is correct, and a shape feature value that represents the shape of the character for the character that the character determination unit determines to be incorrect Shape feature creation means, a word dictionary that holds words, a shape feature dictionary that stores shape feature values that represent the shape of a standard pattern of characters, and a shape feature value that represents recognition candidate characters and character shapes Storing in the document data for search, the word in the word dictionary and the character string in the search document data using the search document data, the word dictionary, and the shape feature dictionary Document registration apparatus characterized by comprising a character adding means the sum of the difference between the shape feature values representing the shape previously calculated and stored in the additional character data. 前記形状特徴作成手段は、文字画像の外郭部から方向成分とその大きさを表現する形状特徴を作成する構成にされたことを特徴とする請求項1記載の文書登録装置。2. The document registration apparatus according to claim 1, wherein the shape feature creation means is configured to create a shape feature value expressing a direction component and its size from an outline portion of a character image. 前記文字追加手段は、単語辞書と検索用文書データとから定期的に、または単語辞書が更新されたとき追加文字データを再作成する構成にされたことを特徴とする請求項1記載の文書登録装置。  2. The document registration according to claim 1, wherein the character adding means is configured to recreate the additional character data periodically from the word dictionary and the search document data or when the word dictionary is updated. apparatus. 検索キーワードを入力するキーワード入力手段と、認識候補文字と文字の形状を表現する形状特徴が格納された検索用文書データおよび単語を保持する単語辞書内の単語と前記検索用文書データ内の文字列の形状を表現する形状特徴値の差の合計を予め計算して格納された追加文字データ並びに入力キーワードとの照合を行い、前記検索用文書データまたは前記追加文字データに前記入力キーワードを構成する文字が全て存在する場合には前記検索用文書データ中の該当文字から算出した距離値および前記追加文字データの該当文字との形状を表現する形状特徴値の差の合計を用いて入力キーワードとの距離計算を行い、キーワードを構成する文字が1文字でも存在しない場合には前記入力キーワードと前記検索用文書データで一致しない文字同士による形状を表現する形状特徴値の差の合計計算を行いその結果から照合に成功したか否かを判断する検索手段とを備えたことを特徴とする文書検索装置。Keyword input means for inputting a search keyword, search document data in which shape feature values representing recognition candidate characters and character shapes are stored, words in a word dictionary holding words, and characters in the search document data The total of the difference between the shape feature values representing the shape of the column is calculated in advance and compared with the stored additional character data and the input keyword, and the input keyword is configured in the search document data or the additional character data. If all the characters exist, the distance between the input keyword using the distance value calculated from the corresponding character in the search document data and the difference between the shape feature values representing the shape of the additional character data with the corresponding character When the distance is calculated and there is no character constituting the keyword, the input keyword does not match the search document data. Document search apparatus characterized by comprising a search unit Sum perform calculations to determine whether it has succeeded in the collation from the result of the difference between the shape feature values representing the shape by shape to each other. 入力キーワードが単語辞書に存在するか否かを判定して、単語辞書に存在しない場合に前記入力キーワードを単語辞書に追加する単語辞書追加手段をさらに備えたことを特徴とする請求項記載の文書検索装置。5. The apparatus according to claim 4 , further comprising word dictionary adding means for determining whether or not the input keyword exists in the word dictionary and adding the input keyword to the word dictionary when it does not exist in the word dictionary. Document retrieval device. 文書入力手段により入力された文書画像から文字を認識して認識候補文字を出力する文字認識手段を備えた文書登録装置の文書登録方法において、
前記文字認識手段が認識する文字の標準パターンの形状特徴を文字辞書に格納する辞書格納工程と、前記文字認識工程が出力する認識結果が正解であるか否かを判定する文字判定工程と、前記文字判定工程が不正解と判定した文字に対して文字の形状を表現する形状特徴を作成する形状特徴作成工程と、文字の標準パターンの形状を表現する形状特徴を形状特徴辞書に格納する形状特徴格納工程と、認識候補文字と文字の形状を表現する形状特徴を検索用文書データに格納する文書データ格納工程と、前記検索用文書データと単語を保持する単語辞書および前記形状特徴辞書を用いて前記単語辞書内の単語と前記検索用文書データ内の文字列の形状を表現する形状特徴値の差の合計を予め計算して追加文字データに格納する追加文字格納工程とを備えることを特徴とする文書登録方法。
In a document registration method of a document registration apparatus provided with character recognition means for recognizing characters from a document image input by a document input means and outputting a recognition candidate character,
A dictionary storing step of storing in the character dictionary a shape feature value of a standard pattern of characters recognized by the character recognition means , a character determination step of determining whether or not a recognition result output by the character recognition step is correct, storing the shape feature generation step of generating a shape feature values representing the shape of the character for the character of the character determination step determines that incorrect, the shape feature values representing the shape of the standard pattern of character shape feature dictionary A shape feature storage step, a document data storage step of storing a recognition candidate character and a shape feature value representing the shape of the character in search document data, a word dictionary holding the search document data and a word, and the shape feature additional characters for storing a sum of the differences of shape feature values representing the shape of a string in the word and the retrieval document data in the word dictionary with a dictionary previously calculated and the additional character data Document registration method characterized by comprising the pay process.
キーワード入力手段により入力された検索キーワードから文書を検索する検索手段を備えた文書検索装置の文書検索方法において、
認識候補文字と文字の形状を表現する形状特徴が格納された検索用文書データと単語を保持する単語辞書内の単語と前記検索用文書データ内の文字列の形状を表現する形状特徴値の差の合計を予め計算して格納された追加文字データと、前記入力キーワードとの照合を行い、前記検索用文書データまたは前記追加文字データに前記入力キーワードを構成する文字が全て存在する場合には前記検索用文書データ中の該当文字から算出した距離値および前記追加文字データの該当文字との形状を表現する形状特徴値の差の合計を用いて入力キーワードとの距離計算を行い、キーワードを構成する文字が1文字でも存在しない場合には前記入力キーワードと前記検索用文書データで一致しない文字同士による形状を表現する形状特徴値の差の合計計算を行いその結果から照合に成功したか否かを判断する検索工程を前記検索手段に備えることを特徴とする文書検索方法。
In a document search method of a document search apparatus provided with search means for searching for a document from a search keyword input by a keyword input means,
Retrieval candidate characters and search document data storing shape feature values representing character shapes, words in word dictionary holding words, and shape feature values representing the shape of character strings in the search document data The additional character data stored by calculating the total difference in advance and the input keyword are collated, and when all the characters constituting the input keyword exist in the search document data or the additional character data The distance between the input keyword is calculated using the sum of the distance value calculated from the corresponding character in the search document data and the shape feature value representing the shape of the additional character data with the corresponding character, and the keyword is configured. sum of differences of shape feature values representing the shape by characters each other do not coincide with document data for the search and the input keyword with no characters even one character Document search method characterized by comprising the search means search step of determining whether the successful verification of the results performed calculation.
JP2000354423A 2000-11-21 2000-11-21 Document registration device, document search device, document registration method, and document search method Expired - Fee Related JP3873612B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000354423A JP3873612B2 (en) 2000-11-21 2000-11-21 Document registration device, document search device, document registration method, and document search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000354423A JP3873612B2 (en) 2000-11-21 2000-11-21 Document registration device, document search device, document registration method, and document search method

Publications (2)

Publication Number Publication Date
JP2002157260A JP2002157260A (en) 2002-05-31
JP3873612B2 true JP3873612B2 (en) 2007-01-24

Family

ID=18827010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000354423A Expired - Fee Related JP3873612B2 (en) 2000-11-21 2000-11-21 Document registration device, document search device, document registration method, and document search method

Country Status (1)

Country Link
JP (1) JP3873612B2 (en)

Also Published As

Publication number Publication date
JP2002157260A (en) 2002-05-31

Similar Documents

Publication Publication Date Title
Lee et al. A new methodology for gray-scale character segmentation and recognition
CN112232149B (en) Document multimode information and relation extraction method and system
CN110135414B (en) Corpus updating method, apparatus, storage medium and terminal
Weinman et al. Scene text recognition using similarity and a lexicon with sparse belief propagation
Hu et al. HMM based online handwriting recognition
US6643647B2 (en) Word string collating apparatus, word string collating method and address recognition apparatus
JP3602596B2 (en) Document filing apparatus and method
Chiang et al. Recognizing text in raster maps
KR20100007722A (en) Method of character recongnition and translation based on camera image
RU2621601C1 (en) Document image curvature eliminating
CN111401099B (en) Text recognition method, device and storage medium
CN113221735A (en) Multimodal-based scanned part paragraph structure restoration method and device and related equipment
Ishitani Model-based information extraction method tolerant of OCR errors for document images
CN114913487A (en) Target recognition detection method based on multi-modal learning and related components
US8208685B2 (en) Word recognition method and word recognition program
CN110147785B (en) Image recognition method, related device and equipment
US10217020B1 (en) Method and system for identifying multiple strings in an image based upon positions of model strings relative to one another
JP3589007B2 (en) Document filing system and document filing method
JP3873612B2 (en) Document registration device, document search device, document registration method, and document search method
CN115147847A (en) Text recognition result determining method and device, storage medium and computer equipment
Lu et al. Word searching in document images using word portion matching
JP3812719B2 (en) Document search device
JPH11328315A (en) Character recognizing device
JPH06223121A (en) Information retrieving device
JP3620299B2 (en) Document filing device and document filing method

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20040701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060322

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061016

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091102

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131102

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees