JP3711636B2 - 情報検索装置および方法 - Google Patents

情報検索装置および方法 Download PDF

Info

Publication number
JP3711636B2
JP3711636B2 JP17728296A JP17728296A JP3711636B2 JP 3711636 B2 JP3711636 B2 JP 3711636B2 JP 17728296 A JP17728296 A JP 17728296A JP 17728296 A JP17728296 A JP 17728296A JP 3711636 B2 JP3711636 B2 JP 3711636B2
Authority
JP
Japan
Prior art keywords
search
image
information
area
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP17728296A
Other languages
English (en)
Other versions
JPH103483A (ja
Inventor
勝彦 糸乘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP17728296A priority Critical patent/JP3711636B2/ja
Publication of JPH103483A publication Critical patent/JPH103483A/ja
Application granted granted Critical
Publication of JP3711636B2 publication Critical patent/JP3711636B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、データベースに登録されている情報や同一文書内に記載されている関連ある情報を検索する装置および方法に関する。本発明は、具体的には、紙面上に印刷された文書を画像として読み込み、簡便な方法で指定した項目に関連した情報を検索、あるいは検索・表示する情報検索装置および方法に関する。
【0002】
【従来の技術】
従来、データベースの検索は適当なキーワードを機械に指定することにより行われている。また、関連ある情報間にリンクを張り、必要な部分を指定すると自動的に詳細な情報、あるいは関連性の強い情報を提示する仕組みが提案されている。これらの従来技術は、あらかじめ用意されたコード情報(キーワードであればテキスト、情報間のリンクであればリンク先のアドレス等)を解析することによって実現されている。
【0003】
このような仕組みは、テキストのようなコードデータを対象として提案され、画像データに付いても同様な仕組みを提供するためにいくつかの方法が提案されている。その1つとして、画像データを登録する時に、画像データと共にその画像の内容を表すテキストデータを同時に登録し、検索時にはこのテキストデータを使用するものである。この画像が文書であれば、画像の内容を解析して、文字認識を行い、その認識結果を登録し、全文検索を行うことになる(特開平7−85074号公報、特開平6−282582号公報)。また、このテキストデータを利用することにより、同一文書中の単語の検索が容易となるので、文書中の特定の単語を検索して、関連する情報が記載されている部分を容易に得ることができる。
【0004】
また、このように画像全体の内容をテキストデータとして変換するのではなく、利用者が適当な部分を選択し、その選択した一部分のみを文字認識し、その結果を用いて必要なデータをデータベース中から検索するという方法も提案されている(特開平7−210576号公報)。
【0005】
【発明が解決しようとする課題】
しかしながら、データベースなど大量に蓄積されている情報は、コード化されているものばかりではなく、画像として蓄積されているものも多く、また、利用者が出版物など個人的に登録するような場合も、画像で入力することの方がコード化して登録する(文書入力装置で入力し直す、あるいは文字認識装置で入力する)よりは簡単に作業をすることができる。
【0006】
もともと文書は1文書中にいろいろな方法で関連情報を記載している。例えば、論文などでは参考文献として、関連する情報を詳細に掲載している文献を紹介し、しかも本文中には関連性のある適当な部分で参照すべき参考文献の番号を載せている。読者はこの番号を頼りに巻末に記載されている参考文献集より、適当な文献を捜すことができる。
【0007】
また、関連情報として、書中の注釈や図/表番号などは、本文中に記載されている内容の詳細を知らせる重要な情報である。例えば、『図XXに示しているように、〜は〜』のような記述では、図を見ながら読みすすめると理解が深まる。また、注釈においても関連性のある内容を数字(1、2、・・・・)あるいは記号($、§、‡、・・・・)で表し、頁の下部にけい線で区切った脚注欄に記載したり、章末/巻末に記載したりといった方法が採られている。
【0008】
このような文書中しかも画像中の関連情報をたどるには、画像を解析して文字認識を行い、コード情報に置き換えた上で従来技術を用いて、検索を行うといった手段があるが、この方法では画像とコード情報との関連性が失われるため、画像上を直接指定して必要な情報を検索することができず、あらたにキーワードを入力して情報を検索する必要があった。
【0009】
本発明は、文書画像上の領域を直接指定することにより、関連情報を求め、この関連情報から検索用情報を得て、その検索用情報によりデータベース等の検索を行う情報検索装置及び方法を実現することを課題とする。
【0013】
【課題を解決するための手段】
本発明(請求項1)の情報検索装置は、文書画像を表示するための画像表示手段(151)と、文書画像内の一部領域を検索用パターンとして指定する指定手段(152)と、前記指定手段によって指定された検索用パターンにより前記文書画像内を検索し、前記指定された検索用パターンと一致する画像パターンが検出されたとき、その画像パターンを含む領域を関連領域として抽出する関連領域検索手段(153)と、その検索手段により抽出された領域に対する文字認識を行い、検索用情報を得る文字認識手段(154)と、複数のテキストあるいは画像を蓄積し、検索用情報を用いて検索する情報蓄積検索手段(155)を備えたことを特徴とする。この情報検索装置の作用においては、画像入力手段により入力した画像中の一部領域を、検索用パターンとして指定手段により指定する。関連領域検索手段により、その指定した検索用パターンと一致する画像パターンを、文書画像中から検出し、その検出した画像パターンに関連付けられた領域を抽出する。文字認識手段は、その抽出された領域に対して文字認識を行い、認識結果の文字列から検索用情報(例えば、認識結果の文字列をキーワードとする検索式)を生成し、情報蓄積検索手段の検索に用いる。本発明によれば、キーワードなどの検索用情報の入力などの操作を省略することができ、操作性のよい情報検索装置を実現できる。また、本発明によれば、検索した結果が画像情報であろうとテキストデータであろうと、その操作方法は同じなので、検索結果の情報の形態を意識することのない、操作性のよい情報検索装置を提供できる。
【0015】
【発明の実施の形態1】
本発明の一実施の形態の情報検索装置について説明する。図1は、その情報検索装置の基本構成図である。この装置は、2値画像、特に文書画像を入力する画像入力部10と、入力した文書画像を表示する画像表示部11と、入力した文書画像を構成する領域を解析する文書領域解析部12と、入力した文書画像の書式を指定する書式指定部13と、入力した文書画像の一部領域を指定する領域指定部14と、指定した領域内の記号と同一の記号を文書中の別の領域、あるいは書式指定部13によって指定された領域から検出する記号検出部15と、前記記号検出部15で検出された記号を含む領域を、入力した文書画像から切り出す文書領域切り出し部16と、画像入力部10、画像表示部11、文書領域解析部12、書式指定部13、領域指定部14、記号検出部15、及び文書領域切り出し部16の動作を制御する中央制御装置17、その中央制御装置17が各部を制御するためのプログラムなどを格納する記憶装置18を備えている。
【0016】
以下、図1を用いて各部の詳しい説明を行う。
まず、画像入力部10により画像を入力する。これは、紙面に印刷された画像をディジタルデータとして入力するために用いるイメージスキャナのような装置であっても、外部のデータベースに登録されている画像を入力する構成であってもよい。
【0017】
入力された画像は、画像表示部11に表示される。利用者は、この画像表示部11を通して入力された画像や、作業の状況を知ることができる。
【0018】
また、文書領域解析部12により、入力された文書画像を構成する複数の領域を抽出する。例えば、図2に示すように、検出される領域は文字領域21、図形領域22、けい線領域23などである。この文書領域解析部12においては、まず画像中の画素連結成分を抽出することから解析が始まる。
【0019】
画素連結成分は、一般にラベル付け処理(例えば、通産省工業技術院監修、協同システム開発(株)発行“画像処理サブルーチン・パッケージSPIDER USER’S MANUAL”,PPIII−34〜III−35参照)として知られる処理によって抽出することができる。ラベル付け処理は、画素値が1である画素(黒画素)について、図3に示すように画像中の注目点(i、j)の画素の周辺(i−1、j−1)、(i、j−1)、(i+1、j−1)、(i−1、j)の画素の画素値及びラベル値を調べ、周辺の画素に1以上のラベル値が与えられていれば、画素(i、j)にそのラベル値と同じラベル値を与え、周辺の画素の画素値がすべて0(白画素)であれば、新しいラベル値を画素(i、j)に与える処理である。もし、周辺の画素に複数のラベル値が与えられている時は、その中の最小値をラベル値として画素(i、j)に与えて、周辺画素に与えられているすべてのラベルが同一のラベルであることを画素連結テーブル41に記録しておく。例えば、周辺の画素にラベル値2とラベル値3のラベルがあったときには、注目画素のラベルをラベル値2に設定し、ラベル値2とラベル値3が連結した画素のラベルであることを画素連結テーブル41に記録する。最後にこの画素連結テーブル41を参照して、すべてのラベルを調整し直して、連結している領域ごとに異なるラベルを与える。ラベル付けの様子を図4(a)及び(b)、図5に示す。図4(a)では、画像の走査によりラベルを各画素に与えた結果を示し、同図(b)はその過程で生成される画素連結テーブル41を示す。図4(b)の画素連結テーブル41によると、ラベル値2とラベル値3を持つ画素は連結していることが分かる。したがって、この情報を元に画素値を更新して図5のように、ラベル値3を持つ画素をすべてラベル値2に更新する。
【0020】
このように生成されたラベル画像に対して、各ラベル毎にその外接矩形61、62を求めて、この外接矩形によって画素連結成分を表す。その結果、図6(a)に示す文書画像は図6(b)のように外接矩形61、62によって表現される。次に、この外接矩形の面積、縦横比によって各外接矩形の属する領域を判定する。例えば、文書画像の大半を占める文字の外接矩形61より図形を表現する画像の外接矩形62の方が面積が大きい。また、けい線は細長い線分なので、外接矩形の幅を高さで割った値は極端に大きな値を取る。このような処理は適当な閾値を設けることで簡単に行うことができる。図形領域として判定するための閾値G(面積)は、本文中で用いられている最大文字サイズが24ポイント、最小文字サイズが6ポイントであれば、G=70.5(平方mm)、またけい線は3文字以上の長さを持つと仮定すると、けい線領域を判定する閾値R(縦横比)はR=12と設定することができる。したがって、閾値Gより大きい面積を持つ外接矩形を図形領域、閾値Rより大きい縦横比を持つ外接矩形をけい線領域とする。
【0021】
更に、ここで求めた図形領域とけい線領域に対して処理を行う。図形領域に関しては、図を説明するキャプション部分も図形領域に含まれるように領域を拡張する。図形領域の拡張は、閾値Hを設定して図形領域に近い文字矩形を含むように図形領域を拡張する。この閾値Hは、文書中で使用される最大文字サイズを24ポイントとすると、その1/3の値H=2.8mmとして設定することができる。したがって、文書画像中のすべての外接矩形と図形領域の間の距離を計算して、閾値Hより近接している矩形を図形領域として統合する。この処理により、図形領域内に、そのキャプションを取り込むことができる。
【0022】
次に、けい線領域に関しては、けい線の下側には脚注が存在すると判断して、けい線領域23より下側にある外接矩形をすべて統合して脚注領域71(図7)とする。ただし、けい線領域は文書画像中のあらゆる部分(文書の最上部、本文中など)に記入されていると考えられるので、ここでは脚注として可能性の高い、文書画像の下側1/2に含まれるけい線領域を対象として、その下側に存在する外接矩形を統合して1つの領域71として生成する(図7)。
【0023】
図2では、これらの外接矩形をさらに統合を進めて、文字だけの領域21を検出しているが、本発明では文書全体に対するこれ以上の統合処理は必要ないので、外接矩形の統合処理は文書領域解析部12では行わない。文書領域解析部12で得られたすべての外接矩形の位置と大きさ、それとけい線領域、脚注領域と図形領域の位置を記憶装置18に記憶する。
【0024】
次に、書式指定部13によって入力した文書画像の注釈位置を指定する。注釈の書かれている場所としては、脚注あるいは節末/章末があるので、入力された文書画像ではどちらに書かれているかを、利用者に指定してもらう。このとき、脚注が指定されると、記憶装置18に記憶されている脚注領域を注釈領域として記憶し直しておく。
【0025】
また、節末/章末が指定された時は、さらに注釈領域を利用者に指定をしてもらう。例えば、図8のようにマウスカーソル81を用いて注釈の開始位置82と終了位置83を指定することができる。まず、マウスカーソル81を注釈の開始位置82に移動してから、マウスボタンを押し下げることで注釈の開始位置を指定し、次にマウスカーソル81を注釈の終了位置83に移動して、同様にマウスボタンを押し下げることで注釈の終了位置を指定する。ここで指定された注釈開始位置82と注釈終了位置83の間に存在する、文書領域解析部12で抽出した外接矩形を統合し、注釈領域として記憶装置18に記憶する。
【0026】
以上のようにして記憶装置18に記憶されている入力画像の解析結果を用いて、文書画像内の注釈番号あるいは図番号と関連する画像を検索して表示を行う。以下に、注釈番号あるいは図番号を指定して、関連する画像を表示するまでの手順を説明する。
【0027】
まず、利用者が領域指定部14により画像表示部11上に表示されている画像の一部領域91を指定する。指定の方法は、例えば図9に示すようにマウスカーソル81を使用して、画像上の一部分を囲むようにする。更に詳しくは、指定したい領域の左上の角にマウスカーソル81を移動してマウスボタンを押し下げ、そのまま指定したい領域の右下までマウスカーソル81を移動しマウスボタンを離すことで領域91を指定することができる。
【0028】
領域指定部14により指定された領域内の画像は切り出され、記憶装置18に記憶される。記号検出部15では、領域指定部14で指定された領域内の画像パターンの表す記号に一致する記号を領域解析部12で抽出された図形領域内の画像と注釈領域内の画像から検出する。このとき、領域指定部14で指定された領域内に、参照を示す記号が存在する保証はないので、領域指定部14では、簡単な文字認識を行い、参照を示す記号以外であれば警告して利用者に適当な領域を指定するように促すことも可能である。ここで、簡単な文字認識とは、参照を表す記号が数種類の文字(数字、”図”、”表”、”*”、”$”、等の文字)に限定されるため、これらの文字だけを対象とした小さな認識辞書による文字認識である。
【0029】
具体的に記号の検出は、記憶装置18に記憶された領域指定部14により指定された領域の画像を、検索対象となっている文書領域解析部12によって抽出された図形領域又は注釈領域の指定の領域内の画像に重ね合わせ、画素値が一致する画素数をカウントする。記憶装置18に記憶されている記号画像の全画素数に対する画素値が一致した画素数の割合を画像の一致度として、図形領域あるいは注釈領域全体に対して順次重ね合わせて、一致度の最も高い部分を検出することで記憶装置18に記憶された記号と同一の記号を検出する。また、文書領域解析部12で抽出した画素連結成分を利用して、図形領域あるいは注釈領域内の画素連結成分ごとに前記の検出方法を行うことで同様に記号位置を検出することもできる。このとき、図形領域内の図形として判断される大きさ(面積)を持つ画素連結成分の外接矩形を、検索対象から除外することで処理時間を短縮することができる。
【0030】
しかし、領域指定部14で指定された領域内の文字サイズと、検索対象となる図形領域あるいは注釈領域内の文字サイズが異なる場合には、上記の記号検出部15ではうまく記号を検出できない場合がある。そのため、記憶装置18に記憶された図形領域あるいは注釈領域内の画素連結成分の外接矩形のサイズと一致するように、記憶装置18に記憶された指定領域の画像を変形することで、この問題を解決することができる。
【0031】
上記のようにして検出された記号は、その位置と検出された位置を含む領域を記憶装置18に記憶する。文書領域切り出し部16では、記憶装置18に記憶された、記号検出部15で検出された記号位置を含む図形領域あるいは注釈領域を文書画像20から切り出し、さらに記号検出位置に記号検出位置マーク101を付加した参照位置画像102を生成する。この文書領域切り出し部16で生成した参照位置画像102を指定領域の近傍に、画像表示部11によって表示を行う。この様子を図10では図番号が指定された場合、図11では注釈記号が指定された場合を示す。
【0032】
以上の操作により、入力した文書画像中に記載されている関連情報を取り出し、表示することができる。また、表示される関連情報は画像なので、関連情報内にさらに参照する情報が存在すれば、同様の処理により表示することも可能である。
【0033】
本実施形態では、簡単に説明するためにあたかも1画像について操作しているように説明しているが、実際には複数の画像で1つの文書を構成している場合が多い。そのため、複数の画像を1つの情報の単位として扱う仕組みが必要である。このような仕組みに関しては、1つの画像ファイルの先頭に幾つの画像が格納されているかの情報を記述して、1つのファイルに複数の画像を格納する方法がある。
【0034】
また、図12のように1つの文書がどの画像から構成されているかを示すために、文書名、頁数、画像ID等を有する文書画像インデックス情報121を作成し、この文書画像インデックス情報121によって画像の表示、検索を行うこともできる。なお、この方法によれば、注釈の記載されている頁番号を文書画像インデックス情報121に登録することで、書式指定部13を省略することができる。
【0035】
このように複数の画像を1つの文書として扱い可能とすることで、指定した図番号あるいは注釈記号の参照場所が、別の頁に存在していても、必要な参照情報を即座に表示することが可能となる。図13、図14に別頁に記載されている参照情報を表示している例を示す。図13は図番号の領域91を指定し、別頁の対応する図面の画像102を表示している様子を示している。図14は注釈の領域91を指定し、別頁の対応する注釈の画像102を表示している様子を示している。
以上の操作により、複数画像によって構成され、同一画像中にない関連情報を取り出し、表示することができる。
【0036】
以上に説明した本発明の第1の実施の形態によれば、画像中の一部を指定して、指定した領域に記述されている記号に関連する情報を記述している領域を切り出して、指定した領域の近傍に表示するようにしたので、テキストデータと同様の操作性で文書中の情報を検索することができると共に、関連情報を分かり易い位置に自動的に表示できる操作性のよい情報検索装置を提供できる。
【0037】
更に、本発明の第1の実施の形態によれば、複数の画像を1つの情報単位として扱うことができるようにしたので、実際の紙の文書を読むのに近い感覚で扱うことのできる操作性のよい情報検索装置を提供できる。
【0038】
【発明の実施の形態2】
図15は、本発明の第二の実施の形態による情報検索装置の基本構成図である。この情報検索装置は、2値画像を入力する画像入力部150と、入力した画像を表示する画像表示部151と、入力した画像の一部領域を指定する領域指定部152と、指定した領域内の記号と同一の記号を画像中のほかの部分から検出し、検出した記号に対応する関連領域を求める関連領域検索部153と、検出した記号に対応する関連領域内の文字を認識する文字認識部154と、文字認識の結果をキーワードとして情報を検索する情報蓄積検索部155と、画像入力部150、画像表示部151、領域指定部152、関連領域検索部153、文字認識部154、及び情報蓄積検索部155等の動作を制御する中央制御装置156と、中央制御装置156が各部を制御するためのプログラム等を格納する記憶装置157を備えた構成を有している。
【0039】
なお、本実施形態では論文を対象としてその参考文献を検索するように記述されているが、論文ばかりではなく一般の文書で、記号を使って他文書の情報との対応を取って関連づけているものについても同様の方法で他文書の情報の検索が可能である。
【0040】
以下、図15を用いて各部の詳しい説明を行う。まず、画像入力部150により画像を入力する。これは、紙面に印刷された画像をディジタルデータとして入力するために用いるイメージスキャナのような装置であっても、情報蓄積検索部155のように予め蓄積されている画像データを入力する装置であってもよい。
【0041】
入力された画像は、画像表示部151に表示される。利用者は、この画像表示装置を通して入力された画像や、作業の状況を知ることができる。
【0042】
次に、領域指定部152により画像表示部151上に表示されている画像の一部領域162(図16)を指定する。指定の方法は、例えば図16に示すようにマウスカーソル161を使用して、画像上の一部分を囲むようにする。さらに詳しくは、指定したい領域の左上の角にマウスカーソルを移動してマウスボタンを押し下げ、そのまま指定したい領域の右下までマウスカーソルを移動しマウスボタンを離すことで領域162を指定することができる。
【0043】
領域指定部152により指定された領域内の画像は検索用画像パターンとして切り出され、記憶装置157に一時的に記憶される。その検索用画像パターンの内容は例えば参照を示す記号(数字(1),(2)や記号$,§…など)である。関連領域検索部153では、領域指定部152で指定された検索用画像パターン(記号画像)に対応する項目を文書中の別の部分から検出し、記号が示す参照の参照先が記述してある部分を抽出する。一般に、このような参照を示す記号に対応する項目は、この記号が記述された部分より文書の後ろ側に出現することが多い。したがって、関連領域検索部153は、入力画像の後ろ側から切り出した記号画像とのマッチングを行い、一致した部分を検出する。この場合、利用者により指定される領域内に適当な記号が存在する保証はないので、指定領域内の記号を文字認識部154により文字認識を行い、記号のコード以外である場合には警告をして利用者に適当な領域を指定するように促すこともできる。また、記号に対応する項目は、図17のように記号を文頭に置き、対応する項目が記号に続いて書かれるため、画像の左端を優先的に検索して選択した記号にマッチングする項目を捜して、検出の時間を短縮することもできる。
【0044】
具体的に記号の検出は、記憶装置157に記憶された検索用画像パターンを検索対象となっている文書画像に重ね合わせ、画素値が一致する画素数をカウントする。検索用画像パターンの全画素数に対する画素値が一致した画素数の割合を画像の一致度として、検索対象画像全体に対して記号画像を順次重ね合わせて、一致度の最も高い部分を検出することで検索用画像パターンの表す記号と同一の記号を表す画像部分を検出する。また、検索対象画像の黒画素で構成される連結領域を抽出して、この連結領域毎に検索用画像パターンとの一致度を調べることにより検出することもできる。
【0045】
しかし、領域指定部152で指定された領域内の記号が肩文字などの本文の文字サイズ(参考文献を記述している文字サイズ)と異なるサイズで記述されている場合には、上記の関連領域検索部153ではうまく記号を検出できない場合がある。そのため、記憶装置157に記憶されている画像の大きさを本文文字のサイズと一致するように変形させることで、この問題を解決する。具体的には、まず、検索対象の画像全体の画素の横方向への周辺分布を作成する。この周辺分布において、画素の存在しない部分に挟まれる領域が文字行に相当するので、この領域の高さに合わせるように、記憶装置157に記憶されている画像の大きさを変形することで、関連領域検索部153の精度を向上させることができる。
【0046】
次に、関連領域検索部153は先に検出した項目の周辺を解析して、記号に対応する文字列を切り出す。この文字列の切り出し方法は、検出された項目の周辺において、画像の横方向への周辺分布172を作成し、画素の存在しない部分に挟まれる領域が文字行に相当するので、記号検出位置に対応する文字行の部分181を切り出す。なお、関連領域検索部153で、記憶装置157に記憶されている画像を周辺分布を用いて変形している場合には、関連領域検索部153で用いた周辺分布をそのまま使用することができる。
【0047】
この切り出された文字行の部分181(図18)には、例えば論文であれば参考文献の著者名、タイトル等が書かれている。この切り出した文字行の部分を文字認識部154により認識し、著者名、タイトル、所属等を表すコード情報を得る。ただし、文献の記載が1行で終わる保証はなく、記号が検出された部分の周辺を解析して、文頭のインデントなどの情報によって、参考文献の記載が複数行にわたっているか調べる必要がある。
【0048】
例えば、記号に対応する項目が記述されている行を切り出した後、この行の先頭位置(X座標)R1を測定して記憶装置157に記憶する。次に今検出した行の次の行を周辺分布の情報から切り出し、その行の先頭位置を測定してR2とする。今、切り出した2つの行が同じ位置から始まっていれば、次の行は別の項目を示していると判断できるが、下側の行の方が右側(R1<R2)から始まっているなら、下側の行は前の行の続きであると判断できる。したがって、R1<R2である場合、記号に対応する項目が記述されている行とその次の行を切り出す。また、2行以上であっても同様に行の連結性を検査することができるので、3行以上に渡って行が連結している場合でも、同様に切り出すことができる(図18参照)。
【0049】
関連領域検索部153で切り出した領域は、文字認識部154で認識され文字コードに変換される。文字認識の方法は、一般的な方法でよく、特別な手法は必要でない。具体的には、予め文字種類全てに対して、画像的な特徴量を計算しておき辞書を作成しておく。入力となる文字についても同じ特徴量を計算して、求めた特徴量と辞書に記憶された特徴量とを比較して、最も近い文字を出力する。
【0050】
このようにして求めた文字コードには、数%程度の認識誤りが含まれている。この誤りをそのままにしておくと、情報が検索できない場合があるので、認識誤りを補う必要がある。最近の文字認識手法では、認識結果の正しさの程度を数値で表せるので、この情報を用いて正しさが低い文字については、その文字をワイルドカード(どの文字を当てはめてもよい特別な記号)を表す記号と置き換えて、情報蓄積検索部155に渡して、検索を行うことで、文字認識の認識誤りを補うことができる。例えば、文字認識の結果『あした』という文字列を得て、このうち『し』の文字の認識の正しさが低いとする。ここで、ワイルドカードを表す記号が『*』であるとすると、この文字列は『あ*た』という文字列に置き換えられることになる。この置き換えにより、この文字列と一致する文字列は『あした』のほかに『あなた』、『あきた』などがある。この方法は、数文字程度の単語では一致する単語が複数出現するので検索には有効な方法ではないが、論文のタイトルなど、ある程度長い文字列に対しては、一致する文字列が少なくなるので、簡単で有効な手段となる。
【0051】
文字認識部154によって得られた文字列は、著者名、タイトルなどの属性の異なる情報が盛り込まれているので、これらを分離してから情報蓄積検索部155に入力する必要がある。そのため、それぞれの属性を分離している『 : 』や『 、』『 ; 』などの文字で分割して、それぞれの文字をAND条件で情報蓄積検索部155の入力とする。例えば、文字認識部154の結果、図19に示すように、『山田太郎:XXに基づく検索装置:K学会』の文字列191が得られたとすると、『 : 』や『 、』のセパレータで区切って、『”山田太郎”AND”XXに基づく検索装置”AND”K学会”』という検索式195に変換する。
【0052】
また、書誌情報の並びは各文書によって一意に決定できる。例えば、ある文書では『タイトル:著者名:所属』の並びで記載されてることもあるし、別の文献では『著者名:タイトル:出版社』の並びで記載されている。この情報は、一文書内では変わることがないので、事前にこの情報を知ることができれば、より正確な検索を情報蓄積検索部155において実施することができる。例えば、図19で例示している文字列191の場合、その書誌情報は『著者名:タイトル:出版社』の順番で記載されているので、著者名として山田太郎、文献のタイトルとして”XXに基づく検索装置”、出版社としてK学会を指定して、その検索式は『(著者名:”山田太郎”) AND (タイトル:”XXに基づく検索装置”)AND(出版社:”K学会”)』とすることができる。このような書誌情報は、画像を入力した時点で、利用者が指定することもできるし、情報蓄積検索部155に既に蓄積されている画像であれば、その画像情報(画像の幅や高さや生成された日付などの情報)に追加しておくことも可能である。
【0053】
この検索式を用いて情報蓄積検索部155に蓄積されている情報を検索し、必要な情報を出力する。ここで、情報蓄積検索部155はシステム内に存在する必要はなく、ネットワークで接続されて遠隔地に存在する利用可能なデータベースを利用してもよい。
【0054】
以上の操作により、入力した文書画像中に存在する関連情報項目を取り出し、それにより関連情報を検索して表示することができる。また、検索した結果がテキストデータであっても、画像データであっても同じ操作手順により、さらに情報の検索を行うことができる。すなわち、検索した結果が画像情報であれば、上記の方法でさらに検索を進めることができる。検索した結果がテキストデータであれば、参考文献番号をマウスで指定して、テキスト内から一致する文字を検索する。これは、一般的な文書作成装置などで用いられている文字探索方法を使用することができる。また、テキストデータであれば検索した行の文字列を取り出し、文字認識をする必要もなく検索式を作ることができる。
【0055】
また、文書を表すようなデータは、ほとんどが複数ページにわたって記述されているのが普通である。本実施形態では、簡単に説明するためにあたかも1画像について操作しているように記述しているが、実際には複数の画像を1つの文書として扱い、複数の画像を1つの情報の単位として扱う仕組みが必要である。このような仕組みに関しては、1つの画像ファイルの先頭に幾つの画像が格納されているかの情報を記述して、1つのファイルに複数の画像を格納する方法がある。したがって、本実施例の関連領域検索部153は、最終頁を表す画像からマッチングを始めることになる。
【0056】
また、第1の実施の形態において図12により説明したのと同様に、1つの文書がどの画像から構成されているかを示す文書画像インデックス情報121を作成し、この文書画像インデックス情報121によって画像の表示、検索を行うこともできる。なお、この方法によれば、参考文献集の記載されている頁番号を文書画像インデックス情報121に登録することで、関連領域検索部153は指定されている画像についてのみ処理を行えばいいので、処理時間を短縮することができる。
【0057】
以上説明したように、本発明の上記実施の形態によれば、画像中の一部を指定して、指定した領域に記述されている内容に関連する項目を検出し、検出された項目に対してのみ文字認識を行い、文字認識した結果から検索式を生成して情報を検索するようにしたので、キーワードの入力などの操作を省略でき、操作性のよい情報検索装置を実現できる。
【0058】
また、本実施の形態によれば、検索した結果が画像情報であろうとテキストデータであろうと、その操作方法は同じなので、検索結果の情報の形態を意識することのない、操作性のよい情報検索装置を提供できる。
【0059】
さらに、本実施の形態によれば、複数の画像を1つの情報単位として扱うことができるようにしたので、実際の紙の文書を読むのに近い感覚で扱うことのできる操作性のよい情報検索装置を提供できる。
【0064】
【発明の効果】
本発明(請求項)によれば、検索用情報の入力のための操作を省略することができ、操作性のよい情報検索装置を実現できる。また、本発明によれば、検索した結果が画像情報であろうとテキストデータであろうと、その操作方法は同じなので、検索結果の情報の形態を意識することのない、操作性のよい情報検索装置を提供することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1の基本構成図
【図2】文書を構成する領域を説明するための図
【図3】画像のラベル付けのための走査方法を説明するための図
【図4】(a)及び(b)は画像のラベル付けを説明するための図
【図5】画像のラベル付けを説明するための図
【図6】(a)及び(b)はラベルの外接矩形によって表した画像を説明するための図
【図7】文書領域解析部によって抽出される領域を説明するための図
【図8】節末/章末における注釈領域の指定方法を説明するための図
【図9】領域指定部による領域指定を説明するための図
【図10】図番号を指定した場合の参照位置画像の表示を説明するための図
【図11】注釈記号を指定した場合の参照位置画像の表示を説明するための図
【図12】複数の画像によって構成される文書の管理方法を説明するための図
【図13】複数画像の文書において図番号を指定した場合の参照位置画像の表示を説明するための図
【図14】複数画像の文書において注釈記号を指定した場合の参照位置画像の表示を説明するための図
【図15】本発明の実施の形態2の基本構成図
【図16】領域指定部による領域指定を説明するための図
【図17】指定された記号に対応する項目及び記号検出位置周辺における周辺分布を示す図
【図18】複数行で記載されている文献項目を切り出す方法を説明するための図
【図19】認識結果を検索式に変換する方法を説明するための図
【符号の説明】
10…画像入力部、11…画像表示部、13…書式指定部、14…領域指定部、15…記号検出部、16…文書領域切り出し部、17…中央制御装置、18…記憶装置、20…文書画像、21…文字領域、22…図形領域、23…けい線領域、41…画素連結テーブル、61…外接矩形、71…脚注領域、81…マウスカーソル、82…注釈開始位置指定マーク、83…注釈終了位置指定マーク、91…指定領域、101…記号検出位置マーク、121…文書画像インデックス情報、150…画像入力部、151…画像表示部、152…領域指定部、153…関連領域検索部、154…文字認識部、155…情報蓄積検索部、156…中央制御装置、157…記憶装置、160…画像、161…マウスカーソル、162…指定領域、171…記号検出位置、181…1つの文献を記載した領域、191…文字認識部14による認識結果、192…著者名に対応する文字列、193…文献名に対応する文字列、194…出版社に対応する文字列、195…192、193、194の文字列を組合せた検索式。

Claims (2)

  1. 文書画像内の一部領域を検索用パターンとして指定する指定手段と、
    前記指定手段によって指定された検索用パターンにより前記文書画像内を検索し、前記指定された検索用パターンと一致する画像パターンが検出されたとき、その画像パターンを含む領域を関連領域として抽出する関連領域検索手段と、
    その関連領域検索手段により抽出された領域に対する文字認識を行い、検索用情報を得る文字認識手段と、
    複数のテキストあるいは画像を蓄積し、前記検索用情報を用いて蓄積情報を検索する情報蓄積検索手段とを備えたことを特徴とする情報検索装置。
  2. 文書画像内の一部領域を検索用パターンとして指定する指定手段と、前記指定手段によって指定された検索用パターンにより前記文書画像内を検索し、前記指定された検索用パターンと一致する画像パターンが検出されたとき、その画像パターンを含む領域を関連領域として抽出する関連領域検索手段と、その関連領域検索手段により抽出された領域に対する文字認識を行い、検索用情報を得る文字認識手段と、複数のテキストあるいは画像を蓄積し、前記検索用情報を用いて蓄積情報を検索する情報蓄積検索手段とを備えた情報検索装置による情報検索方法であって、
    前記指定手段が、文書画像内の一部領域を検索用パターンとして指定するステップと、
    関連領域検索手段が、前記指定手段によって指定された検索用パターンにより前記文書画像内を検索し、前記指定された検索用パターンと一致する画像パターンが検出されたとき、その画像パターンを含む領域を関連領域として抽出するステップと、
    前記文字認識手段が、前記抽出された領域に対する文字認識を行い、検索用情報を得るステップと、
    複数のテキストあるいは画像を蓄積した情報蓄積検索手段が、蓄積情報を前記検索用情報を用いて検索するステップと
    を備えたことを特徴とする情報検索方法。
JP17728296A 1996-06-18 1996-06-18 情報検索装置および方法 Expired - Fee Related JP3711636B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17728296A JP3711636B2 (ja) 1996-06-18 1996-06-18 情報検索装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17728296A JP3711636B2 (ja) 1996-06-18 1996-06-18 情報検索装置および方法

Publications (2)

Publication Number Publication Date
JPH103483A JPH103483A (ja) 1998-01-06
JP3711636B2 true JP3711636B2 (ja) 2005-11-02

Family

ID=16028316

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17728296A Expired - Fee Related JP3711636B2 (ja) 1996-06-18 1996-06-18 情報検索装置および方法

Country Status (1)

Country Link
JP (1) JP3711636B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007034847A (ja) * 2005-07-28 2007-02-08 Canon Inc 検索装置及び検索方法
JP5355345B2 (ja) * 2009-10-21 2013-11-27 富士フイルム株式会社 ドキュメント閲覧システム及びその制御方法
GB2479547A (en) * 2010-04-14 2011-10-19 Diego Dayan Determining low detail areas in images suitable for annotations
MX368295B (es) 2012-06-05 2019-09-27 Dow Global Technologies Llc Peliculas que contienen composiciones de polimero basado en etileno funcional.
JP5895828B2 (ja) 2012-11-27 2016-03-30 富士ゼロックス株式会社 情報処理装置及びプログラム
US9690807B2 (en) * 2012-12-18 2017-06-27 Thomson Reuter's Global Resources (Trgr) Mobile-enabled systems and processes for intelligent research platform
JP6394069B2 (ja) * 2014-05-26 2018-09-26 京セラドキュメントソリューションズ株式会社 文書処理装置及び文書処理プログラム
JP6465070B2 (ja) * 2016-04-28 2019-02-06 京セラドキュメントソリューションズ株式会社 情報表示システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6362033A (ja) * 1986-09-02 1988-03-18 Nec Corp 関連情報表示装置
JPH01159759A (ja) * 1987-12-16 1989-06-22 Hitachi Ltd 文書を検索・表示する方法
JPH04188365A (ja) * 1990-11-22 1992-07-06 Hitachi Ltd 画像ファイリング装置

Also Published As

Publication number Publication date
JPH103483A (ja) 1998-01-06

Similar Documents

Publication Publication Date Title
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
JP4509366B2 (ja) 文書上の情報をスキャンしてフォーマット化するシステム
JP3427692B2 (ja) 文字認識方法および文字認識装置
US7561734B1 (en) Machine learning of document templates for data extraction
US7764830B1 (en) Machine learning of document templates for data extraction
RU2437152C2 (ru) Устройство обработки изображений, способ и компьютерная программа обработки изображений
US7991709B2 (en) Method and apparatus for structuring documents utilizing recognition of an ordered sequence of identifiers
US8060511B2 (en) Method for extracting referential keys from a document
JP4461769B2 (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
US20070098263A1 (en) Data entry apparatus and program therefor
US7668814B2 (en) Document management system
US20070171473A1 (en) Information processing apparatus, Information processing method, and computer program product
JPH05282423A (ja) 文書画像を復号することなく文書内の単語の出現頻度を調べるための方法
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JP3711636B2 (ja) 情報検索装置および方法
JP4787955B2 (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
JP2006065477A (ja) 文字認識装置
JPH07210577A (ja) 情報アクセス装置
JP4278134B2 (ja) 情報検索装置及びプログラム並びに記録媒体
JPH10162024A (ja) 電子ファイリング方法及び電子ファイリング装置
JPH08153110A (ja) 文書ファイリング装置及び方法
JP4517821B2 (ja) 画像処理装置及びプログラム
JP7377565B2 (ja) 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム
JPH1021043A (ja) アイコン生成方法、ドキュメント検索方法及びドキュメント・サーバー
JP2006134079A (ja) 画像処理装置及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050510

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050808

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090826

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100826

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110826

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120826

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120826

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130826

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees