JP4278134B2 - 情報検索装置及びプログラム並びに記録媒体 - Google Patents

情報検索装置及びプログラム並びに記録媒体 Download PDF

Info

Publication number
JP4278134B2
JP4278134B2 JP2003125402A JP2003125402A JP4278134B2 JP 4278134 B2 JP4278134 B2 JP 4278134B2 JP 2003125402 A JP2003125402 A JP 2003125402A JP 2003125402 A JP2003125402 A JP 2003125402A JP 4278134 B2 JP4278134 B2 JP 4278134B2
Authority
JP
Japan
Prior art keywords
component
file
information file
information
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003125402A
Other languages
English (en)
Other versions
JP2004318766A (ja
Inventor
史裕 長谷川
敏文 山合
忍 山本
利夫 宮澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2003125402A priority Critical patent/JP4278134B2/ja
Publication of JP2004318766A publication Critical patent/JP2004318766A/ja
Application granted granted Critical
Publication of JP4278134B2 publication Critical patent/JP4278134B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、文書を構成する構成要素を検索キーとして情報ファイルから検索キーに合致する構成要素を有する情報を検索する装置及びプログラム並びに記媒体に関する。
【0002】
【従来の技術】
従来、文書画像をスキャナで読取り、読取った画像を蓄積することにより電子ファイルを作成することが行われている。このファイルから所望の文書画像を取り出すために、入力された文書画像から抽出される文書の外観的な特徴を表す情報を、入力された文書画像と関連付けて記憶しておき、文書の外観的な特徴を表す情報が検索キーとして入力されたとき、入力された検索キーと前記記憶された情報とを照合し、この照合結果に従い関連する文書画像を出力する。
【0003】
前記照合結果の文書画像を出力したとき、各ページが全て同程度の表示濃度で表示されると、表示されたページ中から検索者が要求する特徴部分に合致する特徴部分を探し出すのに手間がかかるということがあった。これを回避するために、例えば「図形」を検索キーとし、所望の文書画像が得られたとき、文書中の図形領域のみが100%濃度で表示され、他の領域は10%濃度で表示して、検索者は、図形領域のみに集中してその内容を把握する文書検索装置が公知である(特許文献1参照)。
【0004】
【特許文献1】
特開平7-282086号公報(段落(0023)、図5)
【0005】
上述の文書検索装置によれば、文書検索の結果、検索対象となる文書の各ページが表示され、そのページ中で、検索された特徴領域が異なる濃度で表示されるので、ユーザーは、表示されているページが検索したいページであることを容易に判別することができる。従って、検索件数を少数に絞って検索を行うときは、出力された文書画像を1ページずつ視認することによって、所望のページを検索することが可能になる。
【0006】
【発明が解決しようとする課題】
しかしながら、検索漏れのない検索を目標とする場合であって、検索件数がある程度多くなることを前提とする検索の場合には、所望のページを検索するまでに時間がかかり検索を効率的に行えないという問題があった。また、特徴部分以外の部分は、特徴部分と異なる濃度で表示されるため、特徴部分が検索語で検索される場合、検索語が文章中でどのような前後関係のもとに使用されているかを見極めようとすると、濃度が低下している文字行部分を読み取らなければならなくなる。しかし読み取り難いため、濃度を再調整したり元の文書を再表示させて読み直さなければならないという問題があった。
【0007】
そこで本発明の第1の目的は、検索件数の多少に拘わらず情報検索を迅速に行うようにすることであり、第2の目的は、検索された特徴部分が元情報ファイルの中でどのように使用されているかの状況を、情報ファイル画像の表示濃度を再調整したり元情報ファイルを再表示することなく判るようにすることである。また第3の目的は、検索のための操作及び検索件数が多くなるときの検索処理を迅速に行えるようにすることである。
【0008】
【課題を解決するための手段】
請求項1の発明は、情報ファイルから抽出された情報ファイルの構成要素に、該構成要素の属性を表現するタグ情報を付与して構成要素データを作成する手段と、タグ情報が付与された構成要素データを格納する手段と、情報ファイルを表示する手段と、表示された情報ファイルからドラッグによって切り出された構成要素を検索キーとして入力する手段と、格納された構成要素データを参照して検索キーに合致する構成要素を検索する手段と、検索された構成要素をタグ情報に基いて情報ファイルから切り出す手段と、前記切り出された構成要素を含む周辺領域を表示する手段と、表示された前記構成要素の選択操作で元情報ファイルを表示する手段と、を備えたことを特徴とする情報検索装置である。
請求項2の発明は、情報検索装置のコンピュータを、情報ファイルから抽出された情報ファイルの構成要素に、該構成要素の属性を表現するタグ情報を付与して構成要素データを作成する手段と、タグ情報が付与された構成要素データを格納手段に格納させる手段と、情報ファイルを表示手段に表示させる手段と、表示された情報ファイルからドラッグによって切り出された構成要素を検索キーとして入力する手段と、格納された構成要素データを参照して検索キーに合致する構成要素を検索する手段と、検索された構成要素をタグ情報に基いて情報ファイルから切り出す手段と、前記切り出された構成要素を含む周辺領域を表手段に表示する手段と、表示された前記構成要素の選択操作で元情報ファイルを表示装置に表示させる手段、として機能させるためのプログラムである。
請求項3の発明は、請求項2記載のプログラムをコンピュータ読取り可能に記録した記録媒体である。
【0016】
【発明の実施の形態】
以下、本発明の実施形態を図面を参照して説明する。
初めに情報検索装置の構成について説明する。
図1は、本発明の一実施形態に係る情報検索装置の構成を示す図であり、本実施形態に係る情報検索装置は、情報ファイルを構成する構成要素の登録機能と検索機能を有する情報検索装置として構成される。
図1において、情報ファイル格納手段1は、ハードディスクなどの記憶手段であり、情報ファイルを保存する。ここで、情報ファイルとは、スキャナ等により文書を読み取ることにより得られた画像ファイル及びワードプロセッサ等により作成された文書ファイル(文字データ及び/又は図形データを含む)をいう。ファイル種識別手段8は、構成要素の登録が指示されたとき、情報ファイル格納手段1から情報ファイルを読み出し、読み出した情報ファイルが、スキャナ等により走査されて得られた画像ファイルか、ワードプロセッサ等により作成された文書ファイルかを識別し、ワードプロセッサ等により作成された文書ファイルの場合、これをファイル種変換手段9に渡す。ファイル種変換手段9は、受取った文書データのファイルを画像ファイルに変換し、構成要素抽出手段2に渡す。スキャナ等により読み取られた画像ファイルの場合は、受取られた画像ファイルがそのまま構成要素抽出手段2に渡される。
【0017】
構成要素抽出手段2は、受取った画像ファイルから文書を構成する構成要素、例えばテキスト、図、表、それらの位置情報、言語種、罫線、背景色等を抽出し、抽出した構成要素に該構成要素の属性を表現するタグ情報を付与して構成要素データを作成し、構成要素格納手段3に渡す。構成要素格納手段3は、渡された構成要素データをページ単位の構成要素ファイルとして格納、登録する。なお、情報ファイルの構成要素とその登録手法については後述する。
【0018】
検索キー取得手段4は、ユーザーが検索操作パネルから入力した検索キーを取得し、構成要素検索手段5に渡す。構成要素検索手段5は、構成要素格納手段3にアクセスし、検索キーに合致する構成要素を検索、取得する。そして検索した構成要素を到達キー情報作成手段6に渡す。
【0019】
到達キー情報作成手段6は、渡された構成要素に基いてその構成要素が存在していた情報ファイル(以下、元情報ファイルという)に到達するための到達キー情報(HTMLファイル)を作成する。なお、到達キー情報については後述する。情報ファイル表示手段7は、到達キー情報を解釈して検索結果の構成要素及び/又は元情報ファイルを表示する。
【0020】
ここで、情報ファイルの構成要素の具体例を示す。
【0021】
ア)文書を構成する言語の種類:異なる言語を対象とする複数の文字認識処理を行い、最も確からしさが高いものを抽出する。この処理で原稿が主に何語で記述されているかが判定できる。
【0022】
イ)罫線、罫線の種類:非常に細長い連結成分を抽出すればこれは実線とみなす。やや細長く、並んで存在すれば点線とみなす。
【0023】
ウ)周縁部に存在するノイズ領域:コピー機で複写原稿を作成する際、画像の周縁部が黒くなることがある。特に天板をあけて撮像すると、オリジナルの紙面の周りに黒い枠状の領域が発生する。これは、画像の周縁部のサイズの大きな連結成分として抽出し、これをノイズ領域とみなす。
【0024】
エ)情報ファイルの発信元・送付先:情報ファイルとしてファックス画像を選んだ場合、画像中のファックスの発信元や送付先が記述されていることがある。これらは画像の端にあることが多いので、この部分の文字を抽出する。
【0025】
オ)セパレーター:文書のコラムを区切る線状の要素である。罫線であることもあるし単に空白であることもある。罫線であれば前述した罫線の抽出方法で対処する。空白であれば、ある程度以上の長さや大きさを持つ白画素の連結成分として抽出する。
【0026】
カ)仮想罫線:表は通常、表の要素を区切る罫線があるが、ないものも多い。その代わりに背景色が変化して表の要素を分離していることもある。この場合は背景色の変化が罫線の代わりをしている。この、実際には存在しないが表の要素を分割するものを仮想罫線と呼ぶことにする。仮想罫線の抽出は、背景色が急激に変化している部分を直線的につないで罫線とみなすことで抽出する。
【0027】
キ)文書方向:画像を情報ファイルとして入力する際、撮像時に紙の置き方を変えると画像が90度単位で回転したものが登録される。このように、文書が90度単位でどちら側に向いているかを文書方向と呼ぶこととする。文書方向の求め方は、画像を90度単位で回転させた上で文字認識処理を行い、最も確信度の高い結果を残した方向を、文書方向と定義すればよい。
【0028】
ク)手書き文字:同一の文字行に対し、手書き用の文字認識処理と活字用の文字認識処理を施し、手書き用の結果がより確からしいと判断されたら手書き文字と認識できる。
【0029】
ケ)追記された情報:ある印刷原稿に対し、印刷の色とは別の色で手書きでメモを書き入れ、この原稿をスキャナで画像入力する。この条件であれば色の違いを利用して追記された手書きメモ部分を抽出する。
【0030】
コ)パンチ穴領域:パンチ穴のあいた紙原稿をスキャナで画像入力すると穴の部分が黒い丸い領域として画像再現される。したがって、これを抽出するには画像の端にある黒い丸を抽出すればよい。
【0031】
サ)タイミングマーク:マークシートなどで利用される、位置合わせのための手がかりとなるマークをタイミングマークをいう。タイミングマークは独特の形状(塗りつぶしの正方形など)をしているので、これを手がかりに抽出できる。
【0032】
シ)文字のフォント情報:文字とわかっている画像に対し、ストロークの変化が小さければゴシック、そうでなければ明朝と判断することでこれら2種類の区別をつけることができる。
【0033】
ス)構成要素の相対的な位置関係:構成要素が存在する領域が記録されていれば、これをもとに各要素間の相対的な位置が定義できる。「表の左側にある写真」などの検索ができる。
【0034】
この他にも、図、表、写真、文字列、タイトル、背景のドットパターンがある領域、背景に網掛けがある領域、及びこれらの位置等を構成要素として抽出することができる。
【0035】
次に、情報ファイルの構成要素の登録について説明する。
本発明の実施形態は、抽出した構成要素にタグを付し、タグ付き構成要素データとして登録する。
【0036】
タグとは、コンピュータのデータの一部に付けられた目印のことである。本実施形態では、タグの一例として、多くのページ記述言語で使用される”<”や”>”を使用するタグ形式を例に説明する。
【0037】
次は、タグ付き構成要素データの例である。
Figure 0004278134
【0038】
このタグ付き構成要素データは、<title>タグにより抽出された構成要素の元情報ファイルが「かくりつ」つまり確率というタイトルの文書ファイルであることを示し、<image>タグにより抽出された構成要素(この場合、「図」)の元情報ファイルへのリンクを示し、<region>タグにより前記構成要素が元情報ファイル中の画像領域1に存在することを示し、<kind>タグにより構成要素の種類が図であることを示し、<area>タグにより図の位置情報を示し、<color>タグでその色を示す。同じようにして、画像領域2の位置に他の構成要素であるテキストデータが存在し、横書き、文字色、背景色、日本語等であることが示される。タグ付き構成要素データは、エディタにより自動的に作成する。
【0039】
図2は、構成要素の登録処理のフロー図であり、図2を参照して説明すると、ユーザーは不図示の登録操作パネルから構成要素の登録を指示すると、ファイル種識別手段8は情報ファイル格納手段1から情報ファイルを取得する(S1)。そして取得した情報ファイルが、スキャナ等により走査されて得られた画像ファイルか、ワードプロセッサ等により作成された文書ファイルかを識別し、スキャナ等により読み取られた画像ファイルの場合は、取得した画像ファイルをそのまま構成要素抽出手段2に渡し、ワードプロセッサ等により作成された文書ファイルの場合、ファイル種変換手段9に渡す(S2)。ファイル種変換手段9は、受取った文書ファイルを画像ファイルに変換し、構成要素抽出手段2に渡す(S3)。構成要素抽出手段2は、渡された画像ファイルから構成要素の抽出を行い、抽出した構成要素にタグを付し、タグ付き構成要素データを作成する(S4)。そして、このタグ付き構成要素データを構成要素格納手段3に格納する(S5)。
【0040】
タグ付き構成要素データを作成し登録しておくことにより、情報ファイルの検索や元情報ファイルから検索された構成要素の切り出しを容易に行うことができるようになる。また構成要素の図や写真を登録するとき、元情報ファイルから図形部分や写真部分を切り出して保管する必要がないので、格納領域を節約することができる。なお、タグ付き構成要素データは冗長性があるので、記憶容量に制限がある場合には圧縮して登録するなどの方策をとる。圧縮して登録したときは検索時に伸張して用いることになる。
【0041】
更に、情報ファイルの検索手法について説明する。
本発明では、検索キーに相当する構成要素を検索し、検索された構成要素に基いて元情報ファイルへの結合要素を含むHTMLファイルを作成、このファイルにより検索した構成要素を表示し、表示された構成要素から元情報ファイルにリンクするようにする。
【0042】
ユーザーは、情報検索をスタートさせると、検索キーの入力画面が表示されるので、入力画面に表示された検索キーをマウス操作のポインタによりポイントすることによって検索キーを入力する。
【0043】
図3は、検索キーの入力画面を示す図であり、図中、検索キーとして、写真、図、検索語、文字色(赤、青、黄、緑、白、黒)、言語種(日、英、独、仏、伊、西)が表示されている。ユーザーは、これらをポイントすることにより検索キーを入力することができる。このとき、検索キーの表示マーク(白丸印)の表示色が反転するので、検索キーの入力を確認することができる。表示された検索キー以外の検索キーは、他の検索キー欄をポイントすることにより次ページ画面を表示させ、入力することができる。例えば具体的には、「画像の真ん中あたりの表の中の白い文字で行方向が縦で日本語」などの組合わせ検索キーを使用することが可能である。検索キーがポイントされると、検索キー取得手段4は、これを取得し構成要素検索手段5に渡す。
【0044】
構成要素検索手段5は、構成要素格納手段3の構成要素ファイルにアクセスし、格納されている構成要素データを参照して渡された検索キーに合致する構成要素を検索する。なお、図1の情報検索装置の構成は、構成要素格納手段は1つだけ有しているが、例えば1つは所定の場所、他はLANやインターネットで接続された遠隔の場所、のように複数備えるようにしてもよい。このときは、各格納手段に対して順次検索を行う。
【0045】
格納された構成要素ファイルの全てについて検索が終了したとき、検索された構成要素の構成要素データを到達キー情報作成手段6に渡す。
【0046】
到達キー情報作成手段6は、渡された構成要素データに基いてHTMLファイルを作成する。
【0047】
このときHTMLファイルは、ア)検索された構成要素を表示し、該構成要素から元情報ファイルへの結合を可能にする、イ)検索された構成要素を元情報ファイル上で区別可能(例えば点線枠で囲む)にする、ウ)検索された構成要素の元情報ファイルの識別番号を表示し、該識別番号から構成要素が抽出された元情報ファイルへの結合を可能にする、エ)検索された構成要素が存在する元情報ファイルの格納ファイルを識別可能にする、オ)検索された複数の構成要素を一覧表示する、オ)構成要素の識別情報を一覧表示する、等のように作成することができる。作成されたHTMLファイルは、情報ファイル表示手段9に渡される。
【0048】
次は、検索された構成要素を表示し、該構成要素から元情報ファイルへの結合を可能にするHTMLファイルの例である。
Figure 0004278134
【0049】
このHTMLファイルは、<a href="001.html">で、001.HTMLへアクセス(リンク)できるようになる。この001.HTMLは、後述する図6に示される元情報ファイルを指す。<a>〜</a>で囲まれた部分に書かれたものをクリックすることにより、href=に書かれた先にリンクできるようになる。また<img src="001.jpg">で、検索キーである「図」を元情報ファイルから切り出し表示できるようになる。<a href="001.html">の後に書くことにより、表示された「図」(図5の図形11)をクリックすることにより001.htmlが開くようにすることができる。<br>は改行タグである。
【0050】
前記HTMLファイルの作成は、構成要素ファイル単位即ちページ単位の構成要素の検索が終了する毎にHTML作成ソフトウエアにより自動的に作成される。
【0051】
情報ファイル表示手段9は、取得したHTMLファイルをWWWブラウザにより解釈し、検索された構成要素に係るウエブ形式の画面を構成、表示する。
【0052】
なお、HTMLファイルを作成する代わりにXMLファイルを作成してもよい。
【0053】
図4は、以上述べた検索処理のフロー図であり、図4を参照して検索キーを「図」とする場合の処理手順を説明する。ユーザーは図3の入力画面から検索キーとして「図」をポイントすると、ポイントされた「図」は、検索キー取得手段6に取得され(S11)、そして構成要素検索手段7に渡される。構成要素検索手段7は、構成要素格納手段3にアクセスし、構成要素ファイルの1つを選択し(S12)、構成要素ファイル中のタグ付き構成要素データを1つずつ参照する(S13)。そして、この構成要素が検索キーと合致するか否かを判断する(S14)。合致した場合(S14,YES)、例えばタグ<area>と</area>が付与された位置情報、タグ<image>と</image>が付与された図等のタグ付き構成要素データを、一旦RAMにセーブする(S15)。
【0054】
到達キー情報作成手段6は、セーブされたタグ付き構成要素データに基いてHTMLファイルを作成する。ここで作成されるHTMLファイルは2種類あり、1つは、元情報ファイルから検索された図が切り取られて表示され、この図をクリックすることにより元情報ファイル全体が表示されるように作成されるHTMLファイル(以下、Aファイルと略称)であり、他の1つは、元情報ファイル中で検索された図であることが区別できるように、図に例えば点線枠を付して表示するように作成されるHTMLファイル(以下、Bファイルと略称)である。
【0055】
即ち、到達キー情報作成手段6は、まず元情報ファイル中の検索された図に、この図を囲む点線枠を重ね合わせて表示するようにするBファイルを作成する。従って、Bファイルには、元情報ファイル名を指定して元情報ファイル全体を表示させる命令と検索された図を囲む点線枠を描画する命令を書くことになる(S16)。
【0056】
次に到達キー情報作成手段6は、検索された図を切り取り表示し、この図をクリックすると元情報ファイル全体が表示されるようにするAファイルを作成する。従って、Aファイルには、切り取る図名を指定して検索された図を表示する命令と、この図をクリックすることによりBファイルを表示させる命令を書くことになる(S17)。Aファイル及びBファイルが作成されると、到達キー情報作成手段6は、構成要素全てのチェックが終了したか否かを判断し(S18)、全てのチェックが終了していないとき(S18,NO)、ステップS13にリターンし再度上述の処理を行う。全てのチェックが終了したとき(S18,YES)、構成要素ファイル全てのチェックが終了したか否かを判断し(S19)、終了していないとき(S19,NO)、ステップS12にリターンし、次ぎの構成要素ファイルを選択し、上述の処理を行う。構成要素ファイル全てのチェックが終了したとき(S19,YES)、情報ファイル表示手段7にAファイルを表示する(S20)。
【0057】
なお、Aファイルは、検索キーに合致した条件を持つ構成要素があれば、複数の構成要素が貼り付けられることになるが、ファイル自体は1つだけ作成される。一方、Bファイルは、複数合致した場合、合致した構成要素の数だけのファイルが作成される。
【0058】
図5は、検索結果の画面を示す図である。図5において、検索キーを図(figure)としたとき、検索された構成要素である4つの図11,12,13,14が貼り付けられたAファイルによる表示画面を示す。これらの図は、リンク要素として構成されているので、マウスでクリックすることによりこの図を含む元情報ファイルを表示させることができる。
【0059】
図6は、Bファイルにより、図5の「図」からリンクして表示される元情報ファイルの画面を示す図である。図5の「図」11をクリックしたとき、その元情報ファイルと共にこのファイル中に存在する「図」11を示す。21は検索された「図」11であることを区別するための点線枠である。
【0060】
ここで点線枠21は、点線枠とする代わりに、画像領域データ(座標値)に基いて、ア)点線枠に相当する位置に矢印や三角形を表示させる、イ)図の周囲を囲む別の図を表示する、ウ)これらを点滅させる、エ)元情報ファイルがカラー画像の場合、図だけをカラー表示し他を白黒表示する、等により区別するようにしてもよい。
【0061】
図7は、検索された4つの図(図7(a))からスクロールにより順次表示される元情報ファイルの画面を示す図であり、図中、最初のクリックで図11を含む元情報ファイルが表示され(図7(b))、スクロール1で図12を含む元情報ファイルが表示され(図7(c))、スクロール2で図13を含む元情報ファイルが表示される(図6(d))。またスクロール3で図14を含む元情報ファイルが表示される(図7(e)。
【0062】
本検索手法によれば、元情報ファイルへの到達キー情報をHTMLファイルにより作成し、検索された構成要素の図を表示し、その図からのリンクにより、その図が検索された図であることを示す点線枠を表示すると共に、点線枠で囲まれた図の元情報ファイルを表示するので、検索件数が多数の場合においても検索結果の情報ファイルへの到達が早くなる。
【0063】
次に、検索語を検索キーとして、検索語を含む文字行を検索する場合について述べる。
【0064】
この場合、図3で示した検索操作パネルの検索語入力欄に例えば「チェンジ」を入力し、検索開始欄をクリックする。このクリックに基いて、図4で説明した検索処理によりテキスト中の「チェンジ」が検索され、「チェンジ」を含む文字行が検索結果として表示される。
【0065】
図8は、この検索結果の画面を示す図であり、図8(A)は、チェンジを含む文字行「ルチェンジしました。」を表示している。しかしながら、ユーザーはこの検索結果を見ただけでは、チェンジという検索語がどのような文章の中で使用されているかは判らない。そこで、到達キー情報作成手段6は、検索した文字行とその前後の文字行を表示させ、この文字行をクリックするとこれら文字行を含む元情報ファイル全体が表示されるようにするAファイルを作成する。従って、このAファイルには、文字行名を指定して検索された文字行及びその前後の文字行を表示する命令と、これら文字行をクリックすることによりBファイルを表示させる命令を書くことになる。
【0066】
図8(B)は、検索結果を当該文字行とその前後の文字行と共に表示する例を示す図であり、ユーザーは、検索された文字行の前の文字行「い先月A123がモデ」と後の文字行「赤いラインが好評」を続けて読むことによりチェンジの使用形態が判るようになる。従って、「チェンジ」をクリックして元情報ファイルを表示させるまでもなく必要とする情報ファイルを検索することができる。また必要に応じ元情報ファイルの表示も可能になる。
【0067】
更に、検索結果の件数が多数になった場合の処理について述べる。
【0068】
このような場合は、元情報ファイルから位置情報に相当する部分の構成要素を切り出すとき、ある程度の時間を要する。検索キーに合致した構成要素の数(検索件数)が多くなり、切り出す構成要素の数が多くなった場合には、検索要求を行ってから検索完了までの時間が長時間に及ぶことになる。
【0069】
そこで、到達キー情報作成手段6が作成するHTMLファイルは、ア)構成要素の検索が終了した時点で、検索件数をカウントし、総検索件数が所定数以上に達したときは、警告を発して構成要素の切り出し処理を中止する。切り出し処理の中止を解除するときは、検索条件を追加して検索件数を減らすようにする。
【0070】
また、イ)所定の検索件数を越えたとき、複数の構成要素の切り出し処理は行わず、1つの構成要素から元情報ファイルへのリンクを可能にするのみで多数の構成要素を表示しないようにする。
【0071】
更に、ウ)切り出した構成要素を間引き処理する、或いはエ)貼り付ける構成要素のサイズを縮小する。更にまた、オ)所定数までは構成要素を表示し、所定数を越えたときは、元情報ファイルへのリンク情報のみにする。
【0072】
更にまた、カ)構成要素を表示することなく、構成要素の元情報ファイルの識別情報、例えばドキュメント番号を表示させる。
【0073】
図9は、検索結果をドキュメント番号で表示する例を示す図であり、図中、検索結果は、検索キーを表としたとき、検索結果が58件であることを表示し、それらをドキュメント番号31で表示している。このドキュメント番号もリンク要素として構成されているので、ドキュメント番号をクリックすることにより、検索結果の表を含む元情報ファイルにリンクして表示することができる。
【0074】
ドキュメント番号を表示することにより、多数ヒットした場合、狭い範囲内に多数の情報を一覧で表示できるので、表を表示するのに比較して視認性が低下することはない。
【0075】
更に次に、情報ファイルの検索したい領域をドラッグするすることによって検索キーを入力する手法について述べる。
【0076】
図10は、ドラッグ入力により検索を行う情報検索装置の構成を示す図であり、図中、位置情報取得手段10は、情報ファイル画面41の所定の領域がドラッグされたとき、その領域の位置情報(座標値)を取得し、該位置情報を構成要素抽出手段2に渡す。
【0077】
構成要素抽出手段2は、取得された位置情報で規定される領域内の情報を取得する。図10の例では、「さいころ」という文字情報がドラッグされ、ユーザーは文字コードがほしいので、ドラッグにより取得された情報を不図示の文字認識手段により認識処理を施し、「さいころ」という文字を取得する。取得した「さいころ」は検索キーとして検索キー取得手段4に渡される。以後の検索処理は、図4の処理フローで説明した処理と同じである。
【0078】
ドラッグにより取得する検索キーは、検索語に限定されることなく、文字色、背景色などであってもよい。また、文字領域以外をドラッグすることにより写真、図、表等を検索キーとすることもできる。
【0079】
本入力手法によれば、ユーザーは、さいころという文字をキー操作により1文字ずつ入力する必要がないので、入力ミスがなくなり、また入力が容易に行える。
【0080】
続いて、本発明の他の実施形態に係る情報検索システムについて説明する。
図11は、本発明の他の実施形態に係る情報検索システムの構成を示す図であり、図中、図1の構成部品と同じ参照番号が付された構成部品は図1の構成部品と同じ動作を行う。
【0081】
図11において、サーバコンピュータ20とクライアントコンピュータ30は、LAN、インターネット等の電気通信回線40を介して接続されている。
【0082】
サーバコンピュータ20は、情報ファイル格納手段1、構成要素格納手段3、構成要素検索手段5、到達キー情報作成手段6を備える。またサーバコンピュータ20は、必要に応じ構成要素抽出手段(図1の構成要素抽出手段2と同じもの)を備え、クライアントコンピュータ20からの指示により、情報ファイル格納手段1から情報ファイルを読み出し、構成要素を抽出し、タグ情報を付与して構成要素格納手段3に格納する。クライアントコンピュータ30は、情報ファイル表示手段(図1の情報ファイル表示手段7と同じもの)を備える。
【0083】
ユーザーは、情報検索を行うとき、クライアントコンピュータ30から検索キーを電気通信回線40を介してサーバコンピュータ20に送信する。検索キーを受信したサーバコンピュータ20の構成要素検索手段5は、構成要素格納手段3にアクセスして検索キーに合致する構成要素を検索する。そして合致した構成要素を到達キー情報作成手段6に渡す。到達キー情報作成手段6は、上述のHTMLファイル(Aファイル、Bファイル)を作成する。サーバコンピュータ20は、検索結果として、作成されたHTMLファイルを電気通信回線40を介してクライアントコンピュータ30に送信する。クライアントコンピュータ30の情報ファイル表示手段は、WWWブラウザでHTMLファイルを解釈して検索された構成要素及び/又はその元情報ファイルをウエブ形式の画面でディスプレイに表示する。
【0084】
本実施形態によれば、クライアントコンピュータは汎用のパーソナルコンピュータを使用し、WWWブラウザを搭載するだけで、情報検索を行うことができる。
【0085】
前記実施形態では、ワードプロセッサ等により作成された文書データは、画像データに変換し、この画像データに基いて登録及び検索を行う処理について記載しているが、情報検索装置の構成を変更することによりワードプロセッサ等により作成された文書データを画像データに変換することなく構成要素の登録及び情報検索を行うことができる。
【0086】
以上、本発明の実施形態に係る情報ファイルの構成要素の登録手法及び検索手法について説明したが、これらの手法をコンピュータにおいて実行させるために、プログラム化し、このプログラムをCD-ROM、DVD-ROM、MO等の任意の記録媒体に記録し、これをコンピュータに読み取らせることで情報検索装置を構成する。これにより任意のコンピュータを容易に情報検索装置として機能させることができる。
【0087】
【発明の効果】
本願発明によれば、(1)検索された構成要素をタグ情報に基いて切り出し、切り出された構成要素から該構成要素の情報ファイルに結合し、また検索された構成要素を情報ファイルの表示画面上で特定するので、検索された結果の件数が多くなる場合においても情報ファイルの検索を迅速に行うことができる。
(2)検索された構成要素をその周辺領域まで広めて表示するので、元情報ファイルを再表示することなく検索結果の内容を把握することができる。
(3)検索キーの入力が容易になり検索を迅速に行うことができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る情報検索装置の構成を示す図である。
【図2】構成要素の登録処理のフロー図である。
【図3】検索キーの入力画面を示す図である。
【図4】情報ファイルの検索処理のフロー図である。
【図5】検索結果の図を表示する画面を示す図である。
【図6】検索結果の図とリンクして表示される元情報ファイルの画面を示す図である。
【図7】検索結果の図からスクロールにより順次表示される元情報ファイルの画面を示す図である。
【図8】検索語による検索結果を表示する画面を示す図である。
【図9】検索結果をドキュメント番号で表示する画面を示す図である。
【図10】ドラッグにより検索キー入力を行う情報検索装置の構成を示す図である。
【図11】本発明の他の実施形態に係る情報検索システムの構成を示す図である。
【符号の説明】
1…情報ファイル格納手段 2…構成要素抽出手段
3…構成要素格納手段 4…検索キー取得手段
5…構成要素検索手段 6…到達キー情報作成手段
7…情報ファイル表示手段 8…ファイル種識別手段
9…ファイル種変換手段 10…位置情報取得手段。

Claims (3)

  1. 情報ファイルから抽出された情報ファイルの構成要素に、該構成要素の属性を表現するタグ情報を付与して構成要素データを作成する手段と、
    タグ情報が付与された構成要素データを格納する手段と、
    情報ファイルを表示する手段と、
    表示された情報ファイルからドラッグによって切り出された構成要素を検索キーとして入力する手段と、
    格納された構成要素データを参照して検索キーに合致する構成要素を検索する手段と、
    検索された構成要素をタグ情報に基いて情報ファイルから切り出す手段と、
    前記切り出された構成要素を含む周辺領域を表示する手段と、
    表示された前記構成要素の選択操作で元情報ファイルを表示する手段と、
    を備えたことを特徴とする情報検索装置。
  2. 報検索装置のコンピュータを、
    情報ファイルから抽出された情報ファイルの構成要素に、該構成要素の属性を表現するタグ情報を付与して構成要素データを作成する手段と、
    タグ情報が付与された構成要素データを格納手段に格納させる手段と、
    情報ファイルを表示手段に表示させる手段と、
    表示された情報ファイルからドラッグによって切り出された構成要素を検索キーとして入力する手段と、
    格納された構成要素データを参照して検索キーに合致する構成要素を検索する手段と、
    検索された構成要素をタグ情報に基いて情報ファイルから切り出す手段と、
    前記切り出された構成要素を含む周辺領域を表手段に表示する手段と、
    表示された前記構成要素の選択操作で元情報ファイルを表示装置に表示させる手段、として機能させるためのプログラム。
  3. 請求項記載のプログラムをコンピュータ読取り可能に記録した記録媒体
JP2003125402A 2003-02-26 2003-04-30 情報検索装置及びプログラム並びに記録媒体 Expired - Fee Related JP4278134B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003125402A JP4278134B2 (ja) 2003-02-26 2003-04-30 情報検索装置及びプログラム並びに記録媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003050147 2003-02-26
JP2003125402A JP4278134B2 (ja) 2003-02-26 2003-04-30 情報検索装置及びプログラム並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2004318766A JP2004318766A (ja) 2004-11-11
JP4278134B2 true JP4278134B2 (ja) 2009-06-10

Family

ID=33478042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003125402A Expired - Fee Related JP4278134B2 (ja) 2003-02-26 2003-04-30 情報検索装置及びプログラム並びに記録媒体

Country Status (1)

Country Link
JP (1) JP4278134B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4576211B2 (ja) * 2004-11-22 2010-11-04 日立オムロンターミナルソリューションズ株式会社 文書情報検索システム
JP2007140803A (ja) * 2005-11-17 2007-06-07 Mitsubishi Electric Corp 文書管理システム
JP2011081030A (ja) * 2009-10-02 2011-04-21 Tani Electronics Corp 検索型カラー暗号化ファイルの構成方法および検索型カラー暗号化ファイルシステム
US8941682B2 (en) 2010-11-08 2015-01-27 Kabushiki Kaisha Toshiba Medical image processing apparatus and information retrieval apparatus
JP5649619B2 (ja) * 2012-06-25 2015-01-07 ヤフー株式会社 情報提供装置、情報提供方法及び情報提供プログラム
JP2021033889A (ja) * 2019-08-29 2021-03-01 コニカミノルタ株式会社 情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
JP2004318766A (ja) 2004-11-11

Similar Documents

Publication Publication Date Title
US8583637B2 (en) Coarse-to-fine navigation through paginated documents retrieved by a text search engine
JP4118349B2 (ja) 文書選択等の方法及び文書サーバ
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
JP4945813B2 (ja) 印刷構造化文書
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US20090123071A1 (en) Document processing apparatus, document processing method, and computer program product
US20070171473A1 (en) Information processing apparatus, Information processing method, and computer program product
US20030229857A1 (en) Apparatus, method, and computer program product for document manipulation which embeds information in document data
US20060085442A1 (en) Document image information management apparatus and document image information management program
US9710524B2 (en) Image processing apparatus, image processing method, and computer-readable storage medium
JP2006350867A (ja) 文書処理装置、文書処理方法、プログラム及び情報記録媒体
JP2000222394A (ja) 文書管理装置及びその文書管理方法並びにその制御プログラムを記録した記録媒体
JP2008146605A (ja) 画像処理装置及びその制御方法
JP3683925B2 (ja) 電子ファイリング装置
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
US8605297B2 (en) Method of scanning to a field that covers a delimited area of a document repeatedly
US20060167899A1 (en) Meta-data generating apparatus
JP2008040753A (ja) 画像処理装置、方法、プログラムおよび記録媒体
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP2008052496A (ja) 画像表示装置、画像表示方法、プログラムおよび記録媒体
JP4278134B2 (ja) 情報検索装置及びプログラム並びに記録媒体
US20100188674A1 (en) Added image processing system, image processing apparatus, and added image getting-in method
JP2011034504A (ja) 文書処理装置、文書処理方法、プログラム及び記憶媒体
JP4480109B2 (ja) 画像管理装置および画像管理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090309

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090309

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120319

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120319

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140319

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees