JPH06282588A - フルテキスト索引の生成、調査、検索および表示方法 - Google Patents

フルテキスト索引の生成、調査、検索および表示方法

Info

Publication number
JPH06282588A
JPH06282588A JP5295986A JP29598693A JPH06282588A JP H06282588 A JPH06282588 A JP H06282588A JP 5295986 A JP5295986 A JP 5295986A JP 29598693 A JP29598693 A JP 29598693A JP H06282588 A JPH06282588 A JP H06282588A
Authority
JP
Japan
Prior art keywords
raster image
full
document
word
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5295986A
Other languages
English (en)
Inventor
Dennis Wodarz
デニス・ウォダ−ズ
Howard C Anderson
ハワ−ド・シー・アンダ−ソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JPH06282588A publication Critical patent/JPH06282588A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 フルテキストの方法は、1ないしそれ以上の
ページを有する複数の文書に含まれる単語から、フルテ
キスト索引の創造を提供する。 【構成】 使用者は、使用者に要求される情報を含む文
書のページ毎のフルテキスト索引を、調査できる。文書
の選択されたページのラスタ画像は記憶装置から検索さ
れ、表示されるラスタ画像の範囲で強調し、使用者から
の要求された情報を表示する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、一般に文書画像の調査
および検索に関し、特に、多くの画像に含まれる情報の
フルテキスト索引の自動生成、および、フルテキスト索
引を調査し、表示画像中の強調された調査用語を有する
選択された画像の検索および表示を行う方法に関するも
のである。
【0002】
【従来の技術および発明が解決しようとする課題】従来
の文書検索システムでは、文書上の記録はスキャナによ
って走査され、文書記録のラスタ画像を生成する。ラス
タ画像は記憶装置に格納される。記憶装置から所望の画
像を検索するために、データベースをアクセスし、調査
することによってを選択される。データベースは、例え
ば、作者,題名,主題,その他の画像についての記述を
キーワードの形で収容し、それらはそれぞれの画像に対
し手動でキー入力される。照会は、キー入力された情報
に関するデータベース・コマンドを使用して行われるの
みで、画像に現われる全ての文字には関係がない。した
がって、使用者は所望の画像を捜し出す情報に制約され
ており、その情報が調査キーワードとして有効でないと
か、調査キーワードが所望の画像と関係がないという理
由のため、所望の画像を見つけ出すことができないおそ
れがある。
【0003】加えて、従来の文書画像検索システムは、
表示されたラスタ画像内でキーワードが強調されないと
いう制約がある。従来のシステムは、ラスタ画像をアス
キー文に変換しなければならず、ラスタ画像中に強調さ
れたキーワードを有する元のラスタ画像表示するよりむ
しろ、アスキー文中に強調されたキーワードを有するア
スキー文を表示しなければならない。しかしながら、ラ
スタ画像中よりむしろアスキー文中のキーワードを強調
することは、元のラスタ画像内のキーワード情報を見つ
け出す能率を低減させる。
【0004】アスキー文によるキーワード調査および表
示の双方において、従来のシステムは、実際の文書画像
がいずれの方法でもその画像上完全な型の原文情報に結
合されていないので、制約される。このように、画像解
析技術の結果や光学式文字認識の能力、高度なフルテキ
スト索引、実際の文書画像による検索の結果をつなげた
文書画像検索という大きな必要性がある。
【0005】
【課題を解決するための手段】本発明において、画像中
に包含する情報からフルテキストの索引を作り出す方法
が提供される。これは、画像についての情報というより
は、むしろ画像そのものに含まれる文字情報に基づいて
画像を調査および検索するための能力を使用者が有する
ことになるので、本発明は従来技術より非常に優れた利
点を持つ。
【0006】このように、本発明の利点は、多くの画像
に含んだ全ての文字情報にわたって調査、照会を開始す
ることである。
【0007】本発明の利点は、また、スクリーン上にち
ょうど紙と同じ高品質の原画像を見ることであり、使用
者が要求する情報を特定する、調査文字列をラスタ画像
内に強調することである。
【0008】本発明の別の面によると、調査文字列に基
づくラスタ画像を見つけだすとともに表示し、表示され
たラスタ画像中に調査文字列を強調する方法が提供され
る。この方法は、コンピュータ・プログラムの一部とし
てコンピュータによって実行される。多くの異なった文
書は、走査システムによって走査され、一致するラスタ
画像を生成する。そのラスタ画像は、記憶装置に格納さ
れる。ラスタ画像はまた、光学式文字認識のアルゴリズ
ムによってアスキー文字ファイルに変換される。アスキ
ー文字ファイルには、単語が文書のどのページに位置す
るかについての情報を含む。フルテキスト索引は、その
単語および文書のどのページにその単語が現われるかに
ついての関連情報を格納することによって生成される。
使用者は、フルテキスト索引に収納された情報について
フルテキスト調査を行い、使用者の要求する情報を含む
文書を見つけ出し、検索することができる。照会の結果
ページ・ラスタ画像を個別に調査文字列またはフルテキ
スト索引から検索された情報に基づいて用語が強調され
る。
【0009】
【実施例】基本のハードウェア構成を図1に示す。メイ
ン・コンピュータ5はスキャナ6,CRT表示装置7お
よびキーボード8に結合される。メイン・コンピュータ
5は、また、ネットワーク9を介しコンピュータ,表示
装置,キーボードで構成されるユニット10に接続され
る。スキャナ6は、メイン・コンピュータ5の制御下で
動作し、文書からページ情報を受信し、ページを走査
し、ページのラスタ画像を導出する。スキャナ6は光学
式文字認識(OCR)のアルゴリズムを実行し、文字や
単語をラスタ画像内に定める。OCRアルゴリズムを実
行した結果、アスキー文字ファイルは、文字から認識さ
れた単語と、それぞれの単語がラスタ画像の中のどの位
置にあるかという情報を含む。ラスタ画像とアスキー文
字ファイルは共にコンピュータ5によって受信され、文
書のID番号とページ数が、メイン・コンピュータ5に
よって付与される。メイン・コンピュータ5は、アスキ
ー文字ファイルからフルテキスト索引を生成する。フル
テキストの一覧表は、全単語の画像としての文字情報、
または、スキャナ6の走査によって得られた文書のそれ
ぞれのページの全単語によって構成される。使用者は、
フルテキスト索引を使って使用者の要求する情報が掲載
される文書のページを見つけ出すことができる。
【0010】メイン・コンピュータ5を遠隔またはロー
カル・ユニット10に接続するネットワーク9は、たと
えば、ローカル・エリア・ネットワーク(LAN)のよ
うなインターフェースである。一旦、フルテキスト索引
が生成され、メイン・コンピュータ5の記憶装置に格納
されると、使用者は任意のユニット10に対して、文書
のページの調査要求を入力することが可能となる。調査
要求は、任意のユニット10からネットワーク9を介し
て、メイン・コンピュータ5に対して送出される。メイ
ン・コンピュータ5はフルテキスト索引の調査を行い、
要求された文書のラスタ画像を検索し、調査要求を送出
したユニット10の使用者に送り返される。使用者によ
って選択された文書のページのラスタ画像は、受信ユニ
ット10に表示される。使用者はフルテキスト索引をキ
ーボードを介してメイン・コンピュータ5でローカルに
調べ、調査の結果を表示装置7に表示することができ
る。
【0011】本発明で用いられるコンピュータ5および
ユニット10はUNIXTM環境で動作するSUN Sp
arcstationTMで商業的に使用される。スキャ
ナ6もまた、例えば、商業的にはXEROX社製の装置
が使用される。本発明では、ほとんど商業的に使用可能
なスキャナ,コンピュータ・システム,ネットワーク構
成により実行される。
【0012】図2は、本発明で使用されたソフトウェア
機能を搭載したハードウェアの相互結合能力を示す。簡
単には、索引構成器14は範囲が定められたアスキー文
字ファイルをスキャナ6から受信し、フルテキスト索引
16を生成する。スキャナ6によって導出されるラスタ
画像はコンピュータ5の記憶装置18に格納され、デー
タベース管理システム(DBMS:databasemanagement
system)として使われる。フルテキスト索引16は、
フルテキスト調査機能20によって使用され、使用者が
キーボード8を介してコンピュータ5に入力する調査用
単語に基づいてラスタ画像を配置する。表示機能22
は、記憶装置18からラスタ画像を配置し、検索を行
い、CRT表示装置7上にラスタ画像を表示する。表示
機能22は、調査用単語のみ、または、調査用単語を含
んだ単語ブロック、例えば、文節が強調され、表示され
る範囲の画像内で調査用単語を強調する。
【0013】図2において、データベース管理システム
19は、スキャナ6からのラスタ画像を受信する。DB
MS19は、それぞれのラスタ画像を文書IDおよびペ
ージ番号のそれぞれを割り当てて、データベースまたは
記憶装置18に格納する。文書IDはシステムを走査す
るためにそれぞれの文書に固有の整数が割り当てられ、
ページ番号は走査される文書のページである。この情報
は、データベース18から選択されたラスタ画像を検索
する場合に重要である。本発明で使用されるDBMS1
9は、例えば、SYBASE社製のSYBASEが商業
的に使用可能である。
【0014】索引構成器14は、図2に示すようにスキ
ャナ6から範囲が定められたアスキー文字ファイルをD
BMS19から文書IDおよびページ数を受信する。コ
ンピュータ5は、別々のアスキー文字ファイルを別々の
各文書ページ毎に受信することができ、あるいは各ペー
ジがコンピュータ5、例えばページ・マーカを通して分
離される限りにおいて、単一のアスキー文字ファイルの
一部を複数のページにすることができる。
【0015】索引構成器14は、図3に示されるフロー
チャートにしたがって、フルテキスト索引を構築、生成
する。それぞれステップ30,32において、DBMS
19からフルテキスト索引構成器14は文書IDおよび
ページ数を受信する。索引構成器14は、ステップ34
においてアスキー文字ファイルの第1の単語を読み取
り、ステップ36において、ラスタ画像内でのその単語
の位置および、例えば、長方形である、というような幾
何学的な数値を決め、単語の周りを枠で囲む(例えば、
境界限定ボックス情報)。
【0016】第1の単語およびそれに続く単語はラスタ
画像の文字中には位置された単語に対し、次に示す形式
で受信される: word,x,y,length,width ASCII ファイル形式 A "word"は、ラスタ画像中の文字に現われる実際の単語を
示す。xおよびyは、ラスタ画像内の共通の起点からその
単語を囲む境界ボックスが始まるところまでの距離を示
す。境界ボックスは、単語を囲む長方形である。長さと
幅は、x,y点からの距離を指定し、境界ボックスの寸
法を決定する。この情報は、表示されたラスタ画像中の
単語を、強調するために用いられ、その単語を取り囲む
長方形の、位置および寸法をラスタ画像中に、指定する
ために重要である。
【0017】100ページ目に位置する"sky"という単
語に対して、アスキー文字ファイルによって、提供され
た境界ボックスの例が図4に示される。図4に示される
ように、"sky"という単語を囲む境界ボックスの上部左
手の角は、共通の起点Oからxおよびyの距離がある。
共通の起点Oは通常各ページの上部左手の角である。"s
ky"を囲む境界ボックスの寸法は、ポイントx,yからの"
長さ"および"高さ"で与えられる。"The sky is fallin
g"という句の場合、対応するx , y , 長さおよび高さ
は、文章中の各単語を囲む境界ボックスを詳細に指定す
るために与えられる。
【0018】好適な例として、本発明のもとで動作する
ASCII(アスキー) ファイル形式 Aの他の異なった形を
あげる。その形式は、光学式文字認識システムの出力形
式に依存する。例えば、別のファイル形式として下記に
示す例がある: word, start x, start y, end x, end y ASCII ファ
イル形式 B ASCII ファイル形式 BからASCII ファイル形式 Aへは、
比較的簡単に変換できる。通常行われる技術では、どの
ようなアスキー形式を受信しても好適な実施例であるAS
CII ファイル形式 Aに変換できる。この例としては、st
art xおよびstart yは、それぞれxおよびyであり、"長
さ"はend xからstart xを減じたものであり、"高さ"はe
nd yからstart yを減じたものとなる。
【0019】ある光学式文字認識アルゴリズムは、各単
語を囲む境界ボックスの位置および範囲を指定するが、
あるOCRアルゴリズムは、例えば、文章や段落のよう
なより大きな情報ブロック上の単語情報のみを与える。
図5は、別の段落を囲む別の境界ボックスを示す。した
がって、使用者が調査文字列として"liberty"と入力す
る場合、その他の単語と同様に"liberty"という単語を
含む境界ボックスの段落は強調される。図3に示すよう
に、各単語が好適な形式に変換されると、文書ID,ペ
ージ数,単語および境界ボックス情報(例えば単語の位
置およびその単語を囲む幾何学的形状の寸法)は、ステ
ップ38でフルテキスト索引16に格納される。このス
テップ38は、フルテキスト索引16の構成、または生
成を実際に行うステップである。文書ID,ページ数お
よび境界ボックス情報は、例えば、ConQuestTM
のような、商業的に利用可能なフルテキスト索引生成の
ためのソフトウェアに供給される。ConQuestTM
のようなプログラムは、データベース、このケースでは
フルテキスト索引利用データベース16から情報を格納
し、検索する方法を提供し、このような機能を実行する
プログラムを再構築する必要はない。フルテキスト索引
16は、最初のページの最初の文書から最後のページの
最後の文書まで、単語単位で生成される。ConQue
stTMは、ほとんどの単語をおよび、対応する文書I
D,ページ数,および境界ボックス情報を格納するが、
あらゆる"ストップ・ワード"は、フルテキスト索引16
に格納される際に取り除かれる。例えば、"a","the","a
nd","to","with"のような"ストップ・ワード"は、ほと
んどの文書のページに頻出し、重要な検索を実行する場
合には価値がなく、場所を割いてまで索引を作るほど余
裕はない。
【0020】図3に示すように、最初の文書の最初のペ
ージの最初の単語が、ステップ38においてフルテキス
ト索引16に格納されると、索引作成器14はステップ
40においてページの最後であるかどうかを決める。こ
れは、アスキー文字ファイル中のページ終了印を捜すこ
とによって決められる。仮に、索引作成器14がページ
の最後になければ、索引作成器14はステッップ42に
おいて、次の単語に進み、次の単語に対してステップ3
6,38を実行する。ステップ40,42,36,38
は、特定ページにおける、アスキー文字ファイル中の全
ての単語に対して実行される。
【0021】特定ページの全ての単語が、フルテキスト
索引16に格納されると、索引作成器14はステップ4
4において、フルテキスト索引データベース16中で検
査され、格納されるべきこの特定文書にさらに決める。
索引作成器14は、単一文書のより多くのページに対応
して、より多くのアスキー文字ファイルを受信する。も
し、索引作成器14が、これ以上アスキー文字ファイル
をひとつも受信できないなら、処理すべきページはもは
や存在しない。もし、この特定文書にさらにページがあ
るなら、その時、索引作成器14は、ステップ46にお
いて、DBMS19から次のページ番号を読み込み、上
述した処理を用い、新たな現在ページからの単語をフル
テキスト索引16に格納する。
【0022】もし、これ以上特定の文書から読み込むペ
ージがなければ、索引作成器14は、ステップ48にお
いて、さらに他に読み込む文書があるかどうかを決定す
る。この情報は、スキャナ6が新たな文書の新たなペー
ジを処理するかどうかによって、コンピュータ5によっ
て決定される。もし、別の文書を処理する必要があれ
ば、索引作成器14は、ステップ50において、新たな
文書IDをステップ32において、開始ページ番号を読
み、上述した処理にしたがって単語格納処理を始める。
他方、索引作成器14は、ステップ52において実行を
中断し、フルテキスト索引16を生成する。
【0023】図2に戻って、1つの文書または複数文書
のページの単語が格納され、フルテキスト索引16が生
成されると、使用者は、図6のフローチャートに示され
るステップにしたがって、フルテキスト調査エンジン2
0を使用して調査を開始し、特定文書から具体的な情報
を見つけ出す。
【0024】図6に示すフローチャートは、フルテキス
ト調査エンジン20および表示エンジン22によって実
行されるステップを示す。コンピュータ5は、ステップ
60において、使用者がキーボード8を介して調査文字
列を入力するまで待機する。調査文字列は、単一の単語
または複数の単語から構成される。調査文字列は、調査
パラメータを定義し、選択された文書を見つけ出すため
に使用される。それぞれの単語はConQuestTM
または、同種のフルテキスト索引調査用ソフトウェアに
供給 され、ステップ62で調査を実行する。例えば、C
onQuestTMのようないくつかのフルテキスト索引
調査用ソフトウェアは、同義語を調査し、調査単語が何
を意味するのかを示し、あるいは、調査単語の変形を見
つけ、例えば、調査単語の語尾に"ing"および"s"を有す
ることを調べる。従って、調査の発展性は、フルテキス
ト索引調査用ソフトウェアの能力に依存する
【0025】図6のステップ64において、フルテキス
ト調査エンジン20は、調査文字列を含む文書内におけ
る文書およびページの照合リストを導出する。照合リス
ト(hit list)は、ステップ66において、表示エンジ
ン22を介して表示装置7上に図2に示されるように表
示される。照合リスト中の情報は、調査によって見つけ
られたそれぞれの参照事項別に、文書IDおよびページ
番号から構成される。フルテキスト索引16からの検索
された情報は、文書IDおよびページ番号に対応するD
BMS19を介して、ラスタ画像データベース18に格
納されたラスタ画像を見つけ出すために使用される。照
合リストは、表示される種類で整理される。最も該当件
数を多く含むものが最初にページで表示され、文書の中
で最も該当件数の多いものが一覧にされ、文書の最初に
表示される。
【0026】コンピュータ5は、ステップ68におい
て、使用者がフルテキスト調査エンジン20によって返
送された文書リストから興味のある文書を選択するまで
待機し、表示エンジン22を介して表示装置7に表示さ
れる。使用者が照合リスト上の文書の1つを選択する
と、選択されたページは、ステップ70において、DB
MS19によって最初に提供された文書IDおよびペー
ジ番号を用いてラスタ画像データベース18から検索さ
れ、そのページがCRT表示装置7に表示される。フル
テキスト索引データベース16から検索された境界ボッ
クス情報は、ステップ72で表示エンジン22によって
使用され、例えば、境界ボックス内の画素の色を反転さ
せるようなある方法で、選択された文書ページの照合部
分を強調する。キーボード8の付加的な誘導キーは、次
の照合項目あるいは、前の照合項目へ移動するために提
供される。各照合項目は、文書ID,ページ番号,選択
された単語および対応する境界ボックス情報によって認
識されるので、適切なラスタ画像がラスタ画像データベ
ース18から検索され、表示されたラスタ画像中に強調
された調査文字列を表示することができる。
【0027】図6において、コンピュータ5は、使用者
がステップ60で新たな文字列を入力するか、ステップ
68で照合リストから表示された文書の別のページを選
択するまで、待機する。調査文字列が入力されるか、ペ
ージが選択されると、コンピュータ5は適切なステップ
を実行する。
【0028】このように、本発明は多くの画像中に含め
られたフルテキスト索引を生成し、使用者に調査文字列
に対応する画像を求めてフルテキストの検索を許容する
ことは当業者には明白である。さらに、本発明は画像が
表示する際、調査の単語,複数の単語,調査単語群を含
んだかたまりを強調する。したがって、添付の請求項
は、本発明の修正を全て含み、本発明の真の精神と範囲
に属するものである。
【図面の簡単な説明】
【図1】図1は、本発明の好適な実施例としてスキャ
ナ,コンピュータ,キーボード,および,CRT表示装
置のハードウェア構成を示す。
【図2】図2は、本発明の好適な実施例としてフルテキ
スト索引構成器,調査および表示ソフトウェア装置,ラ
スタ画像データベースおよびフルテキストのデータベー
スを示す。
【図3】図3は、本発明の好適な実施例としてフルテキ
スト作成の過程を示すフローチャートである。
【図4】図4は、ある文書のページに記載された”sk
y”という単語の表示をした場合を示す。
【図5】図5は、ある文書のページに記載された段落を
表示した場合を示す。
【図6】図6は、フルテキストの調査および表示装置に
よる実行手順を示すフローチャートである。
【符号の説明】
5 メイン・コンピュータ 6 スキャナ 7 表示装置 8 キーボード 9 ネットワーク 10 ユニット 14 フルテキスト索引作成器 16 フルテキスト索引 18 ラスタ画像 19 データベース管理システム 20 フルテキスト調査エンジン 22 表示エンジン

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 コンピュータ・プログラムの一部として
    コンピュータによって実行され、調査文字列に基づいて
    検索し、ラスタ画像上に表示し、前記ラスタ画像内の前
    記調査文字列を強調する方法であって、複数文書の複数
    ページは光学式文字認識システムによって走査されて前
    記各ページのラスタ画像を生成し、前記ラスタ画像は光
    学式文字認識アルゴリズムによってアスキー文字ファイ
    ルに変換され、前記ラスタ画像はメモリ内に格納され
    る、前記方法は: a)複数の単語,前記ラスタ画像内の前記各単語の位
    置,および前記各単語を囲む幾何学的形状の寸法から成
    るフルテキスト索引を生成する段階; b)前記調査文字列を含むラスタ画像用前記フルテキス
    ト索引を検索する段階; c)前記メモリから前記ラスタ画像を再現する段階; d)前記表示上に前記ラスタ画像を表示する段階;およ
    び e)前記位置および前記寸法に基づいて前記ラスタ画像
    内の前記調査文字列を強調する段階;から構成されるこ
    とを特徴とする方法。
  2. 【請求項2】 コンピュータ・プログラムの一部として
    コンピュータによって実行され、調査文字列に基づいて
    検索し、ラスタ画像上に表示し、前記ラスタ画像内の前
    記調査文字列を強調する方法であって、複数文書の複数
    ページは光学式文字認識システムによって走査されて前
    記各ページのラスタ画像を生成し、前記ラスタ画像は光
    学式文字認識アルゴリズムによってアスキー文字ファイ
    ルに変換され、前記ラスタ画像はメモリ内に格納され
    る、前記方法は: a)複数の単語,前記ラスタ画像内の前記各単語ブロッ
    クの位置,および前記各ブロックを囲む幾何学的形状の
    寸法から成るフルテキスト索引を生成する段階; b)前記調査文字列を含むラスタ画像用前記フルテキス
    ト索引を検索する段階; c)前記メモリから前記ラスタ画像を再現する段階; d)前記表示上に前記ラスタ画像を表示する段階;およ
    び e)前記位置および前記寸法に基づいて前記ラスタ画像
    内の前記調査文字列を含むブロックを強調する段階;か
    ら構成されることを特徴とする方法。
  3. 【請求項3】 コンピュータ・プログラムの一部として
    コンピュータによって実行され、所望の調査文字列に基
    づいて検索し、ラスタ画像上に表示し、前記ラスタ画像
    内の前記調査文字列を強調する方法であって、複数文書
    の複数ページは光学式認識システムによって走査されて
    前記各ページに対応するラスタ画像を生成し、前記ラス
    タ画像は光学式文字認識アルゴリズムによってアスキー
    文字ファイルに変換され、前記ラスタ画像はメモリ内に
    格納され、前記文書の1つに対応する文書IDおよび前
    記ページの1つに対応するページ番号は前記各ラスタ画
    像に関連する、前記方法は: a)前記ラスタ画像内の複数の単語の位置を前記文書の
    各ページのアスキー文字ファイルから決定する段階; b)前記各単語を囲む幾何学的形状の寸法を含む前記各
    単語のための境界ボックス情報を前記アスキー文字ファ
    イルから決定する段階; c)前記各単語およびその位置を前記境界ボックス情
    報,文書IDおよびページ番号とともに格納することに
    よってフルテキスト索引を生成する段階; d)前記調査文字列を含むラスタ画像に対する前記フル
    テキスト索引を検索する段階; e)文書ID,ページ番号を前記位置および前記調査文
    字列を含む発見された前記各ラスタ画像に対する境界ボ
    ックス情報とともに再現する段階; f)前記再現された文書IDを前記表示上に表示する段
    階; g)前記表示を見る使用者によって選択された文書ID
    およびページ番号に対応する前記メモリからラスタ画像
    を再現する段階; h)前記表示上に前記ラスタ画像を表示する段階;およ
    び i)前記位置および前記境界ボックス情報に基づいて前
    記表示されたラスタ画像内の前記調査文字列を強調する
    段階;から構成されることを特徴とする方法。
JP5295986A 1992-11-02 1993-11-02 フルテキスト索引の生成、調査、検索および表示方法 Pending JPH06282588A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US97100392A 1992-11-02 1992-11-02
US971003 1997-11-14

Publications (1)

Publication Number Publication Date
JPH06282588A true JPH06282588A (ja) 1994-10-07

Family

ID=25517807

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5295986A Pending JPH06282588A (ja) 1992-11-02 1993-11-02 フルテキスト索引の生成、調査、検索および表示方法

Country Status (2)

Country Link
EP (1) EP0596247A3 (ja)
JP (1) JPH06282588A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08180068A (ja) * 1994-12-26 1996-07-12 Canon Inc 電子ファイリング装置
JP2007507043A (ja) * 2003-09-23 2007-03-22 アマゾン ドット コム インコーポレイテッド 対応する物理的なテキストのユーザ所有権に基づく、強調能力とテキストの電子画像に対するアクセスとを有するパーソナル化サーチ可能ライブラリ
JP2010286882A (ja) * 2009-06-09 2010-12-24 Mitsubishi Electric Corp プログラマブル表示器、ドキュメント表示方法とその方法を実行するプログラムおよびそれを記録した記録媒体、並びにキーワード位置情報作成方法とその方法を実行するプログラムおよびそれを記録した記録媒体

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69425607T2 (de) * 1993-05-07 2001-04-19 Canon Kk Selektive Einrichtung und Verfahren zur Dokumentenwiederauffindung.
SE520533C2 (sv) * 2001-03-13 2003-07-22 Picsearch Ab Metod, datorprogram och system för indexering av digitaliserade enheter
ES2201871B1 (es) * 2001-08-30 2005-05-16 Cultura Y Solidaridad, S.L. Sistema de busquedas bibliograficas mediante consultas de indices.
WO2003040878A2 (en) 2001-11-02 2003-05-15 Siemens Medical Solutions Usa, Inc. Patient data mining for clinical trials
US7457731B2 (en) 2001-12-14 2008-11-25 Siemens Medical Solutions Usa, Inc. Early detection of disease outbreak using electronic patient data to reduce public health threat from bio-terrorism
US7680086B2 (en) 2002-09-09 2010-03-16 Siemens Canada Limited Wireless local area network with clients having extended freedom of movement
WO2005031526A2 (en) 2003-09-23 2005-04-07 Amazon.Com, Inc. Personalized searchable library based on user ownership
US7496560B2 (en) 2003-09-23 2009-02-24 Amazon Technologies, Inc. Personalized searchable library with highlighting capabilities
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
FR2870616B1 (fr) * 2004-05-24 2006-09-15 Immanens Sas Procede dynamique de mise en ligne automatique d'extraits de fonds de documents papiers
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
JP4911530B2 (ja) * 2005-05-31 2012-04-04 サイエンスパーク株式会社 監視システム、システム用のプログラム、及びプログラムを記録した記録媒体
CN102369724B (zh) 2009-02-18 2016-05-04 谷歌公司 自动捕获信息,例如使用文档感知设备捕获信息
CN102349087B (zh) 2009-03-12 2015-05-06 谷歌公司 自动提供与捕获的信息例如实时捕获的信息关联的内容
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US10943676B2 (en) 2010-06-08 2021-03-09 Cerner Innovation, Inc. Healthcare information technology system for predicting or preventing readmissions

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0424803B1 (de) * 1989-10-24 1997-07-16 FROESSL, Horst Verfahren zur mindestens teilweisen Umsetzung von Bilddaten in Text mit Vorbereitung für nachfolgende Speicherung oder Weiterverarbeitung
JPH03260768A (ja) * 1990-03-09 1991-11-20 Fuji Electric Co Ltd キーワード強調表示装置
US5109439A (en) * 1990-06-12 1992-04-28 Horst Froessl Mass document storage and retrieval system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08180068A (ja) * 1994-12-26 1996-07-12 Canon Inc 電子ファイリング装置
JP2007507043A (ja) * 2003-09-23 2007-03-22 アマゾン ドット コム インコーポレイテッド 対応する物理的なテキストのユーザ所有権に基づく、強調能力とテキストの電子画像に対するアクセスとを有するパーソナル化サーチ可能ライブラリ
JP4782683B2 (ja) * 2003-09-23 2011-09-28 アマゾン ドット コム インコーポレイテッド 対応する物理的なテキストのユーザ所有権に基づく、強調能力とテキストの電子画像に対するアクセスとを有するパーソナル化サーチ可能ライブラリ
JP2010286882A (ja) * 2009-06-09 2010-12-24 Mitsubishi Electric Corp プログラマブル表示器、ドキュメント表示方法とその方法を実行するプログラムおよびそれを記録した記録媒体、並びにキーワード位置情報作成方法とその方法を実行するプログラムおよびそれを記録した記録媒体

Also Published As

Publication number Publication date
EP0596247A2 (en) 1994-05-11
EP0596247A3 (en) 1994-10-12

Similar Documents

Publication Publication Date Title
JPH06282588A (ja) フルテキスト索引の生成、調査、検索および表示方法
US20210286852A1 (en) User Interfaces for a Document Search Engine
US6169998B1 (en) Method of and a system for generating multiple-degreed database for images
US10528650B2 (en) User interface for presentation of a document
EP0539106B1 (en) Electronic information delivery system
US8825592B2 (en) Systems and methods for extracting data from a document in an electronic format
KR100280588B1 (ko) 화상 데이터 관리방법 및 화상 데이터 베이스
US20020099685A1 (en) Document retrieval system; method of document retrieval; and search server
JPH11161681A (ja) 検索結果を表示するための装置および方法、並びに、検索結果を出力するために一連の命令を記録したコンピュータ読み取り可能な記録媒体
JPH0773190A (ja) ペンベースコンピューターシステム用絵文字ネーミング
JPH10154229A (ja) 文書保管システムを動作させるコンピュータ実行方法、自動文書保管システム、文書照会システム、および、ディジタル複写機を動作させる方法ならびにディジタル複写機
JPH0793374A (ja) 文書検索方法及びシステム
US20050097080A1 (en) System and method for automatically locating searched text in an image file
JP2000182064A (ja) ドキュメント処理システム及びインデックス情報獲得方法
JPH07210577A (ja) 情報アクセス装置
JPH0934903A (ja) ファイル検索装置
JPH10162024A (ja) 電子ファイリング方法及び電子ファイリング装置
JPH0991305A (ja) 情報処理方法及び装置
JPH07120355B2 (ja) 画像情報記憶検索方法
JPH09293081A (ja) 画像データベース作成方法及び画像検索方法
JP2773667B2 (ja) 関連情報検索装置
Toselli et al. Large-scale Systems and Applications
JPH09259132A (ja) 情報登録検索装置及びその方法
JPH0438561A (ja) 文書ファイリング装置
JPH0525139B2 (ja)