JPH06342483A

JPH06342483A - 文書ファイリングシステム

Info

Publication number: JPH06342483A
Application number: JP6071820A
Authority: JP
Inventors: Hiromichi Fujisawa; 浩道藤澤; Atsushi Hatakeyama; 敦畠山; Yasuaki Nakano; 康明中野; Junichi Tono; 純一東野; Toshihiro Hananoi; 歳弘花野井
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1994-04-11
Filing date: 1994-04-11
Publication date: 1994-12-13

Abstract

(57)【要約】【目的】文書の本文を直接検索するフルテキストサーチ
機能を有する文書ファイリングシステムを提供する。【構成】文書画像を蓄積するイメージファイル152と、
書誌的事項を蓄積するデータベース151と、文書画像を
文字認識して得られた文字列を蓄積するテキストファイ
ル451と、データベースを検索する第一の検索手段101
と、テキストファイルから読み出された被検索文字列か
ら検索文字列の存在する文書を検索する第二の検索手段
401とを有する。【効果】本文を直接検索することにより検索精度が高め
られる。また、キーワード検索との併用により、全体的
に効率のよい検索を行うことができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は文書を画像としてファイ
リングする文書ファイリングシステムに係り、特にフル
テキストサーチ（本文検索）が行えることを特徴とした
文書ファイリングシステムに関する。

【０００２】

【従来の技術】従来の情報検索方式では主にキーワード
と分類コードに従った検索手段を提供してきた。文献情
報や特許情報は上記の方式を用いてこれまでにデータベ
ース化されている。ここでは主に抄録までを含めた書誌
情報がデータベース化されており、真の情報検索のニー
ズに対してはその一部分の機能しか提供できていない。
すなわち、関連すると思われる文献や特許が見い出され
ても、本文を得るためには大量な書棚の中を探しまわる
必要があった。

【０００３】これに対して、大容量データを記憶できる
光ディスクが登場して、本文をもデータベースに格納し
て、いわゆる原文書情報サービスを行うことが社会ニー
ズとしてクローズアップされて来た。特許庁におけるペ
ーパレス化計画もその流れに沿ったものである。これら
のシステムでは、大量な文書を画像データの形で光ディ
スクに記憶させ、従来のキーワードを主体として情報検
索技術が適用されている。

【０００４】しかしながら、上記従来の情報検索技術で
は、数１０件から数１００件のオーダまでしか絞り込む
ことが出来ず、更に１／１０程度まで関連文書を絞り込
む手法が求められている。一つの方法は、画像データと
して貯えられている原文書（本文）を端末上に呼び出し
て、検索者が目で読む方法である。この方法は原理的に
は確実であるが、最大数１００件の文書を画像データの
形式で読み出すのは、データ量が多く、また一件一件目
視により読み取るのでは効率が悪く、実用的には問題で
ある。

【０００５】一方、従来のキーワードや分類コードによ
る方法は、分類体系自体が時間とともに変化するため常
に更新する必要があり、本質的な問題点を抱えている。
例えば、既に分類してしまった大量な文書を、後になっ
て分類体系を変更する必要が発生したとして、変更する
ことは実際上不可能である。科学技術の進歩を記録する
ところの文献や特許は本来は従来の分類体系に乗らない
概念が提示されていてこそ新規なものであり、かつ価値
があるものである。この意味において、本来概念を表わ
すところのキーワードや分類体系は、前もって定義して
おくことは不可能であり、情報検索方式として本質的な
課題である。

【０００６】上記のような理由から、文書の本文を直接
参照して内容検索する方法が要望されている。本文を参
照する方法によれば、文書をデータベースに登録する際
には重要とは思われなかった概念で、かつ検索する時点
において新しい概念と認知されている語彙を用いて検索
することが可能となる。あるいは、登録する際のインデ
クサ（索引を付与する専任者）という「フィルタ」を介
さずに重要な文書を直接探し出すことが可能となる。

【０００７】このような要求を満すためには、画像デー
タとしての文書から、文字パターンを抽出して本文を文
字コードに置き換える必要があり、このためには文字認
識の技術を適用すればよい。しかしながら、文書ファイ
リングの対象となる文書は、たとえ印刷文書であったと
しても、印字品質や活字（フォント）の種類の多様性な
どから、従来の文字認識技術では完全な文字認識を期待
することは難しい。従来の文字読取装置では、誤認識や
認識不能（拒絶）などの不完全な認識はオペレータによ
りチェックと修正を行う方法を取っていた（例えば、橋
本著「文字認識概論」オーム社，１９８２年，pp.１５
３−１５４参照）。従って、仮に認識精度が極めて高く
ても、文書の量が膨大である場合には、本文を認識させ
た結果を人間がチェックする方法は現実的ではなく、本
文検索が可能な画像主体の文書ファイリングシステムは
現在までに実現されていない。

【０００８】

【発明が解決しようとする課題】本発明の目的は、上記
のような問題点を解決することにより、文書の本文を直
接参照して検索するところのフルテキストサーチ機能を
有する文書ファイリングシステムを提供することにあ
る。

【０００９】

【課題を解決するための手段】本発明は、上記の目的を
達成するために、文書を画像データとして記憶するとと
もに、該文書の本文またはその一部を文字コード列とし
て記憶すること、更に、該文字コード列を曖昧性を残し
た文字認識結果を許容し、該文字列のストリングマッチ
ングを行うことにより本文検索を可能とすることを特徴
とする。

【００１０】

【作用】すなわち、本発明による文書ファイリングシス
テムは、文書などを画像として扱うことの利点を損うこ
となく、同時に画像として扱うことの不利な点を改善す
るものである。すなわち、画像として扱うファイリング
システムでは従来、主に別途付与したキーワードや書誌
的事項にもとづいて検索することが主であったが、本発
明によれば、更に中に書かれている文章を参照して検索
することが出来る。

【００１１】例えば、「ホンブンケンサク」と検索用端
末から入力することにより、検索対象の文書群の中のあ
る文書の本文中に例えば「……文字認識による本文検索
……」と書いてある文書があれば、同文書を同定・抽出
して、端末上に同文書を画像のまま表示することが出来
る。

【００１２】画像として表示することにより、文字認識
により情報が失われることを避けることが出来る。一般
に、文字認識では、各文字の位置、大きさ、フォントな
どの２次的情報は正規化の過程で捨ててしまう。したが
って、ゴシック体であったか明朝体であったか、どの大
きさかは認識後では分らなくなり、重要性を表わすため
にゴシック体にしたり、大きなフォントにしたりして印
刷したことの意味がなくなってしまう。音声でいえば、
音声認識してしまうと、誰が話したのか、とか、その時
の感情とかは、分らなくなってしまうことに対応する。
文書の場合においても、読取る人間にとっては、これら
２次的な情報も重要であり、単に文字認識してしまうの
は得策ではない。

【００１３】本発明システムの第一の原理は、以上述べ
たように、文書を画像として記憶する一方、文字の部分
は文字コードとして重ねて記憶させている点である。

【００１４】さて、文字の部分を画像から抽出して文字
コードに置換えるには文字切り出しと文字認識を行うこ
とが必要である。これには従来技術を用いることが可能
であるが、１００％の認識率を期待することはできな
い。

【００１５】本発明システムの第二の原理は、文字認識
の結果、判定不能になった文字については、上位に残っ
た文字カテゴリーを集合として扱って、認識結果文字列
の中にそのまま残す点にある。

【００１６】たとえば、「……文字認識による本文検索
……」を認識した場合、本システムでは「……文〔字
学〕認〔識織〕による〔本木〕文検索……」と認識結果
を表わす。ここで〔〕で囲んだ文字はある一つの文字
パターンに対する認識結果であり、「〔識織〕」は
「識」は「織」かのどちらかであることを意味する。従
来は、必ずオペレータの介入により判定不能の文字は正
しい文字コードに置き換えて、文字認識結果（ＯＣＲの
出力）としていた。ここで記号「〔」，「〕」は特
殊記号であり、一般にテキストに表われないコードを割
り当てるものとする。単に表示のときに、分りやすいよ
うに記号〔，〕を用いるものとする。

【００１７】本発明を用いたシステムでは、結局図１に
示すように、文書１０は２０で示すような記号式に変換
される。同記号列はＬＩＳＰ言語などで用いているＳ式
と呼ばれる記法に従う。文書（画像）１０を記号式２０
に変換する過程を、文書理解ないしは文書認識という。
同記号式は、およそ次のような意味を表わす。すなわ
ち、ドキュメント＃９９であり、そのクラスは「論
文」，ＶＯＬ＝５，ＮＯ＝７，タイトルは“文〔字学〕
認〔識織〕……”，著者名は“山田〔太大〕郎”，本文
は“……自動文字読み取〔りリ〕によるフルテキスト
〔ト卜〕サ〔ー一−〕チ……”などを意味する。ここで
〔りリ〕は平仮名と片仮名，〔ト卜〕は片仮名と漢字，
〔ー一−〕は片仮名の長音，漢数字の１、およびマイナ
ス記号〕を意味する。文字認識において曖昧なものの中
には、上記の例のように、殆んど通常では対処しようの
ない文字パターンも多い。

【００１８】さて、検索に当っては、ユーザはローマ字
又は片仮名で「ホンブンケンサク」と入力する。システ
ムではこれを仮名漢字変換する。一般に同音異義語があ
り、この場合、「ホンブン」は「本文」が「本分」かの
どちらかであり、「ケンサク」は「検索」か「献策」の
どちらかである。本方式ではこのような曖昧性を自動的
に扱うことができる。

【００１９】同様に、「モジヨミトリ」と入力した場合
には、送り仮名に曖昧性（２つ以上の可能性）がある。
「文字読取」，「文字読取り」，「文字読み取り」があ
り、未知の本文にどのような送り仮名が振られているか
分らないため、原理的にはすべての可能性を扱う必要が
ある。

【００２０】更にまた、「モジニンシキ」と入力した場
合は、仮名漢字変換では一意に「文字認識」が得られる
が、「文字認識」は場合によっては「文字読み取り」と
言われることがあるので、同義語として「文字読み取
り」も検索キーとして自動的に選択することも望まれ
る。この場合、上記の例と同様に複数の送り仮名の可能
性も列挙する。ここで、「文字認識」の同義語に「文字
読み取り」が上っても、「文字読み取り」の同義語には
「文字認識」が上らないという非対称性が一般に求めら
れるが、本方式でも満されている。

【００２１】結局、被検索対象文章の中で見い出すべき
複数の部分文字列は、図２で示す如く有限状態オートマ
トンとして表現される。一方、図１の例で示した被検索
文章の文字列も同様に、図３のオートマトンで表現され
る。本発明では、検索キー（部分文字列）および被検索
文章双方ともに曖昧性（複数の可能性；一意に決定でき
ない要素が存在する状況）が存在する場合のテキストサ
ーチ機能を提供しており、これが第三の原理である。

【００２２】複数の部分文字列をそれらの有限状態オー
トマトンを用いて、曖昧性のないテキストから探し出す
方法としては文献〔Ａ．Ｖ．Ａho，et al.“Ｅfficient
Ｓtring Ｍatching：Ａn Ａid to Ｂibliographic Ｓe
arch，”Ｃommunications ofthe ＡＣＭ，Ｖol.１８，
Ｎo.６，１９７５〕による方法が知られている。

【００２３】

【実施例】以下、本発明を実施例にもとづいて説明す
る。図４は本発明の一実施例である文書ファイリングシ
ステムの構成図である。同システムは、系全体の制御と
データベース機能を提供する制御サブシステム１００，
文書などの入力とファイルへの登録を行うための入力サ
ブシステム２００，文書を認識するための文書認識装置
３００，高速なテキストサーチを行うところのテキスト
サーチサブシステム４００，検索を行うための端末サブ
システム８００とから成っている。

【００２４】各サブシステムの構成と動作の流れを以下
に詳細に説明する。入力サブシステム２００は、同サブ
システムを制御するＣＰＵ（中央処理装置）２０１，主
メモリ２０２，システムファイル２５１，端末２０３を
基本部として持つ。端末２０３からの操作によりサブシ
ステムを制御し、文書２２０の各ページの画像をスキャ
ナ２２１により光学的に読み取り、ディジタル化した画
像データをバス２１０を介してビデオメモリ２２４にま
ず蓄える。同画像データは次に画像処理装置（ＩＰ）２
２３により冗長性圧縮を行って、ＭＨ（Ｍodified Ｈuf
fmann）符号あるいはＭＲ（Ｍodified Ｒead）符号に変
換され、再度ビデオメモリ２２４の別なエリアに戻され
る。

【００２５】入力された文書画像は端末２０３上に確認
のため表示されると同時に、オペレータは表示された画
像を見ながら書誌的事項などを入力することが出来る。
後述するように、定形文書の書誌的事項は自動的に文書
理解により読み取ることが出来るが、不定形文書の書誌
的事項や、紙面上に記入されていない情報は人間が入力
する必要がある。例えばユーザが定義した文書内容の分
類コードや、紙面上にないキーワードの入力はオペレー
タに依存せざるを得ないのは当然である。また、各文書
の価値や位置付けは、同文書の利用者が独自に付す必要
があり、これらも端末２０３より入力することができ
る。入力された該書誌的事項などのデータは、ビデオメ
モリ２２４内の画像データ（圧縮されたデータ）と関連
付けられて、主メモリ２０２に格納される。

【００２６】ここで、各文書には固有番号（ドキュメン
トＩＤ）が付され、同文書固有番号をキーとして画像デ
ータと書誌的事項等が引出せるようにメモリには記憶さ
れる。文書固有番号は、例えば、サブシステムＩＤ
（‘ＩＮＳＹＳ０１’など）と日付・時間を表わす文
字列の連結で表わすことができる。例えばＩＮＳＹＳ０
１．８５０５０１．１３２４３７は１９８５年５月１
日，１３時２４分３７秒に入力サブシステムＩＮＳＹＳ
０１より入力された文書であることを表わす。システム
の応用によっては入力時刻が重要な場合があり、タイム
スタンプとしても機能する。

【００２７】さて、所定の量の文書がサブシステム２０
０に一定量溜るか、あるいは端末２０３からの所定の指
令があると、割込信号がバスアダプタ１７１へ送られ
る。

【００２８】制御サブシステム１００は該割込信号をセ
ンスして、入力サブシステム２００のメモリ２０２内の
所定のアドレスを読み取る。これにより、入力サブシス
テムの要求の内容を判断することが出来る。

【００２９】入力した文書のデータベースへの登録の要
求の場合には次のように動作する。中央処理装置（ＣＰ
Ｕ）１０１は主メモリ１０２内の所定のプログラムに従
って、入力サブシステムに一時的に貯えられた文書（複
数）の固有番号を知り、更にそれらに関する書誌データ
（書誌的事項）と画像データの記憶アドレスを知る。

【００３０】制御サブシステム１００は書誌データなど
の記号データを記憶・管理するデータベースファイル１
５１と、画像データを記憶・管理するイメージファイル
１５２を有する。

【００３１】入力サブシステム２００から読み出された
書誌データは、図５に示す表形式のデータベース（ファ
イル１５１内に格納してある）に新規レコードとして書
込まれる。上記表は、ＭＡＩＮ−ＤＩＲ（メインディレ
クトリ）なる名称をもち、以下のようなカラム（データ
欄）を有する。

【００３２】・Ｄ−ＯＣ＃：本システム内の登録文書に対する通番・ＩＤ＃：入力サブシステムで付した文書固有番号・ＮＰ：該文書を構成しているページ数・ＴＩＴＬＥ：表題（文字列）・ＡＵＴＨＯＲ：著者名（繰返し、すなわち複数データ
を許す。）・ＣＬＡＳＳ：文書の分類，種類などを表わす符号・ＰＵＢＬ＃：出版物のシステム内登録番号（詳細は図
７に示す表で管理する。）・ＶＯＬ，ＮＯ，ＰＰ：巻，号，頁・ＫＷＤ：複数のキーワード・ＡＢＳ：文字コード列（テキストデータ）として
表わされている抄録のテキスト固有番号・ＴＸＴ：文字コード列としての本文の固有番号・ＩＭＧ：画像データの固有番号。各画像データは
頁毎に管理されるので、複数のイメージ固有番号が記録
される。

【００３３】書誌データの登録では、上記カラムの内、
書誌データに関係する一部データのみが新規に書き込ま
れる。

【００３４】次に、各文書を構成する頁の画像が入力サ
ブシステムの所定の記憶領域から制御サブシステム１０
０へ読み出され、イメージファイル１５２の空領域へ順
次記憶される。同時に、各画像（頁単位）には画像固有
番号（ＩＭＧＩＤ）が振られる。また、画像データを格
納したファイルのボリューム番号（ＶＯＬＳＥＲ）、フ
ァイル装置番号（ＵＮＩＴ）、同ファイルにおける格納
物理アドレス（ＰＨＹＳＡ）、同ファイルに占めた記憶
領域の長さ（ＳＬＥＮＧ）などを、図６（ｂ）および図
８に示すような表に書き込む。新規に振られた該画像固
有番号ＩＭＧＩＤは表ＭＡＩＮ−ＤＩＲ（図５）のＩＭ
Ｇカラムにも記録される。

【００３５】ここで、図６（ｂ）に示す表ＩＭＧ−ＬＯ
Ｃは、イメージファイル１５２が、複数の駆動装置、あ
るいは複数のボリュームから構成されているときに特に
有効であり、各画像の所在を管理する。当然、オペレー
タによるボリュームのアンマウントやマウントの動作毎
に更新される。

【００３６】また、図８は、イメージファイル１５２の
各ボリューム毎に設けられたディレクトリであり、以下
のカラムを有す。

【００３７】・ＩＭＧＩＤ：画像固有番号・ＰＮ：文書内の頁通番（１〜ｎ）・ＰＨＹＳＡ：ボリューム内の物理アドレス・ＳＬＥＮＧ：記録長（例えばセクタ数）・ＣＯＤＥ：画像圧縮符号名・ＳＩＺＥ：画像サイズ（画素数）・ＤＯＣ＃：文書通番などである。また、同図において、レコード１５７のカ
ラムＰＨＹＳＡのデータはイメージファイル内のイメー
ジデータ領域１５６内での該画像データ１５８の先頭ア
ドレスを示している。

【００３８】さて、以上の動作が終了すると、本システ
ムは書誌的事項とキーワードからの検索が端末群８００
から行えるようになる。

【００３９】検索用端末から入力された検索条件はゲー
トウェイ１７５を経由して制御サブシステム１００のＣ
ＰＵ１０１へ転送される。メモリ１０２の所定の検索処
理プログラムに従って、データベースファイル１５１内
の表ＭＡＩＮ−ＤＩＲ１５３（図５）の検索が行われ
る。表１５３の主要なカラムに対してはインデキシング
（ハッシングや逆ファイルなどの検索高速化のための手
段）が施されていることは言うまでもない。

【００４０】検索処理の結果として、表１５３（図５）
からＤＯＣ＃のリストと、画像固有番号ＩＭＧＩＤのリ
ストが作られメモリ１０２の所定の領域に記憶させる。
検索用端末から表示要求を出すと、表ＩＭＧ−ＬＯＣ１
５４（図６（ｂ））と表ＩＭＧ−ＤＩＲ１５５（図８）
を用いて、イメージファイルの中の位置を同定して、画
像データを逐次メモリ１０２上へ読み出す。同時に、読
み出された画像データから順に検索用端末へ転送され、
端末上での指示に従って画面上に表示される。

【００４１】次に本文内容検索に用いるテキストの管理
方法について説明する。メインディレクトリＭＡＩＮ−
ＤＩＲ（図５）で説明したように、各文書は画像データ
のみならず、文字コード列で表現されるテキストも記憶
・管理される。本実施例の場合、抄録と本文とが各々テ
キストとしてテキストファイル４５１，４５２，４５３
で記憶・管理される。各テキスト（文字列）には固有テ
キスト番号を振り、表１５３（図５）のＡＢＳ欄、ＴＸ
Ｔ欄，図６（ａ）に示すＴＸＴ−ＬＯＣ表のＴＸＴＩＤ
欄、および図９に示すＴＥＸＴ−ＤＩＲ表のＴＸＴＩＤ
欄に記録される。

【００４２】図９はテキストファイル４５１，４５２，
４５３でのテキスト記憶と管理の方法を示す。同図にお
いて、ファイル記憶領域４６６には、テキスト本体が一
次元的に記憶される。各テキスト（一本の文字列）には
固有番号ＴＸＴＩＤが振られ、ディレクトリ表、ＴＥＸ
Ｔ−ＤＩＲ４６５で管理される。表４６５は以下のカラ
ムを有す。

【００４３】・ＴＸＴＩＤ：テキスト固有番号・ＮＣＨ：該テキストを構成する文字の総数・ＰＨＹＳＡ：該テキストが記録されている物理的アド
レス・ＳＬＥＮＧ：該テキストの記憶媒体上での記録の長さ・ＣＣＬＡＳＳ：該テキストを表現する文字のクラス
（漢字混り日本文，英文，ローマ字，仮名文字など）表４６５のレコード４６７は、同ファイル内で、該レコ
ードが表わすテキストが、記憶領域内の４６８の部分で
あることなどを表わしている。

【００４４】一方、図４に示す如く、複数のボリューム
にテキストを記録することが可能であり、上記テキスト
ディレクトリは各ボリューム内のテキストを管理するも
のである。複数ボリュームをマウントしている場合、あ
るテキストがどのボリュームに在るのかを知る必要があ
るが、図６（ａ）に示すＴＸＴ−ＬＯＣ表が各テキスト
の所在を管理する。テキスト固有番号ＴＸＴＩＤを有す
テキストが記録されているボリューム通番ＶＯＬＳＥＲ
と、同ボリュームがマウントされているファイル装置番
号ＵＮＩＴが管理される。当然、オペレータにより物理
的なボリュームがアンマウントされたり、新しくマウン
トされたりすると、ＴＸＴ−ＬＯＣは自動的に更新され
る。

【００４５】さて、大きな動作の流れとして、文書画像
入力，書誌的事項の入力、および文書登録が終了する
と、登録が終了した文書の本文認識（文書理解）が文書
認識装置３００によって行われる。該認識装置の入力
は、イメージファイル１５２内の図１に示したような文
書画像１０であり、認識結果出力は同図に同じく示した
ような記号式２０である。記号式２０内の抄録および本
文のテキスト部分は上記の説明のようにテキストファイ
ル４５１〜４５３に新規に記憶され、管理される。

【００４６】文書認識を図１０に示す文書認識装置の詳
細ブロック図を用いて説明する。該認識装置３００は制
御サブシステム１００のバス１１０とバスアダプタ３７
１を介して接続されＣＰＵ３０１により制御される。メ
モリ３０２は該装置の動作を制御するためのプログラム
とパラメータなどのデータを記憶する。

【００４７】認識すべき画像データはイメージファイル
１５２からメモリ３２１へ転送される。該画像データは
圧縮符号化されており、画像処理回路ＩＰ３２２により
ビット表現画像に復号化され、再度メモリ３２１に記憶
される。続いて、ビット表現に直された画像からパター
ンの輪郭抽出をＩＰ３２２が行い、抽出結果を再びメモ
リ３２１に格納する。

【００４８】抽出された輪郭データは次のように表わさ
れる。

【００４９】

【数１】（ｉＣｉｘ_max,_iｘ_min,_iｙ_max,_iｙ_min,_iｘ_siｙ_si （θ_1iＬ_1i）……（θ_niＬ_ni）） …（１）ここでｉは輪郭の固有番号（１，２，３，……）であ
り、Ｃｉは該輪郭のクラスを表わす。Ｃｉ＝０は外輪郭
（図１１の実線１００１）を表わし、Ｃｉ＝１は内輪郭
（図１１の破線１００２）を表わす。ｘ_max，ｘ_min，ｙ
_max，ｙ_minは図１１に示すように、輪郭の外郭四角形の
頂点の座標を表わす。（ｘ_s，ｙ_s）は輪郭長のある一点
Ｐｓ（例えば輪郭探索で最初に見い出された点）の座標
である。輪郭データ自体は、点Ｐｓを基点として、図１
２に示す如く、量子化された方向コードθと、同方向が
連続する画素数Ｌとの組の列で表わされる。

【００５０】次に、数（１）で表わされる輪郭データか
ら、傾き補正回路３２３は文書入力時に発生した傾き角
度を検出し、輪郭データを補正して再びメモリ３２１へ
書き戻す。同傾き補正アルゴリズムとしては例えば特願
昭６０−１５２２１０にて開示した方式を用いることが
できる。

【００５１】傾き補正を施した輪郭データの内、特に外
郭四角形を表わすデータ部分（ｘ_max，ｘ_min，ｙ_max，
ｙ_min）から、次に行切り出しと、列切り出しとをボト
ムアップセグメンタ（ＢＳＧ）３２４により行う。

【００５２】ボトムアップセグメンタＢＳＧは数（１）
の形式で表わされるデータを入力し、数（２）で表わさ
れるパターンリストを生成し、メモリ３２１に格納す
る。

【００５３】

【数２】（ｊｘ_max,_jｘ_min,_jｙ_max,_jｙ_min,_j） …（２）ここでｊはパターン固有番号であり、パターンは互いに
重ならない矩形領域として定義され、数（２）は更に該
矩形領域の頂点座標を定義する。たとえば、図１３で、
破線で示す矩形領域１００８，１００９はＢＳＧの入力
であるが、ＢＳＧの結果として矩形１０１０が得られ
る。矩形１００８，１００９は各々一つの輪郭から作ら
れ、成分（エレメント）であり、矩形１０１０は一つの
文字を形成するパターンである。パターンｊを構成する
成分は数（２）で定義される矩形領域に含まれる矩形を
数（１）の輪郭データから探索することにより求めるこ
とができる。もしくは別途求めておいて、データとして
格納しておいてもよい。図１４に行切り出し処理の結果
を、図１５に列切り出し処理の結果を図式的に示す。

【００５４】文字切り出し部（ＣＳＧ）３２５は、文書
の書式などの規則をまとめた文書知識を参照しながら、
上記パターンリストから文字を構成するパターンを抽出
する。文書知識は図１０に示す如く、文書知識ファイル
（ＤＫＦ）３２７に格納されている。

【００５５】文書知識ファイルには、文書の種類毎に、
その表題，著者名，著者の所属，抄録，本文などのレイ
アウト（配置）の構造的な規則などが、フォントの大き
さなどのパラメトリックな知識とともに記憶されてい
る。これらの知識は書式記述言語により記述する。書式
記述言語としては、特願昭６０−１２２４２４に開示し
た言語を用いることができる。

【００５６】文字切り出し部ＣＳＧでは、一文字を未来
構成するものでありながら、２つ以上のパターンに分れ
てしまったものの統合や、逆に２つ以上の文字が１つの
パターンに接触により融合してしまったものの強制的な
分離という処理も行う。

【００５７】文字切り出し部ＣＳＧは、処理結果とし
て、表題とか抄録、あるいは本文といった項目ごとに、
各文字を構成するパターンの番号をリストとして出力す
る。たとえば、

【００５８】

【数３】（ＡＢＳＴＲＡＣＴ（ｊ₁ｊ₂ｊ₃…（ｊ_nｊ_n+1ｊ_n+2）…ｊ_N）） …（３）は抄録がパターン番号ｊ_kで表わされる文字の列で構成
されることを表わす。ここで、（ｊ_nｊ_n+1ｊ_n+2）は
該文字がｊ_n，ｊ_n+1，ｊ_n+2番目の３つのパターンで構
成されていることを表わす。

【００５９】文字認識部（ＣＲＧ）３３１は、上記パタ
ーンリスト（例えば数（３））とメモリ３２１上にある
輪郭データ（数（１）で表現）とから、各文字パターン
を構成する輪郭データを前述のごとく抽出し、特徴抽出
が可能なデータ構造に変換する。

【００６０】文字認識手法としては公知の技術を用いる
ことができるので詳細な説明は省略するが、輪郭データ
から特徴抽出を行った後、標準パターンファイル３３３
内の標準パターンとのパターン整合を行って、各文字を
認識することができる。図１０において、メモリＳＴＰ
Ｍ３３４は、参照頻度が高い標準パターンを記憶するた
めのものであり、高速処理を目的とする。

【００６１】文字認識の結果は、前述したごとく、図１
に示すような記号２０で出力する。文字認識における最
終判定過程において、パターン整合の結果得られる類似
度が数（４）を満すときは、該類似度を与える文字カテ
ゴリ（文字コード）ω_kを出力する。

【００６２】

【数４】 ρ_k≧ρ_l ｍｉｎ（ρ_k−ρ_l）≧ε（但し、ｋ≠ｌ）ｆｏｒｌ＝１，２，…，Ｋ …（４）ここで、ρ_kは文字カテゴリｋに対する類似度、Ｋは全
カテゴリ数、εは相対閾値である。

【００６３】もし、数（４）が満されない場合には、数
（５）を満す文字カテゴリの集合｛ω_k｜ｋ＝ｋ₁，
ｋ₂，…｝を、特殊な２つの文字コードに挟んで出力す
る。例えば、ω_sω_k1ω_k2…ω_eなる文字（コード）列を
出力する。ここでω_sは“〔”，ω_eは“〕”を表わす。

【００６４】

【数５】 ρ_k≧ρ_lｆｏｒｌ＝１，２，…，Ｋ ρ_k−ρ_ki≦ε₁ ｋ_i｛１，２，３，…，Ｋ｝ …（５）以上のような処理により、類似文字が存在して数（４）
が満足されない場合には、例えば、「フルテキストサー
チ」という入力パターンに対して、「フルテキスト〔ト
卜〕サ〕〔ー一−〕チ」という認識結果が得られる。認
識結果はメモリ３２１上にバッファリングされた後、一
括してメモリ１０２（図４）に転送される。

【００６５】制御サブシステム１００では、表ＴＸＴ−
ＬＯＣ（図６）を参照して最大のテキスト固有番号を検
出し、値１を加算した値を新規のテキスト固有番号とし
て、認識結果の文字コード列（テキスト）を登録する。
登録処理は、メインディレクトリ１５３，表ＴＸＴ−Ｌ
ＯＣおよび表４６５（図９）に対して行われ、テキスト
データ自体はテキストファイル４５１〜４５３のいずれ
かに格納する。

【００６６】さて、以上のようにして、テキストデータ
が与えられた文書に対しては、テキストサータサブシス
テム４００を用いた検索を行うことが可能である。

【００６７】次に、本文内容検索のためのテキストサー
チサブシステム４００とその動作について詳しく説明す
る。

【００６８】端末８００で発せられる本文内容検索の要
求、たとえば「ＡＢＳ＝＊モジニンシキ＊」は制御サブ
システム１００へまず転送される。サブシステム１００
では、被検索文書が既にキーワード検索などによって絞
られている場合には、該文書に付随しているテキストの
固有番号をメインディレクトリ１５３から選択し、更に
表ＴＸＴ−ＬＯＣを参照することにより、テキストファ
イル毎に、被検索テキスト固有番号のリスト数（６）を
作成する。

【００６９】

【数６】（ｕ_iｖ_i（ｔ_i1ｔ_i2…ｔ_in））ｉ＝１，２，…，Ｍ …（６）ここで、ｕ_iはｉ番目のファイル装置番号、ｖ_iが該ボリ
ューム通番、ｔ_ikは該ボリューム上で検索すべきｋ番目
のテキストのテキスト固有番号である。また、Ｍはテキ
ストファイル装置の最大数である。

【００７０】一方、被検索文書が全体である場合には、
特殊な記号（例えば数（７））が全テキストファイルに
対して送られる。

【００７１】

【数７】（ｕ_iｖ_i＊）ｉ＝１，２，…，Ｍ …（７）リスト数（６）、或いは数（７）と、部分文字列（たと
えば「モジニンシキ」）が制御サブシステム１００か
ら、バスアダプタ１７２を経由して、テキストサーチサ
ブシステム４００内のメモリ４０２へ転送される。

【００７２】サブシステム４００（図４）では、メモリ
４０２内の所定のプログラムに従って、転送された該部
分文字列の仮名漢字変換，異表記発生処理，同義語処理
などを行う。仮名漢字変換辞書，異表記発生規則，同義
語辞書はファイル４０３に記憶されている。

【００７３】仮名漢字変換により「モジニンシキ」から
「文字認識」が得られる。同義語辞書を参照することに
より更に「文字読み取り」が得られる。これらの結果に
対して異表記発生規則を適用すると、「文字読み取り」
から、送り仮名の異る異表記「文字読取り」と「文字読
取」が得られる。仮名漢字変換や同義語発生には公知技
術を用いることができる。

【００７４】異表記発生規則とは送り仮名，人名などの
旧字体などの多様性を扱うためのものであり、以下のよ
うな書換規則で表わされる。

【００７５】

【数８】（Ｒ１）ＸみＹリ→ＸＹり｜ＸＹ（Ｒ２）ＸみＹき→ＸＹき｜ＸＹ（Ｒ３）ＸりＹり→ＸＹり｜ＸＹ（Ｒ４）ＸきＹみ→ＸＹみ｜ＸＹ：：（Ｒ１０１）ＸみＹる→ＸＹる（Ｒ１０２）ＸりＹる→ＸＹる（Ｒ１０３）ＸきＹむ→ＸＹむ：（Ｒ２０１）Ｘなる→Ｘる：（Ｒ５０１）藤沢→藤澤： …（８）ここで、Ｘ，Ｙは任意の漢字であり、「｜」は併置を意
味する。更に、異表記発生に関しては例えば、特開昭６
０−１５０１７６で表示の方法もとることができる。

【００７６】異表記発生処理は、入力文字列に数（８）
の規則の左辺が当てはまるものが存在するか否かを判定
し、存在する場合には、当該規則の右辺を生成する。但
し、変数Ｘ，Ｙには当てはめられた漢字を挿入する。

【００７７】上記の処理により、結局、「モジニンシ
キ」に対して、文字列の集合（文字認識，文字読み取
り，文字読取り，文字読取）が得られる。これを数
（９）で表わすことにする。

【００７８】

【数９】（Ａ₁…Ａ_i…Ａ_n）＝（（ａ₁₁ａ₁₂…ａ_1m1）：（ａ_i1ａ_i2…ａ_imi）：（ａ_n1ａ_n2…ａ_nmn） …（９）ここで、ｎは文字列の数、ｍ_iはｉ番目の文字列の長
さ、ａ_ijはｉ番目の文字列Ａ_iの先頭からｊ番目の文字
コードである。

【００７９】サブシステム４００は更に文字列集合数
（９）を所定のプログラムにより、図２で説明した有限
オートマトンを表わす状態遷移リスト数（１０）に変換
する。

【００８０】

【数１０】ａlist＝（（Ｓ_j1Ｃ_k1Ｓ_l1）：（Ｓ_jiＣ_kiＳ_li）：（Ｓ_jmＣ_kmＳ_lm）） …（１０）ここで、リストａlist数（１０）の各要素は、状態Ｓ_ji
において、文字Ｃ_kiが入力された（に一致した）場合、
状態はＳ_liに遷移することができることを意味する。ま
た、同式において、｛Ｓ_j1，…，Ｓ_ji，…，Ｓ_jm｝の中
には互いに等しいものが含まれている。

【００８１】更に、出力リスト数（１１）を生成する。

【００８２】

【数１１】 σlist＝（（Ｓ_j1Ａ_j1）：（Ｓ_jpＡ_ip）：（Ｓ_jnＡ_in）） …（１１）ここで、（Ｓ_jpＡ_ip）は、状態Ｓ_jpに到達した時点
で、文字列Ａ_ipが見つかったことを意味する。一般にオ
ートマトンで出力関数と呼ばれるものに相当する。

【００８３】図１６に、文字列集合数（１１）から状態
遷移リスト数（１０）と、出力リスト数（１１）を導出
するアルゴリズムのＰＡＤ図式（Program Analysis Dia
gram）を示す。

【００８４】次に、失敗遷移リスト数（１２）を状態遷
移リスト数（１０）より作る。

【００８５】

【数１２】ｆlist＝（（Ｓ₀Ｓ_j0）…（Ｍ_mＳ_jm）） …（１２）ｆlistの要素（Ｓ_mＳ_jm）は、状態Ｓ_mに於いて入力さ
れた文字Ｃ_kに対して、遷移すべき状態がａlist数（１
０）の中に指定されていなかった場合には、ｆlistを参
照して状態Ｓ_jmに遷移することを指定する。一般に失敗
関数と呼ばれることがある。

【００８６】ｆlistを設ける目的は、部分文字列マッチ
ングにおいて、ある文字列の途中までマッチングが成功
したが次の文字が一致しない場合、すなわち所定の状態
遷移先が見つからない場合に、初期状態Ｓ₀に状態を戻
すことは一般に正しくない場合があることに対処するた
めである。例えば、２つの部分文字列｛文字認識，光学
的文字読取装置｝を探索することを想定する。いま、
「…光学的文字認識…」という文章を入力したとする
と、「光学的文字」までの部分が２番目の部分文字列に
一致するが、次の文字「認」がマッチングしない。ここ
でもし、状態をＳ₀にまで戻して、リセットしてしまう
と、オートマトンは「認識…」以降の文章を入力文字と
してしまうため、結局、「文字認識」という部分文字列
を見落してしまうことになる。従って、マッチングが失
敗した場合の遷移すべき状態はＳ₀ではなく、「文字認
識」の遷移パスの「字」までをマッチングした状態にす
る必要がある。

【００８７】さて次に、サブシステム４００は、上記説
明の如く作成した状態遷移リストａlist，出力リストσ
list，および失敗遷移リストｆlistを下位のフレキシブ
ルストリングマッチング回路ＦＳＭ５０１〜５０３に転
送する。

【００８８】フレキシブルストリングマッチング回路５
０１のより詳細なブロック図を図１７に示す。（ＦＭＳ
５０２，５０３についても同様である。）上記３種類の
リストａlist，σlist，ｆlistはバスアダプタ５７１を
経由してメモリ５１３の所定のエリアに格納される。マ
イクロプロセッサ５１１は所定のマイクロプログラムに
よって、上記情報をもとに図１８（ｂ）に示す拡張有限
オートマトンを状態遷移行列の形で生成する。

【００８９】該リストａlistおよびｆlistが直接的に意
味するところの有限オートマトンは図１８（ａ）に示す
単純な形をしている。同図はａlistの中の

【００９０】

【数１３】（Ｓ_jＣ_k1Ｓ_l1）｝ …（１３）（Ｓ_jＣ_k2Ｓ_l2）なる２つの遷移を図示したものである。

【００９１】マイクロプロセッサ５１１は図１８（ａ）
で示す有限オートマトンを同図（ｂ）の如く拡張変換す
る。同変換は一意的に定まる変換である。この変換によ
り、曖昧性を有する被検索テキストからも、所定の部分
文字列を探し出すことが可能となる。ここで、同図にお
いて、ｆ（Ｓ_j）は失敗遷移リストｆlistから作られる
失敗関数であり、状態Ｓ_jでマッチングに失敗したとき
の遷移先の状態を表わす。また、状態Ｗ_jは状態Ｓ_jに一
対一に対応するものであり、曖昧な文字列（記号〔〕
で囲まれた文字列）をスキャンしている状態である。更
にまた、状態Ｔ_j1，Ｔ_j2は状態Ｓ_jからの遷移に対応し
て、状態Ｗ_jから派生する状態であり、曖昧な文字列の
中に探索中の文字（同図の場合、Ｃ_K1またはＣ_K2）を見
い出した状態である。

【００９２】実際には、マイクロプロセッサ５１１は２
つのリストａlistとｆlistから図１９（ａ）に示す状態
遷移表を直接生成することが出来る。該状態遷移表の列
（縦）は現在の状態を表わし、行（横）は同状態で入力
される文字（コード）に対応する。表の中には、次に遷
移すべき状態が記される。同状態遷移表を生成するアル
ゴリズムは図１８による説明から容易に類推できるの
で、説明を省略する。

【００９３】マイクロプロセッサ５１１は更に出力リス
トσlistを図１９（ｂ）に示す出力表の形に変換して上
記状態遷移表とともにメモリ５１３の所定のエリアに記
録する。

【００９４】以下に、上記有限状態オートマトンを用い
たストリングサーチアルゴリズムを記す。

【００９５】ここで、関数（ｃ，Ｓ）は図１９（ａ）に示す状態遷移
表から、文字ｃと現在の状態Ｓをもとに次の状態を求め
る関数である。また、関数ｏｕｔ（Ｓ）は図１９（ｂ）
に示す出力表を参照して状態Ｓに出力があるか否かを判
断する関数である。

【００９６】なお、上記説明では１文字のコードの単位
に状態を割当てているが、日本語のように１文字のコー
ドが２バイトになる場合は、１バイトづつに分割して、
上記方法を適用することができる。

【００９７】次に、テキストサーチサブシステム４００
は、上位から送られて来る被検索テキスト固有番号リス
ト数（６），数（７）を受理し、各ＦＳＭで検索処理す
べきテキスト固有番号リストとして、対応するＦＳＭへ
転送する。従って各ＦＳＭは、対応するテキストファイ
ルに検索対象が存在すれば、その固有番号（ｔ_i1ｔ_i2
ｔ_i3…… ｔ_in）を得る。テキスト固有番号リストはメ
モリ５１３（図１７）に格納される。マイクロプロセッ
サＭＰＵ５１１はマイクロプログラムメモリ５１２内の
所定のプログラム（図２０参照）に従って、まず各テキ
ストの所在物理アドレスを検知する。テキスト固有番号
と物理アドレスは図９で説明したＴＥＸＴ−ＤＩＲで管
理されており、該表をファイル４５１から読み出して検
知することができる。

【００９８】マイクロプロセッサ５１１は次に各テキス
トデータをファイル４５１から読み出す。ファイル制御
部５３１は読み出したテキストデータ（文字列）を逐次
ＦＩＦＯ（First-in-first-out）回路５３２へ入力す
る。マイクロプロセッサＭＰＵ５１１はＦＩＦＯ５３２
から一文字づつ読み出し、メモリ５１３内に定義されて
いる有限オートマトン（図１８（ｂ））に従って所定の
部分文字列が存在するか否かを検定する。ストリングマ
ッチング結果ｂlist（図２０参照）を上位プロセッサの
メモリ４０２へ返送する。

【００９９】ＣＰＵ１は所定のプログラムに従って、下
位の複数のＦＳＭから返送される検索条件が合致したテ
キスト固有番号リストを１つにまとめ、更に上位の制御
サブシステム内のメモリ１０２に転送する。テキスト固
有番号から、メインディレクトリ１５３（図５）を参照
することにより、部分文字列がマツチングした文書の固
有番号ＤＯＣ＃や文書画像の固有番号ＩＭＧＩＤあるい
は表題ＴＩＴＬＥなどを同定することが出来る。

【０１００】これらの検索結果は端末８００へ返送され
る。ユーザは表題などをＣＲＴ上で見ながら、所望の文
書の画像を同ＣＲＴに呼び出して表示することができ
る。

【０１０１】次に第二の実施例について説明する。該実
施例ではフレキシブルストリングマッチング回路５０１
のみの構成方法が異っている。図２１は第二の実施例に
おけるフレキシブルストリングマッチング回路ＦＳＭの
構成図である。

【０１０２】同図において、２次記憶装置（テキストフ
ァイル）４６１は同時に信号の読み出しができる複数の
ヘッドを有しており、本実施例では、同時に４個のヘッ
ドからデータを読み出すことが可能である。該データは
ファイル制御装置ＦＣＵ５４１を経由して、各々４個の
ＦＩＦＯ回路５５１〜５５４へ転送される。

【０１０３】一方、上位サブシステム４００から送られ
る検索条件はマイクロプロセッサ５１１で翻訳された
後、データメモリを内包するマイクロプロセッサユニッ
トＭＰＵ₁〜ＭＰＵ₄５６１〜５６４へ転送される。

【０１０４】テキストファイル４６１から読み出される
テキストデータはＦＩＦＯ回路５５１〜５５４を経由し
て、各々マイクロプロセッサユニット５６１〜５６４へ
読み出される。該マイクロプロセッサユニットは並行し
て、４本の文字列（テキストデータ）の中から所定の部
分文字列を探索し、結果をデータバス５２１を介してマ
イクロプロセッサ５１１へ返送する。他の部分は第一の
実施例と等しいので説明を省略する。

【０１０５】次に第三の実施例について説明する。同実
施例では、ハードウェア構成は第一の実施例または第二
の実施例と等しいが、テキストサーチ処理が異なる。

【０１０６】階層的な検索法を用いて、まずキーワード
や分類コードを用いて被検索文書を絞り込む場合を考え
ると、同過程でスクリーンされた被検索文書はあるテキ
ストファイルのボリュームに偏在していることが一般的
にある。

【０１０７】本実施例システムでは、複数のテキストフ
ァイルボリュームに、多重性を有効にするために重複し
てテキストデータを記憶する。ＣＰＵ４０１（図４参
照）は所定のプログラムに従って、複数のボリュームに
多重に記憶されているテキストについては、複数のボリ
ュームへのアクセス回数が均等になるようにアクセスす
べきボリュームを選択する。本方式を用いれば、すべて
のフレキシブルストリングマッチング回路が効率よく動
作し、全体として高速な探索が可能となる。

【０１０８】以上の実施例では、フレキシブルストリン
グサーチ回路の多重度は３〜４となっているが、本発明
方式では多重度は限定されない。

【０１０９】また、テキストサーチは文書全体に対して
一様に行うとして説明したが、ページの境界に関する情
報をテキスト中に特殊記号で記録しておき、ストリング
マッチングが成功したページ番号をも、マッチング結果
として出力するように拡張することが可能であり、同方
式も本発明に含まれる。

【０１１０】更にまた、説明は日本語テキストについて
行ったが、全く同様に英語などの他の言語にも適用する
ことが可能である。

【０１１１】また、上記実施例ではテキストデータは文
字認識により抽出するとしたが、明らかに人手などによ
って入力されたテキストデータに対しても本文内容検索
の方式は適用可能であり、本発明に含まれる。

【０１１２】更にまた、システム形態は図４に示す形態
で説明したが、小形システム，スタンドアロン形システ
ムにおいても、その本質とするところは変わらず、本発
明が含む所である。特に、別システムで用意したテキス
トファイルとイメージファイルをロードして小規模な検
索ステーションとすることが考えられるが、本発明に含
まれる。

【０１１３】また、検索条件は論理的演算子によって組
合せることが可能なことや、ある相対的位置関係を満す
部分文字列の探索が可能となるように拡張できること
は、言うまでもない。特に、複数の部分文字列のそれぞ
れがどこに存在したかも出力することにより、後処理に
より組合せ的な高度な検索が高速に実現される。

【０１１４】

【発明の効果】以上、本発明システムによれば、文書の
本文などの中身を参照して所望の文書を高速に検索する
ことが可能となり、文書を登録した時点では考えられな
かった概念からも効率よく検索することが可能となる。
特に、登録時に、分類コードやキーワードとして何が適
切かを付するのに過度に悩む必要がなくなる。結果とし
て、検索精度を高めることが可能となると同時に、ノイ
ズ発生率を低くおくさえることが可能となる。

【０１１５】更に、テキストサーチサブシステムの中を
並列化することにより、高速な本文検索が可能となる。
特に、読み出しヘッド毎にストリングマッチング回路を
付加することにより高速化が達成される。

【０１１６】大規模な文書ファイルを対象にする検索の
場合には、キーワードや書誌的事項により被検索文書を
減らしてから、本文内容検索を行うことができ、全体と
して効率のよい検索が行える。

【０１１７】また、文書画像からテキストデータを得る
には従来技術では文書認識結果を人間が逐次検査し、誤
りを修正する必要があったが、本発明によれば人間の介
在を無くすことが可能である。従来は上記理由から実質
的には本文内容検索が実現されておらず、本発明によっ
て効果的な本文内容検索が可能となる。

【図面の簡単な説明】

【図１】文書画像と文書理解の結果を示す図。

【図２】部分文字列から生成される同音異義語と同義語
の文字列の状態遷移図。

【図３】曖昧性を含む文字認識結果の文字列の状態遷移
図。

【図４】第一の実施例のシステム構成図。

【図５】文書，画像，テキストを蓄積・管理する方法を
説明する図。

【図６】文書，画像，テキストを蓄積・管理する方法を
説明する図。

【図７】文書，画像，テキストを蓄積・管理する方法を
説明する図。

【図８】文書，画像，テキストを蓄積・管理する方法を
説明する図。

【図９】文書，画像，テキストを蓄積・管理する方法を
説明する図。

【図１０】文書認識装置のブロック図。

【図１１】文字パターンを囲む矩形領域の説明図。

【図１２】パターンを記述する輪郭形状の表現方法を説
明する図。

【図１３】パターン成分と文字パターンの関係を説明す
る図。

【図１４】ボトムアップセグメンタによる行切り出しの
結果を示す図。

【図１５】ボトムアップセグメンタによる列切り出しの
結果を示す図。

【図１６】文字列集合から状態遷移リストを得るアルゴ
リズムの説明図。

【図１７】フレキシブルストリングマッチング回路（Ｆ
ＳＭ回路）のブロック図。

【図１８】曖昧文字列を許容する拡張有限状態オートマ
トン。

【図１９】拡張有限状態オートマトンの状態遷移表。

【図２０】ＦＳＭ回路のプログラムを説明する図。

【図２１】第二の実施例におけるＦＳＭ回路の構成図。

【符号の説明】

１００…制御サブシステム、２００…入力サブシステ
ム、３００…文書認識装置、４００…テキストサーチサ
ブシステム、８００…検索用端末サブシステム、５０１
…フレキシブルストリングマッチング回路、１５１…デ
ータベースファイル、１５２…イメージファイル、４５
１…テキストファイル。

───────────────────────────────────────────────────── フロントページの続き (72)発明者東野純一東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者花野井歳弘神奈川県小田原市国府津2880番地株式会社日立製作所小田原工場内

Claims

【特許請求の範囲】

【請求項１】文書を蓄積して検索する文書ファイリング
システムにおいて、文書を文書画像として入力する文書画像入力手段と、上
記文書画像を蓄積するイメージファイルと、上記文書の
少なくとも書誌データを蓄積するデータベースと、上記
文書画像に存在する文字パターンを切り出し、各文字パ
ターンについて標準文字パターンファイルに予め記憶さ
れた標準文字パターンとパターン整合を行う文書認識手
段と、上記文書認識手段から出力される上記文書中の文
字列を蓄積するテキストファイルと、書誌的事項または
任意の検索文字列を検索語として入力する入力手段と、
上記書誌的事項の入力を受けて、上記データベースを検
索する第一の検索手段と、上記任意の検索文字列の入力
を受けて、上記テキストファイルから読み出された被検
索文字列と上記検索文字列とを照合して、上記検索文字
列の存在する被検索文字列を有する文書を検索する第二
の検索手段と、上記第一の検索手段もしくは第二の検索
手段の検索結果を受けて対応する文書画像を出力する出
力手段を有することを特徴とする文書ファイリングシス
テム。
【請求項２】請求項１記載の文書ファイリングシステム
において、文書のレイアウト構造規則を格納した文書知識ファイル
と、上記書誌データを自動的に認識し、認識結果を上記
データベースに出力する書式認識手段とを有することを
特徴とする文書ファイリングシステム。
【請求項３】請求項１記載の文書ファイリングシステム
において、複数の上記テキストファイルの接続された上記第二の検
索手段の組を有し、上記文字列は複数コピーされて、そ
れぞれが異なる上記テキストファイルに蓄積されること
を特徴とする文書ファイリングシステム。
【請求項４】請求項１記載の文書ファイリングシステム
において、異表記発生規則を記憶した異表記発生規則ファイルを有
し、上記検索文字列に対して上記異表記発生規則に基づ
いて生成された異表記検索文字列の集合について、上記
第二の検索手段は検索を行うことを特徴とする文書ファ
イリングシステム。
【請求項５】請求項１記載の文書ファイリングシステム
において、同義語辞書ファイルを有し、上記検索文字列に対して上
記同義語辞書を参照して生成された同義語文字列の集合
について、上記第二の検索手段は検索を行うことを特徴
とする文書ファイリングシステム。