JP2560656B2 - 文書ファイリングシステム - Google Patents
文書ファイリングシステムInfo
- Publication number
- JP2560656B2 JP2560656B2 JP7232285A JP23228595A JP2560656B2 JP 2560656 B2 JP2560656 B2 JP 2560656B2 JP 7232285 A JP7232285 A JP 7232285A JP 23228595 A JP23228595 A JP 23228595A JP 2560656 B2 JP2560656 B2 JP 2560656B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- character
- text
- file
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
- Processing Or Creating Images (AREA)
Description
【0001】
【産業上の利用分野】本発明は文書を画像としてファイ
リングする文書ファイリングシステムに係り、特にフル
テキストサーチ(本文検索)が行えることを特徴とした
文書ファイリングシステムに関する。
リングする文書ファイリングシステムに係り、特にフル
テキストサーチ(本文検索)が行えることを特徴とした
文書ファイリングシステムに関する。
【0002】
【従来の技術】従来の情報検索方式では主にキーワード
と分類コードに従った検索手段を提供してきた。文献情
報や特許情報は上記の方式を用いてこれまでにデータベ
ース化されている。ここでは主に抄録までを含めた書誌
情報がデータベース化されており、真の情報検索のニー
ズに対してはその一部分の機能しか提供できていない。
すなわち、関連すると思われる文献や特許が見い出され
ても、本文を得るためには大量な書棚の中を探しまわる
必要があった。
と分類コードに従った検索手段を提供してきた。文献情
報や特許情報は上記の方式を用いてこれまでにデータベ
ース化されている。ここでは主に抄録までを含めた書誌
情報がデータベース化されており、真の情報検索のニー
ズに対してはその一部分の機能しか提供できていない。
すなわち、関連すると思われる文献や特許が見い出され
ても、本文を得るためには大量な書棚の中を探しまわる
必要があった。
【0003】これに対して、大容量データを記憶できる
光ディスクが登場して、本文をもデータベースに格納し
て、いわゆる原文書情報サービスを行うことが社会ニー
ズとしてクローズアップされて来た。特許庁におけるペ
ーパレス化計画もその流れに沿ったものである。これら
のシステムでは、大量な文書を画像データの形で光ディ
スクに記憶させ、従来のキーワードを主体として情報検
索技術が適用されている。
光ディスクが登場して、本文をもデータベースに格納し
て、いわゆる原文書情報サービスを行うことが社会ニー
ズとしてクローズアップされて来た。特許庁におけるペ
ーパレス化計画もその流れに沿ったものである。これら
のシステムでは、大量な文書を画像データの形で光ディ
スクに記憶させ、従来のキーワードを主体として情報検
索技術が適用されている。
【0004】しかしながら、上記従来の情報検索技術で
は、数10件から数100件のオーダまでしか絞り込む
ことが出来ず、更に1/10程度まで関連文書を絞り込
む手法が求められている。一つの方法は、画像データと
して貯えられている原文書(本文)を端末上に呼び出し
て、検索者が目で読む方法である。この方法は原理的に
は確実であるが、最大数100件の文書を画像データの
形式で読み出すのは、データ量が多く、また一件一件目
視により読み取るのでは効率が悪く、実用的には問題で
ある。
は、数10件から数100件のオーダまでしか絞り込む
ことが出来ず、更に1/10程度まで関連文書を絞り込
む手法が求められている。一つの方法は、画像データと
して貯えられている原文書(本文)を端末上に呼び出し
て、検索者が目で読む方法である。この方法は原理的に
は確実であるが、最大数100件の文書を画像データの
形式で読み出すのは、データ量が多く、また一件一件目
視により読み取るのでは効率が悪く、実用的には問題で
ある。
【0005】一方、従来のキーワードや分類コードによ
る方法は、分類体系自体が時間とともに変化するため常
に更新する必要があり、本質的な問題点を抱えている。
例えば、既に分類してしまった大量な文書を、後になっ
て分類体系を変更する必要が発生したとして、変更する
ことは実際上不可能である。科学技術の進歩を記録する
ところの文献や特許は本来は従来の分類体系に乗らない
概念が提示されていてこそ新規なものであり、かつ価値
があるものである。この意味において、本来概念を表わ
すところのキーワードや分類体系は、前もって定義して
おくことは不可能であり、情報検索方式として本質的な
課題である。
る方法は、分類体系自体が時間とともに変化するため常
に更新する必要があり、本質的な問題点を抱えている。
例えば、既に分類してしまった大量な文書を、後になっ
て分類体系を変更する必要が発生したとして、変更する
ことは実際上不可能である。科学技術の進歩を記録する
ところの文献や特許は本来は従来の分類体系に乗らない
概念が提示されていてこそ新規なものであり、かつ価値
があるものである。この意味において、本来概念を表わ
すところのキーワードや分類体系は、前もって定義して
おくことは不可能であり、情報検索方式として本質的な
課題である。
【0006】上記のような理由から、文書の本文を直接
参照して内容検索する方法が要望されている。本文を参
照する方法によれば、文書をデータベースに登録する際
には重要とは思われなかった概念で、かつ検索する時点
において新しい概念と認知されている語彙を用いて検索
することが可能となる。あるいは、登録する際のインデ
クサ(索引を付与する専任者)という「フィルタ」を介
さずに重要な文書を直接探し出すことが可能となる。
参照して内容検索する方法が要望されている。本文を参
照する方法によれば、文書をデータベースに登録する際
には重要とは思われなかった概念で、かつ検索する時点
において新しい概念と認知されている語彙を用いて検索
することが可能となる。あるいは、登録する際のインデ
クサ(索引を付与する専任者)という「フィルタ」を介
さずに重要な文書を直接探し出すことが可能となる。
【0007】このような要求を満すためには、画像デー
タとしての文書から、文字パターンを抽出して本文を文
字コードに置き換える必要があり、このためには文字認
識の技術を適用すればよい。しかしながら、文書ファイ
リングの対象となる文書は、たとえ印刷文書であったと
しても、印字品質や活字(フォント)の種類の多様性な
どから、従来の文字認識技術では完全な文字認識を期待
することは難しい。従来の文字読取装置では、誤認識や
認識不能(拒絶)などの不完全な認識はオペレータによ
りチェックと修正を行う方法を取っていた(例えば、橋
本著「文字認識概論」オーム社,1982年,pp.15
3−154参照)。従って、仮に認識精度が極めて高く
ても、文書の量が膨大である場合には、本文を認識させ
た結果を人間がチェックする方法は現実的ではなく、本
文検索が可能な画像主体の文書ファイリングシステムは
現在までに実現されていない。
タとしての文書から、文字パターンを抽出して本文を文
字コードに置き換える必要があり、このためには文字認
識の技術を適用すればよい。しかしながら、文書ファイ
リングの対象となる文書は、たとえ印刷文書であったと
しても、印字品質や活字(フォント)の種類の多様性な
どから、従来の文字認識技術では完全な文字認識を期待
することは難しい。従来の文字読取装置では、誤認識や
認識不能(拒絶)などの不完全な認識はオペレータによ
りチェックと修正を行う方法を取っていた(例えば、橋
本著「文字認識概論」オーム社,1982年,pp.15
3−154参照)。従って、仮に認識精度が極めて高く
ても、文書の量が膨大である場合には、本文を認識させ
た結果を人間がチェックする方法は現実的ではなく、本
文検索が可能な画像主体の文書ファイリングシステムは
現在までに実現されていない。
【0008】
【発明が解決しようとする課題】本発明の目的は、上記
のような問題点を解決することにより、文書の本文を直
接参照して検索するところのフルテキストサーチ機能を
有する文書ファイリングシステムを提供することにあ
る。
のような問題点を解決することにより、文書の本文を直
接参照して検索するところのフルテキストサーチ機能を
有する文書ファイリングシステムを提供することにあ
る。
【0009】
【課題を解決するための手段】本発明は、上記の目的を
達成するために、文書画像を蓄積するイメージファイル
と、文書の種類ごとに文書構造のレイアウト規則を記憶
する文書知識ファイルと、文書画像からパターン成分を
抽出する画像処理手段と、文書画像から切り出された文
字パターンを文字認識する文字認識手段とを有して、文
書知識ファイルに記憶された文書構造のレイアウト規則
を参照して、画像処理手段により抽出されたパターン成
分を解析して文書構造ごとに文字を構成する文字パター
ンを切り出し、切り出された文字パターンを文字認識手
段により文字認識して文字列を得る文書認識手段と、文
書認識手段により得た文字列を文書構造に対応させて蓄
積する蓄積手段と、検索要求を受けて蓄積手段に対して
検索を行い、検索要求を満たす文書を同定する検索手段
と、検索手段により同定された文書の文書画像をイメー
ジファイルから出力する出力手段とを有することを特徴
とする。
達成するために、文書画像を蓄積するイメージファイル
と、文書の種類ごとに文書構造のレイアウト規則を記憶
する文書知識ファイルと、文書画像からパターン成分を
抽出する画像処理手段と、文書画像から切り出された文
字パターンを文字認識する文字認識手段とを有して、文
書知識ファイルに記憶された文書構造のレイアウト規則
を参照して、画像処理手段により抽出されたパターン成
分を解析して文書構造ごとに文字を構成する文字パター
ンを切り出し、切り出された文字パターンを文字認識手
段により文字認識して文字列を得る文書認識手段と、文
書認識手段により得た文字列を文書構造に対応させて蓄
積する蓄積手段と、検索要求を受けて蓄積手段に対して
検索を行い、検索要求を満たす文書を同定する検索手段
と、検索手段により同定された文書の文書画像をイメー
ジファイルから出力する出力手段とを有することを特徴
とする。
【0010】
【作用】すなわち、本発明による文書ファイリングシス
テムは、文書などを画像として扱うことの利点を損うこ
となく、同時に画像として扱うことの不利な点を改善す
るものである。すなわち、画像として扱うファイリング
システムでは従来、主に別途付与したキーワードや書誌
的事項にもとづいて検索することが主であったが、本発
明によれば、更に中に書かれている文章を参照して検索
することが出来る。
テムは、文書などを画像として扱うことの利点を損うこ
となく、同時に画像として扱うことの不利な点を改善す
るものである。すなわち、画像として扱うファイリング
システムでは従来、主に別途付与したキーワードや書誌
的事項にもとづいて検索することが主であったが、本発
明によれば、更に中に書かれている文章を参照して検索
することが出来る。
【0011】例えば、「ホンブンケンサク」と検索用端
末から入力することにより、検索対象の文書群の中のあ
る文書の本文中に例えば「……文字認識による本文検索
……」と書いてある文書があれば、同文書を同定・抽出
して、端末上に同文書を画像のまま表示することが出来
る。
末から入力することにより、検索対象の文書群の中のあ
る文書の本文中に例えば「……文字認識による本文検索
……」と書いてある文書があれば、同文書を同定・抽出
して、端末上に同文書を画像のまま表示することが出来
る。
【0012】画像として表示することにより、文字認識
により情報が失われることを避けることが出来る。一般
に、文字認識では、各文字の位置、大きさ、フォントな
どの2次的情報は正規化の過程で捨ててしまう。したが
って、ゴシック体であったか明朝体であったか、どの大
きさかは認識後では分らなくなり、重要性を表わすため
にゴシック体にしたり、大きなフォントにしたりして印
刷したことの意味がなくなってしまう。音声でいえば、
音声認識してしまうと、誰が話したのか、とか、その時
の感情とかは、分らなくなってしまうことに対応する。
文書の場合においても、読取る人間にとっては、これら
2次的な情報も重要であり、単に文字認識してしまうの
は得策ではない。
により情報が失われることを避けることが出来る。一般
に、文字認識では、各文字の位置、大きさ、フォントな
どの2次的情報は正規化の過程で捨ててしまう。したが
って、ゴシック体であったか明朝体であったか、どの大
きさかは認識後では分らなくなり、重要性を表わすため
にゴシック体にしたり、大きなフォントにしたりして印
刷したことの意味がなくなってしまう。音声でいえば、
音声認識してしまうと、誰が話したのか、とか、その時
の感情とかは、分らなくなってしまうことに対応する。
文書の場合においても、読取る人間にとっては、これら
2次的な情報も重要であり、単に文字認識してしまうの
は得策ではない。
【0013】本発明システムの第一の原理は、以上述べ
たように、文書を画像として記憶する一方、文字の部分
は文字コードとして重ねて記憶させている点である。
たように、文書を画像として記憶する一方、文字の部分
は文字コードとして重ねて記憶させている点である。
【0014】さて、文字の部分を画像から抽出して文字
コードに置換えるには文字切り出しと文字認識を行うこ
とが必要である。これには従来技術を用いることが可能
であるが、100%の認識率を期待することはできな
い。
コードに置換えるには文字切り出しと文字認識を行うこ
とが必要である。これには従来技術を用いることが可能
であるが、100%の認識率を期待することはできな
い。
【0015】本発明システムの第二の原理は、文字認識
の結果、判定不能になった文字については、上位に残っ
た文字カテゴリーを集合として扱って、認識結果文字列
の中にそのまま残す点にある。
の結果、判定不能になった文字については、上位に残っ
た文字カテゴリーを集合として扱って、認識結果文字列
の中にそのまま残す点にある。
【0016】たとえば、「……文字認識による本文検索
……」を認識した場合、本システムでは「……文〔字
学〕認〔識織〕による〔本木〕文検索……」と認識結果
を表わす。ここで〔 〕で囲んだ文字はある一つの文字
パターンに対する認識結果であり、「〔識織〕」は
「識」は「織」かのどちらかであることを意味する。従
来は、必ずオペレータの介入により判定不能の文字は正
しい文字コードに置き換えて、文字認識結果(OCRの
出力)としていた。ここで記号「〔 」,「 〕」は特
殊記号であり、一般にテキストに表われないコードを割
り当てるものとする。単に表示のときに、分りやすいよ
うに記号〔 , 〕を用いるものとする。
……」を認識した場合、本システムでは「……文〔字
学〕認〔識織〕による〔本木〕文検索……」と認識結果
を表わす。ここで〔 〕で囲んだ文字はある一つの文字
パターンに対する認識結果であり、「〔識織〕」は
「識」は「織」かのどちらかであることを意味する。従
来は、必ずオペレータの介入により判定不能の文字は正
しい文字コードに置き換えて、文字認識結果(OCRの
出力)としていた。ここで記号「〔 」,「 〕」は特
殊記号であり、一般にテキストに表われないコードを割
り当てるものとする。単に表示のときに、分りやすいよ
うに記号〔 , 〕を用いるものとする。
【0017】本発明を用いたシステムでは、結局図1に
示すように、文書10は20で示すような記号式に変換
される。同記号列はLISP言語などで用いているS式
と呼ばれる記法に従う。文書(画像)10を記号式20
に変換する過程を、文書理解ないしは文書認識という。
同記号式は、およそ次のような意味を表わす。すなわ
ち、ドキュメント#99であり、そのクラスは「論
文」,VOL=5,NO=7,タイトルは“文〔字学〕
認〔識織〕……”,著者名は“山田〔太大〕郎”,本文
は“……自動文字読み取〔りリ〕によるフルテキスト
〔ト卜〕サ〔ー一−〕チ……”などを意味する。ここで
〔りリ〕は平仮名と片仮名,〔ト卜〕は片仮名と漢字,
〔ー一−〕は片仮名の長音,漢数字の1、およびマイナ
ス記号〕を意味する。文字認識において曖昧なものの中
には、上記の例のように、殆んど通常では対処しようの
ない文字パターンも多い。
示すように、文書10は20で示すような記号式に変換
される。同記号列はLISP言語などで用いているS式
と呼ばれる記法に従う。文書(画像)10を記号式20
に変換する過程を、文書理解ないしは文書認識という。
同記号式は、およそ次のような意味を表わす。すなわ
ち、ドキュメント#99であり、そのクラスは「論
文」,VOL=5,NO=7,タイトルは“文〔字学〕
認〔識織〕……”,著者名は“山田〔太大〕郎”,本文
は“……自動文字読み取〔りリ〕によるフルテキスト
〔ト卜〕サ〔ー一−〕チ……”などを意味する。ここで
〔りリ〕は平仮名と片仮名,〔ト卜〕は片仮名と漢字,
〔ー一−〕は片仮名の長音,漢数字の1、およびマイナ
ス記号〕を意味する。文字認識において曖昧なものの中
には、上記の例のように、殆んど通常では対処しようの
ない文字パターンも多い。
【0018】さて、検索に当っては、ユーザはローマ字
又は片仮名で「ホンブンケンサク」と入力する。システ
ムではこれを仮名漢字変換する。一般に同音異義語があ
り、この場合、「ホンブン」は「本文」が「本分」かの
どちらかであり、「ケンサク」は「検索」か「献策」の
どちらかである。本方式ではこのような曖昧性を自動的
に扱うことができる。
又は片仮名で「ホンブンケンサク」と入力する。システ
ムではこれを仮名漢字変換する。一般に同音異義語があ
り、この場合、「ホンブン」は「本文」が「本分」かの
どちらかであり、「ケンサク」は「検索」か「献策」の
どちらかである。本方式ではこのような曖昧性を自動的
に扱うことができる。
【0019】同様に、「モジヨミトリ」と入力した場合
には、送り仮名に曖昧性(2つ以上の可能性)がある。
「文字読取」,「文字読取り」,「文字読み取り」があ
り、未知の本文にどのような送り仮名が振られているか
分らないため、原理的にはすべての可能性を扱う必要が
ある。
には、送り仮名に曖昧性(2つ以上の可能性)がある。
「文字読取」,「文字読取り」,「文字読み取り」があ
り、未知の本文にどのような送り仮名が振られているか
分らないため、原理的にはすべての可能性を扱う必要が
ある。
【0020】更にまた、「モジニンシキ」と入力した場
合は、仮名漢字変換では一意に「文字認識」が得られる
が、「文字認識」は場合によっては「文字読み取り」と
言われることがあるので、同義語として「文字読み取
り」も検索キーとして自動的に選択することも望まれ
る。この場合、上記の例と同様に複数の送り仮名の可能
性も列挙する。ここで、「文字認識」の同義語に「文字
読み取り」が上っても、「文字読み取り」の同義語には
「文字認識」が上らないという非対称性が一般に求めら
れるが、本方式でも満されている。
合は、仮名漢字変換では一意に「文字認識」が得られる
が、「文字認識」は場合によっては「文字読み取り」と
言われることがあるので、同義語として「文字読み取
り」も検索キーとして自動的に選択することも望まれ
る。この場合、上記の例と同様に複数の送り仮名の可能
性も列挙する。ここで、「文字認識」の同義語に「文字
読み取り」が上っても、「文字読み取り」の同義語には
「文字認識」が上らないという非対称性が一般に求めら
れるが、本方式でも満されている。
【0021】結局、被検索対象文章の中で見い出すべき
複数の部分文字列は、図2で示す如く有限状態オートマ
トンとして表現される。一方、図1の例で示した被検索
文章の文字列も同様に、図3のオートマトンで表現され
る。本発明では、検索キー(部分文字列)および被検索
文章双方ともに曖昧性(複数の可能性;一意に決定でき
ない要素が存在する状況)が存在する場合のテキストサ
ーチ機能を提供しており、これが第三の原理である。
複数の部分文字列は、図2で示す如く有限状態オートマ
トンとして表現される。一方、図1の例で示した被検索
文章の文字列も同様に、図3のオートマトンで表現され
る。本発明では、検索キー(部分文字列)および被検索
文章双方ともに曖昧性(複数の可能性;一意に決定でき
ない要素が存在する状況)が存在する場合のテキストサ
ーチ機能を提供しており、これが第三の原理である。
【0022】複数の部分文字列をそれらの有限状態オー
トマトンを用いて、曖昧性のないテキストから探し出す
方法としては文献〔A.V.Aho,et al.“Efficient
String Matching:An Aid to Bibliographic Se
arch,”Communications ofthe ACM,Vol.18,
No.6,1975〕による方法が知られている。
トマトンを用いて、曖昧性のないテキストから探し出す
方法としては文献〔A.V.Aho,et al.“Efficient
String Matching:An Aid to Bibliographic Se
arch,”Communications ofthe ACM,Vol.18,
No.6,1975〕による方法が知られている。
【0023】
【実施例】以下、本発明を実施例にもとづいて説明す
る。
る。
【0024】図4は本発明の一実施例である文書ファイ
リングシステムの構成図である。同システムは、系全体
の制御とデータベース機能を提供する制御サブシステム
100,文書などの入力とファイルへの登録を行うため
の入力サブシステム200,文書を認識するための文書
認識装置300,高速なテキストサーチを行うところの
テキストサーチサブシステム400,検索を行うための
端末サブシステム800とから成っている。
リングシステムの構成図である。同システムは、系全体
の制御とデータベース機能を提供する制御サブシステム
100,文書などの入力とファイルへの登録を行うため
の入力サブシステム200,文書を認識するための文書
認識装置300,高速なテキストサーチを行うところの
テキストサーチサブシステム400,検索を行うための
端末サブシステム800とから成っている。
【0025】各サブシステムの構成と動作の流れを以下
に詳細に説明する。
に詳細に説明する。
【0026】入力サブシステム200は、同サブシステ
ムを制御するCPU(中央処理装置)201,主メモリ
202,システムファイル251,端末203を基本部
として持つ。端末203からの操作によりサブシステム
を制御し、文書220の各ページの画像をスキャナ22
1により光学的に読み取り、ディジタル化した画像デー
タをバス210を介してビデオメモリ224にまず蓄え
る。同画像データは次に画像処理装置(IP)223に
より冗長性圧縮を行って、MH(Modified Huffman
n)符号あるいはMR(Modified Read)符号に変換さ
れ、再度ビデオメモリ224の別なエリアに戻される。
ムを制御するCPU(中央処理装置)201,主メモリ
202,システムファイル251,端末203を基本部
として持つ。端末203からの操作によりサブシステム
を制御し、文書220の各ページの画像をスキャナ22
1により光学的に読み取り、ディジタル化した画像デー
タをバス210を介してビデオメモリ224にまず蓄え
る。同画像データは次に画像処理装置(IP)223に
より冗長性圧縮を行って、MH(Modified Huffman
n)符号あるいはMR(Modified Read)符号に変換さ
れ、再度ビデオメモリ224の別なエリアに戻される。
【0027】入力された文書画像は端末203上に確認
のため表示されると同時に、オペレータは表示された画
像を見ながら書誌的事項などを入力することが出来る。
後述するように、定形文書の書誌的事項は自動的に文書
理解により読み取ることが出来るが、不定形文書の書誌
的事項や、紙面上に記入されていない情報は人間が入力
する必要がある。例えばユーザが定義した文書内容の分
類コードや、紙面上にないキーワードの入力はオペレー
タに依存せざるを得ないのは当然である。また、各文書
の価値や位置付けは、同文書の利用者が独自に付す必要
があり、これらも端末203より入力することができ
る。入力された該書誌的事項などのデータは、ビデオメ
モリ224内の画像データ(圧縮されたデータ)と関連
付けられて、主メモリ202に格納される。
のため表示されると同時に、オペレータは表示された画
像を見ながら書誌的事項などを入力することが出来る。
後述するように、定形文書の書誌的事項は自動的に文書
理解により読み取ることが出来るが、不定形文書の書誌
的事項や、紙面上に記入されていない情報は人間が入力
する必要がある。例えばユーザが定義した文書内容の分
類コードや、紙面上にないキーワードの入力はオペレー
タに依存せざるを得ないのは当然である。また、各文書
の価値や位置付けは、同文書の利用者が独自に付す必要
があり、これらも端末203より入力することができ
る。入力された該書誌的事項などのデータは、ビデオメ
モリ224内の画像データ(圧縮されたデータ)と関連
付けられて、主メモリ202に格納される。
【0028】ここで、各文書には固有番号(ドキュメン
トID)が付され、同文書固有番号をキーとして画像デ
ータと書誌的事項等が引出せるようにメモリには記憶さ
れる。文書固有番号は、例えば、サブシステムID
(‘INSYS 01’など)と日付・時間を表わす文
字列の連結で表わすことができる。例えばINSYS0
1.850501.132437は1985年5月1
日,13時24分37秒に入力サブシステムINSYS
01より入力された文書であることを表わす。システム
の応用によっては入力時刻が重要な場合があり、タイム
スタンプとしても機能する。
トID)が付され、同文書固有番号をキーとして画像デ
ータと書誌的事項等が引出せるようにメモリには記憶さ
れる。文書固有番号は、例えば、サブシステムID
(‘INSYS 01’など)と日付・時間を表わす文
字列の連結で表わすことができる。例えばINSYS0
1.850501.132437は1985年5月1
日,13時24分37秒に入力サブシステムINSYS
01より入力された文書であることを表わす。システム
の応用によっては入力時刻が重要な場合があり、タイム
スタンプとしても機能する。
【0029】さて、所定の量の文書がサブシステム20
0に一定量溜るか、あるいは端末203からの所定の指
令があると、割込信号がバスアダプタ171へ送られ
る。
0に一定量溜るか、あるいは端末203からの所定の指
令があると、割込信号がバスアダプタ171へ送られ
る。
【0030】制御サブシステム100は該割込信号をセ
ンスして、入力サブシステム200のメモリ202内の
所定のアドレスを読み取る。これにより、入力サブシス
テムの要求の内容を判断することが出来る。
ンスして、入力サブシステム200のメモリ202内の
所定のアドレスを読み取る。これにより、入力サブシス
テムの要求の内容を判断することが出来る。
【0031】入力した文書のデータベースへの登録の要
求の場合には次のように動作する。
求の場合には次のように動作する。
【0032】中央処理装置(CPU)101は主メモリ
102内の所定のプログラムに従って、入力サブシステ
ムに一時的に貯えられた文書(複数)の固有番号を知
り、更にそれらに関する書誌データ(書誌的事項)と画
像データの記憶アドレスを知る。
102内の所定のプログラムに従って、入力サブシステ
ムに一時的に貯えられた文書(複数)の固有番号を知
り、更にそれらに関する書誌データ(書誌的事項)と画
像データの記憶アドレスを知る。
【0033】制御サブシステム100は書誌データなど
の記号データを記憶・管理するデータベースファイル1
51と、画像データを記憶・管理するイメージファイル
152を有する。
の記号データを記憶・管理するデータベースファイル1
51と、画像データを記憶・管理するイメージファイル
152を有する。
【0034】入力サブシステム200から読み出された
書誌データは、図5に示す表形式のデータベース(ファ
イル151内に格納してある)に新規レコードとして書
込まれる。上記表は、MAIN−DIR(メインディレ
クトリ)なる名称をもち、以下のようなカラム(データ
欄)を有する。
書誌データは、図5に示す表形式のデータベース(ファ
イル151内に格納してある)に新規レコードとして書
込まれる。上記表は、MAIN−DIR(メインディレ
クトリ)なる名称をもち、以下のようなカラム(データ
欄)を有する。
【0035】・DOC# :本システム内の登録文書に
対する通番 ・ID# :入力サブシステムで付した文書固有番号 ・NP :該文書を構成しているページ数 ・TITLE:表題(文字列) ・AUTHOR:著者名(繰返し、すなわち複数データ
を許す。) ・CLASS:文書の分類,種類などを表わす符号 ・PUBL#:出版物のシステム内登録番号(詳細は図
7に示す表で管理する。) ・VOL,NO,PP:巻,号,頁 ・KWD :複数のキーワード ・ABS :文字コード列(テキストデータ)として
表わされている抄録のテキスト固有番号 ・TXT :文字コード列としての本文の固有番号 ・IMG :画像データの固有番号。各画像データは
頁毎に管理されるので、複数のイメージ固有番号が記録
される。
対する通番 ・ID# :入力サブシステムで付した文書固有番号 ・NP :該文書を構成しているページ数 ・TITLE:表題(文字列) ・AUTHOR:著者名(繰返し、すなわち複数データ
を許す。) ・CLASS:文書の分類,種類などを表わす符号 ・PUBL#:出版物のシステム内登録番号(詳細は図
7に示す表で管理する。) ・VOL,NO,PP:巻,号,頁 ・KWD :複数のキーワード ・ABS :文字コード列(テキストデータ)として
表わされている抄録のテキスト固有番号 ・TXT :文字コード列としての本文の固有番号 ・IMG :画像データの固有番号。各画像データは
頁毎に管理されるので、複数のイメージ固有番号が記録
される。
【0036】書誌データの登録では、上記カラムの内、
書誌データに関係する一部データのみが新規に書き込ま
れる。
書誌データに関係する一部データのみが新規に書き込ま
れる。
【0037】次に、各文書を構成する頁の画像が入力サ
ブシステムの所定の記憶領域から制御サブシステム10
0へ読み出され、イメージファイル152の空領域へ順
次記憶される。同時に、各画像(頁単位)には画像固有
番号(IMGID)が振られる。また、画像データを格
納したファイルのボリューム番号(VOLSER)、フ
ァイル装置番号(UNIT)、同ファイルにおける格納
物理アドレス(PHYSA)、同ファイルに占めた記憶
領域の長さ(SLENG)などを、図6(b)および図
8に示すような表に書き込む。新規に振られた該画像固
有番号IMGIDは表MAIN−DIR(図5)のIM
Gカラムにも記録される。
ブシステムの所定の記憶領域から制御サブシステム10
0へ読み出され、イメージファイル152の空領域へ順
次記憶される。同時に、各画像(頁単位)には画像固有
番号(IMGID)が振られる。また、画像データを格
納したファイルのボリューム番号(VOLSER)、フ
ァイル装置番号(UNIT)、同ファイルにおける格納
物理アドレス(PHYSA)、同ファイルに占めた記憶
領域の長さ(SLENG)などを、図6(b)および図
8に示すような表に書き込む。新規に振られた該画像固
有番号IMGIDは表MAIN−DIR(図5)のIM
Gカラムにも記録される。
【0038】ここで、図6(b)に示す表IMG−LO
Cは、イメージファイル152が、複数の駆動装置、あ
るいは複数のボリュームから構成されているときに特に
有効であり、各画像の所在を管理する。当然、オペレー
タによるボリュームのアンマウントやマウントの動作毎
に更新される。
Cは、イメージファイル152が、複数の駆動装置、あ
るいは複数のボリュームから構成されているときに特に
有効であり、各画像の所在を管理する。当然、オペレー
タによるボリュームのアンマウントやマウントの動作毎
に更新される。
【0039】また、図8は、イメージファイル152の
各ボリューム毎に設けられたディレクトリであり、以下
のカラムを有す。
各ボリューム毎に設けられたディレクトリであり、以下
のカラムを有す。
【0040】・IMGID:画像固有番号 ・PN :文書内の頁通番(1〜n) ・PHYSA:ボリューム内の物理アドレス ・SLENG:記録長(例えばセクタ数) ・CODE :画像圧縮符号名 ・SIZE :画像サイズ(画素数) ・DOC# :文書通番 などである。また、同図において、レコード157のカ
ラムPHYSAのデータはイメージファイル内のイメー
ジデータ領域156内での該画像データ158の先頭ア
ドレスを示している。
ラムPHYSAのデータはイメージファイル内のイメー
ジデータ領域156内での該画像データ158の先頭ア
ドレスを示している。
【0041】さて、以上の動作が終了すると、本システ
ムは書誌的事項とキーワードからの検索が端末群800
から行えるようになる。
ムは書誌的事項とキーワードからの検索が端末群800
から行えるようになる。
【0042】検索用端末から入力された検索条件はゲー
トウェイ175を経由して制御サブシステム100のC
PU101へ転送される。メモリ102の所定の検索処
理プログラムに従って、データベースファイル151内
の表MAIN−DIR153(図5)の検索が行われ
る。表153の主要なカラムに対してはインデキシング
(ハッシングや逆ファイルなどの検索高速化のための手
段)が施されていることは言うまでもない。
トウェイ175を経由して制御サブシステム100のC
PU101へ転送される。メモリ102の所定の検索処
理プログラムに従って、データベースファイル151内
の表MAIN−DIR153(図5)の検索が行われ
る。表153の主要なカラムに対してはインデキシング
(ハッシングや逆ファイルなどの検索高速化のための手
段)が施されていることは言うまでもない。
【0043】検索処理の結果として、表153(図5)
からDOC#のリストと、画像固有番号IMGIDのリ
ストが作られメモリ102の所定の領域に記憶させる。
検索用端末から表示要求を出すと、表IMG−LOC1
54(図6(b))と表IMG−DIR155(図8)
を用いて、イメージファイルの中の位置を同定して、画
像データを逐次メモリ102上へ読み出す。同時に、読
み出された画像データから順に検索用端末へ転送され、
端末上での指示に従って画面上に表示される。
からDOC#のリストと、画像固有番号IMGIDのリ
ストが作られメモリ102の所定の領域に記憶させる。
検索用端末から表示要求を出すと、表IMG−LOC1
54(図6(b))と表IMG−DIR155(図8)
を用いて、イメージファイルの中の位置を同定して、画
像データを逐次メモリ102上へ読み出す。同時に、読
み出された画像データから順に検索用端末へ転送され、
端末上での指示に従って画面上に表示される。
【0044】次に本文内容検索に用いるテキストの管理
方法について説明する。
方法について説明する。
【0045】メインディレクトリMAIN−DIR(図
5)で説明したように、各文書は画像データのみなら
ず、文字コード列で表現されるテキストも記憶・管理さ
れる。本実施例の場合、抄録と本文とが各々テキストと
してテキストファイル451,452,453で記憶・
管理される。各テキスト(文字列)には固有テキスト番
号を振り、表153(図5)のABS欄、TXT欄,図
6(a)に示すTXT−LOC表のTXTID欄、およ
び図9に示すTEXT−DIR表のTXTID欄に記録
される。
5)で説明したように、各文書は画像データのみなら
ず、文字コード列で表現されるテキストも記憶・管理さ
れる。本実施例の場合、抄録と本文とが各々テキストと
してテキストファイル451,452,453で記憶・
管理される。各テキスト(文字列)には固有テキスト番
号を振り、表153(図5)のABS欄、TXT欄,図
6(a)に示すTXT−LOC表のTXTID欄、およ
び図9に示すTEXT−DIR表のTXTID欄に記録
される。
【0046】図9はテキストファイル451,452,
453でのテキスト記憶と管理の方法を示す。同図にお
いて、ファイル記憶領域466には、テキスト本体が一
次元的に記憶される。各テキスト(一本の文字列)には
固有番号TXTIDが振られ、ディレクトリ表、TEX
T−DIR465で管理される。表465は以下のカラ
ムを有す。
453でのテキスト記憶と管理の方法を示す。同図にお
いて、ファイル記憶領域466には、テキスト本体が一
次元的に記憶される。各テキスト(一本の文字列)には
固有番号TXTIDが振られ、ディレクトリ表、TEX
T−DIR465で管理される。表465は以下のカラ
ムを有す。
【0047】・TXTID:テキスト固有番号 ・NCH :該テキストを構成する文字の総数 ・PHYSA:該テキストが記録されている物理的アド
レス ・SLENG:該テキストの記憶媒体上での記録の長さ ・CCLASS:該テキストを表現する文字のクラス
(漢字混り日本文,英文,ローマ字,仮名文字など) 表465のレコード467は、同ファイル内で、該レコ
ードが表わすテキストが、記憶領域内の468の部分で
あることなどを表わしている。
レス ・SLENG:該テキストの記憶媒体上での記録の長さ ・CCLASS:該テキストを表現する文字のクラス
(漢字混り日本文,英文,ローマ字,仮名文字など) 表465のレコード467は、同ファイル内で、該レコ
ードが表わすテキストが、記憶領域内の468の部分で
あることなどを表わしている。
【0048】一方、図4に示す如く、複数のボリューム
にテキストを記録することが可能であり、上記テキスト
ディレクトリは各ボリューム内のテキストを管理するも
のである。複数ボリュームをマウントしている場合、あ
るテキストがどのボリュームに在るのかを知る必要があ
るが、図6(a)に示すTXT−LOC表が各テキスト
の所在を管理する。テキスト固有番号TXTIDを有す
テキストが記録されているボリューム通番VOLSER
と、同ボリュームがマウントされているファイル装置番
号UNITが管理される。当然、オペレータにより物理
的なボリュームがアンマウントされたり、新しくマウン
トされたりすると、TXT−LOCは自動的に更新され
る。
にテキストを記録することが可能であり、上記テキスト
ディレクトリは各ボリューム内のテキストを管理するも
のである。複数ボリュームをマウントしている場合、あ
るテキストがどのボリュームに在るのかを知る必要があ
るが、図6(a)に示すTXT−LOC表が各テキスト
の所在を管理する。テキスト固有番号TXTIDを有す
テキストが記録されているボリューム通番VOLSER
と、同ボリュームがマウントされているファイル装置番
号UNITが管理される。当然、オペレータにより物理
的なボリュームがアンマウントされたり、新しくマウン
トされたりすると、TXT−LOCは自動的に更新され
る。
【0049】さて、大きな動作の流れとして、文書画像
入力,書誌的事項の入力、および文書登録が終了する
と、登録が終了した文書の本文認識(文書理解)が文書
認識装置300によって行われる。該認識装置の入力
は、イメージファイル152内の図1に示したような文
書画像10であり、認識結果出力は同図に同じく示した
ような記号式20である。記号式20内の抄録および本
文のテキスト部分は上記の説明のようにテキストファイ
ル451〜453に新規に記憶され、管理される。文書
認識を図10に示す文書認識装置の詳細ブロック図を用
いて説明する。
入力,書誌的事項の入力、および文書登録が終了する
と、登録が終了した文書の本文認識(文書理解)が文書
認識装置300によって行われる。該認識装置の入力
は、イメージファイル152内の図1に示したような文
書画像10であり、認識結果出力は同図に同じく示した
ような記号式20である。記号式20内の抄録および本
文のテキスト部分は上記の説明のようにテキストファイ
ル451〜453に新規に記憶され、管理される。文書
認識を図10に示す文書認識装置の詳細ブロック図を用
いて説明する。
【0050】該認識装置300は制御サブシステム10
0のバス110とバスアダプタ371を介して接続され
CPU301により制御される。メモリ302は該装置
の動作を制御するためのプログラムとパラメータなどの
データを記憶する。
0のバス110とバスアダプタ371を介して接続され
CPU301により制御される。メモリ302は該装置
の動作を制御するためのプログラムとパラメータなどの
データを記憶する。
【0051】認識すべき画像データはイメージファイル
152からメモリ321へ転送される。該画像データは
圧縮符号化されており、画像処理回路IP322により
ビット表現画像に復号化され、再度メモリ321に記憶
される。続いて、ビット表現に直された画像からパター
ンの輪郭抽出をIP322が行い、抽出結果を再びメモ
リ321に格納する。
152からメモリ321へ転送される。該画像データは
圧縮符号化されており、画像処理回路IP322により
ビット表現画像に復号化され、再度メモリ321に記憶
される。続いて、ビット表現に直された画像からパター
ンの輪郭抽出をIP322が行い、抽出結果を再びメモ
リ321に格納する。
【0052】抽出された輪郭データは次のように表わさ
れる。
れる。
【0053】
【数1】 (i Ci xmax,i xmin,i ymax,i ymin,i xsi ysi (θ1i L1i)……(θni Lni)) …(1) ここでiは輪郭の固有番号(1,2,3,……)であ
り、Ciは該輪郭のクラスを表わす。Ci=0は外輪郭
(図11の実線1001)を表わし、Ci=1は内輪郭
(図11の破線1002)を表わす。xmax,xmin,y
max,yminは図11に示すように、輪郭の外郭四角形の
頂点の座標を表わす。(xs,ys)は輪郭長のある一点
Ps(例えば輪郭探索で最初に見い出された点)の座標
である。輪郭データ自体は、点Psを基点として、図1
2に示す如く、量子化された方向コードθと、同方向が
連続する画素数Lとの組の列で表わされる。
り、Ciは該輪郭のクラスを表わす。Ci=0は外輪郭
(図11の実線1001)を表わし、Ci=1は内輪郭
(図11の破線1002)を表わす。xmax,xmin,y
max,yminは図11に示すように、輪郭の外郭四角形の
頂点の座標を表わす。(xs,ys)は輪郭長のある一点
Ps(例えば輪郭探索で最初に見い出された点)の座標
である。輪郭データ自体は、点Psを基点として、図1
2に示す如く、量子化された方向コードθと、同方向が
連続する画素数Lとの組の列で表わされる。
【0054】次に、数(1)で表わされる輪郭データか
ら、傾き補正回路323は文書入力時に発生した傾き角
度を検出し、輪郭データを補正して再びメモリ321へ
書き戻す。同傾き補正アルゴリズムとしては例えば特願
昭60−152210にて開示した方式を用いることが
できる。
ら、傾き補正回路323は文書入力時に発生した傾き角
度を検出し、輪郭データを補正して再びメモリ321へ
書き戻す。同傾き補正アルゴリズムとしては例えば特願
昭60−152210にて開示した方式を用いることが
できる。
【0055】傾き補正を施した輪郭データの内、特に外
郭四角形を表わすデータ部分(xmax,xmin,ymax,
ymin)から、次に行切り出しと、列切り出しとをボト
ムアップセグメンタ(BSG)324により行う。
郭四角形を表わすデータ部分(xmax,xmin,ymax,
ymin)から、次に行切り出しと、列切り出しとをボト
ムアップセグメンタ(BSG)324により行う。
【0056】ボトムアップセグメンタBSGは数(1)
の形式で表わされるデータを入力し、数(2)で表わさ
れるパターンリストを生成し、メモリ321に格納す
る。
の形式で表わされるデータを入力し、数(2)で表わさ
れるパターンリストを生成し、メモリ321に格納す
る。
【0057】
【数2】 (j xmax,j xmin,j ymax,j ymin,j) …(2) ここでjはパターン固有番号であり、パターンは互いに
重ならない矩形領域として定義され、数(2)は更に該
矩形領域の頂点座標を定義する。たとえば、図13で、
破線で示す矩形領域1008,1009はBSGの入力
であるが、BSGの結果として矩形1010が得られ
る。矩形1008,1009は各々一つの輪郭から作ら
れ、成分(エレメント)であり、矩形1010は一つの
文字を形成するパターンである。パターンjを構成する
成分は数(2)で定義される矩形領域に含まれる矩形を
数(1)の輪郭データから探索することにより求めるこ
とができる。もしくは別途求めておいて、データとして
格納しておいてもよい。図14に行切り出し処理の結果
を、図15に列切り出し処理の結果を図式的に示す。
重ならない矩形領域として定義され、数(2)は更に該
矩形領域の頂点座標を定義する。たとえば、図13で、
破線で示す矩形領域1008,1009はBSGの入力
であるが、BSGの結果として矩形1010が得られ
る。矩形1008,1009は各々一つの輪郭から作ら
れ、成分(エレメント)であり、矩形1010は一つの
文字を形成するパターンである。パターンjを構成する
成分は数(2)で定義される矩形領域に含まれる矩形を
数(1)の輪郭データから探索することにより求めるこ
とができる。もしくは別途求めておいて、データとして
格納しておいてもよい。図14に行切り出し処理の結果
を、図15に列切り出し処理の結果を図式的に示す。
【0058】文字切り出し部(CSG)325は、文書
の書式などの規則をまとめた文書知識を参照しながら、
上記パターンリストから文字を構成するパターンを抽出
する。文書知識は図10に示す如く、文書知識ファイル
(DKF)327に格納されている。
の書式などの規則をまとめた文書知識を参照しながら、
上記パターンリストから文字を構成するパターンを抽出
する。文書知識は図10に示す如く、文書知識ファイル
(DKF)327に格納されている。
【0059】文書知識ファイルには、文書の種類毎に、
その表題,著者名,著者の所属,抄録,本文などのレイ
アウト(配置)の構造的な規則などが、フォントの大き
さなどのパラメトリックな知識とともに記憶されてい
る。これらの知識は書式記述言語により記述する。書式
記述言語としては、特願昭60−122425に開示し
た言語を用いることができる。
その表題,著者名,著者の所属,抄録,本文などのレイ
アウト(配置)の構造的な規則などが、フォントの大き
さなどのパラメトリックな知識とともに記憶されてい
る。これらの知識は書式記述言語により記述する。書式
記述言語としては、特願昭60−122425に開示し
た言語を用いることができる。
【0060】文字切り出し部CSGでは、一文字を本来
構成するものでありながら、2つ以上のパターンに分れ
てしまったものの統合や、逆に2つ以上の文字が1つの
パターンに接触により融合してしまったものの強制的な
分離という処理も行う。
構成するものでありながら、2つ以上のパターンに分れ
てしまったものの統合や、逆に2つ以上の文字が1つの
パターンに接触により融合してしまったものの強制的な
分離という処理も行う。
【0061】文字切り出し部CSGは、処理結果とし
て、表題とか抄録、あるいは本文といった項目ごとに、
各文字を構成するパターンの番号をリストとして出力す
る。たとえば、
て、表題とか抄録、あるいは本文といった項目ごとに、
各文字を構成するパターンの番号をリストとして出力す
る。たとえば、
【0062】
【数3】 (ABSTRACT (j1 j2 j3…(jn jn+1 jn+2)…jN)) …(3) は抄録がパターン番号jkで表わされる文字の列で構成
されることを表わす。ここで、(jn jn+1 jn+2)は
該文字がjn,jn+1,jn+2番目の3つのパターンで構
成されていることを表わす。
されることを表わす。ここで、(jn jn+1 jn+2)は
該文字がjn,jn+1,jn+2番目の3つのパターンで構
成されていることを表わす。
【0063】文字認識部(CRG)331は、上記パタ
ーンリスト(例えば数(3))とメモリ321上にある
輪郭データ(数(1)で表現)とから、各文字パターン
を構成する輪郭データを前述のごとく抽出し、特徴抽出
が可能なデータ構造に変換する。
ーンリスト(例えば数(3))とメモリ321上にある
輪郭データ(数(1)で表現)とから、各文字パターン
を構成する輪郭データを前述のごとく抽出し、特徴抽出
が可能なデータ構造に変換する。
【0064】文字認識手法としては公知の技術を用いる
ことができるので詳細な説明は省略するが、輪郭データ
から特徴抽出を行った後、標準パターンファイル333
内の標準パターンとのパターン整合を行って、各文字を
認識することができる。図10において、メモリSTP
M334は、参照頻度が高い標準パターンを記憶するた
めのものであり、高速処理を目的とする。
ことができるので詳細な説明は省略するが、輪郭データ
から特徴抽出を行った後、標準パターンファイル333
内の標準パターンとのパターン整合を行って、各文字を
認識することができる。図10において、メモリSTP
M334は、参照頻度が高い標準パターンを記憶するた
めのものであり、高速処理を目的とする。
【0065】文字認識の結果は、前述したごとく、図1
に示すような記号20で出力する。文字認識における最
終判定過程において、パターン整合の結果得られる類似
度が数(4)を満すときは、該類似度を与える文字カテ
ゴリ(文字コード)ωkを出力する。
に示すような記号20で出力する。文字認識における最
終判定過程において、パターン整合の結果得られる類似
度が数(4)を満すときは、該類似度を与える文字カテ
ゴリ(文字コード)ωkを出力する。
【0066】
【数4】 ρk≧ρl min(ρk−ρl)≧ε(但し、k≠l) for l=1,2,…,K …(4) ここで、ρkは文字カテゴリkに対する類似度、Kは全
カテゴリ数、εは相対閾値である。
カテゴリ数、εは相対閾値である。
【0067】もし、数(4)が満されない場合には、数
(5)を満す文字カテゴリの集合{ωk|k=k1,
k2,…}を、特殊な2つの文字コードに挟んで出力す
る。例えば、ωsωk1ωk2…ωeなる文字(コード)列を
出力する。ここでωsは“〔”,ωeは“〕”を表わす。
(5)を満す文字カテゴリの集合{ωk|k=k1,
k2,…}を、特殊な2つの文字コードに挟んで出力す
る。例えば、ωsωk1ωk2…ωeなる文字(コード)列を
出力する。ここでωsは“〔”,ωeは“〕”を表わす。
【0068】
【数5】 ρk≧ρl for l=1,2,…,K ρk−ρki≦ε1 ki {1,2,3,…,K} …(5) 以上のような処理により、類似文字が存在して数(4)
が満足されない場合には、例えば、「フルテキストサー
チ」という入力パターンに対して、「フルテキス〔ト
卜〕サ〔ー一−〕チ」という認識結果が得られる。認識
結果はメモリ321上にバッファリングされた後、一括
してメモリ102(図4)に転送される。
が満足されない場合には、例えば、「フルテキストサー
チ」という入力パターンに対して、「フルテキス〔ト
卜〕サ〔ー一−〕チ」という認識結果が得られる。認識
結果はメモリ321上にバッファリングされた後、一括
してメモリ102(図4)に転送される。
【0069】制御サブシステム100では、表TXT−
LOC(図6)を参照して最大のテキスト固有番号を検
出し、値1を加算した値を新規のテキスト固有番号とし
て、認識結果の文字コード列(テキスト)を登録する。
登録処理は、メインディレクトリ153,表TXT−L
OCおよび表465(図9)に対して行われ、テキスト
データ自体はテキストファイル451〜453のいずれ
かに格納する。
LOC(図6)を参照して最大のテキスト固有番号を検
出し、値1を加算した値を新規のテキスト固有番号とし
て、認識結果の文字コード列(テキスト)を登録する。
登録処理は、メインディレクトリ153,表TXT−L
OCおよび表465(図9)に対して行われ、テキスト
データ自体はテキストファイル451〜453のいずれ
かに格納する。
【0070】さて、以上のようにして、テキストデータ
が与えられた文書に対しては、テキストサータサブシス
テム400を用いた検索を行うことが可能である。
が与えられた文書に対しては、テキストサータサブシス
テム400を用いた検索を行うことが可能である。
【0071】次に、本文内容検索のためのテキストサー
チサブシステム400とその動作について詳しく説明す
る。
チサブシステム400とその動作について詳しく説明す
る。
【0072】端末800で発せられる本文内容検索の要
求、たとえば「ABS=*モジニンシキ*」は制御サブ
システム100へまず転送される。サブシステム100
では、被検索文書が既にキーワード検索などによって絞
られている場合には、該文書に付随しているテキストの
固有番号をメインディレクトリ153から選択し、更に
表TXT−LOCを参照することにより、テキストファ
イル毎に、被検索テキスト固有番号のリスト数(6)を
作成する。
求、たとえば「ABS=*モジニンシキ*」は制御サブ
システム100へまず転送される。サブシステム100
では、被検索文書が既にキーワード検索などによって絞
られている場合には、該文書に付随しているテキストの
固有番号をメインディレクトリ153から選択し、更に
表TXT−LOCを参照することにより、テキストファ
イル毎に、被検索テキスト固有番号のリスト数(6)を
作成する。
【0073】
【数6】 (ui vi(ti1 ti2…tin)) i=1,2,…,M …(6) ここで、uiはi番目のファイル装置番号、viが該ボリ
ューム通番、tikは該ボリューム上で検索すべきk番目
のテキストのテキスト固有番号である。また、Mはテキ
ストファイル装置の最大数である。
ューム通番、tikは該ボリューム上で検索すべきk番目
のテキストのテキスト固有番号である。また、Mはテキ
ストファイル装置の最大数である。
【0074】一方、被検索文書が全体である場合には、
特殊な記号(例えば数(7))が全テキストファイルに
対して送られる。
特殊な記号(例えば数(7))が全テキストファイルに
対して送られる。
【0075】
【数7】 (ui vi *) i=1,2,…,M …(7) リスト数(6)、或いは数(7)と、部分文字列(たと
えば「モジニンシキ」)が制御サブシステム100か
ら、バスアダプタ172を経由して、テキストサーチサ
ブシステム400内のメモリ402へ転送される。
えば「モジニンシキ」)が制御サブシステム100か
ら、バスアダプタ172を経由して、テキストサーチサ
ブシステム400内のメモリ402へ転送される。
【0076】サブシステム400(図4)では、メモリ
402内の所定のプログラムに従って、転送された該部
分文字列の仮名漢字変換,異表記発生処理,同義語処理
などを行う。仮名漢字変換辞書,異表記発生規則,同義
語辞書はファイル403に記憶されている。
402内の所定のプログラムに従って、転送された該部
分文字列の仮名漢字変換,異表記発生処理,同義語処理
などを行う。仮名漢字変換辞書,異表記発生規則,同義
語辞書はファイル403に記憶されている。
【0077】仮名漢字変換により「モジニンシキ」から
「文字認識」が得られる。同義語辞書を参照することに
より更に「文字読み取り」が得られる。これらの結果に
対して異表記発生規則を適用すると、「文字読み取り」
から、送り仮名の異る異表記「文字読取り」と「文字読
取」が得られる。仮名漢字変換や同義語発生には公知技
術を用いることができる。
「文字認識」が得られる。同義語辞書を参照することに
より更に「文字読み取り」が得られる。これらの結果に
対して異表記発生規則を適用すると、「文字読み取り」
から、送り仮名の異る異表記「文字読取り」と「文字読
取」が得られる。仮名漢字変換や同義語発生には公知技
術を用いることができる。
【0078】異表記発生規則とは送り仮名,人名などの
旧字体などの多様性を扱うためのものであり、以下のよ
うな書換規則で表わされる。
旧字体などの多様性を扱うためのものであり、以下のよ
うな書換規則で表わされる。
【0079】
【数8】 (R1)XみYり→XYり|XY (R2)XみYき→XYき|XY (R3)XりYり→XYり|XY (R4)XきYみ→XYみ|XY : : (R101)XみYる→XYる (R102)XりYる→XYる (R103)XきYむ→XYむ : (R201)Xなる→Xる : (R501)藤沢→藤澤 : …(8) ここで、X,Yは任意の漢字であり、「|」は併置を意
味する。更に、異表記発生に関しては例えば、特開昭6
0−150176で表示の方法もとることができる。
味する。更に、異表記発生に関しては例えば、特開昭6
0−150176で表示の方法もとることができる。
【0080】異表記発生処理は、入力文字列に数(8)
の規則の左辺が当てはまるものが存在するか否かを判定
し、存在する場合には、当該規則の右辺を生成する。但
し、変数X,Yには当てはめられた漢字を挿入する。
の規則の左辺が当てはまるものが存在するか否かを判定
し、存在する場合には、当該規則の右辺を生成する。但
し、変数X,Yには当てはめられた漢字を挿入する。
【0081】上記の処理により、結局、「モジニンシ
キ」に対して、文字列の集合(文字認識,文字読み取
り,文字読取り,文字読取)が得られる。これを数
(9)で表わすことにする。
キ」に対して、文字列の集合(文字認識,文字読み取
り,文字読取り,文字読取)が得られる。これを数
(9)で表わすことにする。
【0082】
【数9】 (A1…Ai…An)=((a11a12…a1m1) : (ai1ai2…aimi) : (an1an2…anmn) …(9) ここで、nは文字列の数、miはi番目の文字列の長
さ、aijはi番目の文字列Aiの先頭からj番目の文字
コードである。
さ、aijはi番目の文字列Aiの先頭からj番目の文字
コードである。
【0083】サブシステム400は更に文字列集合数
(9)を所定のプログラムにより、図2で説明した有限
オートマトンを表わす状態遷移リスト数(10)に変換
する。
(9)を所定のプログラムにより、図2で説明した有限
オートマトンを表わす状態遷移リスト数(10)に変換
する。
【0084】
【数10】 alist=((Sj1 Ck1 Sl1) : (Sji Cki Sli) : (Sjm Ckm Slm)) …(10) ここで、リストalist数(10)の各要素は、状態Sji
において、文字Ckiが入力された(に一致した)場合、
状態はSliに遷移することができることを意味する。ま
た、同式において、{Sj1,…,Sji,…,Sjm}の中
には互いに等しいものが含まれている。
において、文字Ckiが入力された(に一致した)場合、
状態はSliに遷移することができることを意味する。ま
た、同式において、{Sj1,…,Sji,…,Sjm}の中
には互いに等しいものが含まれている。
【0085】更に、出力リスト数(11)を生成する。
【0086】
【数11】 σlist=((Sj1 Aj1) : (Sjp Aip) : (Sjn Ain)) …(11) ここで、(Sjp Aip)は、状態Sjpに到達した時点
で、文字列Aipが見つかったことを意味する。一般にオ
ートマトンで出力関数と呼ばれるものに相当する。図1
6に、文字列集合数(11)から状態遷移リスト数(1
0)と、出力リスト数(11)を導出するアルゴリズム
のPAD図式(Program Analysis Diagram)を示す。
で、文字列Aipが見つかったことを意味する。一般にオ
ートマトンで出力関数と呼ばれるものに相当する。図1
6に、文字列集合数(11)から状態遷移リスト数(1
0)と、出力リスト数(11)を導出するアルゴリズム
のPAD図式(Program Analysis Diagram)を示す。
【0087】次に、失敗遷移リスト数(12)を状態遷
移リスト数(10)より作る。
移リスト数(10)より作る。
【0088】
【数12】 flist=((S0 Sj0)…(Mm Sjm)) …(12) flistの要素(Sm Sjm)は、状態Smに於いて入力さ
れた文字Ckに対して、遷移すべき状態がalist数(1
0)の中に指定されていなかった場合には、flistを参
照して状態Sjmに遷移することを指定する。一般に失敗
関数と呼ばれることがある。
れた文字Ckに対して、遷移すべき状態がalist数(1
0)の中に指定されていなかった場合には、flistを参
照して状態Sjmに遷移することを指定する。一般に失敗
関数と呼ばれることがある。
【0089】flistを設ける目的は、部分文字列マッチ
ングにおいて、ある文字列の途中までマッチングが成功
したが次の文字が一致しない場合、すなわち所定の状態
遷移先が見つからない場合に、初期状態S0に状態を戻
すことは一般に正しくない場合があることに対処するた
めである。例えば、2つの部分文字列{文字認識,光学
的文字読取装置}を探索することを想定する。いま、
「…光学的文字認識…」という文章を入力したとする
と、「光学的文字」までの部分が2番目の部分文字列に
一致するが、次の文字「認」がマッチングしない。ここ
でもし、状態をS0にまで戻して、リセットしてしまう
と、オートマトンは「認識…」以降の文章を入力文字と
してしまうため、結局、「文字認識」という部分文字列
を見落してしまうことになる。従って、マッチングが失
敗した場合の遷移すべき状態はS0ではなく、「文字認
識」の遷移パスの「字」までをマッチングした状態にす
る必要がある。
ングにおいて、ある文字列の途中までマッチングが成功
したが次の文字が一致しない場合、すなわち所定の状態
遷移先が見つからない場合に、初期状態S0に状態を戻
すことは一般に正しくない場合があることに対処するた
めである。例えば、2つの部分文字列{文字認識,光学
的文字読取装置}を探索することを想定する。いま、
「…光学的文字認識…」という文章を入力したとする
と、「光学的文字」までの部分が2番目の部分文字列に
一致するが、次の文字「認」がマッチングしない。ここ
でもし、状態をS0にまで戻して、リセットしてしまう
と、オートマトンは「認識…」以降の文章を入力文字と
してしまうため、結局、「文字認識」という部分文字列
を見落してしまうことになる。従って、マッチングが失
敗した場合の遷移すべき状態はS0ではなく、「文字認
識」の遷移パスの「字」までをマッチングした状態にす
る必要がある。
【0090】さて次に、サブシステム400は、上記説
明の如く作成した状態遷移リストalist,出力リストσ
list,および失敗遷移リストflistを下位のフレキシブ
ルストリングマッチング回路FSM501〜503に転
送する。
明の如く作成した状態遷移リストalist,出力リストσ
list,および失敗遷移リストflistを下位のフレキシブ
ルストリングマッチング回路FSM501〜503に転
送する。
【0091】フレキシブルストリングマッチング回路5
01のより詳細なブロック図を図17に示す。(FMS
502,503についても同様である。)上記3種類の
リストalist,σlist,flistはバスアダプタ571を
経由してメモリ513の所定のエリアに格納される。マ
イクロプロセッサ511は所定のマイクロプログラムに
よって、上記情報をもとに図18(b)に示す拡張有限
オートマトンを状態遷移行列の形で生成する。
01のより詳細なブロック図を図17に示す。(FMS
502,503についても同様である。)上記3種類の
リストalist,σlist,flistはバスアダプタ571を
経由してメモリ513の所定のエリアに格納される。マ
イクロプロセッサ511は所定のマイクロプログラムに
よって、上記情報をもとに図18(b)に示す拡張有限
オートマトンを状態遷移行列の形で生成する。
【0092】該リストalistおよびflistが直接的に意
味するところの有限オートマトンは図18(a)に示す
単純な形をしている。同図はalistの中の
味するところの有限オートマトンは図18(a)に示す
単純な形をしている。同図はalistの中の
【0093】
【数13】 (Sj Ck1 Sl1) } …(13) (Sj Ck2 Sl2) なる2つの遷移を図示したものである。
【0094】マイクロプロセッサ511は図18(a)
で示す有限オートマトンを同図(b)の如く拡張変換す
る。同変換は一意的に定まる変換である。この変換によ
り、曖昧性を有する被検索テキストからも、所定の部分
文字列を探し出すことが可能となる。ここで、同図にお
いて、f(Sj)は失敗遷移リストflistから作られる
失敗関数であり、状態Sjでマッチングに失敗したとき
の遷移先の状態を表わす。また、状態Wjは状態Sjに一
対一に対応するものであり、曖昧な文字列(記号〔 〕
で囲まれた文字列)をスキャンしている状態である。更
にまた、状態T j1,Tj2は状態Sjからの遷移に対応し
て、状態Wjから派生する状態であり、曖昧な文字列の
中に探索中の文字(同図の場合、CK1またはCK2)を見
い出した状態である。
で示す有限オートマトンを同図(b)の如く拡張変換す
る。同変換は一意的に定まる変換である。この変換によ
り、曖昧性を有する被検索テキストからも、所定の部分
文字列を探し出すことが可能となる。ここで、同図にお
いて、f(Sj)は失敗遷移リストflistから作られる
失敗関数であり、状態Sjでマッチングに失敗したとき
の遷移先の状態を表わす。また、状態Wjは状態Sjに一
対一に対応するものであり、曖昧な文字列(記号〔 〕
で囲まれた文字列)をスキャンしている状態である。更
にまた、状態T j1,Tj2は状態Sjからの遷移に対応し
て、状態Wjから派生する状態であり、曖昧な文字列の
中に探索中の文字(同図の場合、CK1またはCK2)を見
い出した状態である。
【0095】実際には、マイクロプロセッサ511は2
つのリストalistとflistから図19(a)に示す状態
遷移表を直接生成することが出来る。該状態遷移表の列
(縦)は現在の状態を表わし、行(横)は同状態で入力
される文字(コード)に対応する。表の中には、次に遷
移すべき状態が記される。同状態遷移表を生成するアル
ゴリズムは図18による説明から容易に類推できるの
で、説明を省略する。
つのリストalistとflistから図19(a)に示す状態
遷移表を直接生成することが出来る。該状態遷移表の列
(縦)は現在の状態を表わし、行(横)は同状態で入力
される文字(コード)に対応する。表の中には、次に遷
移すべき状態が記される。同状態遷移表を生成するアル
ゴリズムは図18による説明から容易に類推できるの
で、説明を省略する。
【0096】マイクロプロセッサ511は更に出力リス
トσlistを図19(b)に示す出力表の形に変換して上
記状態遷移表とともにメモリ513の所定のエリアに記
録する。
トσlistを図19(b)に示す出力表の形に変換して上
記状態遷移表とともにメモリ513の所定のエリアに記
録する。
【0097】以下に、上記有限状態オートマトンを用い
たストリングサーチアルゴリズムを記す。
たストリングサーチアルゴリズムを記す。
【0098】 ここで、関数(c,S)は図19(a)に示す状態遷移
表から、文字cと現在の状態Sをもとに次の状態を求め
る関数である。また、関数out(S)は図19(b)
に示す出力表を参照して状態Sに出力があるか否かを判
断する関数である。
表から、文字cと現在の状態Sをもとに次の状態を求め
る関数である。また、関数out(S)は図19(b)
に示す出力表を参照して状態Sに出力があるか否かを判
断する関数である。
【0099】なお、上記説明では1文字のコードの単位
に状態を割当てているが、日本語のように1文字のコー
ドが2バイトになる場合は、1バイトづつに分割して、
上記方法を適用することができる。
に状態を割当てているが、日本語のように1文字のコー
ドが2バイトになる場合は、1バイトづつに分割して、
上記方法を適用することができる。
【0100】次に、テキストサーチサブシステム400
は、上位から送られて来る被検索テキスト固有番号リス
ト数(6),数(7)を受理し、各FSMで検索処理す
べきテキスト固有番号リストとして、対応するFSMへ
転送する。従って各FSMは、対応するテキストファイ
ルに検索対象が存在すれば、その固有番号(ti1 ti2
ti3 …… tin)を得る。テキスト固有番号リストはメ
モリ513(図17)に格納される。マイクロプロセッ
サMPU511はマイクロプログラムメモリ512内の
所定のプログラム(図20参照)に従って、まず各テキ
ストの所在物理アドレスを検知する。テキスト固有番号
と物理アドレスは図9で説明したTEXT−DIRで管
理されており、該表をファイル451から読み出して検
知することができる。
は、上位から送られて来る被検索テキスト固有番号リス
ト数(6),数(7)を受理し、各FSMで検索処理す
べきテキスト固有番号リストとして、対応するFSMへ
転送する。従って各FSMは、対応するテキストファイ
ルに検索対象が存在すれば、その固有番号(ti1 ti2
ti3 …… tin)を得る。テキスト固有番号リストはメ
モリ513(図17)に格納される。マイクロプロセッ
サMPU511はマイクロプログラムメモリ512内の
所定のプログラム(図20参照)に従って、まず各テキ
ストの所在物理アドレスを検知する。テキスト固有番号
と物理アドレスは図9で説明したTEXT−DIRで管
理されており、該表をファイル451から読み出して検
知することができる。
【0101】マイクロプロセッサ511は次に各テキス
トデータをファイル451から読み出す。ファイル制御
部531は読み出したテキストデータ(文字列)を逐次
FIFO(First-in-first-out)回路532へ入力す
る。マイクロプロセッサMPU511はFIFO532
から一文字づつ読み出し、メモリ513内に定義されて
いる有限オートマトン(図18(b))に従って所定の
部分文字列が存在するか否かを検定する。ストリングマ
ッチング結果blist(図20参照)を上位プロセッサの
メモリ402へ返送する。
トデータをファイル451から読み出す。ファイル制御
部531は読み出したテキストデータ(文字列)を逐次
FIFO(First-in-first-out)回路532へ入力す
る。マイクロプロセッサMPU511はFIFO532
から一文字づつ読み出し、メモリ513内に定義されて
いる有限オートマトン(図18(b))に従って所定の
部分文字列が存在するか否かを検定する。ストリングマ
ッチング結果blist(図20参照)を上位プロセッサの
メモリ402へ返送する。
【0102】CPU401は所定のプログラムに従っ
て、下位の複数のFSMから返送される検索条件が合致
したテキスト固有番号リストを1つにまとめ、更に上位
の制御サブシステム内のメモリ102に転送する。テキ
スト固有番号から、メインディレクトリ153(図5)
を参照することにより、部分文字列がマツチングした文
書の固有番号DOC#や文書画像の固有番号IMGID
あるいは表題TITLEなどを同定することが出来る。
て、下位の複数のFSMから返送される検索条件が合致
したテキスト固有番号リストを1つにまとめ、更に上位
の制御サブシステム内のメモリ102に転送する。テキ
スト固有番号から、メインディレクトリ153(図5)
を参照することにより、部分文字列がマツチングした文
書の固有番号DOC#や文書画像の固有番号IMGID
あるいは表題TITLEなどを同定することが出来る。
【0103】これらの検索結果は端末800へ返送され
る。ユーザは表題などをCRT上で見ながら、所望の文
書の画像を同CRTに呼び出して表示することができ
る。
る。ユーザは表題などをCRT上で見ながら、所望の文
書の画像を同CRTに呼び出して表示することができ
る。
【0104】次に第二の実施例について説明する。該実
施例ではフレキシブルストリングマッチング回路501
のみの構成方法が異っている。図21は第二の実施例に
おけるフレキシブルストリングマッチング回路FSMの
構成図である。
施例ではフレキシブルストリングマッチング回路501
のみの構成方法が異っている。図21は第二の実施例に
おけるフレキシブルストリングマッチング回路FSMの
構成図である。
【0105】同図において、2次記憶装置(テキストフ
ァイル)461は同時に信号の読み出しができる複数の
ヘッドを有しており、本実施例では、同時に4個のヘッ
ドからデータを読み出すことが可能である。該データは
ファイル制御装置FCU541を経由して、各々4個の
FIFO回路551〜554へ転送される。
ァイル)461は同時に信号の読み出しができる複数の
ヘッドを有しており、本実施例では、同時に4個のヘッ
ドからデータを読み出すことが可能である。該データは
ファイル制御装置FCU541を経由して、各々4個の
FIFO回路551〜554へ転送される。
【0106】一方、上位サブシステム400から送られ
る検索条件はマイクロプロセッサ511で翻訳された
後、データメモリを内包するマイクロプロセッサユニッ
トMPU1〜MPU4561〜564へ転送される。
る検索条件はマイクロプロセッサ511で翻訳された
後、データメモリを内包するマイクロプロセッサユニッ
トMPU1〜MPU4561〜564へ転送される。
【0107】テキストファイル461から読み出される
テキストデータはFIFO回路551〜554を経由し
て、各々マイクロプロセッサユニット561〜564へ
読み出される。該マイクロプロセッサユニットは並行し
て、4本の文字列(テキストデータ)の中から所定の部
分文字列を探索し、結果をデータバス521を介してマ
イクロプロセッサ511へ返送する。
テキストデータはFIFO回路551〜554を経由し
て、各々マイクロプロセッサユニット561〜564へ
読み出される。該マイクロプロセッサユニットは並行し
て、4本の文字列(テキストデータ)の中から所定の部
分文字列を探索し、結果をデータバス521を介してマ
イクロプロセッサ511へ返送する。
【0108】他の部分は第一の実施例と等しいので説明
を省略する。
を省略する。
【0109】次に第三の実施例について説明する。同実
施例では、ハードウェア構成は第一の実施例または第二
の実施例と等しいが、テキストサーチ処理が異なる。
施例では、ハードウェア構成は第一の実施例または第二
の実施例と等しいが、テキストサーチ処理が異なる。
【0110】階層的な検索法を用いて、まずキーワード
や分類コードを用いて被検索文書を絞り込む場合を考え
ると、同過程でスクリーンされた被検索文書はあるテキ
ストファイルのボリュームに偏在していることが一般的
にある。
や分類コードを用いて被検索文書を絞り込む場合を考え
ると、同過程でスクリーンされた被検索文書はあるテキ
ストファイルのボリュームに偏在していることが一般的
にある。
【0111】本実施例システムでは、複数のテキストフ
ァイルボリュームに、多重性を有効にするために重複し
てテキストデータを記憶する。CPU401(図4参
照)は所定のプログラムに従って、複数のボリュームに
多重に記憶されているテキストについては、複数のボリ
ュームへのアクセス回数が均等になるようにアクセスす
べきボリュームを選択する。本方式を用いれば、すべて
のフレキシブルストリングマッチング回路が効率よく動
作し、全体として高速な探索が可能となる。
ァイルボリュームに、多重性を有効にするために重複し
てテキストデータを記憶する。CPU401(図4参
照)は所定のプログラムに従って、複数のボリュームに
多重に記憶されているテキストについては、複数のボリ
ュームへのアクセス回数が均等になるようにアクセスす
べきボリュームを選択する。本方式を用いれば、すべて
のフレキシブルストリングマッチング回路が効率よく動
作し、全体として高速な探索が可能となる。
【0112】以上の実施例では、フレキシブルストリン
グサーチ回路の多重度は3〜4となっているが、本発明
方式では多重度は限定されない。
グサーチ回路の多重度は3〜4となっているが、本発明
方式では多重度は限定されない。
【0113】また、テキストサーチは文書全体に対して
一様に行うとして説明したが、ページの境界に関する情
報をテキスト中に特殊記号で記録しておき、ストリング
マッチングが成功したページ番号をも、マッチング結果
として出力するように拡張することが可能であり、同方
式も本発明に含まれる。
一様に行うとして説明したが、ページの境界に関する情
報をテキスト中に特殊記号で記録しておき、ストリング
マッチングが成功したページ番号をも、マッチング結果
として出力するように拡張することが可能であり、同方
式も本発明に含まれる。
【0114】更にまた、説明は日本語テキストについて
行ったが、全く同様に英語などの他の言語にも適用する
ことが可能である。
行ったが、全く同様に英語などの他の言語にも適用する
ことが可能である。
【0115】また、上記実施例ではテキストデータは文
字認識により抽出するとしたが、明らかに人手などによ
って入力されたテキストデータに対しても本文内容検索
の方式は適用可能であり、本発明に含まれる。
字認識により抽出するとしたが、明らかに人手などによ
って入力されたテキストデータに対しても本文内容検索
の方式は適用可能であり、本発明に含まれる。
【0116】更にまた、システム形態は図4に示す形態
で説明したが、小形システム,スタンドアロン形システ
ムにおいても、その本質とするところは変わらず、本発
明が含む所である。特に、別システムで用意したテキス
トファイルとイメージファイルをロードして小規模な検
索ステーションとすることが考えられるが、本発明に含
まれる。
で説明したが、小形システム,スタンドアロン形システ
ムにおいても、その本質とするところは変わらず、本発
明が含む所である。特に、別システムで用意したテキス
トファイルとイメージファイルをロードして小規模な検
索ステーションとすることが考えられるが、本発明に含
まれる。
【0117】また、検索条件は論理的演算子によって組
合せることが可能なことや、ある相対的位置関係を満す
部分文字列の探索が可能となるように拡張できること
は、言うまでもない。特に、複数の部分文字列のそれぞ
れがどこに存在したかも出力することにより、後処理に
より組合せ的な高度な検索が高速に実現される。
合せることが可能なことや、ある相対的位置関係を満す
部分文字列の探索が可能となるように拡張できること
は、言うまでもない。特に、複数の部分文字列のそれぞ
れがどこに存在したかも出力することにより、後処理に
より組合せ的な高度な検索が高速に実現される。
【0118】
【発明の効果】以上、本発明システムによれば、文書の
本文などの中身を参照して所望の文書を高速に検索する
ことが可能となり、文書を登録した時点では考えられな
かった概念からも効率よく検索することが可能となる。
特に、登録時に、分類コードやキーワードとして何が適
切かを付するのに過度に悩む必要がなくなる。結果とし
て、検索精度を高めることが可能となると同時に、ノイ
ズ発生率を低くおくさえることが可能となる。
本文などの中身を参照して所望の文書を高速に検索する
ことが可能となり、文書を登録した時点では考えられな
かった概念からも効率よく検索することが可能となる。
特に、登録時に、分類コードやキーワードとして何が適
切かを付するのに過度に悩む必要がなくなる。結果とし
て、検索精度を高めることが可能となると同時に、ノイ
ズ発生率を低くおくさえることが可能となる。
【0119】更に、テキストサーチサブシステムの中を
並列化することにより、高速な本文検索が可能となる。
特に、読み出しヘッド毎にストリングマッチング回路を
付加することにより高速化が達成される。
並列化することにより、高速な本文検索が可能となる。
特に、読み出しヘッド毎にストリングマッチング回路を
付加することにより高速化が達成される。
【0120】大規模な文書ファイルを対象にする検索の
場合には、キーワードや書誌的事項により被検索文書を
減らしてから、本文内容検索を行うことができ、全体と
して効率のよい検索が行える。
場合には、キーワードや書誌的事項により被検索文書を
減らしてから、本文内容検索を行うことができ、全体と
して効率のよい検索が行える。
【0121】また、文書画像からテキストデータを得る
には従来技術では文書認識結果を人間が逐次検査し、誤
りを修正する必要があったが、本発明によれば人間の介
在を無くすことが可能である。従来は上記理由から実質
的には本文内容検索が実現されておらず、本発明によっ
て効果的な本文内容検索が可能となる。
には従来技術では文書認識結果を人間が逐次検査し、誤
りを修正する必要があったが、本発明によれば人間の介
在を無くすことが可能である。従来は上記理由から実質
的には本文内容検索が実現されておらず、本発明によっ
て効果的な本文内容検索が可能となる。
【図1】文書画像と文書理解の結果を示す図。
【図2】部分文字列から生成される同音異義語と同義語
の文字列の状態遷移図。
の文字列の状態遷移図。
【図3】曖昧性を含む文字認識結果の文字列の状態遷移
図。
図。
【図4】第一の実施例のシステム構成図。
【図5】文書,画像,テキストを蓄積・管理する方法を
説明する図。
説明する図。
【図6】文書,画像,テキストを蓄積・管理する方法を
説明する図。
説明する図。
【図7】文書,画像,テキストを蓄積・管理する方法を
説明する図。
説明する図。
【図8】文書,画像,テキストを蓄積・管理する方法を
説明する図。
説明する図。
【図9】文書,画像,テキストを蓄積・管理する方法を
説明する図。
説明する図。
【図10】文書認識装置のブロック図。
【図11】文字パターンを囲む矩形領域の説明図。
【図12】パターンを記述する輪郭形状の表現方法を説
明する図。
明する図。
【図13】パターン成分と文字パターンの関係を説明す
る図。
る図。
【図14】ボトムアップセグメンタによる行切り出しの
結果を示す図。
結果を示す図。
【図15】ボトムアップセグメンタによる列切り出しの
結果を示す図。
結果を示す図。
【図16】文字列集合から状態遷移リストを得るアルゴ
リズムの説明図。
リズムの説明図。
【図17】フレキシブルストリングマッチング回路(F
SM回路)のブロック図。
SM回路)のブロック図。
【図18】曖昧文字列を許容する拡張有限状態オートマ
トン。
トン。
【図19】拡張有限状態オートマトンの状態遷移表。
【図20】FSM回路のプログラムを説明する図。
【図21】第二の実施例におけるFSM回路の構成図。
100…制御サブシステム、200…入力サブシステ
ム、300…文書認識装置、400…テキストサーチサ
ブシステム、800…検索用端末サブシステム、501
…フレキシブルストリングマッチング回路、151…デ
ータベースファイル、152…イメージファイル、45
1…テキストファイル。
ム、300…文書認識装置、400…テキストサーチサ
ブシステム、800…検索用端末サブシステム、501
…フレキシブルストリングマッチング回路、151…デ
ータベースファイル、152…イメージファイル、45
1…テキストファイル。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06F 15/62 330G (72)発明者 東野 純一 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 花野井 歳弘 神奈川県小田原市国府津2880番地 株式 会社日立製作所小田原工場内 (56)参考文献 特開 昭55−121572(JP,A) 特開 昭60−114967(JP,A) 東野他“書式定義言語による文書画像 理解”昭和60年度電子通信学会総合全国 大会講演論文集VOL.6,NO.S10 −2(1985−3−5)PP.6−289〜 290.
Claims (3)
- 【請求項1】文書画像を蓄積するイメージファイルと、 文書の種類ごとに文書構造のレイアウト規則を記憶する
文書知識ファイルと、上記文書画像からパターン成分を
抽出する画像処理手段と、上記文書画像から切り出され
た文字パターンを文字認識する文字認識手段とを有し
て、上記文書知識ファイルに記憶された文書構造のレイ
アウト規則を参照して、上記画像処理手段により抽出さ
れたパターン成分を解析して文書構造ごとに文字を構成
する文字パターンを切り出し、上記切り出された文字パ
ターンを上記文字認識手段により文字認識して文字列を
得る文書認識手段と、 上記文書認識手段により得た文字列を文書構造に対応さ
せて蓄積する蓄積手段と、 検索要求を受けて上記蓄積手段に対して検索を行い、検
索要求を満たす文書を同定する検索手段と、 上記検索手段により同定された文書の文書画像を上記イ
メージファイルから出力する出力手段とを有することを
特徴とする文書ファイリングシステム。 - 【請求項2】上記蓄積手段は、文書構造のうち書誌的事
項について記憶するデータベースファイルと、文書の本
文を含むテキストを記憶するテキストファイルとを有
し、 上記文書認識手段は、文書構造の名称と対応する文字列
とを組にして出力し、 上記文書構造の名称によって、上記対応する文字列を上
記データベースファイル若しくは上記テキストファイル
に記憶することを特徴とする請求項1記載の文書ファイ
リングシステム。 - 【請求項3】上記文書認識手段における上記文書知識フ
ァイルには、文書の表題、著者名、著者の所属、抄録、
本文を含む文書構造のレイアウト規則に加えて、フォン
トの大きさなどのパラメトリックな知識をも記憶するこ
とを特徴とする請求項1記載の文書ファイリングシステ
ム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7232285A JP2560656B2 (ja) | 1995-09-11 | 1995-09-11 | 文書ファイリングシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7232285A JP2560656B2 (ja) | 1995-09-11 | 1995-09-11 | 文書ファイリングシステム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6071820A Division JPH06342483A (ja) | 1994-04-11 | 1994-04-11 | 文書ファイリングシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0887528A JPH0887528A (ja) | 1996-04-02 |
JP2560656B2 true JP2560656B2 (ja) | 1996-12-04 |
Family
ID=16936833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7232285A Expired - Lifetime JP2560656B2 (ja) | 1995-09-11 | 1995-09-11 | 文書ファイリングシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2560656B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3608965B2 (ja) * | 1998-12-18 | 2005-01-12 | シャープ株式会社 | 自動オーサリング装置および記録媒体 |
JP3772606B2 (ja) * | 1999-10-19 | 2006-05-10 | 株式会社日立製作所 | 電子文書管理方法及びシステム並びに記録媒体 |
US7539681B2 (en) * | 2004-07-26 | 2009-05-26 | Sourcefire, Inc. | Methods and systems for multi-pattern searching |
-
1995
- 1995-09-11 JP JP7232285A patent/JP2560656B2/ja not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
東野他"書式定義言語による文書画像理解"昭和60年度電子通信学会総合全国大会講演論文集VOL.6,NO.S10−2(1985−3−5)PP.6−289〜290. |
Also Published As
Publication number | Publication date |
---|---|
JPH0887528A (ja) | 1996-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5628003A (en) | Document storage and retrieval system for storing and retrieving document image and full text data | |
US4985863A (en) | Document storage and retrieval system | |
JP3289968B2 (ja) | 電子的文書処理のための装置および方法 | |
JP3427692B2 (ja) | 文字認識方法および文字認識装置 | |
JP2726568B2 (ja) | 文字認識方法及び装置 | |
US5706365A (en) | System and method for portable document indexing using n-gram word decomposition | |
JP3292388B2 (ja) | 文書画像の復号なしに文書を要約するための方法と装置 | |
US5164899A (en) | Method and apparatus for computer understanding and manipulation of minimally formatted text documents | |
US6353840B2 (en) | User-defined search template for extracting information from documents | |
EP1745396B1 (en) | Document information mining tool | |
JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
JP2007122403A (ja) | 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム | |
Yurtsever et al. | Figure search by text in large scale digital document collections | |
US11361565B2 (en) | Natural language processing (NLP) pipeline for automated attribute extraction | |
JP2560656B2 (ja) | 文書ファイリングシステム | |
JP3727995B2 (ja) | 文書処理方法及び装置 | |
Setlur et al. | Creation of data resources and design of an evaluation test bed for Devanagari script recognition | |
JPH06342483A (ja) | 文書ファイリングシステム | |
JPS61248160A (ja) | 文書情報登録方式 | |
JP3693734B2 (ja) | 情報検索装置およびその情報検索方法 | |
JPH08272813A (ja) | ファイリング装置 | |
JPS6154569A (ja) | 文書画像処理方式 | |
JP2005189955A (ja) | 文書処理方法、文書処理装置、制御プログラム及び記録媒体 | |
JP3045886B2 (ja) | 手書き入力機能付き文字処理装置 | |
JPH06223107A (ja) | 辞書検索装置 |