JPH05158984A - 文字列抽出装置 - Google Patents

文字列抽出装置

Info

Publication number
JPH05158984A
JPH05158984A JP3321893A JP32189391A JPH05158984A JP H05158984 A JPH05158984 A JP H05158984A JP 3321893 A JP3321893 A JP 3321893A JP 32189391 A JP32189391 A JP 32189391A JP H05158984 A JPH05158984 A JP H05158984A
Authority
JP
Japan
Prior art keywords
logical element
logical
character string
document information
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3321893A
Other languages
English (en)
Inventor
Shiyou Imasato
詔 今郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP3321893A priority Critical patent/JPH05158984A/ja
Publication of JPH05158984A publication Critical patent/JPH05158984A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 利用者の所望により多数の文書情報から文字
列を部分的に抽出できるようにする。 【構成】 予め内容文字列が論理要素として階層構造で
区分された文書情報に対し、キーワードによる文字列の
検索と所定手段による論理要素の特定とを共に実行す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書ファイリングシス
テム等に利用される文字列抽出装置に関するものであ
る。
【0002】
【従来の技術】現在、文書情報を情報管理することが要
望されており、予めメモリに格納した文書情報から所定
の文字列を抽出する文字列抽出装置は、抽出条件として
入力されるキーワードを内包した文字列を文書情報から
抽出するようになっている。このような文字列抽出装置
では、文書情報として予め種別を想定しないものとする
ものとが提案されており、例えば、予め文書情報の種別
を想定しない文字列抽出装置では、文書情報がテキスト
ファイル形式で形成されていればキーワードに基づいて
文字列を抽出することができる。一方、予め文書情報の
種別を想定する文字列抽出装置として、例えば、木本晴
夫が第一回人工知能学会全国大会(1987年)で提案した
「言語処理を用いたキーワード自動抽出」では、文書情
報を新聞記事などと仮定して文書構造の特性に依存して
文字列であるキーワードを抽出するようになっている。
【0003】
【発明が解決しようとする課題】上述のように、予め文
書情報の種別を想定しない文字列抽出装置では、テキス
トファイル形式の文書情報から文字列を抽出することが
できるが、これでは文字列の抽出精度を向上させること
が困難である。つまり、このような文書情報を人間が読
取った場合は内容的に「題名」や「要旨」及び「章」等を認識
することができるので、文字列を文書情報の「要旨」のみ
から抽出するようなことができるが、このような部分的
な抽出作業を機械的に実行することは困難である。
【0004】また、予め文書情報の種別を想定する文字
列抽出装置では、文字列の抽出作業を文書構造の特性に
依存して制御するので文字列の抽出精度は良好となる
が、これは文字列を抽出する文書情報が特定の種別に限
定されるために汎用性が低下している。
【0005】
【課題を解決するための手段】請求項1記載の発明は、
各々所定の識別名称が付与された論理要素として予め内
容文字列が階層構造で区分された文書情報から、抽出条
件として入力されるキーワードを内包した論理要素を抽
出するようにした文字列抽出装置において、予め抽出対
象として設定された論理要素の識別名称を記憶した要素
名称テーブルを設け、予め各キーワード毎に対応する論
理要素の識別名称を前記文書情報内の位置と共に記憶し
た転置テーブルを設け、入力されたキーワードに基づい
て前記転置テーブルから所定の論理要素の識別名称を検
出する対応要素検出手段を設け、この対応要素検出手段
が検出した論理要素より階層構造が上位の論理要素を検
出する上位要素検出手段を設け、この上位要素検出手段
が検出する論理要素から前記要素名称テーブルに記憶さ
れた論理要素と識別名称が一致して最も階層構造が下位
の論理要素を抽出する要素抽出手段を設けた。
【0006】請求項2記載の発明は、各々所定の識別名
称が付与された論理要素として予め内容文字列が階層構
造で区分された文書情報から、抽出条件として入力され
るキーワードを内包した論理要素を抽出するようにした
文字列抽出装置において、予め抽出対象として設定され
た論理要素の識別名称を記憶した要素名称テーブルを設
け、予め各キーワード毎に対応する論理要素の識別名称
を前記文書情報内の階層構造の位置と共に記憶した転置
テーブルを設け、入力されたキーワードに基づいて前記
転置テーブルから所定の論理要素の識別名称を階層構造
が上位の論理要素と共に検出する対応要素検出手段を設
け、この対応要素検出手段が検出した論理要素から前記
要素名称テーブルに記憶された論理要素と識別名称が一
致して最も階層構造が下位の論理要素を抽出する要素抽
出手段を設けた。
【0007】請求項3記載の発明は、各々所定の識別名
称が付与された論理要素として予め内容文字列が階層構
造で区分された文書情報から、抽出条件として入力され
るキーワードを内包した論理要素を抽出するようにした
文字列抽出装置において、予め抽出対象として設定され
た論理要素の識別名称を記憶した要素名称テーブルを設
け、入力されたキーワードを内包する論理要素を文書情
報から検索して識別名称を検出する対応要素検出手段を
設け、この対応要素検出手段が検出した論理要素より階
層構造が上位の論理要素を検出する上位要素検出手段を
設け、この上位要素検出手段が検出する論理要素から前
記要素名称テーブルに記憶された論理要素と識別名称が
一致して最も階層構造が下位の論理要素を抽出する要素
抽出手段を設けた。
【0008】請求項4記載の発明は、各々所定の識別名
称が付与された論理要素として予め内容文字列が階層構
造で区分された文書情報から、抽出条件として入力され
るキーワードを内包した論理要素を抽出するようにした
文字列抽出装置において、予め抽出対象として設定され
た論理要素の識別名称を記憶した要素名称テーブルを設
け、入力されたキーワードを内包する論理要素を文書情
報から検索して識別名称を検出する対応要素検出手段を
設け、この対応要素検出手段が検出した論理要素から前
記要素名称テーブルに記憶された論理要素と識別名称が
一致して最も階層構造が下位の論理要素を抽出する要素
抽出手段を設けた。
【0009】請求項5記載の発明は、各々所定の識別名
称が付与された論理要素として予め内容文字列が階層構
造で区分された文書情報から、抽出対象として入力され
る論理要素と識別名称が一致すると共に抽出条件として
入力されるキーワードを内包した論理要素を抽出するよ
うにした文字列抽出装置において、予め各キーワード毎
に対応する論理要素の識別名称を前記文書情報内の位置
と共に記憶した転置テーブルを設け、入力されたキーワ
ードに基づいて前記転置テーブルから所定の論理要素の
識別名称を検出する対応要素検出手段を設け、この対応
要素検出手段が検出した論理要素より階層構造が上位の
論理要素を検出する上位要素検出手段を設け、この上位
要素検出手段が検出する論理要素から抽出対象として入
力された論理要素と識別名称が一致して最も階層構造が
下位の論理要素を抽出する要素抽出手段を設けた。
【0010】請求項6記載の発明は、各々所定の識別名
称が付与された論理要素として予め内容文字列が階層構
造で区分された文書情報から、抽出対象として入力され
る論理要素と識別名称が一致すると共に抽出条件として
入力されるキーワードを内包した論理要素を抽出するよ
うにした文字列抽出装置において、予め各キーワード毎
に対応する論理要素の識別名称を前記文書情報内の階層
構造の位置と共に記憶した転置テーブルを設け、入力さ
れたキーワードに基づいて前記転置テーブルから所定の
論理要素の識別名称を階層構造が上位の論理要素と共に
検出する対応要素検出手段を設け、この対応要素検出手
段が検出した論理要素から抽出対象として入力された論
理要素と識別名称が一致して最も階層構造が下位の論理
要素を抽出する要素抽出手段を設けた。
【0011】請求項7記載の発明は、各々所定の識別名
称が付与された論理要素として予め内容文字列が階層構
造で区分された文書情報から、抽出対象として入力され
る論理要素と識別名称が一致すると共に抽出条件として
入力されるキーワードを内包した論理要素を抽出するよ
うにした文字列抽出装置において、入力されたキーワー
ドを内包する論理要素を文書情報から検索して識別名称
を検出する対応要素検出手段を設け、この対応要素検出
手段が検出した論理要素より階層構造が上位の論理要素
を検出する上位要素検出手段を設け、この上位要素検出
手段が検出する論理要素から抽出対象として入力された
論理要素と識別名称が一致して最も階層構造が下位の論
理要素を抽出する要素抽出手段を設けた。
【0012】請求項8記載の発明は、各々所定の識別名
称が付与された論理要素として予め内容文字列が階層構
造で区分された文書情報から、抽出対象として入力され
る論理要素と識別名称が一致すると共に抽出条件として
入力されるキーワードを内包した論理要素を抽出するよ
うにした文字列抽出装置において、入力されたキーワー
ドを内包する論理要素を文書情報から検索して識別名称
を検出する対応要素検出手段を設け、この対応要素検出
手段が検出した論理要素から抽出対象として入力された
論理要素と識別名称が一致して最も階層構造が下位の論
理要素を抽出する要素抽出手段を設けた。
【0013】請求項9記載の発明は、請求項1ないし8
記載の発明において、要素抽出手段が抽出した論理要素
より階層構造が上位の論理要素と下位の論理要素とを選
択的に抽出する結果拡縮手段を設けた。
【0014】
【作用】請求項1記載の発明は、利用者が指定したキー
ワードに対応して文書情報から部分的に文字列を抽出す
ることができるので、文書情報の全体を検出してから利
用者が所望の文字列を抽出するような必要がなく、文字
列の抽出精度が良好で利用者の作業負担を軽減すること
ができ、さらに、文字列を抽出する文書情報として複数
の種別を設定しておくことができるので、利用する文書
情報の汎用性を向上させることができる。
【0015】請求項2記載の発明は、利用者が指定した
キーワードに対応して文書情報から部分的に文字列を抽
出することができるので、文書情報の全体を検出してか
ら利用者が所望の文字列を抽出するような必要がなく、
文字列の抽出精度が良好で利用者の作業負担を軽減する
ことができ、さらに、文字列を抽出する文書情報として
複数の種別を設定しておくことができるので、利用する
文書情報の汎用性を向上させることができ、しかも、階
層構造が上位の論理要素を検出する上位要素検出手段を
設ける必要がないので、構造の簡略化や処理速度の向上
にも寄与することができる。
【0016】請求項3記載の発明は、利用者が指定した
キーワードに対応して文書情報から部分的に文字列を抽
出することができるので、文書情報の全体を検出してか
ら利用者が所望の文字列を抽出するような必要がなく、
文字列の抽出精度が良好で利用者の作業負担を軽減する
ことができ、さらに、文字列を抽出する文書情報として
複数の種別を設定しておくことができるので、利用する
文書情報の汎用性を向上させることができ、しかも、予
め各キーワード毎に論理要素の識別名称と文書情報内の
位置とを記憶した転置テーブルを設ける必要がないの
で、構造の簡略化や生産性の改善に寄与することができ
る。
【0017】請求項4記載の発明は、利用者が指定した
キーワードに対応して文書情報から部分的に文字列を抽
出することができるので、文書情報の全体を検出してか
ら利用者が所望の文字列を抽出するような必要がなく、
文字列の抽出精度が良好で利用者の作業負担を軽減する
ことができ、さらに、文字列を抽出する文書情報として
複数の種別を設定しておくことができるので、利用する
文書情報の汎用性を向上させることができ、しかも、予
め各キーワード毎に論理要素の識別名称と文書情報内の
位置とを記憶した転置テーブルを設ける必要がなく、階
層構造が上位の論理要素を検出する上位要素検出手段を
設ける必要もないので、構造の簡略化や処理速度の向上
及び生産性の改善等に寄与することができる。
【0018】請求項5記載の発明は、利用者が指定した
キーワードと論理要素とに対応して文書情報から部分的
に文字列を抽出することができるので、文書情報の全体
を検出してから利用者が所望の文字列を抽出するような
必要がなく、文字列の抽出精度が極めて良好で利用者の
作業負担を軽減することができ、さらに、文字列を抽出
する文書情報として複数の種別を設定しておくことがで
きるので、利用する文書情報の汎用性を向上させること
ができ、しかも、予め抽出条件となる論理要素の識別名
称を記憶した要素名称テーブルを設ける必要がないの
で、構造の簡略化や処理速度の向上に寄与することがで
きる。
【0019】請求項6記載の発明は、利用者が指定した
キーワードと論理要素とに対応して文書情報から部分的
に文字列を抽出することができるので、文書情報の全体
を検出してから利用者が所望の文字列を抽出するような
必要がなく、文字列の抽出精度が良好で利用者の作業負
担を軽減することができ、さらに、文字列を抽出する文
書情報として複数の種別を設定しておくことができるの
で、利用する文書情報の汎用性を向上させることがで
き、しかも、階層構造が上位の論理要素を検出する上位
要素検出手段を設ける必要がなく、予め抽出条件となる
論理要素の識別名称を記憶した要素名称テーブルを設け
る必要もないので、構造の簡略化や処理速度の向上にも
寄与することができる。
【0020】請求項7記載の発明は、利用者が指定した
キーワードに対応して文書情報から部分的に文字列を抽
出することができるので、文書情報の全体を検出してか
ら利用者が所望の文字列を抽出するような必要がなく、
文字列の抽出精度が良好で利用者の作業負担を軽減する
ことができ、さらに、文字列を抽出する文書情報として
複数の種別を設定しておくことができるので、利用する
文書情報の汎用性を向上させることができ、しかも、予
め各キーワード毎に論理要素の識別名称と文書情報内の
位置とを記憶した転置テーブルを設ける必要がなく、予
め抽出条件となる論理要素の識別名称を記憶した要素名
称テーブルを設ける必要もないので、構造の簡略化や処
理速度の向上及び生産性の改善に寄与することができる
等の効果を有するものである。
【0021】請求項8記載の発明は、利用者が指定した
キーワードに対応して文書情報から部分的に文字列を抽
出することができるので、文書情報の全体を検出してか
ら利用者が所望の文字列を抽出するような必要がなく、
文字列の抽出精度が良好で利用者の作業負担を軽減する
ことができ、さらに、文字列を抽出する文書情報として
複数の種別を設定しておくことができるので、利用する
文書情報の汎用性を向上させることができ、しかも、予
め各キーワード毎に論理要素の識別名称と文書情報内の
位置とを記憶した転置テーブルを設ける必要がなく、階
層構造が上位の論理要素を検出する上位要素検出手段を
設ける必要がなく、予め抽出条件となる論理要素の識別
名称を記憶した要素名称テーブルを設ける必要もないの
で、構造の簡略化や処理速度の向上及び生産性の改善等
に寄与することができる。
【0022】請求項9記載の発明は、抽出された論理要
素の情報量が過多の場合に下位の論理要素を抽出して情
報量を縮小することや、抽出された論理要素の情報量が
過少の場合に上位の論理要素を抽出して情報量を拡大す
るようなことができ、より良好に文字列の抽出作業を支
援することができる。
【0023】
【実施例】請求項1記載の発明の実施例を図1ないし図
6に基づいて説明する。まず、この文字列抽出装置1
は、利用者が所望により抽出条件として入力するキーワ
ードに基づいて文書情報から所定の文字列を抽出するよ
うになっており、この文字列抽出装置1が文字列を抽出
する文書情報は、図2に例示するように、各々所定の識
別名称が付与された論理要素として予め内容文字列が階
層構造で区分されている。つまり、この文書情報は、
〈title〉のように“〈”と“〉”とで識別名称を挾ん
だ文字列が論理要素の開始を示す開始マークとなってお
り、〈/title〉のように“〈/”と“〉”とで識別名
称を挾んだ文字列が論理要素の終了を示す終了マークと
なっている。なお、上述のように論理要素を文書情報の
内容文字列に付与する具体的手段は、例えば、 ISO 8879 Information processing−Text and office syst
ems−Standard Generalized Markup Language
(SGML)などに開示されている。
【0024】そこで、本実施例で例示する文字列抽出装
置1の構造を、図1のブロック図等に基づいて以下に説
明する。まず、この文字列抽出装置1では、予め多数の
文書情報を格納したデータベース(図示せず)に、文書情
報内の論理要素を識別する文書内容識別手段2と、所定
の論理要素の上位の論理要素を検出する上位要素検出手
段である親論理要素特定手段3と、予め各キーワード毎
に対応する論理要素の識別名称を文書情報内の位置と共
に記憶した転置テーブル4と、予め所定の論理要素の識
別名称を記憶した要素名称テーブルである検索単位論理
要素名テーブル5と、前記転置テーブル4や検索単位論
理要素名テーブル5を参照して文書情報から所定の論理
要素を抽出する対応要素検出手段であり要素抽出手段で
もある文書提示手段6とを接続した構造となっている。
【0025】そこで、このような文字列抽出装置1の各
部の構造を以下に詳述する。まず、前記文書内容識別手
段2は、図3に例示する論理要素の形態を利用した文脈
自由文法などで文書情報から論理構造を識別し、これら
の論理要素を開始マークと内容文字列及び終了マークに
分離して対応関係を検出するようになっている。
【0026】つぎに、前記親論理要素特定手段3は、所
定の論理要素に対して階層構造が上位の論理要素を検出
するようになっており、このような親論理要素の検出を
再帰的に行なうことで祖先の論理要素を順次検出するよ
うになっている。より具体的には、この親論理要素特定
手段3は、以下に例示するような手順に従って親論理要
素の開始点を検出するようになっている。 .カウンタを“1”にセットする。 .指定された論理要素の開始マークの直前の文字にポ
インタを設定する。 .ポインタの位置の文字から開始マークが始まってい
ればカウンタから“1”を減算し、終了マークが始まっ
ていれば“1”を加算する。 .カウンタが“0”ならポインタの位置が親論理要素
の開始点として作業を完了し、“0”でないならポイン
タを一文字だけ前方に移動しての手順に戻る。
【0027】同様に、この文字列抽出装置1の親論理要
素特定手段3では、以下に例示するような手順に従って
親論理要素の終了点を検出するようになっている。 .カウンタを“1”にセットする。 .指定された論理要素の終了マークの直後の文字にポ
インタを設定する。 .ポインタの位置の文字から終了マークが始まってい
ればカウンタから“1”を減算し、開始マークが始まっ
ていれば“1”を加算する。 .カウンタが“0”ならポインタの位置が親論理要素
の終了点として作業を完了し、“0”でないならポイン
タを一文字だけ後方に移動しての手順に戻る。
【0028】このようにすることで、この親論理要素特
定手段3は、所定の論理要素に対して階層構造が上位の
論理要素を順次検出するようになっている。
【0029】つぎに、前記転置テーブル4は、図4に例
示するように、予め各キーワード毎に、対応する文書情
報の名称と、この文書情報内の対応する論理要素の識別
名称と、文書情報内での論理要素の位置とを記憶した構
造となっており、ここでは予め記憶内容をキーワードの
文字コードでソートやハッシュ等しておくことで文書情
報の特定を高速化している。より詳細には、この転置テ
ーブル4は、上述のような文書情報内での論理要素の位
置を開始マークの始点と終了マークの終点との組で記録
しており、その数値は文書情報の先頭からの文字数やバ
イト数等で表現するようになっている。
【0030】また、前記検索単位論理要素名テーブル5
は、図5に例示するように、予め抽出対象として設定さ
れた論理要素を識別名称で記憶した構造となっており、
ここに記録されていない論理要素を抽出対象とする場合
は上位の論理要素の一部として出力されるようになって
いる。
【0031】そして、前記文書提示手段6は、入力され
たキーワードに基づいて前記転置テーブル4から論理要
素を検出し、この検出された論理要素から検索単位論理
要素名テーブル5に記憶された論理要素と識別名称が一
致して最も階層構造が下位の論理要素を抽出するように
なっている。より具体的には、この文書提示手段6は、
以下に例示するような手順に従って論理要素を検出し、
この検出した論理要素の文字列を抽出結果としてディス
プレイ(図示せず)の表示等で利用者に提示するようにな
っている。
【0032】.入力されたキーワードで転置テーブル
4を検索し、対応する文書情報内の論理要素の識別名称
を順次検出してリストを作成する。
【0033】.作成されたリスト内の論理要素の識別
名称と検索単位論理要素名テーブル5内の論理要素の識
別名称とのマッチングを行ない、識別名称が一致した論
理要素の文字列を抽出結果とする。
【0034】.一致する論理要素が存在しない場合
は、検索単位論理要素名テーブル5内の論理要素と識別
名称が一致するまで親論理要素特定手段3で上位の論理
要素を順次検出して抽出結果とし、これでも一致する論
理要素が検出されない場合は文書情報の全体を抽出結果
とする。
【0035】このような構成において、この文字列抽出
装置1の処理作業を図6に例示するフローチャートに基
づいて以下に詳述する。まず、この文字列抽出装置1で
は、利用者が所望するキーワードを入力すると、文書提
示手段6がキーワードに基づいて転置テーブル4から所
定数の論理要素を検出し、この検出された論理要素と検
索単位論理要素名テーブル5に記憶された論理要素との
識別名称のマッチングを行なって識別名称が一致した論
理要素の文字列を抽出結果とする。
【0036】そして、この文字列抽出装置1では、論理
要素の識別名称が一致しない場合は、親論理要素特定手
段3で上位の論理要素の有無を検出し、これが存在する
場合は順次検出される上位の論理要素のうち検索単位論
理要素名テーブル5内の論理要素と識別名称が一致する
最も下位の論理要素を抽出結果とし、これでも一致する
論理要素が検出されない場合は文書情報の全体を抽出結
果とする。
【0037】このようにすることで、この文字列抽出装
置1では、キーワードに対応して文書情報から部分的に
文字列を抽出することができるので、文書情報の全体を
検出してから利用者が所望の文字列を抽出するような必
要がなく、文字列の抽出精度が極めて良好で利用者の作
業負担を軽減することができる。しかも、このような文
字列を抽出する文書情報の部分である論理要素を、予め
キーワードに対応して設定しておくことができるので、
文字列の抽出精度が極めて良好であり、さらに、このよ
うな所定の文字列を抽出する文書情報として複数の種別
を設定しておくことができるので、利用する文書情報の
汎用性を向上させることができる。
【0038】つぎに、請求項2記載の発明の実施例を図
7及び図8に基づいて説明する。まず、この文字列抽出
装置7は、やはり利用者が抽出条件として入力するキー
ワードに基づいて文書情報から所定の文字列を抽出する
ようになっており、図7のブロック図に例示するよう
に、予め多数の文書情報を格納したデータベース(図示
せず)に、文書情報内の論理要素を識別する文書内容識
別手段2と、予め各キーワード毎に対応する論理要素の
識別名称を文書情報内の階層構造の位置と共に記憶した
転置テーブル8と、予め所定の論理要素の識別名称を記
憶した要素名称テーブルである検索単位論理要素名テー
ブル5と、この検索単位論理要素名テーブル5や転置テ
ーブル8を参照して文書情報から所定の論理要素を抽出
する対応要素検出手段であり要素抽出手段でもある文書
提示手段9とを接続した構造となっている。
【0039】そして、この文字列抽出装置7の転置テー
ブル8は、図8に例示するように、予め各キーワード毎
に、対応する文書情報の名称と、この文書情報内の対応
する論理要素の識別名称と、文書情報内での論理要素の
階層構造の位置とを記憶した構造となっており、このよ
うな文書情報内での論理要素の階層構造の位置を開始マ
ークの始点と終了マークの終点との組で記録している。
【0040】なお、この文字列抽出装置7は、上述した
転置テーブル8以外の部位の構造は前述した文字列抽出
装置1と同様になっている。
【0041】このような構成において、この文字列抽出
装置7では、利用者が所望するキーワードを入力する
と、文書提示手段9がキーワードに基づいて転置テーブ
ル8から所定数の論理要素を検出し、この検出された論
理要素と検索単位論理要素名テーブル5に記憶された論
理要素との識別名称のマッチングを行なって識別名称が
一致した最も下位の論理要素の文字列を抽出結果とし、
識別名称が一致する論理要素が存在しない場合は文書情
報の全体を抽出結果とする。
【0042】このようにすることで、この文字列抽出装
置7では、キーワードに対応して文書情報から部分的に
文字列を抽出することができるので、文書情報の全体を
検出してから利用者が所望の文字列を抽出するような必
要がなく、文字列の抽出精度が極めて良好で利用者の作
業負担を軽減することができる。しかも、このような文
字列を抽出する文書情報の部分である論理要素を、予め
キーワードに対応して設定しておくことができるので、
文字列の抽出精度が極めて良好であり、さらに、このよ
うな所定の文字列を抽出する文書情報として複数の種別
を設定しておくことができるので、利用する文書情報の
汎用性を向上させることができる。
【0043】しかも、この文字列抽出装置7では、転置
テーブル8に論理要素の識別名称と文書情報内での階層
構造の位置とを予め記録しておくことで、前述した文字
列抽出装置1のように階層構造が上位の論理要素を検出
する親論理要素特定手段3を設ける必要がなく、構造の
簡略化や処理速度の向上を実現することができる。
【0044】つぎに、請求項3記載の発明の実施例を図
9に基づいて説明する。まず、この文字列抽出装置10
は、やはり利用者が抽出条件として入力するキーワード
に基づいて文書情報から所定の文字列を抽出するように
なっており、図示するように、予め多数の文書情報を格
納したデータベース(図示せず)に、文書情報内の論理要
素を識別する文書内容識別手段2と、所定の論理要素の
上位の論理要素を検出する上位要素検出手段である親論
理要素特定手段3と、予め所定の論理要素の識別名称を
記憶した要素名称テーブルである検索単位論理要素名テ
ーブル5と、この検索単位論理要素名テーブル5を参照
するなどして文書情報から所定の論理要素を抽出する対
応要素検出手段であり要素抽出手段でもある文書提示手
段11とを接続した構造となっている。
【0045】このような構成において、この文字列抽出
装置10では、利用者が所望するキーワードを入力する
と、文書内容識別手段2が解析した文書情報の内容文字
列を文書提示手段11が走査してキーワードを内包する
論理要素を検出し、この検出された論理要素と検索単位
論理要素名テーブル5に記憶された論理要素との識別名
称のマッチングを行なって識別名称が一致した最も下位
の論理要素の文字列を抽出結果とする。
【0046】そして、この文字列抽出装置10では、論
理要素の識別名称が一致しない場合は、親論理要素特定
手段3で順次検出される上位の論理要素のうち検索単位
論理要素名テーブル5内の論理要素と識別名称が一致す
る最も下位の論理要素を抽出結果とし、これでも一致す
る論理要素が検出されない場合は文書情報の全体を抽出
結果とする。
【0047】このようにすることで、この文字列抽出装
置10では、キーワードに対応して文書情報から部分的
に文字列を抽出することができるので、文書情報の全体
を検出してから利用者が所望の文字列を抽出するような
必要がなく、文字列の抽出精度が極めて良好で利用者の
作業負担を軽減することができる。しかも、このような
文字列を抽出する文書情報の部分である論理要素を、予
めキーワードに対応して設定しておくことができるの
で、文字列の抽出精度が極めて良好であり、さらに、こ
のような所定の文字列を抽出する文書情報として複数の
種別を設定しておくことができるので、利用する文書情
報の汎用性を向上させることができる。
【0048】しかも、この文字列抽出装置10では、文
書提示手段11が文書情報の内容文字列からキーワード
を内包する論理要素を検出するので、前述した文字列抽
出装置1等のように予め各キーワード毎に論理要素の識
別名称を文書情報内の位置と共に記憶した転置テーブル
4等を設ける必要がなく、構造の簡略化や生産性の改善
を実現することができる。
【0049】つぎに、請求項4記載の発明の実施例を図
10に基づいて説明する。まず、この文字列抽出装置1
2は、やはり利用者が抽出条件として入力するキーワー
ドに基づいて文書情報から所定の文字列を抽出するよう
になっており、図示するように、予め多数の文書情報を
格納したデータベース(図示せず)に、文書情報内の論理
要素を識別する文書内容識別手段2と、予め所定の論理
要素の識別名称を記憶した要素名称テーブルである検索
単位論理要素名テーブル5と、この検索単位論理要素名
テーブル5を参照するなどして文書情報から所定の論理
要素を抽出する対応要素検出手段であり要素抽出手段で
もある文書提示手段13とを接続した構造となってい
る。
【0050】このような構成において、この文字列抽出
装置12では、利用者が所望するキーワードを入力する
と、文書内容識別手段2が解析した文書情報の内容文字
列を文書提示手段13が走査してキーワードを内包する
論理要素を検出し、この検出された論理要素と検索単位
論理要素名テーブル5に記憶された論理要素との識別名
称のマッチングを行なって識別名称が一致した論理要素
の文字列を抽出結果とし、論理要素の識別名称が一致し
ない場合は文書情報の全体を抽出結果とする。
【0051】このようにすることで、この文字列抽出装
置12では、キーワードに対応して文書情報から部分的
に文字列を抽出することができるので、文書情報の全体
を検出してから利用者が所望の文字列を抽出するような
必要がなく、文字列の抽出精度が極めて良好で利用者の
作業負担を軽減することができる。しかも、このような
文字列を抽出する文書情報の部分である論理要素を、予
めキーワードに対応して設定しておくことができるの
で、文字列の抽出精度が極めて良好であり、さらに、こ
のような所定の文字列を抽出する文書情報として複数の
種別を設定しておくことができるので、利用する文書情
報の汎用性を向上させることができる。
【0052】しかも、この文字列抽出装置12では、文
書提示手段13が文書情報の内容文字列からキーワード
を内包する論理要素を検出するので、前述した文字列抽
出装置1等のように予め各キーワード毎に論理要素の識
別名称を文書情報内の位置と共に記憶した転置テーブル
4を設ける必要がなく、しかも、階層構造が上位の論理
要素を検出する親論理要素特定手段3を設ける必要もな
いので、構造の簡略化や処理速度の向上及び生産性の改
善を実現することができる。
【0053】つぎに、請求項5記載の発明の実施例を図
11及び図12に基づいて説明する。まず、この文字列
抽出装置14は、利用者が抽出条件として入力するキー
ワードと論理要素の識別名称とに基づいて文書情報から
所定の文字列を抽出するようになっており、図11のブ
ロック図に例示するように、予め多数の文書情報を格納
したデータベース(図示せず)に、文書情報内の論理要素
を識別する文書内容識別手段2と、所定の論理要素の上
位の論理要素を検出する上位要素検出手段である親論理
要素特定手段3と、予め各キーワード毎に対応する論理
要素の識別名称を文書情報内の位置と共に記憶した転置
テーブル4と、この転置テーブル4を参照して文書情報
から所定の論理要素を抽出する対応要素検出手段であり
要素抽出手段でもある文書提示手段15とを接続した構
造となっている。
【0054】このような構成において、この文字列抽出
装置14の処理作業を図12に例示するフローチャート
に基づいて以下に詳述する。まず、この文字列抽出装置
14では、利用者が所望するキーワードと論理要素の識
別名称とを入力すると、文書提示手段15がキーワード
に基づいて転置テーブル4から所定数の論理要素を検出
し、この検出された論理要素と利用者が入力した論理要
素との識別名称のマッチングを行なって識別名称が一致
した論理要素の文字列を抽出結果とする。
【0055】そして、この文字列抽出装置14では、論
理要素の識別名称が一致しない場合は、親論理要素特定
手段3で上位の論理要素の有無を検出し、これが存在す
る場合は順次検出される上位の論理要素のうち検索単位
論理要素名テーブル5内の論理要素と識別名称が一致す
る最も下位の論理要素を抽出結果とし、これでも一致す
る論理要素が検出されない場合は処理不能として動作エ
ラーを出力する。
【0056】このようにすることで、この文字列抽出装
置14では、キーワードに対応して文書情報から部分的
に文字列を抽出することができるので、文書情報の全体
を検出してから利用者が所望の文字列を抽出するような
必要がなく、文字列の抽出精度が極めて良好で利用者の
作業負担を軽減することができる。しかも、このような
文字列を抽出する文書情報の部分である論理要素を、予
めキーワードに対応して設定しておくことができるの
で、文字列の抽出精度が極めて良好であり、さらに、こ
のような所定の文字列を抽出する文書情報として複数の
種別を設定しておくことができるので、利用する文書情
報の汎用性を向上させることができる。
【0057】しかも、この文字列抽出装置14では、利
用者が抽出条件としてキーワードと論理要素の識別名称
とを入力するようになっているので、前述した文字列抽
出装置1等のように予め抽出条件となる論理要素の識別
名称を記憶した検索単位論理要素名テーブル5を設ける
必要がなく、構造の簡略化や処理速度の向上を実現する
ことができる。
【0058】つぎに、請求項6記載の発明の実施例を図
13に基づいて説明する。まず、この文字列抽出装置1
6は、やはり利用者が抽出条件として入力するキーワー
ドに基づいて文書情報から所定の文字列を抽出するよう
になっており、予め多数の文書情報を格納したデータベ
ース(図示せず)に、文書情報内の論理要素を識別する文
書内容識別手段2と、予め各キーワード毎に対応する論
理要素の識別名称を文書情報内の階層構造の位置と共に
記憶した転置テーブル8と、この転置テーブル8を参照
して文書情報から所定の論理要素を抽出する対応要素検
出手段であり要素抽出手段でもある文書提示手段17と
を接続した構造となっている。なお、この文字列抽出装
置16の転置テーブル8は、前述した文字列抽出装置7
と同様に、予め各キーワード毎に文書情報の名称と論理
要素の識別名称と論理要素の階層構造の位置とを記憶し
た構造となっている。
【0059】このような構成において、この文字列抽出
装置16では、利用者が所望するキーワードと論理要素
の識別名称とを入力すると、文書提示手段17がキーワ
ードに基づいて転置テーブル8から所定数の論理要素を
検出し、この検出された論理要素と利用者が入力した論
理要素との識別名称のマッチングを行なって識別名称が
一致した最も下位の論理要素の文字列を抽出結果とし、
識別名称が一致する論理要素が存在しない場合は処理不
能として動作エラーを出力する。
【0060】このようにすることで、この文字列抽出装
置16では、キーワードに対応して文書情報から部分的
に文字列を抽出することができるので、文書情報の全体
を検出してから利用者が所望の文字列を抽出するような
必要がなく、文字列の抽出精度が極めて良好で利用者の
作業負担を軽減することができる。しかも、このような
文字列を抽出する文書情報の部分である論理要素を、予
めキーワードに対応して設定しておくことができるの
で、文字列の抽出精度が極めて良好であり、さらに、こ
のような所定の文字列を抽出する文書情報として複数の
種別を設定しておくことができるので、利用する文書情
報の汎用性を向上させることができる。
【0061】しかも、この文字列抽出装置16では、利
用者が抽出条件としてキーワードと論理要素の識別名称
とを入力するようになっているので、前述した文字列抽
出装置1等のように予め抽出条件となる論理要素の識別
名称を記憶した検索単位論理要素名テーブル5を設ける
必要がなく、構造の簡略化や処理速度の向上を実現する
ことができる。さらに、この文字列抽出装置16では、
転置テーブル8に論理要素の識別名称と文書情報内での
階層構造の位置とを予め記録しておくことで、前述した
文字列抽出装置14のように階層構造が上位の論理要素
を検出する親論理要素特定手段3を設ける必要がなく、
構造の簡略化や処理速度の向上を実現することができ
る。
【0062】つぎに、請求項7記載の発明の実施例を図
14に基づいて説明する。まず、この文字列抽出装置1
8は、やはり利用者が抽出条件として入力するキーワー
ドに基づいて文書情報から所定の文字列を抽出するよう
になっており、図示するように、予め多数の文書情報を
格納したデータベース(図示せず)に、文書情報内の論理
要素を識別する文書内容識別手段2と、所定の論理要素
の上位の論理要素を検出する上位要素検出手段である親
論理要素特定手段3と、文書情報から所定の論理要素を
抽出する対応要素検出手段であり要素抽出手段でもある
文書提示手段19とを接続した構造となっている。
【0063】このような構成において、この文字列抽出
装置18では、利用者が所望するキーワードと論理要素
の識別名称とを入力すると、文書内容識別手段2が解析
した文書情報の内容文字列を文書提示手段19が走査し
てキーワードを内包する論理要素を検出し、この検出さ
れた論理要素と利用者が入力した論理要素との識別名称
のマッチングを行なって識別名称が一致した最も下位の
論理要素の文字列を抽出結果とし、識別名称が一致する
論理要素が存在しない場合は処理不能として動作エラー
を出力する。
【0064】このようにすることで、この文字列抽出装
置18では、キーワードに対応して文書情報から部分的
に文字列を抽出することができるので、文書情報の全体
を検出してから利用者が所望の文字列を抽出するような
必要がなく、文字列の抽出精度が極めて良好で利用者の
作業負担を軽減することができる。しかも、このような
文字列を抽出する文書情報の部分である論理要素を、予
めキーワードに対応して設定しておくことができるの
で、文字列の抽出精度が極めて良好であり、さらに、こ
のような所定の文字列を抽出する文書情報として複数の
種別を設定しておくことができるので、利用する文書情
報の汎用性を向上させることができる。
【0065】しかも、この文字列抽出装置18では、利
用者が抽出条件としてキーワードと論理要素の識別名称
とを入力するようになっているので、前述した文字列抽
出装置1等のように予め抽出条件となる論理要素の識別
名称を記憶した検索単位論理要素名テーブル5を設ける
必要がなく、構造の簡略化や処理速度の向上を実現する
ことができる。さらに、この文字列抽出装置18では、
文書提示手段19が文書情報の内容文字列からキーワー
ドを内包する論理要素を検出するので、前述した文字列
抽出装置1等のように予め各キーワード毎に論理要素の
識別名称を文書情報内の位置と共に記憶した転置テーブ
ル4等を設ける必要がなく、構造の簡略化や生産性の改
善を実現することができる。
【0066】つぎに、請求項8記載の発明の実施例を図
15に基づいて説明する。まず、この文字列抽出装置2
0は、やはり利用者が抽出条件として入力するキーワー
ドに基づいて文書情報から所定の文字列を抽出するよう
になっており、図示するように、予め多数の文書情報を
格納したデータベース(図示せず)に、文書情報内の論理
要素を識別する文書内容識別手段2と、文書情報から所
定の論理要素を抽出する対応要素検出手段であり要素抽
出手段でもある文書提示手段21とを接続した構造とな
っている。
【0067】このような構成において、この文字列抽出
装置20では、利用者が所望するキーワードと論理要素
の識別名称とを入力すると、文書内容識別手段2が解析
した文書情報の内容文字列を文書提示手段21が走査し
てキーワードを内包する論理要素を検出し、この検出さ
れた論理要素と利用者が入力した論理要素との識別名称
のマッチングを行なって識別名称が一致した最も下位の
論理要素の文字列を抽出結果とし、識別名称が一致する
論理要素が存在しない場合は処理不能として動作エラー
を出力する。
【0068】このようにすることで、この文字列抽出装
置20では、キーワードに対応して文書情報から部分的
に文字列を抽出することができるので、文書情報の全体
を検出してから利用者が所望の文字列を抽出するような
必要がなく、文字列の抽出精度が極めて良好で利用者の
作業負担を軽減することができる。しかも、このような
文字列を抽出する文書情報の部分である論理要素を、予
めキーワードに対応して設定しておくことができるの
で、文字列の抽出精度が極めて良好であり、さらに、こ
のような所定の文字列を抽出する文書情報として複数の
種別を設定しておくことができるので、利用する文書情
報の汎用性を向上させることができる。
【0069】しかも、この文字列抽出装置20では、利
用者が抽出条件としてキーワードと論理要素の識別名称
とを入力するようになっているので、前述した文字列抽
出装置1等のように予め抽出条件となる論理要素の識別
名称を記憶した検索単位論理要素名テーブル5を設ける
必要がなく、構造の簡略化や処理速度の向上を実現する
ことができる。さらに、この文字列抽出装置20では、
文書提示手段21が文書情報の内容文字列からキーワー
ドを内包する論理要素を検出するので、前述した文字列
抽出装置1等のように予め各キーワード毎に論理要素の
識別名称を文書情報内の位置と共に記憶した転置テーブ
ル4等を設ける必要がなく、また、階層構造が上位の論
理要素を検出する親論理要素特定手段3を設ける必要も
ないので、構造の簡略化や処理速度の向上及び生産性の
改善を実現することができる。
【0070】ここで、上述した各種の文字列抽出装置1
等では、文書情報から所定の論理要素を文字列として抽
出することを想定したが、請求項9記載の発明のよう
に、抽出された論理要素より階層構造が上位の論理要素
と下位の論理要素とを選択的に抽出する結果拡縮手段
(図示せず)を設けることも実施可能である。このように
することで、例えば、抽出された論理要素の情報量が過
多の場合に下位の論理要素を抽出して情報量を縮小する
ことや、抽出された論理要素の情報量が過少の場合に上
位の論理要素を抽出して情報量を拡大するようなことが
できる。より具体的には、抽出した論理要素をディスプ
レイの表示で出力する文字列抽出装置を実施した場合、
抽出された論理要素の下位の論理要素を抽出して情報量
を縮小すると、ディスプレイに最初に表示された文字列
の一部が再表示されることになり、抽出された論理要素
の上位の論理要素を抽出して情報量を拡大すると、ディ
スプレイに最初に表示された文字列を一部とする多量の
文字列が再表示されることになる。
【0071】このようにすることで、この文字列抽出装
置では、利用者の所望により抽出する文字列の容量を可
変することができ、より良好に文字列の抽出作業を支援
することができる。
【0072】
【発明の効果】請求項1記載の発明は、各々所定の識別
名称が付与された論理要素として予め内容文字列が階層
構造で区分された文書情報から、抽出条件として入力さ
れるキーワードを内包した論理要素を抽出するようにし
た文字列抽出装置において、予め抽出対象として設定さ
れた論理要素の識別名称を記憶した要素名称テーブルを
設け、予め各キーワード毎に対応する論理要素の識別名
称を前記文書情報内の位置と共に記憶した転置テーブル
を設け、入力されたキーワードに基づいて前記転置テー
ブルから所定の論理要素の識別名称を検出する対応要素
検出手段を設け、この対応要素検出手段が検出した論理
要素より階層構造が上位の論理要素を検出する上位要素
検出手段を設け、この上位要素検出手段が検出する論理
要素から前記要素名称テーブルに記憶された論理要素と
識別名称が一致して最も階層構造が下位の論理要素を抽
出する要素抽出手段を設けたことにより、利用者が指定
したキーワードに対応して文書情報から部分的に文字列
を抽出することができるので、文書情報の全体を検出し
てから利用者が所望の文字列を抽出するような必要がな
く、文字列の抽出精度が良好で利用者の作業負担を軽減
することができ、さらに、文字列を抽出する文書情報と
して複数の種別を設定しておくことができるので、利用
する文書情報の汎用性を向上させることができる等の効
果を有するものである。
【0073】請求項2記載の発明は、各々所定の識別名
称が付与された論理要素として予め内容文字列が階層構
造で区分された文書情報から、抽出条件として入力され
るキーワードを内包した論理要素を抽出するようにした
文字列抽出装置において、予め抽出対象として設定され
た論理要素の識別名称を記憶した要素名称テーブルを設
け、予め各キーワード毎に対応する論理要素の識別名称
を前記文書情報内の階層構造の位置と共に記憶した転置
テーブルを設け、入力されたキーワードに基づいて前記
転置テーブルから所定の論理要素の識別名称を階層構造
が上位の論理要素と共に検出する対応要素検出手段を設
け、この対応要素検出手段が検出した論理要素から前記
要素名称テーブルに記憶された論理要素と識別名称が一
致して最も階層構造が下位の論理要素を抽出する要素抽
出手段を設けたことにより、利用者が指定したキーワー
ドに対応して文書情報から部分的に文字列を抽出するこ
とができるので、文書情報の全体を検出してから利用者
が所望の文字列を抽出するような必要がなく、文字列の
抽出精度が良好で利用者の作業負担を軽減することがで
き、さらに、文字列を抽出する文書情報として複数の種
別を設定しておくことができるので、利用する文書情報
の汎用性を向上させることができ、しかも、階層構造が
上位の論理要素を検出する上位要素検出手段を設ける必
要がないので、構造の簡略化や処理速度の向上にも寄与
することができる等の効果を有するものである。
【0074】請求項3記載の発明は、各々所定の識別名
称が付与された論理要素として予め内容文字列が階層構
造で区分された文書情報から、抽出条件として入力され
るキーワードを内包した論理要素を抽出するようにした
文字列抽出装置において、予め抽出対象として設定され
た論理要素の識別名称を記憶した要素名称テーブルを設
け、入力されたキーワードを内包する論理要素を文書情
報から検索して識別名称を検出する対応要素検出手段を
設け、この対応要素検出手段が検出した論理要素より階
層構造が上位の論理要素を検出する上位要素検出手段を
設け、この上位要素検出手段が検出する論理要素から前
記要素名称テーブルに記憶された論理要素と識別名称が
一致して最も階層構造が下位の論理要素を抽出する要素
抽出手段を設けたことにより、利用者が指定したキーワ
ードに対応して文書情報から部分的に文字列を抽出する
ことができるので、文書情報の全体を検出してから利用
者が所望の文字列を抽出するような必要がなく、文字列
の抽出精度が良好で利用者の作業負担を軽減することが
でき、さらに、文字列を抽出する文書情報として複数の
種別を設定しておくことができるので、利用する文書情
報の汎用性を向上させることができ、しかも、予め各キ
ーワード毎に論理要素の識別名称と文書情報内の位置と
を記憶した転置テーブルを設ける必要がないので、構造
の簡略化や生産性の改善に寄与することができる等の効
果を有するものである。
【0075】請求項4記載の発明は、各々所定の識別名
称が付与された論理要素として予め内容文字列が階層構
造で区分された文書情報から、抽出条件として入力され
るキーワードを内包した論理要素を抽出するようにした
文字列抽出装置において、予め抽出対象として設定され
た論理要素の識別名称を記憶した要素名称テーブルを設
け、入力されたキーワードを内包する論理要素を文書情
報から検索して識別名称を検出する対応要素検出手段を
設け、この対応要素検出手段が検出した論理要素から前
記要素名称テーブルに記憶された論理要素と識別名称が
一致して最も階層構造が下位の論理要素を抽出する要素
抽出手段を設けたことにより、利用者が指定したキーワ
ードに対応して文書情報から部分的に文字列を抽出する
ことができるので、文書情報の全体を検出してから利用
者が所望の文字列を抽出するような必要がなく、文字列
の抽出精度が良好で利用者の作業負担を軽減することが
でき、さらに、文字列を抽出する文書情報として複数の
種別を設定しておくことができるので、利用する文書情
報の汎用性を向上させることができ、しかも、予め各キ
ーワード毎に論理要素の識別名称と文書情報内の位置と
を記憶した転置テーブルを設ける必要がなく、階層構造
が上位の論理要素を検出する上位要素検出手段を設ける
必要もないので、構造の簡略化や処理速度の向上及び生
産性の改善等に寄与することができる等の効果を有する
ものである。
【0076】請求項5記載の発明は、各々所定の識別名
称が付与された論理要素として予め内容文字列が階層構
造で区分された文書情報から、抽出対象として入力され
る論理要素と識別名称が一致すると共に抽出条件として
入力されるキーワードを内包した論理要素を抽出するよ
うにした文字列抽出装置において、予め各キーワード毎
に対応する論理要素の識別名称を前記文書情報内の位置
と共に記憶した転置テーブルを設け、入力されたキーワ
ードに基づいて前記転置テーブルから所定の論理要素の
識別名称を検出する対応要素検出手段を設け、この対応
要素検出手段が検出した論理要素より階層構造が上位の
論理要素を検出する上位要素検出手段を設け、この上位
要素検出手段が検出する論理要素から抽出対象として入
力された論理要素と識別名称が一致して最も階層構造が
下位の論理要素を抽出する要素抽出手段を設けたことに
より、利用者が指定したキーワードと論理要素とに対応
して文書情報から部分的に文字列を抽出することができ
るので、文書情報の全体を検出してから利用者が所望の
文字列を抽出するような必要がなく、文字列の抽出精度
が極めて良好で利用者の作業負担を軽減することがで
き、さらに、文字列を抽出する文書情報として複数の種
別を設定しておくことができるので、利用する文書情報
の汎用性を向上させることができ、しかも、予め抽出条
件となる論理要素の識別名称を記憶した要素名称テーブ
ルを設ける必要がないので、構造の簡略化や処理速度の
向上に寄与することができる等の効果を有するものであ
る。
【0077】請求項6記載の発明は、各々所定の識別名
称が付与された論理要素として予め内容文字列が階層構
造で区分された文書情報から、抽出対象として入力され
る論理要素と識別名称が一致すると共に抽出条件として
入力されるキーワードを内包した論理要素を抽出するよ
うにした文字列抽出装置において、予め各キーワード毎
に対応する論理要素の識別名称を前記文書情報内の階層
構造の位置と共に記憶した転置テーブルを設け、入力さ
れたキーワードに基づいて前記転置テーブルから所定の
論理要素の識別名称を階層構造が上位の論理要素と共に
検出する対応要素検出手段を設け、この対応要素検出手
段が検出した論理要素から抽出対象として入力された論
理要素と識別名称が一致して最も階層構造が下位の論理
要素を抽出する要素抽出手段を設けたことにより、利用
者が指定したキーワードと論理要素とに対応して文書情
報から部分的に文字列を抽出することができるので、文
書情報の全体を検出してから利用者が所望の文字列を抽
出するような必要がなく、文字列の抽出精度が良好で利
用者の作業負担を軽減することができ、さらに、文字列
を抽出する文書情報として複数の種別を設定しておくこ
とができるので、利用する文書情報の汎用性を向上させ
ることができ、しかも、階層構造が上位の論理要素を検
出する上位要素検出手段を設ける必要がなく、予め抽出
条件となる論理要素の識別名称を記憶した要素名称テー
ブルを設ける必要もないので、構造の簡略化や処理速度
の向上にも寄与することができる等の効果を有するもの
である。
【0078】請求項7記載の発明は、各々所定の識別名
称が付与された論理要素として予め内容文字列が階層構
造で区分された文書情報から、抽出対象として入力され
る論理要素と識別名称が一致すると共に抽出条件として
入力されるキーワードを内包した論理要素を抽出するよ
うにした文字列抽出装置において、入力されたキーワー
ドを内包する論理要素を文書情報から検索して識別名称
を検出する対応要素検出手段を設け、この対応要素検出
手段が検出した論理要素より階層構造が上位の論理要素
を検出する上位要素検出手段を設け、この上位要素検出
手段が検出する論理要素から抽出対象として入力された
論理要素と識別名称が一致して最も階層構造が下位の論
理要素を抽出する要素抽出手段を設けたことにより、利
用者が指定したキーワードに対応して文書情報から部分
的に文字列を抽出することができるので、文書情報の全
体を検出してから利用者が所望の文字列を抽出するよう
な必要がなく、文字列の抽出精度が良好で利用者の作業
負担を軽減することができ、さらに、文字列を抽出する
文書情報として複数の種別を設定しておくことができる
ので、利用する文書情報の汎用性を向上させることがで
き、しかも、予め各キーワード毎に論理要素の識別名称
と文書情報内の位置とを記憶した転置テーブルを設ける
必要がなく、予め抽出条件となる論理要素の識別名称を
記憶した要素名称テーブルを設ける必要もないので、構
造の簡略化や処理速度の向上及び生産性の改善に寄与す
ることができる等の効果を有するものである。
【0079】請求項8記載の発明は、各々所定の識別名
称が付与された論理要素として予め内容文字列が階層構
造で区分された文書情報から、抽出対象として入力され
る論理要素と識別名称が一致すると共に抽出条件として
入力されるキーワードを内包した論理要素を抽出するよ
うにした文字列抽出装置において、入力されたキーワー
ドを内包する論理要素を文書情報から検索して識別名称
を検出する対応要素検出手段を設け、この対応要素検出
手段が検出した論理要素から抽出対象として入力された
論理要素と識別名称が一致して最も階層構造が下位の論
理要素を抽出する要素抽出手段を設けたことにより、利
用者が指定したキーワードに対応して文書情報から部分
的に文字列を抽出することができるので、文書情報の全
体を検出してから利用者が所望の文字列を抽出するよう
な必要がなく、文字列の抽出精度が良好で利用者の作業
負担を軽減することができ、さらに、文字列を抽出する
文書情報として複数の種別を設定しておくことができる
ので、利用する文書情報の汎用性を向上させることがで
き、しかも、予め各キーワード毎に論理要素の識別名称
と文書情報内の位置とを記憶した転置テーブルを設ける
必要がなく、階層構造が上位の論理要素を検出する上位
要素検出手段を設ける必要がなく、予め抽出条件となる
論理要素の識別名称を記憶した要素名称テーブルを設け
る必要もないので、構造の簡略化や処理速度の向上及び
生産性の改善等に寄与することができる等の効果を有す
るものである。
【0080】請求項9記載の発明は、要素抽出手段が抽
出した論理要素より階層構造が上位の論理要素と下位の
論理要素とを選択的に抽出する結果拡縮手段を設けたこ
とにより、抽出された論理要素の情報量が過多の場合に
下位の論理要素を抽出して情報量を縮小することや、抽
出された論理要素の情報量が過少の場合に上位の論理要
素を抽出して情報量を拡大するようなことができ、より
良好に文字列の抽出作業を支援することができる等の効
果を有するものである。
【図面の簡単な説明】
【図1】請求項1記載の発明の実施例を示すブロック図
である。
【図2】文書情報の論理構造を示す概念説明図である。
【図3】文脈自由文法の論理構造を示す概念説明図であ
る。
【図4】転置テーブルの記憶構造を示す概念説明図であ
る。
【図5】特定論理要素名テーブルの記憶構造を示す概念
説明図である。
【図6】文字列抽出の処理工程を示すフローチャートで
ある。
【図7】請求項2記載の発明の実施例を示すブロック図
である。
【図8】転置テーブルの記憶構造を示す概念説明図であ
る。
【図9】請求項3記載の発明の実施例を示すブロック図
である。
【図10】請求項4記載の発明の実施例を示すブロック
図である。
【図11】請求項5記載の発明の実施例を示すブロック
図である。
【図12】文字列抽出の処理工程を示すフローチャート
である。
【図13】請求項6記載の発明の実施例を示すブロック
図である。
【図14】請求項7記載の発明の実施例を示すブロック
図である。
【図15】請求項8記載の発明の実施例を示すブロック
図である。
【符号の説明】
1,7,10,12,14,16,18,20 文字
列抽出装置 3 上位
要素検出手段 4,8 転置
テーブル 5 要素
名称テーブル 6,9,11,13,15,17,19,21 対応
要素検出手段かつ要素抽出手段

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 各々所定の識別名称が付与された論理要
    素として予め内容文字列が階層構造で区分された文書情
    報から、抽出条件として入力されるキーワードを内包し
    た論理要素を抽出するようにした文字列抽出装置におい
    て、予め抽出対象として設定された論理要素の識別名称
    を記憶した要素名称テーブルを設け、予め各キーワード
    毎に対応する論理要素の識別名称を前記文書情報内の位
    置と共に記憶した転置テーブルを設け、入力されたキー
    ワードに基づいて前記転置テーブルから所定の論理要素
    の識別名称を検出する対応要素検出手段を設け、この対
    応要素検出手段が検出した論理要素より階層構造が上位
    の論理要素を検出する上位要素検出手段を設け、この上
    位要素検出手段が検出する論理要素から前記要素名称テ
    ーブルに記憶された論理要素と識別名称が一致して最も
    階層構造が下位の論理要素を抽出する要素抽出手段を設
    けたことを特徴とする文字列抽出装置。
  2. 【請求項2】 各々所定の識別名称が付与された論理要
    素として予め内容文字列が階層構造で区分された文書情
    報から、抽出条件として入力されるキーワードを内包し
    た論理要素を抽出するようにした文字列抽出装置におい
    て、予め抽出対象として設定された論理要素の識別名称
    を記憶した要素名称テーブルを設け、予め各キーワード
    毎に対応する論理要素の識別名称を前記文書情報内の階
    層構造の位置と共に記憶した転置テーブルを設け、入力
    されたキーワードに基づいて前記転置テーブルから所定
    の論理要素の識別名称を階層構造が上位の論理要素と共
    に検出する対応要素検出手段を設け、この対応要素検出
    手段が検出した論理要素から前記要素名称テーブルに記
    憶された論理要素と識別名称が一致して最も階層構造が
    下位の論理要素を抽出する要素抽出手段を設けたことを
    特徴とする文字列抽出装置。
  3. 【請求項3】 各々所定の識別名称が付与された論理要
    素として予め内容文字列が階層構造で区分された文書情
    報から、抽出条件として入力されるキーワードを内包し
    た論理要素を抽出するようにした文字列抽出装置におい
    て、予め抽出対象として設定された論理要素の識別名称
    を記憶した要素名称テーブルを設け、入力されたキーワ
    ードを内包する論理要素を文書情報から検索して識別名
    称を検出する対応要素検出手段を設け、この対応要素検
    出手段が検出した論理要素より階層構造が上位の論理要
    素を検出する上位要素検出手段を設け、この上位要素検
    出手段が検出する論理要素から前記要素名称テーブルに
    記憶された論理要素と識別名称が一致して最も階層構造
    が下位の論理要素を抽出する要素抽出手段を設けたこと
    を特徴とする文字列抽出装置。
  4. 【請求項4】 各々所定の識別名称が付与された論理要
    素として予め内容文字列が階層構造で区分された文書情
    報から、抽出条件として入力されるキーワードを内包し
    た論理要素を抽出するようにした文字列抽出装置におい
    て、予め抽出対象として設定された論理要素の識別名称
    を記憶した要素名称テーブルを設け、入力されたキーワ
    ードを内包する論理要素を文書情報から検索して識別名
    称を検出する対応要素検出手段を設け、この対応要素検
    出手段が検出した論理要素から前記要素名称テーブルに
    記憶された論理要素と識別名称が一致して最も階層構造
    が下位の論理要素を抽出する要素抽出手段を設けたこと
    を特徴とする文字列抽出装置。
  5. 【請求項5】 各々所定の識別名称が付与された論理要
    素として予め内容文字列が階層構造で区分された文書情
    報から、抽出対象として入力される論理要素と識別名称
    が一致すると共に抽出条件として入力されるキーワード
    を内包した論理要素を抽出するようにした文字列抽出装
    置において、予め各キーワード毎に対応する論理要素の
    識別名称を前記文書情報内の位置と共に記憶した転置テ
    ーブルを設け、入力されたキーワードに基づいて前記転
    置テーブルから所定の論理要素の識別名称を検出する対
    応要素検出手段を設け、この対応要素検出手段が検出し
    た論理要素より階層構造が上位の論理要素を検出する上
    位要素検出手段を設け、この上位要素検出手段が検出す
    る論理要素から抽出対象として入力された論理要素と識
    別名称が一致して最も階層構造が下位の論理要素を抽出
    する要素抽出手段を設けたことを特徴とする文字列抽出
    装置。
  6. 【請求項6】 各々所定の識別名称が付与された論理要
    素として予め内容文字列が階層構造で区分された文書情
    報から、抽出対象として入力される論理要素と識別名称
    が一致すると共に抽出条件として入力されるキーワード
    を内包した論理要素を抽出するようにした文字列抽出装
    置において、予め各キーワード毎に対応する論理要素の
    識別名称を前記文書情報内の階層構造の位置と共に記憶
    した転置テーブルを設け、入力されたキーワードに基づ
    いて前記転置テーブルから所定の論理要素の識別名称を
    階層構造が上位の論理要素と共に検出する対応要素検出
    手段を設け、この対応要素検出手段が検出した論理要素
    から抽出対象として入力された論理要素と識別名称が一
    致して最も階層構造が下位の論理要素を抽出する要素抽
    出手段を設けたことを特徴とする文字列抽出装置。
  7. 【請求項7】 各々所定の識別名称が付与された論理要
    素として予め内容文字列が階層構造で区分された文書情
    報から、抽出対象として入力される論理要素と識別名称
    が一致すると共に抽出条件として入力されるキーワード
    を内包した論理要素を抽出するようにした文字列抽出装
    置において、入力されたキーワードを内包する論理要素
    を文書情報から検索して識別名称を検出する対応要素検
    出手段を設け、この対応要素検出手段が検出した論理要
    素より階層構造が上位の論理要素を検出する上位要素検
    出手段を設け、この上位要素検出手段が検出する論理要
    素から抽出対象として入力された論理要素と識別名称が
    一致して最も階層構造が下位の論理要素を抽出する要素
    抽出手段を設けたことを特徴とする文字列抽出装置。
  8. 【請求項8】 各々所定の識別名称が付与された論理要
    素として予め内容文字列が階層構造で区分された文書情
    報から、抽出対象として入力される論理要素と識別名称
    が一致すると共に抽出条件として入力されるキーワード
    を内包した論理要素を抽出するようにした文字列抽出装
    置において、入力されたキーワードを内包する論理要素
    を文書情報から検索して識別名称を検出する対応要素検
    出手段を設け、この対応要素検出手段が検出した論理要
    素から抽出対象として入力された論理要素と識別名称が
    一致して最も階層構造が下位の論理要素を抽出する要素
    抽出手段を設けたことを特徴とする文字列抽出装置。
  9. 【請求項9】 要素抽出手段が抽出した論理要素より階
    層構造が上位の論理要素と下位の論理要素とを選択的に
    抽出する結果拡縮手段を設けたことを特徴とする請求項
    1,2,3,4,5,6,7又は8記載の文字列抽出装
    置。
JP3321893A 1991-12-05 1991-12-05 文字列抽出装置 Pending JPH05158984A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3321893A JPH05158984A (ja) 1991-12-05 1991-12-05 文字列抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3321893A JPH05158984A (ja) 1991-12-05 1991-12-05 文字列抽出装置

Publications (1)

Publication Number Publication Date
JPH05158984A true JPH05158984A (ja) 1993-06-25

Family

ID=18137581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3321893A Pending JPH05158984A (ja) 1991-12-05 1991-12-05 文字列抽出装置

Country Status (1)

Country Link
JP (1) JPH05158984A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161341A (ja) * 1994-12-02 1996-06-21 Fujitsu Ltd インスタンス更新方法及び装置
JP2000010988A (ja) * 1998-06-19 2000-01-14 Nec Corp 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体
JP2009122722A (ja) * 2007-11-09 2009-06-04 Fujitsu Ltd 帳票認識プログラム、帳票認識装置および帳票認識方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161341A (ja) * 1994-12-02 1996-06-21 Fujitsu Ltd インスタンス更新方法及び装置
JP2000010988A (ja) * 1998-06-19 2000-01-14 Nec Corp 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体
JP2009122722A (ja) * 2007-11-09 2009-06-04 Fujitsu Ltd 帳票認識プログラム、帳票認識装置および帳票認識方法

Similar Documents

Publication Publication Date Title
US5778400A (en) Apparatus and method for storing, searching for and retrieving text of a structured document provided with tags
JPH08147320A (ja) 情報検索方法及びシステム
JP2693914B2 (ja) 検索システム
JP2005107931A (ja) 画像検索装置
JPH05158984A (ja) 文字列抽出装置
JP3253657B2 (ja) 文書検索方法
JPH0561910A (ja) 全文インデツクス検索方法
JPH05128159A (ja) キーワード抽出方法及び装置
JPH11161666A (ja) ドキュメントデータ検索方法および装置、並びにドキュメント編集装置
JPH08115340A (ja) 文書検索装置およびそれに用いるインデックスファイルの作成装置
JPH07319890A (ja) 文書登録検索システム
JPH07296005A (ja) 日本語テキスト登録・検索装置
JPH0991305A (ja) 情報処理方法及び装置
JPH0635971A (ja) 文書検索装置
JPH07239861A (ja) 文書検索装置
JPH10320402A (ja) 検索式作成方法、検索式作成装置、及び記録媒体
JPH02253474A (ja) テキストベース検索方法
JPH09269952A (ja) 文書検索装置及びその方法
JPH06309368A (ja) 文書検索装置
JPH07281879A (ja) アプリケーションプログラム編集装置
JPS62282364A (ja) 文字列検索方式
CN115238044A (zh) 一种敏感词检测方法、装置、设备及可读存储介质
JPH0934897A (ja) 図書管理システム
JPH10320403A (ja) 検索式作成方法、検索式作成装置、及び記録媒体
JPH09282326A (ja) 文書高速構造検索方式