JPH07262223A - 自動索引作成装置 - Google Patents

自動索引作成装置

Info

Publication number
JPH07262223A
JPH07262223A JP6075272A JP7527294A JPH07262223A JP H07262223 A JPH07262223 A JP H07262223A JP 6075272 A JP6075272 A JP 6075272A JP 7527294 A JP7527294 A JP 7527294A JP H07262223 A JPH07262223 A JP H07262223A
Authority
JP
Japan
Prior art keywords
index
word
index candidate
document
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6075272A
Other languages
English (en)
Other versions
JP2757769B2 (ja
Inventor
Hiroyuki Kubota
宏之 久保田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP6075272A priority Critical patent/JP2757769B2/ja
Publication of JPH07262223A publication Critical patent/JPH07262223A/ja
Application granted granted Critical
Publication of JP2757769B2 publication Critical patent/JP2757769B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 索引データの作成対象の文書群の情報量を過
大にせずに、異音同表記ワードの各々につき別個の索引
ワードを持つ索引データを作成する。 【構成】 識別子付与手段2は、索引作成指定に係る索
引候補ワードに対してワード識別子を付与し、当該ワー
ド識別子を文書群1中の当該索引候補ワードの前後に埋
め込む。索引候補管理手段3は、各索引候補ワードに関
する表記文字列,読みおよびワード識別子を索引候補管
理ファイル4において管理する。索引候補検索手段5
は、文書群1中に埋め込まれたワード識別子および索引
候補管理ファイル4の内容に基づいて検索結果データ6
を作成する。索引データ作成手段7は、検索結果データ
6内の各エントリを索引候補ワードの読みによりソート
し、そのソート処理に基づいて索引ワードとページ数と
を有する索引データ8を作成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書作成ソフトウェア
で作成された文書群(単数または複数の文書)を対象に
索引データを自動的に作成する自動索引作成装置に関す
る。ここで、索引データとは、文書群中に出現する重要
なワード(索引ワード)の各々について、表記文字列と
出現するページ数(当該文書群全体において何ページ目
に存在するかということ)との対応情報を、各索引ワー
ドに関する一定の順序で有するデータ(例えば、図5参
照)をいう。
【0002】
【従来の技術】従来、この種の自動索引作成装置では、
索引候補ワード(索引ワードの候補として指定された文
書群中のワード)の表記文字列をキーとして、索引デー
タを作成するためのソート処理が行われていた。
【0003】例えば、「特開平3−102565号公報
(文書作成装置)」で開示されている自動索引作成装置
(当該公報では、「自動索引作成装置」という名称では
示されていない)では、抽出手段によって抽出された文
字列(表記文字列)とページ(頁)数算出手段によって
算出されたページ数とが記憶手段によって記憶され、こ
の記憶手段に記憶された情報に基づいてが生成手段がソ
ーティング(ソート処理)を行って所定の文書(本発明
の索引データに相当する)を作成している(当該公報中
の特許請求の範囲の請求項(2)参照)。すなわち、索
引データの作成のために、記憶手段内の表記文字列をキ
ーとしたソート処理が行われている。なお、当該公報に
係る発明は、複数の文書に対する索引データを作成する
場合のページ数の算出の手法に着眼したものである。
【0004】このような従来の自動索引作成装置による
ソート処理は、索引ワードの読みに基づいて(五十音順
等で)整列されることが一般的な書籍等の索引データの
作成においては適切さを欠くとともに、さらに次のよう
な問題点があった。
【0005】すなわち、このような従来の自動索引作成
装置では、表記文字列が同一の索引候補ワードであれば
読みが異なっても同一のものとして扱われるので、異音
同表記ワード(同一の表記文字列からなり異なる読みを
持つワード。例えば、「としょ」と「ずしょ」という異
なる読みを持つ「図書」という表記文字列のワード)の
各々を別個の索引ワードとして持つ索引データを作成す
ることができなかった。
【0006】一方、従来の自動索引作成装置において
も、ソート処理のキーとして索引候補ワードの読みに着
目したものは存在する。例えば、「特開昭63−184
158号公報(索引自動作成装置)」で開示されている
自動索引作成装置(当該公報中では索引自動作成装置と
表現されている)は、文書中の索引語(本発明の索引候
補ワードに相当する)について識別コードを挿入する手
段と、索引語についてソート補助データ(索引語の読み
がなを示すデータ)を挿入し編集する手段と、文書中か
ら識別コードを基に索引語とそのソート補助データとを
抽出しその索引語とその索引語が存在する文書のページ
とを対応付ける手段と、対応付けられた索引語とページ
番号との組をソート補助データに従ってソートする手段
と、ソートされた索引語とページ番号との組みを索引
(索引データ)として出力する手段とから構成されてお
り(当該公報中の特許請求の範囲参照)、ソート補助デ
ータを用いることによって索引語を読みがなでソートし
て索引を作成することを可能にしていた。
【0007】しかし、この従来技術では、「ソート補助
データを挿入し編集する手段」によってソート補助デー
タの文書中への挿入が自動的に(一律に)行われている
ので、異音同表記ワードの各々について、あるものは特
定の読みを挿入し、他のあるものは他の特定の読みを挿
入するということができなかった。すなわち、この従来
技術に係る自動索引作成装置によっても、異音同表記ワ
ードの各々について読みを異ならしめて取り扱うことが
できず、結局、異音同表記ワードの各々について別個の
索引ワードを有する索引データを作成することができな
かった。
【0008】また、この従来技術を応用して異音同表記
ワードの各読み(当該公報におけるソート補助データ)
を個別に指定して当該各読みを文書中に挿入することに
より、異音同表記ワードの各々について別個の索引ワー
ドを有する索引データを作成することが可能になるとも
考えられる。しかし、このように、読みを示す情報を文
書中に挿入することは、多大な量になる余分な情報を文
書中に挿入することになるので、索引データの作成対象
の文書群の情報量が過大になるという欠点を招くことに
なる。
【0009】
【発明が解決しようとする課題】上述した従来の自動索
引作成装置(読みによるソート処理が考慮されていない
自動索引作成装置)では、索引データを作成するために
索引候補ワードの表記文字列をキーとしたソート処理が
行われているので、異音同表記ワードの各々について別
個の索引ワードを有する索引データを作成するというこ
とができないという問題点があった。
【0010】また、索引候補ワードの読みを示す情報
(例えば、特開昭63−184158号公報におけるソ
ート補助データ)を文書中に挿入することにより、異音
同表記ワードの各々について別個の索引ワードを有する
索引データを作成しようとすると、多大な情報量になる
読みを示す情報を文書中に挿入する必要があるので、索
引データの作成対象の文書群の情報量が過大になる(当
該文書群を格納するために必要な補助記憶媒体等の資源
の量が増大する)という問題点があった。
【0011】本発明の目的は、上述の点に鑑み、異音同
表記ワードの各々について別個の索引ワードを有する索
引データの作成を可能とし、その際に索引データの作成
対象の文書群の情報量を過大にすることがない自動索引
作成装置を提供することにある。
【0012】
【課題を解決するための手段】本発明の自動索引作成装
置は、文書作成ソフトウェアで作成された文書群に対す
る索引データを自動的に作成する自動索引作成装置にお
いて、索引作成指定がなされた文書中のワードを索引候
補ワードとして認識し、当該索引候補ワードに対してワ
ード識別子を付与し、当該ワード識別子を文書中の当該
索引候補ワードの前後に埋め込む識別子付与手段と、各
索引候補ワードに関する表記文字列,読みおよびワード
識別子を索引候補管理ファイルにおいて管理する索引候
補管理手段と、前記識別子付与手段により文書中に埋め
込まれたワード識別子および前記索引候補管理手段によ
り管理されている索引候補管理ファイルの内容に基づい
て検索結果データを作成する索引候補検索手段と、この
索引候補検索手段により作成された検索結果データ内の
各エントリを索引候補ワードの読みによりソートし、そ
のソート処理に基づいて索引ワードとページ数とを有す
る索引データを作成する索引データ作成手段とを有す
る。
【0013】
【作用】本発明の自動索引作成装置では、識別子付与手
段が、索引作成指定がなされた文書中のワードを索引候
補ワードとして認識し、当該索引候補ワードに対してワ
ード識別子を付与し、当該ワード識別子を文書中の当該
索引候補ワードの前後に埋め込む。また、索引候補管理
手段が、各索引候補ワードに関する表記文字列,読みお
よびワード識別子を索引候補管理ファイルにおいて管理
する。さらに、索引候補検索手段が、識別子付与手段に
より文書中に埋め込まれたワード識別子および索引候補
管理手段により管理されている索引候補管理ファイルの
内容に基づいて検索結果データを作成する。加えて、索
引データ作成手段が、索引候補検索手段により作成され
た検索結果データ内の各エントリを索引候補ワードの読
みによりソートし、そのソート処理に基づいて索引ワー
ドとページ数とを有する索引データを作成する。
【0014】
【実施例】次に、本発明について図面を参照して詳細に
説明する。
【0015】図1は、本発明の一実施例に係る自動索引
作成装置の構成を示すブロック図である。
【0016】本実施例の自動索引作成装置は、文書作成
ソフトウェア(DTP(DeskTop Publis
hing)ソフトウェア等)で作成された文書群1(こ
こでは複数の文書によって構成されるものとする)と、
索引作成指定がなされたワード(索引候補ワード)にワ
ード識別子(索引候補ワードを文書で一意に特定するた
めの識別子)を付与する識別子付与手段2と、索引候補
ワードを索引候補管理ファイル4を用いて管理する索引
候補管理手段3と、索引候補管理ファイル4と、文書群
1に埋め込まれたワード識別子および索引候補管理ファ
イル4に基づいて検索結果データ6を作成する索引候補
検索手段5と、検索結果データ6と、索引候補ワードの
読みによる検索結果データ6のソート処理を行い索引デ
ータ8を作成する索引データ作成手段7と、索引データ
8とを含んで構成されている。
【0017】図2は、文書群1を構成する文書の一例を
示す図である。
【0018】図3は、索引候補管理ファイル4の一例を
示して、その構成を示す図である。索引候補管理ファイ
ル4は、索引候補表記文字列,索引候補読み,文書識別
子および文書内ワード識別子という項目を有するエント
リによって構成されている。
【0019】図4は、検索結果データ6の一例を示し
て、その構成を示す図である。検索結果データ6は、索
引候補表記文字列,索引候補読みおよび索引候補ページ
数という項目を有するエントリによって構成されてい
る。
【0020】図5は、索引データ8の一例を示して、そ
の構成を示す図である。索引データ8は、各索引ワード
について、表記文字列と文書群1全体におけるページ数
との対応情報を、読みに関する五十音順で有している。
【0021】図6は、識別子付与手段2および索引候補
管理手段3の処理を示す流れ図である。この処理は、索
引作成指定ステップ101と、ワード識別子付与・埋込
みステップ102と、該当表記文字列保持索引候補管理
ファイル内エントリ有無判定ステップ103と、読み入
力項目空白表示読み促進ステップ104と、読み入力項
目過去入力表示読み促進ステップ105と、読み入力ス
テップ106と、該当表記文字列および読み保持索引候
補管理ファイル内エントリ有無判定ステップ107と、
索引候補管理ファイル内エントリ更新ステップ108
と、索引候補管理ファイル内エントリ作成ステップ10
9と、終了指定有無判定ステップ110とからなる。
【0022】図7は、索引候補検索手段5および索引デ
ータ作成手段7の処理を示す流れ図である。この処理
は、索引候補ワード抽出ステップ201と、索引候補ワ
ード対応索引候補管理ファイル内エントリ有無判定ステ
ップ202と、ページ数算出ステップ203と、索引候
補ワード対応検索結果データ内エントリ有無判定ステッ
プ204と、検索結果データ内エントリ更新ステップ2
05と、検索結果データ内エントリ作成ステップ206
と、検索終了判定ステップ207と、索引データ作成・
出力ステップ208とからなる。
【0023】次に、このように構成された本実施例の自
動索引作成装置の動作について説明する。ここでは、図
2〜図5中に示す具体例を引用し、図6および図7の流
れ図を参照することにより、この動作の説明を行う。
【0024】第1に、識別子付与手段2および索引候補
管理手段3によって実現される動作について説明する
(図6参照)。
【0025】ユーザ(利用者)は、文書群1を構成する
文書中のワードに対して索引作成指定(文書内のデータ
が表示される画面上のカーソルによるワードの特定等の
態様でなされる指定)を行う(ステップ101)。この
索引作成指定は、索引データ8中の「索引ワード」とし
たいワードに対して行われ、しかも索引データ8中の
「ページ数」に表記したいページの箇所に存在する当該
ワードに対して行われる。
【0026】識別子付与手段2は、索引作成指定がなさ
れた文書中のワードを索引候補ワードとして認識し、当
該索引候補ワードに対して当該文書で一意の識別情報
(ワード識別子)を付与し、そのワード識別子(ワード
識別子であることを示す情報(図2中の“is”や“i
e”等)を含む)を当該索引候補ワードの前後に埋め込
む(ステップ102)。
【0027】索引候補管理手段3は、上述の索引作成指
定を契機として、以下に示すような一連の処理を行う。
【0028】まず、当該索引作成指定がなされた索引候
補ワードの表記文字列を「索引候補表記文字列」の項目
に保持するエントリが索引候補管理ファイル4にすでに
存在するか否か(過去に同一の表記文字列の索引候補ワ
ードに関する索引作成指定がなされているか否か)を判
定する(ステップ103)。
【0029】ステップ103で「当該表記文字列を保持
するエントリが索引候補管理ファイル4に存在しない」
と判定した場合には、当該表記文字列に対する読みの入
力をユーザに促す(読みの促進を行う)(ステップ10
4)。この読みの促進は、例えば、当該表記文字列の表
示に対して読みの入力項目を空白で表示することによっ
て行われる。
【0030】一方、ステップ103で「当該表記文字列
を保持するエントリが索引候補管理ファイル4に存在す
る」と判定した場合には、当該表記文字列に対して過去
に入力された読み(過去に複数の読みが入力されている
場合には最新に入力された読み)を提示して当該表記文
字列に対する読みの促進を行う(ステップ105)。こ
の読みの促進は、例えば、当該表記文字列の表示に対し
て読みの入力項目に過去に入力された読みを表示するこ
とによって行われる。
【0031】次に、ステップ104または105の「読
みの促進」に対してユーザによって指定された当該索引
候補ワードの読みを入力する(ステップ106)。
【0032】ステップ106の入力の後に、索引候補管
理ファイル4を検索し、当該表記文字列および当該読み
(ステップ106で入力した読み)を「索引候補表記文
字列」および「索引候補読み」の項目に保持するエント
リが索引候補管理ファイル4にすでに存在するか否かを
判定する(ステップ107)。
【0033】ステップ107で「当該表記文字列および
当該読みを保持するエントリが存在する」と判定した場
合には、そのエントリ中の「文書内ワード識別子」の項
目に当該索引候補ワードに付与されたワード識別子(ス
テップ102参照)を書き込む(現時点で処理されてい
る文書を示す文書識別子に対応させて書き込む)(ステ
ップ108)。
【0034】一方、ステップ107で「当該表記文字列
および当該読みを保持するエントリが存在しない」と判
定した場合には、索引候補管理ファイル4内に新たなエ
ントリとして当該表記文字列および当該読みを有するエ
ントリを作成し、そのエントリ中の「文書識別子」に現
時点で処理されている文書を示す文書識別子を書き込
み、その文書識別子に対応させて「文書内ワード識別
子」の項目に当該索引候補ワードに付与されたワード識
別子(ステップ102参照)を書き込む(ステップ10
9)。
【0035】ステップ108またはステップ109の処
理が終了すると、ユーザからの終了指定の有無を判定し
(ステップ110)、終了指定がある場合には図6に示
す一連の処理を終了させ、終了指定がない場合にはステ
ップ101の処理に制御を戻す。これにより、以上のよ
うな一連の処理が、文書群1中の全文書の各索引候補ワ
ードに対して繰り返して行われる。
【0036】次に、上述の動作(図6に示す処理に係る
動作)を、具体的に説明する。
【0037】 まず、ステップ101において、図2
に示す文書(文書識別子が“文書A”である文書。以
下、「文書A」という)中の“…中務省に属し、図書の
事を…”の部分の“図書”に対して索引作成指定が行わ
れた場合を考える。
【0038】この場合には、識別子付与手段2は、当該
索引候補ワード“図書”に対して文書Aで一意となるよ
うにワード識別子“1”を付与し、図2に示すように当
該ワード識別子“1”を文書A中の当該索引候補ワード
“図書”の前後に埋め込む(ステップ102参照)。す
なわち、識別子付与手段2は、図2に示すように、
“[is1]”および“[ie1]”を当該索引候補ワ
ード“図書”の前後に埋め込む。
【0039】それとともに、索引候補管理手段3は、当
該索引候補ワード“図書”の読みの促進を行う。なお、
この場合に、表記文字列が“図書”である索引候補ワー
ドは文書群1に対して最初に指定されたものとする。し
たがって、この読みの促進における表示は、読みの入力
項目に空白が表示される態様で行われる(ステップ10
4参照)。
【0040】この読みの促進に対して、索引候補管理手
段3はユーザから“ずしょ”という読みを入力する(ス
テップ106参照)。
【0041】索引候補管理手段3は、この入力に基づい
てステップ107の判定を行い、その判定に基づいて索
引候補管理ファイル4に図3中の最上の部分に見られる
ようなエントリ(「索引候補表記文字列」が“図書”で
あり「索引候補読み」が“ずしょ”であるエントリ)を
作成し、そのエントリ中の「文書識別子」の項目に“文
書A”を書き込み、「文書内ワード識別子」の項目に
“1”を書き込む(ステップ109参照)。
【0042】 次に、ステップ101において、文書
A中の“…現代では一般的に図書館と呼ばれて…”の部
分の“図書”に対して索引作成指定が行われた場合を考
える。
【0043】この場合には、識別子付与手段2は、当該
索引候補ワード“図書”に対してワード識別子“2”を
付与し、図2に示すように“[is2]”および“[i
e2]”を当該索引候補ワード“図書”の前後に埋め込
む(ステップ102参照)。
【0044】それとともに、索引候補管理手段3は、当
該索引候補ワード“図書”の読みの促進を行う。なお、
この読みの促進における表示は、読みの入力項目に過去
に入力された“ずしょ”が表示される態様で行われる
(ステップ105参照)。
【0045】この読みの促進に対して、索引候補管理手
段3はユーザから“としょ”という読みを入力する(ス
テップ106参照)。
【0046】索引候補管理手段3は、この入力に基づい
てステップ107の判定を行い、その判定に基づいて索
引候補管理ファイル4に図3中の中間の部分に見られる
ようなエントリ(「索引候補表記文字列」が“図書”で
あり「索引候補読み」が“としょ”であるエントリ)を
作成し、そのエントリ中の「文書識別子」の項目に“文
書A”を書き込み、「文書内ワード識別子」の項目に
“2”を書き込む(エントリの作成を行う)(ステップ
109参照)。
【0047】 さらに、以上のおよびに述べたよ
うなエントリが索引候補管理ファイル4内に作成された
後に、“図書”という表記文字列の索引候補ワードに対
する索引作成指定が行われた場合を考える。
【0048】この場合には、ステップ106で入力され
る当該索引候補ワードの読みは“ずしょ”および“とし
ょ”のいずれかであるので、索引候補管理手段3はすで
に索引候補管理ファイル4内に存在するエントリ(上述
のまたはで作成されたエントリ)に当該索引候補ワ
ードのワード識別子を書き込む(エントリの更新を行
う)(ステップ108参照)。
【0049】なお、図6に示す一連の処理は、索引候補
ワードが“図書”のような異音同表記ワードである場合
だけではなく、索引候補ワードが異音同表記ワード以外
のワードである場合にも同様に行われる。すなわち、本
発明の自動索引作成装置は、索引候補ワードが異音同表
記ワードであるか否かを意識することなく処理を行う。
【0050】第2に、索引候補検索手段5および索引デ
ータ作成手段7によって実現される動作について説明す
る(図7参照)。
【0051】図6に示すような処理(索引作成指定に基
づく処理)が文書群1中の全文書について全て完了した
後に、ユーザが索引データ8の作成を促す指定を行う
と、索引候補検索手段5が起動される。
【0052】索引候補検索手段5は、文書群1および索
引候補管理ファイル4を対象として、以下に示すような
検索処理を行う。
【0053】まず、文書群1を構成する各文書につい
て、当該文書の文書識別子を認識した上で、当該文書の
先頭から逐次にワード識別子の存在をチェックし、ワー
ド識別子がその前後に埋め込まれた索引候補ワードを抽
出する(ステップ201)。
【0054】次に、ステップ201で抽出した索引候補
ワードに付与されたワード識別子(当該索引候補ワード
の前後に埋め込まれたワード識別子)と現時点で検索対
象としている文書を一意に識別するための文書識別子と
に基づいて、索引候補管理ファイル4内に当該索引候補
ワードに対応するエントリ(「文書識別子」および「文
書内ワード識別子」の項目に当該文書識別子および当該
ワード識別子を保持するエントリ)が存在するか否かを
判定(確認)する(ステップ202)。
【0055】ステップ202で「当該索引候補ワードに
対応するエントリが存在する」ことを確認した場合に
は、検索に成功したとして、当該索引候補ワードが見つ
かった(抽出された)ページ数(文書群1全体において
何ページ目であるかということ)を算出する(ステップ
203)。このページ数の算出は、文書群1において当
該文書(現時点で検索対象としている文書)の前に存在
する全ての文書の総ページ数と、当該文書の何ページ目
に当該索引候補ワードが存在したかということとに基づ
き、行われる。なお、このような「ページ数の算出」に
関する技術は、先に紹介した特開平3−102565号
公報に開示されている。
【0056】一方、ステップ202で「当該索引候補ワ
ードに対応するエントリが存在しない」と判定した場合
には、検索に失敗したとして、ステップ201の処理に
制御を戻す(必要に応じてその旨をユーザに対して示
す)。
【0057】ステップ203の処理が終了した後に、現
時点で処理している索引候補ワード(ステップ201で
抽出した索引候補ワード)に対応するエントリが検索結
果データ6においてすでに存在するか否かを判定する
(ステップ204)。すなわち、ステップ202の判定
で存在が確認された索引候補管理ファイル4内のエント
リ中の「索引候補表記文字列」および「索引候補読み」
における表記文字列および読みを有するエントリが検索
結果データ6内にすでに作成されているか否かをチェッ
クする。
【0058】ステップ204で「当該索引候補ワードに
対応するエントリが検索結果データ6に存在する」と判
定した場合には、そのエントリ中の「索引候補ページ
数」の項目にステップ203で算出したページ数を追加
する(そのエントリの更新を行う)(ステップ20
5)。
【0059】ステップ204で「当該索引候補ワードに
対応するエントリが検索結果データ6に存在しない」と
判定した場合には、当該索引候補ワードに対応するエン
トリ(当該索引候補ワードの表記文字列および読みとス
テップ203で算出したページ数とを「索引候補表記文
字列」,「索引候補読み」および「索引候補ページ数」
の各項目に有するエントリ)を検索結果データ6内に作
成する(ステップ206)。
【0060】ステップ205またはステップ206の処
理が終了すると、文書群1における索引候補ワードの検
索が文書群1の最後の部分まで至っているか否か、すな
わちステップ201〜ステップ206に示す一連の処理
を終了すべきか否かを判定し(ステップ207)、ステ
ップ207で「終了すべき」と判定した場合には索引デ
ータ作成手段7に制御を渡し、「終了すべきでない」と
判定した場合にはステップ201の処理に制御を戻す。
【0061】索引データ作成手段7は、索引候補検索手
段5によって作成され出力された検索結果データ6に対
して、検索結果データ6内の各エントリ中の「索引候補
読み」の項目における読みによるソート処理を行い、図
5に示すような各索引ワードの表記文字列およびページ
数を有する索引データ8を作成し出力する(ステップ2
08)。
【0062】次に、上述の動作(図7に示す処理に係る
動作)、特に索引候補検索手段5によって実現される動
作を、具体的に説明する。なお、図2に示す文書データ
(文書内のデータ)は文書Aの3ページ目のものであ
り、文書Aは文書群1の中の第1の文書であり、文書A
の総ページ数は8ページであるものとする。
【0063】 まず、ステップ201において、文書
A中の“[is1]”および“[ie1]”で囲まれた
索引候補ワード“図書”が抽出された場合を考える。
【0064】この場合には、索引候補検索手段5は、図
3に示す索引候補管理ファイル4において、「文書識別
子」の項目に“文書A”を有し「文書内ワード識別子」
の項目に“1”を有するエントリ(図3中の最上の部分
に見られるようなエントリ)の存在を確認する(ステッ
プ202参照)。
【0065】また、索引候補検索手段5は、ステップ2
03のページ数の算出およびステップ204の判定を経
て、図4中の上に示すエントリ(「索引候補表記文字
列」の項目が“図書”であり「索引候補読み」の項目が
“ずしょ”であるエントリ)を検索結果データ6内に作
成し、当該エントリ中の「索引候補ページ数」の項目に
“3”を設定する(ステップ206参照)。なお、ペー
ジ数の“3”はステップ202の処理で算出されたもの
であり、図2に示す文書データの文書群1における通算
のページ数を示すものである。
【0066】 次に、ステップ201において、文書
A中の“[is2]”および“[ie2]”で囲まれた
索引候補ワード“図書”が抽出された場合を考える。
【0067】この場合には、索引候補検索手段5は、図
3に示す索引候補管理ファイル4において、「文書識別
子」の項目に“文書A”を有し「文書内ワード識別子」
の項目に“2”を有するエントリ(図3中の中間の部分
に見られるようなエントリ)の存在を確認する(ステッ
プ202参照)。
【0068】また、索引候補検索手段5は、上述のの
場合と同様の処理を経て、図4中の下に示すエントリ
(「索引候補表記文字列」の項目が“図書”であり「索
引候補読み」の項目が“としょ”であるエントリ)を検
索結果データ6内に作成し、当該エントリ中の「索引候
補ページ数」の項目に“3”を設定する(ステップ20
6参照)。
【0069】 さらに、文書群1中の2番目以降の文
書に対しても図7に示す処理が継続して行われた際に、
2番目の文書(文書識別子が“文書B”の文書。以下、
「文書B」という)の5ページ目の文書データに“[i
s3]”および“[ie3]”で囲まれた索引候補ワー
ド(ワード識別子が“3”である索引候補ワード)“図
書”が抽出された場合を考える。
【0070】この場合には、索引候補検索手段5は、図
3に示す索引候補管理ファイル4において、「文書識別
子」の項目に“文書B”を有し「文書内ワード識別子」
の項目に“3”を有するエントリ(図3中の最上の部分
に見られるようなエントリ)の存在を確認する(ステッ
プ202参照)。
【0071】また、索引候補検索手段5は、ステップ2
04において「検索結果データ6内に当該索引候補ワー
ドに関するエントリがすでに存在する」と判定し、文書
Aの総ページ数である“8”と文書B内で当該索引候補
ワードが見つかったページ数の“5”とを加算すること
によって算出したページ数の“13”(ステップ203
参照)を当該エントリ(図4中の上に示すエントリ)中
の「索引候補ページ数」の項目に追加する(エントリの
更新を行う)(ステップ205参照)。
【0072】以上のような本実施例の自動索引作成装置
の動作により、異音同表記ワード(“図書”等)が存在
する文書群1に対して、異音同表記ワードの各々につい
て別個の索引ワードを有する索引データ8を作成するこ
とができるようになる(図5参照)。
【0073】なお、本実施例では、文書群1が複数の文
書によって構成され、索引候補管理ファイル4内の各エ
ントリに「文書識別子」の項目と「文書内ワード識別
子」の項目とが存在する場合について述べた。しかし、
文書群1が単数の文書からなる場合にも本発明を適用す
ることは可能であり、その場合には索引候補管理ファイ
ル4内の文書識別子は不要になる。また、文書群1が複
数の文書からなる場合にも、全ての文書を通じてのユニ
ークな識別子をワード識別子とすることにより、索引候
補管理ファイル4内の文書識別子を不要にすることが可
能となる。
【0074】
【発明の効果】以上説明したように本発明は、文書作成
ソフトウェアで作成された文書群を対象に索引データを
作成する場合に、ワード識別子によって異音同表記ワー
ドの読みの相違を認識すること等により、異音同表記ワ
ードの各々について別個の索引ワードを有する索引デー
タを作成することを可能とし、索引データの適用範囲を
拡大することができるという効果を有する。
【0075】また、その際に、読みを示す情報を文書中
に埋め込む必要がないので(読みを示す情報は索引候補
管理ファイルで管理されるので)、索引データの作成対
象となる文書群の情報量が過大になることがなく、その
ような文書群を格納するための補助記憶媒体等の資源の
容量が少なくてすむという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例に係る自動索引作成装置の構
成を示すブロック図である。
【図2】図1中の文書群中の文書の一例を示す図であ
る。
【図3】図1中の索引候補管理ファイルの一例を示す図
である。
【図4】図1中の検索結果データの一例を示す図であ
る。
【図5】図1中の索引データの一例を示す図である。
【図6】図1中の識別子付与手段および索引候補管理手
段の処理を示す流れ図である。
【図7】図1中の索引候補検索手段および索引データ作
成手段の処理を示す流れ図である。
【符号の説明】
1 文書群 2 識別子付与手段 3 索引候補管理手段 4 索引候補管理ファイル 5 索引候補検索手段 6 検索結果データ 7 索引データ作成手段 8 索引データ 101 索引作成指定ステップ 102 ワード識別子付与・埋込みステップ 103 該当表記文字列保持索引候補管理ファイル内エ
ントリ有無判定ステップ 104 読み入力項目空白表示読み促進ステップ 105 読み入力項目過去入力表示読み促進ステップ 106 読み入力ステップ 107 該当表記文字列および読み保持索引候補管理フ
ァイル内エントリ有無判定ステップ 108 索引候補管理ファイル内エントリ更新ステップ 109 索引候補管理ファイル内エントリ作成ステップ 110 終了指定有無判定ステップ 201 索引候補ワード抽出ステップ 202 索引候補ワード対応索引候補管理ファイル内エ
ントリ有無判定ステップ 203 ページ数算出ステップ 204 索引候補ワード対応検索結果データ内エントリ
有無判定ステップ 205 検索結果データ内エントリ更新ステップ 206 検索結果データ内エントリ作成ステップ 207 検索終了判定ステップ 208 索引データ作成・出力ステップ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 9288−5L G06F 15/20 570 N

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文書作成ソフトウェアで作成された文書
    群に対する索引データを自動的に作成する自動索引作成
    装置において、 索引作成指定がなされた文書中のワードを索引候補ワー
    ドとして認識し、当該索引候補ワードに対してワード識
    別子を付与し、当該ワード識別子を文書中の当該索引候
    補ワードの前後に埋め込む識別子付与手段と、 各索引候補ワードに関する表記文字列,読みおよびワー
    ド識別子を索引候補管理ファイルにおいて管理する索引
    候補管理手段と、 前記識別子付与手段により文書中に埋め込まれたワード
    識別子および前記索引候補管理手段により管理されてい
    る索引候補管理ファイルの内容に基づいて検索結果デー
    タを作成する索引候補検索手段と、 この索引候補検索手段により作成された検索結果データ
    内の各エントリを索引候補ワードの読みによりソート
    し、そのソート処理に基づいて索引ワードとページ数と
    を有する索引データを作成する索引データ作成手段とを
    有することを特徴とする自動索引作成装置。
  2. 【請求項2】 索引候補管理ファイル内の各エントリに
    文書識別子とワード識別子とが存在し、前記索引候補検
    索手段が当該文書識別子を用いて検索結果データの作成
    を行うことを特徴とする請求項1記載の自動索引作成装
    置。
  3. 【請求項3】 前記索引候補管理手段が、 索引作成指定に係る索引候補ワードの表記文字列と同一
    の表記文字列を保持するエントリが索引候補管理ファイ
    ルに存在するか否かを判定する第1のステップと、 この第1のステップで「存在しない」と判定した場合に
    読みの入力項目に空白を表示して読みの促進を行う第2
    のステップと、 前記第1のステップで「存在する」と判定した場合に読
    みの入力項目に過去に当該表記文字列に対して入力され
    た読みを表示して読みの促進を行う第3のステップと、 ユーザから指定される読みを入力する第4のステップ
    と、 索引作成指定に係る索引候補ワードの表記文字列と前記
    第4のステップで入力した読みとを保持するエントリが
    索引候補管理ファイルに存在するか否かを判定する第5
    のステップと、 この第5のステップで「存在する」と判定した場合に当
    該エントリに前記識別子付与手段により付与されたワー
    ド識別子を書き込む第6のステップと、 前記第5のステップで「存在しない」と判定した場合に
    索引候補管理ファイルに新たなエントリを作成し当該エ
    ントリに前記識別子付与手段により付与されたワード識
    別子を書き込む第7のステップとを含む処理を行うこと
    を特徴とする請求項1記載の自動索引作成装置。
  4. 【請求項4】 前記索引候補検索手段が、 文書に埋め込まれたワード識別子により当該文書から索
    引候補ワードを抽出する第1のステップと、 この第1のステップで抽出した索引候補ワードに対応す
    るエントリが索引候補管理ファイルに存在するか否かを
    確認する第2のステップと、 この第2のステップで「存在する」ことを確認した場合
    に当該索引候補ワードの文書群におけるページ数を算出
    する第3のステップと、 当該索引候補ワードに対応するエントリが検索結果デー
    タに存在するか否かを判定する第4のステップと、 この第4のステップで「存在する」と判定した場合に当
    該エントリに前記第3のステップで算出したページ数を
    追加する第5のステップと、 前記第4のステップで「存在しない」と判定した場合に
    検索結果データに新たなエントリを作成し当該エントリ
    に前記第3のステップで算出したページ数を設定する第
    6のステップとを含む処理を行うことを特徴とする請求
    項1記載の自動索引作成装置。
JP6075272A 1994-03-22 1994-03-22 自動索引作成装置 Expired - Fee Related JP2757769B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6075272A JP2757769B2 (ja) 1994-03-22 1994-03-22 自動索引作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6075272A JP2757769B2 (ja) 1994-03-22 1994-03-22 自動索引作成装置

Publications (2)

Publication Number Publication Date
JPH07262223A true JPH07262223A (ja) 1995-10-13
JP2757769B2 JP2757769B2 (ja) 1998-05-25

Family

ID=13571438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6075272A Expired - Fee Related JP2757769B2 (ja) 1994-03-22 1994-03-22 自動索引作成装置

Country Status (1)

Country Link
JP (1) JP2757769B2 (ja)

Also Published As

Publication number Publication date
JP2757769B2 (ja) 1998-05-25

Similar Documents

Publication Publication Date Title
JP3178475B2 (ja) データ処理装置
US5745745A (en) Text search method and apparatus for structured documents
US20050065947A1 (en) Thesaurus maintaining system and method
JP2693914B2 (ja) 検索システム
JPH02297284A (ja) 文書処理システム
JP2757769B2 (ja) 自動索引作成装置
JP2925042B2 (ja) 情報リンク生成方法
US6357002B1 (en) Automated extraction of BIOS identification information for a computer system from any of a plurality of vendors
JP3635341B2 (ja) データベースの結合方法
JPH08190571A (ja) 文書検索方法
JP3504002B2 (ja) ノード・リンク自動生成方法
JP2002140218A (ja) データ処理方法、コンピュータ読み取り可能な記録媒体及びデータ処理装置
JP3065151B2 (ja) 標準名付与システム
JP2003058559A (ja) 文書分類方法、検索方法、分類システム及び検索システム
JP3210842B2 (ja) 情報処理装置
JP3022079B2 (ja) 全文データベースシステム
JP2838972B2 (ja) 自動索引作成装置
JPH08115340A (ja) 文書検索装置およびそれに用いるインデックスファイルの作成装置
JPH1063649A (ja) タグ付加文書作成方法および装置
JP3166995B2 (ja) コメント付与方法及び文書処理装置
JP3143909B2 (ja) ファイル処理装置
JP3047400B2 (ja) データ処理装置
JPH11161666A (ja) ドキュメントデータ検索方法および装置、並びにドキュメント編集装置
JP3780772B2 (ja) データベースの索引創成装置
JPH03102565A (ja) 文書作成装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080313

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090313

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090313

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100313

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees