JPH0769918B2

JPH0769918B2 - インデックス作成支援装置

Info

Publication number: JPH0769918B2
Application number: JP1269554A
Authority: JP
Inventors: 茂起空閑; 浩幸勘座; 直利丸山
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1989-10-16
Filing date: 1989-10-16
Publication date: 1995-07-31
Anticipated expiration: 2010-07-31
Also published as: JPH03129561A

Description

【発明の詳細な説明】〈産業上の利用分野〉本発明は、書籍などのインデックス（索引）を作成する
ための装置に関するものである。また、インデックスが
該当書籍におけるキーワードであることからキーワード
作成支援装置としても利用が可能である。更に、インデ
ックスは辞書類・文書類の見出しとしても利用でき、広
く、辞書・文書など文書処理の検索、編集、作成装置と
して利用が可能である。

〈従来の技術〉従来、書籍やマニュアルにはインデックスを付け、利用
者の検索の利便に供されてきた。

このインデックスの作成作業には、書籍やマニュアルの
著者や編集の専門家が書籍やマニュアルなどの文書中の
インデックスにすべき文字列に特殊な記号を付加した
り、あるいは、インデックスにすべき文字列を別の紙に
書き出した後で、該抽出記号、書き出されたインデック
スを利用して索引とする文字列や出現ページを決定する
という方式が取られていた。また、これらの文字列をイ
ンデックスとしてどのように配列し、どのように出力す
るかも、専門家の判断に任せられていた。

最近では、ワードプロセッサ（以後ワープロ）やその他
の文書処理システムが開発され、電子化された文書情報
を用いてインデックスを作成することも可能になってい
る。

ただし、この場合も、紙が電気的表示装置に代わっただ
けであり、インデックスを作成する過程のみを取り出せ
ば、依然として、著者や専門家が、インデックスとすべ
き文字列に特殊な記号を付加したり、インデックスとす
べき文字列を指摘したりする方法が採られている。

これらのインデックス作成技術の基盤として、符号や文
字列などを入力する技術が確立している。また、入力し
た符号や文字列などを表示装置に出力する表示技術が確
立している。また、符号などを手掛かりに文字列を抽出
し、索引の見出しとして編集したりできる編集技術が確
立している。また、符号化したインデックスの出現ペー
ジを計算し、索引見出しと組み合わせて出力するコンピ
ュータの基本技術が確立している。

これらの技術を用いて、電子化された文書の中から、イ
ンデックスを指定することによりインデックスを作成す
る技術の基盤が確立されている。

〈発明が解決しようとする問題点〉紙のうえに記述された文書の中からインデックスを作成
する方法は、運び易く、どの部分にも、自由な文字や記
号サイズで、入出力同一面に書けるなど紙の特徴に基づ
くメリットを有しているが次のような問題点を有してい
る。

まず、インデックスを抽出するための作業に時間がかか
った。また、抽出記号を付加したり他の紙に書き写した
りする過程で間違いの混入する可能性が高かった。ま
た、文書が完成してからでないとインデックスの作成が
やりにくいという制約があった。また、文書中にない表
現がインデックスの見出しとして取られたり、インデッ
クス見出しが記述されていないページがインデックス頁
として当てられたりする間違いが発生するという問題が
あった。また、インデックス作成後に文章の変更があっ
た場合に、インデックス見出しや頁数などに間違いを引
き起こす可能性が高いとう問題があった。また、このよ
うな間違いを校正するため多くの人的パワーと時間を必
要とした。

一方、ワープロなどの文書処理装置を利用し、抽出用の
符号を付けてインデックスを作成する方法は、文書が修
正されても、直ちに、関連する部分が修正できるという
メリットをもたらすが、インデックス抽出の過程は本質
的に紙の上の文章を用いるのと同じであるので、紙のう
えでのインデックス抽出と同じ問題を有している。即
ち、インデックスを抽出するための符号付けに時間と注
意力を必要とする。そのため、大量の文書では作業の過
程で間違いが生じ易いという問題があった。また、文中
の記述とインデックス見出し記述との整合を取る際に間
違いが発生するという問題があった。また、インデック
スを抽出する人が変われば、インデックスが変わるとい
うインデックス抽出の統一性がなかった。また、作業を
行う人がインデックス抽出の専門知識を有し、かつ、装
置の扱える人でなければならないという制約条件が有っ
た。また、インデックス作成のための知識が蓄積されな
いという問題があった。

本発明は、専門家の有しているインデックス抽出のため
の知識をルール化し、コンピュータに格納することによ
り、ルールに基づいた統一的インデックスの抽出を行
い、インデックス作成のかかる問題を解決し、効率的
で、間違いの少ないインデックスの作成を行おうとする
ものである。

〈問題点を解決するための手段〉本発明は、文書情報を記憶する文書記憶手段と、前記文
書記憶手段に記憶された文書情報を言語解析する言語解
析手段と、前記文書記憶手段に記憶された文書情報の文
書構造を解析する文書構造解析手段と、複数のインデッ
クス抽出ルールを格納するルール格納手段と、前記言語
解析手段と文書構造解析手段の解析結果と、前記ルール
格納手段に格納された抽出ルールとの照合を行う照合手
段と、前記照合手段により照合されたインデックス候補
を蓄積する一時記憶手段と、前記一時記憶手段に蓄積さ
れたインデックス候補を取捨選択する選択手段とを備え
たことを特徴とするインデックス作成支援装置である。

〈作用〉はじめに、制御手段の制御により、本発明の装置に入力
された文字情報が、言語解析手段によって言語解析され
る。これらの解析された結果は記憶手段に蓄積される。
次にこれらの解析結果と文書構造情報により文書構造を
解析する。

次に、制御手段により知識ベースを参照し、知識ベース
に記載された条件部と言語解析結果、文書構造解析結果
との照合をとる。

もし、両者が照合した場合は、制御手段によりインデッ
クスの部分を抽出し、編集に必要な情報と共にスタック
する。スタックされた結果を利用して、インデックスの
作成者の意図に応じて編集を行い、出力する。

編集を行う際に、知識ベースによって抽出されたインデ
ックス見出しを表示装置あるいは出力装置に出力し、ユ
ーザの意志でインデックスの取捨選択を行い、知識ベー
スによるインデックスの自動抽出とユーザとの対話によ
る抽出を組み合わせて行うことも出来るように作用す
る。

〈実施例〉以下図に基づいて本発明を詳細に説明する。第１図は本
発明にかかわるインデックス作成支援装置のブロック構
成図である。

図において１は文字情報を入力するためのキーボードな
どの入力手段である。２は入力した文字情報を出力する
ためのプリンタなどの出力手段である。３は、入力され
た文字情報を記憶す半導体素子、ディスク、フロッピー
ディスクなどの記憶手段である。４は、入力された文字
情報を編集するための、マウス、アイコン、機能キーな
どの編集手段である。編集自体は後で述べる制御装置で
行われるが、ここでいう編集手段は制御装置の実行の契
機を与えたり、ユーザが編集を行い易くするために設け
られた手段である。５は入力されたり、編集された文字
情報を表示するためのCRTなどの表示手段である。６は
入力された文字情報を言語解析するための、辞書、テー
ブル、言語解析プログラムなどからなる言語解析手段で
ある。７は、文書の構造を解析するための文書構造解析
手段である。８は本発明の特徴となるインデックス抽出
のための知識を装置で解釈出来る形にして記憶している
知識ベースである。９は入力された文字情報や、言語解
析のためのバッファとなる一時記憶手段である。一般に
制御装置に密接したRAMが利用される。10はこれらの各
手段を制御するCPUなどの制御手段である。

第２図はワープロのマニュアルの文章の例を表した図で
ある。ワープロの文章は数百ページに及ぶものもある
が、ここでは、本発明の原理を説明するのが目的なので
図のような１頁の文章で例を示す。

11はタイトルあるいは見出しである。これは、通常、文
書の最初の部分に太字で記述されたり、章、節などの番
号と１行程度の文章から成り立つ場合が多い。このタイ
トルは書籍の目次となる部分でもある。12は本文であ
り、見出しに対する内容の説明、操作の方法など詳細な
記載がなされている部分である。13は表示装置の表示画
面の例を示した図である。

第３図は本発明の機能ブロック図の概略フロー図であ
る。14は入力された文字情報を形態素解析、構文解析、
意味解析、文脈解析などして文章を装置が解釈できる形
式に変えて記憶する言語解析処理モジュールである。15
は文書の形式を文書構造ルールに基づいて解析する文書
構造解析処理モジュールである。16はインデックス抽出
用の知識ベースを参照し、インデックスの候補を抽出す
る知識ベース参照処理モジュールである。17は抽出され
たインデックスの候補に符号をつけ、編集や対話処理に
理便な符号を付けるインデックス抽出用符号化処理モジ
ュールである。18は抽出されたインデックスを確認した
り、最終出力に合わせるための編集を行う編集処理モジ
ュールである。19は装置が抽出し、確認できるように編
集したインデックスを確認しながら取捨選択あるいは訂
正する対話処理モジュールである。20は確認、訂正後の
インデックスを出力する出力処理モジュールである。

言語解析処理モジュールの動作から説明する。まず、入
力装置で入力され、記憶手段に蓄積された文章を適当な
分量、例えば、第２図の第１番目の文章の「漢字を１文
字ずつ入力する」を制御手段の働きにより一時記憶手段
に呼び込む。呼び込まれた文章は、通常、文章の頭のほ
うの文字から順に言語解析手段にある言語解析用辞書と
参照する。

第４図がその辞書の例を表した図である。これは、入力
例文の解釈を行うのに必要な辞書見出しに限った辞書に
なっている。21は見出しである。22はその読み情報であ
る。23はその品詞情報の例である。24は辞書見出しの弁
別番号である。

今の場合、入力文の頭文字は「漢」であるので、「漢」
と辞書との照合がなされるが、照合に失敗する。そこ
で、照合する文字を１文字ずつ増やし照合を繰り返す。
例えば、次の段階では「漢字」までを切り出して、辞書
と照合する。今度は、照合に成功する。成功した場合
は、辞書の読みの情報、品詞情報、あるいは、見出しの
弁別番号を一時記憶手段、あるいは、記憶手段に蓄積
し、再び入力文字列の次の文字から辞書との照合を繰り
返す。

第５図は言語解析された結果の例を表した図である。25
は単語の開始位置、26は単語の終了位置、27は辞書の弁
別番号を表している。28は特定の弁別番号をもった単語
が解析する文章中に何回出現したかを表す頻度情報であ
る。図のデータは次のことを意味している。即ち、最初
の２重縦線までの情報は、画面上の第１番目と第２番目
の文字「漢字」が一つの単語でそれは辞書の0001番目の
単語であり、解析した入力文を含め累計１回出現した。

次に、文書構造解析処理モジュールの説明を行う。文書
構造解析処理モジュールは章や節などの文書の論理構造
を表す数字、文書の中の文字の配列情報を調べ、該当す
る文章がタイトル部分であるか本文であるかを決める。
この二つに限定しているのは、現在、後述するインデッ
クス抽出用の知識ベースが二つに関連して分類されてい
るためで、知識ベースを細分化すればそれに応じて文書
の構造を分割しても、本発明に影響はない。

第６図は構造解析手段の中にあるタイトル文を決定する
ためのルールの例を示した図である。29はルールの条件
部であり、30はルールの結論部である。

例えば、一番最初の入力文「漢字を１文字ずつ入力す
る」が一時記憶手段にセットされ、第６図の構造解析ル
ールと照合される。第６図の最初のルールとは照合しな
いが２番目のルールと照合し、文であることが認識され
る。また、第６図の４番目のルールとも照合することが
分かる。照合した場合はルールの結論部を実行する。そ
の結果、この入力文はタイトル文であると決定する。

この結果は、例えば第７図のように記憶する。31は文章
の記載されているページを表す。32は該当ページにおけ
る文の存在する行番号である。33は文の開始文字位置、
34は文の終了位置を表す情報である。35は、ルールと照
合した結果、その文がタイトル文であるか本文であるか
を示す情報である。今の場合はタイトル文であることを
示している。

第８図は知識ベース参照処理モジュールの中の知識ベー
スの構造を表したものである。36は知識ベースのルール
の大分類を表すもので今の場合、２つの種類から成り立
っていることを示している。37は知識ベースのルールの
大分類を細分したもので中分類ルールである。例えば、
参照される文章が本文であるなら本文ルールが適用され
る。38は中分類ルールを更に細分した小分類ルールであ
る。

第９図は定義ルールの例を示した図である。定義ルール
とは物事の定義や説明を行うときに用いる特徴的な文章
表現のパターンを集めたものである。この背景には、説
明や定義を与える言葉は文章中で重要であり、インデッ
クスの見出しとしてもふさわしい可能性が高いという専
門家の知識、常識がある。このような専門知識、常識を
形式化したのが知識ベースである。39は検索のためのル
ールのインデックスである。今の場合、本文に対するル
ールであり、かつ定義ルールであることを示している。
40はルールの条件部であり、41はその結論部である。条
件部に有る＜＞の記号はその中にある単語の活用語尾変
化、付属語の変化、付属語の付加を認めることを意味し
ている。このルールは入力文が条件部に照合すれば、結
論部を実行するようになっている。

第10図は知識ベース参照処理モジュールの詳細フローを
表した図である。今までに上げた例文を用いて説明を行
う。42は蓄積された文書から解析する１単位の文章を切
り出してセットするモジュールである。43はこの文章を
言語解析し、第５図のような解析結果を得、それを記憶
するモジュールである。44は同じ文章の構造を解析し、
第７図のような解析結果を得、それを記憶するモジュー
ルである。ここまでの処理については既に述べている。

45は記憶されたこれらの結果を参照するモジュールであ
る。例えば、第２図の入力文「漢字を１文字ずつ入力す
る」が解析され第５図、第７図が得られる。第７図の35
からこの文章がタイトル文であることが分かる。46はこ
の構造情報をスタックする処理モジュールである。

次に第９図のルールのインデックス（39）を検索し、先
にスタックした文書構造情報と照合する。この処理モジ
ュールが47である。照合の結果、成功する場合と失敗す
る場合に分岐する。この分岐処理モジュールが48であ
る。今の場合７図の35は「タイトル」であり、第９図の
39は「本文」であるので照合しない。

照合に失敗した場合は、次の文をセットする処理モジュ
ールに移る。これが49である。このとき、セットする文
が残っているかどうかも調べる。この処理モジュールが
50である。セットする文が残っている場合は、その文を
再度言語解析処理モジュールへ返し、一連の処理を繰り
返す。

その結果第２図の文章の場合では、第２番目の文が「変
換／次候補キーで変換されない漢字などは、読みを入力
して１文字ずつ漢字に変換します。」がセットされる。
今度の場合第７図の35、第９図の39とも「本文」にな
り、照合に成功する。照合に成功した場合は、抽出ルー
ルの条件部と言語解析された結果とを照合する。この処
理モジュールが51である。

照合の結果成功する場合と失敗する場合に分岐する。こ
の処理モジュールが52である。今の場合、定義ルールに
かかる文字列や文のパターンがないので49の処理モジュ
ールへ移る。

そこで次の文章「これを音訓入力といいます。」がセッ
トされ、言語解析から再度処理が繰り返される。今度は
ルールインデックスとの照合に成功し、更に３番目のル
ールの条件部との照合にも成功する。そこで、ルールの
結論部を実行し、Ｘの値として「音訓入力」を抽出す
る。この処理モジュールが53である。この処理を終われ
ば次の文の処理に移る。残りの文章がなくなれば一連の
処理を終了する。この処理モジュールが54である。以上
が知識ベース参照処理モジュールの働きである。

次にインデックス抽出用符号化処理モジュールに入る。
この処理モジュールは次の編集処理モジュールのための
情報の整理を行う。

第11図はこのためのバッファの構造を表したもので、第
５図と第７図の結果を取り込んだ構造をしている。

55は抽出したインデックスのあるページ数である。56は
そのインデックスのある行数である。57と58はそれぞれ
インデックス文字列の開始文字番号及び終了文字番号で
ある。59はインデックス見出しである。この例では、音
訓入力とウインドウが見出しとして抽出されたことを表
している。60はインデックスの出現頻度である。61は配
列のための１次インデックスである。これは辞書の中の
読みの情報の第１文字を引き出したものとなっている。
62はインデックスがどのルールから導き出されたかを示
す情報である。これらの情報は、すべて、今までの処理
過程で得られるものである。

次に、編集処理モジュールに入る。このモジュールは第
11図の構造のスタックを用い、抽出されたインデックス
を出力できる形に編集する。

第12図は１次インデックスでソートしたものである。番
号などの意味は第11図と同一である。

次の対話処理モジュールは、インデックス抽出用の知識
ベースで抽出されたインデックスの候補を対話的に取捨
選択するモジュールである。このために、第12図のデー
タの必要な部分をディスプレイ上に表示する。

第13図がその表示例である。63はインデックスの見出し
であり、64はインデックスが必要であるか否かを表す情
報である。インデックス抽出ルールによって抽出された
見出しは必要の記号が入れられている。ユーザはこの画
面上の出力結果を確認しながら、インデックスの見出し
を変更したり、削除したりすることができる。削除する
場合は、要・不要の項目を、要から不要に変えればよ
い。これらの取捨選択の結果は、バッファ内にフラグを
つけ、管理することができる。それは第12図のデータ構
造に取捨選択の項目を設けることで実現することができ
る。

第14図がその構造であり、65が取捨選択用のフラグであ
る。「要」は必要であること、「不要」は不必要である
と判断されたことを意味している。取捨選択自体は主力
手段、例えばキーボードに取捨選択用の機能を割り付
け、機能キーを選択することにより実行することができ
る。

次の出力処理モジュールはこれらの取捨選択用のフラグ
を調べ、最終的な、索引の形に出力する。

第15図は最終的なインデックスの出力結果である。66は
１文字インデックスである。67が見出しであり、68は出
現ページである。

以上のようにして、インデックス抽出用の知識ベースを
利用して抽出するインデックスを自動的に作成し、最終
的な確認を人間と装置との対話で行い、インデックス作
成を精度良くかつ効率的に行えるのが本発明の特徴であ
る。

〈発明の効果〉本発明の効果は、専門家の知識をインデックス抽出用知
識ベースとして蓄えており、これと、入力文書との照合
により、自動的にインデックスが抽出できるため、イン
デックスの抽出作業を短縮できる点で効果があり、特
に、より正確にインデックス抽出ルールを基にして自動
的にインデックスが抽出されるという効果がある。

また、計算機による、文書と知識ベースや辞書との照合
を行っているため、表記やページ数の間違いなどを防ぐ
ことができる点でも効果がある。

更に、専門家の知識を知識ベース化しているため、統一
的なインデックスの抽出ができる点でも効果がある。

更に、知識ベースを計算機で処理できる形で保存してい
るので、インデックス作成の専門家と同様の抽出知識を
素人でも容易に得ることができ、装置の使用に拘る人へ
の制約を緩和できる点でも効果がある。

また、計算機を利用して解析を行うことができるので、
文書の変更に、間違いなく、早く対応でき、文書の修正
を行い易くした点でも効果がある。

【図面の簡単な説明】

第１図は本発明装置の構成ブロック図であり、第２図は
表示手段に表示されたワープロのマニュアル文書の例を
示した図である。第３図は機能ブロックの全体フロー図
であり、第４図はこの中の言語解析処理モジュールの中
の辞書の構造の概念図である。第５図は言語解析処理モ
ジュールの結果の例を示した図であり、第６図は文書構
造を決定するための知識ベースの例を示した図である。第７図は文書構造解析結果の例を示したずである。第８図はインデックス抽出用の知識ベースの構造を示し
た図であり、第９図はインデックス抽出用の知識ベース
の例を示した図である。第10図は、知識ベース参照処理モジュールの詳細フロー
図である。第11図は、インデックス抽出用符号化処理モジュールに
よって得られる結果の例を示した図であり、第12図は編
集処理のによって編集された結果の例を占め下図であ
る。第13図は、対話処理モジュールで対話を行うために表示
手段に表示したインデックスを表した例図であり、第14
図は、対話の結果を管理するバッファの構造の概念図で
ある。第15図は、インデックスの最終出力の例を示した図であ
る。６……言語解析手段７……構造解析手段８……知識ベース 14……言語解析処理モジュール 15……文書構造解析処理モジュール 16……知識ベース参照処理モジュール 19……対話処理モジュール 28……文字列出現頻度情報 29……文書構造解析用知識ベースの条件部 30……文書構造解析用知識ベースの結論部 35……文書構造情報 36……インデックス抽出用知識ベース大分類 37……インデックス抽出用知識ベース中分類 38……インデックス抽出用知識ベース小分類 39……知識ベース用インデックス 40……インデックス抽出用知識ベース条件部 41……インデックス抽出用知識ベース結論部 62……適用ルール情報 65……取捨選択情報 66……インデックスの１次インデックス 67……インデックスの見出し 68……インデックス見出しの出現ページ

Claims

【特許請求の範囲】

【請求項１】文書情報を記憶する文書記憶手段と、前記文書記憶手段に記憶された文書情報を言語解析する
言語解析手段と、前記文書記憶手段に記憶された文書情報の文書構造を解
析する文書構造解析手段と、複数のインデックス抽出ルールを格納するルール格納手
段と、前記言語解析手段と文書構造解析手段の解析結果と、前
記ルール格納手段に格納された抽出ルールとの照合を行
う照合手段と、前記照合手段により照合されたインデックス候補を蓄積
する一時記憶手段と、前記一時記憶手段に蓄積されたインデックス候補を取捨
選択する選択手段とを備えたことを特徴とするインデッ
クス作成支援装置。