JPH03129560A

JPH03129560A - インデックス作成支援装置

Info

Publication number: JPH03129560A
Application number: JP1269553A
Authority: JP
Inventors: Shigeki Kuga; 空閑　茂起; Hiroyuki Kanza; 浩幸勘座; Naotoshi Maruyama; 丸山　直利
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1989-10-16
Filing date: 1989-10-16
Publication date: 1991-06-03

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〈産業上の利用分野〉本発明は、書籍などのインデックス（索引）を作成する
ための装置に関するものである。

また、インデックスは該当書籍におけるキーワードであ
ることからキーワード作成支援装置としても利用が可能
である。更に、インデックスは辞書類・文書類の見出し
としても利用ができ、広く、辞書・文書などの文書処理
の検索、編集、作成装置として利用が可能である。

〈従来の技術〉従来、書籍やマニュアルにはインデックスを付け、利用
者の検索の利便に供されてきた。

このインデックスの作成作業には、書籍やマニュアルの
著者や編集の専門家が書籍やマニュアルなどの文書の中
のインデックスにすべき文字列に特殊な記号を付加した
り、あるいは、インデックスにすべき文字列を別の紙に
書き出した後で、該抽出記号、書き出されたインデック
スを利用して索引とする文字列や出現ページを決定する
という方式が取られていた。また、これらの文字列をイ
ンデックスとしてどのように配列し、どのように出力す
るかも、専門家の判断に任せられていた。

最近では、ワードプロセッサ（以後ワープロ）やその他
の文書処理システムが開発され、電子化された文書情報
を用いてインデックスを作成することも可能になってい
る。

ただし、この場合も、紙が電気的表示装置に代わっただ
けであり、インデックスを作成する過程のみを取り出せ
ば、依然として、著者や専門家が、インデックスとすべ
き文字列に特殊な記号を付加したり、インデックスとす
べき文字列を指摘したりする方法が採られている。

これらのインデックス作成技術の基盤として、符号や文
字列などを入力する技術が確立している。

また、入力した符号や文字列などを表示装置に出力する
表示技術が確立している。また、符号などを手掛かりに
文字列を抽出し、索引の見出しとして編集したりできる
編集技術が確立している。また、符号化したインデック
スの出現ページを計算し、索引見出しと組み合わせて出
力するコンピュータの基本技術が確立している。

これらの技術を用いて、電子化された文書中から、イン
デックスを指定することによりインデックスを作成する
技術の基盤が確立されている。

〈発明が解決しようとする問題点〉紙のうえに記述された文書の中からインデックスを作成
する方法は、運び易く、どの部分にも、自由な文字や記
号サイズで、入出力同一面に書けるなど紙の特徴に基づ
くメリットを有しているが次のような問題点を有してい
る。

まず、インデックスを抽出するための作業に時間がかか
った。

また、抽出記号を付加したり他の紙に書き写したりする
過程で間違いの混入する可能性が高かった。

また、文書が完成してからでないとインデックスの作成
がやりにくいという制約があった。

また、文書中にない表現がインデックスの見出しとして
取られたり、インデックス見出しが記述されていないペ
ージがインデックス頁として当てられたりする間違いが
発生するという問題があった。

また、インデックス作成後に文章の変更があった場合に
、インデックス見出しや頁数などに間違いを引き起こす
可能性が高いとう問題があった。

また、このような間違いを校正するため多くの人的パワ
ーと時間を必要とした。

また、著者とインデックスの作成者が異なる場合、同一
内容に対し、微妙な表現の差異が生じ、インデックスの
利用者に困惑を与えるという問題があった。

一方、ワープロなどの文書処理装置を利用し、抽出用の
符号を付けてインデックスを作成する方法は、文書が修
正されても、直ちに、関連する部分が修正できるという
メリットをもたらすが、インデックス抽出の過程は本質
的に紙の上の文章を用いるのと同じであるので、紙のう
えでのインデックス抽出と同じ問題を有している。

即ち、インデックスを抽出するための符号付けに時間と
注意力を必要とする。そのため、大量の文書では作業の
過程で間違いが生じ易いという問題があった。

また、文中の記述とインデックス見出し記述との整合を
取る際に間違いが発生するという問題があった。

また、インデックスを抽出する人が変われば、インデッ
クスが変わるというインデックス抽出の統一性がなかっ
た。

また、作業を行う人がインデックス抽出の専門知識を有
し、かつ、装置の扱える人でなければならないという制
約条件が有っＩ；。

また、インデックス作成のための知識が蓄積されないと
いう問題があった。

本発明は、専門家の有しているインデックス抽出のため
の領域知識をコンピュータに格納することにより、領域
知識に基づいた統一的インデックスの抽出を行い、イン
デックス作成のかかる問題を解決し、効率的で、間違い
の少ないインデックスの作成を行おうとするものである
。

く問題点を解決するための手段〉本発明は、文字情報を入力する手段と、文字情報を出力
する手段と、入力された文字情報を記憶する手段と、文
字情報を編集する手段と、文字情報を表示する手段と、
文字情報を言語解析する手段と、専門用語を記憶する手
段と、言語解析用の辞書類、解析結果、制御の途中経過
、結果などを蓄積する一時記憶手段と、これらの各手段
を制御する制御手段から構成される。

〈作用〉はじめに、制御手段の制御により、本発明の装置に入力
された文字情報が、言語解析手段によって言語解析され
、その結果が記憶手段に蓄積される。

次に、制御手段により専門用語辞書を参照し、該蓄積さ
れた言語解析結果と照合をとる。

もし、両者が照合した場合は、制御手段により用語辞書
の必要部分をインデックスとして抽出し、編集に必要な
情報と共にスタックする。スタックされた結果を利用し
て、インデックス作成者の意図に応じて編集を行い、出
力するように作用する。

〈実施例〉以下図に基づいて本発明の詳細な説明する。第１図は本
発明にかかわるインデックス作成支援装置のブロック構
成図である。

図においてｌは文字情報を入力するためのキーボードな
どの入力手段である。２は入力した文字情報を出力する
ためのプリンタなどの出力手段である。３は、入力され
た文字情報を記憶す半導体素子、ディスク、フロッピー
ディスクなどの記憶手段である。４は、入力された文字
情報を編集するための、マウス、アイコン、機能キーな
どの編集手段である。編集自体は後で述べる制御装置で
行われるが、ここでいう編集手段は制御装置の実行の契
機を与えたり、ユーザが編集を行い易くするために設け
られた手段である。５は入力されたり、編集された文字
情報を表示するためのＣＲＴなどの表示手段である。６
は入力された文字情報を言語解析するための、辞書、テ
ーブル、言語解析プログラムなどからなる言語解析手段
である。

７は、対象領域の専門用語を収めた辞書などを格納する
手段である。８は入力された文字情報や、言語解析のた
めのバッファとなる一時記憶手段である。一般に制御装
置に密接したＲＡＭが利用される。９はこれらの各手段
を制御するＣＰＵなどの制御手段である。

第２図はワープロのマニュアルの文章の例を表した図で
ある。ワープロの文章は数百ページに及ぶものもあるが
、ここでは、本発明の詳細な説明するのが目的なので図
のような１頁の文章で例を示す。

１０はタイトルあるいは見出しである。これは、通常、
文書の最初の部分に太字で記述されたり、章、節などの
番号と１行程度の文章から戊り立っ場合が多い。本例で
は、他の部分より大きいサイズの文字を用いて、タイト
ル文であることを強調している。１１は本文であり、見
出しに対する内容の説明、操作の方法など詳細な記載が
なされている部分である。１２は表示装置の表示画面の
例を示した図である。

第３図は本発明の機能ブロックの概略フロー図である。

１３は入力された文字情報を形態素解析、構文解析、意
味解析、文脈解析などして文章を装置が解釈できる形式
に変えて記憶する言語解析処理モジュールである。１４
は本廃明の特徴である、インデックス抽出用の専門用語
辞書とこれらの言語解析の結果とを照合し、インデック
スの候補となる文字列を抽出するモジュールである。１
５は抽出されたインデックスの候補の情報に基づいて、
編集を行ったり、出力を行うモジュールである。

以後これらの各モジュールにたいし、第２図に上げた例
文を用いて具体的に説明を行う。

言語解析処理モジュールは、まず、記憶手段あるいは一
時記憶手段に蓄えられた文書から、言語解析手段で処理
できる単位の文を切り出し、−時記憶手段に読み込む。

例えば、今、言語解析手段は１文単位を処理するものと
仮定すると、制御手段は第２図の例文の第１番目の文章
である「漢字を１文字ずつ入力する」を−時記憶手段に
呼び込む。次に、形態素解析、構文解析、意味解析など
の言語解析が行われる。ここでは、形態素解析の例を示
し、どのような過程が必要であるかの原理を示す。

まず、呼び込まれた文章は、通常、文章の頭のほうの文
字から順に言語解析手段にある言語解析用辞書と参照さ
れる。

第４図がその辞書の例を表した図である。これは、入力
例文の形態素解析を行うのに必要な辞書見出しに限った
辞書になっている。１６は見出しである。１７はその読
み情報である。１８はその品詞情報の例である。１９は
辞書見出しの弁別番号である。

今の場合、入力文の頭文字は「漢」であるので、「漢」
と辞書との照合がなされるが、照合に失敗する。そこで
、照合する入力文の文字を１文字ずつ増やし照合を繰り
返す。例えば、次の段階では「漢字」までを切り出して
、辞書と照合する。今度は、照合に成功する。成功した
場合は、辞書の読みの情報、品詞情報、あるいは、見出
しの弁別番号を一時記憶手段、あるいは、記憶手段にス
タックし、再び入力文字列の次の文字から辞書との照合
を繰り返す。これにより、各形態素が決定される。また
、形態素と形態素間の接続関係表を用いることにより解
析した文は「漢字を／１文字ずつ／入力する」のように
文節単位に分類することもできる。

第５図は言語解析された各形態素の情報を出現順に並べ
た例を表した図である。２０は各形態素の画面バッファ
上の開始位置であり、２１はその終了位置である。２２
は各形態素の弁別番号であり、２３は各形態素の出現頻
度情報である。

第６図は専門用語辞書の構造及び内容の一部の例を示し
た図である。２４は専門用語辞書の標準見出しの情報で
あり、通常、検索に便利なようにソートされている。２
５は見出しの読みの情報である。２６は見出しの品詞情
報である。２７は見出しの句のゆらぎ表記の情報である
。この項目の中の数字は見出しの形態素の番号を表して
いる。

次の記号「＋」は形態素の番号の次に「十」の次の文字
情報が追加される可能性があることを意味している。２
８は揺らぎ表記の情報の項目である。

項目の数字は形態素の番号を示しており、数字に続く中
点以下の文字列が来る可能性のあることを意味している
。この図の場合でいうと、ウィンドウはウィンドウと書
かれることもあることになる。

第７図は専門用語辞書照合処理モジュールの詳細フロー
の例を表した図である。第２図の例文と第６図の専門用
語辞書を用いて具体的に説明を行う。２８は文章記憶手
段に蓄積された文書から解析単位の文章を切り出して言
語解析手段にセットするモジュールである。今の場合最
初は、「漢字を１文字ずつ入力する」がセットされる。

２９はこの文章を形態素、構文、意味、文脈レベルなど
装置のレベルに応じて言語解析し、第５図のような解析
結果を得、それを言語解析手段に記憶するモジュールで
ある。３０は専門用語辞書の標準見出し情報、即ち、「
ウィンドウ」と言語解析によって得られる最初の見出し
「漢字」とを照合するモジュールである。「漢字」とい
う見出しを引き出すのは第５図の辞書弁別情報「０００
１」をキーとして、第４図の１６を引くことにより行う
ことができる。また、第５図の言語解析の結果に、第４
図の内容を直接書き込むような構造の場合は、第６図と
第５図の見出しを直接照合することができる。

照合の結果、両者が一致する場合と不一致の場合とに分
岐する。この分岐処理のモジュールが３１である。照合
の結果、今の場合、一方が「ウィンドウ」であり、一方
が「漢字」であるので不一致であることが分かる。

両方の見出しが一致しない場合は、専門用語辞書の句の
揺らぎ表記情報を参照する。もしその項目に情報があれ
ば、情報に従った、句を生成する。

この項目に情報がなければ何もしないで次の処理に進む
。例えば、「ウィンドウ」の場合は何もしないで、「音
訓人力」の場合は「音訓の入力」を生成する。この処理
モジュールが３２である。

続いて、生成した見出しと言語解析結果との照合を行う
。この処理モジｆ−ルが３３である。その結果、照合に
成功する場合と失敗する場合とに分岐する。この処理モ
ジュールが３４である。「ウィンドウ」の場合、この処
理はスキップされ、「音訓の入力」の場合は照合に失敗
する。

句の揺らぎ処理のモジュールをスキップまたは句の揺ら
ぎ処理で生成された見出し間の照合に失敗した場合は、
第６図の揺らぎ表記の項目を参照し、書かれた内容に従
って見出しの生成を行う。

今の場合、最初の見出しで、「ウィンドウ」が生成され
る。この処理モジュールが３５である。この処理で生成
された見出しと解析結果を照合するモジュールが３６で
ある。その結果、照合に成功する場合と、失敗する場合
とに分岐する。この分岐の処理モジュールが３７である
。

今の場合、一方が「漢字」であり、一方は「ウィンドウ
」であるので照合に失敗する。標準見出し、句の揺らぎ
表記、揺らぎ表記の３つとも照合に失敗した場合は、次
の専門用語辞書の見出しをセットする。この処理モジュ
ールが４３である。

Ｉ；だし、次の見出しが専門用語にある場合とない場合
とがあるので、存在を確かめ分岐の処理を行う。この処
理モジュールが４４である。次の専門用語ある場合は再
度標準見出しから、解析結果と照合を繰り返す。照合す
る用語がなくなった場合は、次の解析語をセットするモ
ジュールへ移る。

今述べているのは、専門用語辞書の見出しか少ない場合
で、直接、専門用語辞書の並び順に逐一照合を繰り返す
方法である。辞書の見出しが多くなると、この方法では
検索の効率が落ちる、そこで、通常、用語辞書の見出し
インデックスを作り、照合する文字列がどの範囲の辞書
を検索すれば済むかを予め設定しておく方法が取られる
。その方法は一向に本発明に影響を与えるものではない
が、発明の請求の範囲を越えるので引き続き原理的な照
合の方法について述べる。

ところで、３１．３４．３７の各分岐処理で失敗した場
合の流れのみ説明したがこれらがもし成功であった場合
は、見出し、出現ページ数、出現位置情報、出現頻度な
どその他後の編集・出力の処理に必要な情報をスタフ・
りする。この処理モジュールが３８である。

これで、一つの言語解析結果の最初の語と用語辞書との
照合が終了し、統いて、言語解析結果の次の見出しをセ
ットする。この処理モジュールが３９である。セットす
る場合に、見出しがあるかないかを調べ、残りがあれば
、３０に戻り、専門用語辞書との照合を繰り返す。なげ
、れば、次の文章をセットする。この分岐処理のモジュ
ールが４０であり、次文書をセットするモジュールが４
１である。文章をセットする際に、セットする文章が残
っているか否かをチエツクし、存否の結果によって処理
を分岐させる。その分岐処理のモジュールが４２である
。文章がなければ、この処理を終了し、文章があれば、
最初の文章セットの処理戻って全体の処理を繰り返す。

終了処理のモジュールが４５である。

今の例文の場合でいうと、３行目の最初の単語「変換」
が専門用語辞書との照合の対象になった場合に初めて、
３１の照合モジュールで、照合に成功し、３９のモジュ
ールに移る。

又、４行目の「音訓の入力」という句の場合は用語辞書
の標準見出し「音訓入力」の句の揺らぎ表記と照合し、
３４から３９に飛ぶ例である。

又、最後の行の「ウィンドウ」は標準見出し「ウィンド
ウ」の揺らぎ見出しとの照合に成功する例である。

第８図はこのようにして照合に成功し、３８で得られた
結果の例を示している。

４６は出現ページの項目である。各見出しとも１ページ
に有ることを示している。コンマで区切られているのは
、同一見出しが二つ以上あることを意味しており、コン
マで区切られた順序に文字列が出現していることを意味
している。４７は見出しの出現する行数を表す項目であ
る。この場合も同一見出しが複数の場所に出現する場合
は、コンマで区切って表現している。４８．４９はそれ
ぞれ、見出しが４７の何文字目から始まり、何文字目で
終わるかを表す項目である。見出しが複数回出現する場
合はコンマで区切って表している。

５０は見出しである。５１・は各見出しの出現頻度を表
す項目である。６２は見出しの読みのインデックスであ
る。このインデックスは最終出力の必要に応じて複数の
文字まで、拡張する事ができるが、現在の例は１文字に
なっている。また、今の例では平仮名１文字のインデッ
クスになっているが、これを英数字などで代用すること
もできる。

次に編集・出力処理モジュールの説明に移る。

この処理モジュールは、第８図で得られた結果を編集し
、出力するモジュールである。第８図の見出しの並び順
は見出しの出現順になっているので、これを読みのイン
デックス及び見出しの情報を用いてソートする。次に、
指定されたフォーマットに従い出力する＝その例を第９図に示す。５３は１文字インデックスであ
る。５４は見出しである。５５は出現ページ数である。

１文字インデックスは実施例では、辞書のかな１文字で
表しているが意図に応じて５０音の行に集約して出すこ
ともできる。

上記処理７０−では文章単位に言語解析を行い、次ぎに
専門用語辞書と各解析結果とを比較するように記述した
が、この処理は、例えば、言語解析処理を形態素単位に
行い、続いて、すぐに、専門用語辞書と切照合を行つＩ
；す、文書全体の言語解析を行ってから、専門用語辞書
との比較を行っても本発明に影響はない。

また、本発明では、言語解析を行ってから、専門用語辞
書との照合を行うように記述したが、これは、絶対的な
条件ではなく、例えば、入力文書と、専門用語辞書との
文字列の照合を行っても良い。ただし、その場合は、文
字列の並び方によっては、間違って専門用語辞書見出し
と照合する事も有り得るので、後で見直す処理が必要に
なる。

いずれにしても、専門用語辞書との照合をとり、一致し
たものをインデックスの候補とする以外の処理の部分は
自由度がある。

〈発明の効果〉本発明の効果は、専門家の知識を専門用語辞書として蓄
えており、これと、入力文書との照合により、自動的に
文書のインデックスが抽出できるため、インデックスの
抽出作業を短縮できる点にある。

また、計算機による、文書と知識ベースや辞書との照合
を行っているため、表記やページ数の抽出ミス、転記ミ
スなどを防ぐことができる点でも効果がある。

更に、文書作成の途中であっても、装置を操作し、イン
デックスの抽出状態をみてみるなど、文書作成が終了し
、文章を入力してみてからでないとインデックスの作成
にかかれないという制約を解消する点でも効果がある。

更に、専門家の知識を専門用語辞書として知識ベース化
しているため、専門家の用語の知識が順次蓄積されると
ともに、専門家間や編集者間による差異のない統一的な
インデックスの抽出ができる点でも効果がある。

更に、専門用語にかかわる知識を計算機で処理できる形
で保存しているので、インデックス作成の専門家と同様
の抽出知識を素人でも容易に得ることができ、装置の使
用に拘る人への制約を緩和できる点でも効果がある。

また、計算機を利用して解析を行うことができるので、
文書に変更のある場合も間違いなく、早く対応でき、文
書の修正を行い易くした点でも効果がある。

【図面の簡単な説明】

第１図は本発明装置の構成ブロック図であり、第２図は
表示手段に表示されたワープロのマニュアル文書の例を
示した図である。第３図は機能ブロックの全体フロー図
であり、第４図は言語解析処理モジュールの辞書の構造
の例を表した図である。第５図は言語解析処理モジュー
ルの結果の例を示した図であり、第６図は専門用語辞書
の構造の例を示した図である。第７図は専門用語辞書照
合処理モジュールの詳細フローの例を示した図であり、
第８図は第７図のフローにより得られる結果の例を示し
た図である。第９図は編集・出力処理モジュールの結果
の例である。６・・・言語解析手段７・・・専門用語記憶手段１２・・表示された入力文の例１３・・言語解析処理モジュール１４・・専門用語辞書参照処理モジュール１５・・編集
・出力処理モジュール２４・・専門用語辞書の見出し情報の項目２５・・専門
用語辞書の読み情報の項目２６・・専門用語辞書の品詞
情報の項目２７　・２８　・３０　・３３　・３５　・５３　・５４　・５５　・・専門用語辞書の句の揺らぎ情報の項目・専門用語辞書
の揺らぎ表記情報の項目・標準見出しとの照合処理モジ
ュール・句の揺らぎ表記生成・揺らぎ表記生成・１文字インデックス・インデックス見出し・インデックス見出しの出現ページ数以上

Claims

【特許請求の範囲】

文字情報を入力する手段と、文字情報を出力する手段と
、入力された文字情報を記憶する手段と、文字情報を編
集する手段と、文字情報を表示する手段と、文字情報を
言語解析する手段と、専門用語を記憶する手段と、言語
解析用の辞書類、解析結果、制御の途中経過、結果など
を蓄積する一時記憶手段と、これらの各手段を制御する
制御手段を持つ装置において、対象領域に固有の専門用
語辞書を利用することにより、出力するインデックスを
制御することを特徴とするインデックス作成支援装置。