JPH0769918B2 - インデックス作成支援装置 - Google Patents
インデックス作成支援装置Info
- Publication number
- JPH0769918B2 JPH0769918B2 JP1269554A JP26955489A JPH0769918B2 JP H0769918 B2 JPH0769918 B2 JP H0769918B2 JP 1269554 A JP1269554 A JP 1269554A JP 26955489 A JP26955489 A JP 26955489A JP H0769918 B2 JPH0769918 B2 JP H0769918B2
- Authority
- JP
- Japan
- Prior art keywords
- index
- document
- processing module
- sentence
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Document Processing Apparatus (AREA)
Description
ための装置に関するものである。また、インデックスが
該当書籍におけるキーワードであることからキーワード
作成支援装置としても利用が可能である。更に、インデ
ックスは辞書類・文書類の見出しとしても利用でき、広
く、辞書・文書など文書処理の検索、編集、作成装置と
して利用が可能である。
者の検索の利便に供されてきた。
著者や編集の専門家が書籍やマニュアルなどの文書中の
インデックスにすべき文字列に特殊な記号を付加した
り、あるいは、インデックスにすべき文字列を別の紙に
書き出した後で、該抽出記号、書き出されたインデック
スを利用して索引とする文字列や出現ページを決定する
という方式が取られていた。また、これらの文字列をイ
ンデックスとしてどのように配列し、どのように出力す
るかも、専門家の判断に任せられていた。
の文書処理システムが開発され、電子化された文書情報
を用いてインデックスを作成することも可能になってい
る。
けであり、インデックスを作成する過程のみを取り出せ
ば、依然として、著者や専門家が、インデックスとすべ
き文字列に特殊な記号を付加したり、インデックスとす
べき文字列を指摘したりする方法が採られている。
字列などを入力する技術が確立している。また、入力し
た符号や文字列などを表示装置に出力する表示技術が確
立している。また、符号などを手掛かりに文字列を抽出
し、索引の見出しとして編集したりできる編集技術が確
立している。また、符号化したインデックスの出現ペー
ジを計算し、索引見出しと組み合わせて出力するコンピ
ュータの基本技術が確立している。
ンデックスを指定することによりインデックスを作成す
る技術の基盤が確立されている。
する方法は、運び易く、どの部分にも、自由な文字や記
号サイズで、入出力同一面に書けるなど紙の特徴に基づ
くメリットを有しているが次のような問題点を有してい
る。
った。また、抽出記号を付加したり他の紙に書き写した
りする過程で間違いの混入する可能性が高かった。ま
た、文書が完成してからでないとインデックスの作成が
やりにくいという制約があった。また、文書中にない表
現がインデックスの見出しとして取られたり、インデッ
クス見出しが記述されていないページがインデックス頁
として当てられたりする間違いが発生するという問題が
あった。また、インデックス作成後に文章の変更があっ
た場合に、インデックス見出しや頁数などに間違いを引
き起こす可能性が高いとう問題があった。また、このよ
うな間違いを校正するため多くの人的パワーと時間を必
要とした。
符号を付けてインデックスを作成する方法は、文書が修
正されても、直ちに、関連する部分が修正できるという
メリットをもたらすが、インデックス抽出の過程は本質
的に紙の上の文章を用いるのと同じであるので、紙のう
えでのインデックス抽出と同じ問題を有している。即
ち、インデックスを抽出するための符号付けに時間と注
意力を必要とする。そのため、大量の文書では作業の過
程で間違いが生じ易いという問題があった。また、文中
の記述とインデックス見出し記述との整合を取る際に間
違いが発生するという問題があった。また、インデック
スを抽出する人が変われば、インデックスが変わるとい
うインデックス抽出の統一性がなかった。また、作業を
行う人がインデックス抽出の専門知識を有し、かつ、装
置の扱える人でなければならないという制約条件が有っ
た。また、インデックス作成のための知識が蓄積されな
いという問題があった。
の知識をルール化し、コンピュータに格納することによ
り、ルールに基づいた統一的インデックスの抽出を行
い、インデックス作成のかかる問題を解決し、効率的
で、間違いの少ないインデックスの作成を行おうとする
ものである。
書記憶手段に記憶された文書情報を言語解析する言語解
析手段と、前記文書記憶手段に記憶された文書情報の文
書構造を解析する文書構造解析手段と、複数のインデッ
クス抽出ルールを格納するルール格納手段と、前記言語
解析手段と文書構造解析手段の解析結果と、前記ルール
格納手段に格納された抽出ルールとの照合を行う照合手
段と、前記照合手段により照合されたインデックス候補
を蓄積する一時記憶手段と、前記一時記憶手段に蓄積さ
れたインデックス候補を取捨選択する選択手段とを備え
たことを特徴とするインデックス作成支援装置である。
された文字情報が、言語解析手段によって言語解析され
る。これらの解析された結果は記憶手段に蓄積される。
次にこれらの解析結果と文書構造情報により文書構造を
解析する。
に記載された条件部と言語解析結果、文書構造解析結果
との照合をとる。
クスの部分を抽出し、編集に必要な情報と共にスタック
する。スタックされた結果を利用して、インデックスの
作成者の意図に応じて編集を行い、出力する。
ックス見出しを表示装置あるいは出力装置に出力し、ユ
ーザの意志でインデックスの取捨選択を行い、知識ベー
スによるインデックスの自動抽出とユーザとの対話によ
る抽出を組み合わせて行うことも出来るように作用す
る。
発明にかかわるインデックス作成支援装置のブロック構
成図である。
どの入力手段である。2は入力した文字情報を出力する
ためのプリンタなどの出力手段である。3は、入力され
た文字情報を記憶す半導体素子、ディスク、フロッピー
ディスクなどの記憶手段である。4は、入力された文字
情報を編集するための、マウス、アイコン、機能キーな
どの編集手段である。編集自体は後で述べる制御装置で
行われるが、ここでいう編集手段は制御装置の実行の契
機を与えたり、ユーザが編集を行い易くするために設け
られた手段である。5は入力されたり、編集された文字
情報を表示するためのCRTなどの表示手段である。6は
入力された文字情報を言語解析するための、辞書、テー
ブル、言語解析プログラムなどからなる言語解析手段で
ある。7は、文書の構造を解析するための文書構造解析
手段である。8は本発明の特徴となるインデックス抽出
のための知識を装置で解釈出来る形にして記憶している
知識ベースである。9は入力された文字情報や、言語解
析のためのバッファとなる一時記憶手段である。一般に
制御装置に密接したRAMが利用される。10はこれらの各
手段を制御するCPUなどの制御手段である。
ある。ワープロの文章は数百ページに及ぶものもある
が、ここでは、本発明の原理を説明するのが目的なので
図のような1頁の文章で例を示す。
書の最初の部分に太字で記述されたり、章、節などの番
号と1行程度の文章から成り立つ場合が多い。このタイ
トルは書籍の目次となる部分でもある。12は本文であ
り、見出しに対する内容の説明、操作の方法など詳細な
記載がなされている部分である。13は表示装置の表示画
面の例を示した図である。
る。14は入力された文字情報を形態素解析、構文解析、
意味解析、文脈解析などして文章を装置が解釈できる形
式に変えて記憶する言語解析処理モジュールである。15
は文書の形式を文書構造ルールに基づいて解析する文書
構造解析処理モジュールである。16はインデックス抽出
用の知識ベースを参照し、インデックスの候補を抽出す
る知識ベース参照処理モジュールである。17は抽出され
たインデックスの候補に符号をつけ、編集や対話処理に
理便な符号を付けるインデックス抽出用符号化処理モジ
ュールである。18は抽出されたインデックスを確認した
り、最終出力に合わせるための編集を行う編集処理モジ
ュールである。19は装置が抽出し、確認できるように編
集したインデックスを確認しながら取捨選択あるいは訂
正する対話処理モジュールである。20は確認、訂正後の
インデックスを出力する出力処理モジュールである。
力装置で入力され、記憶手段に蓄積された文章を適当な
分量、例えば、第2図の第1番目の文章の「漢字を1文
字ずつ入力する」を制御手段の働きにより一時記憶手段
に呼び込む。呼び込まれた文章は、通常、文章の頭のほ
うの文字から順に言語解析手段にある言語解析用辞書と
参照する。
例文の解釈を行うのに必要な辞書見出しに限った辞書に
なっている。21は見出しである。22はその読み情報であ
る。23はその品詞情報の例である。24は辞書見出しの弁
別番号である。
と辞書との照合がなされるが、照合に失敗する。そこ
で、照合する文字を1文字ずつ増やし照合を繰り返す。
例えば、次の段階では「漢字」までを切り出して、辞書
と照合する。今度は、照合に成功する。成功した場合
は、辞書の読みの情報、品詞情報、あるいは、見出しの
弁別番号を一時記憶手段、あるいは、記憶手段に蓄積
し、再び入力文字列の次の文字から辞書との照合を繰り
返す。
は単語の開始位置、26は単語の終了位置、27は辞書の弁
別番号を表している。28は特定の弁別番号をもった単語
が解析する文章中に何回出現したかを表す頻度情報であ
る。図のデータは次のことを意味している。即ち、最初
の2重縦線までの情報は、画面上の第1番目と第2番目
の文字「漢字」が一つの単語でそれは辞書の0001番目の
単語であり、解析した入力文を含め累計1回出現した。
構造解析処理モジュールは章や節などの文書の論理構造
を表す数字、文書の中の文字の配列情報を調べ、該当す
る文章がタイトル部分であるか本文であるかを決める。
この二つに限定しているのは、現在、後述するインデッ
クス抽出用の知識ベースが二つに関連して分類されてい
るためで、知識ベースを細分化すればそれに応じて文書
の構造を分割しても、本発明に影響はない。
ためのルールの例を示した図である。29はルールの条件
部であり、30はルールの結論部である。
る」が一時記憶手段にセットされ、第6図の構造解析ル
ールと照合される。第6図の最初のルールとは照合しな
いが2番目のルールと照合し、文であることが認識され
る。また、第6図の4番目のルールとも照合することが
分かる。照合した場合はルールの結論部を実行する。そ
の結果、この入力文はタイトル文であると決定する。
の記載されているページを表す。32は該当ページにおけ
る文の存在する行番号である。33は文の開始文字位置、
34は文の終了位置を表す情報である。35は、ルールと照
合した結果、その文がタイトル文であるか本文であるか
を示す情報である。今の場合はタイトル文であることを
示している。
スの構造を表したものである。36は知識ベースのルール
の大分類を表すもので今の場合、2つの種類から成り立
っていることを示している。37は知識ベースのルールの
大分類を細分したもので中分類ルールである。例えば、
参照される文章が本文であるなら本文ルールが適用され
る。38は中分類ルールを更に細分した小分類ルールであ
る。
とは物事の定義や説明を行うときに用いる特徴的な文章
表現のパターンを集めたものである。この背景には、説
明や定義を与える言葉は文章中で重要であり、インデッ
クスの見出しとしてもふさわしい可能性が高いという専
門家の知識、常識がある。このような専門知識、常識を
形式化したのが知識ベースである。39は検索のためのル
ールのインデックスである。今の場合、本文に対するル
ールであり、かつ定義ルールであることを示している。
40はルールの条件部であり、41はその結論部である。条
件部に有る<>の記号はその中にある単語の活用語尾変
化、付属語の変化、付属語の付加を認めることを意味し
ている。このルールは入力文が条件部に照合すれば、結
論部を実行するようになっている。
表した図である。今までに上げた例文を用いて説明を行
う。42は蓄積された文書から解析する1単位の文章を切
り出してセットするモジュールである。43はこの文章を
言語解析し、第5図のような解析結果を得、それを記憶
するモジュールである。44は同じ文章の構造を解析し、
第7図のような解析結果を得、それを記憶するモジュー
ルである。ここまでの処理については既に述べている。
る。例えば、第2図の入力文「漢字を1文字ずつ入力す
る」が解析され第5図、第7図が得られる。第7図の35
からこの文章がタイトル文であることが分かる。46はこ
の構造情報をスタックする処理モジュールである。
にスタックした文書構造情報と照合する。この処理モジ
ュールが47である。照合の結果、成功する場合と失敗す
る場合に分岐する。この分岐処理モジュールが48であ
る。今の場合7図の35は「タイトル」であり、第9図の
39は「本文」であるので照合しない。
ールに移る。これが49である。このとき、セットする文
が残っているかどうかも調べる。この処理モジュールが
50である。セットする文が残っている場合は、その文を
再度言語解析処理モジュールへ返し、一連の処理を繰り
返す。
換/次候補キーで変換されない漢字などは、読みを入力
して1文字ずつ漢字に変換します。」がセットされる。
今度の場合第7図の35、第9図の39とも「本文」にな
り、照合に成功する。照合に成功した場合は、抽出ルー
ルの条件部と言語解析された結果とを照合する。この処
理モジュールが51である。
の処理モジュールが52である。今の場合、定義ルールに
かかる文字列や文のパターンがないので49の処理モジュ
ールへ移る。
トされ、言語解析から再度処理が繰り返される。今度は
ルールインデックスとの照合に成功し、更に3番目のル
ールの条件部との照合にも成功する。そこで、ルールの
結論部を実行し、Xの値として「音訓入力」を抽出す
る。この処理モジュールが53である。この処理を終われ
ば次の文の処理に移る。残りの文章がなくなれば一連の
処理を終了する。この処理モジュールが54である。以上
が知識ベース参照処理モジュールの働きである。
この処理モジュールは次の編集処理モジュールのための
情報の整理を行う。
5図と第7図の結果を取り込んだ構造をしている。
そのインデックスのある行数である。57と58はそれぞれ
インデックス文字列の開始文字番号及び終了文字番号で
ある。59はインデックス見出しである。この例では、音
訓入力とウインドウが見出しとして抽出されたことを表
している。60はインデックスの出現頻度である。61は配
列のための1次インデックスである。これは辞書の中の
読みの情報の第1文字を引き出したものとなっている。
62はインデックスがどのルールから導き出されたかを示
す情報である。これらの情報は、すべて、今までの処理
過程で得られるものである。
11図の構造のスタックを用い、抽出されたインデックス
を出力できる形に編集する。
号などの意味は第11図と同一である。
ベースで抽出されたインデックスの候補を対話的に取捨
選択するモジュールである。このために、第12図のデー
タの必要な部分をディスプレイ上に表示する。
であり、64はインデックスが必要であるか否かを表す情
報である。インデックス抽出ルールによって抽出された
見出しは必要の記号が入れられている。ユーザはこの画
面上の出力結果を確認しながら、インデックスの見出し
を変更したり、削除したりすることができる。削除する
場合は、要・不要の項目を、要から不要に変えればよ
い。これらの取捨選択の結果は、バッファ内にフラグを
つけ、管理することができる。それは第12図のデータ構
造に取捨選択の項目を設けることで実現することができ
る。
る。「要」は必要であること、「不要」は不必要である
と判断されたことを意味している。取捨選択自体は主力
手段、例えばキーボードに取捨選択用の機能を割り付
け、機能キーを選択することにより実行することができ
る。
を調べ、最終的な、索引の形に出力する。
1文字インデックスである。67が見出しであり、68は出
現ページである。
利用して抽出するインデックスを自動的に作成し、最終
的な確認を人間と装置との対話で行い、インデックス作
成を精度良くかつ効率的に行えるのが本発明の特徴であ
る。
識ベースとして蓄えており、これと、入力文書との照合
により、自動的にインデックスが抽出できるため、イン
デックスの抽出作業を短縮できる点で効果があり、特
に、より正確にインデックス抽出ルールを基にして自動
的にインデックスが抽出されるという効果がある。
を行っているため、表記やページ数の間違いなどを防ぐ
ことができる点でも効果がある。
的なインデックスの抽出ができる点でも効果がある。
るので、インデックス作成の専門家と同様の抽出知識を
素人でも容易に得ることができ、装置の使用に拘る人へ
の制約を緩和できる点でも効果がある。
文書の変更に、間違いなく、早く対応でき、文書の修正
を行い易くした点でも効果がある。
表示手段に表示されたワープロのマニュアル文書の例を
示した図である。第3図は機能ブロックの全体フロー図
であり、第4図はこの中の言語解析処理モジュールの中
の辞書の構造の概念図である。第5図は言語解析処理モ
ジュールの結果の例を示した図であり、第6図は文書構
造を決定するための知識ベースの例を示した図である。 第7図は文書構造解析結果の例を示したずである。 第8図はインデックス抽出用の知識ベースの構造を示し
た図であり、第9図はインデックス抽出用の知識ベース
の例を示した図である。 第10図は、知識ベース参照処理モジュールの詳細フロー
図である。 第11図は、インデックス抽出用符号化処理モジュールに
よって得られる結果の例を示した図であり、第12図は編
集処理のによって編集された結果の例を占め下図であ
る。 第13図は、対話処理モジュールで対話を行うために表示
手段に表示したインデックスを表した例図であり、第14
図は、対話の結果を管理するバッファの構造の概念図で
ある。 第15図は、インデックスの最終出力の例を示した図であ
る。 6……言語解析手段 7……構造解析手段 8……知識ベース 14……言語解析処理モジュール 15……文書構造解析処理モジュール 16……知識ベース参照処理モジュール 19……対話処理モジュール 28……文字列出現頻度情報 29……文書構造解析用知識ベースの条件部 30……文書構造解析用知識ベースの結論部 35……文書構造情報 36……インデックス抽出用知識ベース大分類 37……インデックス抽出用知識ベース中分類 38……インデックス抽出用知識ベース小分類 39……知識ベース用インデックス 40……インデックス抽出用知識ベース条件部 41……インデックス抽出用知識ベース結論部 62……適用ルール情報 65……取捨選択情報 66……インデックスの1次インデックス 67……インデックスの見出し 68……インデックス見出しの出現ページ
Claims (1)
- 【請求項1】文書情報を記憶する文書記憶手段と、 前記文書記憶手段に記憶された文書情報を言語解析する
言語解析手段と、 前記文書記憶手段に記憶された文書情報の文書構造を解
析する文書構造解析手段と、 複数のインデックス抽出ルールを格納するルール格納手
段と、 前記言語解析手段と文書構造解析手段の解析結果と、前
記ルール格納手段に格納された抽出ルールとの照合を行
う照合手段と、 前記照合手段により照合されたインデックス候補を蓄積
する一時記憶手段と、 前記一時記憶手段に蓄積されたインデックス候補を取捨
選択する選択手段とを備えたことを特徴とするインデッ
クス作成支援装置。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1269554A JPH0769918B2 (ja) | 1989-10-16 | 1989-10-16 | インデックス作成支援装置 |
| US07/596,283 US5276616A (en) | 1989-10-16 | 1990-10-11 | Apparatus for automatically generating index |
| EP90119749A EP0423683B1 (en) | 1989-10-16 | 1990-10-15 | Apparatus for automatically generating index |
| DE69028592T DE69028592T2 (de) | 1989-10-16 | 1990-10-15 | Gerät zur automatischen Generierung eines Index |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1269554A JPH0769918B2 (ja) | 1989-10-16 | 1989-10-16 | インデックス作成支援装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH03129561A JPH03129561A (ja) | 1991-06-03 |
| JPH0769918B2 true JPH0769918B2 (ja) | 1995-07-31 |
Family
ID=17473998
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1269554A Expired - Lifetime JPH0769918B2 (ja) | 1989-10-16 | 1989-10-16 | インデックス作成支援装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0769918B2 (ja) |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS63286965A (ja) * | 1987-05-20 | 1988-11-24 | Fujitsu Ltd | 文書作成装置 |
-
1989
- 1989-10-16 JP JP1269554A patent/JPH0769918B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPH03129561A (ja) | 1991-06-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0423683B1 (en) | Apparatus for automatically generating index | |
| JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
| JP3196868B2 (ja) | テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ | |
| JP3143079B2 (ja) | 辞書索引作成装置と文書検索装置 | |
| EP0645720B1 (en) | Dictionary creation supporting system | |
| JPH0424869A (ja) | 文書処理システム | |
| Chang | A new approach for automatic Chinese spelling correction | |
| US20130013604A1 (en) | Method and System for Making Document Module | |
| Hurst et al. | Layout and language: Preliminary investigations in recognizing the structure of tables | |
| JPH0484271A (ja) | 文書内情報検索装置 | |
| JP2957875B2 (ja) | 文書情報検索装置及び文書検索結果表示方法 | |
| JPH08129554A (ja) | 関係表現抽出装置および関係表現検索装置 | |
| Hollingsworth et al. | Retrieving hierarchical text structure from typeset scientific articles–a prerequisite for e-science text mining | |
| Georgantopoulos | MSc in Speech and Language Processing Dissertation: Automatic summarising based on sentence extraction: A statistical approach | |
| JPH0769918B2 (ja) | インデックス作成支援装置 | |
| JPH06231178A (ja) | 文書検索装置 | |
| JPH07244669A (ja) | 文書検索方式 | |
| JPH04211868A (ja) | Cd―romデータの検索用キーワードの作成方法 | |
| JPS62267872A (ja) | 言語解析装置 | |
| JPH0769919B2 (ja) | インデックス作成支援装置 | |
| JPH03129560A (ja) | インデックス作成支援装置 | |
| JP3501240B2 (ja) | 文書作成支援装置 | |
| JP2005189955A (ja) | 文書処理方法、文書処理装置、制御プログラム及び記録媒体 | |
| JPS6366665A (ja) | 文書解析整形装置 | |
| JP2780726B2 (ja) | 翻訳システムの翻訳対象文の認識方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070731 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080731 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080731 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090731 Year of fee payment: 14 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100731 Year of fee payment: 15 |
|
| EXPY | Cancellation because of completion of term | ||
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100731 Year of fee payment: 15 |