JPH06348756A - Index preparing device and index utilizing device - Google Patents

Index preparing device and index utilizing device

Info

Publication number
JPH06348756A
JPH06348756A JP5133334A JP13333493A JPH06348756A JP H06348756 A JPH06348756 A JP H06348756A JP 5133334 A JP5133334 A JP 5133334A JP 13333493 A JP13333493 A JP 13333493A JP H06348756 A JPH06348756 A JP H06348756A
Authority
JP
Japan
Prior art keywords
keyword
document
index
importance
designating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5133334A
Other languages
Japanese (ja)
Inventor
Shiyou Imasato
詔 今郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP5133334A priority Critical patent/JPH06348756A/en
Publication of JPH06348756A publication Critical patent/JPH06348756A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To provide an index preparing device and index utilizing device which can generate an index for searching a desired item to be recognized for a reader in one document, can constitute and utilize the index so as to hardly refer to a non-suitable part as a related part even when an automatically extracted keyword is indexed as it is. CONSTITUTION:The index preparing device is composed of a keyword extracting means 1 for extracting the keyword from a structured document, keyword storage means 5 for storing this extracted keyword corresponding to the position on the document, position converting means 6 for converting the position on the document to an accessable form, and index generating means 7 for generating the index from the pair of the keyword and the the position on the document in the accessable form.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、一つの文書を対象と
し、キーワードから該当する部分を検索するための索引
を自動的に生成する索引作成装置及び索引利用装置に関
する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an index creating device and an index using device for automatically generating an index for searching a corresponding part from a keyword for one document.

【0002】[0002]

【従来の技術】技術書籍などの場合、重要なキーワード
に対して、関連事項が記載されているページや、章・節
の番号などを組にして、アイウエオ順やABC順などに
並べた索引を巻末に収録することが一般的に行われてい
る。このような索引があれば、読者は知りたい事項に対
応する個所を素早く開くことができる。索引は人間が作
成することが一般的であるが、次のような問題がある。
2. Description of the Related Art In the case of technical books, for important keywords, an index is arranged in the order of Iueo or ABC by combining the pages in which related matters are described and the numbers of chapters and sections. It is generally done at the end of the book. With such an index, the reader can quickly open the section corresponding to the item he or she wants to know. The index is generally created by humans, but there are the following problems.

【0003】1.キーワード作成が面倒である。 2.重要なキーワードの収録漏れの可能性がある。 3.キーワードと対応個所との関連付けが面倒である。1. Creating keywords is a hassle. 2. There is a possibility of missing important keywords. 3. It is troublesome to associate the keyword with the corresponding part.

【0004】[0004]

【発明が解決しようとする課題】このような人間による
索引作成の手間を省くために、従来とられていた方法と
しては、例えば、以下のような方法がある。
As a conventional method for saving the time and effort for index creation by humans, there is, for example, the following method.

【0005】1.著書は索引としたいキーワードを文書
の中に“\index{” と“}”で囲んでおく。 2.文書をレイアウト処理し、“\index{” と“}”
で囲まれたキーワードとページ番号との対応表を作る。 3.対応表から索引を生成する。 すなわち、キーワードと対応個所との関連付けのみを自
動的に行い、索引とすべきキーワードを決定してマーク
付けをしておく方法は、あいかわらず人間が行う必要が
ある。
1. In the book, the keyword to be used as an index is enclosed in "\ index {" and "}" in the document. 2. Layout process the document, "\ index {" and "}"
Make a correspondence table between keywords and page numbers enclosed in. 3. Generate an index from the correspondence table. That is, it is necessary for a human to always perform a method of automatically associating a keyword with a corresponding part and determining a keyword to be used as an index and marking it.

【0006】この場合、キーワードと対応個所との関連
付けが面倒であるという点は解決しているが、 1.キーワードの作成が面倒である。 2.重要なキーワードの収録漏れのおそれがある。 という点は解決していない。このように従来のキーワー
ド自動抽出技術は、複数の文書の中から読者の知りたい
事項が載っている文書を探すことであって、一つの文書
の中で読者の知りたい事項を探すための索引を生成する
ことはできない。
In this case, it is solved that the association between the keyword and the corresponding part is troublesome, but 1. Creating keywords is tedious. 2. There is a risk of missing important keywords. That point has not been resolved. As described above, the conventional automatic keyword extraction technology is to search for a document in which a reader wants to know from multiple documents, and an index for searching the reader in a single document. Cannot be generated.

【0007】[0007]

【課題を解決するための手段】請求項1記載の発明で
は、構造化文書からキーワードを抽出するキーワード抽
出手段と、この抽出したキーワードと文書上の位置とを
対応付けて記憶するキーワード記憶手段と、文書上の位
置をアクセス可能形式に変換する位置変換手段と、前記
キーワードと前記アクセス可能形式の文書上の位置との
組から索引を生成する索引生成手段とより索引作成装置
を構成した。
According to a first aspect of the present invention, there is provided keyword extraction means for extracting a keyword from a structured document, and keyword storage means for storing the extracted keyword and a position on the document in association with each other. An index creating device is constituted by position converting means for converting a position on a document into an accessible format and index generating means for generating an index from a set of the keyword and the position on the document in the accessible format.

【0008】請求項2記載の発明では、請求項1記載の
発明において、文書要素によってキーワード抽出規則を
変換する抽出規則記憶手段を設けた。
According to a second aspect of the invention, in the first aspect of the invention, extraction rule storage means for converting the keyword extraction rule according to the document element is provided.

【0009】請求項3記載の発明では、請求項1記載の
発明において、特定の文書要素の内容を無条件で索引と
する索引要素記憶手段を設けた。
According to a third aspect of the invention, in the first aspect of the invention, index element storage means for unconditionally indexing the contents of a specific document element is provided.

【0010】請求項4記載の発明では、請求項1記載の
発明において、抽出したキーワードが索引とすべきかど
うかを人間が判断するためのキーワード選択手段を設け
た。
According to a fourth aspect of the invention, in the first aspect of the invention, a keyword selecting means is provided for a human to judge whether or not the extracted keyword should be used as an index.

【0011】請求項5記載の発明では、構造化文書から
キーワードと重要度とを抽出するキーワード抽出手段
と、これら抽出した前記キーワードと前記重要度と文書
上の位置とを対応付けて記憶するキーワード記憶手段
と、文書上の位置をアクセス可能形式に変換する位置変
換手段と、前記キーワードと前記アクセス可能形式の文
書上の位置との組から索引を生成する索引生成手段とよ
り索引作成装置を構成した。
According to a fifth aspect of the present invention, a keyword extracting means for extracting a keyword and a degree of importance from a structured document, and a keyword for storing the extracted keyword, the degree of importance and a position on the document in association with each other. An index creating device is constituted by a storage means, a position converting means for converting a position on a document into an accessible format, and an index generating means for generating an index from a set of the keyword and the position on the document in the accessible format. did.

【0012】請求項6記載の発明では、索引としてキー
ワードと文書上の位置と重要度とを持つ文書の中から関
心のあるキーワードを指定するキーワード指定手段と、
キーワードの対応する文書上の位置を重要度の高い順に
提示する関連個所提示手段とより索引利用装置を構成し
た。
According to a sixth aspect of the present invention, there is provided a keyword designating means for designating a keyword of interest from a document having a keyword, a position on the document, and an importance as an index.
The index utilization device is composed of the related point presenting means for presenting the position on the document corresponding to the keyword in descending order of importance.

【0013】請求項7記載の発明では、索引としてキー
ワードと文書上の位置と重要度とを持つ文書の中から関
心のあるキーワードを指定するキーワード指定手段と、
関連個所を提示する重要度の下限を指定する最低重要度
指定手段と、キーワードの対応する文書上の位置で最低
重要度以上の重要度をもつものだけを提示する関連個所
提示手段とより索引利用装置を構成した。
According to the seventh aspect of the present invention, there is provided a keyword designating means for designating a keyword of interest from among the documents having the keyword, the position on the document and the importance as an index.
A more important index specification means to specify the lower limit of importance to present related points, and a related part presentation means to present only those with the importance level higher than the minimum importance at the position on the document corresponding to the keyword. Configured the device.

【0014】請求項8記載の発明では、索引としてキー
ワードと文書上の位置と重要度とを持つ文書の中から関
心のあるキーワードを指定するキーワード指定手段と、
一つのキーワードに対して提示関連個所の数の上限を指
定する最大関連個所数指定手段と、キーワードの対応す
る文書上の位置を最大関連個所数以下の数だけ重要度の
高いものから提示する関連個所提示手段とより索引利用
装置を構成した。
According to the eighth aspect of the present invention, there is provided a keyword designating means for designating a keyword of interest from a document having a keyword, a position on the document, and an importance as an index.
A maximum number of relevant points designating means for designating the upper limit of the number of relevant relevant points for one keyword, and a relation for presenting the position on the document corresponding to the keyword from the most important points up to the maximum number of relevant points. An index utilization device was constructed from the point presentation means.

【0015】[0015]

【作用】請求項1記載の発明では、一つの文書の中で読
者の知りたい事項を探すための索引を自動的に生成する
ことが可能となる。
According to the first aspect of the invention, it is possible to automatically generate an index for searching a reader for a desired item in one document.

【0016】請求項2記載の発明では、「タイトル」な
どの重要な文書要素からはキーワードを広くとり、「引
用」や「例」などのキーワードをとるには適さない文書
要素からはキーワードをとらないようにすることが可能
となる。
According to the second aspect of the present invention, the keywords are taken broadly from important document elements such as "title" and the keywords are taken from document elements which are not suitable for taking keywords such as "citation" and "example". It becomes possible not to.

【0017】請求項3記載の発明では、索引に収録すべ
き語を指定することが可能となる。
According to the third aspect of the invention, it is possible to specify a word to be recorded in the index.

【0018】請求項4記載の発明では、人間が索引にふ
さわしくない語を棄却することが可能となる。
According to the fourth aspect of the invention, it is possible for a person to reject a word that is not suitable for the index.

【0019】請求項5記載の発明では、キーワードと関
連個所との対応関係に「重要度」と呼ぶ関係の大小を表
現する数値を自動的に付加しておくことが可能となる。
According to the fifth aspect of the invention, it is possible to automatically add a numerical value representing the magnitude of the relationship called "importance" to the correspondence relationship between the keyword and the related part.

【0020】請求項6記載の発明では、キーワードの対
応する文書上の位置を重要度の高い順に提示することが
可能となる。
According to the sixth aspect of the invention, it is possible to present the positions on the document corresponding to the keywords in descending order of importance.

【0021】請求項7記載の発明では、キーワードの対
応する文書上の位置で指定した最低重要度以上の重要度
をもつものだけを提示することが可能となる。
According to the seventh aspect of the present invention, it is possible to present only those having a degree of importance equal to or higher than the minimum degree of importance designated at the position on the document corresponding to the keyword.

【0022】請求項8記載の発明では、キーワードの対
応する文書上の位置を最大関連個所数以下の数だけ提示
することが可能となる。
According to the eighth aspect of the invention, it is possible to present the number of positions on the document corresponding to the keyword, which is equal to or less than the maximum number of relevant points.

【0023】[0023]

【実施例】請求項1〜4記載の発明の一実施例を図1及
び図2に基づいて説明する。図1は、索引作成装置の全
体構成を示すものである。本装置は、構造化文書(後述
する)からキーワードを抽出するキーワード抽出手段1
と、文書要素によってキーワード抽出規則を変換する抽
出規則記憶手段2と、抽出したキーワードが索引とすべ
きかどうかを人間が判断するためのキーワード選択手段
3と、特定の文書要素の内容を無条件で索引とする索引
要素記憶手段4と、抽出したキーワードと文書上の位置
とを対応付けて記憶するキーワード記憶手段5と、文書
上の位置をアクセス可能形式に変換する位置変換手段6
と、キーワードとアクセス可能形式の文書上の位置との
組から索引を生成する索引生成手段7とからなってい
る。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the invention described in claims 1 to 4 will be described with reference to FIGS. FIG. 1 shows the overall structure of the index creation device. The apparatus is a keyword extracting means 1 for extracting a keyword from a structured document (described later).
An extraction rule storage means 2 for converting a keyword extraction rule according to a document element, a keyword selection means 3 for a human to judge whether or not the extracted keyword should be used as an index, and the contents of a specific document element unconditionally. Index element storage means 4 serving as an index, keyword storage means 5 for storing the extracted keyword and position on the document in association with each other, and position conversion means 6 for converting the position on the document into an accessible format.
And index generating means 7 for generating an index from a set of a keyword and a position on the document in an accessible format.

【0024】ここで、本発明が対象とする「文書」につ
いて述べる。ここでいう文書とは、「構造化文書」のこ
とをいう。この構造化文書とは、内容が文書要素の木構
造として処理できるように表現した文書のことをいう。
この構造化文書の一例としては、例えば、表1に掲げる
ような内容のものがある。
The "document" targeted by the present invention will now be described. The document here means a “structured document”. The structured document is a document whose content is expressed as a tree structure of document elements.
As an example of this structured document, there are the contents as shown in Table 1.

【0025】[0025]

【表1】 [Table 1]

【0026】ここでは、“<”と“>”に挾まれた文字
列が文書要素の開始を現すマークで、“</”と“>”
に挾まれた文字列が文書要素の終了を現すマークであ
る。このマークの中の先頭の文字列はその要素の名前
で、二番目の文字列はその要素のIDを示している。I
Dは文書内では一意であることが保証されるため、ID
を指定すれば文書要素を一つ特定することになる。
In this case, a character string sandwiched between "<" and ">" is a mark indicating the start of a document element, and "</" and ">".
The character string enclosed in is a mark indicating the end of the document element. The first character string in this mark is the name of the element, and the second character string is the ID of the element. I
Since D is guaranteed to be unique in the document, ID
If you specify, one document element will be specified.

【0027】次に、上述した各手段の具体的な構成内容
について述べる。まず、キーワード抽出手段1について
述べる。この手段1は、文書内容のマーク以外の部分か
ら、索引とすべきキーワードを自動的に抽出する処理の
ことをいう。この場合、処理手順の一例としては、以下
のようになる。
Next, the specific contents of the above-mentioned means will be described. First, the keyword extracting means 1 will be described. The means 1 is a process of automatically extracting a keyword to be used as an index from a portion other than the mark of the document content. In this case, an example of the processing procedure is as follows.

【0028】1.文書内容のマークは読み飛ばす。 2.文字列の形態素解析を行い、名詞をすべて抽出す
る。 3.予め作成しておいた不要語辞書に載っている名詞を
棄却する。 なお、このような処理は、従来のキーワード自動抽出技
術をそのまま応用することができる。
1. Skip the mark of the document contents. 2. Perform morphological analysis of character strings and extract all nouns. 3. Reject nouns listed in the unnecessary word dictionary created in advance. Note that the conventional keyword automatic extraction technique can be directly applied to such processing.

【0029】抽出規則記憶手段2について述べる。この
手段2は、文書要素に応じて、キーワード抽出の処理を
変えるためのものである。例えば、表1のような処理内
容がある。
The extraction rule storage means 2 will be described. This means 2 is for changing the keyword extraction processing according to the document element. For example, there are processing contents as shown in Table 1.

【0030】[0030]

【表2】 [Table 2]

【0031】この表1の内容は、次のことを表現してい
る。
The contents of Table 1 represent the following.

【0032】*「題」として文書要素の内容からキーワ
ードを抽出する際には、不要語辞書を使用しない。 *「段落」という文書要素の内容からキーワードを抽出
する際には、通常の処理を行う。 *「引用」という文書要素の内容からはキーワードを抽
出しない。
* When extracting a keyword from the content of a document element as a "title", the unnecessary word dictionary is not used. * When extracting a keyword from the content of a document element called "paragraph", normal processing is performed. * Keywords are not extracted from the content of the document element "quote".

【0033】キーワード選択手段3について述べる。一
般に、自動抽出したキーワードはすべてが索引として適
した語ばかりではない。自動抽出処理ではどうしても雑
音を拾ってしまう。読者が使用しない語が索引に含まれ
ていても実際害はないが、索引の数が増えて検索に手間
取るようでは困る。そこで、自動抽出したキーワードか
ら人間が索引として不適当だと思う語を棄却する本手段
3を設けたものである。本手段3の具体的な処理手順
は、以下のようになる。
The keyword selecting means 3 will be described. Generally, not all keywords extracted automatically are suitable as indexes. The automatic extraction process inevitably picks up noise. It wouldn't hurt if the index contained words that the reader did not use, but it would be a problem if the number of indexes increased and searching was troublesome. Therefore, the present means 3 is provided for rejecting a word that a person thinks is inappropriate as an index from the automatically extracted keywords. The specific processing procedure of the present means 3 is as follows.

【0034】1.キーワードをアイウエオ順又はABC
順に整列して表示する。 2.人間が一覧表示を見て、不要なキーワードに指示す
る。
1. Keyword is Aiueo or ABC
Display in order. 2. A human looks at the list display and gives instructions to unnecessary keywords.

【0035】索引要素記憶手段4について述べる。自動
抽出したキーワードだけで索引として十分であるとは限
らない。自動抽出処理では文書の内容として出現するキ
ーワードしか拾うことができない。人間が作成する索引
であれば、文書中には出現しない語でも索引として収録
することができる。そこで、人間が適当と思うキーワー
ドを追加できる本手段4を設けたものである。本手段4
の具体的な処理手順は以下のようになる。
The index element storage means 4 will be described. Automatically extracted keywords are not always sufficient as an index. In the automatic extraction process, only the keywords that appear as the contents of the document can be picked up. If the index is created by humans, even words that do not appear in the document can be recorded as an index. Therefore, the present means 4 is provided for adding a keyword that a person thinks appropriate. This means 4
The specific processing procedure of is as follows.

【0036】1.「章」又は「節」毎に、追加するキー
ワードの有無を人間に問い合わせる。 2.追加キーワードがあれば入力してもらう。 3.追加キーワードと対応する「章」又は「節」の組を
記憶する。
1. For each "chapter" or "section", a person is inquired whether or not there are keywords to be added. 2. Ask them to enter any additional keywords. 3. A set of "chapter" or "section" corresponding to the additional keyword is stored.

【0037】キーワード記憶手段5について述べる。本
手段5は、キーワードと対応する文書中の位置との組を
記憶する処理のことをいう。文書中の位置は、文書要素
に対して一意に割り当てた要素IDで表現する。前述し
た構造化文書に対応する本手段5の具体的な処理手順は
以下のようになる。
The keyword storage means 5 will be described. The means 5 is a process of storing a set of a keyword and a position in the document corresponding to the keyword. The position in the document is represented by an element ID uniquely assigned to the document element. The specific processing procedure of the present means 5 corresponding to the above-mentioned structured document is as follows.

【0038】[0038]

【表3】 [Table 3]

【0039】この表3のキーワードと位置とは、次の内
容を表現する。
The keywords and positions in Table 3 represent the following contents.

【0040】*キーワード「情報検索」はT1というI
Dをもつ要素属性に対応する。 *キーワード「情報検索」はP1というIDをもつ要素
属性に対応する。 *キーワード「キーワード」はT1というIDをもつ要
素属性に対応する。
* The keyword "information retrieval" is I called T1.
Corresponds to an element attribute with D. * The keyword "information search" corresponds to the element attribute having the ID P1. * Keyword "Keyword" corresponds to an element attribute having an ID of T1.

【0041】位置変換手段6について述べる。本手段6
は、レイアウト処理を行い、キーワード記憶手段5中の
要素IDをページ番号又は章・節番号などに変換する。
The position conversion means 6 will be described. This means 6
Performs layout processing to convert the element ID in the keyword storage means 5 into a page number or chapter / section number.

【0042】索引生成手段7について述べる。本手段7
は、最終的なデータを利用しやすいような形態に変換す
る。本手段7の具体的な処理手順は以下のようになる。
The index generating means 7 will be described. This means 7
Converts the final data into a form that is easy to use. The specific processing procedure of the present means 7 is as follows.

【0043】*キーワードとページ番号との対応表を作
成する。 *キーワードと章・節番号との対応表を作成する。 *キーワードと対応要素とのハイパーリンクを作成す
る。
* Create a correspondence table between keywords and page numbers. * Create a correspondence table between keywords and chapter / section numbers. * Create hyperlinks between keywords and corresponding elements.

【0044】次に、これまで述べてきたような各種手段
を備えた本装置の動作例を図2(a)〜(e)のフロー
に基づいて説明する。まず、キーワード抽出手段1を用
いて、文書(構造化文書)からキーワードを自動抽出す
る(a)。この時、抽出規則記憶手段2の内容に従った
処理を行う。次に、その抽出したキーワードをユーザに
提示し、索引に不要なキーワードをキーワード選択手段
3により選択してもらう。この選択されたキーワードは
棄却する(b)。次に、ユーザが追加したいキーワード
の有無を問い合わせ、そのキーワードがあればどの章や
節と対応付けるかも問い合わせる(c)。次に、位置変
換手段6によりレイアウト処理を行い、キーワード記憶
手段5中の要素IDをページ番号又は章・節番号などに
変換する(d)。次に、索引生成手段7によりキーワー
ドと位置情報との組を利用しやすいような形態に変換
し、索引生成を行う(e)。
Next, an example of the operation of the present apparatus equipped with the various means described above will be described based on the flow of FIGS. 2 (a) to 2 (e). First, the keyword extraction unit 1 is used to automatically extract keywords from a document (structured document) (a). At this time, processing according to the contents of the extraction rule storage means 2 is performed. Next, the extracted keywords are presented to the user, and the keywords not required for the index are selected by the keyword selecting means 3. This selected keyword is rejected (b). Next, the user inquires about the presence or absence of a keyword to be added, and if there is the keyword, inquires which chapter or section it corresponds to (c). Next, the position conversion means 6 performs layout processing to convert the element IDs in the keyword storage means 5 into page numbers or chapter / section numbers (d). Next, the index generation means 7 converts the combination of the keyword and the position information into a form that is easy to use, and generates an index (e).

【0045】上述したように、索引作成装置を図1に示
したようなシステム構成したことによって、一つの文書
の中で読者の知りたい事項を探すための索引を自動的に
生成することができるようになり、これにより、著者や
編集者が面倒な索引作成作業を行う必要がなくなり、し
かも、重要な語を索引に収録し忘れるようなことがなく
なる。また、「タイトル」などの重要な文書要素からは
キーワードを広くとり、「引用」や「例」などのキーワ
ードをとるには適さない文書要素からはキーワードをと
らないようにすることができ、これにより、無意味な索
引(雑音)の増大を抑えつつ、重要なキーワードをもら
さないようにすることができる。さらに、索引に収録す
べき語を指定することができるため、文書の内容に出現
しない重要な語を索引に収録することができる。さらに
また、人間が索引にふさわしくない語を棄却することが
できるため、無意味な語や重要でない語を索引から除く
ことができる。
As described above, by constructing the index creating system as shown in FIG. 1, it is possible to automatically create an index for searching a reader for a desired item in one document. This saves authors and editors the hassle of indexing work, and never forgets to index important words. In addition, it is possible to set a wide keyword from important document elements such as "title" and not take a keyword from document elements that are not suitable for taking keywords such as "quote" and "example". Thus, it is possible to prevent an important keyword from being given while suppressing an increase in meaningless index (noise). Furthermore, since the words to be recorded in the index can be specified, important words that do not appear in the content of the document can be recorded in the index. Furthermore, since humans can reject words that are not suitable for the index, meaningless words or unimportant words can be removed from the index.

【0046】次に、請求項5記載の発明の一実施例を図
3及び図4に基づいて説明する。前述した請求項1〜4
記載の発明で述べた図2に基づいて動作するような索引
作成装置では、以下に述べるような課題が新たに生じ
る。すなわち、自動抽出したキーワードをそのまま索引
すると、関連個所として適切でない個所も索引し収録さ
れてしまう。また、自動抽出したキーワードを人間が選
択するのは面倒であり、選択に主観が入り、本来必要な
はずの関連個所を落としてしまう恐れがある。
Next, an embodiment of the invention described in claim 5 will be described with reference to FIGS. 3 and 4. Claims 1 to 4 described above
In the index creating device that operates based on FIG. 2 described in the described invention, the following problems newly arise. That is, if the automatically extracted keywords are indexed as they are, the parts that are not appropriate as related parts are also indexed and recorded. In addition, it is troublesome for a human to select the automatically extracted keyword, and there is a risk that subjectivity will be involved in the selection, and relevant parts that are originally necessary may be dropped.

【0047】そこで、本実施例では、索引作成装置を図
3に示すような構成としたものである。すなわち、本装
置は、構造化文書からキーワードと重要度とを抽出する
キーワード抽出手段8と、これら抽出したキーワードと
重要度と文書上の位置とを対応付けて記憶するキーワー
ド記憶手段9と、文書上の位置をアクセス可能形式に変
換する位置変換手段10と、キーワードとアクセス可能
形式の文書上の位置との組から索引を生成する索引生成
手段11とからなっている。以下、これら各手段の具体
的な構成内容について述べる。
Therefore, in the present embodiment, the index creating device is constructed as shown in FIG. That is, the present apparatus includes a keyword extracting unit 8 that extracts a keyword and an importance degree from a structured document, a keyword storage unit 9 that stores the extracted keyword, importance degree, and position on the document in association with each other, and a document. It comprises position conversion means 10 for converting the above position into an accessible format, and index generation means 11 for generating an index from a set of a keyword and a position on the document in the accessible format. The specific configuration contents of each of these means will be described below.

【0048】まず、キーワード抽出手段8について述べ
る。本手段8は、文書内容のマーク以外の部分から、索
引とすべきキーワードを自動的に抽出する処理のことを
いう。このような処理は、従来のキーワード抽出技術を
そのまま応用することができる。本手段8の具体的な処
理手順は、以下のようになる。
First, the keyword extracting means 8 will be described. The means 8 refers to a process of automatically extracting a keyword to be used as an index from a portion other than the mark of the document content. The conventional keyword extraction technique can be directly applied to such processing. The specific processing procedure of the present means 8 is as follows.

【0049】1.文書内容のマークは読み飛ばす。 2.文字列の形態素解析を行い、名詞をすべて抽出す
る。 3.予め作成しておいた不要語辞書に載っている名詞を
棄却する。 4.同じ文書要素中に出現する同じキーワードの数を記
録する。その数の最大限でそれぞれのキーワードの数を
割った値を、あるキーワードのある文書要素に対する重
要度とする。
1. Skip the mark of the document contents. 2. Perform morphological analysis of character strings and extract all nouns. 3. Reject nouns listed in the unnecessary word dictionary created in advance. 4. Record the number of same keywords that appear in the same document element. The value obtained by dividing the number of each keyword by the maximum of the number is set as the importance for a certain document element having a certain keyword.

【0050】キーワード記憶手段9について述べる。本
手段9は、キーワードと対応する文書中の位置と重要度
との組を記憶する。文書中の位置は文書要素に対して一
意に割り当てた要素IDで表現する。前述した構造化文
書に対応する本手段9の具体的な処理手順は以下のよう
になる。
The keyword storage means 9 will be described. The present means 9 stores a set of the position in the document corresponding to the keyword and the degree of importance. The position in the document is expressed by the element ID uniquely assigned to the document element. The specific processing procedure of the present means 9 corresponding to the above-mentioned structured document is as follows.

【0051】[0051]

【表4】 [Table 4]

【0052】この表4中のキーワードと位置と重要度と
は、次の内容を表現する。
The keywords, positions, and degrees of importance in Table 4 represent the following contents.

【0053】*キーワード「情報検索」はT1というI
Dをもつ要素属性に重要度0.1で対応する。 *キーワード「情報検索」はP1というIDをもつ要素
属性に重要度0.3で対応する。 *キーワード「キーワード」はT1というIDをもつ要
素属性に重要度0.2で対応する。
* The keyword "information retrieval" is I called T1.
An element attribute having D corresponds with an importance of 0.1. * The keyword "information search" corresponds to the element attribute having the ID P1 with the degree of importance of 0.3. * Keyword "Keyword" corresponds to an element attribute having an ID of T1 with an importance level of 0.2.

【0054】位置変換手段10について述べる。本手段
10は、キーワード記憶手段9中の要素IDをページ番
号又は章・節番号などに変換するものである。
The position conversion means 10 will be described. This means 10 converts the element ID in the keyword storage means 9 into a page number or a chapter / section number.

【0055】索引生成手段11について述べる。本手段
11は、最終的なデータを利用しやすいような形態に変
換する処理である。具体的な処理手順は以下のようにな
る。
The index generating means 11 will be described. The present means 11 is a process for converting the final data into a form that is easy to use. The specific processing procedure is as follows.

【0056】*キーワードとページ番号と重要度との対
応表を作成する。 *キーワードと章・節番号と重要度との対応表を作成す
る。 *キーワードと対応要素と重要度とのハイパーリンクを
作成する。
* Create a correspondence table of keywords, page numbers, and degrees of importance. * Create a correspondence table between keywords, chapter / section numbers, and importance. * Create hyperlinks of keywords, corresponding elements and importance.

【0057】次に、これまで述べてきたような各種手段
を備えた本装置の動作例を図4(a)〜(c)のフロー
に基づいて説明する。まず、キーワード抽出手段8を用
いて、文書からキーワードを自動抽出する(a)。この
キーワードと対応する文書中の位置と重要度との組をキ
ーワード記憶手段9中に記憶する。次に、位置変換手段
10を用いて、レイアウト処理を行い、キーワード記憶
手段9中の要素IDをページ番号又は章・節番号などに
変換する(b)。次に、索引生成手段11により、キー
ワードと位置情報と重要との組を利用しやすいような形
態に変換し、索引生成を行う(c)。
Next, an example of the operation of the present apparatus provided with the various means as described above will be described based on the flow of FIGS. 4 (a) to 4 (c). First, the keyword extraction unit 8 is used to automatically extract a keyword from a document (a). The set of the position in the document and the degree of importance corresponding to this keyword is stored in the keyword storage means 9. Next, the position conversion means 10 is used to perform layout processing to convert the element IDs in the keyword storage means 9 into page numbers or chapter / section numbers (b). Next, the index generation means 11 converts the combination of the keyword, position information, and importance into a form that is easy to use, and generates an index (c).

【0058】上述したように、キーワードを自動抽出す
る際に「重要度」と呼ぶキーワードの重要性を表現する
数値を自動的に付加しておき、その数値を用いて一つの
キーワードに関連づけられた複数の関連個所の間に順序
関係を設定し、その順序関係をもとに利用者への提示順
序や提示数を調整する。従って、このようなことから、
自動抽出したキーワードをそのまま索引しても、関連個
所として適切でない個所への参照が起こりにくいような
索引を構成することができる。
As described above, when automatically extracting a keyword, a numerical value called "importance" expressing the importance of the keyword is automatically added, and the numerical value is used to associate with one keyword. An order relation is set between a plurality of related parts, and the presentation order and the number of presentations to the user are adjusted based on the order relation. Therefore, from such a thing,
Even if the automatically extracted keywords are indexed as they are, it is possible to configure an index in which it is difficult to refer to a part that is not appropriate as a related part.

【0059】次に、請求項6〜8記載の発明の一実施例
を図5及び図6に基づいて説明する。図5は、本索引利
用装置の構成を示すものである。本装置は、索引として
キーワードと文書上の位置と重要度とを持つ文書の中か
ら関心のあるキーワードを指定するキーワード指定手段
12と、キーワードの対応する文書上の位置を重要度の
高い順に提示するか若しくはキーワードの対応する文書
上の位置で最低重要度以上の重要度をもつものだけを提
示するか若しくはキーワードの対応する文書上の位置を
最大関連個所数以下の数だけ重要度の高いものから提示
する関連個所提示手段13と、関連個所を提示する重要
度の下限を指定する最低重要度指定手段14と、一つの
キーワードに対して提示関連個所の数の上限を指定する
最大関連個所数指定手段15とからなっている。以下、
これら各手段の具体的な構成内容について述べる。
Next, an embodiment of the invention described in claims 6 to 8 will be described with reference to FIGS. FIG. 5 shows the configuration of the index utilization apparatus. This apparatus presents a keyword designating means 12 for designating a keyword of interest from a document having a keyword, a position on the document and an importance as an index, and a position on the document corresponding to the keyword in descending order of importance. Or show only the keywords in the corresponding document position that have a degree of importance greater than or equal to the minimum importance, or show the keyword corresponding positions in the document that are as high as the maximum number of relevant points or less. From the related point presenting means 13, the minimum importance degree specifying means 14 that specifies the lower limit of the importance degree of presenting the related point, and the maximum number of related points that specifies the upper limit of the number of presented related points for one keyword. It comprises a designating means 15. Less than,
The specific configuration contents of each of these means will be described.

【0060】まず、キーワード指定手段12について述
べる。本手段12は、読者が探したい事項に対応するキ
ーワードを指定する処理である。具体的な指定方法の処
理手順は以下のようになる。
First, the keyword specifying means 12 will be described. The present means 12 is a process of designating a keyword corresponding to a matter that the reader wants to find. The processing procedure of the specific designation method is as follows.

【0061】*キーボードから思い付いたキーワードを
入力する。 *キーボードの一覧を掲示し、探したいキーワードをマ
ークする。
* Input a keyword that came to mind from the keyboard. * Post a list of keyboards and mark the keywords you want to find.

【0062】最低重要度指定手段14について述べる。
本手段14は、入力したキーワードに対応する関連個所
のうちで、提示を行う最低の重要度を指定する。この数
値よりも低い重要度の関連個所は提示されなくなる。
The minimum importance degree designating means 14 will be described.
The present means 14 designates the lowest importance degree to be presented among the relevant parts corresponding to the inputted keyword. Relevant parts with lower importance than this value will not be presented.

【0063】最大関連個所数指定手段15について述べ
る。本手段15は、一つのキーワードに対して、提示を
行う関連個所の最大数を指定する。
The maximum related point number designating means 15 will be described. The present means 15 specifies the maximum number of relevant points to be presented for one keyword.

【0064】関連個所提示手段13について述べる。本
手段13は、一つのキーワードに対応する関連個所を提
示する。具体的な提示方法としては、例えば、以下に述
べるような3つの提示方法がある。その第一の提示方法
としては、逐次提示方法(請求項6記載の発明に対応す
る)がある。
The related point presenting means 13 will be described. The present means 13 presents the relevant part corresponding to one keyword. Specific presentation methods include, for example, the following three presentation methods. As the first presentation method, there is a sequential presentation method (corresponding to the invention of claim 6).

【0065】1.重要度の最も高い関連個所を提示す
る。 2.ユーザが次の関連個所の表示を指示したら、次に重
要度の高い関連個所を提示する。 3.ユーザが終了を指示するまでこの手順を繰り返す。
1. Present the relevant parts with the highest importance. 2. When the user gives an instruction to display the next related part, the next most important related part is presented. 3. This procedure is repeated until the user gives an instruction to end.

【0066】その第二の提示方法としては、足きり提示
方法(請求項7記載の発明に対応する)がある。
As the second presentation method, there is a footbrush presentation method (corresponding to the invention according to claim 7).

【0067】1.重要度の最も高い関連個所を提示す
る。 2.ユーザが次の関連個所の表示を指示したら、次に重
要度の高い関連個所を提示する。 3.最低重要度指定手段14で指定された最低重要度以
上の重要度をもつ関連個所がなくなるか、又は、ユーザ
が終了を指示するまでこの手順を繰り返す。
1. Present the relevant parts with the highest importance. 2. When the user gives an instruction to display the next related part, the next most important related part is presented. 3. This procedure is repeated until there is no relevant portion having the importance level equal to or higher than the minimum importance level specified by the minimum importance level specifying means 14 or the user instructs the end.

【0068】その第三の提示方法としては、同時提示方
法(請求項8記載の発明に対応する)がある。
As the third presentation method, there is a simultaneous presentation method (corresponding to the invention of claim 8).

【0069】1.最大関連個所数指定手段15で指定さ
れた数だけ、重要度の最も高いものから順に関連個所を
取出し、同時に別々のウィンドウに表示する。
1. As many as the number designated by the maximum number of relevant points designating means 15 are taken out in order from the highest importance, and are simultaneously displayed in separate windows.

【0070】次に、これまで述べてきたような各種手段
を備えた本装置の動作例を図6(a)〜(e)のフロー
に基づいて説明する。まず、キーワード指定手段12に
より、検索キーワードを入力する(a)。次に、関連個
所提示手段13により、その入力されたキーワードに対
応する関連個所を提示する(b)。この場合、提示モー
ドとしては、逐次提示、足きり提示、同時提示がある。
Next, an example of the operation of the present apparatus equipped with the various means described above will be described based on the flow of FIGS. 6 (a) to 6 (e). First, the keyword specifying means 12 inputs a search keyword (a). Next, the related part presenting means 13 presents the related part corresponding to the input keyword (b). In this case, the presentation mode includes sequential presentation, footbill presentation, and simultaneous presentation.

【0071】提示モードが逐次提示の場合、次の処理に
従う(c)。 1.重要度の最も高い関連個所を提示する。 2.ユーザが次の関連個所の表示を指示したら、次に重
要度の高い関連個所を提示する。 3.ユーザが終了を指示するまでこの手順を繰り返す。
When the presentation mode is the sequential presentation, the following processing is performed (c). 1. Present the relevant parts with the highest importance. 2. When the user gives an instruction to display the next related part, the next most important related part is presented. 3. This procedure is repeated until the user gives an instruction to end.

【0072】提示モードが足きり提示の場合、次の処理
に従う(d)。 1.重要度の最も高い関連個所を提示する。 2.ユーザが次の関連個所の表示を指示したら、次に重
要度の高い関連個所を提示する。 3.最低重要度指定手段14で指定された最低重要度以
上の重要度をもつ関連個所がなくなるか、又は、ユーザ
が終了を指示するまでこの手順を繰り返す。
In the case where the presentation mode is the unsatisfactory presentation, the following processing is performed (d). 1. Present the relevant parts with the highest importance. 2. When the user gives an instruction to display the next related part, the next most important related part is presented. 3. This procedure is repeated until there is no relevant portion having the importance level equal to or higher than the minimum importance level specified by the minimum importance level specifying means 14 or the user instructs the end.

【0073】提示モードが同時提示の場合、次の処理に
従う(e)。 1.最大関連個所数指定手段15で指定された数だけ、
重要度の最も高いものから順に関連個所を取出し、同時
に別々のウィンドウに表示する。
When the presentation modes are simultaneous presentation, the following processing is performed (e). 1. As many as the number designated by the maximum number of associated points designating means 15,
Relevant parts are taken out in order from the most important one and displayed in separate windows at the same time.

【0074】上述したように、キーワードの対応する文
書上の位置を重要部の高い順に提示することができるた
め、文書の違う場所を何度も見ることなく、目的とする
情報に素早くアクセスすることができる。また、キーワ
ードの対応する文書上の位置で指定した最低重要度以上
の重要度をもつものだけを提示することができるため、
ほとんど関係のない個所をアクセスすることをなくすこ
とができる。さらに、キーワードの対応する文書上の位
置を最大関連個所数以下の数だけ提示することができる
ため、狭い画面での関連個所の同時表示や、遅い通信路
を通したアクセスでも効率的な表示を行うことができ
る。
As described above, the positions on the document corresponding to the keywords can be presented in the descending order of importance, so that the desired information can be quickly accessed without repeatedly looking at different places in the document. You can Also, since only keywords with the minimum importance or higher specified at the position on the document corresponding to the keyword can be presented,
You can get rid of access to irrelevant parts. Furthermore, since the number of positions on the document corresponding to the keyword can be shown up to the maximum number of related places, simultaneous display of related places on a narrow screen and efficient display even when accessing through a slow communication path are possible. It can be carried out.

【0075】[0075]

【発明の効果】請求項1記載の発明は、構造化文書から
キーワードを抽出するキーワード抽出手段と、この抽出
したキーワードと文書上の位置とを対応付けて記憶する
キーワード記憶手段と、文書上の位置をアクセス可能形
式に変換する位置変換手段と、前記キーワードと前記ア
クセス可能形式の文書上の位置との組から索引を生成す
る索引生成手段とより索引作成装置を構成したので、一
つの文書の中で読者の知りたい事項を探すための索引を
自動的に生成することができ、これにより、著者や編集
者が面倒な索引作成作業を行う必要がなくなり、重要な
語を索引に収録し忘れることをなくすことができるもの
である。
According to the present invention, the keyword extracting means for extracting the keyword from the structured document, the keyword storing means for storing the extracted keyword and the position on the document in association with each other, and the keyword on the document Since the index creating device is constituted by the position converting means for converting the position into the accessible format and the index creating means for creating the index from the set of the keyword and the position on the document in the accessible format, An index can be automatically generated to search for items that the reader wants to know, which saves authors and editors from troublesome indexing work and forgets to put important words in the index. You can get rid of things.

【0076】請求項2記載の発明は、請求項1記載の発
明において、文書要素によってキーワード抽出規則を変
換する抽出規則記憶手段を設けたので、「タイトル」な
どの重要な文書要素からはキーワードを広くとり、「引
用」や「例」などのキーワードをとるには適さない文書
要素からはキーワードをとらないようにすることがで
き、これにより、無意味な索引(雑音)の増大を抑えつ
つ、重要なキーワードを漏らさないようにすることがで
きるものである。
According to the second aspect of the invention, in the first aspect of the invention, the extraction rule storing means for converting the keyword extraction rule by the document element is provided, so that the keyword is extracted from important document elements such as "title". Widely, it is possible to prevent keywords from being taken from document elements that are not suitable for taking keywords such as "quote" and "example", thereby suppressing the increase of meaningless index (noise), It is possible to prevent leakage of important keywords.

【0077】請求項3記載の発明は、請求項1記載の発
明において、特定の文書要素の内容を無条件で索引とす
る索引要素記憶手段を設けたので、索引に収録すべき語
を指定することができ、文書の内容に出現しない重要な
語を索引に収録することかできるものである。
According to the third aspect of the invention, in the first aspect of the invention, since the index element storage means for unconditionally indexing the content of the specific document element is provided, the words to be recorded in the index are designated. The important words that do not appear in the content of the document can be recorded in the index.

【0078】請求項4記載の発明は、請求項1記載の発
明において、抽出したキーワードが索引とすべきかどう
かを人間が判断するためのキーワード選択手段を設けた
ので、人間が索引にふさわしくない語を棄却することが
でき、これにより無意味な語や重要でない語を索引から
除くことができるものである。
According to the invention of claim 4, in the invention of claim 1, a keyword selecting means is provided for a human to judge whether or not the extracted keyword should be used as an index. Can be rejected, which allows meaningless or insignificant words to be removed from the index.

【0079】請求項5記載の発明は、構造化文書からキ
ーワードと重要度とを抽出するキーワード抽出手段と、
これら抽出した前記キーワードと前記重要度と文書上の
位置とを対応付けて記憶するキーワード記憶手段と、文
書上の位置をアクセス可能形式に変換する位置変換手段
と、前記キーワードと前記アクセス可能形式の文書上の
位置との組から索引を生成する索引生成手段とより索引
作成装置を構成したので、キーワードと関連個所との対
応関係に「重要度」と呼ぶ関係の大小を表現する数値を
自動的に付加しておくことができ、これにより、その数
値を用いて、一つのキーワードに関連付けられた複数の
関連個所の間に順序関係を設定し、その順序関係をもと
にユーザへの提示数を調整することができるものであ
る。
The invention according to claim 5 is a keyword extracting means for extracting a keyword and an importance degree from a structured document,
A keyword storage unit that stores the extracted keyword, the degree of importance, and the position on the document in association with each other, a position conversion unit that converts the position on the document into an accessible format, and the keyword and the accessible format. Since the index creation device is composed of an index creation unit that creates an index from a set of a position on a document, a numerical value that expresses the magnitude of the relationship called "importance" is automatically added to the correspondence relationship between the keyword and the related part. By using this numerical value, an order relation is set between multiple related points associated with one keyword, and the number of presentations to the user is based on the order relation. Is something that can be adjusted.

【0080】請求項6記載の発明は、索引としてキーワ
ードと文書上の位置と重要度とを持つ文書の中から関心
のあるキーワードを指定するキーワード指定手段と、キ
ーワードの対応する文書上の位置を重要度の高い順に提
示する関連個所提示手段とより索引利用装置を構成した
ので、キーワードの対応する文書上の位置を重要度の高
い順に提示することができ、これにより文書の違う場所
を何度も見ることなく、目的とする情報に素早くアクセ
スすることができるものである。
According to a sixth aspect of the present invention, a keyword designating means for designating a keyword of interest from among documents having keywords, a position on the document and an importance as an index, and a position on the document corresponding to the keyword. Since the index use device is composed of the related part presenting means for presenting in the order of importance, the position on the document corresponding to the keyword can be presented in the order of importance. You can quickly access the desired information without even looking at it.

【0081】請求項7記載の発明は、索引としてキーワ
ードと文書上の位置と重要度とを持つ文書の中から関心
のあるキーワードを指定するキーワード指定手段と、関
連個所を提示する重要度の下限を指定する最低重要度指
定手段と、キーワードの対応する文書上の位置で最低重
要度以上の重要度をもつものだけを提示する関連個所提
示手段とより索引利用装置を構成したので、キーワード
の対応する文書上の位置で指定した最低重要度以上の重
要度をもつものだけを提示することができ、これによ
り、ほとんど関係のない個所をアクセスする必要をなく
すことができるものである。
According to the seventh aspect of the present invention, a keyword designating means for designating a keyword of interest from a document having a keyword, a position on the document, and a degree of importance as an index, and a lower limit of the degree of importance for presenting relevant points. Since the index utilization device is configured by the minimum importance level designating means for designating the keyword and the relevant point presentation means for presenting only those having the importance level of the minimum importance level or higher at the position on the document corresponding to the keyword It is possible to present only those having an importance degree equal to or higher than the minimum importance degree specified in the position on the document to be displayed, and thereby it is possible to eliminate the need to access an irrelevant portion.

【0082】請求項8記載の発明は、索引としてキーワ
ードと文書上の位置と重要度とを持つ文書の中から関心
のあるキーワードを指定するキーワード指定手段と、一
つのキーワードに対して提示関連個所の数の上限を指定
する最大関連個所数指定手段と、キーワードの対応する
文書上の位置を最大関連個所数以下の数だけ重要度の高
いものから提示する関連個所提示手段とより索引利用装
置を構成したので、キーワードの対応する文書上の位置
を最大関連個所数以下の数だけ提示することができ、こ
れにより、狭い画面での関連個所の同時表示や遅い通信
路を通したアクセスでも効率的な表示を行うことができ
る。
The invention according to claim 8 is a keyword designating means for designating a keyword of interest from a document having a keyword, a position on the document, and an importance as an index, and a presentation related part for one keyword. The maximum number of relevant points to specify the maximum number of relevant points, the related point presenting means for presenting the position on the document corresponding to the keyword from the most important points up to the maximum number of relevant points, and the index utilization device. Since it is configured, it is possible to present the number of positions on the document corresponding to the keyword in the number less than the maximum number of related points, which makes it possible to efficiently display the related points on a narrow screen simultaneously or access through a slow communication path. Various displays can be performed.

【図面の簡単な説明】[Brief description of drawings]

【図1】請求項1〜4記載の発明の一実施例である索引
作成装置の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of an index creating device according to an embodiment of the present invention.

【図2】図1の動作処理を示すフローチャートである。FIG. 2 is a flowchart showing an operation process of FIG.

【図3】請求項5記載の発明の一実施例である索引作成
装置の構成を示すブロック図である。
FIG. 3 is a block diagram showing a configuration of an index creating device according to an embodiment of the invention as set forth in claim 5;

【図4】図3の動作処理を示すフローチャートである。FIG. 4 is a flowchart showing an operation process of FIG.

【図5】請求項6〜8記載の発明の一実施例である索引
利用装置の構成を示すブロック図である。
FIG. 5 is a block diagram showing a configuration of an index utilizing device according to an embodiment of the present invention.

【図6】図5の動作処理を示すフローチャートである。FIG. 6 is a flowchart showing the operation processing of FIG.

【符号の説明】[Explanation of symbols]

1 キーワード抽出手段 2 抽出規則記憶手段 3 キーワード選択手段 4 索引要素記憶手段 5 キーワード記憶手段 6 位置変換手段 7 索引生成手段 8 キーワード抽出手段 9 キーワード記憶手段 10 位置変換手段 11 索引生成手段 12 キーワード指定手段 13 関連個所提示手段 14 最低重要度指定手段 15 最大関連個所数指定手段 1 keyword extraction means 2 extraction rule storage means 3 keyword selection means 4 index element storage means 5 keyword storage means 6 position conversion means 7 index generation means 8 keyword extraction means 9 keyword storage means 10 position conversion means 11 index generation means 12 keyword designation means 13 Related point presenting means 14 Minimum importance degree specifying means 15 Maximum related point number specifying means

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 構造化文書からキーワードを抽出するキ
ーワード抽出手段と、この抽出したキーワードと文書上
の位置とを対応付けて記憶するキーワード記憶手段と、
文書上の位置をアクセス可能形式に変換する位置変換手
段と、前記キーワードと前記アクセス可能形式の文書上
の位置との組から索引を生成する索引生成手段とよりな
ることを特徴とする索引作成装置。
1. A keyword extracting means for extracting a keyword from a structured document, and a keyword storing means for storing the extracted keyword and a position on the document in association with each other.
An index creating device comprising position converting means for converting a position on a document into an accessible format and index generating means for generating an index from a set of the keyword and the position on the document in the accessible format. .
【請求項2】 文書要素によってキーワード抽出規則を
変換する抽出規則記憶手段を設けたことを特徴とする請
求項1記載の索引作成装置。
2. The index creating apparatus according to claim 1, further comprising extraction rule storage means for converting a keyword extraction rule according to a document element.
【請求項3】 特定の文書要素の内容を無条件で索引と
する索引要素記憶手段を設けたことを特徴とする請求項
1記載の索引作成装置。
3. The index creating apparatus according to claim 1, further comprising an index element storage unit for unconditionally indexing the content of a specific document element.
【請求項4】 抽出したキーワードが索引とすべきかど
うかを人間が判断するためのキーワード選択手段を設け
たことを特徴とする請求項1記載の索引作成装置。
4. The index creating apparatus according to claim 1, further comprising keyword selecting means for a human to judge whether or not the extracted keyword should be used as an index.
【請求項5】 構造化文書からキーワードと重要度とを
抽出するキーワード抽出手段と、これら抽出した前記キ
ーワードと前記重要度と文書上の位置とを対応付けて記
憶するキーワード記憶手段と、文書上の位置をアクセス
可能形式に変換する位置変換手段と、前記キーワードと
前記アクセス可能形式の文書上の位置との組から索引を
生成する索引生成手段とよりなることを特徴とする索引
作成装置。
5. A keyword extracting means for extracting a keyword and a degree of importance from a structured document, a keyword storing means for storing the extracted keyword, the degree of importance and a position on the document in association with each other, and on the document. 1. An index creating device comprising: a position converting means for converting the position of [1] into an accessible format and an index generating means for generating an index from a set of the keyword and the position of the accessible format on the document.
【請求項6】 索引としてキーワードと文書上の位置と
重要度とを持つ文書の中から関心のあるキーワードを指
定するキーワード指定手段と、キーワードの対応する文
書上の位置を重要度の高い順に提示する関連個所提示手
段とよりなることを特徴とする索引利用装置。
6. A keyword designating means for designating a keyword of interest from a document having a keyword, a position on the document and an importance as an index, and a position on the document corresponding to the keyword is presented in descending order of importance. An index utilization device comprising: a relevant point presenting means for
【請求項7】 索引としてキーワードと文書上の位置と
重要度とを持つ文書の中から関心のあるキーワードを指
定するキーワード指定手段と、関連個所を提示する重要
度の下限を指定する最低重要度指定手段と、キーワード
の対応する文書上の位置で最低重要度以上の重要度をも
つものだけを提示する関連個所提示手段とよりなること
を特徴とする索引利用装置。
7. A keyword designating means for designating a keyword of interest from a document having a keyword, a position on the document and an importance as an index, and a minimum importance for designating a lower limit of the importance for presenting a relevant part. An index utilizing apparatus comprising: a specifying means and a related point presenting means for presenting only those having a degree of importance higher than the minimum degree of importance at the position on the document corresponding to the keyword.
【請求項8】 索引としてキーワードと文書上の位置と
重要度とを持つ文書の中から関心のあるキーワードを指
定するキーワード指定手段と、一つのキーワードに対し
て提示関連個所の数の上限を指定する最大関連個所数指
定手段と、キーワードの対応する文書上の位置を最大関
連個所数以下の数だけ重要度の高いものから提示する関
連個所提示手段とよりなることを特徴とする索引利用装
置。
8. A keyword designating means for designating a keyword of interest from a document having a keyword, a position on the document, and a degree of importance as an index, and an upper limit of the number of presentation related parts for one keyword. An index utilization apparatus comprising: a maximum number of relevant points specifying means for performing the relevant keyword; and a relevant point presenting means for presenting the position on the document corresponding to the keyword in order of importance from the maximum number of the relevant points.
JP5133334A 1993-06-03 1993-06-03 Index preparing device and index utilizing device Pending JPH06348756A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5133334A JPH06348756A (en) 1993-06-03 1993-06-03 Index preparing device and index utilizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5133334A JPH06348756A (en) 1993-06-03 1993-06-03 Index preparing device and index utilizing device

Publications (1)

Publication Number Publication Date
JPH06348756A true JPH06348756A (en) 1994-12-22

Family

ID=15102295

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5133334A Pending JPH06348756A (en) 1993-06-03 1993-06-03 Index preparing device and index utilizing device

Country Status (1)

Country Link
JP (1) JPH06348756A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0954777A (en) * 1995-06-09 1997-02-25 Matsushita Electric Ind Co Ltd Information retrieving device
US5778400A (en) * 1995-03-02 1998-07-07 Fuji Xerox Co., Ltd. Apparatus and method for storing, searching for and retrieving text of a structured document provided with tags
JP2000112953A (en) * 1998-09-30 2000-04-21 Fujitsu Kiden Ltd Literature retrieval method and its system
JP2001034638A (en) * 1999-07-27 2001-02-09 Fujitsu Ltd Device and method for index production, and recording medium
JP2018041337A (en) * 2016-09-08 2018-03-15 キヤノン株式会社 File management system and control method

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5778400A (en) * 1995-03-02 1998-07-07 Fuji Xerox Co., Ltd. Apparatus and method for storing, searching for and retrieving text of a structured document provided with tags
JPH0954777A (en) * 1995-06-09 1997-02-25 Matsushita Electric Ind Co Ltd Information retrieving device
JP2000112953A (en) * 1998-09-30 2000-04-21 Fujitsu Kiden Ltd Literature retrieval method and its system
JP2001034638A (en) * 1999-07-27 2001-02-09 Fujitsu Ltd Device and method for index production, and recording medium
JP2018041337A (en) * 2016-09-08 2018-03-15 キヤノン株式会社 File management system and control method

Similar Documents

Publication Publication Date Title
WO2000075809A1 (en) Information sorting method, information sorter, recorded medium on which information sorting program is recorded
US5761666A (en) Document retrieval system
JPH05128157A (en) Document retrieval system
JPH07160727A (en) Electronic manual display method
US20080104040A1 (en) Visually intuitive search method
CN111061828A (en) Digital library knowledge retrieval method and device
JP4719921B2 (en) Data display device and data display program
JPH06348756A (en) Index preparing device and index utilizing device
JP2005128872A (en) Document retrieving system and document retrieving program
JP2014102625A (en) Information retrieval system, program, and method
JPH0934911A (en) Information retrieval device
JPH0581326A (en) Data base retrieving device
JPH10162011A (en) Information retrieval method, information retrieval system, information retrieval terminal equipment, and information retrieval device
JP2004157965A (en) Search support device and method, program and recording medium
JPH08314974A (en) Automatic key work extracting device and document retrieving device
JP3710463B2 (en) Translation support dictionary device
JPS63175965A (en) Document processor
JPH08305726A (en) Information retrieving device
JP2005056223A (en) Text data retrieval system, method therefor and its program
JPH10207758A (en) System for analyzing and displaying home page
JP2009098829A (en) Frame retrieval device for cartoon
JP2009181524A (en) Document search system and document search method
JP4034503B2 (en) Document search system and document search method
JPH0756945A (en) Whole sensitive data base system
JPH09305602A (en) Document processor, document processing method and storage medium