JPH09259133A - Document retrieval device and method therefor - Google Patents

Document retrieval device and method therefor

Info

Publication number
JPH09259133A
JPH09259133A JP8063255A JP6325596A JPH09259133A JP H09259133 A JPH09259133 A JP H09259133A JP 8063255 A JP8063255 A JP 8063255A JP 6325596 A JP6325596 A JP 6325596A JP H09259133 A JPH09259133 A JP H09259133A
Authority
JP
Japan
Prior art keywords
document
word
relation data
screen
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8063255A
Other languages
Japanese (ja)
Inventor
Yasuo Tanosaki
康雄 田野崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP8063255A priority Critical patent/JPH09259133A/en
Publication of JPH09259133A publication Critical patent/JPH09259133A/en
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To show a key word to a user to acquire retrieval candidates and also an effective key word to select these candidates. SOLUTION: A candidate document retrieval part 4b retrieves a document data file that includes a designated key word out of the group of document data files to be retrieved. A word relation data generation part 4c takes the document units such as sentences, paragraphs, etc., that include the designated key word out of the retrieved document data file and also extracts the words via analysis of morphemes to produce a word relation data which include the extracted words arranged in every document and in order of time. Then, a word list of the word relation data is synthesized, and the screens are shown in order of document production time such as order of later document production time or order of time designated by users, etc.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】この発明は、文書検索装置お
よび検索方法に関し、特に膨大な文書ファイルの中から
該当する文書ファイルを検索する全文書検索に好適な文
書検索装置および検索方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document search device and a search method, and more particularly to a document search device and a search method suitable for searching all documents for searching a corresponding document file from a huge number of document files.

【0002】[0002]

【従来の技術】従来より、文書を検索する手段として、
キーワード検索システムが良く知られている。このキー
ワード検索システムは、ユーザが入力したキーワードを
含む文書を検索するものである。このシステムで目的と
する文書を検索するためには、ユーザは、その目的文書
に含まれている適切なキーワードを指定する必要があ
る。
2. Description of the Related Art Conventionally, as means for searching a document,
Keyword search systems are well known. This keyword search system searches for a document including a keyword input by a user. In order to search for a target document in this system, the user needs to specify an appropriate keyword included in the target document.

【0003】この場合、特に、データベース中に大量の
文書がある場合には、単独のキーワードを指定しただけ
では多数の候補文書が得られてしまうので、ユーザはさ
らにキーワードを付加入力して候補を絞りこむといった
絞り込み検索を行う必要がある。
In this case, especially when there are a large number of documents in the database, a large number of candidate documents can be obtained only by designating a single keyword. Therefore, the user additionally inputs keywords to select candidates. It is necessary to perform a narrowed search such as narrowing down.

【0004】このような検索方式を用いたものとして、
膨大な文書ファイル中からユーザが必要とする文書ファ
イルを探し出すという全文書検索システムが開発されて
いる。この文書検索システムにおいては、検索候補を絞
り込むために、ユーザがいくつかの単語を“or”ある
いは“and”あるいは“not”で結び、検索式を作
成し、それに応じて検索する必要があった。
As one using such a retrieval system,
An all document search system has been developed in which a document file required by a user is searched from among a huge number of document files. In this document search system, in order to narrow down the search candidates, it is necessary for the user to connect some words with “or”, “and”, or “not”, create a search expression, and search accordingly. .

【0005】このように、従来の検索システムにおいて
は、目的とする文書を検索する際にキーワードを入力す
る必要があり、特に、複数個のキーワードを入力して絞
り込み検索を行なう際にこれらを想起することはユーザ
にとって負担になっていた。
As described above, in the conventional search system, it is necessary to input a keyword when searching for a target document, and especially when a plurality of keywords are input to perform a narrowed search, these are recalled. Doing so was a burden on the user.

【0006】また、検索式を作成する場合においても、
単語間の関係が不明であるため、適切な単語を組み合わ
せることが困難であり、目的とする文書が検索されるま
で多くの手間と時間が必要とされる欠点があった。
Also, when creating a search expression,
Since the relationship between words is unknown, it is difficult to combine appropriate words, and it takes a lot of time and effort to retrieve the target document.

【0007】[0007]

【発明が解決しようとする課題】上述のように、従来の
文書検索システムにおいては、目的とする文書を検索す
る際にキーワードを入力する必要があり、特に、複数個
のキーワードを入力して絞り込み検索を行なう際には、
これらキーワードを適切に選定することはユーザにとっ
て困難であった。このため、目的とする文書が検索され
るまで多くの手間と時間が必要とされる欠点があった。
As described above, in the conventional document retrieval system, it is necessary to input a keyword when retrieving a target document, and in particular, a plurality of keywords are input to narrow down. When searching,
It was difficult for the user to properly select these keywords. For this reason, there is a drawback that much time and effort is required until the target document is retrieved.

【0008】この発明はこのような点に鑑みてなされた
ものであり、検索候補を得るためのキーワードおよび候
補を絞り込むために有効なキーワードをユーザに呈示す
ることができる文書検索装置および検索方法を提供する
ことを目的とする。
The present invention has been made in view of the above circumstances, and provides a document search device and a search method capable of presenting to a user a keyword for obtaining a search candidate and a keyword effective for narrowing down the candidate. The purpose is to provide.

【0009】[0009]

【課題を解決するための手段】この発明の文書検索装置
は、検索対象の文書ファイル群の中から指定されたキー
ワードを含む文書ファイルを検索する文書検索装置にお
いて、前記検索結果として得られた各文書ファイルの中
から、前記指定キーワードを含む文またはパラグラフな
どの文書単位を取出す文書単位取出し手段と、これら取
出された文書単位それぞれについて形態素解析を実行し
て、文書単位中に含まれる単語を文書単位毎に抽出する
単語抽出手段と、これら抽出された単語を、前記指定キ
ーワードに関係する単語関係データとして文書単位毎に
並べて格納する単語関係データ格納手段と、この単語関
係データ格納手段の単語関係データを文書の作成時間順
に画面表示する単語関係データ表示手段とを具備するこ
とを特徴とする。
The document retrieval apparatus of the present invention is a document retrieval apparatus for retrieving a document file containing a specified keyword from a document file group to be retrieved. Document unit extracting means for extracting a document unit such as a sentence or paragraph including the specified keyword from the document file, and morphological analysis is executed for each of the extracted document units to document the words contained in the document unit. Word extraction means for extracting each unit, word relation data storage means for storing the extracted words side by side in document units as word relation data related to the specified keyword, and word relation of this word relation data storage means And a word-related data display means for displaying the data on the screen in the order of creation time of the document.

【0010】この文書検索装置においては、まず、検索
対象の文書ファイル群の中から指定されたキーワードを
含む文書ファイルが検索される。そして、検索された各
文書ファイルの中から、指定キーワードを含む文または
パラグラフなどの文書単位が取出され、その文書に含ま
れる単語が形態素解析によって抽出される。抽出された
単語は文書単位毎に並べられて単語関係データが作成さ
れて、それが単語関係データ格納手段に格納される。そ
して、単語関係データ格納手段の単語関係データが、例
えば文書作成時間の新しいもの順、あるいはユーザが指
定した時間順などのようにな文書作成時間の順に従って
画面表示され、それに含まれる単語が検索候補を得るた
めのキーワードおよび候補を絞り込むために有効なキー
ワードとしてユーザに提示される。よって、ユーザは、
指定されたキーワードに関連する単語と、関連する単語
の時間的変化などを容易に知ることができ、それを目的
ファイルの検索などに利用することができる。
In this document retrieval apparatus, first, a document file containing a designated keyword is retrieved from a document file group to be retrieved. Then, a document unit such as a sentence or paragraph including the designated keyword is extracted from each of the searched document files, and the words included in the document are extracted by morphological analysis. The extracted words are arranged for each document to create word-related data, which is stored in the word-related data storage means. Then, the word relational data of the word relational data storage means are displayed on the screen in the order of the document preparation time such as the order of the newest document preparation time or the time order specified by the user, and the words included in the word relational data are searched. It is presented to the user as keywords for obtaining candidates and effective keywords for narrowing down the candidates. Therefore, the user
It is possible to easily know the word related to the specified keyword and the temporal change of the related word, and use it for searching the target file.

【0011】また、前記単語関係データ表示手段は、所
定数の単語が画面表示されるように、前記単語関係デー
タ格納手段の単語関係データの中で、文書の作成時間が
隣接する複数の文書単位間の単語を合成して画面表示す
ることが好ましい。これにより、ひとつの単語関係デー
タに含まれている単語数が少ない場合に、複数の単語関
係データを合成して表示することができるため、画面上
に適切な数の単語を表示することができる。
Further, the word relation data display means includes a plurality of document units whose document creation times are adjacent in the word relation data of the word relation data storage means so that a predetermined number of words are displayed on the screen. It is preferable that the words in between are combined and displayed on the screen. Thus, when the number of words included in one word relation data is small, a plurality of word relation data can be combined and displayed, so that an appropriate number of words can be displayed on the screen. .

【0012】また、前記画面表示されている単語関係デ
ータの中で指定された単語を新たな指定キーワードとし
て、前記文書単位の取出し、単語抽出、単語関係データ
の格納、単語関係データの表示を、再帰的に実行する手
段をさらに具備することにより、単語間のネットワーク
をたどる情報ナビゲーションが実現可能になり、ユーザ
は新たなキーワードを入力せずして、文書検索を行なう
ことが可能になる。
Further, with the word designated in the word relation data displayed on the screen as a new designated keyword, the document unit extraction, word extraction, word relation data storage, and word relation data display are performed. By further providing a means for recursively executing, information navigation that traces a network between words can be realized, and the user can perform document search without inputting a new keyword.

【0013】また、前記画面表示されている単語関係デ
ータの中で指定された全ての単語を含む文書ファイル
を、検索対象の文書ファイル群の中から検索する手段を
さらに具備することにより、画面上で絞り込みキーワー
ドの選択を行なうことが可能になり、検索候補を絞り込
むにあたって、ユーザはあらたなキーワードを入力する
必要がなくなる。
Further, by further comprising means for searching a document file including all the words designated in the word-related data displayed on the screen from the document file group to be searched, the screen can be displayed. With, it becomes possible to select a narrowed keyword, and the user does not need to input a new keyword when narrowing down search candidates.

【0014】[0014]

【発明の実施の形態】以下、図面を参照してこの発明の
実施形態を説明する。図1には、この発明の一実施形態
に係る文書検索装置の構成が示されている。この文書検
索装置はコンピュータを利用して文書検索を行うもので
あり、入力装置1、表示装置2、外部記憶装置3、制御
装置4、メモリ5、通信装置6、および時計装置7から
構成されている。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 shows the configuration of a document search device according to an embodiment of the present invention. This document search device is for searching documents using a computer, and is composed of an input device 1, a display device 2, an external storage device 3, a control device 4, a memory 5, a communication device 6, and a clock device 7. There is.

【0015】入力装置1は、文字コード、制御コマン
ド、位置情報などを入力する装置であり、例えばキーボ
ードとマウスおよびこれらを制御する装置で構成され
る。表示装置2は、ユーザに入力を行なわせるためのプ
ロンプトメッセージ、入力された文字列、あるいは検索
の後に得られた文書データなどの表示を行なうための装
置であり、例えばVRAMとこのVRAMに格納された
ビット情報をドット列として画面表示するためのコント
ローラ、およびディスプレイからなっている。
The input device 1 is a device for inputting a character code, a control command, position information, etc., and is composed of, for example, a keyboard, a mouse, and a device for controlling these. The display device 2 is a device for displaying a prompt message for inputting by the user, an input character string, or document data obtained after a search, and is stored in, for example, a VRAM and this VRAM. It consists of a controller for displaying bit information as a dot string on the screen, and a display.

【0016】外部記憶装置3は、例えばハードディスク
装置などからなり、文書データファイル、検索インデッ
クスデータ等を格納する装置である。各文書データファ
イルは、図2に示されているように、テキストデータ
と、画像等の非テキストデータおよび作成日時情報など
の文書補助情報から構成されており、文書データファイ
ル毎に文書ID番号が割り当てられている。
The external storage device 3 is, for example, a hard disk device, and is a device for storing document data files, search index data, and the like. As shown in FIG. 2, each document data file is composed of text data, non-text data such as an image, and document auxiliary information such as creation date / time information. A document ID number is assigned to each document data file. It is assigned.

【0017】検索インデックスデータは、文書データフ
ァイルに対してそれぞれ割り当てられる検索情報であ
り、ここには、対応する文書データファイルに含まれる
キーワードなどが含まれる。この検索インデックスデー
タは、図3に示すように、原文書データファイルの文書
ID番号に対応づけられて格納されている。
The search index data is search information assigned to each document data file, and includes the keywords included in the corresponding document data file. As shown in FIG. 3, the search index data is stored in association with the document ID number of the original document data file.

【0018】制御装置4は、例えばCPUから構成され
るもので、各ハードウェア装置にバスを介して接続され
ており、各装置の制御、装置間のデータの転送制御、文
書検索処理プログラムなどのプログラム実行を行う。文
書検索処理プログラムは、この発明の特徴とする文書検
索処理のための手続きを記述したものであり、ここに
は、検索候補を得るためのキーワードや候補を絞り込む
ために有効なキーワードをユーザに呈示するための支援
機能が含まれている。
The control device 4 is composed of, for example, a CPU, is connected to each hardware device through a bus, and controls each device, data transfer control between devices, a document search processing program, and the like. Execute the program. The document search processing program describes a procedure for document search processing, which is a feature of the present invention. Here, a keyword for obtaining a search candidate and a keyword effective for narrowing down the candidate are presented to the user. It includes a support function to do.

【0019】メモリ5は、このコンピュータの主記憶を
構成するものであり、図示のように、制御装置4が各種
制御や処理を実行するためのプログラムを格納するプロ
グラム部と、処理の際に必要なデータを格納するための
バッファ部からなっている。
The memory 5 constitutes the main memory of this computer, and as shown in the figure, is a program section for storing a program for the control device 4 to execute various controls and processes, and is necessary for processing. It consists of a buffer for storing various data.

【0020】プログラム部には、前述の文書検索処理プ
ログラムが格納される。この文書処理プログラムは、キ
ーワード入力部4a、候補文書検索部4b、単語関係デ
ータ生成部4c、単語関係データ表示部を備えている。
また、文書検索処理に使用されるバッファ部には、キー
ワード入力バッファ4r、候補文書番号格納バッファ4
s、単語関係データ格納バッファ4t、表示用単語リス
ト格納バッファ4uがある。
The above-mentioned document search processing program is stored in the program section. This document processing program includes a keyword input unit 4a, a candidate document search unit 4b, a word relation data generation unit 4c, and a word relation data display unit.
The keyword input buffer 4r and the candidate document number storage buffer 4 are included in the buffer unit used for the document search process.
s, a word relation data storage buffer 4t, and a display word list storage buffer 4u.

【0021】単語関係データ格納バッファ4tは、複数
のデータを格納できる配列形式のバッファであり、単語
関係データが格納される。この単語関係データは指定キ
ーワードと対応しており、各文書データファイルから指
定キーワードを含む文またはパラグラフなどの文書単位
を取出し、そこに含まれる単語を文書単位毎にその文書
ファイルの作成時間順に整列させることによって生成さ
れる。この単語関係データは複数の文書単位それぞれに
対応する複数の要素から構成されている。この単語関係
データ格納バッファ4tの構造を図4に示す。
The word relation data storage buffer 4t is an array type buffer capable of storing a plurality of data and stores the word relation data. This word-related data corresponds to a specified keyword. Document units such as sentences or paragraphs containing the specified keyword are extracted from each document data file, and the words contained therein are arranged for each document unit in order of creation time of the document file. It is generated by This word relation data is composed of a plurality of elements corresponding to a plurality of document units. The structure of the word relation data storage buffer 4t is shown in FIG.

【0022】図4に示されているように、そのひとつの
要素は、日時情報格納部、原テキスト格納部、単語リス
ト格納部に分割されている。日時情報格納部には対応す
る文書単位についての文書データファイルの作成日時が
格納され、原テキスト格納部には対応する文書単位内の
テキストデータそのものが格納され、また単語リスト格
納部には対応する文書単位のテキストデータから抽出し
た単語が格納されている。
As shown in FIG. 4, one of the elements is divided into a date / time information storage section, an original text storage section, and a word list storage section. The date and time information storage unit stores the creation date and time of the document data file for the corresponding document unit, the original text storage unit stores the text data itself in the corresponding document unit, and the word list storage unit. Words extracted from text data in document units are stored.

【0023】表示用単語リスト格納バッファ4uは、単
語関係データ格納バッファ4tの複数の単語リスト格納
部の内容を合成して格納するためのバッファであり、こ
こに格納された単語群が、指定キーワードに関連する単
語としてユーザに提示される。この表示用単語リスト格
納バッファ4uも複数のデータを格納できる配列形式に
なっており、その構造は図5の通りである。
The display word list storage buffer 4u is a buffer for synthesizing and storing the contents of a plurality of word list storage units of the word relation data storage buffer 4t, and the word group stored here is a designated keyword. Is presented to the user as a word associated with. The display word list storage buffer 4u is also in an array format capable of storing a plurality of data, and its structure is as shown in FIG.

【0024】次に、図6のフローチャートを参照して、
本実施形態の具体的な文書検索処理の手順について説明
する。まず、キーワード入力部4aが起動し、ユーザの
入力したキーワードがキーワード入力バッファ4rに入
力される(ステップ5a)。次に、候補文書検索部4b
が起動し(ステップ5b)、外部記憶装置3中に格納さ
れている検索用インデックスデータを参照して、全ファ
イル検索を実行し、指定したキーワードを含む文書のI
D番号を順に候補文書番号格納バッファ4s中に格納す
る。すなわち、この候補文書検索処理では、まず、ユー
ザによって指定されたキーワードを含む検索用インデッ
クスデータが調べられ、指定キーワードを含む検索イン
デックスデータがあれば、それに対応する文書ID番号
が候補文書番号格納バッファ4sに保持される。
Next, referring to the flowchart of FIG.
A specific document search processing procedure of this embodiment will be described. First, the keyword input unit 4a is activated, and the keyword input by the user is input to the keyword input buffer 4r (step 5a). Next, the candidate document search unit 4b
Is started (step 5b), the search index data stored in the external storage device 3 is referred to, all file search is executed, and the I of the document including the specified keyword is searched.
The D numbers are sequentially stored in the candidate document number storage buffer 4s. That is, in this candidate document search process, first, the search index data including the keyword specified by the user is checked, and if there is the search index data including the specified keyword, the corresponding document ID number is used as the candidate document number storage buffer. It is held for 4s.

【0025】続くステップ5cでは、単語関係データ生
成部4cが起動する。単語関係データ生成部4cでは、
ステップ5bで得た各文書データファイルのテキストデ
ータのうち、ステップ5aで指定されたキーワードを含
む部分が抽出され、文書ファイルの作成時間順にソート
して単語関係データ格納バッファ4tの原テキスト格納
部に順に格納される。ここで、抽出する単位として「文
単位」あるいは「パラグラフ単位」のいずれかが設定で
きる。さらに単語関係データ格納バッファ4tの日時情
報格納部にテキストの作成日時情報が格納される。
In the subsequent step 5c, the word relational data generator 4c is activated. In the word relation data generation unit 4c,
Of the text data of each document data file obtained in step 5b, the part including the keyword specified in step 5a is extracted, sorted in the order of creation time of the document file, and stored in the original text storage section of the word relation data storage buffer 4t. Stored in order. Here, either "sentence unit" or "paragraph unit" can be set as the unit for extraction. Further, text creation date / time information is stored in the date / time information storage section of the word relation data storage buffer 4t.

【0026】続いて、単語関係データ格納バッファ4t
の原テキスト格納部に格納されている各テキストデータ
に対して形態素解析が行われ、ここで抽出された単語の
うち、ステップ5aで指定されたキーワード以外のもの
が、単語関係データ格納バッファ4tの単語リスト格納
部に格納される。
Subsequently, the word relation data storage buffer 4t
Morphological analysis is performed on each of the text data stored in the original text storage unit of the above, and among the words extracted here, those other than the keyword specified in step 5a are stored in the word relation data storage buffer 4t. It is stored in the word list storage section.

【0027】続くステップ5dでは、単語関係データ表
示部4dが起動する。ここでは単語関係データ格納バッ
ファ4tの各要素の内容を順に参照して、各単語リスト
格納部のデータの合成が行われて表示用単語リスト格納
バッファ4uに格納され、その表示が行われる。
In the subsequent step 5d, the word relation data display section 4d is activated. Here, the content of each element of the word relation data storage buffer 4t is referred to in order, the data of each word list storage unit is synthesized, stored in the display word list storage buffer 4u, and displayed.

【0028】データの合成にあたっては、合成後の単語
の総数が一定となるように制御される。つまり、ひとつ
の単語リストに含まれる単語数が一定数であれば、表示
用単語リスト格納バッファ4uの各要素はそれぞれ単語
関係データ格納バッファ4tの1つの単語リスト要素と
一対一で対応し、単語関係データ格納バッファ4tの1
要素の単語リストがそのまま単語関係データ格納バッフ
ァ4tの1要素に格納されるが、単語関係データ格納バ
ッファ4tの1つの単語リスト要素に含まれる単語数が
少ない場合には、それに隣接する単語リスト要素の単語
とのマージが行われる。
In synthesizing the data, the total number of words after synthesizing is controlled to be constant. That is, if the number of words included in one word list is a fixed number, each element of the display word list storage buffer 4u corresponds to one word list element of the word relation data storage buffer 4t on a one-to-one basis. 1 of the relation data storage buffer 4t
The word list of the elements is stored in one element of the word relation data storage buffer 4t as it is, but when the number of words included in one word list element of the word relation data storage buffer 4t is small, the word list element adjacent to the word list element Is merged with the word.

【0029】表示用単語リストの作成過程を図7、図8
に示す。図7には、合計7、または8個の単語を表示す
る場合の例であり、単語リストi+1に3つの単語(単
語5,6,7)が格納されており、この3つの単語と、
その単語リストi+1よりも1つ前に配列されている単
語リストiに格納されている4つの単語(単語1,2,
3,4)とが合成されて、表示用単語リスト格納バッフ
ァ4uのある要素jに格納される様子が示されている。
The process of creating the display word list is shown in FIGS.
Shown in FIG. 7 shows an example in which a total of 7 or 8 words are displayed, and three words (words 5, 6, 7) are stored in the word list i + 1.
The four words (words 1, 2, ...) stored in the word list i arranged one before the word list i + 1.
3 and 4) are combined and stored in a certain element j of the display word list storage buffer 4u.

【0030】この場合、もし図8に示されているよう
に、単語リストiと単語リストi+1に同一の単語(単
語5)が含まれている場合には、単語5は一つだけ表示
用単語リスト格納バッファ4uのある要素jに格納され
る。
In this case, as shown in FIG. 8, if the word list i and the word list i + 1 include the same word (word 5), only one word 5 is a display word. It is stored in a certain element j of the list storage buffer 4u.

【0031】この様な表示用単語リストの作成処理は、
時間的に最も新しい単語リストから順に行われ、その結
果が時間的に最も新しい表示用単語リスト要素に格納さ
れていく。
The process of creating such a display word list is as follows.
The word list is temporally newest, and the result is stored in the temporally newest word list element for display.

【0032】このようして表示用単語リスト作成が終了
した時、その表示が行われる。ここでは、まず初期状態
として、表示用単語リスト格納バッファ4uの末尾の要
素(時間的に最も新しい表示用単語リスト要素)のデー
タ表示が行われる。
When the creation of the display word list is completed in this way, the display is performed. Here, first, as an initial state, data display of the last element (temporarily newest display word list element) of the display word list storage buffer 4u is performed.

【0033】この時の画面の状態を図9に示す。図示の
ように、ステップ5aで指定されたキーワードを中心に
して、単語リスト中の各単語が表示される。また、この
画面上には、図示のように、表示すべき単語リストの時
間を変更するためのスライドボタンも表示される。
The state of the screen at this time is shown in FIG. As shown, each word in the word list is displayed centering on the keyword specified in step 5a. Further, as shown in the figure, a slide button for changing the time of the word list to be displayed is also displayed on this screen.

【0034】図6においては、次に入力待ちの状態にな
る(ステップ5e〜5f)。ここで、たとえば、図9上
に示されるようなスライドボタンがマウス等で移動され
た場合(ステップ5g)には、ステップ5dに戻り、画
面消去後、移動されたスライドボタンの位置で指定され
る時間に対応した、表示用単語リストバッファの要素の
内容が表示される。
In FIG. 6, the next state is waiting for input (steps 5e to 5f). Here, for example, when the slide button as shown in FIG. 9 is moved by the mouse or the like (step 5g), the process returns to step 5d, and after the screen is erased, the position of the moved slide button is designated. The contents of the display word list buffer element corresponding to the time are displayed.

【0035】たとえば、スライドボタンの左端が指定さ
れた場合には、表示用単語リストバッファの先頭の要素
の内容が表示され、以後、スライドボタンが右側に移動
される度に、表示用単語リストバッファの後方の要素が
順に表示される。
For example, when the left end of the slide button is designated, the contents of the first element of the display word list buffer are displayed, and thereafter, each time the slide button is moved to the right, the display word list buffer is displayed. The elements after the are displayed in order.

【0036】ステップ5eで、画面上に表示されている
単語がマウスなどで指定された場合には、あらかじめ指
定されている操作モード(ナビゲーションモード、原文
書検索モード)に従って以下の異なる動作を行なう。
When the word displayed on the screen is designated by the mouse or the like in step 5e, the following different operations are performed according to the designated operation mode (navigation mode, original document search mode).

【0037】(1)ナビゲーションモードの場合 指定された単語を新たなキーワードとして、ステップ5
bからの一連の処理が再帰的に実行される。単語が指定
され、これに関連する単語が表示された際の画面の状況
を図10、図11に示す。
(1) In case of navigation mode Step 5 is performed with the designated word as a new keyword.
A series of processing from b is executed recursively. 10 and 11 show the states of the screen when a word is designated and a word related thereto is displayed.

【0038】図10では、キーワードに関連する単語群
の中から単語7が指定された場合の様子を示しており、
画面上の単語が指定された場合には、それを囲む楕円の
輪郭が相対的に太くなる。この場合、その単語7を新た
なキーワードとして図6の検索処理ルーチン、つまり前
述の候補文書検索、単語関係データの生成、表示用単語
リストの生成が再帰的に実行され、その表示用単語リス
ト格納バッファ4uの末尾の要素(時間的に最も新しい
表示用単語リスト要素)の表示が図11のように行われ
る。
FIG. 10 shows a case where the word 7 is specified from the word group related to the keyword,
When a word on the screen is specified, the outline of the ellipse surrounding it is relatively thick. In this case, the word 7 is used as a new keyword to recursively execute the search processing routine of FIG. 6, that is, the above-described candidate document search, word relation data generation, and display word list generation, and the display word list is stored. The display of the last element (temporarily newest display word list element) of the buffer 4u is performed as shown in FIG.

【0039】(2)原文書検索モードの場合 ステップ5dで画面上表示された単語のうち、図12の
ように1以上の単語(ここでは、3つ)が指定された場
合、候補文書検索部4bを起動することにより、指定さ
れた単語全てを含む原文書データが検索され、その結果
が画面上に表示される。
(2) In case of original document search mode If one or more words (here, three) are designated as shown in FIG. 12 among the words displayed on the screen in step 5d, the candidate document search unit By activating 4b, the original document data including all the designated words is searched, and the result is displayed on the screen.

【0040】以上説明したように、この実施形態におい
ては、まず、候補文書検索部4bによって検索対象の文
書データファイル群の中から指定されたキーワードを含
む文書データファイルが検索される。そして、単語関係
データ生成部4cによって、検索された各文書データフ
ァイルの中から、指定キーワードを含む文またはパラグ
ラフなどの文書単位の取出し、形態素解析による単語抽
出が行われ、抽出された単語を文書単位毎に時間順に配
置した単語関係データが作成される。そして、単語関係
データの単語リストが合成されて、例えば文書作成時間
の新しいもの順、あるいはユーザが指定した時間順など
のようにな文書作成時間の順に従って一定数画面表示さ
れ、それに含まれる単語が検索候補を得るためのキーワ
ードおよび候補を絞り込むために有効なキーワードとし
てユーザに提示される。
As described above, in this embodiment, the candidate document search section 4b first searches the document data file group to be searched for the document data file containing the specified keyword. Then, the word relational data generation unit 4c extracts document units such as sentences or paragraphs containing the designated keyword from each retrieved document data file and performs word extraction by morphological analysis to extract the extracted words into documents. Word-related data arranged in chronological order for each unit is created. Then, a word list of word-related data is synthesized and displayed on a certain number of screens according to the order of document creation time such as the order of newest document creation time, or the order of time specified by the user, and the words included in it are displayed. Is presented to the user as a keyword for obtaining search candidates and an effective keyword for narrowing down the candidates.

【0041】よって、ユーザは、指定されたキーワード
に関連する単語と、関連する単語の時間的変化などを容
易に知ることができ、それを目的ファイルの検索などに
利用することができる。
Therefore, the user can easily know the word related to the designated keyword and the temporal change of the related word, and can use it for searching the target file.

【0042】[0042]

【発明の効果】以上のように、この発明によれば、各候
補文書から抽出した単語を画面表示する個々とにより、
検索候補を得るためのキーワードおよび候補を絞り込む
ために有効なキーワードをユーザに呈示することが可能
となり、文書検索のための操作性の向上および目的文書
を検索するまでの時間の低減などを実現することができ
る。また、画面表示されている単語関係データの中で指
定された単語を新たな指定キーワードとして、文書単位
の取出し、単語抽出、単語関係データの格納、単語関係
データの表示を、再帰的に実行することにより、単語間
のネットワークをたどる情報ナビゲーションが実現可能
になり、ユーザは新たなキーワードを入力せずして、文
書検索を行なうことが可能になる。
As described above, according to the present invention, the words extracted from each candidate document are individually displayed on the screen,
It is possible to present the user with a keyword for obtaining a search candidate and an effective keyword for narrowing down the candidate, which realizes an improvement in operability for document search and a reduction in the time until the target document is searched. be able to. In addition, the word specified in the word-related data displayed on the screen is used as a new specified keyword to retrieve document units, extract words, store word-related data, and display word-related data recursively. As a result, information navigation that follows a network between words can be realized, and the user can perform document search without inputting a new keyword.

【図面の簡単な説明】[Brief description of drawings]

【図1】この発明の一実施形態に係る文書検索装置の構
成を示すブロック図。
FIG. 1 is a block diagram showing the configuration of a document search device according to an embodiment of the present invention.

【図2】同実施形態における文書検索処理で使用される
文書データファイルの管理構造を示す図。
FIG. 2 is an exemplary view showing a management structure of a document data file used in a document search process according to the first embodiment.

【図3】同実施形態における文書検索処理で使用される
検索用インデックスデータの管理構造を示す図。
FIG. 3 is a diagram showing a management structure of search index data used in a document search process in the embodiment.

【図4】同実施形態における文書検索処理で使用される
単語関係データ格納バッファのデータ記憶構造を示す
図。
FIG. 4 is an exemplary view showing a data storage structure of a word relation data storage buffer used in a document search process in the embodiment.

【図5】同実施形態における文書検索処理で使用される
表示用単語リスト格納バッファのデータ記憶構造を示す
図。
FIG. 5 is an exemplary view showing a data storage structure of a display word list storage buffer used in a document search process according to the first embodiment.

【図6】同実施形態における文書検索処理の手順を説明
するフローチャート。
FIG. 6 is an exemplary flowchart illustrating a procedure of document search processing according to the first embodiment.

【図7】同実施形態における文書検索処理で行われる表
示用単語リスト生成処理の一例を説明するための図。
FIG. 7 is an exemplary view for explaining an example of a display word list generation process performed in the document search process according to the first embodiment.

【図8】同実施形態における文書検索処理で行われる表
示用単語リスト生成処理の他の例を説明するための図。
FIG. 8 is a view for explaining another example of the display word list generation process performed in the document search process according to the first embodiment.

【図9】同実施形態における表示用単語リストの画面表
示例を示す図。
FIG. 9 is a view showing a screen display example of a display word list in the same embodiment.

【図10】同実施形態における表示用単語リスト画面上
で単語が指定される様子を示す図。
FIG. 10 is a view showing how a word is specified on the display word list screen in the embodiment.

【図11】同実施形態における表示用単語リスト画面上
で指定された単語を新たなキーワードとして再帰的に検
索処理を行うことによって得られるナビゲーションモー
ド画面を示す図。
FIG. 11 is a view showing a navigation mode screen obtained by recursively performing a search process using a word designated on the display word list screen as a new keyword in the same embodiment.

【図12】同実施形態における表示用単語リスト画面上
で複数の単語が指定される様子を示す図。
FIG. 12 is a view showing a state in which a plurality of words are specified on the display word list screen in the same embodiment.

【符号の説明】[Explanation of symbols]

1…入力装置、2…表示装置、3…外部記憶装置、4…
制御装置、5…メモリ、4a…キーワード入力部、4b
…候補文書検索部、4c…単語関係データ生成部、4d
…単語関係データ表示部、4r…キーワード入力バッフ
ァ、4s…候補文書番号格納バッファ、4t…単語関係
データ格納バッファ、4u…表示用単語リスト格納バッ
ファ。
1 ... Input device, 2 ... Display device, 3 ... External storage device, 4 ...
Control device, 5 ... Memory, 4a ... Keyword input section, 4b
... Candidate document search unit, 4c ... Word relation data generation unit, 4d
... word relation data display section, 4r ... keyword input buffer, 4s ... candidate document number storage buffer, 4t ... word relation data storage buffer, 4u ... display word list storage buffer.

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 検索対象の文書ファイル群の中から指定
されたキーワードを含む文書ファイルを検索する文書検
索装置において、 前記検索結果として得られた各文書ファイルの中から、
前記指定キーワードを含む文またはパラグラフなどの文
書単位を取出す文書単位取出し手段と、 これら取出された文書単位それぞれについて形態素解析
を実行して、文書単位中に含まれる単語を文書単位毎に
抽出する単語抽出手段と、 これら抽出された単語を、前記指定キーワードに関係す
る単語関係データとして文書単位毎に並べて格納する単
語関係データ格納手段と、 この単語関係データ格納手段の単語関係データを文書の
作成時間順に画面表示する単語関係データ表示手段とを
具備することを特徴とする文書検索装置。
1. A document search device for searching a document file including a specified keyword from a document file group to be searched, wherein each document file obtained as the search result is:
Document unit extracting means for extracting a document unit such as a sentence or paragraph including the specified keyword, and a word for extracting a word contained in the document unit for each document unit by executing morphological analysis on each of the extracted document units Extraction means, word relation data storage means for storing these extracted words as word relation data relating to the specified keyword side by side for each document, and word relation data of the word relation data storage means for document creation time A document retrieval device, comprising: a word-related data display means for sequentially displaying on a screen.
【請求項2】 前記単語関係データ表示手段は、所定数
の単語が画面表示されるように、前記単語関係データ格
納手段の単語関係データの中で、文書の作成時間が隣接
する複数の文書単位間の単語を合成して画面表示するこ
とを特徴とする請求項1記載の文書検索装置。
2. The word relation data display means, in the word relation data of the word relation data storage means, a plurality of document units whose document creation times are adjacent to each other so that a predetermined number of words are displayed on the screen. 2. The document search device according to claim 1, wherein the words in between are combined and displayed on the screen.
【請求項3】 前記画面表示されている単語関係データ
の中で指定された単語を新たな指定キーワードとして、
前記文書単位の取出し、単語抽出、単語関係データの格
納、単語関係データの表示を、再帰的に実行する手段と
をさらに具備することを特徴とする請求項1記載の文書
検索装置。
3. A word specified in the word relation data displayed on the screen as a new specified keyword,
The document retrieval apparatus according to claim 1, further comprising: a unit that recursively executes extraction of the document unit, word extraction, storage of word relation data, and display of word relation data.
【請求項4】 前記画面表示されている単語関係データ
の中で指定された全ての単語を含む文書ファイルを、検
索対象の文書ファイル群の中から検索する手段とをさら
に具備することを特徴とする請求項1記載の文書検索装
置。
4. A means for searching a document file including all words specified in the word-relationship data displayed on the screen from a document file group to be searched, further comprising: The document search device according to claim 1.
【請求項5】 検索対象の文書ファイル群の中から指定
されたキーワードを含む文書ファイルを検索する文書検
索装置において、 前記検索結果として得られた各文書ファイルの中から、
前記指定キーワードを含む文またはパラグラフなどの文
書単位を取出す文書単位取出し手段と、 これら取出された文書単位それぞれについて形態素解析
を実行して、文書単位中に含まれる単語を文書単位毎に
抽出する単語抽出手段と、 これら抽出された単語を文書単位毎にその文書の作成時
間順に整列させて、前記指定キーワードに関係する単語
関係データとして格納する単語関係データ格納手段と、 この単語関係データ格納手段の単語関係データの中か
ら、指定された任意の文書作成時間に対応する単語関係
データを取出して画面表示する手段とを具備することを
特徴とする文書検索装置。
5. A document search device for searching a document file containing a specified keyword from a document file group to be searched, wherein each of the document files obtained as the search result includes:
Document unit extracting means for extracting a document unit such as a sentence or paragraph including the specified keyword, and a word for extracting a word contained in the document unit for each document unit by executing morphological analysis on each of the extracted document units Extraction means, word relation data storage means for arranging these extracted words in order of document creation time for each document unit, and storing them as word relation data related to the specified keyword, and this word relation data storage means A document retrieval device, comprising means for extracting word-related data corresponding to a specified arbitrary document creation time from the word-related data and displaying it on a screen.
【請求項6】 検索対象の文書ファイル群の中から指定
されたキーワードを含む文書ファイルを検索する文書検
索方法において、 前記検索結果として得られた各文書ファイルの中から、
前記指定キーワードを含む文またはパラグラフなどの文
書単位を取出し、 これら取出された文書単位それぞれについて形態素解析
を実行して、文書単位中に含まれる単語を文書単位毎に
抽出し、 これら抽出された単語を文書単位毎にその作成時間順に
整列させて、前記指定キーワードに関係する単語関係デ
ータを生成し、 この単語関係データを文書の作成時間順に画面表示する
ことを特徴とする文書検索方法。
6. A document retrieval method for retrieving a document file containing a specified keyword from a document file group to be retrieved, wherein each document file obtained as the retrieval result is
Document units such as sentences or paragraphs that include the specified keyword are extracted, morphological analysis is performed on each of the extracted document units, and the words included in the document units are extracted for each document unit. Is arranged in the order of creation time for each document unit to generate word-related data related to the specified keyword, and the word-related data is displayed on the screen in the order of creation time of the document.
【請求項7】 所定数の単語が画面表示されるように、
前記単語関係データの中で、文書の作成時間が隣接する
複数の文書単位間の単語を合成して画面表示することを
特徴とする請求項6記載の文書検索方法。
7. A predetermined number of words are displayed on the screen,
7. The document search method according to claim 6, wherein in the word-related data, words between a plurality of document units whose document creation times are adjacent to each other are combined and displayed on the screen.
【請求項8】 前記画面表示されている単語関係データ
の中で指定された単語を新たな指定キーワードとして使
用して、前記文書単位の取出し、単語抽出、単語関係デ
ータの格納、単語関係データの表示を、再帰的に実行す
ることを特徴とする請求項6記載の文書検索方法。
8. The word specified in the word relation data displayed on the screen is used as a new designated keyword to extract the document unit, extract the word, store the word relation data, and extract the word relation data. 7. The document search method according to claim 6, wherein the display is performed recursively.
【請求項9】 前記画面表示されている単語関係データ
の中で指定された全ての単語を含む文書ファイルを、検
索対象の文書ファイル群の中から検索することを特徴と
する請求項6記載の文書検索方法。
9. The document file including all the words designated in the word-related data displayed on the screen is searched from the document file group to be searched for. Document search method.
JP8063255A 1996-03-19 1996-03-19 Document retrieval device and method therefor Pending JPH09259133A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8063255A JPH09259133A (en) 1996-03-19 1996-03-19 Document retrieval device and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8063255A JPH09259133A (en) 1996-03-19 1996-03-19 Document retrieval device and method therefor

Publications (1)

Publication Number Publication Date
JPH09259133A true JPH09259133A (en) 1997-10-03

Family

ID=13223979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8063255A Pending JPH09259133A (en) 1996-03-19 1996-03-19 Document retrieval device and method therefor

Country Status (1)

Country Link
JP (1) JPH09259133A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009289202A (en) * 2008-05-30 2009-12-10 Toshiba Corp Keyword input support device, keyword input support method and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009289202A (en) * 2008-05-30 2009-12-10 Toshiba Corp Keyword input support device, keyword input support method and program
US8874590B2 (en) 2008-05-30 2014-10-28 Kabushiki Kaisha Toshiba Apparatus and method for supporting keyword input

Similar Documents

Publication Publication Date Title
US5220625A (en) Information search terminal and system
JP2006099428A (en) Document summary preparation system, method, and program
JP2008052548A (en) Retrieval program, information retrieval device and information retrieval method
JPH0395673A (en) Method and device for setting link between sentences
JPH07129605A (en) Document retrieval device
JPH09259133A (en) Document retrieval device and method therefor
JPH10307835A (en) Information processor and its method
JP3056810B2 (en) Document search method and apparatus
JPH06259480A (en) Document retrieving method
JP2004334690A (en) Character data inputting/outputting device and method, character data inputting/outputting program, and computer-readable recording medium
JPH06195386A (en) Data retriever
JP3498635B2 (en) Information retrieval method and apparatus, and computer-readable recording medium
JP3666066B2 (en) Multilingual document registration and retrieval device
JPH05181912A (en) Document retrieving device
JPH01214963A (en) Device for consulting dictionary
JP2001067375A (en) Name retrieval device, keyboard and recording medium recording name retrieval program
JPH08153112A (en) Device and method for document preparation
JPH08235191A (en) Method and device for document retrieval
JP2005141630A (en) Translation support dictionary apparatus
JPS62282364A (en) Character string retrieval system
JPH10307839A (en) Text retrieving device and its method
JPH0668160A (en) Information retrieval system
JPH1153356A (en) Device and method for preparing document, and recording medium recorded with program for executing the method by computer
JPH0581244A (en) Sentence editor
JPH07262198A (en) Document retrieval device