JPH04281558A - Document retrieving device - Google Patents

Document retrieving device

Info

Publication number
JPH04281558A
JPH04281558A JP3069319A JP6931991A JPH04281558A JP H04281558 A JPH04281558 A JP H04281558A JP 3069319 A JP3069319 A JP 3069319A JP 6931991 A JP6931991 A JP 6931991A JP H04281558 A JPH04281558 A JP H04281558A
Authority
JP
Japan
Prior art keywords
document
candidate
data
list
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3069319A
Other languages
Japanese (ja)
Other versions
JP3056810B2 (en
Inventor
Yasuo Tanosaki
康雄 田野崎
Isamu Iwai
岩井 勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP3069319A priority Critical patent/JP3056810B2/en
Publication of JPH04281558A publication Critical patent/JPH04281558A/en
Application granted granted Critical
Publication of JP3056810B2 publication Critical patent/JP3056810B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PURPOSE:To reduce the number of times of the scroll operation of a screen by displaying the skeleton structure of a simplified sentence at the time of displaying parts including designated key words in a text, as a list. CONSTITUTION:A character string including the key words is extracted from text data, a text analyzing processing such as a syntax analysis is operated to this character string, and the simplified sentence constituted of words and phrases constituting the skeleton structure of the text is displayed as the element of the list of candidate documents. Then, a document selecting part 5h allows a user to select one of document content expressions which are already displayed as a list by candidate document list display part 5g. The, a document display part 5i reads out document data corresponding to the document content expression selected by the document selecting part 5h from a candidate document storing buffer 51, and displays the text and a chart or the like on the display screen of a display device.

Description

【発明の詳細な説明】[Detailed description of the invention]

[発明の目的] [Purpose of the invention]

【0001】0001

【産業上の利用分野】本発明は、文書データベースの中
からユーザの目的とする文書を効率よく検索することが
可能な文書検索装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document retrieval device capable of efficiently searching a document database for a document desired by a user.

【0002】0002

【従来の技術】大型コンピュータあるいはワークステー
ションを用いた文書検索システムが実用化されている。
2. Description of the Related Art Document retrieval systems using large computers or workstations have been put into practical use.

【0003】このような文書検索装置において文書の検
索を行なう場合には、まずユーザはキーワードを入力す
る。その後、装置側が入力されたキーワードを、本文中
に含んでいるか、あるいは検索キーとしてヘッダ部分に
含んでいる文書をデータベースの中から捜し出し、その
検索結果をユーザに与える。
[0003] When searching for a document using such a document search device, the user first inputs a keyword. Thereafter, the device searches the database for documents that include the input keyword in the text or in the header as a search key, and provides the search results to the user.

【0004】ところで、条件を満たす文書が複数個見つ
かった場合には、ユーザはさらにこのうなかから必要な
ものを選び出す必要がある。そのため、装置側は、捜し
出された各文書のタイトルおよび各文書に付属する文書
情報あるいはアブストラクトなどの文書内容リストを文
書番号とともに列挙表示し、ユーザはここに付加されて
いる文書内容を参照して、各文書が目的にあったものか
否かの判断を行なってから文書本体を閲覧している。
[0004] By the way, if a plurality of documents satisfying the conditions are found, the user must further select the desired one from among them. Therefore, the device side enumerates and displays a document content list such as the title of each document found and the document information or abstract attached to each document along with the document number, and the user can refer to the document content added here. The user determines whether each document is suitable for the purpose before viewing the document itself.

【0005】[0005]

【発明が解決しようとする課題】上記したように、従来
の検索装置においては、候補文書が複数ある場合に、装
置側が与えた文書内容リストなどを参照して、ユーザが
必要なものを選択するという形態が採られているが、文
書内容リストが文書の内容を的確に表現しているケース
が少なく、また、ユーザの必要とする記述が本文中に存
在してもそれが文書のタイトルあるいはヘッダ情報に表
されていないケースもあった。特に、候補文書数が増え
た場合には、目的とする文書を検索するまでに要するユ
ーザの負担は大きかった。また、文書内容リスト中に詳
しく各文書の内容を表現すると、文書内容リストの表示
量自体が大きくなり、表示画面の表示領域に収まらず、
ユーザは画面のスクロールなどを頻繁に行なわなければ
ならないといった操作上の不具合も生じていた。
[Problems to be Solved by the Invention] As mentioned above, in conventional search devices, when there are multiple candidate documents, the user selects the desired one by referring to a document content list provided by the device. However, there are few cases in which the document contents list accurately represents the contents of the document, and even if the description the user wants exists in the main text, it is not included in the title or header of the document. There were also cases that were not represented in the information. In particular, when the number of candidate documents increases, the burden on the user required to search for a target document is large. Also, if the contents of each document are expressed in detail in the document contents list, the display amount of the document contents list itself will become large and will not fit in the display area of the display screen.
There were also operational problems, such as the user having to scroll the screen frequently.

【0006】本発明は、上記事情に鑑みてなされたもの
で、文書内容リスト中に各文書の内容を的確に、かつ最
少限の記述量で表現できる文書検索装置を提供すること
を目的とする。
The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a document retrieval device that can accurately represent the contents of each document in a document contents list with a minimum amount of description. .

【0007】[発明の構成][Configuration of the invention]

【0008】[0008]

【課題を解決するための手段】本発明は、上記目的を達
成するために、テキスト・データや図表データなどから
なる文書データを格納する文書データ格納手段と、この
文書データ格納手段に格納されている文書データを検索
するキーワードを入力するキーワード入力手段と、この
キーワード入力手段から入力されたキーワードを含む文
書を上記文書データ格納手段の中から検索するキーワー
ドサーチ手段とを備えた文書検索装置において、上記各
文書データごとに上記キーワードサーチ手段によって抽
出された上記キーワードを含む候補文を格納する格納手
段と、この格納手段に格納されている候補文に対し文章
解析処理を施し上記キーワードを含む簡略化された文を
候補文書リストの要素として表示する候補文書一覧表示
手段と、この候補文書一覧表示手段で表示された文書一
覧における上記要素の一つを指定する文書選択手段と、
この文書選択手段で指定された文書に対応する文書デー
タの内容を表示する文書表示手段とを具備したことを特
徴とする。
[Means for Solving the Problems] In order to achieve the above object, the present invention provides a document data storage means for storing document data consisting of text data, diagram data, etc. A document search device comprising: a keyword input means for inputting a keyword to search for document data; and a keyword search means for searching the document data storage means for a document containing the keyword input from the keyword input means; A storage means for storing candidate sentences containing the keywords extracted by the keyword search means for each of the document data, and a simplification including the keywords by performing sentence analysis processing on the candidate sentences stored in the storage means. candidate document list display means for displaying the selected sentences as elements of a candidate document list; document selection means for specifying one of the elements in the document list displayed by the candidate document list display means;
The present invention is characterized by comprising a document display means for displaying the contents of document data corresponding to the document specified by the document selection means.

【0009】[0009]

【作用】本発明は上記のように構成したので、キーワー
ドを用いることにことによって得られた複数の候補文書
データの中から目的とするものを選ぶ場合に、候補文書
リストの要素としてキーワードをテキスト中の周囲の語
と対応づけて表示することにより、文書中でのそのキー
ワードの現われ方が明示表現され、文書全体の内容が目
的に合致したものかどうかの判断が的確に行なわれる。
[Operation] Since the present invention is configured as described above, when selecting a target document data from among a plurality of candidate document data obtained by using keywords, the keyword can be used as a text as an element of the candidate document list. By displaying keywords in association with surrounding words, the appearance of the keyword in the document is clearly expressed, and it is possible to accurately judge whether the content of the entire document matches the purpose.

【0010】さらに、候補文書データ中のキーワードを
含む文に対し文章解析処理を行ない、キーワードを含ん
で短く表現された文章を候補文書リストの要素として表
示することにより、候補文書リストの表示画面上での占
有面積が小さくなる。
[0010]Furthermore, by performing sentence analysis processing on the sentences containing keywords in the candidate document data, and displaying short sentences containing the keywords as elements of the candidate document list, on the display screen of the candidate document list. occupies a smaller area.

【0011】[0011]

【実施例】以下、図面を参照して本発明の実施例を説明
する。
Embodiments Hereinafter, embodiments of the present invention will be described with reference to the drawings.

【0012】図1は、本発明の一実施例の文書検索装置
の構成を示すブロック図である。
FIG. 1 is a block diagram showing the configuration of a document search device according to an embodiment of the present invention.

【0013】同図に示すように、文書検索装置は、入力
装置1 、表示装置2 、文書データ格納装置3 、制
御装置4 、およびメモリ5から構成される。
As shown in the figure, the document search device includes an input device 1, a display device 2, a document data storage device 3, a control device 4, and a memory 5.

【0014】入力装置1 は、文字コード・制御コマン
ド・位置情報などを入力する装置で、例えばキーボード
1aとマウス1bおよびこれらを制御する装置で構成さ
れる。
The input device 1 is a device for inputting character codes, control commands, position information, etc., and is composed of, for example, a keyboard 1a, a mouse 1b, and devices for controlling these.

【0015】表示装置2 は、ユーザに入力を行なわせ
るためのプロンプトメッセージ、入力された文字列、あ
るいは検索の後に得られた文書データなどの表示を行な
うものであり、例えばVRAMと、このVRAMに格納
されたビット情報をドット列として表示するためのディ
スプレイからなっている。
[0015] The display device 2 displays prompt messages for prompting the user to input, input character strings, document data obtained after searching, and the like. It consists of a display that displays stored bit information as a dot string.

【0016】文書データ格納装置3 は、各文書データ
を格納するためのものであり、例えばハードディスク装
置などからなる。この文書格納装置3 における文書デ
ータの格納形式を図2に示す。1個の文書データは、文
書中のテキスト情報のみを含むテキストデータ部3aと
イメージデータ、フォーマット情報などを含む非テキス
トデータ部3bからなり、文書データ格納装置3 には
このような形式の文書データが複数個格納されている。 すなわち、複数の文書データ31,32,…,3n は
、それぞれテキストデータ部31a,32a,…,3n
aと非テキストデータ部31b,32b,…,3nbか
らなる形式で文書データ格納装置3 に格納されている
The document data storage device 3 is for storing each document data, and is composed of, for example, a hard disk device. The storage format of document data in this document storage device 3 is shown in FIG. One piece of document data consists of a text data section 3a containing only text information in the document and a non-text data section 3b containing image data, format information, etc. The document data storage device 3 stores document data in this format. Multiple items are stored. That is, the plurality of document data 31, 32,..., 3n are text data portions 31a, 32a,..., 3n, respectively.
The data is stored in the document data storage device 3 in a format consisting of a and non-text data portions 31b, 32b, . . . , 3nb.

【0017】制御装置4 は、例えばCPUなどからな
るもので、入力装置1 、表示装置2 、文書データ格
納装置3 、およびメモリ5とバスにより接続されてお
り、各装置の制御、装置間のデータの転送などの制御や
処理を行なうものである。
The control device 4 is composed of, for example, a CPU, and is connected to the input device 1 , display device 2 , document data storage device 3 , and memory 5 via a bus, and controls each device and transfers data between the devices. It performs control and processing such as transfer of data.

【0018】メモリ5 は、例えばダイナミックRAM
からなり、図3に示すように、制御装置4 が各種制御
や処理を実行するためのプログラムを格納するプログラ
ム部5aと、処理の際に必要なデータをバッファするバ
ッファ部5bとからなっている。さらに、プログラム部
5aは、メイン処理部5c、初期化部5d、キーワード
入力部5e、キーワードサーチ部5f、候補文書一覧表
示部5g、文書選択部5h、および文書表示部5iのモ
ジュールに分割され、また、データバッファ部5bは、
キーワード格納バッファ5j、キーワードサーチ用バッ
ファ5k、候補文書格納バッファ5l、候補文書数格納
バッファ5m、文字列格納バッファ5n、構文木格納バ
ッファ5p、および文骨格格納バッファ5qから構成さ
れる。以下、プログラム部5aとバッファ部5bの各部
の機能について説明する。
The memory 5 is, for example, a dynamic RAM.
As shown in FIG. 3, it consists of a program section 5a that stores programs for the control device 4 to execute various controls and processes, and a buffer section 5b that buffers data necessary for processing. . Further, the program section 5a is divided into the following modules: a main processing section 5c, an initialization section 5d, a keyword input section 5e, a keyword search section 5f, a candidate document list display section 5g, a document selection section 5h, and a document display section 5i. Further, the data buffer section 5b is
It is composed of a keyword storage buffer 5j, a keyword search buffer 5k, a candidate document storage buffer 5l, a candidate document number storage buffer 5m, a character string storage buffer 5n, a syntax tree storage buffer 5p, and a sentence skeleton storage buffer 5q. The functions of each part of the program section 5a and buffer section 5b will be explained below.

【0019】メイン処理部5cは、装置全体の処理の制
御を司どるものであり、プログラムの分岐、初期化部5
d以下の各モジュールの呼び出し(起動)などを行ない
、また、初期化部5dは、各ハードウェア装置の初期設
定およびデータバッファ部5bを構成する各バッファの
内容の初期化を行なう。
The main processing section 5c is in charge of controlling the processing of the entire device, and is responsible for program branching and initialization section 5.
In addition, the initialization unit 5d performs the initialization of each hardware device and initializes the contents of each buffer constituting the data buffer unit 5b.

【0020】キーワード入力部5eは、入力装置1 の
キーボード1aを介してユーザに検索の際にキーとなる
キーワードである文字列を入力させ、これをキーワード
格納バッファ5jに格納する。
[0020] The keyword input unit 5e allows the user to input a character string that is a key keyword during a search via the keyboard 1a of the input device 1, and stores this in the keyword storage buffer 5j.

【0021】キーワードサーチ部5fは、文書データ格
納装置3 に格納されている文書データを格納されてい
る順序で読み出してキーワードサーチ用バッファ5kに
格納し、キーワード格納バッファ5iに格納されている
文字列を含む文書データをキーワードサーチ用バッファ
5k上で捜しだす。この検索の結果、得られる複数の文
書データを候補文書データとして候補文書格納バッファ
5lに格納する。
The keyword search section 5f reads the document data stored in the document data storage device 3 in the order in which they are stored, stores it in the keyword search buffer 5k, and searches the character strings stored in the keyword storage buffer 5i. The document data containing the keyword search buffer 5k is searched for. A plurality of pieces of document data obtained as a result of this search are stored as candidate document data in the candidate document storage buffer 5l.

【0022】候補文書一覧表示部5gは、候補文書格納
バッファ5lに格納されている各候補文書データの内容
を表わす表現(以下、文書内容表現と称す)を表示装置
2 の表示画面上に列挙表示する。すなわち、文書内容
表現は、候補文書一覧の要素として表示画面上に列挙表
示される。
The candidate document list display section 5g displays, on the display screen of the display device 2, expressions representing the contents of each candidate document data stored in the candidate document storage buffer 5l (hereinafter referred to as document content expressions). do. That is, the document content expressions are displayed as an enumeration on the display screen as elements of the candidate document list.

【0023】文書選択部5hは、すでに候補文書一覧表
示部5gによって列挙表示されている文書内容表現のい
ずれか一つをユーザに選択させる。
The document selection section 5h allows the user to select one of the document content expressions already listed and displayed by the candidate document list display section 5g.

【0024】文書表示部5iは、文書選択部5hによっ
て選択された文書内容表現に対応する文書データを候補
文書格納バッファ5lより読み出し、テキスト・図表な
どを表示装置2 の表示画面上に表示する。
The document display section 5i reads document data corresponding to the document content representation selected by the document selection section 5h from the candidate document storage buffer 5l, and displays text, charts, etc. on the display screen of the display device 2.

【0025】候補文書数格納バッファ5mは、候補文書
格納バッファ5lに含まれる文書データ数を格納するバ
ッファである。
The candidate document number storage buffer 5m is a buffer that stores the number of document data included in the candidate document storage buffer 5l.

【0026】さらに、文字列格納バッファ5nはキーワ
ードを含む一文単位の文字列を格納するバッファ、構文
木格納バッファ5pは文章解析処理の一つである構文解
析の結果を格納するバッファ、また、文骨格データ格納
バッファ5qは文の骨格を表わす文字列を格納するバッ
ファである。
Further, the character string storage buffer 5n is a buffer for storing character strings containing keywords in units of sentences, and the syntax tree storage buffer 5p is a buffer for storing the results of syntactic analysis, which is one of the text analysis processes. The skeleton data storage buffer 5q is a buffer that stores character strings representing the skeleton of a sentence.

【0027】次に、上記構成の文書検索装置の具体的な
処理動作について、図4の処理の流れを示すフローチャ
ートを参照し説明する。
Next, specific processing operations of the document retrieval apparatus having the above configuration will be explained with reference to a flowchart showing the flow of processing in FIG.

【0028】処理全体の制御はメイン処理部5cが司ど
っており、メイン処理部5cはまず初期化部5dを起動
する。 起動された初期化部5dはバッファ部5bのキーワード
格納バッファ5j、キーワードサーチ用バッファ5kお
よび候補文書格納バッファ5lの初期化、候補文書数格
納バッファ5mの内容のクリア、入力装置1 と表示装
置2 の初期設定などを行なう。さらに、コマンド入力
のために必要な各種のアイコンの表示も行なう。(ステ
ップS1)。
The entire process is controlled by the main processing section 5c, which first starts up the initialization section 5d. The activated initialization unit 5d initializes the keyword storage buffer 5j, keyword search buffer 5k, and candidate document storage buffer 5l of the buffer unit 5b, clears the contents of the candidate document number storage buffer 5m, and input device 1 and display device 2. Perform initial settings, etc. Furthermore, various icons necessary for command input are displayed. (Step S1).

【0029】続いて、メイン処理部5cはキーワード入
力部5eを起動する。起動されたキーワード入力部5e
はユーザに入力装置1 のキーボード1aを介してコー
ド列からなるキーワードを一般に複数個入力させる。入
力されたコード列に対して、カナ漢字変換などの処理を
施し、得られた文字列をキーワード格納バッファ5jに
格納する。キーワードが入力されキーワード格納バッフ
ァ5jに格納された後、処理はステップS3に移行する
。(ステップS2)。
Next, the main processing section 5c activates the keyword input section 5e. Activated keyword input section 5e
Generally, the user inputs a plurality of keywords each consisting of a code string via the keyboard 1a of the input device 1. Processing such as kana-kanji conversion is performed on the input code string, and the obtained character string is stored in the keyword storage buffer 5j. After the keyword is input and stored in the keyword storage buffer 5j, the process moves to step S3. (Step S2).

【0030】ステップS3ではキーワードサーチ部5f
が起動される。起動されたキーワードサーチ部5fは、
文書データ格納装置3 に格納されている文書データを
格納されている順序、例えば最初に文書データ31を読
み出し、キーワードサーチ用バッファ5kに格納する。 さらに、キーワードサーチ部5fは、キーワードサーチ
用バッファ5kに格納されいる文書データ31のテキス
トデータ部31a を参照し、この中にキーワード格納
バッファ5jに格納されている複数のキーワードのいず
れかの文字列と同一の文字列が含まれているか否かを調
べる。含まれている場合には、キーワードサーチ用バッ
ファ5kに格納されいる文書データ31全体を候補文書
格納バッファ5lに候補文書として格納し、候補文書数
格納バッファ5mの内容を“1”増加させる。続いて、
キーワードサーチ部5fは、文書データ32から文書デ
ータ3nまでの文書データに対して上記した一連の処理
を順次実行する。すなわち、文書データ格納装置3 に
格納されている全ての文書データに対して上記処理を実
行する。(ステップS3)。
[0030] In step S3, the keyword search section 5f
is started. The activated keyword search section 5f is
The document data stored in the document data storage device 3 is read out in the order in which it is stored, for example, the document data 31 is read out first and stored in the keyword search buffer 5k. Further, the keyword search section 5f refers to the text data section 31a of the document data 31 stored in the keyword search buffer 5k, and searches the text data section 31a for any one of the plurality of keywords stored in the keyword storage buffer 5j. Check to see if it contains the same string as . If it is included, the entire document data 31 stored in the keyword search buffer 5k is stored as a candidate document in the candidate document storage buffer 5l, and the content of the candidate document number storage buffer 5m is increased by "1". continue,
The keyword search unit 5f sequentially executes the above-described series of processes on the document data 32 to 3n. That is, the above process is executed for all document data stored in the document data storage device 3. (Step S3).

【0031】上記ステップS3における処理が終了する
と、候補文書格納バッファ5lの内容が参照され、ステ
ップS2で入力されたキーワードをそのテキストデータ
に含む文書データが存在するか否か、すなわち、候補文
書が存在するか否かが調べられる。条件が満たされなか
った(候補文書が存在しない)場合には処理はステップ
S5に、また、条件が満たされた(候補文書が存在する
)場合には処理はステップS6にそれぞれ移行する。(
ステップS4)。
[0031] When the process in step S3 is completed, the contents of the candidate document storage buffer 5l are referenced to determine whether there is document data that includes the keyword input in step S2 in its text data, that is, if the candidate document is You can check whether it exists or not. If the condition is not met (no candidate document exists), the process proceeds to step S5, and if the condition is met (candidate document exists), the process proceeds to step S6. (
Step S4).

【0032】ステップS5においては、該当する文書が
見つからなかった旨を示すメッセージを表示装置2 の
表示画面上に表示した後、処理をステップS2に戻して
ユーザに新たなキーワードを入力させ、上記処理を繰り
返す。
[0032] In step S5, a message indicating that the corresponding document was not found is displayed on the display screen of the display device 2, and then the process returns to step S2 to prompt the user to enter a new keyword, and the process described above is continued. repeat.

【0033】ステップS6においては、候補文書一覧表
示部5gが起動され、候補文書一覧表示部5gは候補文
書格納バッファ5lに格納されている各文書データのテ
キストデータ部の内容を参照して、文書ごとに候補文書
一覧の要素としてその文書内容表現を表示する。文書内
容表現は文字列から構成されており、各文書内容表現は
後の処理のために表示装置2 の画面上の矩形領域の内
部に格納し、この矩形の輪郭を表示する。このステップ
S6は、ステップS61 〜S65 の5ステップから
なっており、以下、ステップS6における処理について
詳述する。
In step S6, the candidate document list display unit 5g is activated, and the candidate document list display unit 5g refers to the contents of the text data portion of each document data stored in the candidate document storage buffer 5l, and displays the document. For each document, the document content representation is displayed as an element of the candidate document list. The document content representations are composed of character strings, and each document content representation is stored within a rectangular area on the screen of the display device 2 for later processing, and the outline of this rectangle is displayed. This step S6 consists of five steps, steps S61 to S65, and the processing in step S6 will be described in detail below.

【0034】まず、候補文書格納バッファ5lに格納さ
れている文書データのテキストデータ部の内容を参照し
て、キーワード格納バッファ5iに格納されている、キ
ーワードを含む文字列からなる箇所を抽出して文字列格
納バッファ5nに格納する。ここで、抽出される単位は
文、つまりテキストデータ中で句点(「。」)で区切ら
れる単位である。なお、一つの候補文書データのテキス
ト部にキーワードを含む箇所が複数存在した場合には、
その最初に出現したものを採用する。候補文書格納バッ
ファ5lに格納されている図5に示す原テキスト10か
ら、キーワードとして「ワークステーション」という語
で抽出した文字列11の例を図6に示す。この抽出結果
は、文字列格納バッファ5nに格納される。(ステップ
S61 )。
First, by referring to the contents of the text data portion of the document data stored in the candidate document storage buffer 5l, a portion consisting of a character string containing a keyword stored in the keyword storage buffer 5i is extracted. Store in character string storage buffer 5n. Here, the unit to be extracted is a sentence, that is, a unit separated by a period (“.”) in the text data. Note that if there are multiple locations that include keywords in the text part of one candidate document data,
The first one that appears is adopted. FIG. 6 shows an example of a character string 11 extracted with the word "workstation" as a keyword from the original text 10 shown in FIG. 5 stored in the candidate document storage buffer 5l. This extraction result is stored in the character string storage buffer 5n. (Step S61).

【0035】続いて、文字列格納バッファ5nに格納さ
れている抽出された文字列に対して構文解析を行なう。 すなわち、まず抽出された文字列11を、図7に示すよ
うに、主語、述語、目的語、補語、および修飾語に分解
し、リスト形式データである構文木情報を得る。得られ
た構文木情報を構文木格納バッファ5pに格納する。図
6に示す抽出された文字列11に対し構文解釈を行なっ
た結果、構文木格納バッファ5pに格納される構文木情
報12内容の例を図7に示す。(ステップS62 )。
Next, the extracted character string stored in the character string storage buffer 5n is analyzed. That is, first, the extracted character string 11 is decomposed into a subject, a predicate, an object, a complement, and a modifier, as shown in FIG. 7, to obtain syntax tree information that is list-format data. The obtained syntax tree information is stored in the syntax tree storage buffer 5p. FIG. 7 shows an example of the contents of the syntax tree information 12 stored in the syntax tree storage buffer 5p as a result of performing syntax interpretation on the extracted character string 11 shown in FIG. (Step S62).

【0036】構文木情報の構文木格納バッファ5pへの
格納後、構文木格納バッファ5p中の構文木情報が参照
され、構文木における主種動詞およびこの主動詞に直結
する各語句が取り出されて、これらを結合した文骨格デ
ータ13が生成される。生成された文骨格データは文骨
格データ格納バッファ5qに格納される。図7に示す構
文木情報から生成され文骨格データ格納バッファ5qに
格納される文骨格データ13の例を図8に示す。このよ
うにして生成された文骨格データは候補文書データから
抽出された文字列に比べ、短く表現され、簡略化された
文となる。 (ステップS63 )。
After the syntax tree information is stored in the syntax tree storage buffer 5p, the syntax tree information in the syntax tree storage buffer 5p is referred to, and the main species verb in the syntax tree and each phrase directly connected to this main verb are extracted. , sentence skeleton data 13 is generated by combining these. The generated sentence skeleton data is stored in the sentence skeleton data storage buffer 5q. FIG. 8 shows an example of the sentence skeleton data 13 generated from the syntax tree information shown in FIG. 7 and stored in the sentence skeleton data storage buffer 5q. The sentence skeleton data generated in this way is expressed as a shorter and simplified sentence than the character string extracted from the candidate document data. (Step S63).

【0037】さらに、文骨格データ格納バッファ5qの
内容の文字列が表示装置2 の画面上の矩形領域の内部
に候補文書の文書内容表現として表示され、この矩形の
輪郭が表示される。(ステップS64 、ステップS6
5)。
Furthermore, the character string of the contents of the sentence skeleton data storage buffer 5q is displayed as a document content representation of the candidate document within a rectangular area on the screen of the display device 2, and the outline of this rectangle is displayed. (Step S64, Step S6
5).

【0038】上記したように、候補文書一覧表示部5g
が起動されると、ステップS61 〜ステップS65 
の処理を候補文書格納バッファ5lに格納されている全
ての文書データに対して各文書データごとに実行する。 画面上において、各文書に対応する文書内容表現を表示
する順序は、候補文書文書格納バッファ5lに格納され
ている順序に従って行なわれる。このようにして表示装
置2 の画面上に表示された候補文書の一覧14の例を
図9に示す。
As described above, the candidate document list display section 5g
is started, steps S61 to S65
The above process is executed for each document data stored in the candidate document storage buffer 5l. The order in which document content expressions corresponding to each document are displayed on the screen is performed according to the order stored in the candidate document storage buffer 5l. FIG. 9 shows an example of the list 14 of candidate documents displayed on the screen of the display device 2 in this manner.

【0039】ステップS6における候補文書一覧の表示
の処理が終了すると、文書選択部5hが起動される。文
書選択部5hが起動されると、入力装置1 のマウス1
bを介してユーザによる表示装置2 の画面上の位置入
力が行なわれる。ここで、ユーザによって指定された位
置が、ステップS1で表示されたアイコンと同様の終了
コマンドを表すアイコンの内部であれば、一連の検索処
理が終了する。 (ステップS7、ステップS8)。
When the process of displaying the list of candidate documents in step S6 is completed, the document selection section 5h is activated. When the document selection section 5h is activated, the mouse 1 of the input device 1
The user inputs a position on the screen of the display device 2 through the arrow b. Here, if the position specified by the user is inside an icon representing an end command similar to the icon displayed in step S1, the series of search processes ends. (Step S7, Step S8).

【0040】また、ユーザによって指定された位置が、
図9に示す文書内容表現を含む画面上の矩形領域の内部
であれば、その矩形が画面上で何番目のものかが調べら
れ、対応する文書データが候補文書格納バッファ5lか
ら読み出されるとともに文書表示部5iが起動される。 文書表示部5iが起動されると、読み出された文書デー
タを構成するテキストデータおよびイメージデータなど
が画面上に表示される。文書データの表示処理が終わる
と、制御はステップS7に戻り、新たな文書データを表
示すべく、候補文書一覧に表示されている文書の選択が
再度行なわれる。なお、ユーザによって指定された位置
が、文書内容表現を含む画面上の矩形領域の外側である
場合には、ユーザに正しい位置を指定させるために、ス
テップS7に戻り、再度位置入力が行なわれる。(ステ
ップS9、ステップS10 )。
[0040] Furthermore, if the position specified by the user is
If it is inside a rectangular area on the screen that includes the document content representation shown in FIG. The display section 5i is activated. When the document display section 5i is activated, text data, image data, etc. that constitute the read document data are displayed on the screen. When the document data display processing is completed, control returns to step S7, and the documents displayed in the candidate document list are selected again in order to display new document data. Note that if the position specified by the user is outside the rectangular area on the screen that includes the document content representation, the process returns to step S7 and the position is input again in order to have the user specify the correct position. (Step S9, Step S10).

【0041】なお、上記実施例では候補文書一覧を表示
する際、一文単位で構文解析を行ないこれを候補文書一
覧の要素としたが、これに限ることはなく、一つの段落
に含まれる複数の文に構文解析を行ない、その結果をひ
とまとめにして候補文書一覧の要素としてもよい。
[0041] In the above embodiment, when displaying a list of candidate documents, syntax analysis is performed on a sentence-by-sentence basis and this is used as an element of the list of candidate documents. However, the present invention is not limited to this. A sentence may be parsed and the results may be grouped together as elements of a list of candidate documents.

【0042】また、上記実施例では構文解析により候補
文書一覧の要素として文骨格データを表示するようにし
たが、これに限ることはなく、他の文章解析処理により
解析された解析データを表示するようにしてもよい。例
えば、文字列格納バッファ5nに格納されているキーワ
ードを含む文字列に対して形態素解析を実行し、該当す
るキーワードおよびその前後の一定語数、例えば2語ま
で含む領域を抽出する。このとき、付属語(例えば、の
、を、に等)は語数としてカウントせず、また、対象と
なる文字列中で該当するキーワードの前方に上記条件を
満たす語が所定数以上存在しなかった場合には、抽出す
る文の先頭を対象とする文の先頭とする。図6に示す候
補文書データから抽出されたキーワードを含む文字列1
1に対して形態素解析を実行した文字列15の例を図1
0に示す。この例の場合にも、構文解析を実行した場合
と同様に、候補文書データから抽出された文字列に比べ
、キーワードを含んで簡略化された文となる。要するに
、キーワードを含む文字列、すなわち、候補文を簡略化
して短く表現された文に変換する文章解析処理方法であ
れば、いかなる文章解析方法であってもよい。
Furthermore, in the above embodiment, sentence skeleton data is displayed as an element of the candidate document list through syntax analysis, but the present invention is not limited to this, and analysis data analyzed through other sentence analysis processes may be displayed. You can do it like this. For example, morphological analysis is performed on a character string containing a keyword stored in the character string storage buffer 5n, and a region containing the relevant keyword and a certain number of words, for example up to two words, before and after the keyword is extracted. At this time, attached words (for example, の, wo, ni, etc.) are not counted as the number of words, and there are no more than a predetermined number of words that meet the above conditions before the corresponding keyword in the target character string. In this case, the beginning of the sentence to be extracted is the beginning of the target sentence. Character string 1 containing keywords extracted from candidate document data shown in FIG.
Figure 1 shows an example of character string 15 for which morphological analysis was performed on 1.
0. In this example, as in the case of performing syntax analysis, the resulting sentence is simplified and includes keywords compared to the character string extracted from the candidate document data. In short, any text analysis method may be used as long as it simplifies a character string containing a keyword, that is, a candidate sentence, and converts it into a shortened sentence.

【0043】また、本発明は上記実施例に限定されるも
のではなく、本発明の要旨を逸脱しない範囲で種々変形
可能であることは勿論である。
Further, the present invention is not limited to the above-mentioned embodiments, and it goes without saying that various modifications can be made without departing from the gist of the present invention.

【0044】[0044]

【発明の効果】以上詳述したように、本発明の文書検索
装置によれば、キーワードを用いて検索して得た候補文
書の一覧表の要素として、テキスト中の指定されたキー
ワードを含む箇所を列挙表示する際に、簡略化された文
の骨格を表示することにより、一度に表示画面上に表示
できる候補文書の数を増加することができるので、画面
のスクロール操作などの回数を減少でき、操作性の向上
が図れる。
As described in detail above, according to the document search device of the present invention, a portion of text that includes a specified keyword is used as an element of a list of candidate documents obtained by searching using a keyword. By displaying a simplified sentence skeleton when enumerating documents, you can increase the number of candidate documents that can be displayed on the display screen at once, reducing the number of screen scroll operations. , the operability can be improved.

【0045】また、候補文書の一覧表の要素として、テ
キスト中のキーワードを含む簡略化された文の骨格を表
示することにより、候補として与えられた文書が目的と
するものかどうかの判定を瞬時にかつ正確に行なうこと
ができ、その結果、文書データベース中から目的とする
ものを検索する際に要するユーザの労力を著しく削減す
ることが可能になるなどその実用的効果は多大である。
[0045] Furthermore, by displaying the skeleton of a simplified sentence that includes keywords in the text as an element of the list of candidate documents, it is possible to instantly determine whether a document given as a candidate is the desired one. This can be done quickly and accurately, and as a result, it has great practical effects, such as making it possible to significantly reduce the user's effort required to search for a desired item in a document database.

【図面の簡単な説明】[Brief explanation of the drawing]

【図1】本発明の一実施例の文書検索装置の構成を示す
ブロック図である。
FIG. 1 is a block diagram showing the configuration of a document search device according to an embodiment of the present invention.

【図2】文書データ格納装置内における文書データの格
納形式を示した図である。
FIG. 2 is a diagram showing a storage format of document data in a document data storage device.

【図3】メモリ装置内部の構成を示した図である。FIG. 3 is a diagram showing the internal configuration of the memory device.

【図4】処理の流れの概略を示したフローチャートであ
る。
FIG. 4 is a flowchart showing an outline of the flow of processing.

【図5】原テキストデータの例を示す図である。FIG. 5 is a diagram showing an example of original text data.

【図6】抽出された候補文の例を示す図である。FIG. 6 is a diagram showing an example of extracted candidate sentences.

【図7】構文木格納バッファの内容の一例を示す図であ
る。
FIG. 7 is a diagram showing an example of the contents of a syntax tree storage buffer.

【図8】文骨格データ格納バッファの内容の一例を示し
た図である。
FIG. 8 is a diagram showing an example of the contents of a sentence skeleton data storage buffer.

【図9】文書ごとに文書内容表現が表示されている例を
示す図である。
FIG. 9 is a diagram showing an example in which document content expressions are displayed for each document.

【図10】他の実施例を示す図である。FIG. 10 is a diagram showing another embodiment.

【符号の説明】[Explanation of symbols]

1 …入力装置(キーワード入力手段)3 …文書デー
タ格納装置(文書データ格納手段)5f…キーワードサ
ーチ部(キーワードサーチ手段)5g…候補文書一覧表
示部(文書一覧表示手段)5h…文書選択部(文書選択
手段) 5i…文書表示部(文書表示手段)
1... Input device (keyword input means) 3... Document data storage device (document data storage means) 5f... Keyword search section (keyword search means) 5g... Candidate document list display section (document list display means) 5h... Document selection section ( Document selection means) 5i...Document display section (document display means)

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】  テキスト・データや図表データなどか
らなる文書データを格納する文書データ格納手段と、こ
の文書データ格納手段に格納されている文書データを検
索するキーワードを入力するキーワード入力手段と、こ
のキーワード入力手段から入力されたキーワードを含む
文書を上記文書データ格納手段の中から検索するキーワ
ードサーチ手段とを備えた文書検索装置において、上記
各文書データごとに上記キーワードサーチ手段によって
抽出された上記キーワードを含む候補文を格納する格納
手段と、この格納手段に格納されている候補文に対し文
章解析処理を施し上記キーワードを含む簡略化された文
を候補文書リストの要素として表示する候補文書一覧表
示手段と、この候補文書一覧表示手段で表示された文書
一覧における上記要素の一つを指定する文書選択手段と
、この文書選択手段で指定された文書に対応する文書デ
ータの内容を表示する文書表示手段とを具備したことを
特徴とする文書検索装置。
Claim 1: Document data storage means for storing document data consisting of text data, diagram data, etc.; keyword input means for inputting keywords for searching document data stored in the document data storage means; and keyword search means for searching the document data storage means for a document containing the keyword input from the keyword input means, the keyword extracted by the keyword search means for each document data. storage means for storing candidate sentences containing the keywords; and a candidate document list display that performs sentence analysis processing on the candidate sentences stored in the storage means and displays simplified sentences containing the above keywords as elements of the candidate document list. means, a document selection means for specifying one of the above elements in the document list displayed by the candidate document list display means, and a document display for displaying the contents of document data corresponding to the document specified by the document selection means. A document retrieval device characterized by comprising: means.
JP3069319A 1991-03-08 1991-03-08 Document search method and apparatus Expired - Lifetime JP3056810B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3069319A JP3056810B2 (en) 1991-03-08 1991-03-08 Document search method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3069319A JP3056810B2 (en) 1991-03-08 1991-03-08 Document search method and apparatus

Publications (2)

Publication Number Publication Date
JPH04281558A true JPH04281558A (en) 1992-10-07
JP3056810B2 JP3056810B2 (en) 2000-06-26

Family

ID=13399119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3069319A Expired - Lifetime JP3056810B2 (en) 1991-03-08 1991-03-08 Document search method and apparatus

Country Status (1)

Country Link
JP (1) JP3056810B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207891A (en) * 1997-01-17 1998-08-07 Fujitsu Ltd Document summarizing device and its method
JPH10340271A (en) * 1997-06-09 1998-12-22 Fuji Xerox Co Ltd Document abstract preparation device, and storage medium where document abstract generation program is recorded
JP2006178978A (en) * 2004-12-21 2006-07-06 Palo Alto Research Center Inc System for using and generating user interest reflection type search result designator

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207891A (en) * 1997-01-17 1998-08-07 Fujitsu Ltd Document summarizing device and its method
JPH10340271A (en) * 1997-06-09 1998-12-22 Fuji Xerox Co Ltd Document abstract preparation device, and storage medium where document abstract generation program is recorded
JP2006178978A (en) * 2004-12-21 2006-07-06 Palo Alto Research Center Inc System for using and generating user interest reflection type search result designator

Also Published As

Publication number Publication date
JP3056810B2 (en) 2000-06-26

Similar Documents

Publication Publication Date Title
US5982365A (en) System and methods for interactively generating and testing help systems
JP2937520B2 (en) Document search device
JP2937521B2 (en) Document search device
EP0118187B1 (en) Menu-based natural language understanding system
JPH0395673A (en) Method and device for setting link between sentences
JP3056810B2 (en) Document search method and apparatus
JPH08287088A (en) Method and device for information retrieval
JP2947686B2 (en) Search result display method in translation support system
JP2785692B2 (en) Dictionary search and display device
JPH08137892A (en) Method and device for document retrieval
JP3710463B2 (en) Translation support dictionary device
JP3498635B2 (en) Information retrieval method and apparatus, and computer-readable recording medium
JPH06195386A (en) Data retriever
JPH05257980A (en) Document retrieving device
JP2004334690A (en) Character data inputting/outputting device and method, character data inputting/outputting program, and computer-readable recording medium
JPH05181912A (en) Document retrieving device
JPH08153112A (en) Device and method for document preparation
JPH06208584A (en) Document retrieving device
JPH04169971A (en) Document retrieving device
JP3537260B2 (en) Linked document search and display system
JPS63262750A (en) Data input system
JPH08115336A (en) Multimedia processor
JPH08297659A (en) Character string conversion processing system
JPH0528129A (en) Word processor
JPH0256673A (en) Kana and kanji converting device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080414

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090414

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090414

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100414

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100414

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110414

Year of fee payment: 11

EXPY Cancellation because of completion of term