JPH09305626A - Retrieval document preparing device, retrieval document storage media, device and method for retrieving document - Google Patents

Retrieval document preparing device, retrieval document storage media, device and method for retrieving document

Info

Publication number
JPH09305626A
JPH09305626A JP8124190A JP12419096A JPH09305626A JP H09305626 A JPH09305626 A JP H09305626A JP 8124190 A JP8124190 A JP 8124190A JP 12419096 A JP12419096 A JP 12419096A JP H09305626 A JPH09305626 A JP H09305626A
Authority
JP
Japan
Prior art keywords
document
search
document data
data
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8124190A
Other languages
Japanese (ja)
Inventor
Kazuyo Kuroda
和代 黒田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP8124190A priority Critical patent/JPH09305626A/en
Publication of JPH09305626A publication Critical patent/JPH09305626A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To improve selectivity at the time of retrieval while reducing the burden of a user by storing words contained in document data correspondently to the relation of their positions by storing inputted document data, analyzing these data, segmenting them into words and storing the segmented words correspondently to the relation of positions of these words. SOLUTION: The document data are stored in an external storage device 3 as a retrieval data base for each document, morpheme analysis is performed, the words contained in these data and its appearance frequency are investigated and extracted for each document, and a retrieval word data base is prepared and stored in an external storage device 3. When a user inputs a retrieval keyword from a user input device 6, a retrieval part prepares a retrieval expression and retrieves the document data by using that expression. Retrieved result data are successively analyzed by an analytic part. The analytic part judges the presence/absence of document data to be referred to in the retrieval data base and when there is no data, processing is finished. When there are such data, the presence/absence of the word corresponding to the retrieval keyword among wrods appearing in the document data is judged and on the stage when the correspondent word is completely referred to, the degree of importance is calculated.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、検索文書作成装
置、文書記憶メディア、文書検索装置及び文書検索方法
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a search document creation device, a document storage medium, a document search device and a document search method.

【0002】[0002]

【従来の技術】従来の文書データを記憶している検索デ
ータベースにおいては、この検索データベースに対する
検索キーワードによる検索により得られた検索結果が大
量に存在する場合でも、その検索結果をランダムに表示
するか、予め格納するときに分類した項目に従って分類
表示していた。
2. Description of the Related Art In a conventional search database that stores document data, is it possible to randomly display search results even if there are a large number of search results obtained by searching the search database with a search keyword? The items are classified and displayed according to the items classified when they are stored in advance.

【0003】[0003]

【発明が解決しようとする課題】しかしながら上記した
従来技術においては、検索結果を表示する方法が固定的
であり、ユーザの指定した基準で検索結果を表示するこ
とができず、ユーザが大量の検索結果の中から必要なも
のを選択する際の負担が大きいという課題があった。
However, in the above-mentioned prior art, the method of displaying the search results is fixed, and the search results cannot be displayed according to the criteria specified by the user, so that the user cannot search a large amount. There was a problem that the burden was heavy when selecting the necessary one from the results.

【0004】そこで、本発明は上記の課題を解決するた
めになされたものであり、文書データに含まれる単語を
その位置関係に対応付けて記憶させることができる検索
文書作成装置、文書データに含まれる単語の出現位置の
情報を検索用キーワードに対応付けて記憶する検索文書
記憶メディア及びユーザーの負担を軽減させつつ所望す
る文書データの検索時の選択性を向上させた文書検索装
置及び文書検索方法を提供することを目的とする。
Therefore, the present invention has been made in order to solve the above-mentioned problems, and it is included in a search document creation device and document data capable of storing words included in document data in association with their positional relationship. Document storage device and document search method for improving the selectivity at the time of searching for desired document data while reducing the burden on the user and the search document storage medium that stores the information of the appearance position of the word to be associated with the search keyword The purpose is to provide.

【0005】[0005]

【課題を解決するための手段】請求項1記載の検索文書
作成装置は、文書データを入力する入力手段と、入力さ
れる文書データを記憶する手段と、入力される文書デー
タを解析して単語に切り分ける手段と、切り分けた単語
とその単語の位置関係とを対応付けて記憶する手段とを
有することを特徴とするものである。
According to a first aspect of the present invention, there is provided a search document creating apparatus for inputting document data, storing input document data, and analyzing the input document data to obtain words. And a means for storing the divided word and the positional relationship of the word in association with each other.

【0006】請求項2記載の検索文書記憶メディアは、
複数の文書データの各文書データから取り出された複数
の単語を検索用キーワードとし、前記各文書データと対
応付けて記憶される文書記憶メディアであって、前記各
検索用キーワードの文書データ中の出現位置の情報を各
検索用キーワードに対応付けて記憶されることを特徴と
するものである。
A search document storage medium according to a second aspect is
A document storage medium in which a plurality of words extracted from each document data of a plurality of document data are used as search keywords and stored in association with each of the document data, and the occurrence of each search keyword in the document data It is characterized in that the position information is stored in association with each search keyword.

【0007】請求項3記載の発明は、複数の文書データ
の各文書データから取り出された複数の単語を検索用キ
ーワードとし、前記各文書データと対応付けて記憶さ
れ、更に前記各検索用キーワードの文書データ中の出現
位置の情報を各検索用キーワードに対応付けて記憶され
た文書記憶メディアから所望の文書データを取り出すた
めの文書検索装置であって、複数のキーワードによる検
索式を入力する手段と、入力された検索式に基づいて前
記文書記憶メディアを検索する手段と、この検索結果の
各文書データ中の前記キーワードの位置情報に基づいて
各文書データの文書重要度を設定する手段と、各文書デ
ータの文書重要度に従って、検索結果を表示する手段と
を備えたことを特徴とするものである。
According to a third aspect of the present invention, a plurality of words extracted from each document data of a plurality of document data are used as search keywords, stored in association with each of the document data, and further stored in each of the search keywords. A document search device for extracting desired document data from a document storage medium in which information on appearance positions in document data is stored in association with each search keyword, and means for inputting a search expression using a plurality of keywords. A means for searching the document storage medium based on the input search formula, a means for setting the document importance of each document data based on the position information of the keyword in each document data of the search result, And a means for displaying a search result according to the document importance of the document data.

【0008】請求項4記載の発明は、文書データを記憶
する手段と、文書データを解析して単語に切り分ける手
段と、切り分けた単語とその単語の位置関係とを対応付
けて記憶する手段と、キーワードによる検索式を入力す
る手段と、入力された検索式に基づいて前記文書記憶メ
ディアをキーワード検索する手段と、この検索結果の各
文書データの位置関係に基づいて各文書データの文書重
要度を設定する手段と、各文書データの文書重要度に従
って、検索結果を表示する手段とを備えたことを特徴と
するものである。
According to a fourth aspect of the invention, means for storing the document data, means for analyzing the document data and dividing it into words, and means for storing the divided words and the positional relationship of the words in association with each other, A means for inputting a search expression by a keyword, a means for searching the document storage medium by a keyword based on the input search expression, and a document importance of each document data based on a positional relationship of each document data of the search result. It is characterized in that it is provided with means for setting and means for displaying a search result according to the document importance of each document data.

【0009】請求項5記載の発明は、複数の文書データ
の各文書データから取り出された複数の単語を検索用キ
ーワードとし、前記各文書データと対応付けて記憶さ
れ、更に前記各検索用キーワードの文書データ中の出現
位置の情報を各検索用キーワードに対応付けて記憶され
た文書記憶メディアから所望の文書データを取り出す文
書検索方法であって、複数のキーワードによる検索式を
入力し、この検索式に基づいて検策し得られた各文書デ
ータ中の前記各キーワードの位置情報を基に、各文書デ
ータの文書重要度を設定し、この文書重要度に従って、
各文書データの検索結果を表示することを特徴とするも
のである。
According to a fifth aspect of the present invention, a plurality of words extracted from each document data of a plurality of document data is used as a search keyword, stored in association with each of the document data, and further stored in each of the search keywords. A method for retrieving desired document data from a document storage medium in which information of appearance positions in document data is stored in association with each retrieval keyword, in which a retrieval formula with a plurality of keywords is input Based on the position information of each of the keywords in each document data obtained by inspection based on, set the document importance of each document data, according to the document importance,
It is characterized in that the search result of each document data is displayed.

【0010】上述した請求項1記載の発明の検索文書作
成装置の構成によれば、文書データから切り分けた単語
とその単語の位置関係とを対応付けて記憶することがで
き、検索に便利な検索文書を作成することができる。
According to the configuration of the search document creating apparatus of the invention described in claim 1, the word cut out from the document data and the positional relationship of the word can be stored in association with each other, which is convenient for the search. Can create documents.

【0011】請求項2記載の発明の検索文書記憶メディ
アの構成によれば、各検索用キーワートの文書データ中
の出現位置の情報を各検索用キーワードに対応付けて記
憶するので、検索用キーワードを用いた検索に便利な検
索文書記憶メディアを提供することができる。
According to the configuration of the search document storage medium of the invention described in claim 2, since the information of the appearance position in the document data of each search key wort is stored in association with each search keyword, the search keyword is stored. It is possible to provide a search document storage medium that is convenient for the used search.

【0012】請求項3及び4記載の発明の構成によれ
ば、文書データに対する検索結果データが大量に得られ
たときに、検索結果データはランダムな順番で表示する
のではなく、検索用キーワードの位置関係に応じた文書
重要度に従って秩序だって表示される。これにより、ユ
ーザに複数の検索結果から選択する基準を与ることがで
き負担が軽減される。
According to the third and fourth aspects of the present invention, when a large amount of search result data for document data is obtained, the search result data are not displayed in a random order, but instead of the search keyword data. It is displayed in an orderly manner according to the document importance according to the positional relationship. As a result, the user can be given a criterion for selecting from a plurality of search results, and the burden is reduced.

【0013】請求項5記載の発明の構成によれば、複数
のキーワードによる検索式を入力することで、文書デー
タの検索結果が各キーワードの位置情報に応じた文書重
要度に従って秩序だって表示されるので、これにより、
ユーザに複数の検索結果から選択する基準を与ることが
でき負担が軽減される。
According to the fifth aspect of the present invention, by inputting a search expression using a plurality of keywords, the search results of the document data are displayed in order according to the document importance according to the position information of each keyword. So this
The user can be given a criterion for selecting from a plurality of search results, and the burden is reduced.

【0014】[0014]

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して詳述する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0015】図1は、本発明の検索文書作成装置又は文
書検索装置を構成する装置の実施の形態を示したブロッ
ク図である。
FIG. 1 is a block diagram showing an embodiment of an apparatus constituting the retrieval document creating apparatus or the document retrieval apparatus of the present invention.

【0016】この装置は、キーボード及びマウス等から
なり、文書検索のための文書データ等を入力したり、情
報取得操作を行うための各種指示データ等を入力する入
力装置1と、文書データを解析したり、詳細は後述する
が検索結果データ中の単語の文書重要度を求めたり単語
の出現頻度を調べて文書データのソート等を行う等、装
置全体の制御を行う制御装置3と、検索データベース等
を記憶しておくハードディスク等からなる文書記憶メデ
ィアを構成する外部記憶装置3と、入力された文書デー
タの表示や情報取得操作のためのメニュー画面、及び検
索結果を表示するカラーCRT等からなる表示装置4
と、水晶発振器等からなり、一定時間毎に割り込み処理
を行い、現時刻をメモリ部11中の日時バッファ26に
格納する時計装置5と、ユーザが検索キーワード等を入
力するユーザ端末装置6と、このユーザ端末装置6と前
記制御装置3とを接続するユーザインターフェース7及
び本体インターフェース8とを有している。
This device is composed of a keyboard and a mouse, etc., and inputs an input device 1 for inputting document data etc. for document retrieval and various instruction data etc. for performing an information acquisition operation, and an analysis of the document data. As will be described later in detail, the control device 3 for controlling the entire device such as obtaining the document importance of a word in the search result data and checking the appearance frequency of the word to sort the document data, and the search database. An external storage device 3 that constitutes a document storage medium such as a hard disk for storing information, etc., a menu screen for displaying input document data and an information acquisition operation, and a color CRT for displaying search results Display device 4
And a clock device 5 which is composed of a crystal oscillator or the like, performs an interrupt process at regular time intervals, and stores the current time in the date and time buffer 26 in the memory unit 11, and a user terminal device 6 in which a user inputs a search keyword or the like. It has a user interface 7 and a main body interface 8 for connecting the user terminal device 6 and the control device 3.

【0017】尚、各装置は制御装置2とバスを介して接
続されており、制御装置2の制御を受け、相互にデータ
を授受することが可能となっている。
Each device is connected to the control device 2 via a bus, and under the control of the control device 2, it is possible to exchange data with each other.

【0018】図2は前記制御装置2の詳細な構成例を示
すブロック図である。
FIG. 2 is a block diagram showing a detailed configuration example of the control device 2.

【0019】制御装置2は、制御部10と記憶手段を構
成するメモリ部11とからなっている。制御部10は、
各種制御や処理を実行する部分で、メイン処理部12、
データ入力部13、検索データベース作成部14、検索
キーワード入力部15、検索部16、検索結果解析部1
7、検索結果表示部18等から構成されている。
The control device 2 comprises a control section 10 and a memory section 11 which constitutes a storage means. The control unit 10
The main processing unit 12, which executes various controls and processes,
Data input unit 13, search database creation unit 14, search keyword input unit 15, search unit 16, search result analysis unit 1
7. The search result display unit 18 and the like.

【0020】また、メモリ部11は、検索データベース
格納バッファ21、単語データベース格納バッファ2
2、頻出単語データベース格納バッファ23、文書重要
度格納バッファ24、検索処理の際に必要な検索キーワ
ードを格納する検索キーワードバッファ25、日時バッ
ファ26、制御部10が動作する上で必要なデータを一
旦格納するワーキングエリ27等から構成されている。
The memory unit 11 also includes a search database storage buffer 21 and a word database storage buffer 2.
2. The frequently-used word database storage buffer 23, the document importance storage buffer 24, the search keyword buffer 25 for storing search keywords necessary for search processing, the date / time buffer 26, and the data necessary for the control unit 10 to operate once. It is composed of a working area 27 for storing.

【0021】ここで、制御部10のメイン処理部13
は、装置全体の制御を司るもので、制御の流れの分岐、
データ入力部13以降の各モジュールの呼出等ととも
に、外部記憶装置3にテーブルを作成する処理を行う。
Here, the main processing unit 13 of the control unit 10
Is for controlling the entire device. It branches the flow of control,
A process of creating a table in the external storage device 3 is performed along with calling of each module after the data input unit 13.

【0022】検索部16は、外部記憶装置3に格納され
ている検索用文書データ(テキストデータ)を順に参照
し、ユーザが入力する検索キーワードに対応する文書デ
ータを探し出し、得られた図示しないデータ番号を図示
しないデータ番号格納バッファ中に格納するようになっ
ている。。
The search unit 16 sequentially refers to the search document data (text data) stored in the external storage device 3, searches for the document data corresponding to the search keyword input by the user, and obtains the obtained data (not shown). The number is stored in a data number storage buffer (not shown). .

【0023】次に本実施の形態の装置の動作について図
3及び図4、図5に示すフローチャートを参照して説明
する。
Next, the operation of the apparatus of this embodiment will be described with reference to the flow charts shown in FIGS. 3, 4, and 5.

【0024】本実施の形態の動作を概説すると、図4に
示すように、まず任意の文書データに基づく検索データ
ベースを作成しておき(ステップS1)、検索キーワー
ドを入力すると(ステップS2)、検索キーワードに従
って検索式を作成する(ステップS3)。複数の検索キ
ーワードを入力したときは、それらの検索キーワードを
アンドで結んだ検索式を作成する。そして、この検索式
で検索データベースを検索し(ステップS4)、検索結
果が解析され(ステップS5)、検索結果が表示装置4
に表示される(ステップS6)。
The operation of this embodiment will be outlined. As shown in FIG. 4, first, a search database based on arbitrary document data is created (step S1), and a search keyword is input (step S2). A search formula is created according to the keyword (step S3). When you input multiple search keywords, create a search expression by connecting the search keywords with AND. Then, the search database is searched by this search formula (step S4), the search result is analyzed (step S5), and the search result is displayed on the display device 4.
Is displayed (step S6).

【0025】次に、本実施の形態の動作について以下に
詳述する。図5に示すように、前記入力装置1からデー
タ入力部13へ文書データが入力されると、検索データ
ベース作成部14は、入力された文書データを文書毎に
検索データベースとして検索データベース格納バッファ
21を介して前記外部記憶装置3に格納するとともに
(ステップS11)、入力された文書データを形態素解
析し(ステップS12)、その中に含まれる単語及びそ
の出現頻度を文書毎に調査して抽出し(ステップS1
3)、検索単語データベースを作成して(ステップS1
4)、単語データベース格納バッファ22を介して前記
外部記憶装置3に格納する。
Next, the operation of this embodiment will be described in detail below. As shown in FIG. 5, when document data is input from the input device 1 to the data input unit 13, the search database creation unit 14 stores the input document data as a search database in the search database storage buffer 21 as a search database. It is stored in the external storage device 3 via the above (step S11), the input document data is subjected to morphological analysis (step S12), and the words contained therein and the frequency of occurrence thereof are investigated and extracted for each document ( Step S1
3) Create a search word database (step S1)
4), the data is stored in the external storage device 3 via the word database storage buffer 22.

【0026】この場合の格納例を図3に示す。図3に示
す例は、文書ID1で、文書題名が題名Aの検索データ
ベース文書について、単語が、新聞(出現頻度2)、椅
子(出現頻度1)、コンピュータ(出現頻度5)、ディ
スプレイ(出現頻度2)、目(出現頻度3)であり、文
書ID2で、文書題名が題名Bの検索データベース文書
について、単語が、健康(出現頻度3)、コンピュータ
(出現頻度お)、視力(出現頻度5)、体力(出現頻度
3)、年齢(出現頻度3)であり、文書ID3で、文書
題名が題名Cの検索データベース文書について、単語
が、光(出現頻度1)である場合を示している。
An example of storage in this case is shown in FIG. In the example shown in FIG. 3, for a search database document with a document ID of 1 and a document title of title A, words are newspaper (appearance frequency 2), chair (appearance frequency 1), computer (appearance frequency 5), display (appearance frequency). 2), eyes (appearance frequency 3), document ID 2, document title with title B, words are healthy (appearance frequency 3), computer (appearance frequency 5), visual acuity (appearance frequency 5) , Physical strength (appearance frequency 3), age (appearance frequency 3), document ID 3, document title title C, the word is light (appearance frequency 1).

【0027】次に、本実施の形態の検索処理及び検索結
果表示処理について図6乃至図9参照して説明する。
Next, the search processing and search result display processing of this embodiment will be described with reference to FIGS. 6 to 9.

【0028】ユーザがユーザ端末装置6から検索キーワ
ード入力部15へ例えば複数の検索キーワードを入力す
ると、検索部16は前記検索キーワードに従って検索式
を作成する。
When the user inputs, for example, a plurality of search keywords from the user terminal device 6 to the search keyword input unit 15, the search unit 16 creates a search formula according to the search keywords.

【0029】複数の検索キーワードが入力されたとき
は、それらの検索キーワードをアンドで結んだ検索式を
作成する。そして、その検索式を用いて、外部記憶装置
3に格納した文書データを検索する。このようにして検
索された検索結果データは、検索結果解析部17により
順次参照され(ステップS21)、解析される。即ち、
検索結果解析部17は、検索データベースにまだ参照す
る文書データが有るか否か判断し(ステップS22)、
参照する文書データがない場合には終了とし、参照する
文書データが有る場合にはさらに文書データを参照し、
さらに検索単語データベースをも参照して(ステップS
23)、検索の結果得られた複数の文書データ中に現れ
る単語の中で検索キーワードに対応する単語の有無を判
断し(ステップS24)、検索キーワードに対応する単
語の参照が終了した段階で文書重要度の算出を行い(ス
テップS28)、ステップS24に移行する。算出した
文書重要度は、文書重要度格納バッファ24に格納され
る。
When a plurality of search keywords are input, a search expression in which those search keywords are connected by AND is created. Then, using the search formula, the document data stored in the external storage device 3 is searched. The search result data thus searched is sequentially referred to by the search result analysis unit 17 (step S21) and analyzed. That is,
The search result analysis unit 17 determines whether or not there is document data to be referred to in the search database (step S22),
If there is no document data to refer to, the process ends. If there is document data to refer to, further refer to the document data,
Furthermore, the search word database is also referred to (step S
23), determine whether or not there is a word corresponding to the search keyword among the words appearing in the plurality of document data obtained as a result of the search (step S24), and when the reference of the word corresponding to the search keyword ends, the document The importance is calculated (step S28), and the process proceeds to step S24. The calculated document importance is stored in the document importance storage buffer 24.

【0030】また、検索キーワードに対応する単語が有
る場合には、さらに図8に示すような頻出単語データベ
ースを参照し(ステップS25)、この頻出単語データ
ベースに当該検索キーワードに対応する単語が有るか否
かをも参照して(ステップS26)、頻出単語データベ
ースに当該検索キーワードに対応する単語がない場合に
は、この頻出単語データベースに当該単語をその出現頻
度、文書ID、文書題名とともに新たに格納し(ステッ
プS27)、ステップS24に移行する。。また、頻出
単語データベースに当該検索キーワードに対応する単語
が有る場合には、当該単語の出現頻度を加算して頻出単
語データベースに格納し(ステップS26)、ステップ
S24に移行する。
If there is a word corresponding to the search keyword, the frequent word database as shown in FIG. 8 is further referred to (step S25) to see if the frequent word database has a word corresponding to the search keyword. Also referring to whether or not (step S26), if there is no word corresponding to the search keyword in the frequent word database, the word is newly stored in the frequent word database together with its appearance frequency, document ID, and document title. Then (step S27), the process proceeds to step S24. . If there is a word corresponding to the search keyword in the frequent word database, the appearance frequency of the word is added and stored in the frequent word database (step S26), and the process proceeds to step S24.

【0031】上述した頻出単語データベースの一例を図
8に示す。この頻出単語データベースは、例えば、検索
データベース作成部14により検索単語データベースを
一つずつ参照し、例えば、コンピュータ、ディスプレ
イ、視力、疲労等の単語について、その出現頻度、文書
ID、文書題名を関連づけて頻出単語データベース格納
バッファ23介して外部記憶装置3に格納したものであ
る。
FIG. 8 shows an example of the above-mentioned frequent word database. This frequent word database refers to the search word databases one by one by the search database creation unit 14, and associates the appearance frequency, document ID, and document title with words such as computer, display, visual acuity, and fatigue. It is stored in the external storage device 3 via the frequent word database storage buffer 23.

【0032】次に、検索結果表示処理について説明す
る。図7に示すように、検索結果解析部17は、上述し
た頻出単語データベースを参照し(ステップS31)、
この頻出単語データベースに格納されている単語のうち
最も出現頻度の大きい単語を最頻出単語として決定する
(ステップS32)。さらに、検索結果解析部17は、
最頻出単語を含むか否かで検索した文書データを分類す
る(ステップS33)。
Next, the search result display processing will be described. As shown in FIG. 7, the search result analysis unit 17 refers to the frequent word database described above (step S31),
Of the words stored in the frequent word database, the word with the highest appearance frequency is determined as the most frequent word (step S32). Furthermore, the search result analysis unit 17
The document data retrieved is classified according to whether or not it contains the most frequent word (step S33).

【0033】検索結果表示部18は、検索キーワードに
対応した単語の文書重要度を参照して(ステップS3
4)、ステップS33で分類した文書データのうちで、
文書重要度の高い(大きい)順に表示する(ステップS
35)。
The search result display unit 18 refers to the document importance of the word corresponding to the search keyword (step S3).
4), of the document data classified in step S33,
Documents are displayed in descending order of importance (larger) (step S
35).

【0034】文書検索結果の表示例を図9に示す。図9
は、上述した検索処理を全ての検索結果文書ダータにつ
いて繰り返し、頻出単語データベースにおける出現頻度
が最も大きい単語を最頻出単語(たとえば「単語コンピ
ュータ」)と設定し、それを含む検索結果文書データを
「単語コンピュータあり」項目に分類し、その単語を含
まない検索結果文書データを「単語コンピュータなし」
項目に分類して、各々文書重要度の大きい順に表示する
例を示すものである。
FIG. 9 shows a display example of the document search result. FIG.
Repeats the above-described search processing for all search result document data, sets the word with the highest appearance frequency in the frequent word database as the most frequent word (for example, "word computer"), and sets the search result document data containing it as " Search word document data that does not include that word is classified as "With word computer"
It shows an example in which items are classified and displayed in descending order of document importance.

【0035】この際、複数の検索結果文書データの題名
を表示する順番を以下の規則に従って決定する。
At this time, the order of displaying the titles of the plurality of search result document data is determined according to the following rules.

【0036】まず、検索キーワードを複数指定した場合
は、複数の検索キーワードが近い位置に存在する文書デ
ータほど文書重要度を高くし、先に表示する。具体的に
は、複数の検索キーワード間に存在する単語数を複数キ
ーワード間単語数とし、その数の逆数を文書重要度と定
義する。この文書重要度の値が大きいほど重要な文書デ
ータとみなすので、文書重要度の高い順に文書検索結果
を表示する。
First, when a plurality of search keywords are designated, the document data having a plurality of search keywords closer to each other is displayed with higher document importance and is displayed first. Specifically, the number of words existing between a plurality of search keywords is defined as the number of words between a plurality of keywords, and the reciprocal of the number is defined as the document importance. The larger the value of the document importance, the more important the document data is, so the document search results are displayed in the descending order of the document importance.

【0037】次に、前記文書重要度算出法について具体
例を挙げて以下に説明する。文書重要度、キーワード間
距離を算出するとき、0の逆数はとれないので、1とす
る。
Next, the document importance calculation method will be described below with a specific example. When calculating the document importance and the inter-keyword distance, the reciprocal of 0 cannot be taken, so it is set to 1.

【0038】いま、以下のように例文1があったとす
る。「本データベースは、曲名データ、作曲者データ、
音データ、リズムデータ、歌詞データから構成する。」
Now, suppose that the example sentence 1 is as follows. "This database consists of song title data, composer data,
It is composed of sound data, rhythm data, and lyrics data. "

【0039】この場合、検索キーワードが、データベー
ス、音の2個指定されたとする。尚、例文1中の助詞は
キーワード間距離の算出の対象外とする。
In this case, it is assumed that two search keywords, database and sound, are designated. The particle in example sentence 1 is excluded from the calculation of the inter-keyword distance.

【0040】検索キーワードが「データベース」と
「音」であるとき、検索キーワードの「データベース」
「音」の間に、「曲名」「データ」「作曲者」「デー
タ」という4単語が存在しているので、この例文1の場
合の文書重要度は、1/4=0.25となる。
When the search keywords are "database" and "sound", the search keyword "database"
Since there are four words "song name", "data", "composer", and "data" between "sounds", the document importance in the case of this example sentence 1 is 1/4 = 0.25. .

【0041】次に上述した文書重要度算出法の別の具体
例について説明する。以下のように例文2があったとす
る。「本データベースは、曲名データ、作曲者データ、
音データ、リズムデータ、歌詞データから構成する。音
とリズムは、楽曲を検索する際にはテキストデータに比
べ、非常に重要な要素である。」この例文2の各単語
と、出現位置との関係を、文頭から順に数字を付して表
したもの図10に示す。尚、例文2中の助詞は対象外と
する。また、検索キーワードが、「データベース」、
「音」、「リズム」の3個指定されたとする。
Next, another specific example of the document importance calculation method described above will be described. Suppose there is an example sentence 2 as follows. "This database consists of song title data, composer data,
It is composed of sound data, rhythm data, and lyrics data. Sound and rhythm are very important factors when searching for music, compared to text data. The relationship between each word in this example sentence 2 and the appearance position is shown by adding numbers in order from the beginning of the sentence and is shown in FIG. The particles in example sentence 2 are excluded. Also, the search keyword is "database",
It is assumed that three "sound" and "rhythm" are specified.

【0042】この場合には、検索キーワードの組み合わ
せは以下の3通りである。(a)データベースと音、
(b)データベースとリズム、(c)音とリズム。
In this case, there are the following three combinations of search keywords. (A) Database and sound,
(B) Database and rhythm, (c) Sound and rhythm.

【0043】上述した例文1と同様にして文書重要度を
算出すると、検索キーワードの「データベース」「音」
の間には、7−2=5及び14−2=12の2個のキー
ワード間距離が存在する。従って、文書重要度は、1/
5+1/12=0.283となる。
When the document importance is calculated in the same manner as in the example sentence 1 described above, the search keywords “database” and “sound” are calculated.
In between, there are two inter-keyword distances of 7-2 = 5 and 14-2 = 12. Therefore, the document importance is 1 /
5 + 1/12 = 0.283.

【0044】同様にして、「データベース」「リズム」
の間には、9−2=7及び15−2=13の2個のキー
ワード間距離が存在する。従って、文書重要度は、1/
7+1/13=0.219となる。
Similarly, "database" and "rhythm"
In between, there are two inter-keyword distances of 9-2 = 7 and 15-2 = 13. Therefore, the document importance is 1 /
7 + 1/13 = 0.219.

【0045】同様にして、「音」「リズム」の間には、
9−7=2及び15−7=8と、9−14=−5(絶対
値で5とする)及び15−14=1の合計4個のキーワ
ード間距離が存在する。従って、文書重要度は、1/2
+1/8+1/5+1/1=1.825となる。
Similarly, between "sound" and "rhythm",
There are a total of four inter-keyword distances of 9-7 = 2 and 15-7 = 8, 9-14 = -5 (assumed to be 5 in absolute value) and 15-14 = 1. Therefore, the document importance is 1/2
+ 1/8 + 1/5 + 1/1 = 1.825.

【0046】次に別の文書重要度算出法について説明す
る。
Next, another document importance calculating method will be described.

【0047】上述した検索キーワードの3つの組み合わ
せを全て均等に重要とみなすために、組み合わせ数(=
3)で各々の検索キーワード間距離を割り、全ての組み
合わせを加算し文書重要度を求める。検索キーワード間
距離は、複数キーワード間単語数の逆数を加算し、加算
した数で割って求めるものと定義する。
In order to equally consider all three combinations of the above-mentioned search keywords as important, the number of combinations (=
In step 3), the distance between the search keywords is divided, and all combinations are added to obtain the document importance. The search keyword distance is defined to be obtained by adding the reciprocal of the number of words between a plurality of keywords and dividing by the added number.

【0048】例文2を文頭から順番に見ていくと、以下
のように複数キーワード間単語数がある。
Looking at the example sentence 2 in order from the beginning of the sentence, the number of words between a plurality of keywords is as follows.

【0049】 データベース 音 4、音 リズム 2、リズム 音 4、音 リズム 0 従って、データベース、音の検索キーワード間距離 1/4 データベース、リズムの検索キーワード間距離 0 音、リズムの検索キーワード間距離 (1/2+1/4+1)/3 そこで、文書重要度は、各検索キーワード間距離の和、
即ち、(1/4)/3+(1/2+1/4+1)/3/
3+0=0.472となる。
Database sound 4, sound rhythm 2, rhythm sound 4, sound rhythm 0 Therefore, database, sound search keyword distance 1/4 database, rhythm search keyword distance 0 sound, rhythm search keyword distance (1 / 2 + 1/4 + 1) / 3 Therefore, the document importance is the sum of the distances between the search keywords,
That is, (1/4) / 3 + (1/2 + 1/4 + 1) / 3 /
3 + 0 = 0.472.

【0050】このようにして、秩序だって表示した文書
検索結果から、ユーザが望む文書データを選択すると、
その文書データの内容が表示装置4に表示されることに
なる。
In this way, when the user selects the desired document data from the orderly displayed document search results,
The contents of the document data will be displayed on the display device 4.

【0051】尚、本発明は上記の実施の形態に限定され
るものではない。上述した実施の形態では、最頻出単語
語の有無で分類し、その後で文書データの重要度により
順番を決定して検索結果を表示装置4に表示したが、特
に分類せずに、文書重要度により順番を決定して表示装
置4に表示してもよいし、文書データの属する分野に応
じて分類し、その後で文書重要度により順番を決定して
表示してもよい。
The present invention is not limited to the above embodiment. In the above-described embodiment, the search result is displayed on the display device 4 by classifying according to the presence or absence of the most frequently occurring word word, and then determining the order according to the importance of the document data, but the document importance is not particularly classified. The order may be determined and displayed on the display device 4 according to, or the order may be determined according to the field to which the document data belongs and then determined and displayed according to the document importance.

【0052】また、上述した実施の形態では、日本語文
書の場合について説明したが、英語文書その他の外国語
の文書の場合にも本発明は適用可能である。
In the above-described embodiment, the case of a Japanese document has been described, but the present invention can be applied to an English document and other foreign language documents.

【0053】本発明は、上述した検索文書作成装置、文
書検索装置の他、情報検索装置、インターネット情報検
索装置等に適用できる。
The present invention can be applied to an information retrieval device, an internet information retrieval device, etc., in addition to the retrieval document creation device and document retrieval device described above.

【0054】[0054]

【発明の効果】以上説明した請求項1記載の発明によれ
ば、文書データから切り分けた単語とその単語の位置関
係とを対応付けて記憶することができ、検索に便利な検
索文書を作成することができる検索文書作成装置を提供
することができる。
According to the invention described in claim 1 described above, a word separated from document data and a positional relationship of the word can be stored in association with each other, and a search document convenient for search is created. It is possible to provide a search document creation device capable of doing so.

【0055】請求項2記載の発明によれば、検索用キー
ワードを用いた検索に便利な検索文書記憶メディアを提
供することができる。
According to the second aspect of the present invention, it is possible to provide a retrieval document storage medium which is convenient for retrieval using the retrieval keyword.

【0056】請求項3及び4記載の発明によれば、ユー
ザに複数の検索結果から選択する基準を与ることができ
その負担が軽減される文書検索装置を提供することがで
きる。
According to the third and fourth aspects of the present invention, it is possible to provide a document retrieval apparatus which can give the user a criterion for selecting from a plurality of retrieval results and reduce the burden thereof.

【0057】請求項5記載の発明の発明によれば、ユー
ザが検索文書記憶メディアに対する複数のキーワードに
よる検索式を入力することで、文書データの検索結果が
各キーワードの位置情報に応じた文書重要度に従って秩
序だって表示されるので、これにより、ユーザに複数の
検索結果から選択する基準を与ることができその負担を
軽減することができる文書検索方法を提供することがで
きる。
According to the invention of claim 5, the user inputs a search expression using a plurality of keywords for the search document storage medium, so that the search result of the document data is document important according to the position information of each keyword. Since the images are displayed in an orderly manner according to the degree, it is possible to provide a document search method that can give the user a criterion for selecting from a plurality of search results and reduce the burden thereof.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の文書検索装置の実施の形態を示すブロ
ック図である。
FIG. 1 is a block diagram showing an embodiment of a document search device of the present invention.

【図2】本実施の形態の制御装置の詳細を示すブロック
図である。
FIG. 2 is a block diagram showing details of a control device of the present embodiment.

【図3】本実施の形態の検索単語データベースの格納例
を示す説明図である。
FIG. 3 is an explanatory diagram showing a storage example of a search word database according to the present embodiment.

【図4】本実施の形態の検索データベース作成部の処理
を示すフローチャートである。
FIG. 4 is a flowchart showing a process of a search database creating unit according to the present embodiment.

【図5】本実施の形態の検索データベース作成部の処理
を示すフローチャートである。
FIG. 5 is a flowchart showing a process of a search database creating unit according to the present embodiment.

【図6】本実施の形態の検索結果解析部の処理を示すフ
ローチャートである。
FIG. 6 is a flowchart showing processing of a search result analysis unit according to the present embodiment.

【図7】本実施の形態の検索結果表示処理を示すフロー
チャートである。
FIG. 7 is a flowchart showing search result display processing according to the present embodiment.

【図8】本実施の形態の頻出単語データベースの格納例
を示す説明図である。
FIG. 8 is an explanatory diagram showing a storage example of a frequent word database according to the present embodiment.

【図9】本実施の形態の検索結果表示例を示すフローチ
ャートである。
FIG. 9 is a flowchart showing a search result display example of the present embodiment.

【図10】本実施の形態の単語と出現位置との関係を示
す説明図である。
FIG. 10 is an explanatory diagram showing a relationship between words and appearance positions according to the present embodiment.

【符号の説明】[Explanation of symbols]

1 入力装置 2 制御装置 3 外部記憶装置 4 表示装置 5 時計装置 6 ユーザ入力装置 10 制御部 11 メモリ部 12 メイン処理部 13 データ入力部 14 検索データベース作成部 15 検索キーワード入力部 16 入力部 17 検索結果解析部 18 検索結果表示部 1 input device 2 control device 3 external storage device 4 display device 5 clock device 6 user input device 10 control unit 11 memory unit 12 main processing unit 13 data input unit 14 search database creation unit 15 search keyword input unit 16 input unit 17 search result Analysis part 18 Search result display part

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 文書データを入力する入力手段と、入力
される文書データを記憶する手段と、入力される文書デ
ータを解析して単語に切り分ける手段と、切り分けた単
語とその単語の位置関係とを対応付けて記憶する手段と
を有することを特徴とする検索文書作成装置。
1. An input unit for inputting document data, a unit for storing the input document data, a unit for analyzing the input document data and dividing it into words, and a positional relationship between the divided words and the words. And a means for storing the same in association with each other.
【請求項2】 複数の文書データの各文書データから取
り出された複数の単語を検索用キーワードとし、前記各
文書データと対応付けて記憶される文書記憶メディアで
あって、前記各検索用キーワードの文書データ中の出現
位置の情報を各検索用キーワードに対応付けて記憶され
ることを特徴とする検索文書記憶メディア。
2. A document storage medium in which a plurality of words extracted from each document data of a plurality of document data are used as search keywords and stored in association with each of the document data. A search document storage medium characterized in that information on an appearance position in document data is stored in association with each search keyword.
【請求項3】 複数の文書データの各文書データから取
り出された複数の単語を検索用キーワードとし、前記各
文書データと対応付けて記憶され、更に前記各検索用キ
ーワードの文書データ中の出現位置の情報を各検索用キ
ーワードに対応付けて記憶された文書記憶メディアから
所望の文書データを取り出すための文書検索装置であっ
て、 複数のキーワードによる検索式を入力する手段と、入力
された検索式に基づいて前記文書記憶メディアを検索す
る手段と、 この検索結果の各文書データ中の前記キーワードの位置
情報に基づいて各文書データの文書重要度を設定する手
段と、 各文書データの文書重要度に従って、検索結果を表示す
る手段とを備えたことを特徴とする文書検索装置。
3. A plurality of words extracted from each document data of a plurality of document data are used as search keywords, are stored in association with each of the document data, and the appearance position of each search keyword in the document data is stored. A document retrieval device for extracting desired document data from a document storage medium in which the information of is associated with each retrieval keyword, and means for inputting a retrieval expression by a plurality of keywords and an input retrieval expression Means for searching the document storage medium based on the above, means for setting the document importance of each document data based on the position information of the keyword in each document data of this search result, and document importance of each document data And a means for displaying a search result in accordance with the document search apparatus.
【請求項4】 文書データを記憶する手段と、文書デー
タを解析して単語に切り分ける手段と、切り分けた単語
とその単語の位置関係とを対応付けて記憶する手段と、
キーワードによる検索式を入力する手段と、入力された
検索式に基づいて前記文書記憶メディアをキーワード検
索する手段と、この検索結果の各文書データの位置関係
に基づいて各文書データの文書重要度を設定する手段
と、各文書データの文書重要度に従って、検索結果を表
示する手段とを備えたことを特徴とする文書検索装置。
4. A means for storing the document data, a means for analyzing the document data and cutting it into words, and a means for storing the cut words and the positional relationship of the words in association with each other.
A means for inputting a search expression by a keyword, a means for searching the document storage medium by a keyword based on the input search expression, and a document importance of each document data based on a positional relationship of each document data of the search result. A document search apparatus comprising: a means for setting and a means for displaying a search result according to the document importance of each document data.
【請求項5】 複数の文書データの各文書データから取
り出された複数の単語を検索用キーワードとし、前記各
文書データと対応付けて記憶され、更に前記各検索用キ
ーワードの文書データ中の出現位置の情報を各検索用キ
ーワードに対応付けて記憶された文書記憶メディアから
所望の文書データを取り出す文書検索方法であって、 複数のキーワードによる検索式を入力し、この検索式に
基づいて検策し得られた各文書データ中の前記各キーワ
ードの位置情報を基に、各文書データの文書重要度を設
定し、この文書重要度に従って、各文書データの検索結
果を表示することを特徴とする文書検索方怯。
5. A plurality of words extracted from each document data of a plurality of document data is used as a search keyword, stored in association with each document data, and the appearance position of each search keyword in the document data is further stored. A method for retrieving desired document data from a document storage medium in which the information of (1) is associated with each retrieval keyword and a retrieval formula is input with a plurality of keywords, and a measure is taken based on this retrieval formula. A document characterized in that the document importance of each document data is set based on the position information of each of the obtained keywords in each document data, and the search result of each document data is displayed according to the document importance. How to search.
JP8124190A 1996-05-20 1996-05-20 Retrieval document preparing device, retrieval document storage media, device and method for retrieving document Pending JPH09305626A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8124190A JPH09305626A (en) 1996-05-20 1996-05-20 Retrieval document preparing device, retrieval document storage media, device and method for retrieving document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8124190A JPH09305626A (en) 1996-05-20 1996-05-20 Retrieval document preparing device, retrieval document storage media, device and method for retrieving document

Publications (1)

Publication Number Publication Date
JPH09305626A true JPH09305626A (en) 1997-11-28

Family

ID=14879222

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8124190A Pending JPH09305626A (en) 1996-05-20 1996-05-20 Retrieval document preparing device, retrieval document storage media, device and method for retrieving document

Country Status (1)

Country Link
JP (1) JPH09305626A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6321192B1 (en) * 1998-10-22 2001-11-20 International Business Machines Corporation Adaptive learning method and system that matches keywords using a parsed keyword data structure having a hash index based on an unicode value
JP2007249322A (en) * 2006-03-14 2007-09-27 Mitsubishi Electric Corp Document visualization device and document visualization program
JP2009037604A (en) * 2007-07-12 2009-02-19 Ricoh Co Ltd Information processor, information processing method and program
JP2013109635A (en) * 2011-11-22 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> Word importance calculation device and method and program thereof

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6321192B1 (en) * 1998-10-22 2001-11-20 International Business Machines Corporation Adaptive learning method and system that matches keywords using a parsed keyword data structure having a hash index based on an unicode value
JP2007249322A (en) * 2006-03-14 2007-09-27 Mitsubishi Electric Corp Document visualization device and document visualization program
JP2009037604A (en) * 2007-07-12 2009-02-19 Ricoh Co Ltd Information processor, information processing method and program
JP2013109635A (en) * 2011-11-22 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> Word importance calculation device and method and program thereof

Similar Documents

Publication Publication Date Title
US7096218B2 (en) Search refinement graphical user interface
US5523945A (en) Related information presentation method in document processing system
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
JP2005128873A (en) Question/answer type document retrieval system and question/answer type document retrieval program
US20050165819A1 (en) Document tabulation method and apparatus and medium for storing computer program therefor
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
US5761666A (en) Document retrieval system
JPH11102374A (en) Method and device for displaying document of data base
JP2004326216A (en) Document search system, method and program, and recording medium
JP2000200281A (en) Device and method for information retrieval and recording medium where information retrieval program is recorded
JPH0484271A (en) Intra-information retrieval device
JP3178421B2 (en) Text search device and computer-readable recording medium storing text search program
JPH0922414A (en) Document sorting supporting method and its device
JP2002269106A (en) Device for introducing book
JPH0944523A (en) Relative word display device
JPH09305626A (en) Retrieval document preparing device, retrieval document storage media, device and method for retrieving document
JPH08287086A (en) Method and device for emphasizing and displaying image in order of adaptability
JP3385913B2 (en) Related word presentation device and medium recording related word presentation program
JP3162907B2 (en) Document data retrieval device
JPH09185632A (en) Method and device for retrieving/editing information
JPH07134720A (en) Method and device for presenting relative information in sentence preparing system
JPH10340271A (en) Document abstract preparation device, and storage medium where document abstract generation program is recorded
JP2939841B2 (en) Database search device
JP3177593B2 (en) Term narrowing search method and computer readable recording medium recording a program for causing a computer to execute each step of the method
JP2000200279A (en) Information retrieving device

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060502

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061219