JPH0227478A - Document management device - Google Patents

Document management device

Info

Publication number
JPH0227478A
JPH0227478A JP63177023A JP17702388A JPH0227478A JP H0227478 A JPH0227478 A JP H0227478A JP 63177023 A JP63177023 A JP 63177023A JP 17702388 A JP17702388 A JP 17702388A JP H0227478 A JPH0227478 A JP H0227478A
Authority
JP
Japan
Prior art keywords
document
file
user
documents
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63177023A
Other languages
Japanese (ja)
Inventor
Yasutsugu Ogawa
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP63177023A priority Critical patent/JPH0227478A/en
Publication of JPH0227478A publication Critical patent/JPH0227478A/en
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To attain ambiguous retrieve to express the magnitude of the relation between a key word and each document by selecting the document conforming to a retrieving request with the use of an expanded inverted file according to the retrieving request of a user, and managing an input/output. CONSTITUTION:An expanded inverted file 7 to hold the relation of the key word and each document by a numeric value is provided. For this reason, when the document is retrieved by a document selecting part 3, the magnitude of the relating degree between the key word group designated by a user 10 and each document obtained by prescribed calculation from the expanded inverted file 7 can be defined as file accuracy. Thus, the ambiguous retrieve to indicate a retrieve result in such a sequence is attained, and when the document is retrieved, a threshold value control type ambiguous retrieve, in which the file accuracy required by the user is set at a threshold value, and the document number control type ambiguous retrieve, in which the document required by the user is selected in the sequence at the larger file accuracy and it is made into the retrieve result, are attained.

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は文書管理装置、とくに、文書検索時に検索結果
が利用者の検索要求に近いものほど大きな値を持つ評価
値によって順序づけられるような、柔軟で高速な文書管
理装置に関する。
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a document management device, and particularly to a document management device in which search results are ordered by evaluation values having larger values as they are closer to a user's search request during document retrieval. This invention relates to a flexible and high-speed document management device.

(従来の技術) 従来の文書管理装置では、インバーテツドファイルはキ
ーワードと文書間の関係を°ある1ない”の2値で表現
している。一方、実際の文書を扱う場合、あるキーワー
ドがその文書内にあるがその文書の内容に関して余シ重
要ではないというような状況は良くあるが、この場合従
来のインバーテツドファイルではそのキーワードを含ん
でいるので無理にそのキーワードと文書に関係が1ある
”とするか、関係はあまシ重要ではないのでそのキーワ
ードと文書に関係が“ない″とするかのいづれかを選択
しなければならない。したがって、従来のインバーテツ
ドファイルではキーワードと文書間の関係の大小は表現
されない。
(Prior art) In a conventional document management device, an inverted file expresses the relationship between a keyword and a document as a binary value of ``yes'' and ``no''.On the other hand, when handling actual documents, when a certain keyword There are many situations where the keyword is in the document but is not particularly important to the content of the document, but in this case, the conventional inverted file contains the keyword, so it is not possible to force a relationship between the keyword and the document. You must choose either to assume that there is a relationship between the keyword and the document, or to determine that there is no relationship between the keyword and the document, since the relationship is not very important. Therefore, conventional inverted files do not express the magnitude of the relationship between keywords and documents.

(発明が解決しようとする課題) このように、インバーテツドファイルを用いる文書管理
装置は利用者の検索要求に対して、各文書は要求を満た
して”いる″・“いない″の2値でしか答えることがで
きず柔軟性に欠ける。したがって利用者が指定した検索
条件を完全ではないがほぼ満たしているような文書を検
索するのにもう一度検索を実行しなければならない。ま
た、利用者が指定した検索条件を満たすものがまったく
無い場合、検索条件に最も近い文書を検索することがで
きないので極めて面倒であるなどの欠点がある。
(Problem to be Solved by the Invention) In this way, a document management device using inverted files responds to a user's search request with a binary value of ``does'' or ``does not satisfy'' each document. It lacks flexibility as it can only answer questions. Therefore, in order to find a document that almost, but not completely, satisfies the search conditions specified by the user, it is necessary to perform the search again. Furthermore, if there is no document that satisfies the search conditions specified by the user, it is not possible to search for the document closest to the search conditions, which is extremely troublesome.

本発明はこのような従来技術の欠点を解消し、キーワー
ドと文書間の関係の大小を表現する文書管理装置を提供
することを目的とする。
SUMMARY OF THE INVENTION An object of the present invention is to eliminate the drawbacks of the prior art and provide a document management device that expresses the magnitude of the relationship between keywords and documents.

(課題を解決するための手段) 本発明は上述の課題を解決するために、登録文書とその
書誌的情報を格納する文書情報管理部と、キーワードと
各登録文書間の関連を数値によって保持する拡張インバ
ーテツド7アイルを格納・管理する拡張インバーテツド
ファイル管理部と、利用者の登録要求に従い文書の登録
・更新・削除をおこなう文書登録部と、利用者の検索要
求に従い前記拡張インバーテツドファイルを用いて検索
要求に適合する文書を選出する文書選択部と、入出力を
管理等をおこなう入出力管理部を有する。
(Means for Solving the Problems) In order to solve the above-mentioned problems, the present invention includes a document information management unit that stores registered documents and their bibliographic information, and a numerical value that maintains the relationship between keywords and each registered document. An extended inverted file management section that stores and manages the extended inverted 7 files; a document registration section that registers, updates, and deletes documents according to user registration requests; and an extended inverted file management section that stores and manages the extended inverted 7 files; It has a document selection unit that selects documents that match a search request using the search engine, and an input/output management unit that manages input and output.

(作 用) 本発明によれば、キーワードと各登録文書間の関連を数
値によって保持する拡張インバーテツドファイルを設け
たことによシ、文書検索時に、利用者が指定したキーワ
ード群と拡張インバーテツドファイルから所定の計算に
よって求められる、各文書と利用者指定キーワード群と
の関連度の大きさをファイル確度と定義し、その順序で
検索結果が示されるあいまい検索が可能となり、また、
文書検索時に、利用者の要求するファイル確度を閾値と
し、その閾値以上のファイル確度を持つ文書を選択しそ
れを検索結果とする閾値制御型あいまい検索または、利
用者の要求する文書数だけの文書をファイル確度の大き
い順に選択しそれを検索結果とする文書数制御型あいま
い検索が可能となる。
(Function) According to the present invention, by providing an extended inverted file that holds the relationship between keywords and each registered document in numerical values, when searching for documents, the keyword group specified by the user and the extended inverted file are provided. File accuracy is defined as the degree of association between each document and a group of user-specified keywords, which is determined by a predetermined calculation from a searched file.
When searching for documents, use a threshold-controlled fuzzy search that uses the file accuracy requested by the user as a threshold and selects documents with a file accuracy greater than or equal to the threshold and uses them as search results, or searches for as many documents as the number of documents requested by the user. It becomes possible to perform a fuzzy search using document count control, which selects files in descending order of file certainty and uses them as search results.

(実施例) 次に、本発明の文書管理装置の実施例を添付図面を参照
して説明する。
(Example) Next, an example of the document management device of the present invention will be described with reference to the accompanying drawings.

本発明の文書管理装置は従来技術の欠点を解消するため
に、キーワードと各登録文書間の関連を数値によって保
持する拡張インバーテツドファイルを用いる。このファ
イルに利用者の検索要求に近いものほど大きな値を持つ
ようなファイル確度という評価値を導入し、文書検索時
にはそのファイル確度の大小をもとに利用者が要求を満
たす文書を柔軟に選択できる。
In order to eliminate the drawbacks of the prior art, the document management device of the present invention uses an extended inverted file that holds the relationship between keywords and each registered document using numerical values. An evaluation value called file accuracy is introduced for this file, which has a larger value as the file is closer to the user's search request, and when searching for documents, the user can flexibly select documents that meet the request based on the size of the file accuracy. can.

本発明の特徴である拡張インバーテツドファイルという
新しい概念について説明する。
The new concept of extended inverted files, which is a feature of the present invention, will be explained.

従来の文書管理装置では、キーワードと文書はイン・マ
ーテッドファイルにより関係づけられている。しかし、
従来のインバーテツドファイルでは、キーワードと文書
の関係を゛ある”“なし”の2値で表現している。しか
し実際には、ある文書内にあるキーワードがある場合で
も、キーワードと文書間の関係の程度には大小がある。
In conventional document management devices, keywords and documents are related by in-mart files. but,
In conventional inverted files, the relationship between a keyword and a document is expressed as a binary value of "Yes" or "No".However, in reality, even if a keyword exists in a certain document, there is a relationship between the keyword and the document. There are varying degrees of relationship.

そこで、キーワードと文書間の関係の大きさを付加情報
として持たせたインバーテツドファイルを使用する。こ
のような付加情報を持ったインバーテツドファイルを拡
張インバーテツド7アイルと呼ぶ。拡張インバーテツド
ファイルでは、関連の大きさを0〜1の範囲とし、0は
キーワードと文書間に関係がないこと、O以上の値は関
係があること、さらに、1は関係の大きさが最大である
ことを表現するものとする。
Therefore, an inverted file is used that has the size of the relationship between keywords and documents as additional information. An inverted file having such additional information is called an extended inverted 7 file. In extended inverted files, the magnitude of the relationship is set in the range 0 to 1, where 0 indicates that there is no relationship between the keyword and the document, a value of 0 or more indicates that there is a relationship, and 1 indicates that the magnitude of the relationship is It shall be expressed as the maximum.

拡張インバーテツドファイルは2次元配列として捉える
こともできる。その場合、1番目の文書と1番目のキー
ワードの関速度はWiCKj〕あるいはもっと簡単にW
ijで表現される。
The expanded inverted file can also be viewed as a two-dimensional array. In that case, the relationship between the first document and the first keyword is WiCKj] or more simply W
It is expressed as ij.

つぎに、いま、キーワードと文書間の関係が第2図(a
)の通シであったとする。このときの拡張インバーテツ
ドファイルの例を第2図(b)に、従来のインバーテツ
ドファイルの例を第2図(c)に示す。
Next, the relationship between keywords and documents is shown in Figure 2 (a
). An example of an extended inverted file at this time is shown in FIG. 2(b), and an example of a conventional inverted file is shown in FIG. 2(c).

第2図(c)に示す従来のインバーテツドファイルでは
、各キーワードに対し関係のある文書の文書番号のみが
リストアツブされている。一方、拡張インバーテツドフ
ァイルでは、各キーワードに対し関係のある文書が、文
書番号およびそのキーワードと文書の関係の大きさの組
として、例えば(文書l、1.0)のように、リストア
ツブされている。
In the conventional inverted file shown in FIG. 2(c), only the document numbers of documents related to each keyword are restored. On the other hand, in an extended inverted file, documents related to each keyword are restored as a set of document number and the size of the relationship between that keyword and the document, such as (document l, 1.0). ing.

この拡張インバーテツドファイルにおいても、あるキー
ワードと関連のない文書はそのキーワード覧に記入され
ていない。したがっであるキーワードに対しリストアツ
ブされていない文書はそのキーワードとの間に関係がな
い、あるいは、そのキーワードとの間の関速度が0であ
ることを意味する。例えば、キーワードlの覧に文書3
FilJストアツグされていないが、それはキーワード
lと文書3は関係ない、あるいは、その関速度がOであ
ることを意味している。
Also in this extended inverted file, documents that are unrelated to a certain keyword are not entered in the keyword list. Therefore, a document that has not been restored for a certain keyword means that there is no relationship with that keyword, or that the relationship rate with that keyword is 0. For example, in the list of keyword l, document 3
Although FilJ is not stored, this means that the keyword 1 and document 3 are unrelated, or that their relationship speed is O.

本発明の文書管理装置の構成を第1図に示す。FIG. 1 shows the configuration of the document management device of the present invention.

入出力管理部lは利用者からの要求を受は取る図示しな
い入力部、利用者の要求に従い文書登録支援部2または
文書選択支援部3に必要な情報を送る要求処理部、利用
者の要求の処理結果を表示する図示しない表示部から構
成される。
The input/output management section l includes an input section (not shown) that receives and receives requests from users, a request processing section that sends necessary information to the document registration support section 2 or document selection support section 3 according to the user's requests, and a request processing section that sends necessary information to the document registration support section 2 or the document selection support section 3 according to the user's requests. It consists of a display unit (not shown) that displays the processing results.

文書登録支援部2は登録文書からキーワード候補を抽出
する図示しないキーワード作成支援部、利用者の拡張イ
ンバーテツドファイル作成を支援する拡張インバーテツ
ドファイル作成支援部から構成される。ここで行われる
処理は、利用者の文書登録時に、文書情報データベース
・拡張インバーテツドファイルの更新の指示を行うこと
である。さらに、文書登録時だけでなく文書更新・変更
・文書削除時に、文書情報データベース6および拡張イ
ンバーテツドファイル7の更新の指示も行う。
The document registration support section 2 includes a keyword creation support section (not shown) that extracts keyword candidates from registered documents, and an extended inverted file creation support section that supports the user in creating an extended inverted file. The process performed here is to instruct the user to update the document information database/extended inverted file when the user registers the document. Furthermore, it instructs to update the document information database 6 and extended inverted file 7 not only when registering a document but also when updating, changing, or deleting a document.

文書選択支援部3は利用者の検索条件と拡張インバーテ
ツドファイル内の情報を用いてファイル確度の計算を行
う図示しないファイル確度計算部、文書情報データベー
ス内の文書をファイル確度の大きい順序に並べ変えるソ
ート部、文書選択のための閾値処理を行う閾値制御部、
文書選択のための文書数制御を行う文書数制御部から構
成される。これらの各部の処理については、動作説明に
おいて詳述する。
The document selection support unit 3 includes a file accuracy calculation unit (not shown) that calculates file accuracy using the user's search conditions and information in the expanded inverted file, and a file accuracy calculation unit (not shown) that arranges documents in the document information database in order of increasing file accuracy. a sorting section that changes, a threshold control section that performs threshold processing for document selection,
It consists of a document number control section that controls the number of documents for document selection. The processing of each of these parts will be explained in detail in the operation description.

文書情報管理部4は、登録文書およびその書誌的情報を
保持する文書情報データベース6を管理し、他部からの
要求に従い、その内容の登録、検索、更新、削除を行う
The document information management section 4 manages a document information database 6 that holds registered documents and their bibliographic information, and registers, searches, updates, and deletes the contents according to requests from other sections.

拡張インバーテツドファイル管理部5は拡張イン−ぐ−
テッドファイル7の管理を行う。拡張インバーテツドフ
ァイル管理部Sは他部からの要求に従い、拡張インバー
テツドファイル7の内容の登録・検索・更新・削除を行
う。また、将来の拡張として拡張インバーテツドファイ
ル7のキーワードの文書開速度を学習機能により利用者
の使いやすいように適切に変更する際に、学習にともな
う関速度の変更量の計算も行う。
The extended inverted file management unit 5 is an extended inverted file management unit 5.
Manage Ted File 7. The extended inverted file management section S registers, searches, updates, and deletes the contents of the extended inverted file 7 in accordance with requests from other sections. Furthermore, when the document opening speed of keywords in the expanded inverted file 7 is changed appropriately to make it easier for the user to use the extended inverted file 7 as a future expansion, the amount of change in the opening speed due to learning will also be calculated.

本実施例の文書管理装置の処理は文書登録処理および文
書選択処理の2つに大別できる。
The processing of the document management device of this embodiment can be roughly divided into two: document registration processing and document selection processing.

ただし、文書登録処理には文書の更新・訂正・削除処理
も含めるものとする。利用者が行おうとしている処理が
これらの2つのいづれであるかは入出力制御部内の要求
処理部で解析され、実際の処理は文書登録処理ならば文
書登録支援部2、文書選択処理ならば文書選択支援部3
で行われる。これらの処理を以下に説明する。
However, document registration processing shall also include document update, correction, and deletion processing. The request processing section in the input/output control section analyzes which of these two processes the user is trying to perform, and the actual processing is performed by the document registration support section 2 if it is document registration processing, and by the document registration support section 2 if it is document selection processing. Document selection support section 3
It will be held in These processes will be explained below.

文書登録処理は登録文書とそれに付随する書誌的情報を
文書選択時に利用し易い形にデータペース化することを
目的としている。文書登録処理は文書登録部2で処理さ
れる。
The purpose of document registration processing is to convert registered documents and their accompanying bibliographic information into a data page that is easy to use when selecting documents. The document registration process is performed by the document registration unit 2.

登録文書とその書誌的情報の例を第3図(、)〜(c)
に示す。第3図(a)は登録文書、第3図(b)はその
書誌的情報である。文書登録支援部2のキーワード作成
支援部における処理によシ、第3図(clのように文書
からキーワード候補が抽出される。つぎに、文書登録支
援部2内の拡張インバーテツドファイル作成支援部との
対話作業により、利用者10はキーワード候補を参考に
しながら、各キーワード候補を実際にキーワードとする
か、キーワードとする場合開速度の大きさをいくつにす
るかを決定する。第3図(a)は、利用者が登録文書に
対して実際に付けたキーワードとその関速度の大きさの
組である。最後に、拡張インバーテッド7アイル管理部
5が追加されたキーワードとその関速度の組をすでに存
在していた拡張インバーテツドファイル7に付加する。
Examples of registered documents and their bibliographic information are shown in Figures 3 (,) to (c).
Shown below. FIG. 3(a) shows the registered document, and FIG. 3(b) shows its bibliographic information. Through the processing in the keyword creation support section of the document registration support section 2, keyword candidates are extracted from the document as shown in FIG. Through dialogue with the department, the user 10 refers to the keyword candidates and decides whether each keyword candidate should actually be used as a keyword, and if so, what size of opening speed should be used. (a) is a set of keywords actually added to the registered document by the user and the magnitude of their related speeds.Finally, the extended inverted 7 isle management unit 5 shows the keywords added and their related speeds. The set is added to the already existing extended inverted file 7.

また、登録文書と書誌的情報は文書情報管理部4を通し
て文書情報データベース6に記憶される。
Further, the registered documents and bibliographic information are stored in the document information database 6 through the document information management section 4.

文書検索処理は利用者の要求に従い、適切な文書を検索
表示することを目的としている。文書選択処理は文書選
択支援部3で行われる。
The purpose of document search processing is to search and display appropriate documents according to user requests. The document selection process is performed by the document selection support section 3.

検索条件はキーワードの指定およびその他書誌的情報に
対する条件設定により行われる。まず、各文書のキーワ
ード以外の条件設定が満たされているか否かが判定され
る。条件が満たされている場合、その文書のファイル確
度の計算が行われ、条件が満たされていない場合、その
文書のファイル確度の計算は行われず値は0とされる。
Search conditions are performed by specifying keywords and setting conditions for other bibliographic information. First, it is determined whether condition settings other than keywords for each document are satisfied. If the conditions are met, the file certainty of the document is calculated; if the conditions are not met, the file certainty of the document is not calculated and the value is set to zero.

キーワードの指定は、利用者の得たい情報を表現するキ
ーワード式によって行う。キーワード式とは1つのキー
ワードあるいは複数のキーワードをAND (積演算)
・OR(和演算)NOT (否定演算)の結合させたも
のである。複数のキーワードの結合が用いられるのは文
書管理装置内に利用者が得ようとしている情報を表現す
る1語のキーワードが存在していない場合である。例え
ば、「中古外車」というキーワードが文書管理装置内に
存在していない場合、存在しているキーワード「自動車
」 「国産」 「中古」を用いたキーワード式 %式%) は否定を表す。また、”#″でORを表すこととする。
Keywords are specified using keyword expressions that express the information the user wants to obtain. A keyword expression is one keyword or multiple keywords AND (product operation)
- It is a combination of OR (sum operation) and NOT (negation operation). A combination of multiple keywords is used when a single keyword expressing the information the user is trying to obtain does not exist in the document management device. For example, if the keyword ``used foreign car'' does not exist in the document management device, the keyword expression % expression %) using the existing keywords ``automobile'', ``domestic production'', and ``used'' represents negation. Further, "#" represents OR.

つぎに、キーワード式Quaryに対する各ファイル確
度の計算法を示す(実際の計算は文書選択支援部3内の
ファイル確度計算部で行われる)。
Next, a method of calculating each file probability for the keyword expression Quarry will be described (the actual calculation is performed by the file probability calculation section in the document selection support section 3).

以下で、i番目のキーワードをKi、1番目の文書をF
ls利用者が指定する検索式をK CLIST 、文書
Fiに含まれている(複数の)キーワードをKFLIS
Tで表す。さらに、i番目の文書のファイル確度をat
(quary〕で表すものとする。以下にファイル確度
計算法を示す。
Below, the i-th keyword is Ki and the first document is F.
ls The search formula specified by the user is KCLIST, and the (multiple) keywords included in document Fi are KFLIS.
Represented by T. Furthermore, the file accuracy of the i-th document is set at
The file accuracy calculation method is shown below.

ア:)  AND : Quary=K l & K 
2の場合Ci (Quary) =Wi [:に1] 
GDWi [:に2〕ここで■は一般化積演算であり、
つぎのいづれかの方法により計算される イ)  OR: Quary=K 1 #K 2の場合
Ci [Qua ry〕=Wt (Kl :I eWi
 (K2]ここでeは一般化和演算であり、つぎのいづ
れかの方法により計算される つ)   NOT  : Quary= ! KCi 
[Qua ry〕= 1−Wi (K)工)一般の場合 任意の検索式はAND10RI/NOTの3つの演算の
組合せとして表現され、ファイル確度の計算も上の3つ
の計算法の組合せによシ計算される。
A:) AND: Quarry=K l & K
In case of 2, Ci (Quary) =Wi [:1]
GDWi [:ni2] where ■ is a generalized product operation,
Calculated by one of the following methods a) OR: If Quarry=K 1 #K 2 then Ci [Qua ry] = Wt (Kl :I eWi
(K2] Here, e is a generalized sum operation and is calculated by one of the following methods) NOT: Quarry=! KCi
[Qua ry] = 1-Wi (K) Engineering) In general, any search expression can be expressed as a combination of three operations: AND10RI/NOT, and the file accuracy can also be calculated by a combination of the above three calculation methods. Calculated.

例えば、 Quary=(!Kl)&(K2Sに3)であるとしよ
う。このとき、 C1(Quary)”(トWi (Kl:l)O(Wt
(K2)flBWi(K3:])つぎに、具体例を示す
。拡張インバーテツドファイルが第2図(b)のようで
ある場合を考える。
For example, suppose that Quarry=(!Kl)&(3 in K2S). At this time, C1(Quary)"(tWi (Kl:l)O(Wt
(K2)flBWi(K3:]) Next, a specific example will be shown. Consider the case where the extended inverted file is as shown in FIG. 2(b).

このとき、文書1〜文書4のファイル確度を前述のア)
〜工)の4つの検索式に対して求める。
At this time, the file accuracy of documents 1 to 4 is
-Eng.) for the four search expressions.

(一般化積・一般化和としてそれぞれ代数積・代数和を
用いた。)この結果を第4図に示す。
(Algebraic product and algebraic sum were used as the generalized product and generalized sum, respectively.) The results are shown in FIG.

文書登録支援部3のファイル確度計算部でファイル確度
が計算されたならば、次に、文書登録支援部3のソート
部で文書をファイル確度の大きい順にソートする。そし
て、その結果が入出力管理部1に送られ利用者10に表
示される。
Once the file accuracy calculation unit of the document registration support unit 3 calculates the file accuracy, the sorting unit of the document registration support unit 3 sorts the documents in descending order of file accuracy. The results are then sent to the input/output management section 1 and displayed to the user 10.

また、利用者10が閾値制御型あいまい検索を選択した
場合、ソートされた結果は文書選択支援部3の閾値制御
部で閾値処理され入出力管理部lに送られる。閾値制御
型あいまい検索は利用者が自分の欲しい文書に対しはつ
きりした質的要求を持っている場合に有効である。例え
ば質の悪い記事は欲しくない場合、閾値を高くしておけ
ばよい。あるいは、利用者が文書数制御型あいまい検索
を選択した場合、ソートされた結果は文書選択支援部3
の文書数制御部で文書数制御処理され入出力管理部lに
送られる。このような文書数制御型あいまい検索は利用
者が自分の欲しい文書に対しはつきシした質的要求を持
っている場合に有効である。
Furthermore, when the user 10 selects the threshold-controlled fuzzy search, the sorted results are subjected to threshold processing by the threshold control section of the document selection support section 3 and sent to the input/output management section l. Threshold-controlled fuzzy search is effective when users have clear qualitative requirements for the documents they want. For example, if you don't want low-quality articles, you can set a high threshold. Alternatively, if the user selects document count control type fuzzy search, the sorted results will be sent to the document selection support unit 3.
The document number control unit performs document number control processing and is sent to the input/output management unit l. Such document count control type fuzzy search is effective when the user has specific qualitative requirements for the document he or she wants.

(発明の効果) 以上説明したように本発明は次のような効果を持つ。(Effect of the invention) As explained above, the present invention has the following effects.

(1)  あいまい検索が可能である。(1) Fuzzy search is possible.

拡張インバーテツドファイルとそれに伴うファイル確度
の導入によシ、各ファイルが検索条件に一致するか否か
の計画が、一致するか否かの2値ではなく、連続の値に
よって利用者に知らされる。したがって、利用者は自分
の基準/判断で必要なファイルを選択することができる
With the introduction of enhanced inverted files and the associated file certainty, users are now informed of whether or not each file matches the search criteria using a continuous value rather than a binary value of match or failure. be done. Therefore, users can select necessary files based on their own criteria/judgment.

(2)閾値制御型あいまい検索が可能である。(2) Threshold-controlled fuzzy search is possible.

閾値制御型あいまい検索により、利用者は必要なファイ
ルをある閾値以上のファイル確度を持つファイルである
と指定し、その閾値以上のファイル確度を持つファイル
のみを検索結果として表示させることができる。
Threshold-controlled fuzzy search allows a user to specify a necessary file as having a file certainty greater than or equal to a certain threshold, and display only files with a file certainty greater than or equal to that threshold as search results.

(3)  ファイル数制御型あいまい検索が可能である
(3) Fuzzy search with controlled number of files is possible.

ファイル数制御型あいまい検索により、利用者は必要な
ファイル数を指定し、そのファイル数あるいはそのファ
イル数に最も近いファイル数だけのファイルを検索結果
として表示させることができる。
With file number control fuzzy search, the user can specify the number of files he or she needs and have that number of files or the number of files closest to that number displayed as search results.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明による文書管理装置の一実施例を示すブ
ロック図、 第2図(a)はキーワードと文書の関係を示す図、第2
図(b)は拡張インバーテツドファイルを示す図、第2
図(c)は従来のインバーテツドファイルを示す図、 第3図(a)は登録文書の例、第3図(b)はその書誌
的情報の例、第3図(c)は抽出したキーワード候補の
例、第3図(d)はキーワードとその関連度の例をそれ
ぞれ示す図、 第4図は文書のファイル確度の計算例を示す図である。 l・・・入出力管理部 2・・・文書登録支援部 3・・・文書選択支援部 4・・・文書情報V埋部 5・・・拡張インバーテツドファイル管理部6・・・文
書情報データベース 7・・・拡張インバーテツドファイル
FIG. 1 is a block diagram showing an embodiment of a document management device according to the present invention, FIG. 2(a) is a diagram showing the relationship between keywords and documents, and FIG.
Figure (b) is a diagram showing an extended inverted file, the second
Figure (c) shows a conventional inverted file, Figure 3 (a) is an example of a registered document, Figure 3 (b) is an example of its bibliographic information, and Figure 3 (c) is an extracted file. FIG. 3(d) is a diagram showing an example of keyword candidates, and FIG. 3(d) is a diagram showing an example of keywords and their degrees of association. FIG. 4 is a diagram showing an example of calculating the file certainty of a document. l...Input/output management section 2...Document registration support section 3...Document selection support section 4...Document information V-embedding section 5...Extended inverted file management section 6...Document information Database 7...Extended inverted file

Claims (1)

【特許請求の範囲】 1、登録文書とその書誌的情報を格納・管理する文書情
報管理手段と、 キーワードと各登録文書間の関連を数値によって保持す
る拡張インバーテッドファイルを格納・管理する拡張イ
ンバーテッドファイル管理手段と、 利用者の登録要求に従い文書の登録・更新・削除をおこ
なう文書登録手段と、 利用者の検索要求に従い前記拡張インバーテッドファイ
ルを用いて検索要求に適合する文書を選択する文書選択
手段と、 入出力の管理をおこなう入出力管理手段とを有し、 文書検索時に、前記拡張インバーテッドフアイルから所
定の計算によって、各文書と利用者が指定するキーワー
ド群との関連度の大きさを示すファイル確度を求め、該
ファイル確度により検索結果が示されることを特徴とす
る文書管理装置。 2、請求項1に記載の文書管理装置において、文書検索
時に、利用者の要求する前記ファイル確度の閾値以上の
前記ファイル確度を持つ文書および利用者の要求する文
書数以内の文書のいずれかを前記ファイル確度の大きい
順に選択することを特徴とする文書管理装置。
[Scope of Claims] 1. Document information management means for storing and managing registered documents and their bibliographic information, and extended inverted files for storing and managing extended inverted files that numerically maintain relationships between keywords and each registered document. a document registration means for registering, updating, and deleting documents according to a user's registration request; and a document for selecting a document matching the search request using the extended inverted file according to the user's search request. It has a selection means and an input/output management means for managing input/output, and when searching for a document, calculates the degree of relevance between each document and a group of keywords specified by the user by performing a predetermined calculation from the expanded inverted file. A document management device characterized in that a file accuracy indicating a file accuracy is determined, and a search result is displayed based on the file accuracy. 2. In the document management device according to claim 1, when searching for a document, one of a document having the file accuracy equal to or higher than the file accuracy threshold requested by the user and a document within the number of documents requested by the user is searched. A document management device characterized in that the files are selected in descending order of file certainty.
JP63177023A 1988-07-18 1988-07-18 Document management device Pending JPH0227478A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63177023A JPH0227478A (en) 1988-07-18 1988-07-18 Document management device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63177023A JPH0227478A (en) 1988-07-18 1988-07-18 Document management device

Publications (1)

Publication Number Publication Date
JPH0227478A true JPH0227478A (en) 1990-01-30

Family

ID=16023805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63177023A Pending JPH0227478A (en) 1988-07-18 1988-07-18 Document management device

Country Status (1)

Country Link
JP (1) JPH0227478A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03294963A (en) * 1990-04-12 1991-12-26 Ricoh Co Ltd Document retrieving device
JPH0452764A (en) * 1990-06-14 1992-02-20 Matsushita Electric Ind Co Ltd Document retrieval device
JPH04262460A (en) * 1991-02-15 1992-09-17 Ricoh Co Ltd Information retrieval device
JPH0689215A (en) * 1992-04-27 1994-03-29 Internatl Business Mach Corp <Ibm> Computer system for information retrieval and operating method of memory device of system thereof
JPH0784859A (en) * 1993-09-14 1995-03-31 Nec Corp Database constitution system
JPH08147328A (en) * 1994-11-15 1996-06-07 Hitachi Ltd Method and device for retrieving document
JPH09114847A (en) * 1995-10-16 1997-05-02 Fuji Xerox Co Ltd Information processor

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03294963A (en) * 1990-04-12 1991-12-26 Ricoh Co Ltd Document retrieving device
JPH0452764A (en) * 1990-06-14 1992-02-20 Matsushita Electric Ind Co Ltd Document retrieval device
JPH04262460A (en) * 1991-02-15 1992-09-17 Ricoh Co Ltd Information retrieval device
JPH0689215A (en) * 1992-04-27 1994-03-29 Internatl Business Mach Corp <Ibm> Computer system for information retrieval and operating method of memory device of system thereof
JPH0784859A (en) * 1993-09-14 1995-03-31 Nec Corp Database constitution system
JPH08147328A (en) * 1994-11-15 1996-06-07 Hitachi Ltd Method and device for retrieving document
JPH09114847A (en) * 1995-10-16 1997-05-02 Fuji Xerox Co Ltd Information processor

Similar Documents

Publication Publication Date Title
US5263159A (en) Information retrieval based on rank-ordered cumulative query scores calculated from weights of all keywords in an inverted index file for minimizing access to a main database
EP0722145B1 (en) Information retrieval system and method of operation
US5907840A (en) Overlapping subdocuments in a vector space search process
US7028020B1 (en) Interactive technique to automatically find and organize items similar to example items
JPH0227478A (en) Document management device
KR20180077830A (en) Processing method for a relational query in distributed stream processing engine based on shared-nothing architecture, recording medium and device for performing the method
JP2829745B2 (en) Document search device
JPH04152468A (en) Document retrieving device
JPH09231231A (en) Data retrieval device
JPH09259139A (en) Document data intelligent retrieval system
JPH06251076A (en) Device and method for retrieving data base
JP2939841B2 (en) Database search device
JP2954949B2 (en) Document search device
JP3578045B2 (en) Full-text search method and apparatus, and storage medium storing full-text search program
JP2000250921A (en) Method and system for managing database
JPH0462667A (en) Method for retrieving data base
JP3088805B2 (en) Document management device
WO2021111769A1 (en) Retrieval device
Welch et al. Retrieval using ordered lists in inverted and multilist files
JPH04135278A (en) Document retrieving device
JPH07210565A (en) Method and device for retrieving information
JPH03296863A (en) Device for managing keyword relation dictionary
CN111353022A (en) Information processing method and device for automatically expanding keywords to perform patent database retrieval
CN115827973A (en) Content searching method and device, electronic equipment and storage medium
JPH07110809A (en) Electronic filing device