JPH07192010A - Document processing unit - Google Patents
Document processing unitInfo
- Publication number
- JPH07192010A JPH07192010A JP5330249A JP33024993A JPH07192010A JP H07192010 A JPH07192010 A JP H07192010A JP 5330249 A JP5330249 A JP 5330249A JP 33024993 A JP33024993 A JP 33024993A JP H07192010 A JPH07192010 A JP H07192010A
- Authority
- JP
- Japan
- Prior art keywords
- search
- document
- keyword
- unit
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【産業上の利用分野】本発明は文書処理装置に関し、特
に全文を対象にして検索を行う全文検索装置に適用可能
な、文書処理装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document processing device, and more particularly, to a document processing device applicable to a full-text search device for searching a whole text.
【0002】[0002]
【従来の技術】文書データベースの普及と、計算機処理
能力の向上により、大量の文書データベースから、指定
したキーワードを含む文書を検索する文書検索装置が用
いられるようになってきている。2. Description of the Related Art Due to the spread of document databases and the improvement of computer processing capability, a document retrieval apparatus for retrieving a document containing a designated keyword from a large amount of document databases has come to be used.
【0003】特に最近では、検索の際の柔軟性を向上さ
せるために、予め文書につけられたキーワードを使って
検索するのでなく、全文を対象にて検索することによ
り、自由なキーワードを指定できるようにした全文検索
の方式が用いられるようになってきている。この方式に
は、どのようなキーワードを使わなければならないとい
う制約がないために、誰にでも検索することができると
いう特長がある。In recent years, in particular, in order to improve flexibility in searching, it is possible to specify a free keyword by searching the entire text instead of using the keyword attached to the document in advance. The full-text search method described above has come to be used. This method has the feature that anyone can search it because there is no restriction that any keywords must be used.
【0004】全文検索の方式では一回のキーワード指定
で目的の検索結果が得られることは少なく、一般にはキ
ーワードを追加して検索を繰り返しながら、だんだんに
検索結果を絞り込んでいくという過程をとるのが普通で
ある。In the full-text search method, the target search result is rarely obtained by specifying the keyword once, and generally, the process of gradually narrowing down the search result is performed while adding the keyword and repeating the search. Is normal.
【0005】[0005]
(1)しかしながら、従来は、ユーザがキーワードを追
加する際に、どのようなキーワードを与えてやれば検索
結果を効果的に絞り込んでいけるかがなかなかわからな
いという問題があった。このため、不適当なキーワード
を与えて、検索結果を絞り込みすぎたり、あるいは、検
索結果が全然絞り込めなかったりすることがしばしばあ
った。(1) However, conventionally, when a user adds a keyword, there is a problem that it is difficult to know what kind of keyword should be given to effectively narrow down the search results. Therefore, it is often the case that an inappropriate keyword is given to narrow down the search results too much, or the search results cannot be narrowed down at all.
【0006】よって本発明の第1の目的は、上述の欠点
を除去し、所望の文書検索を容易かつ迅速に行い得るよ
う構成した文書処理装置を提供することにある。Therefore, a first object of the present invention is to eliminate the above-mentioned drawbacks and to provide a document processing apparatus constructed so that a desired document search can be performed easily and quickly.
【0007】(2)また、ユーザが指定した検索条件を
満たす文書(以下、適合文書と称する)は、分野的な要
因によって、あるいは時期的な要因によってばらついて
いるのが普通である。例えば、新聞記事であれば、ある
「面」に集中していたり、ある「時期」に集中していた
りする。そのため、順次検索していった場合、適合文書
が得られる時間間隔にばらつきが生じる。すなわち、検
索処理の間、ある時点では一度に多くの適合文書が得ら
れるが、別の時点で全く適合文書が得られないというこ
とが起きる。これは、検索結果を随時見たい場合には不
都合である。(2) Further, documents satisfying the search condition designated by the user (hereinafter referred to as conforming documents) usually vary depending on field factors or temporal factors. For example, if it is a newspaper article, it is concentrated on a certain "face" or a certain "period". Therefore, when the documents are sequentially searched, the time intervals at which the matching documents are obtained vary. That is, during the retrieval process, many matching documents can be obtained at one time at one time, but no matching documents can be obtained at another time. This is inconvenient when it is desired to see the search results at any time.
【0008】さらに、これまでに検索した文書の数とそ
のうちの適合文書の数から、最終的な適合文書の件数を
途中の段階で予測する場合にも、適合文書が得られる時
間間隔にばらつきがあると予測が不正確になるという問
題がある。Further, even when the final number of relevant documents is predicted at an intermediate stage from the number of documents retrieved so far and the number of relevant documents among them, the time interval for obtaining the relevant documents varies. If so, there is a problem that the prediction becomes inaccurate.
【0009】よって本発明の第2の目的は、上述の欠点
を時期し、適合文書が得られる時間間隔のばらつきをな
くして、利用しやすい文書検索を可能とした、文書処理
装置を提供することにある。Therefore, a second object of the present invention is to provide a document processing apparatus which, in view of the above-mentioned drawbacks, eliminates the variation in the time interval for obtaining a conforming document and enables an easy-to-use document search. It is in.
【0010】(3)既述のとおり、文書検索装置を用い
て文書検索を行う際には、検索条件が厳しすぎるために
検索結果が過少であること、あるいは検索条件が緩すぎ
るために検索結果が過多であることがよくあるため、一
度の検索で所望の文書を検索することは難しい。そこ
で、検索者は検索結果の量に応じて検索条件を厳しくす
る、あるいは、緩くして再び検索を行うことが通常であ
る。しかしながら従来のこの種の装置では、一度全ての
検索処理を行い、その検索結果の量から検索者が判断し
て、あるいは装置が判断して検索条件を変更していたた
め、厳しすぎるあるいは緩すぎる検索条件で検索処理を
行うことが、無駄になるという欠点があった。とりわ
け、全文検索装置のように検索処理に時間のかかる文書
処理装置では、検索全体にかかる時間を著しく増大させ
る原因となっていた。(3) As described above, when performing a document search using the document search device, the search result is too small because the search condition is too strict, or the search result is too loose because the search condition is too loose. It is difficult to search for a desired document with one search, because there are often too many. Therefore, the searcher usually makes the search condition strict or loosens the search condition according to the amount of the search result and performs the search again. However, in this type of conventional device, all search processing is performed once, and the search condition is changed by the searcher or the device based on the amount of the search result. There is a drawback that performing the search process under the condition becomes useless. In particular, in a document processing device such as a full-text search device that requires a long time for a search process, this has been a cause of significantly increasing the time required for the entire search.
【0011】よって本発明の第3の目的は、上述した従
来の欠点を解決し、検索条件が厳しすぎるあるいは緩す
ぎる場合であっても、無駄な検索処理を行わないように
して、検索全体にかかる時間を削減した文書処理装置を
提供することにある。Therefore, a third object of the present invention is to solve the above-mentioned conventional drawbacks and to prevent the useless search processing even if the search conditions are too strict or too loose, so that the entire search is performed. It is to provide a document processing device that reduces the time.
【0012】[0012]
(1)本発明の第1の目的を達成するために、複数の文
書を有する文書データベースと、文書を検索する条件を
入力する検索条件入力手段と、前記文書データベースか
ら前記検索条件を満たす文書を全文検索によって検索す
る検索手段と、前記検索手段により検索した結果得られ
た文書からキーワード群を抽出する第1の抽出手段と、
前記キーワード群を評価し、その評価値によってキーワ
ードを整列させる整列手段と、前記キーワード群の中か
ら特定のキーワードを選択する選択手段と、前記選択手
段により選択されたキーワードを含む文書を前記検索結
果から抽出する第2の抽出手段とを具備し、全文検索の
検索結果を絞り込むことのできるキーワードを提示し、
該提示によって検索結果を絞り込むものである。(1) In order to achieve the first object of the present invention, a document database having a plurality of documents, search condition input means for inputting a condition for searching a document, and a document satisfying the search condition from the document database. Search means for searching by full-text search; first extracting means for extracting a keyword group from a document obtained as a result of the search by the searching means;
Aligning means for evaluating the keyword group and arranging the keywords according to the evaluation value, selecting means for selecting a specific keyword from the keyword group, and a document including the keyword selected by the selecting means as the search result. The second extraction means for extracting from is presented, and the keywords that can narrow down the search results of the full-text search are presented,
The search results are narrowed down by the presentation.
【0013】(2)本発明の第2の目的を達成するため
に、文書を保存する文書保存手段と、文書を検索する条
件を入力する検索条件入力手段と、前記文書保持手段か
ら前記検索条件を満たす文書を検索する検索手段と、前
記検索手段において文書を検索する際の順序を制御する
制御手段とを具備し、文書を検索する順序に偏りがない
ようにしたものである。(2) In order to achieve the second object of the present invention, document saving means for saving a document, search condition input means for inputting a condition for searching a document, and the search condition from the document holding means. A search means for searching documents satisfying the above condition and a control means for controlling the order of searching the documents by the search means are provided so that the order of searching the documents is not biased.
【0014】(3)本発明の第3の目的を達成するため
に、検索対象となる文書を保持する検索対象文書保持手
段と、検索条件を保持する検索条件保持手段と、前記検
索対象文書保持手段に保持されている検索対象文書から
前記検索条件保持手段に保持されている検索条件を満足
する文書を検索する検索処理手段と、前記検索処理手段
によって検索された結果を保持する検索結果保持手段と
を有する文書処理装置であって、検索される結果の件数
が過少あるいは過多となることを処理中途において予想
することにより、検索処理の続行の可否を判定する検索
続行可否判定手段を具備した構成とする。ここで、更に
加えて、前記検索続行可否判定手段によって検索を続行
しないと判定されたときに検索条件変更の指示を作成す
る検索条件変更指示作成手段と、前記検索条件変更指示
作成手段によって作成された検索条件変更の指示を保持
する検索条件変更指示保持手段とを有するのが好適であ
る。(3) In order to achieve the third object of the present invention, a search target document holding unit for holding a document to be searched, a search condition holding unit for holding a search condition, and the search target document holding unit. Retrieval processing means for retrieving documents satisfying the retrieval conditions retained in the retrieval condition retaining means from the retrieval target documents retained in the means, and retrieval result retaining means retaining the results retrieved by the retrieval processing means A document processing apparatus having: a configuration including search continuation possibility determination means for determining whether or not the search process can be continued by predicting that the number of retrieved results will be too small or too large in the middle of the process. And Here, in addition, the search continuation possibility determination means creates a search condition change instruction when the search continuation possibility determination means determines not to continue the search, and the search condition change instruction creation means creates the search condition change instruction. It is preferable to have a search condition change instruction holding unit that holds the instruction to change the search condition.
【0015】[0015]
(1)本発明によれば、検索結果からキーワード群を抽
出し、それらを評価し、その評価値によってキーワード
を整列させ、その中から追加するキーワードをユーザが
選択することによって、検索結果を絞り込むことができ
る。かくして、目的の文書を得るまでの時間を短縮する
ことができる。(1) According to the present invention, a keyword group is extracted from a search result, the keywords are evaluated, the keywords are arranged according to the evaluation value, and a user selects a keyword to be added from among the keywords, thereby narrowing down the search result. be able to. Thus, it is possible to shorten the time required to obtain the target document.
【0016】(2)また本発明によれば、文書を検索す
る順序を制御する手段を設け、文書を検索する順序が文
書の種類・時期などの面で偏らないようにしたので、適
合文書の得られる時間間隔にばらつきがなくなることが
期待できる。(2) Further, according to the present invention, means for controlling the order of searching the documents is provided so that the order of searching the documents is not biased in terms of type and timing of the documents. It can be expected that the obtained time intervals will not vary.
【0017】(3)さらに本発明によれば、検索される
結果の件数が過少あるいは過多となることを処理中途に
おいて予想することにより、検索条件が厳しすぎるある
いは緩すぎる場合に検索処理を中断するので、無駄な検
索処理を行わずにすみ、検索全体にかかる時間を削減す
ることができる。(3) Further, according to the present invention, the search processing is interrupted when the search conditions are too strict or too loose by predicting that the number of search results will be too small or too large during the processing. Therefore, it is possible to eliminate unnecessary search processing and reduce the time required for the entire search.
【0018】[0018]
【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。Embodiments of the present invention will now be described in detail with reference to the drawings.
【0019】実施例1 図1は、本発明の一実施例に係る装置の構成を示すブロ
ック図である。 Embodiment 1 FIG. 1 is a block diagram showing the configuration of an apparatus according to an embodiment of the present invention.
【0020】図1において101は検索条件を入力する
検索条件入力部、102は検索条件を満たす文書を全文
検索によって検索する検索処理部、103は検索対象と
なる文書を有する文書データベース、104は検索処理
部102で得られた結果を保持する検索結果保持部、1
05は検索結果を出力する検索結果出力部、106は検
索結果からキーワードを抽出し評価するキーワード評価
部、107はキーワードを抽出する際の形態素解析を行
う形態素解析処理部、108はキーワードと各キーワー
ドが出現する文書の文書番号を保持するキーワード保持
部、109は各文書についてキーワードを保持する文書
キーワード保持部、110はキーワード評価部106で
抽出し評価されたキーワードを表示するキーワード表示
部、111はキーワード表示部に表示されたキーワード
から特定のキーワードを選択するためのキーワード選択
部である。In FIG. 1, 101 is a search condition input section for inputting search conditions, 102 is a search processing section for searching documents satisfying the search conditions by full-text search, 103 is a document database having documents to be searched, and 104 is a search. Search result holding unit that holds the results obtained by the processing unit 102, 1
Reference numeral 05 is a search result output unit that outputs search results, 106 is a keyword evaluation unit that extracts and evaluates keywords from the search results, 107 is a morphological analysis processing unit that performs morphological analysis when extracting keywords, and 108 is a keyword and each keyword , A keyword holding unit that holds the document number of the document in which 109 appears, 109 is a document keyword holding unit that holds the keyword for each document, 110 is a keyword display unit that displays the keywords extracted and evaluated by the keyword evaluation unit 106, and 111 is It is a keyword selection unit for selecting a specific keyword from the keywords displayed on the keyword display unit.
【0021】図2は、本実施例におけるシステム構成図
である。同図において、201は図3および図4に示す
制御手順を記憶する制御メモリである。これはROMで
あってもよいし、RAMであってもよい。202は制御
メモリ201に記憶されている制御手段にしたがって処
理を行なう中央処理装置である。203はメモリで、検
索結果を保持する検索結果保持部・キーワードを保持す
るキーワード保持部・文書ごとのキーワードを保持する
文書キーワード保持部を有する。204はキーボードで
あり、検索条件や選択したキーワードをユーザが入力す
るのに用いる。205はディスク装置であり、文書デー
タベースを有する。206はディスプレイで、CRTで
あってもよいし、液晶ディスプレイであってもよい。こ
れは検索結果やキーワードを表示するのに用いる。20
7はバスである。FIG. 2 is a system configuration diagram in this embodiment. In the figure, 201 is a control memory for storing the control procedure shown in FIGS. 3 and 4. This may be ROM or RAM. Reference numeral 202 denotes a central processing unit that performs processing in accordance with the control means stored in the control memory 201. Reference numeral 203 denotes a memory, which includes a search result holding unit that holds search results, a keyword holding unit that holds keywords, and a document keyword holding unit that holds keywords for each document. A keyboard 204 is used by the user to input search conditions and selected keywords. A disk device 205 has a document database. 206 is a display, which may be a CRT or a liquid crystal display. This is used to display search results and keywords. 20
7 is a bus.
【0022】図3は、図1に示した装置における動作の
処理手順を示すフローチャートである。本図を参照しな
がら、本発明の一実施例の動作を説明する。FIG. 3 is a flow chart showing the processing procedure of the operation in the apparatus shown in FIG. The operation of the embodiment of the present invention will be described with reference to the figure.
【0023】まず、ステップS301では、ユーザが検
索条件入力部101から入力した検索条件を満たす文書
を文書データベース103から検索する検索処理を検索
処理部102で行う。ここでの検索処理は、一般に知ら
れている全文検索の手法によって行なえばよい。得られ
た検索結果の文書の文書番号は、ステップS302にお
いて検索結果保持部104に保持する。次にステップS
303において、検索結果保持部104に保持された検
索結果が複数かどうかを調べる。保持された検索結果が
ない、もしくは一つだけある場合はそのまま処理を終了
する。First, in step S301, the search processing unit 102 performs a search process for searching the document database 103 for a document satisfying the search condition input by the user from the search condition input unit 101. The search processing here may be performed by a generally known full-text search method. The document number of the obtained search result document is held in the search result holding unit 104 in step S302. Then step S
At 303, it is checked whether or not there are a plurality of search results held in the search result holding unit 104. If there is no stored search result or if there is only one search result, the process ends.
【0024】ステップS303で検索結果が複数あった
場合は、ステップS304に移り、キーワード評価を行
うかどうかをユーザに問い合わせる。キーワード評価を
行なわないことをユーザが指示した場合は、処理を終了
する。If there are a plurality of search results in step S303, the process moves to step S304 to inquire of the user whether or not to perform keyword evaluation. If the user has instructed not to perform keyword evaluation, the process ends.
【0025】ステップS304で、キーワード評価を行
なうことをユーザが指示した場合は、ステップS305
でキーワード評価処理を行い、その結果得られたキーワ
ードを、出現する文書が多い順に、その文書数とともに
キーワード表示部110に表示する。全てを表示するこ
とは難しいので、予め指定した数だけ上位のものから示
すようにする。キーワード評価処理の手順については後
述する。In step S304, when the user gives an instruction to perform keyword evaluation, step S305.
The keyword evaluation process is performed in step S3, and the keywords obtained as a result are displayed in the keyword display unit 110 together with the number of documents in the order of the number of documents that appear. Since it is difficult to display all of them, it is preferable to display only a predetermined number from the top. The procedure of the keyword evaluation process will be described later.
【0026】次にステップS306で、ユーザにそのキ
ーワード群の中からキーワードを選択させる。これはキ
ーワード選択部111から入力することによって行う。
ステップS307では、ユーザが選択したキーワードを
含む文書を抽出し、これを検索結果とする。そして、ス
テップS302に戻って処理を繰り返す。Next, in step S306, the user is made to select a keyword from the keyword group. This is done by inputting from the keyword selection unit 111.
In step S307, the document including the keyword selected by the user is extracted and used as the search result. Then, the process returns to step S302 and the process is repeated.
【0027】図4は、図1に示した装置における動作の
処理手順のうちキーワード評価処理S305の処理手順
を詳細に示したものである。この図を参照しながらキー
ワード評価処理の手順を説明する。FIG. 4 shows in detail the processing procedure of the keyword evaluation processing S305 among the processing procedure of the operation in the apparatus shown in FIG. The procedure of the keyword evaluation process will be described with reference to this figure.
【0028】まず、ステップS401では検索結果保持
部104から文書番号を一つ取り出し、ステップS40
2において、その文書が既にキーワードを登録されてい
るものかどうかを調べる。既にキーワードが登録されて
いる場合は、ステップS406に移る。First, in step S401, one document number is retrieved from the search result holding unit 104, and step S40
In step 2, it is checked whether the document has already registered the keyword. If the keyword is already registered, the process proceeds to step S406.
【0029】キーワードが登録されていない場合は文書
データベース103から文書を取り出し、ステップS4
03で、その文書について形態素解析処理を行う。形態
素解析の手法については、最長一致法・文節数最小法な
ど一般に知られているどのような手法を用いてもよい。If the keyword is not registered, the document is retrieved from the document database 103, and step S4
At 03, morphological analysis processing is performed on the document. As the morphological analysis method, any generally known method such as the longest matching method or the minimum number of clauses may be used.
【0030】ステップS404では、形態素解析の結果
得られた全単語の中からキーワードとして抽出しない不
要語(助詞・助動詞など、予め定めておく)を除いてキ
ーワードを抽出し、さらに文書中で重複しているキーワ
ードは一つにまとめる。また、既にユーザが指定した検
索条件に存在するキーワードも除く。ステップS405
では、この文書について、文書中に現われるキーワード
を、文書キーワード保持部109に登録する。In step S404, keywords are extracted from all the words obtained as a result of morphological analysis, excluding unnecessary words (particles, auxiliary verbs, etc., which are predetermined) that are not extracted as keywords, and are duplicated in the document. The keywords that are shown are grouped together. In addition, keywords that already exist in the search conditions specified by the user are also excluded. Step S405
Then, for this document, the keywords appearing in the document are registered in the document keyword holding unit 109.
【0031】次にステップS406に移り、キーワード
保持部108中のキーワードのうちこの文書に現われる
ものにこの文書の文書番号を登録する。キーワード保持
部108に存在しないキーワードがこの文書中にある場
合は、キーワードを登録してから、文書番号を登録す
る。Next, in step S406, the document number of this document is registered in the keywords appearing in this document among the keywords in the keyword holding unit 108. If a keyword that does not exist in the keyword holding unit 108 exists in this document, the keyword is registered first, and then the document number is registered.
【0032】ステップS407では、未処理の文書が残
っているかどうかを調べ、残っている場合は、ステップ
S401に戻り、これまでの処理を繰り返す。全ての文
書を処理し終わった場合は、ステップS408に移る。
ステップS408では、キーワード保持部108中に存
在する全キーワードについて、登録されている文書の数
(すなわちそのキーワードが出現する文書の数)によっ
てキーワードをソートする。In step S407, it is checked whether or not an unprocessed document remains, and if it remains, the process returns to step S401, and the processing up to this point is repeated. If all the documents have been processed, the process moves to step S408.
In step S408, for all the keywords existing in the keyword holding unit 108, the keywords are sorted according to the number of registered documents (that is, the number of documents in which the keyword appears).
【0033】次に、実例を示して、本実施例の更なる具
体的な説明を行う。Next, a more specific description of the present embodiment will be given by showing an actual example.
【0034】文書キーワード保持部109の内容は、例
えば図5に示すようになる。文書キーワード保持部では
文書ごとにその中に現われるキーワードを列挙する。こ
の例では、文書番号000101の文書にはキーワード
として、「出版,CD−ROM,パソコン,…」が存在
し、文書番号000168の文書にはキーワードとし
て、「パソコン,ワークステーション,OS,…」が存
在する。The contents of the document keyword holding unit 109 are as shown in FIG. 5, for example. The document keyword holding unit lists the keywords that appear in each document. In this example, "publishing, CD-ROM, personal computer, ..." exists as a keyword in the document of document number 01011, and "personal computer, workstation, OS, ..." as a keyword in the document of document number 000168. Exists.
【0035】また、キーワード保持部108の内容は、
例えば図6に示すようになる。キーワード保持部では、
キーワードごとにそれがあらわれる文書の文書番号を列
挙する。この例では、「パソコン」というキーワードが
文書番号000101,000168,000487,
…の文書に存在し、「ワープロ」というキーワードが文
書番号000254,000614,000713,…
の文書に存在する。The contents of the keyword holding unit 108 are as follows.
For example, as shown in FIG. In the keyword holder,
For each keyword, list the document number of the document in which it appears. In this example, the keyword “personal computer” has document numbers 000011, 000168, 000487,
Exists in the document of “...,” and the keyword “word processor” has the document numbers 00254, 000614, 000713 ,.
Present in the document.
【0036】キーワード評価部106では、キーワード
保持部108に存在するキーワードについて、文書数が
多い順にソートし、文書数とともににキーワード表示部
110に表示する。この例を示したのが図7である。こ
の例では、最も多く存在するキーワードが「パソコン」
であり(文書数が243)、2番目に多く存在するキー
ワードが「出版」である(文書数が118)ことが示さ
れている。仮にユーザがキーワード「出版」を選択した
とすると、文書数が118に絞り込まれることになる。
同様の処理を繰り返すことによって、効率的に目的の文
書を得ることができる。The keyword evaluation section 106 sorts the keywords existing in the keyword holding section 108 in descending order of the number of documents and displays them together with the number of documents in the keyword display section 110. This example is shown in FIG. In this example, the most common keyword is "PC"
(The number of documents is 243), and the second most abundant keyword is “publish” (the number of documents is 118). If the user selects the keyword “publish”, the number of documents will be narrowed down to 118.
By repeating the same process, the target document can be efficiently obtained.
【0037】次に、上記実施例の変形例(異なった実施
の態様)を列挙する。Next, modified examples (different embodiments) of the above embodiment will be listed.
【0038】1.上記実施例では、キーワード抽出の際
に、形態素解析して得られた単語をそのままキーワード
としたが、これだとキーワードがばらつく可能性があ
る。これに対処するために、類義語辞書・異表記語辞書
を用意しておき、類義語・異表記語を一種類のキーワー
ドに写像することによってキーワード抽出をするように
してもよい。例えば、形態素解析の結果、「コンピュー
ター」「計算機」「電算機」「コンピュータ」というキ
ーワードが得られたときに、これらを「コンピュータ」
に写像する。このようにしても本発明は全く同様に実施
できる。1. In the above embodiment, the words obtained by the morphological analysis were used as the keywords when the keywords were extracted, but the keywords may vary. To deal with this, a synonym dictionary / different notation word dictionary may be prepared, and the synonym / different notation word may be mapped to one type of keyword for keyword extraction. For example, when the keywords “computer”, “computer”, “computer”, and “computer” are obtained as a result of morphological analysis, these are referred to as “computer”.
Map to. Even in this case, the present invention can be implemented in exactly the same manner.
【0039】2.上記実施例では、出現する文書の数を
用いてキーワードを評価したが、これはほかの評価値で
あってもよい。例えば、単に出現する文書の数ではな
く、文書中に現われる回数によって重み付けした数値を
用いてもよい。2. In the above-described embodiment, the keyword is evaluated using the number of documents that appear, but this may be another evaluation value. For example, a numerical value weighted by the number of times it appears in the document may be used instead of simply the number of documents that appear.
【0040】3.上記実施例では、キーワードを表示す
る際に文書数とともに表示したが、文書数ではなく、文
書数の絞り込みの割合を示してもよい。また、キーワー
ドと文書数を表の形で示すのでなく、グラフのような図
的な手段で表示してもよい。3. In the above embodiment, the keywords are displayed together with the number of documents when displayed, but the ratio of narrowing down the number of documents may be indicated instead of the number of documents. Further, the keywords and the number of documents may not be shown in the form of a table, but may be displayed by a graphical means such as a graph.
【0041】4.上記実施例では、上位のものからある
数だけキーワードを表示したが、絞り込みの割合の適正
範囲を設定できるようにし、その範囲に納まっているも
のを示すようにしてもよい。4. In the above-mentioned embodiment, a certain number of keywords are displayed from the top, but it is also possible to set an appropriate range of the narrowing down ratio and show the keywords within that range.
【0042】5.上記実施例では、形態素解析をしてキ
ーワードを抽出したが、単語インデクスが付与されてい
るような文書の場合は、形態素解析によるキーワード抽
出処理を除いて、その単語インデクスをキーワードとし
て利用してもよい。また、形態素解析でなく、文字種に
よるキーワード抽出を行ってもよい。5. In the above embodiment, the keyword was extracted by performing morpheme analysis, but in the case of a document to which a word index is added, even if the word index is used as a keyword, except for the keyword extraction process by morpheme analysis. Good. Further, keyword extraction based on character types may be performed instead of morphological analysis.
【0043】6.上記実施例では、入力手段がキーボー
ドであったが、マウスなど他の手段であってもよい。6. Although the input means is the keyboard in the above embodiment, it may be other means such as a mouse.
【0044】実施例2 図8は、本発明の第2の実施例に係る装置の構成を示す
ブロック図である。 Embodiment 2 FIG. 8 is a block diagram showing the arrangement of an apparatus according to the second embodiment of the present invention.
【0045】図8において801は検索条件を入力する
検索条件入力部、802は検索条件入力部801から入
力された検索条件を解析する検索条件解析部、803は
検索条件を満たす文書を検索する検索処理部、804は
検索処理部803で得られた結果を出力する検索結果出
力部、805は文書の書かれた時期や文書の種類などに
対する制約条件を保持する制約条件保持部、806は文
書を検索する順序を制御する検索順序制御部、807は
文書検索の順序を決めるために用いる乱数を発生する乱
数発生部、808は検索対象の文書の文書管理情報(文
書の書かれた時期や文書の種類などの情報)を保持する
選択情報保持部、809は検索対象となる文書を保持す
る文書データベース、810はそれぞれの文書につい
て、文書管理情報を保持する文書管理情報ファイルであ
る。In FIG. 8, reference numeral 801 is a search condition input section for inputting search conditions, 802 is a search condition analysis section for analyzing the search conditions input from the search condition input section 801, and 803 is a search for searching documents satisfying the search conditions. A processing unit, 804 is a search result output unit that outputs the results obtained by the search processing unit 803, 805 is a constraint condition holding unit that holds constraint conditions for the time when the document was written, the document type, and the like, and 806 is the document. A search order control unit that controls the search order, 807 is a random number generation unit that generates a random number used to determine the document search order, and 808 is document management information of the document to be searched (when the document was written, A selection information holding unit that holds information such as type), a document database that holds documents to be searched 809, and document management information 810 for each document. It is a document management information file to be lifting.
【0046】文書管理情報ファイル810の内容は、例
えば図9に示すようになっている。これは新聞記事に関
するものであり、面と記事の時期によって記事が分類さ
れている。それぞれの記事にはIDがふられており、さ
らに文書ファイル上のアドレスが与えられている。The contents of the document management information file 810 are as shown in FIG. 9, for example. This is about newspaper articles, which are categorized by surface and time of article. Each article is given an ID and an address on the document file is given.
【0047】図10は、図8に示した装置における動作
の処理手順を示すフローチャートである。本図を参照し
ながら本実施例の動作を説明する。FIG. 10 is a flow chart showing the processing procedure of the operation in the apparatus shown in FIG. The operation of this embodiment will be described with reference to this figure.
【0048】まず、ステップS501では検索条件入力
部801で検索条件の入力を行う。次に、ステップS5
02に移り、入力された検索条件を検索条件解析部80
2で解析する。First, in step S501, the search condition input unit 801 inputs search conditions. Next, step S5
02, the input search condition is searched for by the search condition analysis unit 80.
Analyze in 2.
【0049】ステップS503では、検索条件のうち、
文書の書かれた時期や文書の種類などに対する制約を表
す制約条件があるかどうか調べる。制約条件がある場合
は、ステップS504で制約条件を制約条件保持部80
5に保持する。制約条件がない場合は、全文書が対象に
なるので、ステップS505で制約条件保持部805に
「全文書が対象」という制約条件を保持する。In step S503, among the search conditions,
Check whether there is a constraint condition that represents constraints such as when the document was written or the type of document. If there is a constraint condition, the constraint condition is stored in the constraint condition holding unit 80 in step S504.
Hold at 5. If there is no constraint condition, all documents are targeted, so in step S505, the constraint condition holding unit 805 holds the constraint condition "all documents are targeted".
【0050】次にステップS506において、制約条件
保持部805に保持された制約条件を満たす文書の管理
情報を選択情報保持部808に保持する。そして、ステ
ップS507で、乱数発生部807で発生させた乱数に
よって、選択情報保持部808に文書管理情報が保持さ
れている文書の中から文書を一つ選択する。選択された
文書の文書管理情報はステップS508で選択情報保持
部808から削除する。続いてステップS509で、選
択した文書を文書データベース809から読み込み、検
索条件を満たしているかどうかを調べる検索処理を行
う。Next, in step S 506, the management information of the document satisfying the constraint condition held in the constraint condition holding unit 805 is held in the selection information holding unit 808. Then, in step S507, one document is selected from the documents whose document management information is held in the selection information holding unit 808 by the random number generated by the random number generation unit 807. The document management information of the selected document is deleted from the selection information holding unit 808 in step S508. Subsequently, in step S509, the selected document is read from the document database 809, and a search process for checking whether the search condition is satisfied is performed.
【0051】ステップS510では、選択情報保持部8
08にまだ文書管理情報が残っているかどうかを調べ、
残っている場合はステップS507に戻って処理を繰り
返す。残っていない場合は処理を終了する。In step S510, the selection information holding unit 8
Check whether the document management information still remains in 08,
If any remain, the process returns to step S507 and repeats. If not remaining, the process ends.
【0052】次に、新聞記事を検索する場合を例にと
り、本実施例の更なる具体的な説明を行う。検索条件と
して「1990年の記事で、コンピュータの販売に関す
るものは?」というものが与えられたとする。検索条件
解析によって、「1990年の記事」という制約条件が
得られる。文書管理情報ファイル810を参照して、1
990年の記事に対応する文書の文書管理情報を選択情
報保持部808に保持する。Next, a more specific description of the present embodiment will be given by taking the case of searching newspaper articles as an example. It is assumed that the search condition is “What is the article about 1990 selling computers?”. By the search condition analysis, the constraint condition of “Article in 1990” is obtained. 1 referring to the document management information file 810
The document management information of the document corresponding to the article of 990 is held in the selection information holding unit 808.
【0053】この例の検索条件だと、適合文書は経済面
にかたまっていることが考えられる。従来の手法では、
経済面をまとめて検索していたために、適合文書が得ら
れる時間間隔にばらつきが生じる可能性があった。Under the search conditions of this example, it is considered that the matching documents are economically concentrated. With traditional methods,
Because the economics were searched collectively, there was a possibility that the time interval for obtaining the matching documents could vary.
【0054】本実施例では、検索順序制御部806で、
乱数発生部807が発生する乱数によって文書の検索順
序を制御する。この順序は例えば、「政治面1月 No.0
00623」→「社会面9月 No.000713」→「経
済面2月 No.000223」のようにランダムなものに
なる。これによって、適合文書が得られる時間間隔が均
等になることが期待できる。In this embodiment, the search order controller 806
The random number generated by the random number generator 807 controls the document search order. This order is, for example, "Political January No. 0
It becomes a random one such as “00623” → “Social September No.000713” → “Economic February No.000223”. As a result, it can be expected that the time intervals for obtaining the matching documents are even.
【0055】次に、上記実施例の変形例(異なった実施
の態様)を列挙する。Next, modified examples (different embodiments) of the above embodiment will be listed.
【0056】1.上記実施例では一つひとつの文書を検
索順序を決める単位としたが、いくつかの文書のまとま
りを単位としてもよい。1. In the above embodiment, each document is used as a unit for determining the search order, but a unit of several documents may be used as a unit.
【0057】2.上記実施例では検索順序を決める方法
として乱数を用いたが、偏りがないような順序が得られ
るのであれば乱数以外の方法によってもよい。2. Although a random number is used as a method for determining the search order in the above embodiment, a method other than a random number may be used as long as an order with no bias can be obtained.
【0058】3.上記実施例では文書管理情報として、
文書の書かれた時期と文書の種類を用いたが、この他
に、文書を書いた著者などの別の要因を合わせて用いて
もよい。また、このうちの一部を用いてもよい。3. In the above embodiment, as the document management information,
Although the time when the document was written and the type of document were used, other factors such as the author who wrote the document may also be used together. Moreover, you may use some of these.
【0059】4.上記実施例では一つひとつの文書につ
いて選択と検索処理を繰り返しているが、最初に検索順
序を全て決定してから、検索処理を行ってもよい。4. In the above embodiment, the selection and the search process are repeated for each document, but the search process may be performed after first determining all the search orders.
【0060】実施例3 図11は、本発明の第3の実施例に係る装置の構成を示
すブロック図である。 Embodiment 3 FIG. 11 is a block diagram showing the arrangement of an apparatus according to the third embodiment of the present invention.
【0061】図11において、1は検索対象となる文書
を保持する検索対象文書保持部、2は検索条件を保持す
る検索条件保持部、3は検索対象文書保持部1に保持さ
れている検索対象文書から検索条件保持部2に保持され
ている検索条件を満足する文書を検索する検索処理部、
4は検索処理部3によって検索された結果を保持する検
索結果保持部、5は検索処理部3によって検索される結
果の件数が過少あるいは過多となることを処理中途にお
いて予想することにより検索処理の続行の可否を判定す
る検索続行可否判定部、6は検索続行可否判定部5によ
って検索を続行しないと判定されたときに検索条件変更
の指示を作成する検索条件変更指示作成部、7は検索条
件変更指示作成部6によって作成された検索条件変更の
指示を保持する検索条件変更指示保持部である。In FIG. 11, 1 is a search target document holding unit that holds a document to be searched, 2 is a search condition holding unit that holds search conditions, and 3 is a search target that is held in the search target document holding unit 1. A search processing unit that searches documents that satisfy the search conditions held in the search condition holding unit 2,
Reference numeral 4 indicates a search result holding unit that holds the results searched by the search processing unit 3, and 5 indicates that the search processing is performed by predicting that the number of results searched by the search processing unit 3 is too small or too large during processing. A search continuation possibility determination unit that determines whether continuation is possible, a search condition change instruction generation unit 6 that generates a search condition change instruction when the search continuation possibility determination unit 5 determines not to continue the search, and a search condition 7 It is a search condition change instruction holding unit that holds the search condition change instruction created by the change instruction creating unit 6.
【0062】図12は、本実施例のシステム構成を示
す。ここで、21は制御メモリであり、図13はフロー
チャートに示すような制御手順に従った制御プログラム
を記憶する。22は制御メモリ21に保持されている制
御手順に従って判断・演算などを行う中央処理装置であ
る。23はメモリであり、検索条件保持部CB,検索結
果保持部RB,検索条件変更指示保持部IBを有してい
る。24はディスク装置であり、検索対象文書保持部T
Bを有している。25はバスである。FIG. 12 shows the system configuration of this embodiment. Here, 21 is a control memory, and FIG. 13 stores a control program according to the control procedure as shown in the flowchart. Reference numeral 22 is a central processing unit for making judgments / calculations and the like according to the control procedure stored in the control memory 21. Reference numeral 23 denotes a memory, which has a search condition holding unit CB, a search result holding unit RB, and a search condition change instruction holding unit IB. Reference numeral 24 denotes a disk device, which is a search target document holding unit T
Have B. 25 is a bus.
【0063】次に図13に示すフローチャートを参照し
て、本装置の動作を説明する。Next, the operation of this apparatus will be described with reference to the flow chart shown in FIG.
【0064】まず、検索条件保持部2に検索条件が保持
されるまで、ステップS1が繰り返される。検索条件が
検索条件保持部2に保持されると、ステップS2に移
る。First, step S1 is repeated until the search condition holding unit 2 holds the search condition. When the search condition is held in the search condition holding unit 2, the process proceeds to step S2.
【0065】ステップS2では、検索対象文書保持部1
に未処理の検索対象文書が残っているか否かを調べ、未
処理の検索対象文書が残っている場合はステップS3に
移る。未処理の検索対象文書が残っていない場合は全て
の処理を終了する。In step S2, the retrieval target document holding unit 1
It is checked whether or not the unprocessed search target document remains, and if the unprocessed search target document remains, the process proceeds to step S3. If no unprocessed documents to be searched remain, all the processes are terminated.
【0066】ステップS3では、検索対象文書保持部1
に保持されている未処理の検索対象文書から一文書を検
索処理部3に取り出しステップS4に移る。In step S3, the retrieval target document holding unit 1
One document is retrieved from the unprocessed documents to be retrieved and stored in the retrieval processing unit 3, and the process proceeds to step S4.
【0067】ステップS4では、ステップS3で取り出
された文書に対して、検索条件保持部2に保持されてい
る検索条件を満足するか否かを調べることにより検索を
行い、検索された場合は当該文書を同定できる情報を検
索結果として検索結果保持部4に保持する。そしてステ
ップS5に移る。In step S4, the document retrieved in step S3 is searched by checking whether or not the search condition held in the search condition holding unit 2 is satisfied. Information that can identify a document is held in the search result holding unit 4 as a search result. Then, the process proceeds to step S5.
【0068】ステップS5では、検索処理部3によって
処理された文書の数である検索処理件数が、検索続行の
可否の判定を行うか否かの規定値に等しいか否かを調
べ、規定値に等しい場合はステップS6に移る。規定値
に等しくない場合はステップS2の先頭に帰る。In step S5, it is checked whether or not the number of retrieval processings, which is the number of documents processed by the retrieval processing unit 3, is equal to a prescribed value for determining whether or not to continue the retrieval. If they are equal, the process proceeds to step S6. If it is not equal to the specified value, the process returns to the beginning of step S2.
【0069】ステップS6では、検索処理部3によって
検索された文書の数である検索結果件数が、検索を続行
するか否かの規定範囲内にあるか否かを調べ、規定範囲
内にある場合はステップS2の先頭に帰る。規定範囲内
にない場合は、ステップS7に移る。In step S6, it is checked whether or not the number of search results, which is the number of documents searched by the search processing unit 3, is within a specified range of whether or not to continue the search. Returns to the beginning of step S2. If it is not within the specified range, the process proceeds to step S7.
【0070】ステップS5とステップS6での処理のた
めに例えば、図14に示すような検索処理件数のカウン
タと検索結果件数のカウンタ並びに図15に示すような
検索処理件数の規定値と検索結果件数の規定範囲の上限
・下限を組み合わせて保持するテーブルを用いる。For the processing in steps S5 and S6, for example, a counter for the number of search processings and a counter for the number of search results as shown in FIG. 14 and a prescribed value for the number of search processings and the number of search results as shown in FIG. A table that holds the upper and lower limits of the specified range is combined is used.
【0071】ステップS5では、検索処理件数のカウン
タの値とテーブルの検索処理件数の規定値とを比較す
る。例えば図15に示すようなテーブルを用いていると
き、カウンタの値が図14のようなときには、ステップ
S2の先頭に帰る。In step S5, the value of the counter of the number of search processing cases is compared with the specified value of the number of search processing cases in the table. For example, when the table shown in FIG. 15 is used and the counter value is as shown in FIG. 14, the process returns to the beginning of step S2.
【0072】カウンタの値が図16や図17のようなと
きにはステップS6に移る。When the counter value is as shown in FIG. 16 or 17, the process proceeds to step S6.
【0073】ステップS6では、検索結果件数のカウン
タの値と、検索処理件数のカウンタと一致した検索処理
件数の規定値に対応する検索結果件数の規定範囲の上限
・下限とを比較する。前記例において、カウンタの値が
図16のようなときにはステップS2の先頭に帰る。カ
ウンタの値が図17のようなときにはステップS7に移
る。In step S6, the value of the counter of the number of search results is compared with the upper and lower limits of the specified range of the number of search results corresponding to the specified value of the number of search processing that matches the counter of the number of search processing. In the above example, when the counter value is as shown in FIG. 16, the process returns to the beginning of step S2. When the counter value is as shown in FIG. 17, the process proceeds to step S7.
【0074】ステップS7では、検索結果件数が規定範
囲を上回った場合は検索条件を厳しくするという意味の
検索条件変更の指示を、検索結果件数が規定範囲を下回
った場合は検索条件を緩くするという意味の検索条件変
更の指示を作成して、検索条件変更指示保持部7に保持
する。そして、全ての処理を終了する。In step S7, an instruction to change the search condition, which means that the search condition is made strict when the number of search results exceeds the specified range, is made loose when the number of search results is less than the specified range. An instruction to change the meaning search condition is created and held in the search condition change instruction holding unit 7. Then, all the processes are finished.
【0075】次に、上記実施例の変形(異なった実施の
態様)を列挙する。Next, modifications (different embodiments) of the above embodiment will be listed.
【0076】1.上記実施例では、検索条件変更指示作
成部6と検索条件変更指示保持部7とを設けて文書処理
装置の実施例(請求項4に対応)としたが、検索条件変
更指示作成部6と検索条件変更指示保持部7を省き、図
12のメモリ23から検索条件変更指示保持部IBを省
き、図13のフローチャートからステップS7を省くこ
とも可能である(請求項3の文書処理装置となる)。1. In the above-described embodiment, the search condition change instruction creating unit 6 and the search condition change instruction holding unit 7 are provided as an embodiment of the document processing apparatus (corresponding to claim 4), but the search condition change instruction creating unit 6 and the search are performed. It is also possible to omit the condition change instruction holding unit 7, omit the search condition change instruction holding unit IB from the memory 23 of FIG. 12, and omit step S7 from the flowchart of FIG. 13 (becomes the document processing device of claim 3). .
【0077】2.上記実施例では、規定の検索処理件数
における検索結果件数の規定範囲と実際の検索件数を比
較することにより検索結果が過多・過少となるか否かを
予想して検索続行の可否を判定する場合について説明し
たが、これに限定されるものでなく、常に一定の検索結
果件数の規定範囲と実際の検索結果件数を比較する、実
際の検索結果件数と検索処理件数の比率をその規定範囲
と比較するなど検索結果が過多・過少となるか否かを予
想する他の手法を用いて検索続行の可否を判定してもよ
いものである。2. In the above embodiment, when it is determined whether or not the search can be continued by predicting whether the search results will be excessive or insufficient by comparing the specified range of the number of search results in the specified number of search processing with the actual number of search results. However, the present invention is not limited to this, and always compares the specified range of the search result count with the actual search result count, and compares the ratio of the actual search result count and the search processing count with the specified range. Whether or not the search can be continued may be determined by using another method of predicting whether or not the search results are excessive or insufficient.
【0078】3.上記実施例では、検索処理件数が規定
値に等しい場合のみ検索続行可否判定部5で検索続行の
可否を判定する場合について説明したが、これに限定さ
れるものでなく、一定時間毎に判定する、検索対象文書
の一ブロックを処理する毎に判定する、一文書の検索処
理が終了する毎に判定するなど処理中途の任意の時点で
判定を行ってもよいものである。3. In the above embodiment, the case in which the search continuation possibility determination unit 5 determines whether or not the search can be continued is described only when the number of search processing cases is equal to the specified value. However, the present invention is not limited to this, and determination is made at regular time intervals. The determination may be made at any time during the processing, such as making a determination each time one block of the search target document is processed or making a determination each time the search processing for one document is completed.
【0079】4.上記実施例では、検索続行可否判定部
5において検索結果が減少となることと過多になること
を共に検索続行の可否を判定する条件とする場合につい
て説明したが、これに限定されるものでなく、過少ある
いは過多のどちらか一方だけを条件として判定を行って
もよいものである。4. In the above-described embodiment, a case has been described in which the search continuity determination unit 5 uses both the decrease and the excessive number of search results as the conditions for determining the search continuity. However, the present invention is not limited to this. Alternatively, the determination may be performed on the condition that either one of the two is too small or too large.
【0080】5.上記実施例では、検索処理部3で文書
を単位として処理を行う場合について説明したが、これ
に限定されるものでなく、ディスク装置のブロック単位
とするなど他の単位でもよいものである。5. In the above-described embodiment, the case where the search processing unit 3 performs processing in units of documents has been described, but the present invention is not limited to this, and other units such as blocks in the disk device may be used.
【0081】6.上記実施例では、検索対象文書保持部
1をディスク装置で実現し、検索条件保持部2と検索結
果保持部4と検索条件変更指示保持部7とをメモリで実
現した場合について説明したが、これらに限定されるも
のでなく、光磁気ディスク装置など他の記憶デバイスで
もよいものである。6. In the above embodiment, the case where the search target document holding unit 1 is realized by the disk device and the search condition holding unit 2, the search result holding unit 4, and the search condition change instruction holding unit 7 are realized by the memory has been described. However, the present invention is not limited to this, and may be another storage device such as a magneto-optical disk device.
【0082】[0082]
(1)以上説明したように本発明によれば、目的の文書
を得るまでの時間を短縮することができるので、利用し
やすい文書検索機能付きの文書処理装置が得られるとい
う効果がある。(1) As described above, according to the present invention, the time required to obtain a target document can be shortened, so that there is an effect that a document processing apparatus with a document search function that is easy to use can be obtained.
【0083】(2)また本発明によれば、適合文書の得
られる時間間隔にばらつきがなくなることが期待できる
ので、利用しやすい文書検索機能付きの文書処理装置が
得られるという効果がある。(2) Further, according to the present invention, it can be expected that there will be no variation in the time intervals at which the matching documents are obtained, so that there is an effect that a document processing apparatus with a document search function that is easy to use can be obtained.
【0084】(3)さらに本発明によれば、検索される
結果の件数が過少あるいは過多となることを処理中途に
おいて予想することにより、検索条件が厳しすぎるある
いは緩すぎる場合に検索処理を中断することができるの
で、無駄な検索処理を行わずにすみ、検索全体にかかる
時間を削減できるという効果が得られる。(3) Further, according to the present invention, the search processing is interrupted when the search condition is too strict or too loose by predicting that the number of search results will be too small or too large during the processing. Therefore, it is possible to obtain an effect that unnecessary search processing is not performed and the time required for the entire search can be reduced.
【図1】本発明の第1の実施例に係る装置の構成を示す
ブロック図である。FIG. 1 is a block diagram showing a configuration of an apparatus according to a first exemplary embodiment of the present invention.
【図2】第1の実施例に係るシステム構成を示すブロッ
ク図である。FIG. 2 is a block diagram showing a system configuration according to the first embodiment.
【図3】第1の実施例に係る処理手順を示すフローチャ
ートである。FIG. 3 is a flowchart showing a processing procedure according to the first embodiment.
【図4】図3に示したフローチャートの一部の処理の処
理手順をさらに詳細に示すフローチャートである。FIG. 4 is a flowchart showing in more detail a processing procedure of a part of the processing of the flowchart shown in FIG.
【図5】第1の実施例に係る文書キーワード保持部の内
容の例を示す図である。FIG. 5 is a diagram showing an example of contents of a document keyword holding unit according to the first embodiment.
【図6】第1の実施例に係るキーワード保持部の内容の
例を示す図である。FIG. 6 is a diagram showing an example of contents of a keyword holding unit according to the first embodiment.
【図7】第1の実施例に係るキーワード表示部の表示の
例を示す図である。FIG. 7 is a diagram showing an example of a display of a keyword display unit according to the first embodiment.
【図8】本発明の第2の実施例に係る装置の構成を示す
ブロック図である。FIG. 8 is a block diagram showing a configuration of an apparatus according to a second exemplary embodiment of the present invention.
【図9】第2の実施例に係る文書管理情報の例を示す図
である。FIG. 9 is a diagram showing an example of document management information according to the second embodiment.
【図10】第2の実施例に係る処理手順を示すフローチ
ャートである。FIG. 10 is a flowchart showing a processing procedure according to the second embodiment.
【図11】本発明の第3の実施例に係る文書処理装置を
示す基本構成図である。FIG. 11 is a basic configuration diagram showing a document processing apparatus according to a third embodiment of the present invention.
【図12】第3の実施例のシステム構成を示すブロック
図である。FIG. 12 is a block diagram showing a system configuration of a third embodiment.
【図13】第3の実施例の処理手順を示すフローチャー
トである。FIG. 13 is a flowchart showing a processing procedure of a third embodiment.
【図14】第3の実施例における検索処理件数と検索結
果件数のカウンタを説明する図である。FIG. 14 is a diagram illustrating a counter for the number of search processing cases and the number of search result cases in the third embodiment.
【図15】第3の実施例における検索処理件数の規定値
と検索結果件数の規定範囲を保持するテーブルを説明す
る図である。FIG. 15 is a diagram illustrating a table holding a specified value of the number of search processing cases and a specified range of the number of search result cases in the third embodiment.
【図16】第3の実施例における検索処理件数と検索結
果件数のカウンタの図14と異なる状態を説明する図で
ある。FIG. 16 is a diagram illustrating a state different from that of FIG. 14 of the counter of the number of search processing cases and the number of search result cases in the third embodiment.
【図17】第3の実施例における検索処理件数と検索結
果件数のカウンタの図16と異なる状態を説明する図で
ある。FIG. 17 is a diagram illustrating a state different from that of FIG. 16 of the counter of the number of search processing cases and the number of search result cases in the third embodiment.
1 検索対象文書保持部 2 検索条件保持部 3 検索処理部 4 検索結果保持部 5 検索続行可否判定部 6 検索条件変更指示作成部 7 検索条件変更指示保持部 101 検索条件入力部 102 検索処理部 103 文書データベース 104 検索結果保持部 105 検索結果出力部 106 キーワード評価部 107 形態素解析処理部 108 キーワード保持部 109 文書キーワード保持部 110 キーワード表示部 111 キーワード選択部 201 制御メモリ 202 中央処理装置 203 メモリ 204 キーボード 205 ディスク装置 206 ディスプレイ 207 バス 801 検索条件入力部 802 検索条件解析部 803 検索処理部 804 検索結果出力部 805 制約条件保持部 806 検索順序制御部 807 乱数発生部 808 選択情報保持部 809 文書データベース 810 文書管理情報ファイル 1 search target document holding unit 2 search condition holding unit 3 search processing unit 4 search result holding unit 5 search continuation possibility determination unit 6 search condition change instruction creation unit 7 search condition change instruction holding unit 101 search condition input unit 102 search processing unit 103 Document database 104 Search result storage unit 105 Search result output unit 106 Keyword evaluation unit 107 Morphological analysis processing unit 108 Keyword storage unit 109 Document keyword storage unit 110 Keyword display unit 111 Keyword selection unit 201 Control memory 202 Central processing unit 203 Memory 204 Keyboard 205 Disk device 206 Display 207 Bus 801 Search condition input unit 802 Search condition analysis unit 803 Search processing unit 804 Search result output unit 805 Constraint condition holding unit 806 Search order control unit 807 Random number generation unit 808 Selection information storage Part 809 document database 810 document management information file
Claims (4)
と、 文書を検索する条件を入力する検索条件入力手段と、 前記文書データベースから前記検索条件を満たす文書を
全文検索によって検索する検索手段と、 前記検索手段により検索した結果得られた文書からキー
ワード群を抽出する第1の抽出手段と、 前記キーワード群を評価し、その評価値によってキーワ
ードを整列させる整列手段と、 前記キーワード群の中から特定のキーワードを選択する
選択手段と、 前記選択手段により選択されたキーワードを含む文書を
前記検索結果から抽出する第2の抽出手段とを具備し、 全文検索の検索結果を絞り込むことのできるキーワード
を提示し、該提示によって検索結果を絞り込むことを特
徴とする文書処理装置。1. A document database having a plurality of documents, a search condition input means for inputting a condition for searching a document, a search means for searching a document satisfying the search condition from the document database by a full text search, and the search. First extracting means for extracting a keyword group from a document obtained as a result of searching by the means; aligning means for evaluating the keyword group and aligning the keywords according to the evaluation value; and a specific keyword from the keyword group. And a second extracting unit for extracting a document including the keyword selected by the selecting unit from the search result, and presenting a keyword capable of narrowing the search result of the full-text search, A document processing apparatus, wherein search results are narrowed down by the presentation.
する検索手段と、 前記検索手段において文書を検索する際の順序を制御す
る制御手段とを具備し、 文書を検索する順序に偏りがないようにしたことを特徴
とする文書処理装置。2. A document storage unit for storing a document, a search condition input unit for inputting a condition for searching a document, a search unit for searching a document satisfying the search condition from the document holding unit, and the search unit. A document processing apparatus, comprising: a control unit that controls the order in which documents are searched, so that there is no bias in the order in which documents are searched.
文書保持手段と、 検索条件を保持する検索条件保持手段と、 前記検索対象文書保持手段に保持されている検索対象文
書から前記検索条件保持手段に保持されている検索条件
を満足する文書を検索する検索処理手段と、 前記検索処理手段によって検索された結果を保持する検
索結果保持手段とを有する文書処理装置であって、 検索される結果の件数が過少あるいは過多となることを
処理中途において予想することにより、検索処理の続行
の可否を判定する検索続行可否判定手段を具備したこと
を特徴とする文書処理装置。3. A search target document holding unit for holding a document to be searched, a search condition holding unit for holding a search condition, and a search condition holding from the search target document held in the search target document holding unit. What is claimed is: 1. A document processing device comprising: a search processing unit that searches for a document that satisfies the search condition held in the unit; and a search result holding unit that holds the result searched by the search processing unit. The document processing apparatus is provided with a search continuation possibility determination unit that determines whether or not the search processing can be continued by predicting that the number of cases is too small or excessive during processing.
加えて、前記検索続行可否判定手段によって検索を続行
しないと判定されたときに検索条件変更の指示を作成す
る検索条件変更指示作成手段と、 前記検索条件変更指示作成手段によって作成された検索
条件変更の指示を保持する検索条件変更指示保持手段と
を有することを特徴とする文書処理装置。4. The document processing apparatus according to claim 3, further comprising: a search condition change instruction creating unit that creates a search condition change instruction when the search continuability determination unit determines that the search is not continued. A document processing apparatus, comprising: a search condition change instruction holding unit that holds the search condition change instruction created by the search condition change instruction creating unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5330249A JPH07192010A (en) | 1993-12-27 | 1993-12-27 | Document processing unit |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5330249A JPH07192010A (en) | 1993-12-27 | 1993-12-27 | Document processing unit |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH07192010A true JPH07192010A (en) | 1995-07-28 |
Family
ID=18230529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5330249A Pending JPH07192010A (en) | 1993-12-27 | 1993-12-27 | Document processing unit |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH07192010A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09218881A (en) * | 1996-02-09 | 1997-08-19 | Nippon Telegr & Teleph Corp <Ntt> | Additional retrieval word candidate presenting method, document retrieving method and devices therefor |
JPH10134077A (en) * | 1996-11-05 | 1998-05-22 | Tokkyo Joho Shuppan:Kk | Word processing system and storage medium |
JPH1125108A (en) * | 1997-07-02 | 1999-01-29 | Matsushita Electric Ind Co Ltd | Automatic extraction device for relative keyword, document retrieving device and document retrieving system using these devices |
JP2004054619A (en) * | 2002-07-19 | 2004-02-19 | Nec Soft Ltd | Document search system and method and document search program |
JP2008518345A (en) | 2004-10-28 | 2008-05-29 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Data processing system and data processing method |
JP2009217406A (en) * | 2008-03-07 | 2009-09-24 | Nec Corp | Document retrieval device, method, and program |
JP6253041B1 (en) * | 2017-04-14 | 2017-12-27 | データ・サイエンティスト株式会社 | Web page analysis device, web page analysis method, and program |
WO2020170593A1 (en) * | 2019-02-18 | 2020-08-27 | ソニー株式会社 | Information processing device and information processing method |
-
1993
- 1993-12-27 JP JP5330249A patent/JPH07192010A/en active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09218881A (en) * | 1996-02-09 | 1997-08-19 | Nippon Telegr & Teleph Corp <Ntt> | Additional retrieval word candidate presenting method, document retrieving method and devices therefor |
JPH10134077A (en) * | 1996-11-05 | 1998-05-22 | Tokkyo Joho Shuppan:Kk | Word processing system and storage medium |
JPH1125108A (en) * | 1997-07-02 | 1999-01-29 | Matsushita Electric Ind Co Ltd | Automatic extraction device for relative keyword, document retrieving device and document retrieving system using these devices |
JP2004054619A (en) * | 2002-07-19 | 2004-02-19 | Nec Soft Ltd | Document search system and method and document search program |
JP2008518345A (en) | 2004-10-28 | 2008-05-29 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Data processing system and data processing method |
JP2009217406A (en) * | 2008-03-07 | 2009-09-24 | Nec Corp | Document retrieval device, method, and program |
JP6253041B1 (en) * | 2017-04-14 | 2017-12-27 | データ・サイエンティスト株式会社 | Web page analysis device, web page analysis method, and program |
WO2020170593A1 (en) * | 2019-02-18 | 2020-08-27 | ソニー株式会社 | Information processing device and information processing method |
US11928142B2 (en) | 2019-02-18 | 2024-03-12 | Sony Group Corporation | Information processing apparatus and information processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6205443B1 (en) | Overlapping subdocuments in a vector space search process | |
US5787421A (en) | System and method for information retrieval by using keywords associated with a given set of data elements and the frequency of each keyword as determined by the number of data elements attached to each keyword | |
KR100295354B1 (en) | Document information retrieval system | |
US6523030B1 (en) | Sort system for merging database entries | |
US7111000B2 (en) | Retrieval of structured documents | |
JP4583003B2 (en) | Search processing method and program | |
US20050081146A1 (en) | Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus | |
JPH0675265B2 (en) | Information retrieval method and system | |
JP2010009577A (en) | Information processing apparatus, full text retrieval method, full text retrieval program, and recording medium | |
US6278990B1 (en) | Sort system for text retrieval | |
JP2000200281A (en) | Device and method for information retrieval and recording medium where information retrieval program is recorded | |
JPH07192010A (en) | Document processing unit | |
JPH05101107A (en) | Device and method for narrowed-down data retrieval using adaption rate | |
JP2013174988A (en) | Similar document retrieval support apparatus and similar document retrieval support program | |
JPH0773197A (en) | Supporting system for preparing different notation word dictionary | |
US6473755B2 (en) | Overlapping subdocuments in a vector space search process | |
JP2000020538A (en) | Method and device for retrieving information, and storage medium for information retrieving program | |
JP2009294723A (en) | Search result display method, search device and computer program | |
JPH064584A (en) | Text retriever | |
JP3385913B2 (en) | Related word presentation device and medium recording related word presentation program | |
JPH08329101A (en) | Data base system | |
JP2000163439A (en) | Device and method for electronic file retrieval | |
JPH08235204A (en) | Method and device for retrieving document | |
JP2002117043A (en) | Device and method for document retrieval, and recording medium with recorded program for implementing the same method | |
JP4189251B2 (en) | Keyword analysis method and program used therefor |