JPH1145255A - Document retrieval device and computer-readable recording medium where program making computer function as same device is recorded - Google Patents

Document retrieval device and computer-readable recording medium where program making computer function as same device is recorded

Info

Publication number
JPH1145255A
JPH1145255A JP9199615A JP19961597A JPH1145255A JP H1145255 A JPH1145255 A JP H1145255A JP 9199615 A JP9199615 A JP 9199615A JP 19961597 A JP19961597 A JP 19961597A JP H1145255 A JPH1145255 A JP H1145255A
Authority
JP
Japan
Prior art keywords
document
search
sub
retrieval
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9199615A
Other languages
Japanese (ja)
Inventor
Atsushi Takato
淳 高藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP9199615A priority Critical patent/JPH1145255A/en
Publication of JPH1145255A publication Critical patent/JPH1145255A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To retrieve necessary information in real time during the editing of a document by retrieving a corresponding subdocument from a storage means according to the vector representation of an inputted retrieval condition. SOLUTION: This device is equipped with clients 100 which output retrieval conditions for retrieving desired descriptions in a document and a retrieval engine which can perform vector space retrieval and Boolean retrieval by generating a dislocation file 102 from a document data base(DB) 101 and further equipped with a retrieval server 103 which inputs the retrieval conditions from the clients 100 and retrieves the corresponding documents by using the dislocation file 102 according to the retrieval condition. Then an arbitrary range of the document displayed on a screen is specified and the structure of the character string within the range is analyzed; and a retrieval condition is generated by using the character string within the specified range and converted into vector representation. Further, the retrieval server 103 retrieves a subdocument according to the vector representation of the inputted retrieval condition.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、画面表示された編
集中の文書の記述をクエリー(Query)として用い
ると共に、文書を構成するセンテンスのいくつかをまと
めたサブドキュメントを検索対象とし、クエリーに直接
関連する文書中の記述を検索結果として得ることができ
るようにした文書検索装置およびその装置としてコンピ
ュータを機能させるためのプログラムを記録したコンピ
ュータ読み取り可能な記録媒体に関する。
[0001] The present invention uses a description of a document being edited displayed on a screen as a query, and searches a sub-document in which some of the sentences constituting the document are collected. The present invention relates to a document search apparatus capable of obtaining a description in a directly related document as a search result, and a computer-readable recording medium storing a program for causing a computer to function as the apparatus.

【0002】[0002]

【従来の技術】コンピュータの発達に伴って、紙を媒体
として記録され、また保存されていた文書についても、
電子化された情報として取り扱うことが一般的となり、
大量の電子化された文書がデータベースに蓄積されるこ
ととなっている。
2. Description of the Related Art With the development of computers, documents recorded and stored using paper as a medium have been developed.
It has become common to handle it as electronic information,
A large number of electronic documents are to be stored in a database.

【0003】ところで、大量の電子化された文書が蓄積
されていくに従って、大量の文書の中から所望の文書を
容易に探し出すことができる検索技術が重要となってく
る。特に、誰もがコンピュータを用いて作業を行う今日
にあっては、特殊な手法を用いることなく、コンピュー
タの初心者であっても簡単に所望の文書を検索できるよ
うな検索システムを構築することが重要なポイントとな
る。
[0003] By the way, as a large number of digitized documents are accumulated, a search technology that can easily find a desired document from a large number of documents becomes important. In particular, in today's world where everyone works on a computer, it is possible to construct a search system that allows even a novice computer user to easily search for a desired document without using a special technique. This is an important point.

【0004】検索の容易化を図るための1つの手法とし
て、人間が通常用いる自然言語を用いてクエリーを入力
することができるようにする技術を挙げることができ
る。この技術は、近年の自然言語処理技術の発達に伴っ
て、多くの検索システムに取り入れられつつある。
[0004] One technique for facilitating retrieval includes a technique that enables a human to input a query using a natural language that is usually used. This technology has been adopted in many search systems with the development of natural language processing technology in recent years.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、従来の
検索システムによれば、自然言語でクエリーを入力でき
るようにして入力作業の容易化を図ることができるが、
ワードプロセッサ等で編集を行っている文書に関連する
情報を検索して参照したいような場合にあっては、検索
ソフトを別に起動させた後、クエリーを入力して検索処
理を行う必要があるため、操作が煩わしく、利便性に欠
けるという問題点があった。
However, according to the conventional search system, it is possible to input a query in a natural language, thereby facilitating the input operation.
If you want to search and refer to information related to the document you are editing with a word processor, etc., you need to start the search software separately, enter a query, and perform the search process. There is a problem that the operation is troublesome and lacks convenience.

【0006】また、ベクトル空間法を用いて検索を行う
場合においては、検索対象となる文書とクエリーとをベ
クター表現に変換し、文書とクエリーとの類似度を求
め、所定の閾値を超える文書を検索結果として出力する
処理が行われる。ここで、検索対象の文書に複数のトピ
ックが含まれているような場合には、文書をベクター表
現に変換することによって各トピックが平均化されるこ
とになるため、たとえクエリーとの関連度の高いトピッ
クが文書中に含まれている場合であっても、文書全体と
クエリーの類似度は小さなものとなることがあり、クエ
リーとの関連性が低い文書として扱われる虞があるとい
う問題点があった。
In the case of performing a search using the vector space method, a document to be searched and a query are converted into a vector expression, a similarity between the document and the query is obtained, and a document exceeding a predetermined threshold is searched. A process of outputting as a search result is performed. Here, if the document to be searched includes multiple topics, each topic is averaged by converting the document to a vector expression. Even when a high topic is included in the document, the similarity between the entire document and the query may be small, and the document may be treated as a document with low relevance to the query. there were.

【0007】さらに、上記従来の検索システムは、入力
されたクエリーに該当する文書を検索するものであるた
め、クエリーに直接該当する記述を含むセンテンスやパ
ラグラフが欲しい場合に不便であるという問題点があっ
た。換言すれば、検索結果として得ることができるのは
文書そのものあるため、ある事項に関する記述を引用し
たいような場合においては、検索によって得られた文書
から必要な記述を探し出す作業が必要であった。このこ
とは、従来の検索システムにおいては、文書全体が検索
対象であり、センテンスやパラグラフ等の部分的な範囲
を検索対象とすることが不可能であったことによるもの
である。
[0007] Further, since the above-mentioned conventional search system searches for a document corresponding to an input query, it is inconvenient when a sentence or paragraph including a description directly corresponding to the query is desired. there were. In other words, since the document itself can be obtained as a search result, it is necessary to search for a necessary description from the document obtained by the search when it is necessary to cite a description of a certain matter. This is because, in the conventional search system, the entire document is a search target, and it is impossible to search a partial range such as a sentence or a paragraph.

【0008】本発明は上記に鑑みてなされたものであっ
て、文書の編集中にリアルタイムで必要な情報を検索す
ることができるようにして、検索処理の利便性の向上を
図ることを目的とする。
The present invention has been made in view of the above, and has as its object to improve the convenience of search processing by enabling necessary information to be searched in real time while editing a document. I do.

【0009】また、本発明は上記に鑑みてなされたもの
であって、ベクトル空間法を用いて検索を行う場合に、
複数のトピックを含む文書を確実に検索することができ
るようにすることを目的とする。
Further, the present invention has been made in view of the above, and when a search is performed using a vector space method,
An object of the present invention is to ensure that a document including a plurality of topics can be searched.

【0010】さらに、本発明は上記に鑑みてなされたも
のであって、文書を構成するセンテンスのいくつかをま
とめたサブドキュメントを検索対象とし、検索条件に直
接関連する文書中の記述を検索結果として得ることがで
きるようにして、引用文や注釈文の作成を支援すること
ができるようにすることを目的とする。
Further, the present invention has been made in view of the above, and a sub-document in which some of sentences constituting a document are collected is to be searched, and a description in a document directly related to a search condition is searched. The purpose of the present invention is to make it possible to support creation of a quotation or a comment.

【0011】[0011]

【課題を解決するための手段】上記目的を達成するた
め、請求項1の文書検索装置は、ベクトル空間法を用い
て検索処理を行う文書検索装置において、文書を構成す
る各センテンスを任意の数のセンテンスまたはパラグラ
フ毎のセンテンス等からなるグループに区分して、区分
したグループをサブドキュメントと定義し、予め用意し
た文書を前記サブドキュメントの単位でベクター表現に
変換して格納する格納手段と、画面表示されている文書
の任意の範囲を指定する範囲指定手段と、前記範囲指定
手段で指定された範囲の文字列の構造を解析する解析手
段と、前記解析手段による解析結果に基づいて、前記指
定された範囲の文字列を用いて検索条件を生成する検索
条件生成手段と、前記検索条件生成手段で生成した検索
条件をベクター表現に変換する変換手段と、前記変換手
段から入力した前記検索条件のベクター表現に基づい
て、前記格納手段から該当する前記サブドキュメントを
検索する検索手段と、を備えたものである。
According to a first aspect of the present invention, there is provided a document search apparatus for performing a search process using a vector space method, wherein each sentence constituting a document is an arbitrary number. Storage means for dividing a sentence or a group of sentences for each paragraph, defining the divided group as a sub-document, converting a prepared document into a vector expression in units of the sub-document, and storing the same; Range designating means for designating an arbitrary range of the displayed document; analyzing means for analyzing the structure of the character string in the range designated by the range designating means; and Search condition generating means for generating a search condition using a character string in a specified range, and a vector expression for the search condition generated by the search condition generating means Conversion means for converting, on the basis of the vector representation of the search condition input from said converting means, a search means for searching said sub-document corresponding from said storage means, those provided with.

【0012】また、請求項2の文書検索装置は、請求項
1に記載の文書検索装置において、前記検索手段が、前
記検索条件のベクター表現と前記サブドキュメントのベ
クター表現との類似度を求め、求めた類似度が所定の閾
値を超えるサブドキュメントを選択し、選択したサブド
キュメントを類似度に応じて配列したリストを検索結果
として出力するものである。
According to a second aspect of the present invention, in the document search apparatus according to the first aspect, the search means obtains a similarity between a vector expression of the search condition and a vector expression of the sub-document, A sub-document whose obtained similarity exceeds a predetermined threshold is selected, and a list in which the selected sub-documents are arranged according to the similarity is output as a search result.

【0013】また、請求項3の文書検索装置は、請求項
1または2に記載の文書検索装置において、さらに、前
記文書を構成するセンテンスの区分方法を指定するため
の指定手段と、前記指定手段を介して指定された前記セ
ンテンスの区分方法に基づいて、前記文書から前記サブ
ドキュメントを生成する生成手段と、を備え、前記格納
手段が、前記生成手段で生成したサブドキュメントをベ
クター表現に変換して格納するものである。
According to a third aspect of the present invention, there is provided the document search apparatus according to the first or second aspect, further comprising: designation means for designating a method of classifying sentences constituting the document; and the designation means. Generating means for generating the sub-document from the document based on the sentence segmentation method specified via the storage means, wherein the storing means converts the sub-document generated by the generating means into a vector expression. Is stored.

【0014】また、請求項4の文書検索装置は、請求項
1〜3のいずれか1つに記載の文書検索装置において、
さらに、前記検索手段による検索結果に基づいて、所望
のサブドキュメントを選択する選択手段と、前記画面表
示されている文書の任意の場所を指定する指定手段と、
前記指定手段で指定した場所に前記選択手段で選択した
サブドキュメントを挿入する挿入手段と、を備えたもの
である。
According to a fourth aspect of the present invention, there is provided a document search apparatus according to any one of the first to third aspects.
A selecting unit for selecting a desired sub-document based on a search result by the searching unit; a specifying unit for specifying an arbitrary place of the document displayed on the screen;
Insertion means for inserting the sub-document selected by the selection means at the location specified by the specification means.

【0015】さらに、請求項5のコンピュータ読み取り
可能な記録媒体は、前記請求項1〜4のいずれか1つに
記載の文書検索装置の各手段としてコンピュータを機能
させるためのプログラムを記録したものである。
According to a fifth aspect of the present invention, there is provided a computer-readable recording medium on which a program for causing a computer to function as each means of the document search apparatus according to any one of the first to fourth aspects is recorded. is there.

【0016】[0016]

【発明の実施の形態】以下、本発明の文書検索装置およ
びその装置としてコンピュータを機能させるためのプロ
グラムを記録したコンピュータ読み取り可能な記録媒体
の実施の形態について、添付の図面を参照しつつ詳細に
説明する。
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram showing an embodiment of a document search apparatus according to the present invention and a computer-readable recording medium storing a program for causing a computer to function as the apparatus. explain.

【0017】〔実施の形態1〕図1は、実施の形態1の
文書検索装置のシステム構成図である。図1に示す文書
検索装置は、文書中の所望の記述を検索するための検索
条件を出力する複数のクライアント100と、文書DB
(データベース)101から転置ファイル102を生成
すると共に、ベクトル空間検索を行うことができる検索
エンジン(例えば、CLARITECH社のCLARI
T等)を備え、クライアント100から検索条件を入力
し、入力した検索条件に基づいて、転置ファイル102
を用いて該当する文書中の記述を検索する検索サーバ1
03と、上記クライアント100や検索サーバ103等
を接続するネットワーク104と、から構成されてい
る。
[First Embodiment] FIG. 1 is a system configuration diagram of a document search apparatus according to a first embodiment. The document search device shown in FIG. 1 includes a plurality of clients 100 that output search conditions for searching for a desired description in a document, a document DB
(Database) A search engine capable of generating the transposed file 102 from the database 101 and performing a vector space search (for example, CLARITECH's CLARI)
T), the search condition is input from the client 100, and the transposed file 102 is
Search server 1 that searches for a description in a corresponding document by using
And a network 104 for connecting the client 100, the search server 103, and the like.

【0018】図1において、文書DB101は、クライ
アント100等で作成された複数の文書を格納したもの
であり、格納される文書は、ワープロ文書や、SGM
L,HTML等の構造化文書等、いかなる種類の文書で
あっても良い。実施の形態1においては、この文書DB
101に格納された文書の一部分を検索対象とするが、
検索対象を文書DB101中のものに限定するものでは
ない。
In FIG. 1, a document DB 101 stores a plurality of documents created by the client 100 or the like. The stored documents include word processing documents and SGM.
Any type of document, such as a structured document such as L or HTML, may be used. In the first embodiment, the document DB
Although a part of the document stored in 101 is to be searched,
The search target is not limited to those in the document DB 101.

【0019】転置ファイル102は、一般に、文書DB
101中の複数の文書と、これら複数の文書それぞれか
ら抽出した複数の索引語との関係を規定し、ある索引語
が各文書それぞれにおいてどの程度重要な語彙であるか
を示したものであって、この索引語を用いて該当する文
書を検索することができるようにしたものである。実施
の形態1の文書検索装置においては、この転置ファイル
102を、文書を検索対象とするのではなく、文書の一
部分(後述するサブドキュメント)を検索対象とするた
めに用いる。
The transposed file 102 generally has a document DB
101 defines the relationship between a plurality of documents in 101 and a plurality of index words extracted from each of the plurality of documents, and indicates how important a certain index word is in each document. In addition, a corresponding document can be searched using the index word. In the document search apparatus according to the first embodiment, the transposed file 102 is used not for searching a document but for searching a part of a document (subdocument described later).

【0020】具体的には、1つの文書をサブドキュメン
トと呼ばれる任意の数のセンテンスからなる単位に区切
り、このサブドキュメントから上記索引語となる名詞句
を抽出する。そして、抽出した名詞句それぞれについ
て、サブドキュメント中の出現頻度,文書DB101全
体における分布等の統計情報を求め、求めた名詞句毎の
統計情報を用いて各サブドキュメントをベクター表現に
変換する。この処理を文書中の全てのサブドキュメント
について行い、転置ファイル102に格納する。
More specifically, one document is divided into units of an arbitrary number of sentences called sub-documents, and the noun phrase serving as the index word is extracted from the sub-documents. Then, for each of the extracted noun phrases, statistical information such as the appearance frequency in the sub-document and the distribution in the entire document DB 101 is obtained, and each sub-document is converted into a vector expression using the obtained statistical information for each noun phrase. This process is performed for all sub-documents in the document, and stored in the transposition file 102.

【0021】なお、各索引語には、対応する文書中の重
要度に応じた重み付けを行うことができる。また、サブ
ドキュメントだけでなく、文書を検索対象とする検索を
行う場合には、サブドキュメントのベクター表現に基づ
いて、文書のベクター表現を予め生成しておくか、検索
を行う際に生成することにすれば良い。
Each index word can be weighted according to the degree of importance in the corresponding document. In addition, when performing a search for not only a sub-document but also a document, a vector expression of the document may be generated in advance based on the vector expression of the sub-document, or generated at the time of the search. You can do it.

【0022】クライアント100および検索サーバ10
3は、パーソナルコンピュータやワークステーション等
によって構成される。図2は、クライアント100の処
理を示す概略ブロック図である。クライアント100
は、ワードプロセッサ,表計算ソフト等のアプリケーシ
ョンプログラムで編集作業中の文書(画面表示されてい
る文書)において、任意の範囲を指定し、指定した範囲
の文字列をクエリー200として検索の開始を指定する
マウス等の入力装置207と、クエリー200を入力
し、入力したクエリー200について、品詞情報等を格
納した辞書202および各単語の係り受け等を解析する
ための文法辞書203を用いて形態素解析,構文解析等
の解析処理を行い、上記転置ファイル102の索引語に
対応する名詞句からなる検索条件206を生成し、生成
した検索条件206を検索サーバ103に出力する自然
言語処理モジュール201を備えている。
Client 100 and search server 10
Reference numeral 3 includes a personal computer, a workstation, and the like. FIG. 2 is a schematic block diagram showing the processing of the client 100. Client 100
Specifies an arbitrary range in a document being edited by an application program such as a word processor or spreadsheet software (document displayed on the screen), and specifies a character string in the specified range as a query 200 to start a search. The input device 207 such as a mouse, the query 200 is input, and the input query 200 is subjected to morphological analysis and syntax using a dictionary 202 storing part-of-speech information and a grammar dictionary 203 for analyzing the dependency of each word. It includes a natural language processing module 201 that performs an analysis process such as analysis, generates a search condition 206 including a noun phrase corresponding to the index word of the transposed file 102, and outputs the generated search condition 206 to the search server 103. .

【0023】また、図3は、検索サーバ103の処理を
示す概略ブロック図である。検索サーバ103は、文書
DB101中の文書を転置ファイル102に登録する処
理と、ベクトル空間法を用いた検索処理とを行うもので
ある。
FIG. 3 is a schematic block diagram showing the processing of the search server 103. The search server 103 performs a process of registering a document in the document DB 101 in the transposed file 102 and a search process using a vector space method.

【0024】この検索サーバ103は、文書DB101
から文書を入力し、文書のフォーマットの認識処理や、
品詞情報等を格納した辞書301および各単語の係り受
け等を解析するための文法辞書302を用いて形態素解
析,構文解析,名詞句抽出等の解析処理を行い、上述し
たサブドキュメント毎の名詞句リストを含むドキュメン
ト・セット303を生成する自然言語処理モジュール3
00と、自然言語処理モジュール300で生成したドキ
ュメント・セット303を入力し、入力したドキュメン
ト・セット303中の各サブドキュメントをベクター表
現に変換して転置ファイル102に登録するデータベー
ス・ビルド・コンポーネント304と、クライアント1
00から検索条件206を入力し、入力した検索条件2
06を構成する各名詞句について、クエリー200中の
出現頻度,文書DB101全体における分布等の統計情
報を求め、求めた名詞句毎の統計情報を用いて検索条件
206をベクター表現に変換したクエリー・ドキュメン
ト306を生成するクエリー・ビルド・コンポーネント
305と、クエリー・ビルド・コンポーネント305で
生成したクエリー・ドキュメント306を入力し、転置
ファイル102中の各サブドキュメントのベクトルとク
エリー・ドキュメント306のベクトルとを比較して、
クエリー・ドキュメント306との類似度に応じたスコ
アを各サブドキュメントに付与し、所定の閾値を超える
スコアが付与されたサブドキュメントを選択してサブド
キュメントリスト308を生成し、生成したサブドキュ
メントリスト308を検索結果として出力する検索エン
ジン307と、を備えている。
The search server 103 includes a document DB 101
Input the document from, and recognize the format of the document,
Analysis processing such as morphological analysis, syntax analysis, and noun phrase extraction is performed using a dictionary 301 storing part-of-speech information and a grammar dictionary 302 for analyzing the dependency of each word, and the like. Natural language processing module 3 for generating a document set 303 including a list
And a database build component 304 that inputs the document set 303 generated by the natural language processing module 300, converts each subdocument in the input document set 303 into a vector expression, and registers the vector expression in the transposed file 102. , Client 1
Input search condition 206 from 00, and input search condition 2
For each of the noun phrases constituting No. 06, statistical information such as the frequency of appearance in the query 200 and the distribution in the entire document DB 101 is calculated, and the search condition 206 is converted into a vector expression using the obtained statistical information for each noun phrase. A query build component 305 that generates a document 306 and a query document 306 generated by the query build component 305 are input, and the vector of each subdocument in the transposed file 102 is compared with the vector of the query document 306. do it,
A score corresponding to the degree of similarity with the query document 306 is given to each sub-document, a sub-document given a score exceeding a predetermined threshold is selected to generate a sub-document list 308, and the generated sub-document list 308 And a search engine 307 that outputs as a search result.

【0025】なお、図1においては、文書DB101お
よび転置ファイル102をネットワーク104に単独に
接続した構成を示したが、これらを検索サーバ103に
直接接続する構成としても良い。また、図1において
は、実施の形態1の文書検索装置をネットワーク104
を介したシステムで構成するように示したが、図2に示
したクライアント100の処理を図3に示した検索サー
バ103の自然言語処理モジュール300に行わせるよ
うに構成することにより、1台のコンピュータで実施の
形態1の文書検索装置を構成することができる。
Although FIG. 1 shows a configuration in which the document DB 101 and the transposed file 102 are independently connected to the network 104, these may be directly connected to the search server 103. In FIG. 1, the document search device according to the first embodiment is connected to a network 104.
However, the configuration is such that the processing of the client 100 shown in FIG. 2 is performed by the natural language processing module 300 of the search server 103 shown in FIG. The document search device according to the first embodiment can be configured by a computer.

【0026】次に、上述した構成を備えた文書検索装置
の動作について、(1)転置ファイルの生成処理,
(2)サブドキュメントの検索処理の順で詳細に説明す
る。
Next, the operation of the document search apparatus having the above-described configuration will be described with respect to (1) a process of generating an inverted file,
(2) Sub-document search processing will be described in detail.

【0027】(1)転置ファイルの生成処理 図4は、転置ファイルの生成処理を示すフローチャート
である。検索サーバ103は、クライアント100等に
よって作成された新たな文書が文書DB101に登録さ
れた場合(S401)、この文書を入力して転置ファイ
ル102に登録するための処理を開始する(S40
2)。
(1) Transposition File Generation Process FIG. 4 is a flowchart showing a transposition file generation process. When a new document created by the client 100 or the like is registered in the document DB 101 (S401), the search server 103 starts processing for inputting this document and registering it in the transposition file 102 (S40).
2).

【0028】検索サーバ103において、自然言語処理
モジュール300は、ステップS402で入力した文書
を解析する処理を行う(S403)。具体的には、入力
した文書がワープロ文書,HTML等の構造化文書等、
いかなるフォーマットの文書であるかを判定する処理を
行う。その後、辞書301および文法辞書302を用い
て形態素解析,係り受け等の構文解析を行い、文書を複
数のサブドキュメントに区分すると共に、区分したサブ
ドキュメントから名詞句を抽出する等の処理を行う。
In the search server 103, the natural language processing module 300 performs a process of analyzing the document input in step S402 (S403). Specifically, the input document is a word processing document, a structured document such as HTML, etc.
A process is performed to determine the format of the document. Thereafter, syntax analysis such as morphological analysis and dependency is performed by using the dictionary 301 and the grammar dictionary 302 to divide the document into a plurality of sub-documents, and to perform processing such as extracting a noun phrase from the divided sub-documents.

【0029】なお、ステップS403で区分されたサブ
ドキュメントは、任意の数のセンテンスで構成される。
例えば、予め複数のセンテンスをサブドキュメントとし
ても良いし、パラグラフ単位のセンテンスをサブドキュ
メントとしても良い。実施の形態1においては、このサ
ブドキュメントが検索対象となることから、サブドキュ
メントをどのように構成するか、即ちセンテンスをどの
ように区切るかはユーザの好みにより設定・変更するこ
とができる。
The sub-documents classified in step S403 are composed of an arbitrary number of sentences.
For example, a plurality of sentences may be set as sub-documents in advance, or sentences in paragraph units may be set as sub-documents. In the first embodiment, since this sub-document is to be searched, how to compose the sub-document, that is, how to divide sentences, can be set / changed according to the user's preference.

【0030】そして、自然言語処理モジュール300
は、ステップS403における処理の結果に基づいて、
サブドキュメント毎に名詞句リストを生成し、生成した
名詞句リストを含むドキュメント・セット303を生成
する(S404)。
Then, the natural language processing module 300
Is based on the result of the processing in step S403.
A noun phrase list is generated for each sub-document, and a document set 303 including the generated noun phrase list is generated (S404).

【0031】その後、データベース・ビルド・コンポー
ネント304は、自然言語処理モジュール300で生成
したドキュメント・セット303を入力し、転置ファイ
ル102に登録する処理を行う(S405)。
After that, the database build component 304 performs a process of inputting the document set 303 generated by the natural language processing module 300 and registering it in the transposed file 102 (S405).

【0032】具体的には、ドキュメント・セット303
中のサブドキュメントの各名詞句を転置ファイル102
の索引語として、サブドキュメント中の出現頻度,文書
DB101全体における分布等の統計情報を求め、求め
た名詞句毎の統計情報を用いてサブドキュメントをベク
ター表現に変換する。この処理をドキュメント・セット
303中の全てのサブドキュメントについて行って、転
置ファイル102に登録する。
Specifically, the document set 303
Transpose file 102 for each noun phrase of subdocument in
The statistical information such as the frequency of occurrence in the sub-document and the distribution in the entire document DB 101 is obtained as an index term, and the sub-document is converted into a vector expression using the obtained statistical information for each noun phrase. This process is performed for all sub-documents in the document set 303 and registered in the transposed file 102.

【0033】(2)サブドキュメントの検索処理 続いて、サブドキュメントの検索処理について説明す
る。図5は、サブドキュメントの検索処理を示すフロー
チャートである。ユーザは、現在ワードプロセッサ等で
編集中の文書において、クライアント100の入力装置
207を用いて任意の範囲を指定し(S501)、指定
した範囲の文字列をクエリー200とする検索処理の実
行を指定する(S502)。
(2) Sub-document Search Processing Next, sub-document search processing will be described. FIG. 5 is a flowchart showing a sub-document search process. The user specifies an arbitrary range using the input device 207 of the client 100 in a document currently being edited by a word processor or the like (S501), and specifies execution of a search process using the character string in the specified range as the query 200. (S502).

【0034】図6(a)は、ステップS501におい
て、クエリー200とする範囲の指定を行った様子を、
図6(b)は、検索処理の実行を指定する様子をそれぞ
れ示す説明図である。図6(a)に示すように、ユーザ
は、入力装置207としてのマウス等を用いて、文書6
00中の任意の範囲601を指定する。クエリー200
となる範囲601は、図6に示すように段落を単位とし
たもの以外に、全文書,ページ全体,エンベット,オブ
ジェクト,編集中の文書に関連づけられた文書,URL
等、いかなるものであっても良い。また、範囲601
は、1つだけではなく、複数の範囲を指定することがで
きる。複数の範囲が指定された場合には、指定された複
数の範囲を1つのクエリー200として扱うことにな
る。さらに、クエリー200となる範囲601を指定す
る際に、ユーザは、検索結果に反映して欲しい重要な事
項が記述された範囲601に正の重み付けを行うための
指定を行うことができ、また、検索結果に反映して欲し
くない不必要な事項が記述された範囲601に負の重み
付けを行うための指定を行うことができる。
FIG. 6A shows a state in which the range of the query 200 is specified in step S501.
FIG. 6B is an explanatory diagram illustrating a state in which execution of a search process is specified. As shown in FIG. 6A, the user uses the mouse or the like as the input device 207 to
An arbitrary range 601 in 00 is specified. Query 200
The range 601 is, as shown in FIG. 6, a document associated with all documents, an entire page, an embed, an object, a document being edited, a URL, in addition to a unit of paragraph.
And so on. Also, the range 601
Can specify more than one range, not just one. If a plurality of ranges are specified, the specified ranges are treated as one query 200. Further, when specifying the range 601 serving as the query 200, the user can specify a positive weight for the range 601 in which important items desired to be reflected in the search results are described. A range 601 in which unnecessary items that are not desired to be reflected in the search result are described can be designated for performing negative weighting.

【0035】そして、ユーザは、図6(b)に示すよう
に、入力装置207であるマウスの右ボタンをクリック
してメニュー602を開き、「検索」を選択することに
よって検索処理の実行を指定する。ここでは、図6
(b)に示すようにメニュー602を開いて検索処理の
実行を指定することにしたが、検索処理の実行を指定す
るためのアイコンを用意しておくことにしても良い。
Then, as shown in FIG. 6B, the user clicks the right button of the mouse as the input device 207 to open the menu 602 and selects "search" to specify the execution of the search process. I do. Here, FIG.
As shown in (b), the menu 602 is opened to specify the execution of the search processing. However, an icon for specifying the execution of the search processing may be prepared.

【0036】図5に戻り、ステップS502で検索処理
の実行が指定されると、自然言語処理モジュール201
は、指定された範囲601の文字列をクエリー200と
して入力し、入力したクエリー200の解析処理を行う
(S503)。具体的には、辞書202および文法辞書
203を用いて形態素解析,係り受け等の構文解析処理
を行う。
Returning to FIG. 5, when execution of the search processing is designated in step S502, the natural language processing module 201
Inputs the character string in the designated range 601 as the query 200, and analyzes the input query 200 (S503). Specifically, syntax analysis processing such as morphological analysis and dependency is performed using the dictionary 202 and the grammar dictionary 203.

【0037】自然言語処理モジュール201は、ステッ
プS503における解析結果に基づいて、クエリー20
0から検索条件を生成する(S504)。すなわち、自
然言語モジュール201は、指定された範囲601の文
字列から、転置ファイル102中の索引語に対応する名
詞句を抽出し、名詞句からなる検索条件206を生成す
る。
The natural language processing module 201 executes the query 20 based on the analysis result in step S503.
A search condition is generated from 0 (S504). That is, the natural language module 201 extracts a noun phrase corresponding to the index word in the transposed file 102 from the character string in the designated range 601 and generates a search condition 206 including the noun phrase.

【0038】上述したようにしてクエリー200から検
索条件206が生成され、生成された検索条件206
は、クライアント100から検索サーバ103に出力さ
れる。また、上述したように、選択した範囲601に重
みの指定がなされた場合には、その重み指定情報につい
ても、検索サーバ103に出力される。
As described above, the search condition 206 is generated from the query 200, and the generated search condition 206
Is output from the client 100 to the search server 103. Further, as described above, when a weight is specified for the selected range 601, the weight specification information is also output to the search server 103.

【0039】その後、検索サーバ103のクエリー・ビ
ルド・コンポーネント305は、クライアント100か
ら検索条件206を入力し、入力した検索条件206を
構成する各名詞句について、クエリー200中の出現頻
度,文書DB101全体における分布等の統計情報を求
め、求めた統計情報を用いて検索条件206をベクター
表現に変換したクエリー・ドキュメント306を生成す
る(S505)。なお、重み付けの指定がなされている
場合には、該当する名詞句に正の重みまたは負の重みを
付加して上記クエリー・ドキュメント306を生成す
る。
Thereafter, the query build component 305 of the search server 103 inputs the search condition 206 from the client 100, and for each noun phrase constituting the input search condition 206, the appearance frequency in the query 200, the entire document DB 101 Is obtained, and a query document 306 is generated by converting the search condition 206 into a vector expression using the obtained statistical information (S505). When the weighting is specified, the query document 306 is generated by adding a positive weight or a negative weight to the corresponding noun phrase.

【0040】検索エンジン307は、クエリー・ビルド
・コンポーネント305で生成したクエリー・ドキュメ
ント306を入力し、転置ファイル102中のサブドキ
ュメントのベクトルとクエリー・ドキュメント306の
ベクトルとを比較して、クエリー・ドキュメント306
との類似度に応じたスコアを各サブドキュメントに付与
し、所定の閾値を超えるスコアが付与されたサブドキュ
メントを選択して、サブドキュメントリスト308を生
成する(S506)。
The search engine 307 inputs the query document 306 generated by the query build component 305, compares the vector of the sub-document in the transposed file 102 with the vector of the query document 306, and 306
The sub-document list 308 is generated by assigning a score according to the degree of similarity to each sub-document, selecting a sub-document to which a score exceeding a predetermined threshold is given (S506).

【0041】なお、類似度に応じたスコアは、各サブド
キュメントとクエリー・ドキュメント306との類似度
を余弦距離に基づいて表現したものであり、スコアが大
きいサブドキュメントがよりクエリー・ドキュメント3
06と類似していることを表している。そして、検索エ
ンジン307には、予めスコアの閾値が設定されてお
り、この閾値を超えるスコアが付与されたサブドキュメ
ントが検索結果とされる。
The score according to the degree of similarity expresses the degree of similarity between each sub-document and the query document 306 based on the cosine distance.
It is similar to 06. Then, a score threshold is set in the search engine 307 in advance, and a sub-document given a score exceeding this threshold is set as a search result.

【0042】その後、検索エンジン307は、生成した
サブドキュメントリスト308を検索結果としてクライ
アント100に出力し、このサブドキュメントリスト3
08はクライアント100に画面表示される(S50
7)。
After that, the search engine 307 outputs the generated sub-document list 308 to the client 100 as a search result, and the sub-document list 3
08 is displayed on the screen of the client 100 (S50).
7).

【0043】図7は、サブドキュメントリスト308の
一例を示す説明図である。サブドキュメントリスト30
8には、クエリー・ドキュメント306との類似度に応
じたスコアのランキング,文書中のいずれのサブドキュ
メントかを特定するためのサブドキュメントIDおよび
サブドキュメントを含む文書の文書名が表示されてい
る。
FIG. 7 is an explanatory diagram showing an example of the sub-document list 308. Sub-document list 30
8 shows a ranking of scores according to the degree of similarity to the query document 306, a subdocument ID for specifying which subdocument in the document, and a document name of the document including the subdocument.

【0044】クライアント100のユーザは、画面表示
されたサブドキュメントリスト308から任意のサブド
キュメントを選択することにより、文書DB101中の
文書のサブドキュメントを画面表示させることができ
る。
The user of the client 100 can display a sub-document of a document in the document DB 101 on the screen by selecting an arbitrary sub-document from the sub-document list 308 displayed on the screen.

【0045】なお、実施の形態1の文書検索装置は、予
め1つの文書を選択し(文書を検索対象として検索した
ものでも良い)、選択した文書のサブドキュメントを検
索して、文書中の所望の記述を探し出すためにも利用す
ることができる。
The document search apparatus according to the first embodiment selects one document in advance (the document may be searched as a search target), searches a sub-document of the selected document, and searches for a desired document in the document. Can also be used to find the description.

【0046】また、図7に示したサブドキュメントリス
ト308を利用して、文書のランキングを生成すること
もできる。その結果、複数のトピックを含む文書が複数
ある場合であっても、特定のトピックに関する文書のラ
ンキングを作成することができ、特定の記述を含む文書
を容易に得ることができる。
The document ranking can be generated by using the sub-document list 308 shown in FIG. As a result, even when there are a plurality of documents including a plurality of topics, it is possible to create a ranking of documents related to a specific topic, and to easily obtain a document including a specific description.

【0047】さらに、上述した実施の形態1の文書検索
装置で得た検索結果であるサブドキュメントリスト30
8において、ユーザが検索結果としてふさわしいと思う
サブドキュメントやふさわしくないと思うサブドキュメ
ントについては、その結果を検索サーバ103にフィー
ドバックすることができる。すなわち、ユーザは、検索
結果としてふさわしいと思うサブドキュメントに対し
て、正の重み、例えば「+」を指定することができ、検
索結果としてふさわしくないと思うサブドキュメントに
対して負の重み、例えば「−」を指定することができ
る。その結果、入力した重みが正の指定である場合に
は、転置ファイル102中の該当するサブドキュメント
の重みが強化され、入力した重みが負の指定である場合
には、サブドキュメントの重みが弱められる。
Further, the sub-document list 30 which is a search result obtained by the document search apparatus according to the first embodiment described above.
In step 8, the results of the sub-documents that the user considers appropriate or unsuitable as the search results can be fed back to the search server 103. That is, the user can specify a positive weight, for example, “+” for a sub-document that is deemed appropriate as a search result, and a negative weight, for example, “A” for a sub-document deemed inappropriate as a search result. -"Can be specified. As a result, if the input weight is a positive specification, the weight of the corresponding sub-document in the transposed file 102 is strengthened, and if the input weight is a negative specification, the weight of the sub-document is weakened. Can be

【0048】このように、実施の形態1の文書検索装置
によれば、検索対象を文書全体ではなく、文書のサブド
キュメントとし、検索条件に直接関連する文書中の記述
を検索結果として得ることができるようにしたため、文
書の編集中にリアルタイムで必要な情報を検索すること
ができ、検索処理の利便性の向上を図ることができる。
したがって、文書中の記載に関する引用文や注釈文等を
検索によって得ることができる。また、文書中の必要な
箇所を探す必要がないため、作業効率の向上を図ること
ができる。さらに、ベクトル空間法を用いて検索を行う
場合に、検索条件との関連性の大きなトピックだけでな
く、複数の他のトピックを含む文書をも確実に検索する
ことができる。
As described above, according to the document search apparatus of the first embodiment, the search target is not the entire document but the sub-document of the document, and the description in the document directly related to the search condition can be obtained as the search result. Since it is possible to search for necessary information in real time while editing a document, it is possible to improve the convenience of search processing.
Therefore, quotes, annotations, and the like related to descriptions in the document can be obtained by searching. Further, since it is not necessary to search for a necessary part in the document, it is possible to improve work efficiency. Further, when performing a search using the vector space method, it is possible to reliably search not only a topic having a high relevance to a search condition but also a document including a plurality of other topics.

【0049】〔実施の形態2〕次に、実施の形態2の文
書検索装置について説明する。実施の形態2の文書検索
装置は、実施の形態1の文書検索装置を利用して、引用
文や注釈文の作成を支援するためのものである。なお、
文書検索装置の構成や転置ファイル102の生成処理に
ついては、上述した実施の形態1のものと同様であるた
め、ここではそれらの説明については省略する。
[Second Embodiment] Next, a document search apparatus according to a second embodiment will be described. The document search device according to the second embodiment uses the document search device according to the first embodiment to support creation of a quote or an annotation. In addition,
The configuration of the document search device and the process of generating the transposed file 102 are the same as those in the first embodiment, and thus description thereof is omitted here.

【0050】図8は、サブドキュメントの検索を利用し
た引用文や注釈文の作成処理を示すフローチャートであ
り、図5と同様のステップについては同一のステップ番
号を付して詳細な説明を省略する。
FIG. 8 is a flowchart showing a process of creating a quote or an annotation by using a search of a sub-document. Steps similar to those in FIG. 5 are denoted by the same step numbers and detailed description is omitted. .

【0051】ユーザは、現在ワードプロセッサ等で編集
中の文書600において、クライアント100の入力装
置207を用い、引用文や注釈文が必要な任意の範囲6
01を指定する(S801:図6(a)参照)。指定す
る範囲601については、単語単位,センテンス単位,
パラグラフ単位等、ユーザの好みに応じて指定すること
ができる。
The user uses the input device 207 of the client 100 to select an arbitrary range 6 in which a quote or an annotation is required in the document 600 currently being edited by a word processor or the like.
01 (S801: see FIG. 6A). For the specified range 601, word units, sentence units,
It can be specified according to the user's preference, such as paragraph units.

【0052】そして、指定した範囲601をクエリー2
00とする検索処理の実行が指定されると(S50
2)、クエリー200の解析処理(S503),検索条
件206の生成処理(S504),クエリー・ドキュメ
ント306の生成処理(S505)およびクエリー・ド
キュメント306によるサブドキュメントの検索処理
(S506)が行われ、検索結果であるサブドキュメン
トリスト308がクライアント100に画面表示される
(S507)。
Then, the specified range 601 is added to the query 2
When the execution of the search process is set to 00 (S50)
2), a query 200 analysis process (S503), a search condition 206 generation process (S504), a query document 306 generation process (S505), and a subdocument search process by the query document 306 (S506) are performed. The sub-document list 308 as a search result is displayed on the screen of the client 100 (S507).

【0053】ステップS507で画面表示されたサブド
キュメントリスト308中の各サブドキュメントは、引
用文や注釈文の候補である。クライアント100のユー
ザは、必要に応じてサブドキュメントの内容確認を行っ
た後、サブドキュメントリスト308から所望のサブド
キュメントを選択し、かつ、編集中の文書600へサブ
ドキュメントを挿入する箇所を指定する(S802)。
Each sub-document in the sub-document list 308 displayed on the screen in step S507 is a candidate for a quote or an annotation. After confirming the content of the sub-document as necessary, the user of the client 100 selects a desired sub-document from the sub-document list 308 and specifies a position where the sub-document is to be inserted into the document 600 being edited. (S802).

【0054】ステップS802でサブドキュメントの選
択と挿入箇所の指定が行われると、指定された挿入箇所
に選択されたサブドキュメントを挿入する処理が行われ
る(S803)。ユーザは、その後、必要に応じて挿入
されたサブドキュメントを加工する等の処理を行うこと
ができる。
When the sub-document is selected and the insertion position is specified in step S802, a process of inserting the selected sub-document into the specified insertion position is performed (S803). Thereafter, the user can perform processing such as processing the inserted sub-document as necessary.

【0055】なお、ステップS802においては、検索
されたサブドキュメントをどのように利用するかを指定
するメニューを表示することができるようにしても良
い。具体的には、サブドキュメントの利用方法として、
メニューやアイコン等により引用文,頭注,脚注等の指
定を行うことができるようにする。そして、引用文が選
択された場合には、ステップS801で指定された範囲
601の後段にサブドキュメントを引用文として挿入す
る。また、頭注または脚注が選択された場合には、所定
の個所にサブドキュメントを注釈文として挿入すると共
に、指定された範囲601と注釈文とを関連づける数字
等を両方に付す等の処理を行うようにする。
In step S802, a menu for designating how to use the searched sub-document may be displayed. Specifically, as a method of using sub-documents,
Ability to specify quotes, headnotes, footnotes, etc. using menus and icons. If a quote is selected, the sub-document is inserted as a quote after the range 601 specified in step S801. When a headnote or footnote is selected, a process is performed such that a subdocument is inserted as a comment at a predetermined location, and a number or the like that associates the designated range 601 with the comment is attached to both. To

【0056】また、実施の形態2では、引用文や注釈文
の作成支援について説明したが、例えば、ある語句や事
柄についての説明を記述する場合に、その語句や事柄を
クエリー200としてサブドキュメントを検索し、検索
したサブドキュメントをそれらの説明文として利用する
こともできる。
In the second embodiment, the description has been given of the support for creating a quotation or an annotation. For example, when a description of a word or a matter is described, the sub-document is used as a query 200 using the word or the matter. You can also search and use the searched sub-documents as their descriptive text.

【0057】このように、実施の形態2の文書検索装置
によれば、検索対象を文書のサブドキュメントとし、検
索条件に直接関連する文書中の記述を検索結果として得
ることができるようにしたため、検索結果を引用文や注
釈文として利用することができる。また、画面表示され
ている編集中の文書の任意の範囲601をクエリー20
0とし、その場で検索の実行を指定することができるた
め、編集中にリアルタイムで引用文や注釈文となり得る
サブドキュメントを検索することができる。
As described above, according to the document search apparatus of the second embodiment, the search target is a sub-document of the document, and the description in the document directly related to the search condition can be obtained as the search result. Search results can be used as quotes and annotations. Also, an arbitrary range 601 of the document being edited displayed on the screen is searched for by the query 20.
Since it can be set to 0 and the execution of the search can be designated on the spot, a sub-document that can be a quote or an annotation can be searched in real time during editing.

【0058】なお、実施の形態1および2で説明した文
書検索装置は、予め用意されたプログラムをコンピュー
タやワークステーションで実行することによって実現さ
れる。このプログラムは、ハードディスク,フロッピー
ディスク,CD−ROM,MO,DVD等のコンピュー
タで読み取り可能な記録媒体に記録され、コンピュータ
によって記録媒体から読み出されることによって実行さ
れる。また、このプログラムは、上記記録媒体を介し
て、またはネットワークを介して配布することができ
る。
The document search device described in the first and second embodiments is realized by executing a prepared program on a computer or a workstation. This program is recorded on a computer-readable recording medium such as a hard disk, a floppy disk, a CD-ROM, an MO, and a DVD, and is executed by being read from the recording medium by the computer. This program can be distributed via the recording medium or via a network.

【0059】[0059]

【発明の効果】以上説明したように、本発明の文書検索
装置(請求項1)によれば、文書を構成する各センテン
スを任意の数のセンテンスまたはパラグラフ毎のセンテ
ンス等からなるグループに区分して、区分したグループ
をサブドキュメントと定義し、予め用意した文書をサブ
ドキュメントの単位でベクター表現に変換して格納する
格納手段と、画面表示されている文書の任意の範囲を指
定する範囲指定手段と、範囲指定手段で指定された範囲
の文字列の構造を解析する解析手段と、解析手段による
解析結果に基づいて、前記指定された範囲の文字列を用
いて検索条件を生成する検索条件生成手段と、検索条件
生成手段で生成した検索条件をベクター表現に変換する
変換手段と、変換手段から入力した前記検索条件のベク
ター表現に基づいて、前記格納手段から該当する前記サ
ブドキュメントを検索する検索手段と、を備えたため、
文書の編集中にリアルタイムで必要な情報を検索するこ
とができ、検索処理の利便性の向上を図ることができ
る。また、文書中の必要な箇所を探す必要がないため、
作業効率の向上を図ることができる。さらに、ベクトル
空間法を用いて検索を行う場合に、検索条件との関連性
の大きなトピックだけでなく、複数の他のトピックを含
む文書をも確実に検索することができる。
As described above, according to the document retrieval apparatus of the present invention (claim 1), each sentence constituting a document is divided into a group consisting of an arbitrary number of sentences or sentences for each paragraph. Storage means for defining a divided group as a sub-document, converting a prepared document into a vector representation in units of sub-documents, and storing the document, and a range specifying means for specifying an arbitrary range of the document displayed on the screen Analysis means for analyzing the structure of a character string in a range specified by the range specification means; and search condition generation for generating a search condition using the character string in the specified range based on an analysis result by the analysis means. Means, a conversion means for converting the search condition generated by the search condition generation means into a vector expression, and a conversion method based on the vector expression of the search condition input from the conversion means. Since having a search means for searching said sub-document corresponding from said storage means,
Necessary information can be searched in real time while editing the document, and the convenience of the search process can be improved. Also, because you do n’t have to find the right place in the document,
Work efficiency can be improved. Further, when performing a search using the vector space method, it is possible to reliably search not only a topic having a high relevance to a search condition but also a document including a plurality of other topics.

【0060】また、本発明の文書検索装置(請求項2)
によれば、請求項1に記載の文書検索装置において、検
索手段は、前記検索条件のベクター表現と前記サブドキ
ュメントのベクター表現との類似度を求め、求めた類似
度が所定の閾値を超えるサブドキュメントを選択し、選
択したサブドキュメントを類似度に応じて配列したリス
トを検索結果として出力するため、所望のサブドキュメ
ントを容易に選択することができる。
Further, the document search device of the present invention (Claim 2)
According to the document search apparatus according to claim 1, the search means obtains a similarity between the vector expression of the search condition and the vector expression of the sub-document, and determines the sub-similarity exceeding the predetermined threshold. Since a document is selected and a list in which the selected sub-documents are arranged according to the similarity is output as a search result, a desired sub-document can be easily selected.

【0061】また、本発明の文書検索装置(請求項3)
によれば、請求項1または2に記載の文書検索装置にお
いて、さらに、前記文書を構成するセンテンスの区分方
法を指定するための指定手段と、指定手段を介して指定
された前記センテンスの区分方法に基づいて、前記文書
から前記サブドキュメントを生成する生成手段と、を備
え、格納手段は、前記生成手段で生成したサブドキュメ
ントをベクター表現に変換して格納するため、ユーザの
好みの長さのサブドキュメントを検索対象とすることが
できる。
Further, the document search device of the present invention (claim 3)
3. The document retrieval apparatus according to claim 1, further comprising: designation means for designating a method of dividing sentences constituting the document, and a method of dividing the sentence designated via the designation means. Generating the sub-document from the document based on the document, wherein the storing means converts the sub-document generated by the generating means into a vector expression and stores the vector. Sub-documents can be searched.

【0062】また、本発明の文書検索装置(請求項4)
によれば、請求項1〜3のいずれか1つに記載の文書検
索装置において、さらに、前記検索手段による検索結果
に基づいて、所望のサブドキュメントを選択する選択手
段と、画面表示されている文書の任意の場所を指定する
指定手段と、指定手段で指定した場所に前記選択手段で
選択したサブドキュメントを挿入する挿入手段と、を備
えたため、検索結果を引用文や注釈文として利用するこ
とができる。また、画面表示されている編集中の文書の
任意の範囲をクエリーとして指定し、その場で検索の実
行を指定することができるため、編集中にリアルタイム
で引用文や注釈文となり得るサブドキュメントを検索し
て得ることができる。
A document search device according to the present invention (claim 4)
According to this, in the document search device according to any one of claims 1 to 3, further, a selection unit for selecting a desired sub-document based on a search result by the search unit is displayed on a screen. The search result is used as a citation or an annotation because it has a designating means for designating an arbitrary place of the document and an inserting means for inserting the sub-document selected by the selecting means at the place designated by the designating means. Can be. In addition, since any range of the document being edited displayed on the screen can be specified as a query and execution of the search can be specified on the spot, sub-documents that can be quoted or commentary in real time during editing can be specified. Can be obtained by searching.

【0063】さらに、本発明のコンピュータ読み取り可
能な記録媒体(請求項5)によれば、請求項1〜4のい
ずれか1つに記載の文書検索装置の各手段としてコンピ
ュータを機能させるためのプログラムを記録したため、
このプログラムをコンピュータに実行させることによ
り、文書の編集中にリアルタイムで必要な情報を検索す
ることができ、文書中の必要な箇所を検索対象とするこ
とができ、さらに、複数のトピックを含む文書をも確実
に検索することができる文書検索装置を実現することが
できる。
Further, according to a computer-readable recording medium of the present invention (claim 5), a program for causing a computer to function as each means of the document search device according to any one of claims 1 to 4 Was recorded,
By executing this program on a computer, it is possible to search for necessary information in real time while editing a document, to search for a necessary portion in the document, and further, to edit a document including a plurality of topics. A document search device capable of reliably searching for a document can also be realized.

【図面の簡単な説明】[Brief description of the drawings]

【図1】実施の形態1の文書検索装置のシステム構成図
である。
FIG. 1 is a system configuration diagram of a document search device according to a first embodiment.

【図2】図1に示したクライアントの処理を示す概略ブ
ロック図である。
FIG. 2 is a schematic block diagram illustrating processing of a client illustrated in FIG. 1;

【図3】図1に示した検索サーバの処理を示す概略ブロ
ック図である。
FIG. 3 is a schematic block diagram illustrating processing of a search server illustrated in FIG. 1;

【図4】実施の形態1の文書検索装置において、転置フ
ァイルの生成処理を示すフローチャートである。
FIG. 4 is a flowchart illustrating a process of generating an inverted file in the document search device according to the first embodiment;

【図5】実施の形態1の文書検索装置において、サブド
キュメントの検索処理を示すフローチャートである。
FIG. 5 is a flowchart showing a sub-document search process in the document search device according to the first embodiment.

【図6】実施の形態1の情報検索装置において、(a)
は、クエリーとする範囲の指定を行った様子を、(b)
は、検索処理の実行を指定する様子をそれぞれ示す説明
図である。
FIG. 6 is a diagram illustrating the information retrieval apparatus according to the first embodiment;
Shows the state of specifying the range to be a query, (b)
FIG. 8 is an explanatory diagram illustrating a state in which execution of a search process is specified;

【図7】実施の形態1の文書検索装置において、サブド
キュメントリストの一例を示す説明図である。
FIG. 7 is an explanatory diagram showing an example of a sub-document list in the document search device according to the first embodiment.

【図8】実施の形態2の文書検索装置において、サブド
キュメントの検索を利用した引用文や注釈文の作成処理
を示すフローチャートである。
FIG. 8 is a flowchart showing a process of creating a quote or an annotation using a search of a sub-document in the document search device according to the second embodiment.

【符号の説明】[Explanation of symbols]

100 クライアント 101 文書DB 102 転置ファイル 103 検索サーバ 104 ネットワーク 200 クエリー 201,300 自然言語処理モジュール 202,301 辞書 203,302 文法辞書 206 検索条件 207 入力装置 303 ドキュメント・セット 304 データベース・ビルド・コンポーネント 305 クエリー・ビルド・コンポーネント 306 クエリー・ドキュメント 307 検索エンジン 308 サブドキュメントリスト 600 文書 601 範囲(クエリー) 602 メニュー Reference Signs List 100 client 101 document DB 102 transposed file 103 search server 104 network 200 query 201, 300 natural language processing module 202, 301 dictionary 203, 302 grammar dictionary 206 search condition 207 input device 303 document set 304 database build component 305 query / query Build component 306 Query document 307 Search engine 308 Sub-document list 600 Document 601 Range (query) 602 Menu

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 ベクトル空間法を用いて検索処理を行う
文書検索装置において、 文書を構成する各センテンスを任意の数のセンテンスま
たはパラグラフ毎のセンテンス等からなるグループに区
分して、区分したグループをサブドキュメントと定義
し、予め用意した文書を前記サブドキュメントの単位で
ベクター表現に変換して格納する格納手段と、 画面表示されている文書の任意の範囲を指定する範囲指
定手段と、 前記範囲指定手段で指定された範囲の文字列の構造を解
析する解析手段と、 前記解析手段による解析結果に基づいて、前記指定され
た範囲の文字列を用いて検索条件を生成する検索条件生
成手段と、 前記検索条件生成手段で生成した検索条件をベクター表
現に変換する変換手段と、 前記変換手段から入力した前記検索条件のベクター表現
に基づいて、前記格納手段から該当する前記サブドキュ
メントを検索する検索手段と、 を備えたことを特徴とする文書検索装置。
1. A document search apparatus for performing search processing using a vector space method, wherein each sentence constituting a document is divided into a group consisting of an arbitrary number of sentences or sentences for each paragraph, and the divided groups are divided into groups. A storage unit that defines a sub-document, converts a prepared document into a vector expression in units of the sub-document, and stores the converted document; a range specification unit that specifies an arbitrary range of the document displayed on the screen; Analyzing means for analyzing the structure of the character string in the range specified by the means, and search condition generating means for generating a search condition using the character string in the specified range, based on the analysis result by the analyzing means, Conversion means for converting the search condition generated by the search condition generation means into a vector expression; And a search means for searching the storage means for the corresponding sub-document based on a document expression.
【請求項2】 前記検索手段は、前記検索条件のベクタ
ー表現と前記サブドキュメントのベクター表現との類似
度を求め、求めた類似度が所定の閾値を超えるサブドキ
ュメントを選択し、選択したサブドキュメントを類似度
に応じて配列したリストを検索結果として出力すること
を特徴とする請求項1に記載の文書検索装置。
2. The search means calculates a similarity between the vector expression of the search condition and the vector expression of the sub-document, selects a sub-document whose calculated similarity exceeds a predetermined threshold, and selects the selected sub-document. 2. The document search apparatus according to claim 1, wherein a list in which are arranged according to the similarity is output as a search result.
【請求項3】 さらに、前記文書を構成するセンテンス
の区分方法を指定するための指定手段と、 前記指定手段を介して指定された前記センテンスの区分
方法に基づいて、前記文書から前記サブドキュメントを
生成する生成手段と、を備え、 前記格納手段は、前記生成手段で生成したサブドキュメ
ントをベクター表現に変換して格納することを特徴とす
る請求項1または2に記載の文書検索装置。
3. A designation means for designating a method of classifying sentences constituting the document, and the sub-document from the document based on the sentence classification method designated via the designating means. 3. The document search device according to claim 1, further comprising: a generation unit configured to generate the document, wherein the storage unit converts the subdocument generated by the generation unit into a vector expression and stores the vector expression. 4.
【請求項4】 さらに、前記検索手段による検索結果に
基づいて、所望のサブドキュメントを選択する選択手段
と、 前記画面表示されている文書の任意の場所を指定する指
定手段と、 前記指定手段で指定した場所に前記選択手段で選択した
サブドキュメントを挿入する挿入手段と、 を備えたことを特徴とする請求項1〜3のいずれか1つ
に記載の文書検索装置。
4. A selecting unit for selecting a desired sub-document based on a search result by the searching unit; a specifying unit for specifying an arbitrary place of the document displayed on the screen; The document search apparatus according to any one of claims 1 to 3, further comprising: an insertion unit that inserts a sub-document selected by the selection unit into a designated location.
【請求項5】 前記請求項1〜4のいずれか1つに記載
の文書検索装置の各手段としてコンピュータを機能させ
るためのプログラムを記録したことを特徴とするコンピ
ュータ読み取り可能な記録媒体。
5. A computer-readable recording medium on which a program for causing a computer to function as each unit of the document search device according to claim 1 is recorded.
JP9199615A 1997-07-25 1997-07-25 Document retrieval device and computer-readable recording medium where program making computer function as same device is recorded Pending JPH1145255A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9199615A JPH1145255A (en) 1997-07-25 1997-07-25 Document retrieval device and computer-readable recording medium where program making computer function as same device is recorded

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9199615A JPH1145255A (en) 1997-07-25 1997-07-25 Document retrieval device and computer-readable recording medium where program making computer function as same device is recorded

Publications (1)

Publication Number Publication Date
JPH1145255A true JPH1145255A (en) 1999-02-16

Family

ID=16410810

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9199615A Pending JPH1145255A (en) 1997-07-25 1997-07-25 Document retrieval device and computer-readable recording medium where program making computer function as same device is recorded

Country Status (1)

Country Link
JP (1) JPH1145255A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002222210A (en) * 2001-01-25 2002-08-09 Hitachi Ltd Document search system, method therefor, and search server
JP2005173999A (en) * 2003-12-11 2005-06-30 Ricoh Co Ltd Device, system and method for searching electronic file, program, and recording media
JP2010211256A (en) * 2009-03-06 2010-09-24 Sky Co Ltd Formal name determination system and program
JP2010211664A (en) * 2009-03-12 2010-09-24 Toshiba Corp Apparatus, method and program for supporting retrieval

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0628403A (en) * 1992-07-09 1994-02-04 Mitsubishi Electric Corp Document retrieving device
JPH07134720A (en) * 1993-09-17 1995-05-23 Nec Corp Method and device for presenting relative information in sentence preparing system
JPH0816611A (en) * 1994-06-27 1996-01-19 Sharp Corp Data retrieving device using natural language
JPH09101969A (en) * 1995-10-06 1997-04-15 Nippon Telegr & Teleph Corp <Ntt> Method and device for retrieving all sentences by using suitable feedback

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0628403A (en) * 1992-07-09 1994-02-04 Mitsubishi Electric Corp Document retrieving device
JPH07134720A (en) * 1993-09-17 1995-05-23 Nec Corp Method and device for presenting relative information in sentence preparing system
JPH0816611A (en) * 1994-06-27 1996-01-19 Sharp Corp Data retrieving device using natural language
JPH09101969A (en) * 1995-10-06 1997-04-15 Nippon Telegr & Teleph Corp <Ntt> Method and device for retrieving all sentences by using suitable feedback

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002222210A (en) * 2001-01-25 2002-08-09 Hitachi Ltd Document search system, method therefor, and search server
JP2005173999A (en) * 2003-12-11 2005-06-30 Ricoh Co Ltd Device, system and method for searching electronic file, program, and recording media
JP2010211256A (en) * 2009-03-06 2010-09-24 Sky Co Ltd Formal name determination system and program
JP2010211664A (en) * 2009-03-12 2010-09-24 Toshiba Corp Apparatus, method and program for supporting retrieval

Similar Documents

Publication Publication Date Title
US7958128B2 (en) Query-independent entity importance in books
JP3266586B2 (en) Data analysis system
JP2004157981A (en) Device for expressing summary
JPH1145241A (en) Japanese syllabary-chinese character conversion system and computer-readable recording medium where programs making computer function as means of same system is recorded
JP2007141090A (en) Question answering system, data retrieval method and computer program
JP4065346B2 (en) Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method
JPH1145267A (en) Document retrieval device and computer readable recording medium recorded with program for functioning computer as the device
JP3767763B2 (en) Information retrieval device and computer-readable recording medium recording a program for causing a computer to function as the device
JPH1145257A (en) Web document retrieval supporting device and computer readable recording medium recorded with program for functioning computer as the device
JPH1145252A (en) Information retrieval device and computer readable recording medium for recording program for having computer function as the same device
KR101835994B1 (en) Method and apparatus of providing searching service for electronic books
JPH1145255A (en) Document retrieval device and computer-readable recording medium where program making computer function as same device is recorded
JPH1145268A (en) Document retrieval device and computer-readable recording medium where eprogram making computer funtion as same device is recorded
JP2003108584A (en) Information retrieving system and program
JP4138048B2 (en) Information retrieval device and computer-readable recording medium recording a program for causing a computer to function as the device
JPH1145254A (en) Document retrieval device and computer readable recording medium recorded with program for functioning computer as the device
JP2002288189A (en) Method and apparatus for classifying documents, and recording medium with document classification processing program recorded thereon
JP2005202924A (en) Translation determination system, method, and program
JP3851712B2 (en) Document management system and computer-readable recording medium storing a program for causing a computer to function as the system
JP4384736B2 (en) Image search device and computer-readable recording medium storing program for causing computer to function as each means of the device
JP4000332B2 (en) Information retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus
JPH1145249A (en) Information retrieval device and computer-readable recording medium where program for making computer function as same device is recorded
KR100885527B1 (en) Apparatus for making index-data based by context and for searching based by context and method thereof
JPH1145269A (en) Document management support system and computer readable recording medium recorded with program for functioning computer as the system
JP3177593B2 (en) Term narrowing search method and computer readable recording medium recording a program for causing a computer to execute each step of the method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070724

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070925

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071106