JP2000339323A - Method, device and system for retrieving document and recording medium - Google Patents
Method, device and system for retrieving document and recording mediumInfo
- Publication number
- JP2000339323A JP2000339323A JP11145678A JP14567899A JP2000339323A JP 2000339323 A JP2000339323 A JP 2000339323A JP 11145678 A JP11145678 A JP 11145678A JP 14567899 A JP14567899 A JP 14567899A JP 2000339323 A JP2000339323 A JP 2000339323A
- Authority
- JP
- Japan
- Prior art keywords
- document
- query
- search
- shared memory
- memory space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、文書を検索する際
の共有メモリを利用した文書検索方法、文書検索装置、
文書検索システム、及び上記文書検索方法をコンピュー
タにより実行させるためのプログラムを記録したコンピ
ュータにより読み取り可能な記録媒体に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document search method and a document search apparatus using a shared memory when searching for a document.
The present invention relates to a document search system and a computer-readable recording medium that stores a program for causing a computer to execute the document search method.
【0002】[0002]
【従来の技術】従来では、文書検索装置は、1台の装置
で文書インデックスを蓄積し,当該文書インデックスを
用いて検索クエリの処理を行なっていた。そのため、文
書インデックスが大規模になったり、大量のユーザクエ
リが発生した場合、処理しきれない状態が発生してい
た。2. Description of the Related Art Conventionally, a document search apparatus accumulates a document index in one apparatus and processes a search query using the document index. For this reason, when the document index becomes large or a large number of user queries occur, a state where processing cannot be performed occurs.
【0003】[0003]
【発明が解決しようとする課題】本発明はこのような事
情に鑑みてなされたものであり、大量の文書インデック
スや大量のユーザクエリに対してスケーラブルに処理す
ることができる文書検索方法、文書検索装置、文書検索
システム及び上記文書検索方法をコンピュータにより実
行させるためのプログラムを記録したコンピュータによ
り読み取り可能な記録媒体を提供することを目的とす
る。SUMMARY OF THE INVENTION The present invention has been made in view of such circumstances, and a document search method and a document search method capable of scalably processing a large number of document indexes and a large number of user queries. It is an object of the present invention to provide a computer-readable recording medium that records a program for causing a computer to execute the apparatus, the document search system, and the document search method.
【0004】[0004]
【課題を解決するための手段】上記目的を達成するため
に請求項1に記載の発明は、ユーザのクエリを入力し、
該入力したユーザクエリを形態素解析用辞書を用いて形
態素解析して該ユーザクエリ中に記述されている単語を
確定し、かつ各単語の品詞、活用形等を確定すると共
に、該形態素解析したクエリを共有メモリ空間に記録す
るユーザクエリ処理と、処理対象の文書を入力し、該入
力した文書について形態素解析用辞書を用いて形態素解
析し、文書中に記述されている各文の単語を確定すると
ともに、各文中に含まれる単語及び文書名を各文書のイ
ンデックスとして文書インデックスデータベースに記録
する対象文書処理と、前記共有メモリ空間に記憶された
クエリが有るか否かを絶えず確認し、前記共有メモリ空
間にクエリが記録されたことを確認したと同時に、前記
共有メモリ空間よりクエリの内容を読み出し、当該クエ
リと一致する単語群を有する文書を、前記文書インデッ
クスデータベースから検索し、前記ユーザクエリに適合
した文書情報を抽出した場合、前記共有メモリ空間に当
該文書情報を記録する登録クエリ処理と、前記共有メモ
リ空間に前記登録クエリ処理により記録された文書情報
が記録されているか否かを絶えず確認し、前記ユーザク
エリに対する検索結果として、適切な文書情報が記述さ
れた場合、前記共有メモリ空間に記録された検索結果で
ある当該文書情報を読み出し、ユーザに対して出力する
検索結果処理と、を有することを特徴とする。In order to achieve the above object, according to the first aspect of the present invention, a user query is input,
The input user query is morphologically analyzed using a morphological analysis dictionary to determine words described in the user query, and the part of speech, inflected form, etc. of each word are determined, and the morphologically analyzed query is determined. User query processing to record in the shared memory space, a document to be processed is input, the input document is subjected to morphological analysis using a morphological analysis dictionary, and words of each sentence described in the document are determined. Along with the target document processing for recording the words and document names included in each sentence in a document index database as an index of each document, and constantly checking whether or not there is a query stored in the shared memory space, the shared memory At the same time as confirming that the query was recorded in the space, the contents of the query were read from the shared memory space, and a group of words matching the query was read. When the document index database is searched from the document index database and the document information matching the user query is extracted, the registration query processing for recording the document information in the shared memory space, and the registration query processing in the shared memory space It is constantly checked whether or not the document information recorded by the user is recorded. If appropriate document information is described as a search result with respect to the user query, the document is a search result recorded in the shared memory space. And a search result process for reading out information and outputting the information to a user.
【0005】請求項1に記載の発明によれば、ユーザの
クエリを入力し、該入力したユーザクエリを形態素解析
用辞書を用いて形態素解析して該ユーザクエリ中に記述
されている単語を確定し、かつ各単語の品詞、活用形等
を確定すると共に、該形態素解析したクエリを共有メモ
リ空間に記録するユーザクエリ処理と、処理対象の文書
を入力し、該入力した文書について形態素解析用辞書を
用いて形態素解析し、文書中に記述されている各文の単
語を確定するとともに、各文中に含まれる単語及び文書
名を各文書のインデックスとして文書インデックスデー
タベースに記録する対象文書処理と、前記共有メモリ空
間に記憶されたクエリが有るか否かを絶えず確認し、前
記共有メモリ空間にクエリが記録されたことを確認した
と同時に、前記共有メモリ空間よりクエリの内容を読み
出し、当該クエリと一致する単語群を有する文書を、前
記文書インデックスデータベースから検索し、前記ユー
ザクエリに適合した文書情報を抽出した場合、前記共有
メモリ空間に当該文書情報を記録する登録クエリ処理
と、前記共有メモリ空間に前記登録クエリ処理により記
録された文書情報が記録されているか否かを絶えず確認
し、前記ユーザクエリに対する検索結果として、適切な
文書情報が記述された場合、前記共有メモリ空間に記録
された検索結果である当該文書情報を読み出し、ユーザ
に対して出力する検索結果処理とを有するので、大量の
文書インデックスや大量のユーザクエリに対してスケー
ラブルに処理することができる。According to the first aspect of the present invention, a user query is input, and the input user query is morphologically analyzed using a morphological analysis dictionary to determine a word described in the user query. User query processing for determining the part of speech, inflected form, etc. of each word, and recording the morphologically analyzed query in a shared memory space; inputting a document to be processed; and a morphological analysis dictionary for the input document. Morphological analysis using, to determine the word of each sentence described in the document, and the target document processing to record the words and document names included in each sentence as an index of each document in the document index database, It is constantly checked whether or not there is a query stored in the shared memory space, and at the same time it is confirmed that the query has been recorded in the shared memory space, When the content of the query is read from the memory space, a document having a word group that matches the query is searched from the document index database, and when document information matching the user query is extracted, the document information is stored in the shared memory space. In the registration query process of recording the document information, it is constantly checked whether or not the document information recorded by the registration query process is recorded in the shared memory space, and appropriate document information is described as a search result for the user query. In this case, there is a search result process for reading out the document information, which is a search result recorded in the shared memory space, and outputting it to the user, so that a large amount of document indexes and a large number of user queries can be processed scalably. can do.
【0006】請求項2に記載の発明は、分散された複数
の文書検索装置の各々について異なる文書インデックス
が蓄積された文書インデックスデータベースを有し、前
記複数の文書検索装置が共有メモリ空間を共有して文書
検索を行う文書検索システムにおける文書検索方法であ
って、前記複数の文書検索装置の各々において、前記共
有メモリ空間に記憶されたクエリが有るか否かを絶えず
確認し、前記共有メモリ空間にクエリが記録されたこと
を確認したと同時に、前記共有メモリ空間よりクエリの
内容を読み出し、当該クエリと一致する単語群を有する
文書を、文書インデックスデータベースから検索し、前
記ユーザクエリに適合した文書情報を抽出した場合、前
記共有メモリ空間に当該文書情報を記録する登録クエリ
処理部と、前記共有メモリ空間に前記登録クエリ処理に
より記録された文書情報が記録されているか否かを絶え
ず確認し、前記ユーザクエリに対する検索結果として、
適切な文書情報が記述された場合、前記共有メモリ空間
に記録された検索結果である当該文書情報を読み出し、
ユーザに対して出力する検索結果処理と、を有すること
を特徴とする。According to a second aspect of the present invention, there is provided a document index database in which different document indexes are stored for each of a plurality of distributed document search devices, and the plurality of document search devices share a shared memory space. A document search method in a document search system that performs a document search by using a plurality of document search devices, wherein each of the plurality of document search devices constantly checks whether or not there is a query stored in the shared memory space. At the same time as confirming that the query has been recorded, the content of the query is read from the shared memory space, a document having a word group that matches the query is searched from the document index database, and document information matching the user query is obtained. When extracting the document information, the registration query processing unit that records the document information in the shared memory space; Whether the document information recorded by the registration query processing in the memory space is recorded constantly confirmed, as the search result for the user query,
When appropriate document information is described, the relevant document information which is a search result recorded in the shared memory space is read out,
And a search result process for outputting to the user.
【0007】請求項2に記載の発明によれば、 分散さ
れた複数の文書検索装置の各々について異なる文書イン
デックスが蓄積された文書インデックスデータベースを
有し、前記複数の文書検索装置が共有メモリ空間を共有
して文書検索を行う文書検索システムにおける文書検索
方法であって、前記複数の文書検索装置の各々におい
て、前記共有メモリ空間に記憶されたクエリが有るか否
かを絶えず確認し、前記共有メモリ空間にクエリが記録
されたことを確認したと同時に、前記共有メモリ空間よ
りクエリの内容を読み出し、当該クエリと一致する単語
群を有する文書を、文書インデックスデータベースから
検索し、前記ユーザクエリに適合した文書情報を抽出し
た場合、前記共有メモリ空間に当該文書情報を記録する
登録クエリ処理部と、前記共有メモリ空間に前記登録ク
エリ処理により記録された文書情報が記録されているか
否かを絶えず確認し、前記ユーザクエリに対する検索結
果として、適切な文書情報が記述された場合、前記共有
メモリ空間に記録された検索結果である当該文書情報を
読み出し、ユーザに対して出力する検索結果処理とを有
するので、文書検索システムを構成する各文書検索装置
が独立に検索処理を行い、検索結果を高速に融合するこ
とができる。これは各検索装置が有する文書インデック
スデータベースに蓄積される文書インデックスが異なる
ようにする、すなわち文書インデックスをストライプ状
に作成するようにしていることによる。According to the second aspect of the present invention, there is provided a document index database in which different document indexes are stored for each of a plurality of distributed document search apparatuses, and the plurality of document search apparatuses occupy a shared memory space. A document search method in a document search system for performing a shared document search, wherein each of the plurality of document search devices constantly checks whether or not there is a query stored in the shared memory space. At the same time as confirming that the query was recorded in the space, the contents of the query were read from the shared memory space, and a document having a word group matching the query was searched from the document index database, and the document was matched with the user query. When extracting the document information, a registration query processing unit that records the document information in the shared memory space, It is constantly checked whether or not the document information recorded by the registration query process is recorded in the shared memory space, and, as a search result for the user query, when appropriate document information is described, the shared memory space is And a search result process for reading out the document information that is a recorded search result and outputting the document information to the user. Can be fused. This is because the document indexes stored in the document index database of each search device are different, that is, the document indexes are created in a stripe shape.
【0008】請求項3に記載の発明は、分散された複数
の文書検索装置の各々について同一の文書インデックス
が蓄積された文書インデックスデータベースを有し、前
記複数の文書検索装置が共有メモリ空間を共有して文書
検索を行う文書検索システムにおける文書検索方法であ
って、前記複数の文書検索装置の各々は、前記共有メモ
リ空間に記憶されたクエリが有るか否かを絶えず確認
し、前記共有メモリ空間にクエリが記録されたことを確
認したと同時に、前記共有メモリ空間よりクエリの内容
を読み出し、当該クエリと一致する単語群を有する文書
を、文書インデックスデータベースから検索し、分散さ
れた他の各文書検索装置が検索結果を前記共有メモリ空
間に記録する際に、他の各文書検索装置が検索結果を記
録していないのを確認し、かつ記録する途中で前記他の
各文書検索装置が検索結果を記録しないようにする登録
クエリ処理と、前記共有メモリ空間に前記登録クエリ処
理により記録された文書情報が記録されているか否かを
絶えず確認し、前記ユーザクエリに対する検索結果とし
て、適切な文書情報が記述された場合、前記共有メモリ
空間に記録された検索結果である当該文書情報を読み出
し、ユーザに対して出力する検索結果処理と、を有する
ことを特徴とする。According to a third aspect of the present invention, there is provided a document index database in which the same document index is stored for each of a plurality of distributed document search devices, and the plurality of document search devices share a shared memory space. A document search method for performing a document search by performing a document search, wherein each of the plurality of document search devices constantly checks whether or not there is a query stored in the shared memory space; At the same time as confirming that the query has been recorded, the content of the query is read from the shared memory space, a document having a word group that matches the query is searched from the document index database, and each of the other distributed documents is searched. When the search device records the search result in the shared memory space, it is confirmed that each of the other document search devices does not record the search result. Registration query processing to prevent the other document search devices from recording search results during recording, and whether or not document information recorded by the registration query processing is recorded in the shared memory space. Is constantly checked, and when appropriate document information is described as a search result for the user query, a search result process for reading out the document information, which is a search result recorded in the shared memory space, and outputting it to the user And the following.
【0009】請求項3に記載の発明によれば、分散され
た複数の文書検索装置の各々について同一の文書インデ
ックスが蓄積された文書インデックスデータベースを有
し、前記複数の文書検索装置が共有メモリ空間を共有し
て文書検索を行う文書検索システムにおける文書検索方
法であって、前記複数の文書検索装置の各々は、前記共
有メモリ空間に記憶されたクエリが有るか否かを絶えず
確認し、前記共有メモリ空間にクエリが記録されたこと
を確認したと同時に、前記共有メモリ空間よりクエリの
内容を読み出し、当該クエリと一致する単語群を有する
文書を、文書インデックスデータベースから検索し、分
散された他の各文書検索装置が検索結果を前記共有メモ
リ空間に記録する際に、他の各文書検索装置が検索結果
を記録していないのを確認し、かつ記録する途中で前記
他の各文書検索装置が検索結果を記録しないようにする
登録クエリ処理と、前記共有メモリ空間に前記登録クエ
リ処理により記録された文書情報が記録されているか否
かを絶えず確認し、前記ユーザクエリに対する検索結果
として、適切な文書情報が記述された場合、前記共有メ
モリ空間に記録された検索結果である当該文書情報を読
み出し、ユーザに対して出力する検索結果処理とを有す
るので、文書検索システムを構成する各文書検索装置の
中で、最も高速に応答する検索結果を利用し、最も高速
に応答する検索結果を融合することができる。これは各
検索装置が有する文書インデックスデータベースに蓄積
される文書インデックスが同一になるようにする、すな
わち文書インデックスをミラー化するようにしているこ
とによる。According to the third aspect of the present invention, there is provided a document index database in which the same document index is stored for each of a plurality of distributed document search devices, and the plurality of document search devices are provided in a shared memory space. A document search method in a document search system for performing a document search by sharing documents, wherein each of the plurality of document search devices constantly checks whether or not there is a query stored in the shared memory space, and At the same time as confirming that the query was recorded in the memory space, the content of the query was read from the shared memory space, a document having a word group matching the query was searched from the document index database, and another distributed document was searched. When each document search device records a search result in the shared memory space, each of the other document search devices does not record the search result. Registration query processing to prevent each of the other document search devices from recording a search result during recording, and whether the document information recorded by the registration query processing is recorded in the shared memory space. Whether the document information is described as a search result for the user query and appropriate document information is described as a search result for the user query, the search result is output to the user by reading the document information, which is the search result recorded in the shared memory space. Since it has the result processing, it is possible to use the search result that responds at the highest speed among the respective document search devices constituting the document search system, and fuse the search results that respond at the highest speed. This is because the document indexes stored in the document index database of each search device are the same, that is, the document indexes are mirrored.
【0010】請求項4に記載の発明は、ユーザのクエリ
を入力するユーザクエリ入力部と、該ユーザクエリ入力
部が入力したユーザクエリを形態素解析用辞書を用いて
形態素解析し、該ユーザクエリ中に記述されている単語
を確定するとともに、各単語の品詞、活用形等を確定す
るクエリ形態素解析部と、該クエリ形態素解析部が形態
素解析したユーザクエリを共有メモリ空間に記録するク
エリ記録部とを有するユーザクエリ処理部と、処理対象
の文書を入力する対象文書入力部と、該処理対象文書入
力部が入力した文書を形態素解析用辞書を用いて形態素
解析し、前記文書中に記述されている各文の単語を確定
するとともに、各文中に含まれる単語及び文書名を文書
のインデックスとして文書インデックスデータベースに
記録する文書インデックス作成部とを有する対象文書処
理部と、前記共有メモリ空間に記憶されたクエリが有る
か否かを絶えず確認するクエリ確認部と、該クエリ確認
部が、クエリが記録されたことを確認したと同時に、ク
エリの内容を読み出し、当該クエリと一致する単語群を
有する文書を、文書インデックスデータベースから検索
する文書インデックス検索部と、該文書インデックス検
索部が検索し、前記ユーザクエリに適合した文書情報を
抽出した場合、前記共有メモリ空間に当該文書情報を記
録する検索結果記録部とを有する登録クエリ処理部と、
前記共有メモリ空間に前記検索結果記録部により記録さ
れた文書情報が記録されているか否かを絶えず確認する
検索結果確認部と、該検索結果確認部が、前記ユーザク
エリに対する検索結果として、適切な文書情報が記述さ
れた場合、共有メモリ空間に記録された検索結果である
当該文書情報を読み出し、ユーザに対して出力する検索
結果出力部とを有する検索結果処理部と、を有すること
を特徴とする。According to a fourth aspect of the present invention, a user query input unit for inputting a user query, and a user query input by the user query input unit are morphologically analyzed using a morphological analysis dictionary. And a query morphological analysis unit that determines the part of speech, inflected form, etc. of each word, and a query recording unit that records a user query morphologically analyzed by the query morphological analysis unit in a shared memory space. A user query processing unit having a, a target document input unit for inputting a document to be processed, and a morphological analysis of the document input by the target document input unit using a morphological analysis dictionary, which is described in the document. The document index that determines the words of each sentence and records the words and document names contained in each sentence as a document index in the document index database. A target document processing unit having a query creation unit, a query confirmation unit that constantly checks whether there is a query stored in the shared memory space, and the query confirmation unit confirms that the query has been recorded. At the same time, the content of the query is read out, and a document index search unit for searching a document having a word group matching the query from the document index database, and the document index search unit searches for the document information matching the user query. When a is extracted, a registration query processing unit having a search result recording unit that records the document information in the shared memory space,
A search result confirmation unit that constantly checks whether or not the document information recorded by the search result recording unit is recorded in the shared memory space; and A search result processing unit having a search result output unit that reads out the document information that is a search result recorded in the shared memory space when the document information is described, and outputs the document information to a user. I do.
【0011】請求項4に記載の発明によれば、ユーザの
クエリを入力するユーザクエリ入力部と、該ユーザクエ
リ入力部が入力したユーザクエリを形態素解析用辞書を
用いて形態素解析し、該ユーザクエリ中に記述されてい
る単語を確定するとともに、各単語の品詞、活用形等を
確定するクエリ形態素解析部と、該クエリ形態素解析部
が形態素解析したユーザクエリを共有メモリ空間に記録
するクエリ記録部とを有するユーザクエリ処理部と、処
理対象の文書を入力する対象文書入力部と、該処理対象
文書入力部が入力した文書を形態素解析用辞書を用いて
形態素解析し、前記文書中に記述されている各文の単語
を確定するとともに、各文中に含まれる単語及び文書名
を文書のインデックスとして文書インデックスデータベ
ースに記録する文書インデックス作成部とを有する対象
文書処理部と、前記共有メモリ空間に記憶されたクエリ
が有るか否かを絶えず確認するクエリ確認部と、該クエ
リ確認部が、クエリが記録されたことを確認したと同時
に、クエリの内容を読み出し、当該クエリと一致する単
語群を有する文書を、文書インデックスデータベースか
ら検索する文書インデックス検索部と、該文書インデッ
クス検索部が検索し、前記ユーザクエリに適合した文書
情報を抽出した場合、前記共有メモリ空間に当該文書情
報を記録する検索結果記録部とを有する登録クエリ処理
部と、前記共有メモリ空間に前記検索結果記録部により
記録された文書情報が記録されているか否かを絶えず確
認する検索結果確認部と、該検索結果確認部が、前記ユ
ーザクエリに対する検索結果として、適切な文書情報が
記述された場合、共有メモリ空間に記録された検索結果
である当該文書情報を読み出し、ユーザに対して出力す
る検索結果出力部とを有する検索結果処理部とを有する
ので、大量の文書インデックスや大量のユーザクエリに
対してスケーラブルに処理することができる。According to the fourth aspect of the present invention, a user query input unit for inputting a user's query, and a user query input by the user query input unit are morphologically analyzed using a morphological analysis dictionary. A query morphological analysis unit that determines words described in the query and also determines the part of speech, inflected form, etc. of each word, and a query record that records a user query morphologically analyzed by the query morphological analysis unit in a shared memory space A user query processing unit having a unit, a target document input unit for inputting a document to be processed, and a morphological analysis of the document input by the target document input unit using a morphological analysis dictionary, and describing the document in the document. Sentence that determines the words of each sentence and records the words and document names included in each sentence as a document index in the document index database. A target document processing unit having an index creation unit, a query confirmation unit for constantly confirming whether or not there is a query stored in the shared memory space, and the query confirmation unit confirming that the query has been recorded. At the same time, the contents of the query are read, and a document index search unit that searches the document index database for a document having a word group that matches the query, and document information that is searched by the document index search unit and matches the user query Is extracted, the registered query processing unit having a search result recording unit that records the document information in the shared memory space, and whether the document information recorded by the search result recording unit is recorded in the shared memory space A search result confirming unit for constantly confirming whether or not the search result is obtained, the search result confirming unit as a search result for the user query; When appropriate document information is described, a search result processing unit having a search result output unit that reads out the document information, which is a search result recorded in the shared memory space, and outputs it to the user, Scalable processing of document indexes and large numbers of user queries.
【0012】請求項5に記載の発明は、分散された複数
の文書検索装置が共有メモリ空間を共有して文書検索を
行う文書検索システムであって、該文書検索システム
は、前記複数の文書検索装置の各々について異なる文書
インデックスデータが蓄積された文書インデックスデー
タベースを有し、前記複数の文書検索装置の各々は、前
記共有メモリ空間に記憶されたクエリが有るか否かを絶
えず確認するクエリ確認部と、該クエリ確認部が、クエ
リが記録されたことを確認したと同時に、クエリの内容
を読み出し、当該クエリと一致する単語群を有する文書
を、文書インデックスデータベースから検索する文書イ
ンデックス検索部と、該文書インデックス検索部が検索
し、前記ユーザクエリに適合した文書情報を抽出した場
合、前記共有メモリ空間に当該文書情報を記録する検索
結果記録部とを有する登録クエリ処理部と、前記共有メ
モリ空間に前記検索結果記録部により記録された文書情
報が記録されているか否かを絶えず確認する検索結果確
認部と、該検索結果確認部が、前記ユーザクエリに対す
る検索結果として、適切な文書情報が記述された場合、
共有メモリ空間に記録された検索結果である当該文書情
報を読み出し、ユーザに対して出力する検索結果出力部
とを有する検索結果処理部と、を有することを特徴とす
る。According to a fifth aspect of the present invention, there is provided a document search system in which a plurality of distributed document search devices share a shared memory space to perform a document search. A query index unit that has a document index database in which different document index data is stored for each of the devices, and wherein each of the plurality of document search devices constantly checks whether or not there is a query stored in the shared memory space; A document index search unit that, at the same time that the query confirmation unit confirms that the query has been recorded, reads the contents of the query and searches a document index database for a document having a word group that matches the query, When the document index search unit searches and extracts document information matching the user query, the shared memory A registration query processing unit having a search result recording unit for recording the document information therebetween, and a search result for constantly checking whether or not the document information recorded by the search result recording unit is recorded in the shared memory space. A confirmation unit and the search result confirmation unit, when appropriate document information is described as a search result for the user query,
A search result processing unit having a search result output unit that reads out the document information that is a search result recorded in the shared memory space and outputs the read document information to a user.
【0013】請求項5に記載の発明によれば、分散され
た複数の文書検索装置が共有メモリ空間を共有して文書
検索を行う文書検索システムであって、該文書検索シス
テムは、前記複数の文書検索装置の各々について異なる
文書インデックスデータが蓄積された文書インデックス
データベースを有し、前記複数の文書検索装置の各々
は、前記共有メモリ空間に記憶されたクエリが有るか否
かを絶えず確認するクエリ確認部と、該クエリ確認部
が、クエリが記録されたことを確認したと同時に、クエ
リの内容を読み出し、当該クエリと一致する単語群を有
する文書を、文書インデックスデータベースから検索す
る文書インデックス検索部と、該文書インデックス検索
部が検索し、前記ユーザクエリに適合した文書情報を抽
出した場合、前記共有メモリ空間に当該文書情報を記録
する検索結果記録部とを有する登録クエリ処理部と、前
記共有メモリ空間に前記検索結果記録部により記録され
た文書情報が記録されているか否かを絶えず確認する検
索結果確認部と、該検索結果確認部が、前記ユーザクエ
リに対する検索結果として、適切な文書情報が記述され
た場合、共有メモリ空間に記録された検索結果である当
該文書情報を読み出し、ユーザに対して出力する検索結
果出力部とを有する検索結果処理部とを有するので、文
書検索システムを構成する各文書検索装置が独立に検索
処理を行い、検索結果を高速に融合することができる。
これは各検索装置が有する文書インデックスデータベー
スに蓄積される文書インデックスが異なるようにする、
すなわち文書インデックスをストライプ状に作成するよ
うにしていることによる。According to a fifth aspect of the present invention, there is provided a document search system in which a plurality of distributed document search devices share a shared memory space to perform a document search, wherein the document search system includes a plurality of document search devices. A document index database in which different document index data is stored for each of the document search devices, wherein each of the plurality of document search devices constantly checks whether or not there is a query stored in the shared memory space; A document index search unit that reads the contents of the query and searches the document index database for a document that has a word group that matches the query at the same time that the query unit confirms that the query has been recorded. When the document index search unit searches and extracts document information that matches the user query, A registration query processing unit having a search result recording unit that records the document information in the memory space; and a search that constantly checks whether or not the document information recorded by the search result recording unit is recorded in the shared memory space. A result confirming unit and the search result confirming unit, when appropriate document information is described as a search result for the user query, reads out the document information that is the search result recorded in the shared memory space, And a search result processing unit having a search result output unit that outputs the search results. Therefore, each of the document search apparatuses constituting the document search system can perform the search processing independently and can merge the search results at high speed.
This makes the document index stored in the document index database of each search device different,
That is, the document index is created in a stripe shape.
【0014】請求項6に記載の発明は、分散された複数
の文書検索装置が共有メモリ空間を共有して文書検索を
行う文書検索システムであって、該文書検索システム
は、前記複数の文書検索装置の各々について同一の文書
インデックスデータが蓄積された文書インデックスデー
タベースを有し、前記複数の文書検索装置の各々は、前
記共有メモリ空間に記憶されたクエリが有るか否かを絶
えず確認するクエリ確認部と、該クエリ確認部が、クエ
リが記録されたことを確認したと同時に、クエリの内容
を読み出し、当該クエリと一致する単語群を有する文書
を、文書インデックスデータベースから検索する文書イ
ンデックス検索部と、分散された他の各文書検索装置が
検索結果を前記共有メモリ空間に記録する際に、他の各
文書検索装置における文書インデックス検索部が検索結
果を記録していないのを確認し、かつ記録する途中で前
記他の各文書検索装置における文書インデックス検索部
が検索結果を記録しないようにする検索結果記録部とを
有する登録クエリ処理部と、前記共有メモリ空間に前記
検索結果記録部により記録された文書情報が記録されて
いるか否かを絶えず確認する検索結果確認部と、該検索
結果確認部が、前記ユーザクエリに対する検索結果とし
て、適切な文書情報が記述された場合、共有メモリ空間
に記録された検索結果である当該文書情報を読み出し、
ユーザに対して出力する検索結果出力部とを有する検索
結果処理部と、を有することを特徴とする。According to a sixth aspect of the present invention, there is provided a document search system in which a plurality of distributed document search devices share a shared memory space to perform a document search. A document index database in which the same document index data is stored for each of the devices, wherein each of the plurality of document search devices constantly checks whether or not there is a query stored in the shared memory space; And a document index search unit that, when the query confirmation unit confirms that the query has been recorded, reads the contents of the query and searches for a document having a word group that matches the query from the document index database. When each of the other distributed document search apparatuses records a search result in the shared memory space, A search result recording unit that confirms that the document index search unit does not record the search result, and prevents the document index search unit in each of the other document search devices from recording the search result during recording. A registration query processing unit, a search result confirmation unit that constantly confirms whether or not the document information recorded by the search result recording unit is recorded in the shared memory space, and the search result confirmation unit responds to the user query. When appropriate document information is described as a search result, the relevant document information that is a search result recorded in the shared memory space is read out,
And a search result processing unit having a search result output unit for outputting to a user.
【0015】請求項6に記載の発明によれば、分散され
た複数の文書検索装置が共有メモリ空間を共有して文書
検索を行う文書検索システムであって、該文書検索シス
テムは、前記複数の文書検索装置の各々について同一の
文書インデックスデータが蓄積された文書インデックス
データベースを有し、前記複数の文書検索装置の各々
は、前記共有メモリ空間に記憶されたクエリが有るか否
かを絶えず確認するクエリ確認部と、該クエリ確認部
が、クエリが記録されたことを確認したと同時に、クエ
リの内容を読み出し、当該クエリと一致する単語群を有
する文書を、文書インデックスデータベースから検索す
る文書インデックス検索部と、分散された他の各文書検
索装置が検索結果を前記共有メモリ空間に記録する際
に、他の各文書検索装置における文書インデックス検索
部が検索結果を記録していないのを確認し、かつ記録す
る途中で前記他の各文書検索装置における文書インデッ
クス検索部が検索結果を記録しないようにする検索結果
記録部とを有する登録クエリ処理部と、前記共有メモリ
空間に前記検索結果記録部により記録された文書情報が
記録されているか否かを絶えず確認する検索結果確認部
と、該検索結果確認部が、前記ユーザクエリに対する検
索結果として、適切な文書情報が記述された場合、共有
メモリ空間に記録された検索結果である当該文書情報を
読み出し、ユーザに対して出力する検索結果出力部とを
有する検索結果処理部とを有するので、文書検索システ
ムを構成する各文書検索装置の中で、最も高速に応答す
る検索結果を利用し、最も高速に応答する検索結果を融
合することができる。これは各検索装置が有する文書イ
ンデックスデータベースに蓄積される文書インデックス
が同一になるようにする、すなわち文書インデックスを
ミラー化するようにしていることによる。According to a sixth aspect of the present invention, there is provided a document search system in which a plurality of distributed document search devices perform a document search by sharing a shared memory space. Each of the plurality of document search devices has a document index database in which the same document index data is stored, and each of the plurality of document search devices constantly checks whether or not there is a query stored in the shared memory space. A query confirmation unit, and a document index retrieval unit that reads the contents of the query at the same time that the query confirmation unit confirms that the query has been recorded, and retrieves a document having a word group that matches the query from the document index database. Unit, when each of the other document search apparatuses distributed records a search result in the shared memory space, each of the other document search apparatuses A search result recording unit that confirms that the document index search unit does not record the search result, and prevents the document index search unit in each of the other document search devices from recording the search result during recording. A registration query processing unit having a search result confirmation unit that constantly checks whether or not the document information recorded by the search result recording unit is recorded in the shared memory space; and the search result confirmation unit includes the user query. A search result processing unit having a search result output unit that reads out the relevant document information that is a search result recorded in the shared memory space when appropriate document information is described as a search result for the Of the document search devices that make up the document search system, use the search result that responds the fastest and respond the fastest. It can be fused to the search results. This is because the document indexes stored in the document index database of each search device are the same, that is, the document indexes are mirrored.
【0016】請求項7に記載の発明は、ユーザのクエリ
を入力し、該入力したユーザクエリを形態素解析用辞書
を用いて形態素解析して該ユーザクエリ中に記述されて
いる単語を確定し、かつ各単語の品詞、活用形等を確定
すると共に、該形態素解析したクエリを共有メモリ空間
に記録するユーザクエリ処理と、処理対象の文書を入力
し、該入力した文書について形態素解析用辞書を用いて
形態素解析し、文書中に記述されている各文の単語を確
定するとともに、各文中に含まれる単語及び文書名を各
文書のインデックスとして文書インデックスデータベー
スに記録する対象文書処理と、前記共有メモリ空間に記
憶されたクエリが有るか否かを絶えず確認し、前記共有
メモリ空間にクエリが記録されたことを確認したと同時
に、前記共有メモリ空間よりクエリの内容を読み出し、
当該クエリと一致する単語群を有する文書を、前記文書
インデックスデータベースから検索し、前記ユーザクエ
リに適合した文書情報を抽出した場合、前記共有メモリ
空間に当該文書情報を記録する登録クエリ処理と、前記
共有メモリ空間に前記登録クエリ処理により記録された
文書情報が記録されているか否かを絶えず確認し、前記
ユーザクエリに対する検索結果として、適切な文書情報
が記述された場合、前記共有メモリ空間に記録された検
索結果である当該文書情報を読み出し、ユーザに対して
出力する検索結果処理と、を有することを特徴とする文
書検索方法をコンピュータにより実行させるためのプロ
グラムを記録したコンピュータにより読み取り可能な記
録媒体を要旨とする。According to a seventh aspect of the present invention, a user query is input, and the input user query is morphologically analyzed using a morphological analysis dictionary to determine a word described in the user query. In addition, the part of speech of each word, the inflected form, and the like are determined, and a user query process for recording the morphologically analyzed query in a shared memory space, a document to be processed is input, and a morphological analysis dictionary is used for the input document. Morphological analysis to determine the words of each sentence described in the document, and to record the words and document names contained in each sentence as an index of each document in a document index database; Constantly checking whether there is a query stored in the space, and confirming that the query has been recorded in the shared memory space; Read the contents of the query from space,
A document having a word group that matches the query is searched from the document index database, and when extracting document information matching the user query, a registration query process of recording the document information in the shared memory space; It is constantly checked whether or not the document information recorded by the registration query processing is recorded in the shared memory space, and when appropriate document information is described as a search result for the user query, the document information is recorded in the shared memory space. And a computer-readable recording program for causing a computer to execute a document search method characterized by comprising: a search result process that reads out the document information that is the searched result and outputs the document information to a user. The medium is the gist.
【0017】請求項7に記載の発明によれば、ユーザの
クエリを入力し、該入力したユーザクエリを形態素解析
用辞書を用いて形態素解析して該ユーザクエリ中に記述
されている単語を確定し、かつ各単語の品詞、活用形等
を確定すると共に、該形態素解析したクエリを共有メモ
リ空間に記録するユーザクエリ処理と、処理対象の文書
を入力し、該入力した文書について形態素解析用辞書を
用いて形態素解析し、文書中に記述されている各文の単
語を確定するとともに、各文中に含まれる単語及び文書
名を各文書のインデックスとして文書インデックスデー
タベースに記録する対象文書処理と、前記共有メモリ空
間に記憶されたクエリが有るか否かを絶えず確認し、前
記共有メモリ空間にクエリが記録されたことを確認した
と同時に、前記共有メモリ空間よりクエリの内容を読み
出し、当該クエリと一致する単語群を有する文書を、前
記文書インデックスデータベースから検索し、前記ユー
ザクエリに適合した文書情報を抽出した場合、前記共有
メモリ空間に当該文書情報を記録する登録クエリ処理
と、前記共有メモリ空間に前記登録クエリ処理により記
録された文書情報が記録されているか否かを絶えず確認
し、前記ユーザクエリに対する検索結果として、適切な
文書情報が記述された場合、前記共有メモリ空間に記録
された検索結果である当該文書情報を読み出し、ユーザ
に対して出力する検索結果処理とを有することを特徴と
する文書検索方法をコンピュータにより実行させるため
のプログラムをコンピュータにより読み取り可能な記録
媒体に記録するようにしたので、この記録媒体に記録さ
れたプログラムをコンピュータシステムに読み込ませ、
実行することにより、大量の文書インデックスや大量の
ユーザクエリに対してスケーラブルに処理することがで
きる。According to the seventh aspect of the present invention, a user query is input, and the input user query is morphologically analyzed using a morphological analysis dictionary to determine a word described in the user query. A user query process for determining the part of speech, inflected form, etc. of each word, and recording the morphologically analyzed query in a shared memory space; inputting a document to be processed; and a morphological analysis dictionary for the input document. Morphological analysis using, to determine the word of each sentence described in the document, and the target document processing to record the word and the document name included in each sentence as a document index in a document index database, It is constantly checked whether there is a query stored in the shared memory space, and at the same time it is confirmed that a query has been recorded in the shared memory space, When the content of the query is read from the memory space, a document having a word group that matches the query is searched from the document index database, and when the document information suitable for the user query is extracted, the document information is stored in the shared memory space. In the registration query process of recording the document information, it is constantly checked whether or not the document information recorded by the registration query process is recorded in the shared memory space, and appropriate document information is described as a search result for the user query. Read out the document information, which is the search result recorded in the shared memory space, and output the search result to the user. This is recorded on a computer-readable recording medium. To read a program recorded in the recording medium into a computer system,
By executing, a large amount of document indexes and a large number of user queries can be scalably processed.
【0018】請求項8に記載の発明は、分散された複数
の文書検索装置の各々について異なる文書インデックス
が蓄積された文書インデックスデータベースを有し、前
記複数の文書検索装置が共有メモリ空間を共有して文書
検索を行う文書検索システムにおける文書検索方法であ
って、前記複数の文書検索装置の各々において、前記共
有メモリ空間に記憶されたクエリが有るか否かを絶えず
確認し、前記共有メモリ空間にクエリが記録されたこと
を確認したと同時に、前記共有メモリ空間よりクエリの
内容を読み出し、当該クエリと一致する単語群を有する
文書を、文書インデックスデータベースから検索し、前
記ユーザクエリに適合した文書情報を抽出した場合、前
記共有メモリ空間に当該文書情報を記録する登録クエリ
処理と、前記共有メモリ空間に前記登録クエリ処理によ
り記録された文書情報が記録されているか否かを絶えず
確認し、前記ユーザクエリに対する検索結果として、適
切な文書情報が記述された場合、前記共有メモリ空間に
記録された検索結果である当該文書情報を読み出し、ユ
ーザに対して出力する検索結果処理と、を有することを
特徴とする文書検索システムにおける文書検索方法をコ
ンピュータにより実行させるためのプログラムを記録し
たコンピュータにより読み取り可能な記録媒体を要旨と
する。[0018] The invention according to claim 8 has a document index database in which different document indexes are stored for each of a plurality of distributed document search devices, and the plurality of document search devices share a shared memory space. A document search method in a document search system that performs a document search by using a plurality of document search devices, wherein each of the plurality of document search devices constantly checks whether or not there is a query stored in the shared memory space. At the same time as confirming that the query has been recorded, the content of the query is read from the shared memory space, a document having a word group that matches the query is searched from the document index database, and document information matching the user query is obtained. When extracting the shared information, a registration query process for recording the document information in the shared memory space; It is constantly checked whether or not the document information recorded by the registration query process is recorded in the memory space, and when appropriate document information is described as a search result for the user query, the document information is recorded in the shared memory space. And a search result process for reading the document information as the search result and outputting the document information to the user. The computer reads a computer program for executing the document search method in the document search system. The possible recording medium is the gist.
【0019】請求項8に記載の発明によれば、分散され
た複数の文書検索装置の各々について異なる文書インデ
ックスが蓄積された文書インデックスデータベースを有
し、前記複数の文書検索装置が共有メモリ空間を共有し
て文書検索を行う文書検索システムにおける文書検索方
法であって、前記複数の文書検索装置の各々において、
前記共有メモリ空間に記憶されたクエリが有るか否かを
絶えず確認し、前記共有メモリ空間にクエリが記録され
たことを確認したと同時に、前記共有メモリ空間よりク
エリの内容を読み出し、当該クエリと一致する単語群を
有する文書を、文書インデックスデータベースから検索
し、前記ユーザクエリに適合した文書情報を抽出した場
合、前記共有メモリ空間に当該文書情報を記録する登録
クエリ処理と、前記共有メモリ空間に前記登録クエリ処
理により記録された文書情報が記録されているか否かを
絶えず確認し、前記ユーザクエリに対する検索結果とし
て、適切な文書情報が記述された場合、前記共有メモリ
空間に記録された検索結果である当該文書情報を読み出
し、ユーザに対して出力する検索結果処理とを有するこ
とを特徴とする文書検索システムにおける文書検索方法
をコンピュータにより実行させるためのプログラムをコ
ンピュータにより読み取り可能な記録媒体に記録するよ
うにしたので、この記録媒体に記録されたプログラムを
コンピュータシステムに読み込ませ、実行することによ
り、文書検索システムを構成する各文書検索装置が独立
に検索処理を行い、検索結果を高速に融合することがで
きる。これは各検索装置が有する文書インデックスデー
タベースに蓄積される文書インデックスが異なるように
する、すなわち文書インデックスをストライプ状に作成
するようにしていることによる。According to the eighth aspect of the present invention, there is provided a document index database in which different document indexes are stored for each of a plurality of distributed document search devices, and the plurality of document search devices occupy a shared memory space. A document search method in a document search system that performs a shared document search, wherein in each of the plurality of document search devices,
It is constantly checked whether or not there is a query stored in the shared memory space, and at the same time it is confirmed that a query has been recorded in the shared memory space, the content of the query is read from the shared memory space, and the query and A document having a matching word group is searched from a document index database, and when extracting document information matching the user query, a registration query process of recording the document information in the shared memory space; and It is constantly checked whether or not the document information recorded by the registration query process is recorded, and when appropriate document information is described as a search result for the user query, the search result recorded in the shared memory space And a search result process for reading out the document information and outputting it to the user. Since the program for causing the computer to execute the document search method in the search system is recorded on a computer-readable recording medium, the program recorded on the recording medium is read into a computer system, and executed. Each document search device constituting the document search system performs a search process independently, and the search results can be merged at high speed. This is because the document indexes stored in the document index database of each search device are different, that is, the document indexes are created in a stripe shape.
【0020】請求項9に記載の発明は、分散された複数
の文書検索装置の各々について同一の文書インデックス
が蓄積された文書インデックスデータベースを有し、前
記複数の文書検索装置が共有メモリ空間を共有して文書
検索を行う文書検索システムにおける文書検索方法であ
って、前記複数の文書検索装置の各々において、前記共
有メモリ空間に記憶されたクエリが有るか否かを絶えず
確認し、前記共有メモリ空間にクエリが記録されたこと
を確認したと同時に、前記共有メモリ空間よりクエリの
内容を読み出し、当該クエリと一致する単語群を有する
文書を、文書インデックスデータベースから検索し、分
散された他の各文書検索装置が検索結果を前記共有メモ
リ空間に記録する際に、他の各文書検索装置が検索結果
を記録していないのを確認し、かつ記録する途中で前記
他の各文書検索装置が検索結果を記録しないようにする
登録クエリ処理と、前記共有メモリ空間に前記登録クエ
リ処理により記録された文書情報が記録されているか否
かを絶えず確認し、前記ユーザクエリに対する検索結果
として、適切な文書情報が記述された場合、前記共有メ
モリ空間に記録された検索結果である当該文書情報を読
み出し、ユーザに対して出力する検索結果処理と、を有
することを特徴とする文書検索システムにおける文書検
索方法をコンピュータにより実行させるためのプログラ
ムを記録したコンピュータにより読み取り可能な記録媒
体を要旨とする。According to a ninth aspect of the present invention, there is provided a document index database in which the same document index is stored for each of a plurality of distributed document search devices, and the plurality of document search devices share a shared memory space. A document search method in a document search system for performing a document search by continuously checking whether or not there is a query stored in the shared memory space in each of the plurality of document search devices. At the same time as confirming that the query has been recorded, the contents of the query are read from the shared memory space, a document having a word group that matches the query is searched from the document index database, and each other distributed document is searched. When the search device records the search result in the shared memory space, each of the other document search devices does not record the search result. And whether the document information recorded by the registration query process is recorded in the shared memory space so that each of the other document retrieval devices does not record a search result during recording. Whether the document information is described as a search result for the user query and appropriate document information is described as a search result for the user query, the search result is output to the user by reading the document information, which is the search result recorded in the shared memory space. And a computer-readable recording medium that records a program for causing a computer to execute the document search method in the document search system, which has a result process.
【0021】請求項9に記載の発明によれば、分散され
た複数の文書検索装置の各々について同一の文書インデ
ックスが蓄積された文書インデックスデータベースを有
し、前記複数の文書検索装置が共有メモリ空間を共有し
て文書検索を行う文書検索システムにおける文書検索方
法であって、前記複数の文書検索装置の各々において、
前記共有メモリ空間に記憶されたクエリが有るか否かを
絶えず確認し、前記共有メモリ空間にクエリが記録され
たことを確認したと同時に、前記共有メモリ空間よりク
エリの内容を読み出し、当該クエリと一致する単語群を
有する文書を、文書インデックスデータベースから検索
し、分散された他の各文書検索装置が検索結果を前記共
有メモリ空間に記録する際に、他の各文書検索装置が検
索結果を記録していないのを確認し、かつ記録する途中
で前記他の各文書検索装置が検索結果を記録しないよう
にする登録クエリ処理と、前記共有メモリ空間に前記登
録クエリ処理により記録された文書情報が記録されてい
るか否かを絶えず確認し、前記ユーザクエリに対する検
索結果として、適切な文書情報が記述された場合、前記
共有メモリ空間に記録された検索結果である当該文書情
報を読み出し、ユーザに対して出力する検索結果処理と
を有することを特徴とする文書検索システムにおける文
書検索方法をコンピュータにより実行させるためのプロ
グラムをコンピュータにより読み取り可能な記録媒体に
記録するようにしたので、この記録媒体に記録されたプ
ログラムをコンピュータシステムに読み込ませ、実行す
ることにより、文書検索システムを構成する各文書検索
装置の中で、最も高速に応答する検索結果を利用し、最
も高速に応答する検索結果を融合することができる。こ
れは各検索装置が有する文書インデックスデータベース
に蓄積される文書インデックスが同一になるようにす
る、すなわち文書インデックスをミラー化するようにし
ていることによる。According to the ninth aspect of the present invention, there is provided a document index database in which the same document index is stored for each of a plurality of distributed document search devices, and the plurality of document search devices are provided in a shared memory space. A document search method in a document search system for performing a document search by sharing a document, wherein each of the plurality of document search devices includes:
It is constantly checked whether or not there is a query stored in the shared memory space, and at the same time it is confirmed that a query has been recorded in the shared memory space, the content of the query is read from the shared memory space, and the query and A document having a matching word group is searched from the document index database, and when each of the other distributed document search devices records the search result in the shared memory space, each of the other document search devices records the search result. The registration query processing for confirming that the search has not been performed, and preventing the other document search apparatuses from recording search results during recording, and the document information recorded by the registration query processing in the shared memory space. It is constantly checked whether or not it is recorded, and when appropriate document information is described as a search result for the user query, A computer-readable program for causing a computer to execute a document search method in a document search system, comprising: a search result process that reads out the document information that is a recorded search result and outputs the document information to a user. Since the program is recorded on a simple recording medium, the program recorded on the recording medium is read into a computer system and executed, whereby the fastest response can be achieved among the document retrieval apparatuses constituting the document retrieval system. Utilizing search results, it is possible to fuse search results that respond fastest. This is because the document indexes stored in the document index database of each search device are the same, that is, the document indexes are mirrored.
【0022】[0022]
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して説明する。図1に本発明の実施の形態
に係る文書検索装置の全体構成を示す。同図において、
文書検索装置は、共有メモリS−1と、形態素解析用辞
書D−1と、処理対象の文書が格納されている処理対象
文書データベースD−2と、文書を特定するための文書
インデックスを格納する文書インデックスデータベース
D−3とを有している。Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 shows the overall configuration of a document search device according to an embodiment of the present invention. In the figure,
The document search device stores a shared memory S-1, a morphological analysis dictionary D-1, a processing target document database D-2 in which a processing target document is stored, and a document index for specifying the document. A document index database D-3.
【0023】また文書検索装置は、更にユーザのクエリ
を入力し、入力したユーザクエリを形態素解析してその
解析結果を共有メモリS−1のメモリ空間に記録するユ
ーザクエリ処理部A−1と、処理対象の文書を入力し、
入力した文書について形態素解析して文書インデックス
を作成し、文書インデックスデータベースD−3に記録
する対象文書処理部A−2と、共有メモリ空間における
記録されたクエリの有無を確認し、共有メモリS−1の
メモリ空間にクエリが記録されている場合に当該クエリ
と一致する単語群を有する文書を、文書インデックスデ
ータベースD−3から検索し、前記ユーザクエリに適合
した文書情報を抽出した場合、前記共有メモリS−1の
メモリ空間に当該文書情報を記録する登録クエリ処理部
A−3と、共有メモリS−1のメモリ空間における登録
クエリ処理部A−3により記録された文書情報の有無を
確認し、前記ユーザクエリに対する検索結果として、適
切な文書情報が記述された場合、共有メモリS−1のメ
モリ空間に記録された検索結果である当該文書情報を読
み出し、ユーザに対して出力する検索結果処理部A−4
とを有する。The document search device further includes a user query processing unit A-1 for inputting a user query, morphologically analyzing the input user query, and recording the analysis result in a memory space of the shared memory S-1. Enter the document to be processed,
A morphological analysis is performed on the input document to create a document index, and a target document processing unit A-2 that records the document index in the document index database D-3 and the presence or absence of a recorded query in the shared memory space are checked. When a query is recorded in the memory space of No. 1 and a document having a word group that matches the query is searched from the document index database D-3, and when the document information suitable for the user query is extracted, The presence / absence of document information recorded by the registration query processing unit A-3 for recording the document information in the memory space of the memory S-1 and the registration query processing unit A-3 in the memory space of the shared memory S-1 is confirmed. When appropriate document information is described as a search result for the user query, the document information is recorded in the memory space of the shared memory S-1. Reads the document information is a search result, the search result processing section A-4 to be output to the user
And
【0024】ユーザクエリ処理部A−1は、ユーザの検
索クエリ(ユーザクエリと称する)を入力するユーザク
エリ入力部T−1と、ユーザクエリ入力部T−1が入力
したユーザクエリを形態素解析用辞書D−1を用いて形
態素解析し、入力されたクエリを単語単位に分割し、該
ユーザクエリ中に記述されている単語を確定するととも
に、各単語の品詞、活用形等の文法的情報を確定するク
エリ形態素解析部T−2と、クエリ形態素解析部T−2
が形態素解析したユーザクエリの文法的情報とユーザク
エリを共有メモリS−1のメモリ空間に記録するクエリ
記録部T−3とを有する。The user query processing unit A-1 includes a user query input unit T-1 for inputting a user's search query (referred to as a user query), and a user query input by the user query input unit T-1 for morphological analysis. A morphological analysis is performed using the dictionary D-1, the input query is divided into words, the words described in the user query are determined, and grammatical information such as the part of speech and inflected forms of each word is determined. Query morphological analyzer T-2 to be determined, Query morphological analyzer T-2
Has a grammatically analyzed user query grammatical information and a query recording unit T-3 for recording the user query in the memory space of the shared memory S-1.
【0025】また対象文書処理部A−2は、処理対象の
文書を入力する対象文書入力部T−40と、処理対象文
書入力部T−4が入力した文書を形態素解析用辞書D−
1を用いて形態素解析し、前記文書中に記述されている
各文の単語を確定するとともに、各文中に含まれる単語
及び文書名を文書のインデックスとして文書インデック
スデータベースD−3に記録する文書インデックス作成
部T−5とを有する。The target document processing unit A-2 includes a target document input unit T-40 for inputting a document to be processed, and a morphological analysis dictionary D-
1 to determine the words of each sentence described in the document, and to record the words and document names included in each sentence as a document index in the document index database D-3. And a creation unit T-5.
【0026】更に登録クエリ処理部A−3は、共有メモ
リS−のメモリ空間に記録されたクエリが有るか否かを
絶えず確認するクエリ確認部T−6と、クエリ確認部T
−6が、クエリが記録されたことを確認したと同時に、
クエリの内容を読み出し、当該クエリと一致する単語群
を有する文書を、文書インデックスデータベースD−3
から検索する文書インデックス検索部T−7と、文書イ
ンデックス検索部T−7が検索し、前記ユーザクエリに
適合した文書情報を抽出した場合、共有メモリS−1の
メモリ空間に当該文書情報を記録する検索結果記録部T
−8とを有する。Further, the registered query processing section A-3 includes a query confirmation section T-6 for constantly confirming whether or not there is a query recorded in the memory space of the shared memory S-, and a query confirmation section T.
-6 confirmed that the query was recorded,
The content of the query is read, and a document having a word group that matches the query is stored in a document index database D-3
When the document index search unit T-7 and the document index search unit T-7 search from and extract the document information matching the user query, the document information is recorded in the memory space of the shared memory S-1. Search result recording section T
-8.
【0027】検索結果処理部A−4は、共有メモリS−
1のメモリ空間に検索結果記録部T−8により記録され
た文書情報が記録されているか否かを絶えず確認する検
索結果確認部T−9と、検索結果確認部T−9が、前記
ユーザクエリに対する検索結果として、適切な文書情報
が記述された場合、共有メモリS−1のメモリ空間に記
録された検索結果である当該文書情報を読み出し、ユー
ザに対して出力する検索結果出力部T−10とを有す
る。The search result processing section A-4 includes a shared memory S-
1. A search result confirming unit T-9 for continuously confirming whether or not the document information recorded by the search result recording unit T-8 is recorded in the memory space of No. 1; When appropriate document information is described as a search result for the search result, the search result output unit T-10 reads out the relevant document information, which is the search result recorded in the memory space of the shared memory S-1, and outputs it to the user. And
【0028】次に本発明の実施の形態に係る文書検索装
置の一例として、インターネットに適用される文書検索
装置を例に説明する。まず、ユーザクエリ入力部T−1
は、ユーザの検索クエリを入力する。例えば、”今日の
天気“とユーザがクエリを入力手段により入力したら、
ユーザクエリ入力部T−1は、この入力文字列を入力
し、それを次の処理を行うユーザクエリ形態素解析部T
−2にわたす。Next, as an example of a document search device according to an embodiment of the present invention, a document search device applied to the Internet will be described. First, the user query input unit T-1
Inputs a user's search query. For example, if the user enters a query "Today's weather" by the input means,
The user query input unit T-1 inputs the input character string and converts the input character string into a user query morphological analysis unit T that performs the following processing.
-2.
【0029】ユーザクエリ形態素解析部T−2は、ユー
ザクエリ入力部T−1にユーザにより入力された検索ク
エリを形態素解析用辞書D−1を用いて、形態素解析
し、入力されたクエリを単語単位に分割し、個々の単語
に対して品詞、活用形などの文法的情報を解析する。こ
こで、形態素解析とは、入力された文字列を単語辞書に
対して、検索を行い、品詞情報(品詞)、文頭可否情報
(文頭可)、前方接続情報(前接)、後方接続情報(後
接)などの文法的情報を取得することをいう。The user query morphological analysis unit T-2 morphologically analyzes the search query input by the user into the user query input unit T-1 using the morphological analysis dictionary D-1, and converts the input query into words. Divide into words and analyze grammatical information such as part of speech and inflected forms for each word. Here, the morphological analysis refers to searching a word dictionary for an input character string, and performing part-of-speech information (part-of-speech), head-of-sentence information (head-of-sentence possible), forward connection information (preceding), backward connection information ( Acquisition of grammatical information, such as postscript).
【0030】通常の単語辞書では、TREI辞書構造と
いう特別な辞書構造を行うことにより高速な検索を行え
るようになっている。辞書項目として、“ああ”、“あ
いさつ”、“あい”、などがある場合、それぞれの第一
文字(ここでは、日本語であるので、日本語文字2byte
を指し示す)が同じもの、第二文字目が同じものなど、
それぞれ順次に、木構造的に構成される。そして、最後
の文字まで、一致した場合には、その単語辞書項目に対
する品詞情報(品詞)、文頭可否情報(文頭可)、前方
接続情報(前接)、後方接続情報(後接)などの情報が
記述される。In an ordinary word dictionary, a high-speed search can be performed by performing a special dictionary structure called a TREI dictionary structure. If the dictionary entry includes "Ah", "Aiatsu", "Ai", etc., each of the first characters (in this case, Japanese characters, 2 bytes of Japanese characters
), The second letter is the same, etc.
Each of them is sequentially configured in a tree structure. When the last character is matched, information such as part of speech information (part of speech), sentence availability information (heading possible), forward connection information (preceding), backward connecting information (postfixed), etc. for the word dictionary item Is described.
【0031】文頭可否情報とは、文頭にあってよいかど
うかを示すフラグである。文頭可であれば、文頭に存在
してもよいが、文頭否であれば、文頭にあることが許可
されない単語ということになる。前方接続情報とは、前
の単語の品詞または属性が適正な場合だけ接続が許可さ
れ、前接で接続が許可されない単語の場合、候補として
削除される。同様に後方接続情報も、後の単語の品詞ま
たは属性が適正な場合だけ接続が許可され、後接で接続
が許可されない単語の場合、候補として削除される。The head-of-sentence availability information is a flag indicating whether or not it can be at the head of the sentence. If the beginning of the sentence is acceptable, the word may be present at the beginning of the sentence, but if the sentence is not the beginning of the sentence, the word is not permitted to be at the beginning of the sentence. The forward connection information is permitted to be connected only when the part of speech or attribute of the preceding word is appropriate, and is deleted as a candidate when the preceding word is not permitted to be connected. Similarly, the backward connection information is permitted to be connected only when the part of speech or attribute of the subsequent word is appropriate, and is deleted as a candidate when the word is not permitted to be connected later.
【0032】このような、品詞接続により、候補を選択
する。最尤候補は、コスト最小法とよぶ方法によ選択す
る。最小コスト法とは、最もコストが最小となる形態素
候補を最尤候補とする処理方式である。形態素解析にお
いて利用されるコストは、(1)接続コスト、(2)単
語コスト、の2種類のコストがある。このうち、接続コ
ストは、ある単語と単語を接続する場合に必要なコスト
である。単語と単語であるため、単語+該活用に対する
接続コストは0となる。単語コストとは、その単語に関
するコストであり、例えば、使用頻度が高い単語は、コ
ストが低くなる。また、活用は単語ではないので、コス
トは0となる。形態素解析により、テキスト部が単語単
位に分解されると同時に、各単語に尤も正しいと考えら
れる品詞が付与される。A candidate is selected by such a part-of-speech connection. The maximum likelihood candidate is selected by a method called a minimum cost method. The minimum cost method is a processing method in which a morpheme candidate having the lowest cost is set as a maximum likelihood candidate. There are two types of costs used in morphological analysis: (1) connection cost and (2) word cost. Of these, the connection cost is the cost required to connect a certain word to another word. Since it is a word and a word, the connection cost for the word + the utilization is zero. The word cost is a cost related to the word. For example, a frequently used word has a low cost. Also, since utilization is not a word, the cost is zero. By the morphological analysis, the text part is decomposed into words, and at the same time, parts of speech that are considered to be correct are given to each word.
【0033】上記例では、以下のように形態素解析され
る。 表記 品詞 自立語 今日の天気は? cost=49 今日 名詞 ○ の 助詞 天気 名詞 ○ は 助詞 ? 疑問符 In the above example, the morphological analysis is performed as follows.
You. Notation part of speech independent word How is the weather today? cost = 49 Today's noun ○ particle is a weather noun ○ is a particle? Question mark
【0034】ユーザクエリが形態素解析により単語単位
に分割され、かつ各単語の品詞、活用形などの文法的特
性が抽出される。通常のインターネット等における文書
検索装置では、さらに形態素解析された情報のうち、自
立語のみを抽出し、クエリとすることが多い。”今日の
天気は?“というクエリの場合、形態素解析された文法
的情報から自立語は、”今日”と“天気”であることが
わかる。この情報を次の処理を行うクエリ記録部T−3
に渡す。The user query is divided into words by morphological analysis, and grammatical characteristics such as part of speech and inflected forms of each word are extracted. In general, a document search device on the Internet or the like often extracts only independent words from information that has been subjected to morphological analysis and uses the extracted words as queries. In the case of the query "What is the weather today?", The independent words are "Today" and "Weather" from the morphologically analyzed grammatical information. The query recording unit T-3 which performs the following processing on this information
Pass to.
【0035】クエリ記録部T−3は、ユーザクエリ形態
素解析部T−2により解析されたクエリの文法的情報と
共に、クエリを共有メモリS−1のメモリ空間に記録す
る。クエリについては、各クエリを特定の領域に記述す
る。クエリとしては、ユーザが入力したクエリと、クエ
リを形態素解析した単語単位の惰報(先の例では、“今
日”、“天気”)を共有メモリS−1のメモリ空間に記
録する。The query recording unit T-3 records the query in the memory space of the shared memory S-1 together with the grammatical information of the query analyzed by the user query morphological analysis unit T-2. For queries, describe each query in a specific area. As the query, the query input by the user and the word-by-word information (“Today” and “Weather” in the above example) obtained by morphologically analyzing the query are recorded in the memory space of the shared memory S-1.
【0036】次いで対象文書入力部T−4は、検索対象
とする文書を処理対象文書データベースD−2から入力
する。例えば、以下のような文書集合があると仮定す
る. 文書番号 文書内容 文書1:東京の今日の天気は雨。明日の天気は晴れ。 文書2:東京の平均温度は、20度と蒸し暑い日が続きます。 文書3:東京のインターネットの人口は約50万人である。 … これらの文書をすべて入力する。Next, the target document input unit T-4 outputs the search target
From the document database D-2 to be processed
I do. For example, suppose we have the following set of documents:
It is. Document number Document contents Document 1: Today's weather in Tokyo is rain. The weather is fine tomorrow. Document 2: The average temperature in Tokyo is 20 degrees Celsius, followed by hot and humid days. Document 3: The population of the Internet in Tokyo is about 500,000. … Enter all of these documents.
【0037】文書インデックス作成部T−5は、対象文
書入力部T−4が入力した文書を検索するため、形態素
解析用辞書D−1を用いて、入力した文書を形態素解析
し、入力された文書内の文を単語単位に分割し、個々の
単語に対して品詞、活用形などの文法的情報を解析し、
個々の文書の特徴を文書インデックスとして文書インデ
ックスデータベースD−3に記録する。The document index creation unit T-5 morphologically analyzes the input document using the morphological analysis dictionary D-1 to search for the document input by the target document input unit T-4. The sentence in the document is divided into words, and grammatical information such as part of speech and inflected forms is analyzed for each word,
The characteristics of each document are recorded as a document index in the document index database D-3.
【0038】形態素解析の実施方法については、ユーザ
クエリ形態素解析部T−2と同じ処理である。特に、検
索結果を適切に出力するためには、同じ形態素解析の処
理で、かつ同じ形態素解析用辞書D−1を用いなければ
形態素解析の結果が、クエリと文書インデックスとで異
なってしまう。ユーザクエリ形態素解析部T−2では、
形態素解析した中でさらにクエリの中の自立語を抽出し
ている。そこで文書インデックス作成部T−5でも同様
に形態素解析用辞書D−1の処理対象文書を形態素解析
し、さらに自立語を抽出する。The method of performing the morphological analysis is the same as that of the user query morphological analysis unit T-2. In particular, in order to output the search result appropriately, the same morphological analysis process and the same morphological analysis dictionary D-1 are not used, and the result of the morphological analysis differs between the query and the document index. In the user query morphological analysis unit T-2,
During the morphological analysis, independent words in the query are extracted. Therefore, the document index creation unit T-5 similarly performs a morphological analysis on the document to be processed in the morphological analysis dictionary D-1 and further extracts an independent word.
【0039】先の例で,文書内容の中で自立語と判定さ
れる単語を下線で示す。 文書番号 文書内藤 文書1:東京の今日の天気は雨.明日の天気は晴れ。 文書2:東京の平均温度は,20度と蒸し暑い日が続きます。 文書3:東京のインターネットの人口は約50万人である。… 先の例の中で、抽出される自立語は以下のとおりである。 文書番号 自立語 文書1:東京、今日、天気、雨、明日、天気、晴れ 文書2:東京、平均温度、20度、蒸し暑い日、続きます 文書3:東京、インターネット、人口、約50万人… 文書インデックス作成部T−5では、これらの文書番号
と 自立語のペアを文書インデックスとして文書インデ
ックスデータベースD−3に記録する。In the above example, it is determined that the word is an independent word in the document contents.
Words are underlined. Document number Document Naito Document 1:TokyooftodayofweatherIsrain.tomorrowofweatherIsSunny. Document 2:TokyoofAverage temperatureIs20 degreesWhenSultry dayButit continues. Document 3:Tokyoofthe InternetofpopulationIsAbout 500,000It is.… In the previous example, the independent words extracted are as follows. Document number Independent word Document 1: Tokyo, today, weather, rain, tomorrow, weather, sunny Document 2: Tokyo, average temperature, 20 degrees, sultry day, followed Document 3: Tokyo, Internet, population, about 500,000… In the document index creation unit T-5, these document numbers
And a pair of independent words as a document index
In the database D-3.
【0040】クエリ確認部T−6は、共有メモリS−1
のメモリ空間に、クエリ記録部T−3が記録した新規の
クエリが有るか否かを確認する。複数のクエリが共有メ
モリS−1のメモリ空間に記録されているので、クエリ
確認部T−6では、新規クエリがなければ、次のクエリ
を検査する。さらに新規クエリがなければ、次のクエリ
を探す。新規クエリが有った場合のみ文書インデックス
検索部T−7に処理を渡す。例えば、前述したような
“今日の天気は?”(自立語では、“今日”、”天
気“)というクエリがQID(クエリID)=1の領域
に書かれたとすると、クエリ確認部T−6がQID=1
を検査した際に、新規クエリが発生したと確認し、文書
インデックス検索部T−7に処理を進める。ここでQI
Dは、共有メモリS−1のメモリ空間上に記述されたク
エリのIDを意味し、共有メモリ上の番地に等しい。The query confirmation unit T-6 is provided in the shared memory S-1.
It is confirmed whether or not there is a new query recorded by the query recording unit T-3 in the memory space of. Since a plurality of queries are recorded in the memory space of the shared memory S-1, the query checking unit T-6 checks the next query if there is no new query. If there are no new queries, search for the next query. Only when there is a new query, the processing is passed to the document index search unit T-7. For example, if a query such as "What is the weather today?" (Independent words, "Today", "Weather") is written in the area of QID (query ID) = 1, the query confirmation unit T-6 Is QID = 1
Is checked, it is confirmed that a new query has occurred, and the process proceeds to the document index search unit T-7. Where QI
D means the ID of the query described in the memory space of the shared memory S-1, and is equal to the address on the shared memory.
【0041】文書インデックス検索部T−7は、クエリ
確認部T−6により新規クエリが共有メモリS−1のメ
モリ空間に発見された場合、文書インデックスデータベ
ースD−3に格納されている文書インデックスを検索
し、当該クエリにもっとも適した文書集合を検索結果と
して出力する。例えば、“今日の天気は?”(自立語で
は、“今日”、”天気“)というクエリがQID(クエ
リID)=1の領域に書かれたとすると、クエリ確認部
T−6がQID=1の領域を検査した際に、新規クエリ
が発生したと確認し、文書インデックスデータベースD
−3を検索し、クエリの自立語と一致する自立語を有す
る文書番号を返す。この例では、文書1で、”今
日“、”天気“が完全に一致しているため、検索結果と
しては、文書1が返される。When a new query is found in the memory space of the shared memory S-1 by the query check unit T-6, the document index search unit T-7 searches the document index stored in the document index database D-3. A search is performed, and a document set most suitable for the query is output as a search result. For example, assuming that the query "What is the weather today?" When the area of the document is inspected, it is confirmed that a new query has occurred, and the document index database D
-3 and returns the document number that has an independent word that matches the independent word of the query. In this example, since “today” and “weather” completely match in document 1, document 1 is returned as a search result.
【0042】検索結果記録部T−8は、文書インデック
ス検索部T−7が作成した新規クエリに対して適合する
文書集合を検索結果として共有メモリS−1のメモリ空
間に記録する。先の例では、検索結果としては、適合文
書数1、適合文書名は、“文書1”であることが判る。
さらに、適合した各文書の適合の度合いを示すために、
適合度を通常定め、その適合度に応じて最も適合する順
に検索結果を共有メモリS−1のメモリ空間に記録す
る。検索処理における適合の度合いを表す尺度として
は、tf*idf法に基づく方法が考えられる。これは、全
体の文書に占める適合したクエリの単語数及びその適合
文書の中での単語の比重などから、最も重要そうな単語
が一致した場合高い適合度を計算できる式である。The search result recording unit T-8 records a document set suitable for the new query created by the document index search unit T-7 as a search result in the memory space of the shared memory S-1. In the above example, it is understood that the number of conforming documents is 1 and the conforming document name is “document 1” as the search result.
In addition, to indicate the degree of conformance of each conforming document,
The relevance is usually determined, and the search results are recorded in the memory space of the shared memory S-1 in the order of the most suitable according to the relevance. A method based on the tf * idf method can be considered as a scale indicating the degree of matching in the search processing. This is an equation that can calculate a high degree of relevance when the word that is most important matches from the number of words of the matched query in the entire document and the weight of words in the matched document.
【0043】検索結果確認部T−9は、共有メモリS−
1のメモリ空間に、検索結果記録部T−8が記録した新
規の検索結果が有るか否かを確認する。共有メモリS−
1のメモリ空間には、クエリが複数あると同様に、検索
結果が複数存在する。これらの検索結果のうち、新規に
検索された結果があるか否かを確認する。検索結果がな
ければ、共有メモリS−1のメモリ空間における次の検
索結果の領域を確認する。The search result confirming unit T-9 includes a shared memory S-
It is confirmed whether or not there is a new search result recorded by the search result recording unit T-8 in the first memory space. Shared memory S-
In one memory space, there are a plurality of search results as well as a plurality of queries. It is checked whether there is a newly searched result among these search results. If there is no search result, the area of the next search result in the memory space of the shared memory S-1 is confirmed.
【0044】検索結果出力部T−10は、検索結果確認
部T−9が確認した新規検索結果を共有メモリS−1の
メモリ空間より読み出し、検索結果として出力する。先
の例では、検索結果としては、適合文書数1、適合文書
名は、“文書1”であることが出力される。The search result output unit T-10 reads the new search result confirmed by the search result confirmation unit T-9 from the memory space of the shared memory S-1 and outputs it as a search result. In the above example, the number of conforming documents is 1 and the conforming document name is “document 1” as the search result.
【0045】次にユーザクエリ処理部A−1におけるク
エリ記録部T−3の処理内容を図2に示す。同図におい
て、ステップS11で関連するライブラリをロードし、
次い共有メモリS−1をアクセス可能な状態とする(S
−12)。更にステップS13で初期設定を行い、次い
でクエリを記述する共有メモリS−1の空き領域を調べ
るたQIDをQID=0にする(ステップS14)。FIG. 2 shows the processing contents of the query recording unit T-3 in the user query processing unit A-1. In the figure, a related library is loaded in step S11,
Next, the shared memory S-1 is made accessible (S
-12). Further, initialization is performed in step S13, and then the QID for checking the free area of the shared memory S-1 describing the query is set to QID = 0 (step S14).
【0046】ステップS15では、QIDで指定された
共有メモリS−1のクエリ領域をチェックし、ステップ
S16では、QIDで指定された共有メモリS−1のク
エリ領域が空いているか否かを判定する。ここでクエリ
領域とは、各検索サーバにおいて受け付けたクエリを記
述する共有メモリS−1上の領域をいう。ステップS1
6での判定が肯定された場合には、ステップS17でQ
IDで指定された共有メモリS−1のクエリ領域を初期
化し、クエリの書き込みを行い、この処理を終了する。In step S15, the query area of the shared memory S-1 specified by the QID is checked, and in step S16, it is determined whether the query area of the shared memory S-1 specified by the QID is free. . Here, the query area refers to an area on the shared memory S-1 that describes a query received by each search server. Step S1
If the determination in step 6 is affirmative, Q is determined in step S17.
The query area of the shared memory S-1 specified by the ID is initialized, a query is written, and the process ends.
【0047】一方、ステップS16の判定が否定された
場合には、ステップ18でQIDをインクリメントし、
次のステップS19ではQIDの値が最大クエリ領域数
より大きいか否かを判定する。ここで、最大クエリ領域
数とはクエリ領域におけるクエリが書き込まれる領域の
総数を意味する。ステップ19の判定が肯定された場
合、すなわちクエリ領域の全てが空いていないと判定さ
れた場合には、クエリ領域に空きが生ずるまで所定時
間、待機し(ステップS20)、処理はステップ14に
戻り、QID=0から利用可能なクエリ領域をチェック
する。On the other hand, if the determination in step S16 is negative, the QID is incremented in step 18, and
In the next step S19, it is determined whether or not the value of the QID is larger than the maximum number of query areas. Here, the maximum number of query areas means the total number of areas in the query area where the query is written. If the determination in step 19 is affirmative, that is, if it is determined that the entire query area is not empty, the process waits for a predetermined time until the query area becomes empty (step S20), and the process returns to step 14. , QID = 0, the available query area is checked.
【0048】またステップS19の判定が否定された場
合、すなわち利用可能な全てのクエリ領域のチェックが
終了していないと判定された場合にはステップS15に
戻り、ステップS18でインクリメントされた値のQI
Dのクエリ領域に空きが有るかチェックする。以降、同
様の処理を繰り返す。If the determination in step S19 is denied, that is, if it is determined that all available query areas have not been checked, the process returns to step S15, and the QI of the value incremented in step S18.
It is checked whether there is a free space in the query area of D. Thereafter, the same processing is repeated.
【0049】次に図1に示した文書検索装置におけるク
エリ確認部T−6、文書インデックス検索部T−7及び
検索結果記録部T−8の処理内容を図3及び図4に示
す。図3及び図4において、ステップS21〜27がク
エリ確認部T−6の処理であり、ステップS28、29
が文書インデックス検索部T−7の処理であり、ステッ
プ30が検索結果記録T−8の処理である。これらの図
においてまずクエリ確認部T−6は、ステップS21で
初期設定を行い、共有メモリS−1をアクセス可能な状
態とする(ステップS22)。Next, FIGS. 3 and 4 show the processing contents of the query confirmation section T-6, document index search section T-7 and search result recording section T-8 in the document search apparatus shown in FIG. 3 and FIG. 4, steps S21 to S27 are processes of the query confirmation unit T-6, and steps S28 and S29 are performed.
Is a process of the document index search unit T-7, and step 30 is a process of the search result record T-8. In these figures, first, the query confirmation unit T-6 makes an initial setting in step S21, and makes the shared memory S-1 accessible (step S22).
【0050】次いでステップS23でQIDをQID=
0としてクエリ領域を指定し、ステップS24において
QID=0として指定した共有メモリS−1のクエリ領
域をチェックする。次いでステップ25でQID=0の
クエリ領域にクエリが書き込まれているか否かを判定す
る。ステップS25の判定が否定された場合には、ステ
ップS26でQIDの値をインクリメントし、次いでス
テップS27でQIDの値が最大クエリ領域数より大き
いか否かを判定する。Next, in step S23, the QID is set to QID =
The query area is designated as 0, and the query area of the shared memory S-1 designated as QID = 0 is checked in step S24. Next, at step 25, it is determined whether or not a query has been written in the query area of QID = 0. If the determination in step S25 is negative, the value of the QID is incremented in step S26, and then it is determined in step S27 whether the value of the QID is greater than the maximum number of query areas.
【0051】ステップ27の判定が肯定された場合、す
なわちクエリ領域の全てについてクエリの記録の有無の
チェックが終了したと判定した場合には、処理はステッ
プ23に戻り、QID=0からクエリ領域におけるクエ
リの記録の有無のチェックを開始する。If the determination in step 27 is affirmative, that is, if it is determined that the check of whether or not the query has been recorded has been completed for all of the query areas, the process returns to step 23, where QID = 0 and Initiate a check to see if a query has been recorded.
【0052】またステップS27の判定が否定された場
合、すなわちクエリ領域の全てについてクエリの記録の
有無のチェックが終了していないと判定された場合には
ステップS24に戻り、ステップS26でインクリメン
トされた値のQIDのクエリ領域をチェックする。更に
ステップS25の判定が肯定された場合、すなわち指定
されたQIDのクエリ領域にクエリが書き込まれている
と判定された場合にはクエリ確認部T−6は処理を文書
インデックス検索部T−7に渡す。If the determination in step S27 is denied, that is, if it is determined that the check for the presence or absence of the query has not been completed for all of the query areas, the process returns to step S24, and the value is incremented in step S26. Check the query area for the value QID. Further, if the determination in step S25 is affirmative, that is, if it is determined that the query has been written in the query area of the specified QID, the query confirmation unit T-6 sends the processing to the document index search unit T-7. hand over.
【0053】文書インデックス検索部T−7は、ステッ
プ28でクエリを取得し、ステップS29で取得したク
エリに従い文書インデックスデータベースD−3の検索
を行い、当該クエリに最も適した文書集合を検索結果と
して出力する。文書インデックス検索部T−7は、ここ
で処理を検索結果記録部T−8に渡す。検索結果記録部
T−8は、文書インデックス検索部T−7が出力した検
索結果を共有メモリS−1のメモリ空間に記録し、かつ
QIDにより指定されたクエリ領域に、検索が終了した
ことを示す検索終了フラグを記述し、処理をクエリ確認
部T−6に渡す。これによりクエリ確認部T−6は、ス
テップS24より既述したのと同様の処理を繰り返す。The document index search unit T-7 obtains a query in step 28, searches the document index database D-3 according to the query obtained in step S29, and sets a document set most suitable for the query as a search result. Output. Here, the document index search unit T-7 passes the processing to the search result recording unit T-8. The search result recording unit T-8 records the search result output by the document index search unit T-7 in the memory space of the shared memory S-1, and notifies the query area designated by the QID that the search has been completed. The search completion flag is described, and the process is passed to the query confirmation unit T-6. Accordingly, the query confirmation unit T-6 repeats the same processing as described above from step S24.
【0054】このようにしてクエリ確認部T−6は、共
有メモリS−1のすべてのクエリ領域におけるクエリの
記録の有無についての確認を常時、行い、新規クエリが
共有メモリS−1のメモリ空間に有った場合に、文書イ
ンデックス検索部T−7は文書インデックスデータベー
スD−3を検索して検索結果を出力し、その検索結果を
検索結果記録部T−8が共有メモリS−1のメモリ空間
に記録する。As described above, the query confirmation unit T-6 constantly confirms whether or not a query is recorded in all the query areas of the shared memory S-1, and a new query is stored in the memory space of the shared memory S-1. Is found, the document index search unit T-7 searches the document index database D-3 and outputs a search result, and the search result recording unit T-8 stores the search result in the memory of the shared memory S-1. Record in space.
【0055】次に図1に示した文書検索装置の検索結果
確認部T−9、検索結果出力部T−10の処理内容を図
5に示す。同図において、ステップS31〜35は検索
結果確認部T−9の処理であり、ステップ36、37は
検索結果出力部T−10の処理である。図5において、
検索結果確認部T−9は、ステップS31でクエリレジ
スタQIDの初期化を行い、次いでステップ32で共有
メモリS−1におけるQIDで指定されるクエリ領域の
データの読み込みを行う。ステップ33では共有メモリ
S−1におけるQIDで指定されるクエリ領域に検索サ
ーバとして機能している全ての計算機からの検索終了フ
ラグが書き込まれているか否かが判定される。Next, FIG. 5 shows the processing contents of the search result confirmation section T-9 and the search result output section T-10 of the document search apparatus shown in FIG. In the figure, steps S31 to S35 are processes of the search result confirmation unit T-9, and steps S36 and S37 are processes of the search result output unit T-10. In FIG.
The search result confirmation unit T-9 initializes the query register QID in step S31, and then reads data in the query area specified by the QID in the shared memory S-1 in step 32. In step 33, it is determined whether or not search end flags from all computers functioning as search servers have been written in the query area specified by the QID in the shared memory S-1.
【0056】ステップ33の判定が否定された場合には
ステップ34で所定時間が経過したか否かが判定され
る。ステップ34で所定時間が経過していないと判定さ
れた場合にはステップ32に戻り、既述したのと同様の
処理を行う。ステップ33の判定が肯定された場合、す
なわち共有メモリS−1におけるQIDで指定されるク
エリ領域に検索サーバとして機能している全ての計算機
からの検索終了フラグが書き込まれていると判定された
場合、及びステップ34で所定時間が経過したと判定さ
れた場合にはステップS35に移行し、ステップS35
で共有メモリS−1から検索結果を読み取る。ここで処
理は検索結果確認部T−9から検索結果出力部T−10
に移行する。If the determination in step 33 is negative, it is determined in step 34 whether a predetermined time has elapsed. If it is determined in step 34 that the predetermined time has not elapsed, the process returns to step 32, and the same processing as described above is performed. If the determination in step 33 is affirmative, that is, if it is determined that the search end flags from all the computers functioning as search servers have been written in the query area specified by the QID in the shared memory S-1 If it is determined in step S34 that the predetermined time has elapsed, the process proceeds to step S35, and the process proceeds to step S35.
Reads the search result from the shared memory S-1. Here, the processing is performed from the search result confirmation unit T-9 to the search result output unit T-10.
Move to
【0057】検索結果出力部T−10では、ステップS
36において、検索結果確認部T−9がステップS35
で読み取った検索結果を出力し、ステップS37で共有
メモリS−1におけるクエリ領域の初期化を行い、かつ
共有メモリS−1に対するアクセスを終了させてこの処
理を終了する。In the search result output unit T-10, step S
In step S36, the search result confirmation unit T-9 proceeds to step S35
And outputs the search result read in step S37, initializes the query area in the shared memory S-1 in step S37, terminates the access to the shared memory S-1, and ends this processing.
【0058】次に本発明の実施の形態に係る文書検索装
置をインターネットの文書検索システムに適用した実施
例の構成を図6に示す。図6において、文書検索システ
ムは、複数台のHTTPサーバC−1と、文書処理サー
バC−2と、複数台の検索サーバC−3と、形態解析用
辞書D−1と、処理対象データベースD−2と、文書イ
ンデックスデータベースD−3と、共有メモリS−1と
を有している。Next, FIG. 6 shows a configuration of an embodiment in which the document search device according to the embodiment of the present invention is applied to a document search system on the Internet. 6, the document search system includes a plurality of HTTP servers C-1, a document processing server C-2, a plurality of search servers C-3, a morphological analysis dictionary D-1, and a processing target database D. -2, a document index database D-3, and a shared memory S-1.
【0059】各HTTPサーバC−1は図1に示したユ
ーザクエリ処理部A−1と、検索結果処理部A−4とを
有し、既述したユーザクエリ入力部T−1、ユーザクエ
リ形態解析部T−2、クエリ記録部T−3、検索結果確
認部T−9及び検索結果出力部T−10の機能を有して
いる。インターネットにおける文書検索システムでは,
ユーザのクエリや、ユーザ要求を処理するエンジン部分
としてWEBサーバがある。WEBサーバの機能とし
て、T−1、T−2、T−3、T−9及びT−10の機
能はWEBサーバ側のCGI(common gateway interfa
ce)相当が処理する。このCGIのサービスを行うサー
バがHTTPサーバC−1である。Each HTTP server C-1 has the user query processing section A-1 and the search result processing section A-4 shown in FIG. It has functions of an analysis unit T-2, a query recording unit T-3, a search result confirmation unit T-9, and a search result output unit T-10. In a document retrieval system on the Internet,
A web server is an engine part that processes user queries and user requests. As functions of the WEB server, the functions of T-1, T-2, T-3, T-9 and T-10 are provided by a CGI (common gateway interface) on the WEB server side.
ce) Equivalent processing. The server that performs the CGI service is the HTTP server C-1.
【0060】また文書処理サーバC−2は図1に示した
対象文書処理部A−2を有し、既述した対象文書入力部
T−4及び文書インデックス作成部T−5の機能を有し
ている。更に各検索サーバ(TRETサーバ)C−3は
図1に示した登録クエリ処理部A−3を有し、既述した
クエリ確認部T−6、文書インデックス検索部T−7及
び検索結果記録部T−8の機能を有している。また形態
素解析用辞書D−1、処理対象文書データベースD−
2、文書インデックスデータベースD−3は、それぞれ
図1に示したものと基本的には同一である。但し、図6
に示した文書インデックスデータベースD−3は、図示
は省略してあるが、複数の検索サーバC−3の各々に対
応して設けられている。The document processing server C-2 has the target document processing section A-2 shown in FIG. 1, and has the functions of the target document input section T-4 and the document index creation section T-5 described above. ing. Further, each search server (TRET server) C-3 has the registered query processing unit A-3 shown in FIG. 1, and the above-described query confirmation unit T-6, document index search unit T-7, and search result recording unit It has the function of T-8. The morphological analysis dictionary D-1 and the processing target document database D-
2. The document index database D-3 is basically the same as that shown in FIG. However, FIG.
Although not shown, the document index database D-3 shown in FIG. 3 is provided for each of the plurality of search servers C-3.
【0061】本実施例では、特殊設定レジスタと共有メ
モリS−1を用いてHTTPサーバC−1と検索サーバ
C−3ヘの並列アクセスを可能とする。検索サーバC−
3は、基本機能としては、自分の持つインデックスの中
でマッチするキーワードを持つ文書セグメントを結果と
して返す。その場合、スコアの高い順から返したりする
ことができる。HTTPサーバC−1、文書処理サーバ
C−2、検索サーバC−3の行う各種サービスを、共有
メモリS−1を介して行う。ここで共有メモリとは、各
サーバC−1、C−2、C−3間を別のネットワークで
接続し、各サーバC−1、C−2、C−3のCPUを介
する異なる各プロセス(process)または、スレッド(T
hread)が共有できるメモリである。In this embodiment, the HTTP server C-1 and the search server C-3 can be accessed in parallel using the special setting register and the shared memory S-1. Search server C-
3 basically returns a document segment having a matching keyword in its own index as a result. In that case, it is possible to return from the highest score. Various services performed by the HTTP server C-1, the document processing server C-2, and the search server C-3 are performed via the shared memory S-1. Here, the shared memory means that each of the servers C-1, C-2, and C-3 is connected by another network, and different processes (CPUs) of the respective servers C-1, C-2, and C-3 are performed via the CPUs. process) or thread (T
hread) is memory that can be shared.
【0062】共有メモリS−1におけるユーザクエリを
処理するために設けられた記憶領域の構成を図7に示
す。同図において、ユーザからHTTPサーバC−1の
ユーザクエリ処理部A−1に入力されたユーザクエリを
処理するために共有メモリS−1上に設けられた記憶領
域は、各検索サーバ(TRETサーバ)がユーザクエリ
に対する処理が終了したことを示すフラグ群が記録され
るフラグ領域と、クエリ領域と、検索結果領域とを有し
ている。フラグ領域は、各検索サーバに対応して検索処
理が終了したことを示す処理終了フラグが記録されるビ
ットが設けられており、初期状態では各処理終了フラグ
を示すビットは“0”に設定され、各検索サーバの処理
が終了した時点で当該検索サーバに対応する処理終了フ
ラグが記録されるビットが“1”に設定される。HTT
PサーバC−1は、全ての処理終了フラグが“1”にな
った時点で全ての検索サーバの検索処理が終了した判定
する。このフラグ領域は本実施例では16byteが割り当
てられている。FIG. 7 shows the configuration of a storage area provided for processing a user query in the shared memory S-1. In the figure, a storage area provided on the shared memory S-1 for processing a user query input from the user to the user query processing unit A-1 of the HTTP server C-1 is stored in each search server (TRET server). ) Has a flag area in which a flag group indicating that the processing for the user query has been completed is recorded, a query area, and a search result area. The flag area is provided with a bit for recording a processing end flag indicating that the search processing has been completed for each search server. In the initial state, the bit indicating each processing end flag is set to “0”. When the processing of each search server ends, the bit in which the processing end flag corresponding to the search server is recorded is set to “1”. HTT
The P server C-1 determines that the search processing of all search servers has been completed when all the processing end flags have become “1”. In this embodiment, 16 bytes are allocated to this flag area.
【0063】クエリ領域とは、各検索サーバにおいて受
け付けたクエリを記述する共有メモリS−1のメモリ空
間上の領域であり、通常、複数のクエリをクエリ領域に
記述できる。このクエリ領域はHTTPサーバC−1か
らのクエリ内容を記述するデータ領域として本実施例で
は256byteが割り当てられている。また検索結果領域
は、クエリに対する各検索サーバC−3からの1位から
n位までの検索結果が書き込まれるデータ領域であり、
各検索結果の書き込みに使用するデータ領域を例えば、
32byteとして、(32×n)byteが割り当てられてい
る。検索結果領域における検索結果の書き込みに際して
は、クエリと検索結果の適合度であるスコアに応じてソ
ート(sort)されて書き込まれる。The query area is an area in the memory space of the shared memory S-1 that describes a query received by each search server. Generally, a plurality of queries can be described in the query area. In this embodiment, the query area is allocated as a data area for describing the contents of the query from the HTTP server C-1. The search result area is a data area in which the first to n-th search results for each query from each search server C-3 are written.
For example, the data area used to write each search result
(32 × n) bytes are allocated as 32 bytes. When writing a search result in the search result area, the data is sorted and written according to a score that is the degree of matching between the query and the search result.
【0064】すなわち、各検索サーバC−3は、検索結
果領域に対して、自分のスレッドが検索結果を持ってい
る時、ソートしながら検索結果の記述を行う。ただし、
ソートを行っている最中でおかしくならないようにソー
トを行いながら検索する際には、そのレコードをロック
する。(検索サーバは、各検索サーバの処理終了フラグ
に従い書き込み可能か否か判断する。)That is, each search server C-3 describes the search results in the search result area while sorting, when its own thread has the search results. However,
Lock the record when searching while sorting so that it does not go wrong during sorting. (The search server determines whether or not writing is possible according to the processing end flag of each search server.)
【0065】HTTPサーバC−1は、共有メモリS−
1上に、ユーザクエリを記述し、そのクエリに対する回
答を各検索サーバC−3が返すか、または、ある一定の
時間が経った後、クエリの結果を合わせて、インターネ
ット側に返却する。一方、検索サーバC−3は、共有メ
モリS−1のメモリ空間上にクエリが有れば、それを即
時処理する。各検索サーバC−3は、検索結果を出力す
る際に、共有メモリS−1のメモリ空間上のデータに対
して、最もスコアの高いものだけをソートして集める。
処理が最後の検索サーバは、自分の検索結果を出力した
後、HTTPサーバC−1に対して、検索結果をすべて
出力したことを特殊設定レジスタ上に記述する。(HT
TPサーバC−1は、この特殊設定レジスタの値をある
タイムインターバルごとにチェックしにいく)The HTTP server C-1 has a shared memory S-
1, a user query is described, and each search server C-3 returns an answer to the query, or after a certain period of time, returns the query result together to the Internet. On the other hand, if there is a query in the memory space of the shared memory S-1, the search server C-3 immediately processes the query. When outputting the search result, each search server C-3 sorts and collects only those having the highest score with respect to the data in the memory space of the shared memory S-1.
After outputting its own search result, the search server whose processing is the last describes to the HTTP server C-1 that all the search results have been output in the special setting register. (HT
The TP server C-1 checks the value of this special setting register at certain time intervals.)
【0066】共有メモリS−1の同じアドレスを各ノー
ドで更新しあう可能性のある場合には、割り込みを行っ
たり、何らかの処理を行う必要がある。つまり、ここで
は検索結果を各検索サーバがC−3ソートしながら検索
結果を書き出す。そのため、検索結果を記述する領域が
少なく、検索結果を一定の数だけ出力すればすむ。逆
に、ソートを繰り返すため、他の検索サーバがソートを
行っている時には、更新をかけないようにしなければな
らない。If there is a possibility that the same address of the shared memory S-1 may be updated by each node, it is necessary to perform an interrupt or perform some processing. That is, here, the search results are written out while each search server performs C-3 sorting. Therefore, the area for describing the search result is small, and only a fixed number of search results need to be output. On the other hand, in order to repeat the sorting, the update must not be performed when another search server is performing the sorting.
【0067】共有メモリS−1は、128KBの場合を実
施例で示す。図8乃至図11は、上述した文書検索シス
テムにおける具体的な処理内容を示すフローチャートで
あり、これらは図2乃至図5に対応するものであり、図
2乃至図4のフローチャートを関数またはコマンドによ
り置き換えたものであるので、各フローチャートの説明
の詳細は、省略し、概括的な説明に留める。尚、図8は
図2のクエリ記録部T−3の処理を、図9、10は図
3、4のクエリ確認部T−6、文書インデックス検索部
T−7、検索結果記録部T−8の処理を、図11は図5
の検索結果確認部T−9、検索結果出力部T−10の処
理を、それぞれ示している。The embodiment shows a case where the shared memory S-1 is 128 KB. FIGS. 8 to 11 are flowcharts showing specific processing contents in the above-described document search system. These correspond to FIGS. 2 to 5, and the flowcharts of FIGS. Since this is a replacement, the details of the description of each flowchart are omitted, and only a general description is given. 8 shows the processing of the query recording unit T-3 in FIG. 2, and FIGS. 9 and 10 show the query confirmation unit T-6, the document index search unit T-7, and the search result recording unit T-8 in FIGS. 11 is shown in FIG.
Of the search result confirmation unit T-9 and the search result output unit T-10.
【0068】また図10における検索結果記録部T−8
(検索サーバC−3)によるステップ30'の処理の詳
細の一例を図12に、またステップ30'の処理の詳細
の他の例を図13及び図14に、それぞれ示す。ここ
で、図14は図13におけるフローAの処理内容を示す
フローチャートである。図8乃至図11において、文書
インデックスデータベースD−3は、複数台で構成され
る場合、複数の構成方法が存在する。レベル0はストラ
イプ、レベル1は、ミラーリング、レベル2は、ストラ
イプとミラーリングの複合構成となる。このストライプ
とは、同じ文書インデックスを有する文書インデックス
データベースD−3を持つものがなく、各検索サーバC
−3毎に設けられた文書インデックスデータベースD−
3に分散されている構成である。The search result recording section T-8 in FIG.
FIG. 12 shows an example of the details of the processing of step 30 'by (search server C-3), and FIGS. 13 and 14 show other examples of the details of the processing of step 30'. Here, FIG. 14 is a flowchart showing the processing content of the flow A in FIG. 8 to 11, when the document index database D-3 is composed of a plurality of documents, there are a plurality of composition methods. Level 0 is a stripe, level 1 is mirroring, and level 2 is a composite configuration of stripe and mirroring. This stripe does not have a document index database D-3 having the same document index.
-3 document index database D provided for each
3 is distributed.
【0069】一方ミラーリングとは、複数の文書インデ
ックスデータベースD−3に同じ文書インデックスをも
つものがあることを示す。一方、ストライプとミラーリ
ングの複合構成では、ミラーリングされている文書イン
デックスもあれば、ミラーリングされていない文書イン
デックスも存在することを示す。ストライプとは、文書
インデックスを複数台の検索サーバC−3毎に設けられ
た文書インデックスデータベースD−3に蓄積する場
合、複数台の検索サーバC−3において、同じ文書イン
デックスは持たず、それぞれ別の文書インデックスをそ
れぞれの検索サーバC−3毎に設けられた文書インデッ
クスD−3に蓄積することを示す。On the other hand, "mirroring" means that there is a document index database D-3 which has the same document index. On the other hand, the composite configuration of stripe and mirroring indicates that there is a mirrored document index and a non-mirrored document index. When a document index is stored in the document index database D-3 provided for each of the plurality of search servers C-3, the stripe means that the plurality of search servers C-3 do not have the same document index, but are different from each other. Is stored in the document index D-3 provided for each search server C-3.
【0070】クエリを共有メモリS−1上に記述した
後、それぞれの検索サーバC−3は、クエリ確認部T−
6で、クエリを取り込み、文書インデックスをもとに、
自らが管理する文書インデックスデータベースD−3を
利用し、文書インデックス検索部T−7で検索を行い、
検索結果記録部T−8で、検索結果を記録する。検索結
果はストライプ型のインデックス方式においては、複数
の検索サーバC−3からの検索結果を複合して記憶す
る。After describing the query on the shared memory S-1, each search server C-3 sets the query confirmation unit T-
At 6, the query is fetched and based on the document index,
Using a document index database D-3 managed by itself, a search is performed by a document index search unit T-7,
The search result is recorded in the search result recording unit T-8. In the striped indexing method, the search results are stored by combining the search results from a plurality of search servers C-3.
【0071】検索結果の出力内容としては、“適合文書
名(filePath)”、“適合文書スコア(score)”、
“適合順位”、“文書インデックス作成時のID(segmen
t―ID)”が記述される。これらの検索結果は、それぞ
れの文書インデックスにおける結果であり、これらをす
べての複数台の検索サーバC−3からの結果を複合しな
ければ、単にストライプされた部分の文書フラグメント
の結果を出力しているだけで、文書集合全体における結
果にはならない。The output contents of the search result include “conforming document name (filePath)”, “conforming document score (score)”,
“Relevance order”, “ID when creating document index (segmen
t-ID) "are described. These search results are the results in the respective document indexes, and if these are not combined with the results from all the plurality of search servers C-3, they are simply striped. Only the result of a partial document fragment is output, not the result for the entire document set.
【0072】文書インデックス検索部T−7に対する入
力としては、“検索クエリ”および、“適合文書スコア
領域(検索クエリに適合する文書のうちのスコアのn順
位から+m順位”までの結果を出力することを指定でき
る。たとえば、n=1,m=40と設定すれば、スコアの1位か
ら41位までの結果を出力することができる。ユーザか
らのクエリも単純に“検索クエリ”の場合から、さら
に、“検索クエリに適合する文書のうちのスコアのn順
位から+m順位”を出力する場合もありうる。これも通
常のクエリと同様に共有メモリS−1に記述される。以
下の例をストライプ型の検索結果の処理の流れをもとに
詳説する。As inputs to the document index search unit T-7, results of a "search query" and a "matching document score area (n-th to + m-rank scores of documents matching the search query)" are output. For example, if you set n = 1 and m = 40, you can output the results from the 1st to the 41st place in the score. In addition, it is also possible to output “the score from the nth rank to the + mth rank among the documents that match the search query.” This is also described in the shared memory S-1 similarly to the ordinary query. Will be described in detail based on the processing flow of the striped search result.
【0073】ストライプが、2セット(つまり、A,B
の2つの文書集合)からなる2台の検索サーバ(C−3
A,C−3Bとする)の結果を複合する例を示す。スト
ライプが2セットであるから、処理対象文書も2セッ
ト、さらに処理をする検索サーバも2台の単純な構成を
考えてみる。処理対象文書も2セットであるから、処理
対象文書のインデックスを作成する文書インデックス作
成部T−5も2セットの文書インデックスを作成する。
(それぞれ、IA,IBとする)。文書インデックスIAとIB
は、それぞれ、別の検索サーバ上の文書インデックス検
索部T−7に蓄積される。ユーザが、検索クエリを入力
し、それぞれの検索サーバ上のクエリ確認部T−6が、
クエリを確認し、それぞれの検索サーバ上にある文書イ
ンデックス(IA,IB)を用いて、文書インデックスを検
索する。検索サーバC−3Aが文書インデックスIAを利
用して、検索結果RIAを出力したとする。When two sets of stripes (that is, A, B
Search servers (C-3) composed of two document sets
A, C-3B). Since there are two sets of stripes, consider a simple configuration of two sets of documents to be processed and two search servers for further processing. Since there are two sets of documents to be processed, the document index creation unit T-5 for creating an index of the documents to be processed also creates two sets of document indexes.
(Respectively IA and IB). Document indexes IA and IB
Are stored in the document index search unit T-7 on another search server. The user inputs a search query, and the query confirmation unit T-6 on each search server
The query is confirmed, and the document index is searched using the document indexes (IA, IB) on the respective search servers. It is assumed that the search server C-3A outputs the search result RIA using the document index IA.
【0074】検索結果記録部T−8は、検索結果RIAを
共有メモリS−1の指定された領域に記録するため、ま
ず、共有メモリS−1内の指定した領域を他の検索サー
バ(ここでは、C−3B)が書き込んでいないことを確
認する。(これは、検索結果を記録する共有メモリS−
1内の指定された領域は、すべての検索結果を記録する
検索サーバが同じ領域を使用するためである。つまり、
ある検索クエリに対して、検索結果を記録する領域が1
個所用意されていることになる。)もし、他の検索サー
バが書き込みを行っている場合には、書き込みが終わる
までWAITする。一方、他の計算機が書き込みを行ってい
ない場合には、検索結果RIAを共有メモリS−1上に書
き込む。To record the search result RIA in the designated area of the shared memory S-1, the search result recording unit T-8 first stores the designated area in the shared memory S-1 with another search server (here, Then, it is confirmed that C-3B) has not been written. (This is because the shared memory S-
The designated area in 1 is for the search server that records all search results to use the same area. That is,
For a certain search query, the area where search results are recorded is 1
It will be prepared in some places. If another search server is writing, wait until writing is completed. On the other hand, when the other computer has not performed the writing, the search result RIA is written on the shared memory S-1.
【0075】共有メモリS−1に書き込みを行う際に、
一番最初に検索結果を書き込む場合には、検索結果RIA
を直接COPYする。一方、一番最初ではなく、すでに他の
検索サーバが書き込みを行った結果に対して上書きする
場合には、他の検索サーバが書き込みを行った結果に対
して、検索結果のSCOREに応じてソートを行いながら、
もっともSCOREが大きいものを上位に蓄積するようにす
る。処理フローを図12に示す。When writing to the shared memory S-1,
When writing search results at the very beginning, search result RIA
COPY directly. On the other hand, if you want to overwrite the result already written by another search server instead of the first one, sort the result written by another search server according to the SCORE of the search result While doing
The one with the largest SCORE is stored at the top. FIG. 12 shows the processing flow.
【0076】次に、最大表示結果数(例えば、40件と
すると)の次の結果を得る場合には、以下の処理を行
う。共有メモリS−1上に、クエリ記録部T−3に検索
クエリと適合文書スコア領域を最大表示結果数以降(つ
まり、表示順位として、最大表示結果数位から、最大表
示数*2位まで)の結果を返すように設定する。通常の
方法では、これらの最大表示結果数に対して複数台で出
力した結果をソートして最終結果として出力する場合に
は、すべてをソートする必要がある。この場合、表示結
果数が多くなればなるほど、ソート処理に要する時間が
必要とされ、処理速度が低下する。Next, to obtain the next result of the maximum number of display results (for example, 40), the following processing is performed. On the shared memory S-1, the query record and the matching document score area are stored in the query recording unit T-3 after the maximum display result number (that is, the display order from the maximum display result number to the maximum display number * 2). Set to return results. In a normal method, when the results output by a plurality of units are sorted with respect to the maximum number of display results and output as the final result, it is necessary to sort them all. In this case, as the number of display results increases, the time required for the sorting process is required, and the processing speed is reduced.
【0077】一方、本発明の実施の形態に係る文書検索
装置、文書検索システムでは、検索結果の履歴が共有メ
モリS−1上に蓄積されている。共有メモリS−1上
で、新たな検索結果によって、すべての共有メモリS−
1の内容が上書きされるまでの間は、共有メモリ上に検
索結果の履歴が蓄積されているが、それ以上には、蓄積
されず、検索結果の履歴は残らない。このような検索結
果の履歴を利用することにより、高速にソートし、検索
結果を出力することができる。つまり、ある表示順位よ
り前の検索結果を利用し、表示順以前の処理は行わず、
表示すべき順位以降の検索結果だけを処理すればよいこ
とになる。この場合、例えば、表示順位が1000位か
らとすれば、1000位以前の結果に対してソート処理
がまったく不要となり、処理速度が高速化されることに
なる。図13及び図14にその処理内容を示す。尚、表
示する検索結果の順位は、X位から(X+Y)位までと
する。On the other hand, in the document search device and the document search system according to the embodiment of the present invention, the history of the search results is stored in the shared memory S-1. On the shared memory S-1, all of the shared memories S-
Until the content of No. 1 is overwritten, the history of search results is accumulated in the shared memory, but no more than that, and no history of search results remains. By using such a history of search results, it is possible to sort at high speed and output the search results. In other words, it uses search results before a certain display order, does not perform processing before the display order,
Only the search results after the rank to be displayed need to be processed. In this case, for example, if the display order is from the 1000th place, the sort processing is not required at all for the results before the 1000th place, and the processing speed is increased. 13 and 14 show the processing contents. Note that the order of the search results to be displayed is from the X-th to the (X + Y) -th.
【0078】さらに、最大表示結果数*2以降の検索結
果が必要な場合には、同様の処理を最大表示結果数*2
に対して行う。ストライプ形式の場合では最後に検索結
果を出力する検索結果出力部T−10(これはたいてい
CGIで構成されるが)は図5、図11を参照して記述し
たように、HTTPサーバC−1がそれぞれ検索クエリ
に対する検索結果を所定時間内までに出力しなければ、
今まで、共有メモリS−1に記録した、各検索サーバC
−3の検索結果記録部T−8が記録した検索結果を検索
結果出力部T−10を通して出力する。Further, when search results after the maximum display result number * 2 are required, the same processing is performed for the maximum display result number * 2.
Do for In the case of the stripe format, the search result output unit T-10 which outputs the search result last (this is usually
As described with reference to FIG. 5 and FIG. 11, if the HTTP server C-1 does not output the search result for the search query within a predetermined time,
Until now, each search server C recorded in the shared memory S-1
The search result recorded by the search result recording unit T-8 is output through the search result output unit T-10.
【0079】ミラーの場合には、同じ文書インデックス
に対して複数の検索サーバにより、同じ検索クエリに対
して同様な処理が行われる。つまり、同じ検索クエリに
対して、同じ検索結果が複数の検索サーバにより出力さ
れることになる。もちろん、ミラーであるから、同じ検
索結果をもつのが普通であるが、信頼性を高める意味
で、複数台の検索サーバが同じ検索結果を出力している
かどうかを確認することもできる。In the case of a mirror, the same processing is performed for the same search query by a plurality of search servers for the same document index. That is, for the same search query, the same search result is output by a plurality of search servers. Of course, since it is a mirror, it usually has the same search result. However, in order to enhance reliability, it is also possible to confirm whether a plurality of search servers output the same search result.
【0080】一方、通常のミラーの意味は、検索速度の
向上である。つまり、同じミラーを持つ検索サーバにお
いて、検索クエリを与えてから、検索結果を得られるま
での時間は同一ではない。そのため、同じミラーの文書
インデックスを持つ計算機に対して、もっとも検索結果
を早く出力した結果を取り出すことを特徴とするのが、
検索結果確認部T−9である。図8、図11に示すクエ
リ記録部T−3、検索結果確認部T−9、検索結果出力
部T−10部分の処理フローにおいて、If(query―reg
ister[QID]==0x0f)と判断している部分において、文
書インデックスがIA,IBとあり、そのミラーがMIA,MIBと
あった場合、IAまたは、MIAのどちらかが検索結果を共
有メモリ上に記述し、MIBまたはIBのどちらかが検索結
果を共有メモリ上に記述した場合に、query―register
[QID]==0x0fとすることにより、ミラーでの処理が実
現される。つまり、文書インデックスIAとMIAのどちら
か早い検索結果を検索結果出力部T−10における検索
結果として出力することができる。同様に、文書インデ
ックスIBとMIBのうちどちらか早い検索結果を出力でき
る。On the other hand, the meaning of a normal mirror is to improve the search speed. That is, in a search server having the same mirror, the time from when a search query is given to when a search result is obtained is not the same. Therefore, the feature that retrieves the result of outputting the search result earliest to the computer that has the document index of the same mirror,
This is a search result confirmation unit T-9. In the processing flow of the query recording unit T-3, the search result confirmation unit T-9, and the search result output unit T-10 shown in FIGS. 8 and 11, If (query-reg
If the document index is IA or IB and the mirror is MIA or MIB in the part where ister [QID] == 0x0f), either IA or MIA stores the search result on the shared memory. If the search result is described in the shared memory by either MIB or IB, query-register
By setting [QID] == 0x0f, processing at the mirror is realized. That is, the earlier search result of the document index IA or MIA can be output as the search result in the search result output unit T-10. Similarly, it is possible to output a search result that is earlier than the document index IB or MIB.
【0081】尚、ユーザのクエリを入力し、該入力した
ユーザクエリを形態素解析用辞書を用いて形態素解析し
て該ユーザクエリ中に記述されている単語を確定し、か
つ各単語の品詞、活用形等を確定すると共に、該形態素
解析したクエリを共有メモリ空間に記録するユーザクエ
リ処理と、処理対象の文書を入力し、該入力した文書に
ついて形態素解析用辞書を用いて形態素解析し、文書中
に記述されている各文の単語を確定するとともに、各文
中に含まれる単語及び文書名を各文書のインデックスと
して文書インデックスデータベースに記録する対象文書
処理と、前記共有メモリ空間に記憶されたクエリが有る
か否かを絶えず確認し、前記共有メモリ空間にクエリが
記録されたことを確認したと同時に、前記共有メモリ空
間よりクエリの内容を読み出し、当該クエリと一致する
単語群を有する文書を、前記文書インデックスデータベ
ースから検索し、前記ユーザクエリに適合した文書情報
を抽出した場合、前記共有メモリ空間に当該文書情報を
記録する登録クエリ処理と、前記共有メモリ空間に前記
登録クエリ処理により記録された文書情報が記録されて
いるか否かを絶えず確認し、前記ユーザクエリに対する
検索結果として、適切な文書情報が記述された場合、前
記共有メモリ空間に記録された検索結果である当該文書
情報を読み出し、ユーザに対して出力する検索結果処理
とを有することを特徴とする文書検索方法をコンピュー
タにより実行させるためのプログラムをコンピュータに
より読み取り可能な記録媒体に記録するようにしてもよ
い。この記録媒体に記録されたプログラムをコンピュー
タシステムに読み込ませ、実行することにより、大量の
文書インデックスや大量のユーザクエリに対してスケー
ラブルに処理することができる。A user's query is input, and the input user query is morphologically analyzed using a morphological analysis dictionary to determine the words described in the user query. User query processing for determining the shape and the like and recording the morphologically analyzed query in the shared memory space, inputting a document to be processed, morphologically analyzing the input document using a morphological analysis dictionary, and The target document processing of determining the words of each sentence described in the above, and recording the words and the document names included in each sentence as an index of each document in the document index database, and the query stored in the shared memory space. It is constantly checked whether or not there is a query. Registration query processing for retrieving a document having a word group that matches the query from the document index database and extracting document information matching the user query when the document information is extracted in the shared memory space And constantly check whether or not the document information recorded by the registration query processing is recorded in the shared memory space, and when appropriate document information is described as a search result for the user query, the shared memory A computer-readable recording program for causing a computer to execute a document search method characterized by having a search result process for reading the document information as search results recorded in a space and outputting the document information to a user It may be recorded on a medium. By causing the computer system to read and execute the program recorded on the recording medium, a large amount of document indexes and a large number of user queries can be scalably processed.
【0082】また、分散された複数の文書検索装置の各
々について異なる文書インデックスが蓄積された文書イ
ンデックスデータベースを有し、前記複数の文書検索装
置が共有メモリ空間を共有して文書検索を行う文書検索
システムにおける文書検索方法であって、前記複数の文
書検索装置の各々において、前記共有メモリ空間に記憶
されたクエリが有るか否かを絶えず確認し、前記共有メ
モリ空間にクエリが記録されたことを確認したと同時
に、前記共有メモリ空間よりクエリの内容を読み出し、
当該クエリと一致する単語群を有する文書を、文書イン
デックスデータベースから検索し、前記ユーザクエリに
適合した文書情報を抽出した場合、前記共有メモリ空間
に当該文書情報を記録する登録クエリ処理と、前記共有
メモリ空間に前記登録クエリ処理により記録された文書
情報が記録されているか否かを絶えず確認し、前記ユー
ザクエリに対する検索結果として、適切な文書情報が記
述された場合、前記共有メモリ空間に記録された検索結
果である当該文書情報を読み出し、ユーザに対して出力
する検索結果処理とを有することを特徴とする文書検索
システムにおける文書検索方法をコンピュータにより実
行させるためのプログラムをコンピュータにより読み取
り可能な記録媒体に記録するようにしてもよい。この記
録媒体に記録されたプログラムをコンピュータシステム
に読み込ませ、実行することにより、文書検索システム
を構成する各文書検索装置が独立に検索処理を行い、検
索結果を高速に融合することができる。A document index database in which different document indexes are stored for each of a plurality of distributed document search devices, wherein the plurality of document search devices share a shared memory space to perform a document search. A document search method in a system, wherein each of the plurality of document search devices constantly checks whether or not there is a query stored in the shared memory space, and determines that the query is recorded in the shared memory space. At the same time as confirming, read the contents of the query from the shared memory space,
When a document having a word group that matches the query is searched from a document index database and document information that matches the user query is extracted, a registration query process for recording the document information in the shared memory space; It is constantly checked whether or not the document information recorded by the registration query process is recorded in the memory space, and when appropriate document information is described as a search result for the user query, the document information is recorded in the shared memory space. A computer-readable recording program for causing a computer to execute a document search method in a document search system, comprising: a search result process for reading the document information as a search result and outputting the document information to a user. It may be recorded on a medium. By causing the computer system to read and execute the program recorded on the recording medium, each document search device constituting the document search system performs a search process independently, and the search results can be merged at high speed.
【0083】また、分散された複数の文書検索装置の各
々について同一の文書インデックスが蓄積された文書イ
ンデックスデータベースを有し、前記複数の文書検索装
置が共有メモリ空間を共有して文書検索を行う文書検索
システムにおける文書検索方法であって、前記複数の文
書検索装置の各々において、前記共有メモリ空間に記憶
されたクエリが有るか否かを絶えず確認し、前記共有メ
モリ空間にクエリが記録されたことを確認したと同時
に、前記共有メモリ空間よりクエリの内容を読み出し、
当該クエリと一致する単語群を有する文書を、文書イン
デックスデータベースから検索し、分散された他の各文
書検索装置が検索結果を前記共有メモリ空間に記録する
際に、他の各文書検索装置が検索結果を記録していない
のを確認し、かつ記録する途中で前記他の各文書検索装
置が検索結果を記録しないようにする登録クエリ処理
と、前記共有メモリ空間に前記登録クエリ処理により記
録された文書情報が記録されているか否かを絶えず確認
し、前記ユーザクエリに対する検索結果として、適切な
文書情報が記述された場合、前記共有メモリ空間に記録
された検索結果である当該文書情報を読み出し、ユーザ
に対して出力する検索結果処理とを有することを特徴と
する文書検索システムにおける文書検索方法をコンピュ
ータにより実行させるためのプログラムをコンピュータ
により読み取り可能な記録媒体に記録するようにしても
よい。この記録媒体に記録されたプログラムをコンピュ
ータシステムに読み込ませ、実行することにより、文書
検索システムを構成する各文書検索装置の中で、最も高
速に応答する検索結果を利用し、最も高速に応答する検
索結果を融合することができる。A document index database in which the same document index is stored for each of a plurality of distributed document search devices, wherein the plurality of document search devices share a shared memory space to perform document search. A document search method in a search system, wherein each of the plurality of document search devices constantly checks whether or not there is a query stored in the shared memory space, and the query is recorded in the shared memory space. At the same time, read the contents of the query from the shared memory space,
A document having a word group that matches the query is searched for from the document index database, and when each of the other distributed document search devices records a search result in the shared memory space, each of the other document search devices performs a search. Confirming that the result has not been recorded, and a registration query process in which each of the other document search devices does not record a search result in the middle of recording, and a registration query process recorded in the shared memory space by the registration query process. Always check whether or not the document information is recorded, as a search result for the user query, if appropriate document information is described, read the document information is a search result recorded in the shared memory space, Causing a computer to execute a document search method in a document search system having a search result process for outputting to a user. Programs may be recorded in a recording medium readable by a computer for. By causing the computer system to read and execute the program recorded on the recording medium, among the document retrieval devices constituting the document retrieval system, the retrieval result that responds at the highest speed is used, and the computer responds at the highest speed. Search results can be merged.
【0084】なお、ここでいう「コンピュータシステ
ム」とは、OSや周辺機器等のハードウェアを含むもの
とする。また、「コンピュータ読み取り可能な記録媒
体」とは、フロッピーディスク、光磁気ディスク、RO
M、CD−ROM等の可般媒体、コンピュータシステム
に内蔵されるハードディスク等の記憶装置のことをい
う。さらに「コンピュータ読み取り可能な記録媒体」と
は、インターネット等のネットワークや電話回線等の通
信回線を介してプログラムを送信する場合の通信線のよ
うに、短時間の間、動的にプログラムを保持するもの、
その場合のサーバやクライアントとなるコンピュータシ
ステム内部の揮発性メモリのように、一定時間プログラ
ムを保持しているものも含むものとする。また上記プロ
グラムは、前述した機能の一部を実現するためのもので
あっても良く、さらに前述した機能をコンピュータシス
テムにすでに記録されているプログラムとの組み合わせ
で実現できるものであっても良い。Note that the “computer system” here includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” is a floppy disk, a magneto-optical disk, an RO
M means a storage medium such as a general medium such as a CD-ROM or a hard disk built in a computer system. Further, a "computer-readable recording medium" refers to a communication line for transmitting a program via a network such as the Internet or a communication line such as a telephone line, and dynamically holds the program for a short time. thing,
In this case, a program that holds a program for a certain period of time, such as a volatile memory in a computer system serving as a server or a client, is also included. Further, the above-mentioned program may be for realizing a part of the above-mentioned functions, or may be for realizing the above-mentioned functions in combination with a program already recorded in a computer system.
【0085】本発明では文書検索装置、文書検索システ
ムを共有メモリ型に構築することにより、同報性が高ま
り、並列計算機において、検索クエリを同時発行する場
合、短いレイテンシで、処理を行うことが可能になる。
更に文書検索システムを共有メモリ型にすることによ
り、並列処理を行う各文書検索装置(計算機)の各々
が、エージェント的に独立に動作することが可能にな
り、これらの並列計算機において、各々の並列計算機の
管理を効率的にすることが可能になる。According to the present invention, by constructing the document search device and the document search system in a shared memory type, the broadcast performance is improved. In the case where search queries are simultaneously issued in a parallel computer, processing can be performed with short latency. Will be possible.
Further, by making the document search system a shared memory type, each of the document search devices (computers) that perform parallel processing can operate independently as agents, and in these parallel computers, It becomes possible to manage the computer efficiently.
【0086】本実施の形態に係る文書検索システムで
は、文書インデックスをストライプ状に作成することに
より、各プロセッサ(文書検索装置)が独立に検索処理
を行い、検索結果を高速に融合することができる。また
文書インデックスをミラー化することにより、各プロセ
ッサの中で、最も高速にレスポンスした検索結果を利用
して最も高速に検索結果を融合することができる。また
検索結果を共有メモリにFIFOで蓄積するようにして
いるため、その検索結果を利用し、新たな検索結果のソ
ート処理を高速にすることができる。In the document search system according to the present embodiment, by creating a document index in a stripe shape, each processor (document search device) performs a search process independently and can merge search results at high speed. . Also, by mirroring the document index, the search results can be fused at the highest speed using the search results that responded at the highest speed among the processors. Further, since the search results are stored in the shared memory in FIFO, the sort results of the new search results can be speeded up by using the search results.
【0087】[0087]
【発明の効果】以上に説明したように請求項1に記載の
発明によれば、ユーザのクエリを入力し、該入力したユ
ーザクエリを形態素解析用辞書を用いて形態素解析して
該ユーザクエリ中に記述されている単語を確定し、かつ
各単語の品詞、活用形等を確定すると共に、該形態素解
析したクエリを共有メモリ空間に記録するユーザクエリ
処理と、処理対象の文書を入力し、該入力した文書につ
いて形態素解析用辞書を用いて形態素解析し、文書中に
記述されている各文の単語を確定するとともに、各文中
に含まれる単語及び文書名を各文書のインデックスとし
て文書インデックスデータベースに記録する対象文書処
理と、前記共有メモリ空間に記憶されたクエリが有るか
否かを絶えず確認し、前記共有メモリ空間にクエリが記
録されたことを確認したと同時に、前記共有メモリ空間
よりクエリの内容を読み出し、当該クエリと一致する単
語群を有する文書を、前記文書インデックスデータベー
スから検索し、前記ユーザクエリに適合した文書情報を
抽出した場合、前記共有メモリ空間に当該文書情報を記
録する登録クエリ処理と、前記共有メモリ空間に前記登
録クエリ処理により記録された文書情報が記録されてい
るか否かを絶えず確認し、前記ユーザクエリに対する検
索結果として、適切な文書情報が記述された場合、前記
共有メモリ空間に記録された検索結果である当該文書情
報を読み出し、ユーザに対して出力する検索結果処理と
を有するので、大量の文書インデックスや大量のユーザ
クエリに対してスケーラブルに処理することができる。As described above, according to the first aspect of the present invention, a user query is input, and the input user query is morphologically analyzed using a morphological analysis dictionary. The user query processing of determining the words described in the above and determining the part of speech, inflected forms, etc. of each word, and recording the morphologically analyzed query in a shared memory space, and inputting a document to be processed, The input document is morphologically analyzed using a morphological analysis dictionary, the words of each sentence described in the document are determined, and the words and document names included in each sentence are stored in the document index database as an index of each document. The target document processing to be recorded and the presence / absence of the query stored in the shared memory space are constantly checked to confirm that the query has been recorded in the shared memory space. At the same time, the content of the query is read from the shared memory space, a document having a word group that matches the query is searched from the document index database, and when the document information that matches the user query is extracted, the shared A registration query process for recording the document information in the memory space, and constantly checking whether or not the document information recorded by the registration query process is recorded in the shared memory space, and as a search result for the user query, When such document information is described, it includes a search result process for reading out the document information, which is a search result recorded in the shared memory space, and outputting the document information to a user. Can be scalably processed.
【0088】また請求項2に記載の発明によれば、 分
散された複数の文書検索装置の各々について異なる文書
インデックスが蓄積された文書インデックスデータベー
スを有し、前記複数の文書検索装置が共有メモリ空間を
共有して文書検索を行う文書検索システムにおける文書
検索方法であって、前記複数の文書検索装置の各々にお
いて、前記共有メモリ空間に記憶されたクエリが有るか
否かを絶えず確認し、前記共有メモリ空間にクエリが記
録されたことを確認したと同時に、前記共有メモリ空間
よりクエリの内容を読み出し、当該クエリと一致する単
語群を有する文書を、文書インデックスデータベースか
ら検索し、前記ユーザクエリに適合した文書情報を抽出
した場合、前記共有メモリ空間に当該文書情報を記録す
る登録クエリ処理部と、前記共有メモリ空間に前記登録
クエリ処理により記録された文書情報が記録されている
か否かを絶えず確認し、前記ユーザクエリに対する検索
結果として、適切な文書情報が記述された場合、前記共
有メモリ空間に記録された検索結果である当該文書情報
を読み出し、ユーザに対して出力する検索結果処理とを
有するので、文書検索システムを構成する各文書検索装
置が独立に検索処理を行い、検索結果を高速に融合する
ことができる。According to the second aspect of the present invention, there is provided a document index database in which different document indexes are stored for each of a plurality of distributed document search devices, and the plurality of document search devices are provided in a shared memory space. A document search method in a document search system for performing a document search by sharing a document, wherein each of the plurality of document search devices constantly checks whether or not there is a query stored in the shared memory space. At the same time as confirming that the query was recorded in the memory space, the contents of the query were read from the shared memory space, and a document having a word group matching the query was searched from the document index database, and matched with the user query. Registration query processing unit that records the document information in the shared memory space when the extracted document information is extracted. And constantly check whether or not the document information recorded by the registration query processing is recorded in the shared memory space, and when appropriate document information is described as a search result for the user query, the shared memory And a search result process for reading out the document information, which is a search result recorded in the space, and outputting the document information to the user, so that each document search device constituting the document search system performs a search process independently, and Can be fused at high speed.
【0089】また請求項3に記載の発明によれば、分散
された複数の文書検索装置の各々について同一の文書イ
ンデックスが蓄積された文書インデックスデータベース
を有し、前記複数の文書検索装置が共有メモリ空間を共
有して文書検索を行う文書検索システムにおける文書検
索方法であって、前記複数の文書検索装置の各々は、前
記共有メモリ空間に記憶されたクエリが有るか否かを絶
えず確認し、前記共有メモリ空間にクエリが記録された
ことを確認したと同時に、前記共有メモリ空間よりクエ
リの内容を読み出し、当該クエリと一致する単語群を有
する文書を、文書インデックスデータベースから検索
し、分散された他の各文書検索装置が検索結果を前記共
有メモリ空間に記録する際に、他の各文書検索装置が検
索結果を記録していないのを確認し、かつ記録する途中
で前記他の各文書検索装置が検索結果を記録しないよう
にする登録クエリ処理と、前記共有メモリ空間に前記登
録クエリ処理により記録された文書情報が記録されてい
るか否かを絶えず確認し、前記ユーザクエリに対する検
索結果として、適切な文書情報が記述された場合、前記
共有メモリ空間に記録された検索結果である当該文書情
報を読み出し、ユーザに対して出力する検索結果処理と
を有するので、文書検索システムを構成する各文書検索
装置の中で、最も高速に応答する検索結果を利用し、最
も高速に応答する検索結果を融合することができる。According to the third aspect of the present invention, there is provided a document index database in which the same document index is stored for each of a plurality of distributed document search devices, and the plurality of document search devices are provided in a shared memory. A document search method in a document search system that performs a document search by sharing a space, wherein each of the plurality of document search devices constantly checks whether there is a query stored in the shared memory space, At the same time as confirming that the query was recorded in the shared memory space, the contents of the query were read from the shared memory space, and a document having a word group matching the query was searched for from the document index database. When each of the document search devices records the search result in the shared memory space, the other document search devices record the search result. A registration query process for confirming that the other document search devices do not record search results during recording, and document information recorded by the registration query process in the shared memory space. Is constantly checked, and if appropriate document information is described as a search result for the user query, the relevant document information, which is the search result recorded in the shared memory space, is read and output to the user. Therefore, among the document search apparatuses constituting the document search system, the search result responding at the highest speed can be used, and the search result responding at the highest speed can be merged.
【0090】また請求項4に記載の発明によれば、ユー
ザのクエリを入力するユーザクエリ入力部と、該ユーザ
クエリ入力部が入力したユーザクエリを形態素解析用辞
書を用いて形態素解析し、該ユーザクエリ中に記述され
ている単語を確定するとともに、各単語の品詞、活用形
等を確定するクエリ形態素解析部と、該クエリ形態素解
析部が形態素解析したユーザクエリを共有メモリ空間に
記録するクエリ記録部とを有するユーザクエリ処理部
と、処理対象の文書を入力する対象文書入力部と、該処
理対象文書入力部が入力した文書を形態素解析用辞書を
用いて形態素解析し、前記文書中に記述されている各文
の単語を確定するとともに、各文中に含まれる単語及び
文書名を文書のインデックスとして文書インデックスデ
ータベースに記録する文書インデックス作成部とを有す
る対象文書処理部と、前記共有メモリ空間に記憶された
クエリが有るか否かを絶えず確認するクエリ確認部と、
該クエリ確認部が、クエリが記録されたことを確認した
と同時に、クエリの内容を読み出し、当該クエリと一致
する単語群を有する文書を、文書インデックスデータベ
ースから検索する文書インデックス検索部と、該文書イ
ンデックス検索部が検索し、前記ユーザクエリに適合し
た文書情報を抽出した場合、前記共有メモリ空間に当該
文書情報を記録する検索結果記録部とを有する登録クエ
リ処理部と、前記共有メモリ空間に前記検索結果記録部
により記録された文書情報が記録されているか否かを絶
えず確認する検索結果確認部と、該検索結果確認部が、
前記ユーザクエリに対する検索結果として、適切な文書
情報が記述された場合、共有メモリ空間に記録された検
索結果である当該文書情報を読み出し、ユーザに対して
出力する検索結果出力部とを有する検索結果処理部とを
有するので、大量の文書インデックスや大量のユーザク
エリに対してスケーラブルに処理することができる。According to the fourth aspect of the present invention, a user query input unit for inputting a user's query and a user query input by the user query input unit are morphologically analyzed using a morphological analysis dictionary. A query morphological analysis unit that determines words described in the user query and also determines the part of speech, inflected form, etc. of each word, and a query that records a user query morphologically analyzed by the query morphological analysis unit in a shared memory space A user query processing unit having a recording unit, a target document input unit for inputting a document to be processed, and a morphological analysis of the document input by the processing target document input unit using a morphological analysis dictionary. Determine the words of each sentence described and record the words and document names contained in each sentence as a document index in the document index database. A target document processor and a document indexing unit, and the query confirmation unit for confirming the shared memory space constantly whether the stored query is in the,
A document index search unit that reads the contents of the query at the same time that the query confirmation unit confirms that the query has been recorded, and searches a document index database for a document having a word group that matches the query; When the index search unit searches and extracts document information matching the user query, a registered query processing unit having a search result recording unit that records the document information in the shared memory space; and A search result confirmation unit that constantly checks whether or not the document information recorded by the search result recording unit is recorded, and the search result confirmation unit includes:
When appropriate document information is described as a search result for the user query, a search result output unit that reads out the document information, which is the search result recorded in the shared memory space, and outputs it to the user With the processing unit, scalable processing can be performed for a large number of document indexes and a large number of user queries.
【0091】また請求項5に記載の発明によれば、分散
された複数の文書検索装置が共有メモリ空間を共有して
文書検索を行う文書検索システムであって、該文書検索
システムは、前記複数の文書検索装置の各々について異
なる文書インデックスデータが蓄積された文書インデッ
クスデータベースを有し、前記複数の文書検索装置の各
々は、前記共有メモリ空間に記憶されたクエリが有るか
否かを絶えず確認するクエリ確認部と、該クエリ確認部
が、クエリが記録されたことを確認したと同時に、クエ
リの内容を読み出し、当該クエリと一致する単語群を有
する文書を、文書インデックスデータベースから検索す
る文書インデックス検索部と、該文書インデックス検索
部が検索し、前記ユーザクエリに適合した文書情報を抽
出した場合、前記共有メモリ空間に当該文書情報を記録
する検索結果記録部とを有する登録クエリ処理部と、前
記共有メモリ空間に前記検索結果記録部により記録され
た文書情報が記録されているか否かを絶えず確認する検
索結果確認部と、該検索結果確認部が、前記ユーザクエ
リに対する検索結果として、適切な文書情報が記述され
た場合、共有メモリ空間に記録された検索結果である当
該文書情報を読み出し、ユーザに対して出力する検索結
果出力部とを有する検索結果処理部とを有するので、文
書検索システムを構成する各文書検索装置が独立に検索
処理を行い、検索結果を高速に融合することができる。According to the fifth aspect of the present invention, there is provided a document search system in which a plurality of distributed document search devices perform a document search by sharing a shared memory space. Has a document index database in which different document index data is accumulated for each of the document search devices, and each of the plurality of document search devices constantly checks whether or not there is a query stored in the shared memory space. A query confirmation unit, and a document index retrieval unit that reads the contents of the query at the same time that the query confirmation unit confirms that the query has been recorded, and retrieves a document having a word group that matches the query from the document index database. Part, when the document index search unit searches and extracts document information that matches the user query, A registration query processing unit having a search result recording unit for recording the document information in the memory space; and constantly checking whether or not the document information recorded by the search result recording unit is recorded in the shared memory space. When appropriate document information is described as a search result for the user query, the search result check unit and the search result check unit read the document information, which is a search result recorded in the shared memory space, and And a search result processing unit having a search result output unit for outputting the search result, each of the document search apparatuses constituting the document search system can perform the search processing independently, and the search results can be merged at high speed.
【0092】また請求項6に記載の発明によれば、分散
された複数の文書検索装置が共有メモリ空間を共有して
文書検索を行う文書検索システムであって、該文書検索
システムは、前記複数の文書検索装置の各々について同
一の文書インデックスデータが蓄積された文書インデッ
クスデータベースを有し、前記複数の文書検索装置の各
々は、前記共有メモリ空間に記憶されたクエリが有るか
否かを絶えず確認するクエリ確認部と、該クエリ確認部
が、クエリが記録されたことを確認したと同時に、クエ
リの内容を読み出し、当該クエリと一致する単語群を有
する文書を、文書インデックスデータベースから検索す
る文書インデックス検索部と、分散された他の各文書検
索装置が検索結果を前記共有メモリ空間に記録する際
に、他の各文書検索装置における文書インデックス検索
部が検索結果を記録していないのを確認し、かつ記録す
る途中で前記他の各文書検索装置における文書インデッ
クス検索部が検索結果を記録しないようにする検索結果
記録部とを有する登録クエリ処理部と、前記共有メモリ
空間に前記検索結果記録部により記録された文書情報が
記録されているか否かを絶えず確認する検索結果確認部
と、該検索結果確認部が、前記ユーザクエリに対する検
索結果として、適切な文書情報が記述された場合、共有
メモリ空間に記録された検索結果である当該文書情報を
読み出し、ユーザに対して出力する検索結果出力部とを
有する検索結果処理部とを有するので、文書検索システ
ムを構成する各文書検索装置の中で、最も高速に応答す
る検索結果を利用し、最も高速に応答する検索結果を融
合することができる。According to the invention described in claim 6, there is provided a document search system in which a plurality of distributed document search devices perform a document search by sharing a shared memory space. Has a document index database in which the same document index data is accumulated for each of the document search devices, and each of the plurality of document search devices constantly checks whether or not there is a query stored in the shared memory space. And a document index that reads the contents of the query at the same time that the query confirmation unit confirms that the query has been recorded, and searches the document index database for a document having a word group that matches the query. When the search unit and each of the other distributed document search devices record a search result in the shared memory space, each of the other document search devices A search result recording unit that confirms that the document index search unit in the device does not record the search result, and prevents the document index search unit in each of the other document search devices from recording the search result during recording. A search result confirmation unit that constantly checks whether or not the document information recorded by the search result recording unit is recorded in the shared memory space; and the search result confirmation unit includes: A search result output unit that, when appropriate document information is described as a search result for the query, reads the document information that is the search result recorded in the shared memory space and outputs the read document information to the user Of the document search devices that make up the document search system, use the search result that responds the fastest, and respond the fastest. It can be fused to the search result that.
【0093】また請求項7に記載の発明によれば、ユー
ザのクエリを入力し、該入力したユーザクエリを形態素
解析用辞書を用いて形態素解析して該ユーザクエリ中に
記述されている単語を確定し、かつ各単語の品詞、活用
形等を確定すると共に、該形態素解析したクエリを共有
メモリ空間に記録するユーザクエリ処理と、処理対象の
文書を入力し、該入力した文書について形態素解析用辞
書を用いて形態素解析し、文書中に記述されている各文
の単語を確定するとともに、各文中に含まれる単語及び
文書名を各文書のインデックスとして文書インデックス
データベースに記録する対象文書処理と、前記共有メモ
リ空間に記憶されたクエリが有るか否かを絶えず確認
し、前記共有メモリ空間にクエリが記録されたことを確
認したと同時に、前記共有メモリ空間よりクエリの内容
を読み出し、当該クエリと一致する単語群を有する文書
を、前記文書インデックスデータベースから検索し、前
記ユーザクエリに適合した文書情報を抽出した場合、前
記共有メモリ空間に当該文書情報を記録する登録クエリ
処理と、前記共有メモリ空間に前記登録クエリ処理によ
り記録された文書情報が記録されているか否かを絶えず
確認し、前記ユーザクエリに対する検索結果として、適
切な文書情報が記述された場合、前記共有メモリ空間に
記録された検索結果である当該文書情報を読み出し、ユ
ーザに対して出力する検索結果処理とを有することを特
徴とする文書検索方法をコンピュータにより実行させる
ためのプログラムをコンピュータにより読み取り可能な
記録媒体に記録するようにしたので、この記録媒体に記
録されたプログラムをコンピュータシステムに読み込ま
せ、実行することにより、大量の文書インデックスや大
量のユーザクエリに対してスケーラブルに処理すること
ができる。According to the present invention, a user's query is input, and the input user query is subjected to morphological analysis using a morphological analysis dictionary, and words described in the user query are input. User query processing to determine the part of speech, inflected form, etc. of each word, and record the morphologically analyzed query in a shared memory space; input a document to be processed; and perform morphological analysis on the input document. A morphological analysis using a dictionary to determine the words of each sentence described in the document, and a target document process of recording the words and document names included in each sentence as an index of each document in a document index database; It constantly checks whether there is a query stored in the shared memory space, and at the same time confirms that the query has been recorded in the shared memory space, When the content of the query is read from the shared memory space, a document having a word group that matches the query is searched from the document index database, and when the document information matching the user query is extracted, the document is stored in the shared memory space. Registration query processing for recording information, and constantly checking whether or not the document information recorded by the registration query processing is recorded in the shared memory space, and appropriate document information is described as a search result for the user query. And a search result process for reading out the document information, which is a search result recorded in the shared memory space, and outputting the document information to a user. Is recorded on a computer-readable recording medium, To read the recording medium on the recorded program in the computer system by executing, it can be processed scalable for a large number of document index and a large amount of user query.
【0094】また請求項8に記載の発明によれば、分散
された複数の文書検索装置の各々について異なる文書イ
ンデックスが蓄積された文書インデックスデータベース
を有し、前記複数の文書検索装置が共有メモリ空間を共
有して文書検索を行う文書検索システムにおける文書検
索方法であって、前記複数の文書検索装置の各々におい
て、前記共有メモリ空間に記憶されたクエリが有るか否
かを絶えず確認し、前記共有メモリ空間にクエリが記録
されたことを確認したと同時に、前記共有メモリ空間よ
りクエリの内容を読み出し、当該クエリと一致する単語
群を有する文書を、文書インデックスデータベースから
検索し、前記ユーザクエリに適合した文書情報を抽出し
た場合、前記共有メモリ空間に当該文書情報を記録する
登録クエリ処理と、前記共有メモリ空間に前記登録クエ
リ処理により記録された文書情報が記録されているか否
かを絶えず確認し、前記ユーザクエリに対する検索結果
として、適切な文書情報が記述された場合、前記共有メ
モリ空間に記録された検索結果である当該文書情報を読
み出し、ユーザに対して出力する検索結果処理とを有す
ることを特徴とする文書検索システムにおける文書検索
方法をコンピュータにより実行させるためのプログラム
をコンピュータにより読み取り可能な記録媒体に記録す
るようにしたので、この記録媒体に記録されたプログラ
ムをコンピュータシステムに読み込ませ、実行すること
により、文書検索システムを構成する各文書検索装置が
独立に検索処理を行い、検索結果を高速に融合すること
ができる。According to the present invention, a document index database in which different document indexes are stored for each of a plurality of distributed document search devices is provided, and the plurality of document search devices are shared memory space. A document search method in a document search system for performing a document search by sharing a document, wherein each of the plurality of document search devices constantly checks whether or not there is a query stored in the shared memory space. Upon confirming that the query was recorded in the memory space, the content of the query was read from the shared memory space, and a document having a word group matching the query was searched from the document index database, and matched with the user query. Registration query processing for recording the document information in the shared memory space when the extracted document information is extracted, It is constantly checked whether or not the document information recorded by the registration query process is recorded in the shared memory space, and, as a search result for the user query, when appropriate document information is described, the shared memory space is A computer-readable program for causing a computer to execute a document search method in a document search system, comprising: a search result process that reads out the document information that is a recorded search result and outputs the document information to a user. Since the program is recorded on a simple recording medium, the program recorded on this recording medium is read into a computer system and executed, so that each of the document retrieval apparatuses constituting the document retrieval system performs a retrieval process independently and performs retrieval. The results can be fused quickly.
【0095】また 請求項9に記載の発明によれば、分
散された複数の文書検索装置の各々について同一の文書
インデックスが蓄積された文書インデックスデータベー
スを有し、前記複数の文書検索装置が共有メモリ空間を
共有して文書検索を行う文書検索システムにおける文書
検索方法であって、前記複数の文書検索装置の各々にお
いて、前記共有メモリ空間に記憶されたクエリが有るか
否かを絶えず確認し、前記共有メモリ空間にクエリが記
録されたことを確認したと同時に、前記共有メモリ空間
よりクエリの内容を読み出し、当該クエリと一致する単
語群を有する文書を、文書インデックスデータベースか
ら検索し、分散された他の各文書検索装置が検索結果を
前記共有メモリ空間に記録する際に、他の各文書検索装
置が検索結果を記録していないのを確認し、かつ記録す
る途中で前記他の各文書検索装置が検索結果を記録しな
いようにする登録クエリ処理と、前記共有メモリ空間に
前記登録クエリ処理により記録された文書情報が記録さ
れているか否かを絶えず確認し、前記ユーザクエリに対
する検索結果として、適切な文書情報が記述された場
合、前記共有メモリ空間に記録された検索結果である当
該文書情報を読み出し、ユーザに対して出力する検索結
果処理とを有することを特徴とする文書検索システムに
おける文書検索方法をコンピュータにより実行させるた
めのプログラムをコンピュータにより読み取り可能な記
録媒体に記録するようにしたので、この記録媒体に記録
されたプログラムをコンピュータシステムに読み込ま
せ、実行することにより、文書検索システムを構成する
各文書検索装置の中で、最も高速に応答する検索結果を
利用し、最も高速に応答する検索結果を融合することが
できる。According to the ninth aspect of the present invention, there is provided a document index database in which the same document index is stored for each of a plurality of distributed document search devices, and the plurality of document search devices are shared memory. A document search method in a document search system that performs a document search by sharing a space, wherein in each of the plurality of document search devices, constantly checking whether there is a query stored in the shared memory space, At the same time as confirming that the query was recorded in the shared memory space, the contents of the query were read from the shared memory space, and a document having a word group matching the query was searched from the document index database. When each document search device records a search result in the shared memory space, each of the other document search devices records the search result. The registration query process for confirming that the search has not been performed, and for preventing the other document search devices from recording search results during recording, and the document information recorded by the registration query process in the shared memory space. It is constantly checked whether or not it is recorded, and when appropriate document information is described as a search result for the user query, the document information that is the search result recorded in the shared memory space is read out, And a computer-readable recording medium for causing a computer to execute a document search method in the document search system, which has a search result process for outputting the search result. The computer program is loaded into the computer system and executed. The in each document search apparatus constituting, utilizing the search results responsive to the fastest, can be fused to search results responsive to the fastest.
【図1】 本発明の実施の形態に係る文書検索装置の全
体構成を示すブロック図。FIG. 1 is a block diagram showing an overall configuration of a document search device according to an embodiment of the present invention.
【図2】 図1に示した文書検索装置のユーザクエリ処
理部におけるクエリ記録部の処理内容を示すフローチャ
ート。FIG. 2 is a flowchart showing processing contents of a query recording unit in a user query processing unit of the document search device shown in FIG.
【図3】 図1に示した文書検索装置の登録クエリ処理
部A−3の処理内容を示すフローチャート。FIG. 3 is a flowchart showing processing contents of a registration query processing unit A-3 of the document search device shown in FIG. 1;
【図4】 図1に示した文書検索装置の登録クエリ処理
部A−3の処理内容を示すフローチャート。FIG. 4 is a flowchart showing processing contents of a registration query processing unit A-3 of the document search device shown in FIG. 1;
【図5】 図1に示した文書検索装置の検査結果処理部
A−4の内容を示すフローチャート。FIG. 5 is a flowchart showing the contents of an inspection result processing unit A-4 of the document search device shown in FIG. 1;
【図6】 本発明の実施の形態に係る文書検索装置をイ
ンターネットの文書検索システムに適用した実施例の構
成を示すブロック図。FIG. 6 is a block diagram showing a configuration of an example in which the document search device according to the embodiment of the present invention is applied to a document search system on the Internet.
【図7】 図6に示した文書検索システムの共有メモリ
におけるユーザクエリを処理するために設けられた記憶
領域の構成を示す説明図。FIG. 7 is an explanatory diagram showing a configuration of a storage area provided for processing a user query in the shared memory of the document search system shown in FIG. 6;
【図8】 図6に示した文書検索システムのユーザクエ
リ処理部におけるクエリ記録部の具体的処理内容を示す
フローチャート。8 is a flowchart showing specific processing contents of a query recording unit in the user query processing unit of the document search system shown in FIG.
【図9】 図6に示した文書検索システムの登録クエリ
処理部の具体的処理内容を示すフローチャート。FIG. 9 is a flowchart showing specific processing contents of a registration query processing unit of the document search system shown in FIG. 6;
【図10】 図6に示した文書検索システムの登録クエ
リ処理部の具体的処理内容を示すフローチャート。FIG. 10 is a flowchart showing specific processing contents of a registration query processing unit of the document search system shown in FIG. 6;
【図11】 図6に示した文書検索システムの検索結果
処理部の具体的処理内容を示すフローチャート。FIG. 11 is a flowchart showing specific processing contents of a search result processing unit of the document search system shown in FIG. 6;
【図12】 図10における検索結果記録部によるステ
ップ30'の処理の詳細の一例を示すフローチャート。FIG. 12 is a flowchart showing an example of the details of the processing in step 30 ′ by the search result recording unit in FIG. 10;
【図13】 図10における検索結果記録部によるステ
ップ30'の処理の詳細の他の例を示すフローチャー
ト。FIG. 13 is a flowchart showing another example of the details of the processing of step 30 ′ by the search result recording unit in FIG. 10;
【図14】 図13におけるフローAの処理内容を示す
フローチャート。FIG. 14 is a flowchart showing the processing content of a flow A in FIG. 13;
A−1 ユーザクエリ処理部 A−2 対象文書処理部 A−3 登録クエリ処理部 A−4 検索結果処理部 D−1 形態素解析用辞書 D−2 処理対象文書データベース D−3 文書インデックスデータベース S−1 共有メモリ T−1 ユーザクエリ入力部 T−2 ユーザクエリ形態素解析部 T−3 クエリ記録部 T−4 対象文書入力部 T−5 文書インデックス作成部 T−6 クエリ確認部 T−7 文書インデックス検索部 T−8 検索結果記録部 T−9 検索結果確認部 T−10 検索結果出力部 A-1 User query processing unit A-2 Target document processing unit A-3 Registered query processing unit A-4 Search result processing unit D-1 Morphological analysis dictionary D-2 Processing target document database D-3 Document index database S- 1 Shared memory T-1 User query input section T-2 User query morphological analysis section T-3 Query recording section T-4 Target document input section T-5 Document index creation section T-6 Query confirmation section T-7 Document index search Part T-8 Search result recording part T-9 Search result confirmation part T-10 Search result output part
Claims (9)
ーザクエリを形態素解析用辞書を用いて形態素解析して
該ユーザクエリ中に記述されている単語を確定し、かつ
各単語の品詞、活用形等を確定すると共に、該形態素解
析したクエリを共有メモリ空間に記録するユーザクエリ
処理と、 処理対象の文書を入力し、該入力した文書について形態
素解析用辞書を用いて形態素解析し、文書中に記述され
ている各文の単語を確定するとともに、各文中に含まれ
る単語及び文書名を各文書のインデックスとして文書イ
ンデックスデータベースに記録する対象文書処理と、 前記共有メモリ空間に記憶されたクエリが有るか否かを
絶えず確認し、前記共有メモリ空間にクエリが記録され
たことを確認したと同時に、前記共有メモリ空間よりク
エリの内容を読み出し、当該クエリと一致する単語群を
有する文書を、前記文書インデックスデータベースから
検索し、前記ユーザクエリに適合した文書情報を抽出し
た場合、前記共有メモリ空間に当該文書情報を記録する
登録クエリ処理と、 前記共有メモリ空間に前記登録クエリ処理により記録さ
れた文書情報が記録されているか否かを絶えず確認し、
前記ユーザクエリに対する検索結果として、適切な文書
情報が記述された場合、前記共有メモリ空間に記録され
た検索結果である当該文書情報を読み出し、ユーザに対
して出力する検索結果処理と、を有することを特徴とす
る文書検索方法。1. A user query is input, and the input user query is morphologically analyzed using a morphological analysis dictionary to determine words described in the user query. User query processing for determining the shape and the like and recording the morphologically analyzed query in the shared memory space; inputting a document to be processed; morphologically analyzing the input document using a morphological analysis dictionary; The target document processing of determining the words of each sentence described in the above, and recording the words and the document names included in each sentence as an index of each document in a document index database, and a query stored in the shared memory space. Whether or not there is a query, and at the same time confirming that a query has been recorded in the shared memory space, Reading, searching a document having a word group that matches the query from the document index database, and extracting document information suitable for the user query, a registration query process of recording the document information in the shared memory space; and Constantly checking whether the document information recorded by the registration query process is recorded in the shared memory space,
When appropriate document information is described as a search result for the user query, a search result process for reading the document information, which is a search result recorded in the shared memory space, and outputting the read document information to a user. A document search method characterized by the following.
ついて異なる文書インデックスが蓄積された文書インデ
ックスデータベースを有し、前記複数の文書検索装置が
共有メモリ空間を共有して文書検索を行う文書検索シス
テムにおける文書検索方法であって、 前記複数の文書検索装置の各々において、前記共有メモ
リ空間に記憶されたクエリが有るか否かを絶えず確認
し、前記共有メモリ空間にクエリが記録されたことを確
認したと同時に、前記共有メモリ空間よりクエリの内容
を読み出し、当該クエリと一致する単語群を有する文書
を、文書インデックスデータベースから検索し、前記ユ
ーザクエリに適合した文書情報を抽出した場合、前記共
有メモリ空間に当該文書情報を記録する登録クエリ処理
と、 前記共有メモリ空間に前記登録クエリ処理により記録さ
れた文書情報が記録されているか否かを絶えず確認し、
前記ユーザクエリに対する検索結果として、適切な文書
情報が記述された場合、前記共有メモリ空間に記録され
た検索結果である当該文書情報を読み出し、ユーザに対
して出力する検索結果処理と、を有することを特徴とす
る文書検索システムにおける文書検索方法。2. A document search system having a document index database in which different document indexes are stored for each of a plurality of distributed document search devices, wherein the plurality of document search devices share a shared memory space to perform a document search. A document search method in a system, comprising: in each of the plurality of document search devices, constantly checking whether or not there is a query stored in the shared memory space, and confirming that the query is recorded in the shared memory space. At the same time as the confirmation, the content of the query is read from the shared memory space, a document having a word group that matches the query is searched from the document index database, and when the document information matching the user query is extracted, the shared A registration query process for recording the document information in a memory space; and the registration query process in the shared memory space. Constantly check whether the document information recorded is recorded by Li treatment,
When appropriate document information is described as a search result for the user query, a search result process for reading out the document information, which is a search result recorded in the shared memory space, and outputting it to the user. A document search method in a document search system characterized by the following.
ついて同一の文書インデックスデータが蓄積された文書
インデックスデータベースを有し、前記複数の文書検索
装置が共有メモリ空間を共有して文書検索を行う文書検
索システムにおける文書検索方法であって、 前記複数の文書検索装置の各々は、 前記共有メモリ空間に記憶されたクエリが有るか否かを
絶えず確認し、前記共有メモリ空間にクエリが記録され
たことを確認したと同時に、前記共有メモリ空間よりク
エリの内容を読み出し、当該クエリと一致する単語群を
有する文書を、文書インデックスデータベースから検索
し、分散された他の各文書検索装置が検索結果を前記共
有メモリ空間に記録する際に、他の各文書検索装置が検
索結果を記録していないのを確認し、かつ記録する途中
で前記他の各文書検索装置が検索結果を記録しないよう
にする登録クエリ処理と、前記共有メモリ空間に前記登
録クエリ処理により記録された文書情報が記録されてい
るか否かを絶えず確認し、前記ユーザクエリに対する検
索結果として、適切な文書情報が記述された場合、前記
共有メモリ空間に記録された検索結果である当該文書情
報を読み出し、ユーザに対して出力する検索結果処理
と、を有することを特徴とする文書検索システムにおけ
る文書検索方法。3. A document index database in which the same document index data is stored for each of a plurality of distributed document search devices, and the plurality of document search devices perform a document search by sharing a shared memory space. A document search method in a document search system, wherein each of the plurality of document search devices constantly checks whether there is a query stored in the shared memory space, and the query is recorded in the shared memory space. At the same time, the contents of the query are read from the shared memory space, and a document having a word group that matches the query is searched from the document index database. When recording in the shared memory space, confirm that each of the other document retrieval devices has not recorded the retrieval result, and record the document. A registration query process in which each of the other document search devices does not record a search result on the way, and constantly checks whether or not the document information recorded by the registration query process is recorded in the shared memory space, When appropriate document information is described as a search result for the user query, a search result process for reading out the document information, which is a search result recorded in the shared memory space, and outputting it to the user. A document search method in a document search system characterized by the following.
入力部と、該ユーザクエリ入力部が入力したユーザクエ
リを形態素解析用辞書を用いて形態素解析し、該ユーザ
クエリ中に記述されている単語を確定するとともに、各
単語の品詞、活用形等を確定するクエリ形態素解析部
と、該クエリ形態素解析部が形態素解析したユーザクエ
リを共有メモリ空間に記録するクエリ記録部とを有する
ユーザクエリ処理部と、 処理対象の文書を入力する対象文書入力部と、該処理対
象文書入力部が入力した文書を形態素解析用辞書を用い
て形態素解析し、前記文書中に記述されている各文の単
語を確定するとともに、各文中に含まれる単語及び文書
名を文書のインデックスとして文書インデックスデータ
ベースに記録する文書インデックス作成部とを有する対
象文書処理部と、 前記共有メモリ空間に記憶されたクエリが有るか否かを
絶えず確認するクエリ確認部と、該クエリ確認部が、ク
エリが記録されたことを確認したと同時に、クエリの内
容を読み出し、当該クエリと一致する単語群を有する文
書を、文書インデックスデータベースから検索する文書
インデックス検索部と、該文書インデックス検索部が検
索し、前記ユーザクエリに適合した文書情報を抽出した
場合、前記共有メモリ空間に当該文書情報を記録する検
索結果記録部とを有する登録クエリ処理部と、 前記共有メモリ空間に前記検索結果記録部により記録さ
れた文書情報が記録されているか否かを絶えず確認する
検索結果確認部と、該検索結果確認部が、前記ユーザク
エリに対する検索結果として、適切な文書情報が記述さ
れた場合、共有メモリ空間に記録された検索結果である
当該文書情報を読み出し、ユーザに対して出力する検索
結果出力部とを有する検索結果処理部と、を有すること
を特徴とする文書検索装置。4. A user query input unit for inputting a user's query, and a morphological analysis of the user query input by the user query input unit using a morphological analysis dictionary, wherein words described in the user query are input. A query morphological analysis unit that determines the part of speech of each word, the inflected form, etc. A target document input unit for inputting a document to be processed, and a morphological analysis of the document input by the target document input unit using a morphological analysis dictionary to determine words of each sentence described in the document And a document index creation unit that records words and document names included in each sentence as a document index in a document index database. A target document processing unit, a query confirmation unit that constantly confirms whether or not there is a query stored in the shared memory space, and the query confirmation unit confirms that the query has been recorded, And a document index search unit for searching a document having a word group that matches the query from a document index database, and the document index search unit searches and extracts document information matching the user query. A registration query processing unit having a search result recording unit for recording the document information in the shared memory space; and constantly checking whether or not the document information recorded by the search result recording unit is recorded in the shared memory space. A search result confirmation unit, and the search result confirmation unit describes appropriate document information as a search result for the user query. If, share read the document information is a search result stored in the memory space, the document search apparatus characterized by having a retrieval result processing unit and a search result output unit for outputting to the user.
モリ空間を共有して文書検索を行う文書検索システムで
あって、 該文書検索システムは、前記複数の文書検索装置の各々
について異なる文書インデックスが蓄積された文書イン
デックスデータベースを有し、 前記複数の文書検索装置の各々は、 前記共有メモリ空間に記憶されたクエリが有るか否かを
絶えず確認するクエリ確認部と、該クエリ確認部が、ク
エリが記録されたことを確認したと同時に、クエリの内
容を読み出し、当該クエリと一致する単語群を有する文
書を、文書インデックスデータベースから検索する文書
インデックス検索部と、該文書インデックス検索部が検
索し、前記ユーザクエリに適合した文書情報を抽出した
場合、前記共有メモリ空間に当該文書情報を記録する検
索結果記録部とを有する登録クエリ処理部と、 前記共有メモリ空間に前記検索結果記録部により記録さ
れた文書情報が記録されているか否かを絶えず確認する
検索結果確認部と、該検索結果確認部が、前記ユーザク
エリに対する検索結果として、適切な文書情報が記述さ
れた場合、共有メモリ空間に記録された検索結果である
当該文書情報を読み出し、ユーザに対して出力する検索
結果出力部とを有する検索結果処理部と、 を有することを特徴とする文書検索システム。5. A document search system in which a plurality of distributed document search devices share a shared memory space to perform a document search, wherein the document search system has a different document index for each of the plurality of document search devices. Has a document index database stored, each of the plurality of document search devices, a query confirmation unit that constantly confirms whether there is a query stored in the shared memory space, and the query confirmation unit, At the same time as confirming that the query has been recorded, the content of the query is read, and a document index search unit that searches the document index database for a document having a word group that matches the query is searched by the document index database. If document information matching the user query is extracted, the document information is recorded in the shared memory space. A registration query processing unit having a search result recording unit; a search result confirmation unit that constantly checks whether or not the document information recorded by the search result recording unit is recorded in the shared memory space; and a search result confirmation unit. A search result output unit that reads out the relevant document information, which is the search result recorded in the shared memory space, when the appropriate document information is described as the search result with respect to the user query, and outputs the read document information to the user. A document retrieval system comprising: a search result processing unit having:
モリ空間を共有して文書検索を行う文書検索システムで
あって、 該文書検索システムは、前記複数の文書検索装置の各々
について同一の文書インデックスが蓄積された文書イン
デックスデータベースを有し、 前記複数の文書検索装置の各々は、 前記共有メモリ空間に記憶されたクエリが有るか否かを
絶えず確認するクエリ確認部と、該クエリ確認部が、ク
エリが記録されたことを確認したと同時に、クエリの内
容を読み出し、当該クエリと一致する単語群を有する文
書を、文書インデックスデータベースから検索する文書
インデックス検索部と、分散された他の各文書検索装置
が検索結果を前記共有メモリ空間に記録する際に、他の
各文書検索装置における文書インデックス検索部が検索
結果を記録していないのを確認し、かつ記録する途中で
前記他の各文書検索装置における文書インデックス検索
部が検索結果を記録しないようにする検索結果記録部と
を有する登録クエリ処理部と、前記共有メモリ空間に前
記検索結果記録部により記録された文書情報が記録され
ているか否かを絶えず確認する検索結果確認部と、該検
索結果確認部が、前記ユーザクエリに対する検索結果と
して、適切な文書情報が記述された場合、共有メモリ空
間に記録された検索結果である当該文書情報を読み出
し、ユーザに対して出力する検索結果出力部とを有する
検索結果処理部と、 を有することを特徴とする文書検索システム。6. A document search system in which a plurality of distributed document search devices share a shared memory space to perform a document search, wherein the document search system includes the same document for each of the plurality of document search devices. A document index database in which an index is stored, each of the plurality of document search devices includes: a query confirmation unit that constantly confirms whether or not there is a query stored in the shared memory space; And a document index search unit that reads the contents of the query at the same time that the query is recorded and searches for a document having a word group that matches the query from the document index database, and other distributed documents. When the search device records the search result in the shared memory space, the document index search unit in each of the other document search devices performs the search. A registered query processing unit having a search result recording unit for confirming that the search result is not recorded, and a document index search unit in each of the other document search devices not recording a search result during recording; A search result checking unit that constantly checks whether or not the document information recorded by the search result recording unit is recorded in the shared memory space; and And a search result processing unit having a search result output unit that reads out the document information, which is a search result recorded in the shared memory space, and outputs the document information to the user when the document information is described. Document search system.
ーザクエリを形態素解析用辞書を用いて形態素解析して
該ユーザクエリ中に記述されている単語を確定し、かつ
各単語の品詞、活用形等を確定すると共に、該形態素解
析したクエリを共有メモリ空間に記録するユーザクエリ
処理と、 処理対象の文書を入力し、該入力した文書について形態
素解析用辞書を用いて形態素解析し、文書中に記述され
ている各文の単語を確定するとともに、各文中に含まれ
る単語及び文書名を各文書のインデックスとして文書イ
ンデックスデータベースに記録する対象文書処理と、 前記共有メモリ空間に記憶されたクエリが有るか否かを
絶えず確認し、前記共有メモリ空間にクエリが記録され
たことを確認したと同時に、前記共有メモリ空間よりク
エリの内容を読み出し、当該クエリと一致する単語群を
有する文書を、前記文書インデックスデータベースから
検索し、前記ユーザクエリに適合した文書情報を抽出し
た場合、前記共有メモリ空間に当該文書情報を記録する
登録クエリ処理と、 前記共有メモリ空間に前記登録クエリ処理により記録さ
れた文書情報が記録されているか否かを絶えず確認し、
前記ユーザクエリに対する検索結果として、適切な文書
情報が記述された場合、前記共有メモリ空間に記録され
た検索結果である当該文書情報を読み出し、ユーザに対
して出力する検索結果処理と、を有することを特徴とす
る文書検索方法をコンピュータにより実行させるための
プログラムを記録したコンピュータにより読み取り可能
な記録媒体。7. A user query is input, and the input user query is morphologically analyzed using a morphological analysis dictionary to determine words described in the user query. A user query process for determining the shape and the like and recording the morphologically analyzed query in a shared memory space; inputting a document to be processed; morphologically analyzing the input document using a morphological analysis dictionary; The target document processing of determining the word of each sentence described in the above, and recording the words and the document names included in each sentence as an index of each document in the document index database, and the query stored in the shared memory space Whether or not there is a query, and at the same time confirming that a query has been recorded in the shared memory space, Reading, searching a document having a word group that matches the query from the document index database, and extracting document information suitable for the user query, a registration query process of recording the document information in the shared memory space; and Constantly checking whether the document information recorded by the registration query process is recorded in the shared memory space,
When appropriate document information is described as a search result for the user query, a search result process for reading out the document information, which is a search result recorded in the shared memory space, and outputting it to the user. A computer-readable recording medium that stores a program for causing a computer to execute the document search method characterized by the following.
ついて異なる文書インデックスが蓄積された文書インデ
ックスデータベースを有し、前記複数の文書検索装置が
共有メモリ空間を共有して文書検索を行う文書検索シス
テムにおける文書検索方法であって、 前記複数の文書検索装置の各々において、 前記共有メモリ空間に記憶されたクエリが有るか否かを
絶えず確認し、前記共有メモリ空間にクエリが記録され
たことを確認したと同時に、前記共有メモリ空間よりク
エリの内容を読み出し、当該クエリと一致する単語群を
有する文書を、文書インデックスデータベースから検索
し、前記ユーザクエリに適合した文書情報を抽出した場
合、前記共有メモリ空間に当該文書情報を記録する登録
クエリ処理と、 前記共有メモリ空間に前記登録クエリ処理により記録さ
れた文書情報が記録されているか否かを絶えず確認し、
前記ユーザクエリに対する検索結果として、適切な文書
情報が記述された場合、前記共有メモリ空間に記録され
た検索結果である当該文書情報を読み出し、ユーザに対
して出力する検索結果処理と、を有することを特徴とす
る文書検索システムにおける文書検索方法をコンピュー
タにより実行させるためのプログラムを記録したコンピ
ュータにより読み取り可能な記録媒体。8. A document search apparatus having a document index database in which different document indexes are stored for each of a plurality of distributed document search apparatuses, wherein the plurality of document search apparatuses share a shared memory space to perform a document search. A document search method in a system, wherein in each of the plurality of document search devices, it is constantly checked whether or not there is a query stored in the shared memory space, and a query is recorded in the shared memory space. At the same time as the confirmation, the content of the query is read from the shared memory space, a document having a word group that matches the query is searched from the document index database, and when the document information matching the user query is extracted, the shared A registration query process for recording the document information in a memory space; and the registration query process in the shared memory space. Always check whether the document information recorded by Eri processing is recorded,
When appropriate document information is described as a search result for the user query, a search result process for reading out the document information, which is a search result recorded in the shared memory space, and outputting it to the user. A computer-readable recording medium on which a program for causing a computer to execute a document search method in a document search system is recorded.
ついて同一の文書インデックスが蓄積された文書インデ
ックスデータベースを有し、前記複数の文書検索装置が
共有メモリ空間を共有して文書検索を行う文書検索シス
テムにおける文書検索方法であって、 前記複数の文書検索装置の各々において、 前記共有メモリ空間に記憶されたクエリが有るか否かを
絶えず確認し、前記共有メモリ空間にクエリが記録され
たことを確認したと同時に、前記共有メモリ空間よりク
エリの内容を読み出し、当該クエリと一致する単語群を
有する文書を、文書インデックスデータベースから検索
し、分散された他の各文書検索装置が検索結果を前記共
有メモリ空間に記録する際に、他の各文書検索装置が検
索結果を記録していないのを確認し、かつ記録する途中
で前記他の各文書検索装置が検索結果を記録しないよう
にする登録クエリ処理と、 前記共有メモリ空間に前記登録クエリ処理により記録さ
れた文書情報が記録されているか否かを絶えず確認し、
前記ユーザクエリに対する検索結果として、適切な文書
情報が記述された場合、前記共有メモリ空間に記録され
た検索結果である当該文書情報を読み出し、ユーザに対
して出力する検索結果処理と、 を有することを特徴とする文書検索システムにおける文
書検索方法をコンピュータにより実行させるためのプロ
グラムを記録したコンピュータにより読み取り可能な記
録媒体。9. A document which has a document index database in which the same document index is stored for each of a plurality of distributed document search devices, and wherein the plurality of document search devices perform a document search by sharing a shared memory space. A document search method in a search system, wherein each of the plurality of document search devices constantly checks whether or not there is a query stored in the shared memory space, and the query is recorded in the shared memory space. At the same time, the contents of the query are read from the shared memory space, a document having a word group that matches the query is searched for from the document index database, and each of the other distributed document search devices outputs the search result as the above. When recording in the shared memory space, confirm that each of the other document retrieval devices has not recorded the retrieval result, and record it. A registration query processing course by the other of each document search apparatus is prevented from recording a search result, the constantly check whether the document information recorded is recorded by the registration query processing in the shared memory space,
When appropriate document information is described as a search result for the user query, a search result process of reading the document information, which is a search result recorded in the shared memory space, and outputting the read document information to a user. A computer-readable recording medium on which a program for causing a computer to execute a document search method in a document search system is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11145678A JP2000339323A (en) | 1999-05-25 | 1999-05-25 | Method, device and system for retrieving document and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11145678A JP2000339323A (en) | 1999-05-25 | 1999-05-25 | Method, device and system for retrieving document and recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000339323A true JP2000339323A (en) | 2000-12-08 |
Family
ID=15390568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11145678A Pending JP2000339323A (en) | 1999-05-25 | 1999-05-25 | Method, device and system for retrieving document and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000339323A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009032292A (en) * | 2008-11-10 | 2009-02-12 | Nec Corp | Document retrieval device, retrieval method, and program |
JP2009122902A (en) * | 2007-11-14 | 2009-06-04 | Rakuten Inc | Information processor and method, program, and recording medium |
JP2011526016A (en) * | 2008-06-18 | 2011-09-29 | クゥアルコム・インコーポレイテッド | Monetizing and prioritizing distributed search results |
JP2013127798A (en) * | 2008-06-18 | 2013-06-27 | Qualcomm Inc | User interfaces for service object located in distributed system |
US8930531B2 (en) | 2008-06-18 | 2015-01-06 | Qualcomm Incorporated | Persistent personal messaging in a distributed system |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03172966A (en) * | 1989-12-01 | 1991-07-26 | Nippon Telegr & Teleph Corp <Ntt> | Similar document retrieving device |
JPH05313985A (en) * | 1992-05-08 | 1993-11-26 | Mitsubishi Electric Corp | Distributed data base processing system |
-
1999
- 1999-05-25 JP JP11145678A patent/JP2000339323A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03172966A (en) * | 1989-12-01 | 1991-07-26 | Nippon Telegr & Teleph Corp <Ntt> | Similar document retrieving device |
JPH05313985A (en) * | 1992-05-08 | 1993-11-26 | Mitsubishi Electric Corp | Distributed data base processing system |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009122902A (en) * | 2007-11-14 | 2009-06-04 | Rakuten Inc | Information processor and method, program, and recording medium |
JP2011526016A (en) * | 2008-06-18 | 2011-09-29 | クゥアルコム・インコーポレイテッド | Monetizing and prioritizing distributed search results |
JP2013127798A (en) * | 2008-06-18 | 2013-06-27 | Qualcomm Inc | User interfaces for service object located in distributed system |
US8930531B2 (en) | 2008-06-18 | 2015-01-06 | Qualcomm Incorporated | Persistent personal messaging in a distributed system |
JP2009032292A (en) * | 2008-11-10 | 2009-02-12 | Nec Corp | Document retrieval device, retrieval method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101721338B1 (en) | Search engine and implementation method thereof | |
US9652483B1 (en) | Index server architecture using tiered and sharded phrase posting lists | |
KR101201037B1 (en) | Verifying relevance between keywords and web site contents | |
US5099426A (en) | Method for use of morphological information to cross reference keywords used for information retrieval | |
US8914720B2 (en) | Method and system for constructing a document redundancy graph | |
US20120166414A1 (en) | Systems and methods for relevance scoring | |
KR100672277B1 (en) | Personalized Search Method Using Cookie Information And System For Enabling The Method | |
CN107967290A (en) | A kind of knowledge mapping network establishing method and system, medium based on magnanimity scientific research data | |
CN109657053B (en) | Multi-text abstract generation method, device, server and storage medium | |
JPH10198680A (en) | Distributed dictionary managing method and machine translating method using the method | |
JP2001509293A (en) | Information retrieval | |
JP2010506247A (en) | Network-based method and apparatus for filtering junk information | |
US9940355B2 (en) | Providing answers to questions having both rankable and probabilistic components | |
US20040015485A1 (en) | Method and apparatus for improved internet searching | |
CN109063184A (en) | Multilingual newsletter archive clustering method, storage medium and terminal device | |
CN113342923A (en) | Data query method and device, electronic equipment and readable storage medium | |
JP5226241B2 (en) | How to add tags | |
US9886446B1 (en) | Inverted index for text searching within deduplication backup system | |
US11222165B1 (en) | Sliding window to detect entities in corpus using natural language processing | |
JP2000339323A (en) | Method, device and system for retrieving document and recording medium | |
JPH0944523A (en) | Relative word display device | |
US20020062341A1 (en) | Interested article serving system and interested article serving method | |
JPH10254888A (en) | Information processor and its method | |
Jian et al. | Based on automatic correlation keyword grouping and combination based deep information search corresponding to specific language big data—Case of leisure recreation | |
JPH08190571A (en) | Document retrieval method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041116 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050524 |