JP2005108158A - Document retrieval apparatus and method, and program for same - Google Patents
Document retrieval apparatus and method, and program for same Download PDFInfo
- Publication number
- JP2005108158A JP2005108158A JP2003344448A JP2003344448A JP2005108158A JP 2005108158 A JP2005108158 A JP 2005108158A JP 2003344448 A JP2003344448 A JP 2003344448A JP 2003344448 A JP2003344448 A JP 2003344448A JP 2005108158 A JP2005108158 A JP 2005108158A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- paragraph
- condition data
- search target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、複数の検索対象文書の中からサンプル文書に似た文書を検索する為の文書検索装置及び文書検索方法ならびにそのプログラムに関する。 The present invention relates to a document search apparatus, a document search method, and a program for searching for a document similar to a sample document from a plurality of search target documents.
従来、様々な文書検索の方法が開発、提案されている。そして、ユーザの希望しない検索結果が出力されてしまうといった、文書検索における不具合(以降、検索ノイズという)を減少させる技術として、例えば、大量の文書の中からユーザが望む文書を検索する装置において、章や節や段落などの文書要素によって構造化できる検索対象の文書を検索する際に、まずユーザから検索の条件を受付けて、その検索条件に基づいて文書中の文書要素を指定し、当該指定した文書要素を含む文書を検索結果として出力する技術が存在する(例えば、特許文献1参照)。
しかしながら、上述の技術においては、検索対象の文書が構造化できない場合には検索結果を得ることができないので、構造化できる文書に限られてしまう。また、近年の情報化によって、大量の文書がデータ化されて大量に蓄積されているので、その大量の検索対象の文書の中からユーザの希望する文書を精度良く検索できる文書検索装置の開発が望まれている。
そこでこの発明は、構造化できない文書を検索することができ、また従来にはない新しい検索方法を用いた文書検索装置を提供することを目的としている。
However, in the above-described technique, if a search target document cannot be structured, a search result cannot be obtained. In addition, because of the recent computerization, a large amount of documents are converted into data and accumulated in large quantities. Therefore, a document retrieval apparatus that can accurately retrieve a document desired by a user from among a large amount of documents to be retrieved has been developed. It is desired.
SUMMARY OF THE INVENTION An object of the present invention is to provide a document search apparatus that can search for a document that cannot be structured, and that uses a new search method that has not existed before.
本発明は、上述の課題を解決すべくなされたもので、複数の検索対象文書の中からサンプル文書に似ている検索対象文書を検索する文書検索装置であって、前記複数の検索対象文書から抽出した複数の代表検索対象文書についてそれぞれ段落分けする第1の段落分け手段と、前記代表検索対象文書それぞれの段落分けに基づいて、前記代表検索対象文書それぞれの文書構造を分類する文書構造分類手段と、前記分類された前記文書構造の情報を前記文書構造の種類毎に複数記憶する文書構造記憶手段と、前記サンプル文書を段落分けする第2の段落分け手段と、前記サンプル文書の段落分けの結果と前記文書構造記憶手段で記憶している前記文書構造の情報とに基づいて、前記サンプル文書の文書構造の種類を検出するサンプル文書構造検出手段と、前記複数の検索対象文書うちの任意の検索対象文書について段落分けする第3の段落分け手段と、前記第3の段落分け手段による段落分けの結果と前記文書構造記憶手段で記憶している前記文書構造の情報とに基づいて、前記任意の検索対象文書の文書構造の種類を検出する検索対象文書構造検出手段と、前記サンプル文書の文書構造の種類と同じ文書構造の種類となる前記任意の検索対象文書を前記サンプル文書に似ている検索対象文書とする検索対象用文書決定手段とを備えることを特徴とする文書検索装置である。 The present invention has been made to solve the above-described problem, and is a document search apparatus for searching for a search target document similar to a sample document from a plurality of search target documents. First paragraph dividing means for dividing each of the plurality of representative search target documents, and document structure classification means for classifying the document structure of each representative search target document based on the respective paragraph divisions of the representative search target documents Document structure storage means for storing a plurality of classified document structure information for each type of document structure, second paragraph dividing means for dividing the sample document, and paragraphing of the sample document Sample document structure detection for detecting the document structure type of the sample document based on the result and the document structure information stored in the document structure storage means A third paragraph dividing means for dividing an arbitrary search target document among the plurality of search target documents, a result of the paragraph division by the third paragraph dividing means, and the document structure storage means; A search target document structure detecting means for detecting a document structure type of the arbitrary search target document based on the document structure information, and the document structure type being the same as the document structure type of the sample document A document search apparatus comprising: a search target document determination unit that sets an arbitrary search target document as a search target document similar to the sample document.
本発明によれば、第1の段落分け手段が複数の検索対象文書から抽出した複数の代表検索対象文書についてそれぞれ段落分けし、文書構造分類手段が代表検索対象文書それぞれの段落分けに基づいて、代表検索対象文書それぞれの文書構造を分類する。また第2の段落分け手段がサンプル文書を段落分けし、サンプル文書構造検出手段がサンプル文書の段落分けの結果と文書構造記憶手段で記憶している文書構造の情報とに基づいて、サンプル文書の文書構造の種類を検出する。そして、第3の段落分け手段が複数の検索対象文書うちの任意の検索対象文書について段落分けし、検索対象文書構造検出手段が第3の段落分け手段による段落分けの結果と文書構造記憶手段で記憶している文書構造の情報とに基づいて、任意の検索対象文書の文書構造の種類を検出し、さらに索対象用文書決定手段がサンプル文書の文書構造の種類と同じ文書構造の種類となる任意の検索対象文書をサンプル文書に似ている検索対象文書とする。これにより、段落分けと段落種類の決定を行なってサンプル文書や検索対象文書の文書構造を把握するので、どのような文書についてもその文書構造を特定できる。またサンプル文書と文章構造が一致する検索対象文書であって、さらにサンプル文書中の検索内容記載段落と段落位置が同じでかつ検索内容記載段落に記載されているキーワードが含まれる段落を保持している検索対象文書が検索結果として出力されるという新しい手法の文書検索装置を提供することができる。そして、この文書検索装置では、サンプル文書を複数用意すれば検索条件データが複数作成されるので、文書構造と検索内容記載段落とキーワードの組み合わせのパターンを複数利用して精度の良い文書検索ができる。 According to the present invention, the first paragraph dividing unit divides each of the plurality of representative search target documents extracted from the plurality of search target documents, and the document structure classification unit determines the paragraph based on each of the representative search target documents. The document structure of each representative search target document is classified. The second paragraph dividing unit divides the sample document into paragraphs, and the sample document structure detecting unit extracts the sample document based on the result of the paragraph division of the sample document and the document structure information stored in the document structure storage unit. Detect the type of document structure. Then, the third paragraph division means divides a paragraph for an arbitrary search target document among the plurality of search target documents, and the search target document structure detection means uses the result of the paragraph division by the third paragraph division means and the document structure storage means. Based on the stored document structure information, the type of the document structure of an arbitrary search target document is detected, and the search target document determination means has the same document structure type as that of the sample document. An arbitrary search target document is set as a search target document similar to the sample document. Thereby, the paragraph structure and the paragraph type are determined to grasp the document structure of the sample document or the search target document, so that the document structure can be specified for any document. In addition, a search target document having the same sentence structure as the sample document, and a paragraph containing the keyword described in the search content description paragraph and having the same paragraph position as the search content description paragraph in the sample document are retained. It is possible to provide a document search apparatus of a new technique in which a search target document is output as a search result. In this document search apparatus, if a plurality of sample documents are prepared, a plurality of search condition data are created. Therefore, a document search with high accuracy can be performed by using a plurality of combinations of document structure, search content description paragraphs, and keywords. .
本発明は、上述の課題を解決すべくなされたもので、複数の検索対象文書の中からサンプル文書に似ている検索対象文書を検索する文書検索装置であって、前記複数の検索対象文書から所定の割合で抽出した複数の代表検索対象文書についてそれぞれ段落分けする第1の段落分け手段と、前記代表検索対象文書それぞれの段落分けに基づいて、前記代表検索対象文書それぞれの文書構造を分類する文書構造分類手段と、前記分類された前記文書構造の情報を前記文書構造の種類毎に複数記憶する文書構造記憶手段と、前記サンプル文書を段落分けする第2の段落分け手段と、前記サンプル文書の段落分けの結果と前記文書構造記憶手段で記憶している前記文書構造の情報とに基づいて、前記サンプル文書の文書構造の種類を検出するサンプル文書構造検出手段と、前記サンプル文書中において前記ユーザが指定した検索内容記載段落の段落位置と前記検索内容記載段落中に含まれるキーワードと前記検索内容記載段落中の記載内容を示す段落種類と前記サンプル文書の文書構造の種類とを保持する検索条件データを作成する検索条件データ作成手段と、前記検索条件データを記憶する検索条件データ記憶手段と、前記複数の検索対象文書うちの任意の検索対象文書について段落分けする第3の段落分け手段と、前記第3の段落分け手段による段落分けの結果と前記文書構造記憶手段で記憶している前記文書構造の情報とに基づいて、前記任意の検索対象文書の文書構造の種類を検出する検索対象文書構造検出手段と、前記任意の検索対象文書の文書構造の種類を保持する前記検索条件データが前記検索条件データ記憶手段に記録されている場合に、その前記検索条件データを前記検索条件データ記憶手段から読み取る検索条件データ読み取り手段と、その読み取った検索条件データに保持される前記検索内容記載段落の位置と前記段落種類とに基づいて、前記任意の検索対象文書中における検索判定用段落を特定する段落特定手段と、前記検索条件データ読み取り手段で読み取った前記検索条件データの保持するキーワードを用いて前記検索内容記載段落の全文検索を行ない、その全文検索の結果に基づいて前記任意の検索対象文書を検索結果として出力するか否かを判定する検索手段とを備えることを特徴とする文書検索装置である。 The present invention has been made to solve the above-described problem, and is a document search apparatus for searching for a search target document similar to a sample document from a plurality of search target documents. Based on the first paragraph division means for dividing each of the plurality of representative search target documents extracted at a predetermined ratio and the respective paragraph divisions of the representative search target documents, the document structure of each of the representative search target documents is classified. Document structure classification means, document structure storage means for storing a plurality of classified document structure information for each type of document structure, second paragraph division means for dividing the sample document into paragraphs, and the sample document For detecting the document structure type of the sample document based on the result of the paragraphing of the document and the document structure information stored in the document structure storage means A document structure detection unit, a paragraph position of a search content description paragraph specified by the user in the sample document, a keyword included in the search content description paragraph, a paragraph type indicating the description content in the search content description paragraph, and Search condition data creation means for creating search condition data that holds the type of document structure of the sample document, search condition data storage means for storing the search condition data, and any search target among the plurality of search target documents Based on the third paragraph division means for dividing the document into paragraphs, the result of the paragraph division by the third paragraph division means, and the information on the document structure stored in the document structure storage means, the arbitrary search Search target document structure detecting means for detecting the document structure type of the target document, and the search condition holding the document structure type of the arbitrary search target document When data is recorded in the search condition data storage means, search condition data reading means for reading the search condition data from the search condition data storage means, and the search contents held in the read search condition data Based on the position of the described paragraph and the paragraph type, a paragraph specifying means for specifying a search determination paragraph in the arbitrary search target document, and a keyword held in the search condition data read by the search condition data reading means And a search means for performing a full-text search of the paragraph containing the search content and determining whether to output the arbitrary search target document as a search result based on a result of the full-text search. A document retrieval apparatus.
本発明によれば、複数の検索対象文書から所定の割合で抽出した複数の代表検索対象文書についてそれぞれ段落分けし、この段落分けに基づいて、代表検索対象文書それぞれの文書構造を分類して、文書構造の情報を文書構造の種類毎に文書構造記憶手段に記録する。ここで代表検索対象文書の複数の検索対象文書から抽出の割合は、複数の検索対象文書のいずれかの文書の内容と同類の内容の文書を、確率的に1つは特定できるだけの割合である。従って、文書構造記憶手段に記録される文書構造の情報は、複数の検索対象文書のいずれかの文書構造を示すものとなる。そして、サンプル文書を段落分けし、サンプル文書の文書構造の種類を検出する。またサンプル文書中においてユーザが指定した検索内容記載段落の段落位置と検索内容記載段落中に含まれるキーワードと検索内容記載段落中の記載内容を示す段落種類とサンプル文書の文書構造の種類とを保持する検索条件データを作成する。さらに検索の過程において、複数の検索対象文書うちの任意の検索対象文書を段落分けし、その任意の検索対象文書の文書構造の種類を検出する。そして、その検索対象文書の文書構造の種類を保持する前記検索条件データが前記検索条件データ記憶手段に記録されている場合に、その前記検索条件データを前記検索条件データ記憶手段から読み取り、その読み取った検索条件データに保持される検索内容記載段落の位置と段落種類とに基づいて、前記任意の検索対象文書中における検索判定用段落を特定する。つまり、サンプル文書の文書構造と一致し、かつサンプル文書の検索内容記載段落の位置と同じ段落位置の検索対象文書中の段落が検索内容記載段落の段落種類と一致する場合に、その検索対象文書中の段落を検索判定用段落と特定する。そして、検索条件データの保持するキーワードを用いて検索内容記載段落の全文検索を行ない、その全文検索の結果に基づいて検索対象文書を検索結果として出力する。これにより、段落分けと段落種類の決定を行なってサンプル文書や検索対象文書の文書構造を把握するので、どのような文書についてもその文書構造を特定できる。またサンプル文書と文章構造が一致する検索対象文書であって、さらにサンプル文書中の検索内容記載段落と段落位置が同じでかつ検索内容記載段落に記載されているキーワードが含まれる段落を保持している検索対象文書が検索結果として出力されるという新しい手法の文書検索装置を提供することができる。そして、この文書検索装置では、サンプル文書を複数用意すれば検索条件データが複数作成されるので、文書構造と検索内容記載段落とキーワードの組み合わせのパターンを複数利用して精度の良い文書検索ができる。 According to the present invention, each of the plurality of representative search target documents extracted from the plurality of search target documents at a predetermined ratio is divided into paragraphs, and based on this paragraph division, the document structure of each representative search target document is classified, Document structure information is recorded in the document structure storage means for each type of document structure. Here, the ratio of extraction from the plurality of search target documents of the representative search target document is such that one of the plurality of search target documents has the same content as the contents of any one of the plurality of search target documents. . Therefore, the document structure information recorded in the document structure storage means indicates one of the plurality of search target documents. Then, the sample document is divided into paragraphs, and the type of document structure of the sample document is detected. Also holds the paragraph position of the search content description paragraph specified by the user in the sample document, the keywords contained in the search content description paragraph, the paragraph type indicating the description content in the search content description paragraph, and the document structure type of the sample document Create search condition data. Further, in the search process, an arbitrary search target document among a plurality of search target documents is divided into paragraphs, and the type of document structure of the arbitrary search target document is detected. Then, when the search condition data holding the type of document structure of the search target document is recorded in the search condition data storage means, the search condition data is read from the search condition data storage means and read. Based on the position and paragraph type of the search content description paragraph held in the search condition data, the search determination paragraph in the arbitrary search target document is specified. In other words, if the paragraph in the search target document that matches the document structure of the sample document and the same paragraph position as the search content description paragraph of the sample document matches the paragraph type of the search content description paragraph, that search target document The paragraph inside is specified as the paragraph for search judgment. Then, a full text search is performed on the search content description paragraph using a keyword held in the search condition data, and a search target document is output as a search result based on the result of the full text search. Thereby, the paragraph structure and the paragraph type are determined to grasp the document structure of the sample document or the search target document, so that the document structure can be specified for any document. In addition, a search target document having the same sentence structure as the sample document, and a paragraph containing the keyword described in the search content description paragraph and having the same paragraph position as the search content description paragraph in the sample document are retained. It is possible to provide a document search apparatus of a new technique in which a search target document is output as a search result. In this document search apparatus, if a plurality of sample documents are prepared, a plurality of search condition data are created. Therefore, a document search with high accuracy can be performed by using a plurality of combinations of document structure, search content description paragraphs, and keywords. .
また本発明は、キーワードが前記検索内容記載段落中の文章を形態素解析して得られた所定の品詞の単語である。これにより、ユーザが検索内容記載段落を指定すればキーワードが自動で作成されるので、検索内容記載段落の記載内容と似ている段落を保持する検索対象文書の全文検索を行なう際にユーザがいちいちキーワードを入力する必要が無く、ユーザの労力を軽減することができる。 According to the present invention, the keyword is a word having a predetermined part of speech obtained by morphological analysis of the sentence in the search content description paragraph. As a result, since the keyword is automatically created when the user specifies a search content description paragraph, the user is required to perform a full text search of a search target document having a paragraph similar to the description content of the search content description paragraph. There is no need to input a keyword, and the user's labor can be reduced.
また本発明は、前記検索内容記載段落中のキーワードを用いた代表検索対象文書の全文検索の結果に基づいて、代表検索対象文書においてキーワードが含まれるキーワード包含段落を決定し、代表検索対象文書の文書構造の種類とキーワード包含段落の代表検索対象文書における段落位置との組み合わせと、検索条件データ記録手段で記憶している検索条件データの保持する文書構造の種類と検索内容記載段落の段落位置との組み合わせの比較に基づいて、キーワード包含段落を保持する代表検索対象文書を新しいサンプル文書の候補として決定する。そして、その候補からユーザに指定された文書を新サンプル文書とする。これにより、ユーザが予め指定したサンプル文書以外にも新サンプル文書についての検索条件データを文書検索装置が作成すれば、より詳細な検索を行なうことができる。 Further, the present invention determines a keyword inclusion paragraph including a keyword in the representative search target document based on a result of full text search of the representative search target document using the keyword in the search content description paragraph, The combination of the type of document structure and the paragraph position in the representative search target document of the keyword inclusion paragraph, the type of document structure held in the search condition data stored in the search condition data recording means, and the paragraph position of the paragraph describing the search content Based on the comparison of the combinations, the representative search target document holding the keyword inclusion paragraph is determined as a candidate for a new sample document. Then, a document designated by the user from the candidates is set as a new sample document. Accordingly, if the document search device creates search condition data for a new sample document other than the sample document designated in advance by the user, a more detailed search can be performed.
また本発明は、サンプル文書または代表検索対象文書いずれかの文書における各行の行種類を当該行における記載内容に基づいて決定し、行種類に基づいてサンプル文書または代表検索対象文書いずれかの文書における段落先頭位置を決定する。そして、サンプル文書または代表検索対象文書いずれかの文書において、段落先頭位置の行から次の段落先頭位置の行の前の行までを1つの段落と決定し、段落種類を、段落に含まれる行の行種類に基づいて決定する。これにより、段落分けした各段落の種類を決定することができる。 Further, the present invention determines the line type of each line in either the sample document or the representative search target document based on the description content in the line, and determines whether the sample document or the representative search target document is based on the line type. Determine the paragraph start position. Then, in either the sample document or the representative search target document, the line from the line at the beginning of the paragraph to the line before the line at the beginning of the next paragraph is determined as one paragraph, and the paragraph type is the line included in the paragraph. Determine based on the row type. Thereby, the kind of each paragraph divided into paragraphs can be determined.
また本発明は、複数の検索対象文書の中からサンプル文書に似ている検索対象文書を検索する文書検索装置の文書検索方法であって、前記複数の検索対象文書から所定の割合で抽出した複数の代表検索対象文書についてそれぞれ段落分けする第1の段落分け過程と、前記代表検索対象文書それぞれの段落分けに基づいて、前記代表検索対象文書それぞれの文書構造を分類する文書構造分類過程と、前記分類された前記文書構造の情報を前記文書構造の種類毎に文書構造記憶手段に記録する文書構造記録過程と、前記サンプル文書を段落分けする第2の段落分け過程と、前記サンプル文書の段落分けの結果と前記文書構造記憶手段で記憶している前記文書構造の情報とに基づいて、前記サンプル文書の文書構造の種類を検出するサンプル文書構造検出過程と、前記サンプル文書中において前記ユーザが指定した検索内容記載段落の段落位置と前記検索内容記載段落中に含まれるキーワードと前記検索内容記載段落中の記載内容を示す段落種類と前記サンプル文書の文書構造の種類とを保持する検索条件データを作成する検索条件データ作成過程と、前記検索条件データを検索条件データ記憶手段に記録する検索条件データ記録過程と、前記複数の検索対象文書うちの任意の検索対象文書について段落分けする第3の段落分け過程と、前記第3の段落分け過程による段落分けの結果と前記文書構造記憶手段で記憶している前記文書構造の情報とに基づいて、前記任意の検索対象文書の文書構造の種類を検出する検索対象文書構造検出過程と、前記任意の検索対象文書の文書構造の種類を保持する前記検索条件データが前記検索条件データ記憶手段に記録されている場合に、その前記検索条件データを前記検索条件データ記憶手段から読み取る検索条件データ読み取り過程と、その読み取った検索条件データに保持される前記検索内容記載段落の位置と前記段落種類とに基づいて、前記任意の検索対象文書中における検索判定用段落を特定する段落特定過程と、前記検索条件データ読み取り過程において読み取った前記検索条件データの保持するキーワードを用いて前記検索内容記載段落の全文検索を行ない、その全文検索の結果に基づいて前記任意の検索対象文書を検索結果として出力するか否かを判定する検索過程とを有することを特徴とする文書検索方法である。 The present invention is also a document search method of a document search apparatus for searching for a search target document similar to a sample document from a plurality of search target documents, wherein a plurality of documents extracted at a predetermined ratio from the plurality of search target documents. A first paragraph dividing process for dividing each of the representative search target documents, a document structure classification process for classifying the document structure of each of the representative search target documents based on the paragraph division of each of the representative search target documents, Document structure recording process for recording the classified document structure information in the document structure storage means for each document structure type, a second paragraph dividing process for dividing the sample document into paragraphs, and a paragraph division of the sample document Sample document structure for detecting the document structure type of the sample document based on the result of the document structure and the document structure information stored in the document structure storage means. The detection process, the paragraph position of the search content description paragraph specified by the user in the sample document, the keyword included in the search content description paragraph, the paragraph type indicating the description content in the search content description paragraph, and the sample document A search condition data creating process for creating search condition data for holding the document structure type, a search condition data recording process for recording the search condition data in a search condition data storage means, Based on a third paragraph dividing process for dividing an arbitrary document to be searched, a result of the paragraph dividing by the third paragraph dividing process, and information on the document structure stored in the document structure storage unit, A search target document structure detection process for detecting a document structure type of the arbitrary search target document, and a document structure type of the arbitrary search target document. When the search condition data held is recorded in the search condition data storage means, the search condition data reading process for reading the search condition data from the search condition data storage means, and holding in the read search condition data A paragraph specifying process for specifying a search determination paragraph in the arbitrary search target document based on the position of the search content description paragraph and the paragraph type, and the search condition read in the search condition data reading process A search step of performing a full-text search of the search content description paragraph using a keyword held in the data and determining whether or not to output the arbitrary search target document as a search result based on the result of the full-text search This is a document search method characterized by the above.
また本発明は、複数の検索対象文書の中からサンプル文書に似ている検索対象文書を検索する文書検索装置のコンピュータに実行させるプログラムであって、前記複数の検索対象文書から所定の割合で抽出した複数の代表検索対象文書についてそれぞれ段落分けする第1の段落分け処理と、前記代表検索対象文書それぞれの段落分けに基づいて、前記代表検索対象文書それぞれの文書構造を分類する文書構造分類処理と、前記分類された前記文書構造の情報を前記文書構造の種類毎に文書構造記憶手段に記録する文書構造記録処理と、前記サンプル文書を段落分けする第2の段落分け処理と、前記サンプル文書の段落分けの結果と前記文書構造記憶手段で記憶している前記文書構造の情報とに基づいて、前記サンプル文書の文書構造の種類を検出するサンプル文書構造検出処理と、前記サンプル文書中において前記ユーザが指定した検索内容記載段落の段落位置と前記検索内容記載段落中に含まれるキーワードと前記検索内容記載段落中の記載内容を示す段落種類と前記サンプル文書の文書構造の種類とを保持する検索条件データを作成する検索条件データ作成処理と、前記検索条件データを検索条件データ記憶手段に記録する検索条件データ記録処理と、前記複数の検索対象文書うちの任意の検索対象文書について段落分けする第3の段落分け処理と、前記第3の段落分け処理による段落分けの結果と前記文書構造記憶手段で記憶している前記文書構造の情報とに基づいて、前記任意の検索対象文書の文書構造の種類を検出する検索対象文書構造検出処理と、前記任意の検索対象文書の文書構造の種類を保持する前記検索条件データが前記検索条件データ記憶手段に記録されている場合に、その前記検索条件データを前記検索条件データ記憶手段から読み取る検索条件データ読み取り処理と、その読み取った検索条件データに保持される前記検索内容記載段落の位置と前記段落種類とに基づいて、前記任意の検索対象文書中における検索判定用段落を特定する段落特定処理と、前記検索条件データ読み取り処理において読み取った前記検索条件データの保持するキーワードを用いて前記検索内容記載段落の全文検索を行ない、その全文検索の結果に基づいて前記任意の検索対象文書を検索結果として出力するか否かを判定する検索処理とをコンピュータに実行させるプログラムである。 The present invention also provides a program for causing a computer of a document search apparatus that searches for a search target document similar to a sample document from a plurality of search target documents to be extracted from the plurality of search target documents at a predetermined ratio. A first paragraph dividing process for dividing each of the plurality of representative search target documents, and a document structure classification process for classifying the document structure of each of the representative search target documents based on the paragraph division of each of the representative search target documents; A document structure recording process for recording the classified document structure information in a document structure storage unit for each document structure type, a second paragraph division process for dividing the sample document into paragraphs, Based on the result of the paragraphing and the information on the document structure stored in the document structure storage means, the document structure type of the sample document is determined. A sample document structure detection process to be performed, a paragraph position of a search content description paragraph specified by the user in the sample document, a keyword included in the search content description paragraph, and a paragraph indicating the description content in the search content description paragraph A search condition data creating process for creating search condition data that holds a type and a document structure type of the sample document; a search condition data recording process for recording the search condition data in a search condition data storage unit; A third paragraph dividing process for dividing an arbitrary search target document among the search target documents, a result of the paragraph division by the third paragraph dividing process, and information on the document structure stored in the document structure storage unit And a search target document structure detection process for detecting a document structure type of the arbitrary search target document, and the arbitrary search target A search condition data reading process for reading the search condition data from the search condition data storage means when the search condition data holding the document structure type of the document is recorded in the search condition data storage means; Paragraph specifying processing for specifying a search determination paragraph in the arbitrary search target document based on the position of the search content description paragraph and the paragraph type held in the read search condition data, and reading the search condition data Whether or not to perform a full-text search of the search content description paragraph using a keyword held in the search condition data read in the process, and whether to output the arbitrary search target document as a search result based on the result of the full-text search This is a program that causes a computer to execute search processing for determination.
以下、本発明の実施形態による文書検索装置を図面を参照して説明する。図1は同実施形態による文書検索装置の構成を示すブロック図である。この図において、符号1は大量の検索対処文書の中からユーザが希望する文書を検索する文書検索装置である。また2は例えば10万や100万の数の大量の検索対象文書を記憶する検索対象文書データベースである。そして、本実施形態においては文書検索装置1は検索対象文書データベース2に記録された検索対象文書からユーザの希望の文書を検索することとする。また文書検索装置1と検索対象文書データベース2とは通信ネットワークを介して接続されている。
Hereinafter, a document search apparatus according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing the configuration of the document search apparatus according to the embodiment. In this figure,
また文書検索装置1において、符号101は検索条件学習用文書(代表検索対象文書)を記憶する検索条件学習用文書記憶部である。ここで検索条件学習用文書とは、検索対象文書データベース2に記録されている検索対象文書の中から、所定の割合で抽出した文書のことである。そして、検索対象文書データベース2から抽出する文書の割合は、検索条件学習用文書記憶部101内において、少なくとも検索対象文書データベース2に記録されている検索対象文書のいずれかの文書の内容と同類の内容の文書を、確率的に1つは保持できるだけの割合である。
In the
また102はユーザが用意したサンプル文書を記憶するサンプル文書記憶部である。サンプル文書は、ユーザが検索したいと希望する文書の内容の一部が記載された文書であり、ユーザはサンプル文書において、検索したい内容が記載されている特定の範囲を指定する。これにより、文書検索装置1はサンプル文書においてユーザが指定した範囲の文章の内容と同類の内容が記載された検索対象文書を後述の手法により検索対象文書データベース2から検索する。なお、本実施形態においては、サンプル文書においてユーザが指定する範囲は、サンプル文書内の段落である。
A sample
また103は段落解析部(第1の段落分け手段、第2の段落分け手段、第3の段落分け手段、行種類決定手段、段落先頭位置決定手段、段落決定手段)であり、検索条件学習用文書やサンプル文書や検索対象文書を解析して段落分けを行なう。また104は文書構造分類部(文書構造分類手段、サンプル文書構造検出手段、検索対象文書構造検出手段、段落種類決定手段)であり、段落解析部103における検索条件学習用文書の段落分けの結果に基づいて、検索条件学習用文書それぞれの文書構造を分類する。そして文書構造分類部104は、文書構造記憶部(文書構造記憶手段)105に異なる種類の文書構造の情報を記録する。なお文書構造は、1つの文書における段落の数と各段落の段落識別子と各段落の記載内容を示す段落種類とによって表される。そして文書構造の情報は1つの文書における各段落の段落識別子と各段落の段落種類とを保持している。
また106は検索条件データ作成部(検索条件データ作成手段)であり、サンプル文書中においてユーザが指定した段落(以降、検索内容記載段落と呼ぶ)の位置、検索内容記載段落中に含まれるキーワード、サンプル文書の文書構造を指し示す文書構造番号、検索内容記載段落の種類、サンプル文書の識別情報とを保持する検索条件データを作成する。この検索条件データは、検索対象文書データベース2に記録されている大量の検索対象文書からユーザの希望する文書を検索する際に利用する。107は検索条件データを記憶する検索条件データ記憶部(検索条件データ記憶手段)である。
また108は検索条件データに保持されているキーワード(つまり、検索内容記載段落中のキーワード)を用いて、検索条件学習用文書を全文検索し、キーワードが含まれる検索条件学習用文書中の段落をキーワード包含段落と決定するキーワード包含段落決定部(キーワード包含段落決定手段)である。また109はキーワード包含段落を保持する検索条件学習用文書を、新しいサンプル文書の候補とするか否かを決定する新サンプル文書候補決定部(新サンプル文書候補決定手段)である。また110は新サンプル文書候補となった検索条件学習用文書のデータを記憶する新サンプル文書候補記憶部である。また111はユーザの指示に基づいて、新サンプル文書候補記憶部110に記録されている新サンプル文書候補の検索条件学習用文書からユーザによって指定された文書を、新サンプル文書としてサンプル文書記憶部102に記録する新サンプル文書指定部である。
Further, 108 performs a full-text search of the search condition learning document using a keyword (that is, a keyword in the search content description paragraph) held in the search condition data, and selects a paragraph in the search condition learning document including the keyword. A keyword inclusion paragraph determination unit (keyword inclusion paragraph determination means) that determines a keyword inclusion paragraph.
また112は検索対象文書データベース2で記憶している大量の検索対象文書を1つずつ読み込む検索対象文書読込み部である。また113は検索対象文書読込み部112が読み込んだ検索対象文書の文書構造と検索条件データ記憶部107に記録されている検索条件データと文書構造記憶部105に記録されている文書構造の情報とに基づいて、ユーザが検索を希望する検索対象文書を検索する検索処理部(検索条件データ読み取り手段、段落特定手段、検索手段、検索対象用文書決定手段)である。また114は検索結果として得られた検索対象文書の内容をモニタなどに出力する検索結果出力部である。
A search target
そして、文書検索装置1は上述の各処理部を用いて、大きく分けて4つの処理フローによりユーザ希望の文書の検索を行なう。まず1つ目は検索条件学習用文書の文書構造を分類し、異なる種類の複数の文書構造の情報を文書構造記憶部105に記録する処理フローである。また2つ目はサンプル文書と文書構造の情報とに基づいて検索条件データを作成する処理フローである。また3つ目は新サンプル文書の候補を決定して、新サンプル文書の候補うちユーザから指定を受けた文書のみ、新しいサンプル文書とする処理フローである。4つ目は、検索条件データベース2からユーザの希望する検索対象文書を検索する処理フローである。これにより、ユーザ希望の検索結果が得られる。
The
図2は検索条件学習用文書の例を示す図である。そしてこの図は、検索条件学習用文書a、検索条件学習用文書b、検索条件学習用文書cの3つの文書を示している。そして検索条件学習用文書は、検索条件学習用文書記憶部101に、少なくとも検索対象文書データベース2に記録されている検索対象文書のいずれかの文書の内容と同類の内容の文書を、確率的に1つは保持できる数量だけ記録している。
FIG. 2 is a diagram showing an example of a search condition learning document. This figure shows three documents: a search condition learning document a, a search condition learning document b, and a search condition learning document c. The search condition learning document is probabilistically stored in the search condition learning
また図3はサンプル文書を示す図である。そして、本実施形態において利用するサンプル文書はサンプル文書A、サンプル文書Bの2つのサンプル文書である。なお、本実施形態においては、説明の便宜上、検索条件学習用文書a、bとそれぞれ内容が同じ文書をサンプル文書とした。そして、これらサンプル文書A、Bがサンプル文書記憶部102に記録されている。
なお、本実施形態における検索対象文書と検索条件学習用文書とサンプル文書は、通常文の行、空行、記号付き単語の行、記号無し単語の行のいずれかに当てはまる行によって構成された文書であるものとする。ここで通常文とは述語がや句読点が含まれた文のことである。また記号付き単語の行とは、行の先頭が数字やアルファベットなどの記号で始まり、その後の文章が体言だけで構成された行のことを言う。また記号無し単語の行とは、行の先頭に数字やアルファベットなどの記号がなく、文章が体言だけで構成された行のことを言う。
FIG. 3 shows a sample document. The sample documents used in this embodiment are two sample documents, sample document A and sample document B. In the present embodiment, for convenience of explanation, a document having the same contents as the search condition learning documents a and b is used as a sample document. These sample documents A and B are recorded in the sample
Note that the search target document, the search condition learning document, and the sample document in this embodiment are documents configured by lines that fall into one of a normal sentence line, a blank line, a word line with a symbol, or a word line without a symbol. Suppose that Here, a normal sentence is a sentence including predicates and punctuation marks. A word line with a symbol means a line in which the beginning of the line starts with a symbol such as a numeral or alphabet, and the subsequent sentence is composed only of body words. Moreover, the line of a word without a symbol means a line in which a sentence is composed only of a body without a symbol such as a numeral or alphabet at the beginning of the line.
また図4は文書構造の情報を示す図である。この図で示すように文書構造記憶部105には、文書構造の情報として、文書構造番号と、当該文書構造番号で示される文書構造を構成する段落の番号と、各段落の種類とを対応付けて記憶している。そして、この文書構造のデータは文書構造分類部105によって作成され、文書構造記憶部105に記録される。
FIG. 4 is a diagram showing document structure information. As shown in this figure, the document
また図5は検索条件データの例を示す図である。この図で示すように検索条件データ記憶部107には検索条件データ番号と、サンプル文書番号と、文構造番号と、検索内容記載段落の位置と、検索内容記載段落の段落種類と、キーワードとが対応付けられて記録されている。そしてこの検索条件データは検索条件データ作成部106が作成して検索条件データ記憶部107に記録する。
FIG. 5 shows an example of search condition data. As shown in this figure, the search condition
次に、文書検索装置1において検索条件学習用文書の文書構造を分類し、文書構造の情報が文書構造記憶部105に記録されるまでの処理フローについて説明する。図6は文書構造の分類と文書構造の情報を記録する際の処理フローを示す図である。
まず、段落解析部103が検索条件学習用文書記憶部101に記録されている検索条件学習用文書を1つ読み取る(ステップS101)。ここで読み取った検索条件学習用文書は検索条件学習用文書aであるとする。次に、段落解析部103は読み取った検索条件学習用文書aの一番上の行を1つ取り出す(ステップS102)。次に、段落解析部103はステップS102で取り出した行が、通常文の行、空行、記号付き単語の行、記号無し単語の行のどの行種類かを解析し(ステップS103)、例えば、メモリ上などに記憶しておく。次に段落解析部103は検索条件学習用文書aにおいて、ステップS101からステップS104で処理した行の次の行があるか否かを確認し(ステップS104)、次の行がある場合には、次の行についてステップS101からステップS103の処理を繰り返し、これを検索条件学習用文書a中の全ての行について行なう。
Next, a processing flow until the document structure of the search condition learning document is classified in the
First, the
図7は段落解析部のメモリに保持されたデータを示す図である。この図において行番号は検索条件学習用文書aの行の番号を示しており、行番号と解析結果の行種類とその繰り返し回数を記録している。例えば、検索条件学習用文書aの4行目は通常文であり、この通常文が2回繰り返している(5行目も通常文である)。この場合5行目についての行種類は記録されず、4行目の繰り返し回数が1から2へと変更される。そして、このようにして段落解析部103は検索条件学習用文書の全ての行についての行種類を解析する。
FIG. 7 is a diagram showing data held in the memory of the paragraph analysis unit. In this figure, the line number indicates the line number of the search condition learning document a, and the line number, the line type of the analysis result, and the number of repetitions thereof are recorded. For example, the fourth line of the search condition learning document a is a normal sentence, and this normal sentence is repeated twice (the fifth line is also a normal sentence). In this case, the row type for the fifth row is not recorded, and the number of repetitions for the fourth row is changed from 1 to 2. In this way, the
次に、段落解析部103はメモリ上に記録しているデータ(図6)に記録された、行番号1に対応する行種類と繰り返し回数とを取り出す(ステップS105)。そして、図6の示すメモリ上のデータから取り出した行番号1の情報により、行番号1の行が段落先頭位置に相当する行か否かを判定する(ステップS106)。この段落先頭位置に相当する行か否かの判定は、(1)その行番号の情報が、繰り返し回数が1となっている記号付き単語の行、(2)その行番号の情報が、繰り返し回数が1となっている記号無し単語の行、(3)その行番号の情報が、空行で次の行が通常文または繰り返し回数が2以上の単語の行、(4)その行番号の情報が、繰り返し回数が複数となっている記号なし単語の行、の(1)〜(4)のいずれかの行に当てはまるか否かで判定する。そして段落解析部103は、メモリ上において他の行番号に対応する情報が記録されているか否かを確認し(ステップS107)、ステップS105とステップS106を繰り返し、メモリ上に記録されている行番号全てについて、その行が段落先頭位置に相当する行か否かを判定する。
Next, the
ここで、検索学習用文書aにおいて(1)に相当する行番号は、1、3、6、8、11、14である。また検索学習用文書aにおいて(2)に相当する行番号は16である。また(3)に相当する行番号は検索学習用文書aには存在しない。また検索学習用文書aにおいて(4)に相当する行番号は18である。また、段落解析部103は図6の示すデータから取り出した行番号1に対応するデータは、必ず段落先頭位置に相当する行を示すデータであると判定するものとする。このようにして段落解析部103は検索学習用文書aのどの行が段落先頭位置に相当する行かを判定し、次に、段落先頭位置の行から次の段落先頭位置の行の前の行までを1つの段落として、検索条件学習用文書aにおける段落を決定する(ステップS108)。そして、段落解析部103は、1〜2行目を第1段落、3〜5行目を第2段落、6〜7行目を第3段落、8〜10行目を第4段落、11〜13行目を第5段落、14〜15行目が第6段落、16〜17行目を第7段落、18〜20行目を第8段落とし、各段落番号とそれぞれの段落が保持する行番号と各行番号に対応する行種類とを、検索学習用文書aの段落解析の結果として、文書構造分類部104に出力する。
Here, the line numbers corresponding to (1) in the search learning document a are 1, 3, 6, 8, 11, and 14. The line number corresponding to (2) is 16 in the search learning document a. The line number corresponding to (3) does not exist in the search learning document a. In the search learning document a, the line number corresponding to (4) is 18. The
次に、文書構造分類部104は検索条件学習用文書aの各段落番号とそれぞれの段落に対応する行番号とそれら各行番号に対応する行種類に基づいて、各段落の段落種類を決定する(ステップS109)。ここで、文書構造分類部104は段落種類を決定するにあたり、通常文、記号無し単語行、記号付き単語行、空行の順番で、段落内の各行の行種類に当てはまるか否かを確認して行き、最初に当てはまった行種類を段落種類とする。例えば、検索学習用文書aの第1段落に含まれる行は1行目と2行目であり、2行目の行種類が通常文であるので、第1段落の段落種類は通常文である。このようにして、文書構造分類部104は検索条件学習用文書aの各段落について段落種類を決定する。
また、文書構造分類部104は段落先頭位置に相当する行に基づいて段落識別子を生成する。本実施形態においては、段落識別子は段落先頭位置の行の最初の文字が数字か否かを示す情報である。例えば検索条件学習用文書aの第1段落であれば段落識別子は「数字」、検索条件学習用文書aの第7段落であれば段落識別子は「なし」である。なお、例えば段落識別子は、段落番号であっても良いし、段落タイトル(先頭位置に相当する行の最初の単語)であっても良い。
Next, the document
The document
そして、文書構造分類部104は検索条件学習用文書aの各段落の段落識別子とそれぞれの段落の段落種類とを対応付けて、文書構造番号1の情報として文書構造記憶部105に記録する(ステップS110)。なお、ステップS109で記録した情報は図4に示した、文書構造番号1に対応する情報である。またステップS109の後、文書構造分類部104は段落解析部103に検索条件学習用文書aについての文書構造分類の記録が終了した旨を通知する。すると、段落解析部103は他の検索条件学習用文書が検索条件学習用文書記憶部101に記録さているか否かを確認し(ステップS111)、他の検索条件学習用文書が記録されている場合にはその文書につてステップS101の処理を始める。そして、ステップS101〜ステップS110の処理が全ての検索条件学習用文書記憶部101に記録されている検索条件学習用文書について行なわれる。なお上述のステップS101〜ステップS111の処理はユーザが検索開始の指示を行なう以前に行なわれて、複数の文書構造のデータが文書構造記憶部105に記録される。また図4において文書構造番号2に対応する情報は検索条件学習用文書bの文書構造を示すものである。
Then, the document
次に、文書検索装置1においてサンプル文書と文構造の情報とに基づいて検索条件データが作成されるまでの処理について説明する。図8は検索条件データ作成処理のフローを示す図である。
まず、ユーザより検索開始の指示が文書検索装置1に入力されると、段落解析部103はサンプル文書記憶部102に記録されているサンプル文書を1つ読み取る(ステップS201)。ここで、ステップS201で段落解析部103が読み取ったサンプル文書をサンプル文書Aとする。次に、段落解析部103は上述のステップS102からステップS108の処理と同様の処理手法を用いてサンプル文書Aの各段落を決定する(ステップS202)。次に文書構造分類部104が上述のステップS109の処理と同様の処理手法を用いてサンプル文書Aの各段落の段落種類を決定する(ステップS203)。そして、文書構造分類部104はサンプル文書Aの各段落の段落識別子とそれぞれの段落の段落種類とを検索条件データ作成部106に通知する(ステップS204)。なおサンプル文書Aの段落は1〜8段落まであり、各段落の段落種類は、第1段落:通常文、第2段落:通常文、第3段落:通常文、第4段落:通常文、第5段落:通常文、第6段落:通常文、第7段落:通常文、第8段落:記号無し単語、である。
Next, a process until the search condition data is created based on the sample document and the sentence structure information in the
First, when a search start instruction is input from the user to the
次に検索条件データ作成部106は、サンプル文書Aの各段落の段落識別子とそれぞれの段落の段落種類から、サンプル文書Aの文書構造は、第1段落は段落識別子が「数字」で段落種類が「通常文」、第2段落は段落識別子が「数字」で段落種類が「通常文」、第3段落は段落識別子が「数字」で段落種類が「通常文」、第4段落は段落識別子が「数字」で段落種類が「通常文」、第5段落は段落識別子が「数字」で段落種類が「通常文」、第6段落は段落識別子が「数字」で段落種類が「通常文」、第7段落は段落識別子が「なし」で段落種類が「通常文」、第8段落は段落識別子が「なし」で段落種類が「記号なし単語」、の構造であること判断し、文書構造記憶部105(図4)からサンプル文書Aの文書構造と同じ文書構造の情報を示す文書構造番号を読み取る(ステップS205)。ここで、サンプル文書Aの文書構造の番号は「1」である。次に、検索条件データ作成部106はサンプル文書Aの各段落の中から、検索内容の記述されている段落の指定をユーザから受付ける。なお、ユーザから指定された段落はサンプル文書Aの第3段落とする。そして、ユーザの指定した段落をサンプル文書Aにおける検索内容記載段落とする(ステップS206)。次に検索条件データ作成部106は検索内容記載段落の文章を形態素解析し、予め設定された品詞に相当する単語を検索用のキーワードと決定する(ステップS207)。なお本実施形態においてはキーワードとする単語の品詞を名詞とする。そして、検索条件データ作成部106はサンプル文書Aの第3段落の「従来」、「辞書」、「使用頻度」の単語をキーワードとする。
Next, the search condition
次に、検索条件データ作成部106は検索内容記載段落のサンプル文書Aにおける段落位置を検出する(ステップS208)。この時、まず検索条件データ作成部106はサンプル文書Aの段落数を3で割り、割り切れる場合にはその数の段落数ずつサンプル文書Aを上部、中部、下部と分ける。また検索条件データ作成部106はサンプル文書Aの段落数を3で割り、得られた値が小数点以下を含む数値である場合には、小数点第1位を四捨五入して自然数を得て、その自然数の段落数ずつサンプル文書Aを上から上部、中部とし、残った段落を下部とする。このようにして、検索条件データ作成部106は検索内容記載段落のサンプル文書Aにおける位置がサンプル文書Aにおける上部、中部、下部のどの段落位置にあるかを検出する。
Next, the search condition
そして、検索条件データ作成部106はサンプル文書Aの識別情報として任意の記号「A」を割り当て、そのサンプル文書Aの識別情報と、サンプル文書Aの文書構造を示す文書構造番号と、サンプル文書Aにおける検索内容記載段落の位置の情報と、検索内容記載段落の段落種類と、検索内容記載段落から得たキーワードとを1つの検索条件データとして、その検索条件データのデータ番号「1」に対応付けて検索条件データ記憶部107に記録する(ステップS209)。またステップ209の後、検索条件データ作成部106は段落解析部103にサンプル文書Aについての検索条件データの作成が終了した旨を通知する。すると、段落解析部103は他のサンプル文書がサンプル文書記憶部102に記録さているか否かを確認し(ステップS210)、他のサンプル文書が記録されている場合にはその文書についてステップS201の処理以降の処理を始める。そして、ステップS201〜ステップS209の処理がサンプル文書記憶部102に記録されている全てのサンプル文書について行なわれる。
以上、ステップS201からステップS209の処理によって検索条件データが作成される。
Then, the search condition
As described above, the search condition data is created by the processing from step S201 to step S209.
次に新サンプル文書の候補を決定して、ユーザから指定を受けた新サンプル文書候補のみ、新しいサンプル文書とする文書検索装置1の処理フローについて説明する。図9は新サンプル文書作成の処理フローを示す図である。
上述の検索条件データの作成がサンプル文書記憶部102に記録されている全てのサンプル文書について終了すると、検索条件データ作成部106はキーワード包含段落決定部108に新サンプル文書候補の決定の処理の開始を指示する。するとキーワード包含段落決定部108は検索条件学習用文書記憶部101から任意の検索条件学習用文書を1つ読み込む(ステップS301)。ここでステップS301で読み込んだ検索条件学習用文書を検索条件学習用文書dとする。次に、キーワード包含段段落決定部108は検索条件データ記憶部107に記録されている検索条件データを1つ読み込む(ステップS302)。ここで、ステップS302で読み込んだ検索条件データは、図5で示す検索条件データのうち、サンプル文書「A」を用いて作成された検索条件データ番号が「1」に対応する検索条件データであるとする。そして、キーワード包含段落決定部108はステップS302で読み込んだ検索条件データに含まれるキーワードに基づいて、ステップS301で読み込んだ検索条件学習用文書dを全文検索する(ステップS303)。
Next, a process flow of the
When the creation of the search condition data described above is completed for all the sample documents recorded in the sample
ここで、この全文検索の手法は、例えば、検索条件学習用文書中においてキーワードと一致する単語が含まれているか否かを検索する方法であったり、キーワードが検索条件学習用文書中に出現する頻度を検出する方法であったり様々であり、キーワード包含段落決定部108は公知の全文検索の手法を用いてキーワードによる検索条件学習用文書の全文検索を行なう。なお、全文検索の文献としては、特開平8−44771に技術が公開されている。そしてキーワード包含段落決定部108は、全文検索の結果、検索条件学習用文書dにおけるキーワードを包含した文章の行を記憶し、次に、上述のステップS102からステップS109の処理と同様の処理手法を用いて検索条件学習用文書dの各段落の決定と、それら各段落の段落種類を決定とを行なって、検索条件学習用文書dの文書構造を検出する(ステップS304)。またキーワード包含段落決定部108は、全文検索の結果、検索条件学習用文書dにおけるキーワードを包含した文章の行を含む検索条件学習用文書dの段落をキーワード包含段落と決定する(ステップS305)。そして、キーワード包含段落決定部108はステップS301で読み込んだ検索条件学習用文書dと、その検索条件学習用文書dにおけるキーワード包含段落と、検索条件学習用文書dの文書構造の情報と、ステップS302で読み込んだ検索条件データの保持する文書構造番号とを新サンプル文書候補決定部109に通知する。
Here, this full-text search method is, for example, a method for searching whether or not a word matching the keyword is included in the search condition learning document, or the keyword appears in the search condition learning document. There are various methods for detecting the frequency, and the keyword inclusion
次に、新サンプル文書候補決定部109はキーワード包含段落決定部108から通知を受けた検索条件学習用文書dの文書構造の情報とその検索条件学習用文書dにおけるキーワード包含段落とを用いて、キーワード包含段落の段落位置(上部、中部、下部)を検出する(ステップS306)。このキーワード包含段落の段落位置の検出は、上述のステップS208の処理と同様である。そして、新サンプル文書候補決定部109は、検索条件データ記憶部107において、検索条件学習用文書dの文書構造を示す文書構造番号と検索条件学習用文書dにおけるキーワード包含段落の段落位置とを保持する検索条件データがあるか否かを検索する(ステップS307)。そして、新サンプル文書候補決定部109はステップS307において、検索条件学習用文書dの文書構造を示す文書構造番号と検索条件学習用文書dにおけるキーワード包含段落の段落位置とを保持する検索条件データが検索条件データ記憶部107に記録されていない場合に、当該キーワード包含段落を段落に含んでいる検索条件学習用文書dを新サンプル文書の候補として、新サンプル文書候補記憶部110に記録する(ステップS308)。このようにして、検索条件学習用文書記憶部101に記録されている検索条件学習用文書のうち、ユーザの用意したサンプル文書の検索内容記載段落の内容と同様の内容を保持している検索条件学習用文書が、新しいサンプル文書として候補に上げらて新サンプル文書候補記憶部110に記録される。
Next, the new sample document
またステップS307において、検索条件学習用文書dの文書構造を示す文書構造番号と検索条件学習用文書dにおけるキーワード包含段落の段落位置とを保持する検索条件データが検索条件データ記憶部107に記録されている場合、新サンプル文書候補決定部109は別の検索条件データについて処理を行なうようにキーワード包含段落決定部108について通知する。そしてキーワード包含段落決定部108は検索条件データ記憶部107にステップS302で読み込んだ検索条件データ以外のデータがあるか否かを確認する(ステップS309)。そして、別の検索条件データが記録されている場合には、その検索条件データを利用して、検索条件学習用文書dについてのステップS302からステップS306の処理を繰り返す。
In step S307, search condition data holding the document structure number indicating the document structure of the search condition learning document d and the paragraph position of the keyword-containing paragraph in the search condition learning document d is recorded in the search condition
次に、ステップS307で新サンプル文書の候補の検索条件学習用文書のデータを検索条件学習用文書記憶部101に記録が終了すると、キーワード包含段落決定部108に次の検索条件学習用文書についての処理を行なうよう指示する。すると、キーワード包含段落決定部108は他の検索条件学習用文書が検索条件学習用文書記憶部101に記録さているか否かを確認し(ステップS310)、他の検索条件学習用文書が記録されている場合にはその文書についてステップS301の処理以降の処理を始める。そして、ステップS301〜ステップS308の処理が検索条件学習用文書101に記録されている全てのサンプル文書について行なわれる。
次に、新サンプル文書指定部111が新サンプル文書候補記憶部110に記録されている新サンプル文書候補を例えばモニタなどに表示し、ユーザから新サンプル文書とする文書の選択を受付ける。そして新サンプル文書111はユーザから指定された新しいサンプル文書をサンプル文書記憶部102に登録する。そして文書検索装置1は新サンプル文書について、ステップS201〜S209の処理により、新サンプル文書を用いて検索条件データの作成を行なう。なお、新サンプル文書についてステップS201〜S209の処理を行って検索条件データの作成を行なった後は、新条件データ作成部106はキーワード包含段落決定部108に新サンプル文書候補の決定の処理の開始を指示せず、処理を終了する。
Next, when the data of the search condition learning document candidate new sample document candidate is recorded in the search condition learning
Next, the new sample
次に、検索条件データベースからユーザの希望する検索対象文書を検索する処理フローについて説明する。図10は検索対象文書の検索時の処理フローを示す図である。
検索条件データ作成部106は全てのサンプル文書および新サンプル文書に関して検索条件データを作成すると、次に、検索対象文書読込み部112に検索本処理を行なうよう指示する。すると検索対象文書読込み部112は通信ネットワークを介して検索対象文書データベース2から1つ検索対象文書のデータを読み込み(ステップS401)、段落解析部103に転送する。次に段落解析部103は検索対象文書を上述のステップS102からステップS109の処理と同様の処理手法を用いて検索対象文書の各段落の決定と、それら各段落の段落種類を決定とを行なって、検索対象文書の文書構造を検出する(ステップS402)。そして、段落解析部103はステップS402で検出した検索対象文書の文書構造の情報を検索処理部113に通知する。
Next, a processing flow for searching for a search target document desired by the user from the search condition database will be described. FIG. 10 is a diagram showing a processing flow when searching for a search target document.
When the search condition
次に、検索処理部113は、文書構造記憶部105(図4)から検索対象文書の文書構造の情報と同じ文書構造の情報を示す文書構造番号を読み取る(ステップS403)。ここで、検索対象文書の文書構造を示す文書構造番号は「1」であるとする。次に、検索処理部113はステップS403で読み取った文書構造番号を保持している検索条件データを検索条件データ記憶部107から読み取る(ステップS404)。また検索処理部113は上述のステップS208の処理と同様にして検索対象文書の各段落が上部、中部、下部のどの段落位置に含まれる段落かを検出する。そして検索処理部113は、ステップS404で読み取った検索条件データの保持する段落位置と同じ段落位置の検索対象文書の各段落を抽出する(ステップS405)。また検索処理部113は、ステップS405で読み取った検索対象文書の段落の段落種類が、ステップS404で読み取った検索条件データの保持する段落種類と同じか否かを確認する(ステップS406)。そしてステップS406において、ステップS405で読み取った検索対象の段落の段落種類が、ステップS404で読み取った検索条件データの保持する段落種類と同じである場合には、検索処理部113はその検索対照文書の段落を検索判定用段落と決定する(ステップS407)。
Next, the
次に、検索処理部113は検索対象文書における検索判定用段落をステップS404で読み取った検索条件データの保持するキーワードを用いて全文検索する(ステップS408)。この全文検索の手法は、上述のステップS303の説明で記載したように、従来から行なわれている手法を用いる。そして、検索処理部113は検索判定用段落を全文検索して、当該検索判定用段落に記載の文章の単語がキーワードと一致したり、その検索判定用段落においてキーワードの出現頻度が高い文章が含まれていたりするかを確認する(ステップS409)。なおこのステップS409の処理は全文検索の手法によって異なる。そして、検索処理部113は全文検索の結果、検索判定用段落に記載の文章の単語がキーワードと一致している場合などには、その検索判定用段落を保持している検索対象文書を検索結果として検索結果出力部114に転送し(ステップS410)、検索結果出力部114が転送された検索対象文書を検索結果として例えば文書検索装置1に備えられたモニタなどに出力する(ステップS411)。
Next, the
またステップS406において、ステップS405で読み取った検索対象の段落の段落種類が、ステップS404で読み取った検索条件データの保持する段落種類と同じでない場合には、検索処理部113は他の検索対象文書を検索対象文書データベース2から読み込むよう、検索対象文書読込み部112に通知する。またステップS409において、検索判定用段落に記載の文章の単語がキーワードと一致していない場合などにおいては、検索処理部113はの検索対象文書を検索対象文書データベース2から読み込むよう、検索対象文書読込み部112に通知する。またステップS410で検索結果を出力した場合にも、検索処理部113は他の検索対象文書を検索対象文書データベース2から読み込むよう、検索対象文書読込み部112に通知する。そして、文書検索装置1は検索対象文書データベース2に記録されている大量の検索対象文書全てについて検索処理を行なう。これによりユーザは、希望する内容の検索対象文書を得ることができる。
In step S406, if the paragraph type of the search target paragraph read in step S405 is not the same as the paragraph type held in the search condition data read in step S404, the
なお、図1における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ実行することにより、文書検索装置1が上述の各処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
1 is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read and executed by a computer system, whereby the
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
1・・・文書検索装置、2・・・検索対象文書データベース、101・・・検索条件学習用文書記憶部、102・・・サンプル文書記憶部、103・・・段落解析部、104・・・文書構造解析部、105・・・文書構造記憶部、106・・・検索条件データ作成部、107・・・検索条件データ記憶部、108・・・キーワード包含段落決定部、109・・・新サンプル文書決定部、110・・・新サンプル文書候補記憶部、111・・・新サンプル文書指定部、112・・・検索対象文書読込み部、113・・・検索処理部、114・・・検索結果出力部
DESCRIPTION OF
Claims (7)
前記複数の検索対象文書から抽出した複数の代表検索対象文書についてそれぞれ段落分けする第1の段落分け手段と、
前記代表検索対象文書それぞれの段落分けに基づいて、前記代表検索対象文書それぞれの文書構造を分類する文書構造分類手段と、
前記分類された前記文書構造の情報を前記文書構造の種類毎に複数記憶する文書構造記憶手段と、
前記サンプル文書を段落分けする第2の段落分け手段と、
前記サンプル文書の段落分けの結果と前記文書構造記憶手段で記憶している前記文書構造の情報とに基づいて、前記サンプル文書の文書構造の種類を検出するサンプル文書構造検出手段と、
前記複数の検索対象文書うちの任意の検索対象文書について段落分けする第3の段落分け手段と、
前記第3の段落分け手段による段落分けの結果と前記文書構造記憶手段で記憶している前記文書構造の情報とに基づいて、前記任意の検索対象文書の文書構造の種類を検出する検索対象文書構造検出手段と、
前記サンプル文書の文書構造の種類と同じ文書構造の種類となる前記任意の検索対象文書を前記サンプル文書に似ている検索対象文書とする検索対象用文書決定手段と、
を備えることを特徴とする文書検索装置。 A document search device for searching a search target document similar to a sample document from a plurality of search target documents,
First paragraph dividing means for dividing each of the plurality of representative search target documents extracted from the plurality of search target documents;
Document structure classification means for classifying the document structure of each of the representative search target documents based on the paragraph classification of each of the representative search target documents;
Document structure storage means for storing a plurality of information on the classified document structure for each type of the document structure;
Second paragraph dividing means for dividing the sample document into paragraphs;
Sample document structure detection means for detecting the document structure type of the sample document based on the result of the paragraph division of the sample document and the information of the document structure stored in the document structure storage means;
A third paragraph dividing means for dividing a paragraph about an arbitrary search target document among the plurality of search target documents;
A search target document for detecting a document structure type of the arbitrary search target document based on a result of the paragraph division by the third paragraph division unit and information on the document structure stored in the document structure storage unit Structure detection means;
A search target document determining unit that sets the arbitrary search target document having the same document structure type as the sample document as the search target document similar to the sample document;
A document search apparatus comprising:
前記複数の検索対象文書から所定の割合で抽出した複数の代表検索対象文書についてそれぞれ段落分けする第1の段落分け手段と、
前記代表検索対象文書それぞれの段落分けに基づいて、前記代表検索対象文書それぞれの文書構造を分類する文書構造分類手段と、
前記分類された前記文書構造の情報を前記文書構造の種類毎に複数記憶する文書構造記憶手段と、
前記サンプル文書を段落分けする第2の段落分け手段と、
前記サンプル文書の段落分けの結果と前記文書構造記憶手段で記憶している前記文書構造の情報とに基づいて、前記サンプル文書の文書構造の種類を検出するサンプル文書構造検出手段と、
前記サンプル文書中において前記ユーザが指定した検索内容記載段落の段落位置と前記検索内容記載段落中に含まれるキーワードと前記検索内容記載段落中の記載内容を示す段落種類と前記サンプル文書の文書構造の種類とを保持する検索条件データを作成する検索条件データ作成手段と、
前記検索条件データを記憶する検索条件データ記憶手段と、
前記複数の検索対象文書うちの任意の検索対象文書について段落分けする第3の段落分け手段と、
前記第3の段落分け手段による段落分けの結果と前記文書構造記憶手段で記憶している前記文書構造の情報とに基づいて、前記任意の検索対象文書の文書構造の種類を検出する検索対象文書構造検出手段と、
前記任意の検索対象文書の文書構造の種類を保持する前記検索条件データが前記検索条件データ記憶手段に記録されている場合に、その前記検索条件データを前記検索条件データ記憶手段から読み取る検索条件データ読み取り手段と、
その読み取った検索条件データに保持される前記検索内容記載段落の位置と前記段落種類とに基づいて、前記任意の検索対象文書中における検索判定用段落を特定する段落特定手段と、
前記検索条件データ読み取り手段で読み取った前記検索条件データの保持するキーワードを用いて前記検索内容記載段落の全文検索を行ない、その全文検索の結果に基づいて前記任意の検索対象文書を検索結果として出力するか否かを判定する検索手段と、
を備えることを特徴とする文書検索装置。 A document search device for searching a search target document similar to a sample document from a plurality of search target documents,
First paragraph dividing means for dividing each of a plurality of representative search target documents extracted from the plurality of search target documents at a predetermined ratio;
Document structure classification means for classifying the document structure of each of the representative search target documents based on the paragraph classification of each of the representative search target documents;
Document structure storage means for storing a plurality of information on the classified document structure for each type of the document structure;
Second paragraph dividing means for dividing the sample document into paragraphs;
Sample document structure detection means for detecting the document structure type of the sample document based on the result of the paragraph division of the sample document and the information of the document structure stored in the document structure storage means;
The paragraph position of the search content description paragraph specified by the user in the sample document, the keyword included in the search content description paragraph, the paragraph type indicating the description content in the search content description paragraph, and the document structure of the sample document Search condition data creating means for creating search condition data that holds the type,
Search condition data storage means for storing the search condition data;
A third paragraph dividing means for dividing a paragraph about an arbitrary search target document among the plurality of search target documents;
A search target document for detecting a document structure type of the arbitrary search target document based on a result of the paragraph division by the third paragraph division unit and information on the document structure stored in the document structure storage unit Structure detection means;
Search condition data for reading the search condition data from the search condition data storage means when the search condition data holding the type of document structure of the arbitrary search target document is recorded in the search condition data storage means Reading means;
Paragraph specifying means for specifying a search determination paragraph in the arbitrary search target document based on the position of the search content description paragraph held in the read search condition data and the paragraph type;
The full text search of the paragraph containing the search content is performed using a keyword held in the search condition data read by the search condition data reading means, and the arbitrary search target document is output as a search result based on the result of the full text search Search means for determining whether to do,
A document search apparatus comprising:
前記代表検索対象文書の文書構造の種類と前記キーワード包含段落の前記代表検索対象文書における段落位置との組み合わせと、前記検索条件データ記録手段で記憶している前記検索条件データの保持する前記文書構造の種類と前記検索内容記載段落の段落位置との組み合わせの比較に基づいて、前記キーワード包含段落を保持する前記代表検索対象文書を新しいサンプル文書の候補として決定する新サンプル文書候補決定手段と、
を備えることを特徴とする請求項2または請求項3に記載の文書検索装置。 A keyword inclusion paragraph determining means for determining a keyword inclusion paragraph in which the keyword is included in the representative search target document based on a result of a full text search of the representative search target document using the keyword in the search content description paragraph;
The combination of the type of document structure of the representative search target document and the paragraph position in the representative search target document of the keyword inclusion paragraph, and the document structure held by the search condition data stored in the search condition data recording means New sample document candidate determination means for determining the representative search target document holding the keyword-inclusive paragraph as a new sample document candidate based on a comparison of the combination of the type and the paragraph position of the search content description paragraph;
The document search apparatus according to claim 2, further comprising:
前記行種類に基づいて前記サンプル文書または前記代表検索対象文書いずれかの文書における段落先頭位置を決定する段落先頭位置決定手段と、
前記サンプル文書または前記代表検索対象文書いずれかの文書において、前記段落先頭位置の行から次の段落先頭位置の行の前の行までを1つの段落と決定する段落決定手段と、
前記段落種類を、段落に含まれる行の前記行種類に基づいて決定する段落種類決定手段と、
を備えることを特徴とする請求項2から請求項4のいずれかに記載の文書検索装置。 Line type determining means for determining the line type of each line in the document of either the sample document or the representative search target document based on the description content in the line;
Paragraph start position determining means for determining a paragraph start position in either the sample document or the representative search target document based on the line type;
Paragraph determining means for determining, from the sample document or the representative search target document, one paragraph from the line at the paragraph head position to the line before the line at the next paragraph head position;
Paragraph type determining means for determining the paragraph type based on the line type of a line included in the paragraph;
5. The document search apparatus according to claim 2, further comprising:
前記複数の検索対象文書から所定の割合で抽出した複数の代表検索対象文書についてそれぞれ段落分けする第1の段落分け過程と、
前記代表検索対象文書それぞれの段落分けに基づいて、前記代表検索対象文書それぞれの文書構造を分類する文書構造分類過程と、
前記分類された前記文書構造の情報を前記文書構造の種類毎に文書構造記憶手段に記録する文書構造記録過程と、
前記サンプル文書を段落分けする第2の段落分け過程と、
前記サンプル文書の段落分けの結果と前記文書構造記憶手段で記憶している前記文書構造の情報とに基づいて、前記サンプル文書の文書構造の種類を検出するサンプル文書構造検出過程と、
前記サンプル文書中において前記ユーザが指定した検索内容記載段落の段落位置と前記検索内容記載段落中に含まれるキーワードと前記検索内容記載段落中の記載内容を示す段落種類と前記サンプル文書の文書構造の種類とを保持する検索条件データを作成する検索条件データ作成過程と、
前記検索条件データを検索条件データ記憶手段に記録する検索条件データ記録過程と、
前記複数の検索対象文書うちの任意の検索対象文書について段落分けする第3の段落分け過程と、
前記第3の段落分け過程による段落分けの結果と前記文書構造記憶手段で記憶している前記文書構造の情報とに基づいて、前記任意の検索対象文書の文書構造の種類を検出する検索対象文書構造検出過程と、
前記任意の検索対象文書の文書構造の種類を保持する前記検索条件データが前記検索条件データ記憶手段に記録されている場合に、その前記検索条件データを前記検索条件データ記憶手段から読み取る検索条件データ読み取り過程と、
その読み取った検索条件データに保持される前記検索内容記載段落の位置と前記段落種類とに基づいて、前記任意の検索対象文書中における検索判定用段落を特定する段落特定過程と、
前記検索条件データ読み取り過程において読み取った前記検索条件データの保持するキーワードを用いて前記検索内容記載段落の全文検索を行ない、その全文検索の結果に基づいて前記任意の検索対象文書を検索結果として出力するか否かを判定する検索過程と、
を有することを特徴とする文書検索方法。 A document search method of a document search device for searching a search target document similar to a sample document from a plurality of search target documents,
A first paragraph dividing process of dividing each of the plurality of representative search target documents extracted from the plurality of search target documents at a predetermined ratio;
A document structure classification process for classifying the document structure of each of the representative search target documents based on the paragraph classification of each of the representative search target documents;
A document structure recording step of recording the classified document structure information in a document structure storage unit for each type of the document structure;
A second paragraphing process for dividing the sample document into paragraphs;
A sample document structure detection step of detecting a document structure type of the sample document based on the result of the paragraph division of the sample document and the information of the document structure stored in the document structure storage unit;
The paragraph position of the search content description paragraph specified by the user in the sample document, the keyword included in the search content description paragraph, the paragraph type indicating the description content in the search content description paragraph, and the document structure of the sample document Search condition data creation process for creating search condition data that holds the type,
A search condition data recording process for recording the search condition data in a search condition data storage means;
A third paragraph dividing process of dividing a plurality of search target documents into arbitrary search target documents;
A search target document for detecting a document structure type of the arbitrary search target document based on a result of the paragraph division by the third paragraph division process and information on the document structure stored in the document structure storage unit Structure detection process;
Search condition data for reading the search condition data from the search condition data storage means when the search condition data holding the type of document structure of the arbitrary search target document is recorded in the search condition data storage means Reading process,
A paragraph specifying process for specifying a search determination paragraph in the arbitrary search target document based on the position of the search content description paragraph held in the read search condition data and the paragraph type;
The full text search of the paragraph containing the search content is performed using a keyword held in the search condition data read in the search condition data reading process, and the arbitrary search target document is output as a search result based on the result of the full text search A search process for determining whether to
A document search method characterized by comprising:
前記複数の検索対象文書から所定の割合で抽出した複数の代表検索対象文書についてそれぞれ段落分けする第1の段落分け処理と、
前記代表検索対象文書それぞれの段落分けに基づいて、前記代表検索対象文書それぞれの文書構造を分類する文書構造分類処理と、
前記分類された前記文書構造の情報を前記文書構造の種類毎に文書構造記憶手段に記録する文書構造記録処理と、
前記サンプル文書を段落分けする第2の段落分け処理と、
前記サンプル文書の段落分けの結果と前記文書構造記憶手段で記憶している前記文書構造の情報とに基づいて、前記サンプル文書の文書構造の種類を検出するサンプル文書構造検出処理と、
前記サンプル文書中において前記ユーザが指定した検索内容記載段落の段落位置と前記検索内容記載段落中に含まれるキーワードと前記検索内容記載段落中の記載内容を示す段落種類と前記サンプル文書の文書構造の種類とを保持する検索条件データを作成する検索条件データ作成処理と、
前記検索条件データを検索条件データ記憶手段に記録する検索条件データ記録処理と、
前記複数の検索対象文書うちの任意の検索対象文書について段落分けする第3の段落分け処理と、
前記第3の段落分け処理による段落分けの結果と前記文書構造記憶手段で記憶している前記文書構造の情報とに基づいて、前記任意の検索対象文書の文書構造の種類を検出する検索対象文書構造検出処理と、
前記任意の検索対象文書の文書構造の種類を保持する前記検索条件データが前記検索条件データ記憶手段に記録されている場合に、その前記検索条件データを前記検索条件データ記憶手段から読み取る検索条件データ読み取り処理と、
その読み取った検索条件データに保持される前記検索内容記載段落の位置と前記段落種類とに基づいて、前記任意の検索対象文書中における検索判定用段落を特定する段落特定処理と、
前記検索条件データ読み取り処理において読み取った前記検索条件データの保持するキーワードを用いて前記検索内容記載段落の全文検索を行ない、その全文検索の結果に基づいて前記任意の検索対象文書を検索結果として出力するか否かを判定する検索処理と、
をコンピュータに実行させるプログラム。
A program for causing a computer of a document search device to search for a search target document similar to a sample document from a plurality of search target documents,
A first paragraph dividing process for dividing each of the plurality of representative search target documents extracted from the plurality of search target documents at a predetermined ratio;
A document structure classification process for classifying the document structure of each of the representative search target documents based on the paragraph classification of each of the representative search target documents;
A document structure recording process for recording the classified document structure information in a document structure storage unit for each type of the document structure;
A second paragraph dividing process for dividing the sample document into paragraphs;
A sample document structure detection process for detecting a document structure type of the sample document based on the result of the paragraph division of the sample document and the information of the document structure stored in the document structure storage unit;
The paragraph position of the search content description paragraph specified by the user in the sample document, the keyword included in the search content description paragraph, the paragraph type indicating the description content in the search content description paragraph, and the document structure of the sample document Search condition data creation processing for creating search condition data that holds the type,
A search condition data recording process for recording the search condition data in a search condition data storage means;
A third paragraph-separating process for paragraph-separating an arbitrary search target document among the plurality of search target documents;
A search target document for detecting a document structure type of the arbitrary search target document based on the result of the paragraph division by the third paragraph division processing and the information of the document structure stored in the document structure storage unit Structure detection processing;
Search condition data for reading the search condition data from the search condition data storage means when the search condition data holding the type of document structure of the arbitrary search target document is recorded in the search condition data storage means Reading process,
Paragraph specifying processing for specifying a search determination paragraph in the arbitrary search target document based on the position and paragraph type of the search content description paragraph held in the read search condition data;
A full text search of the paragraph containing the search content is performed using a keyword held in the search condition data read in the search condition data reading process, and the arbitrary search target document is output as a search result based on the result of the full text search Search processing for determining whether or not to perform,
A program that causes a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003344448A JP2005108158A (en) | 2003-10-02 | 2003-10-02 | Document retrieval apparatus and method, and program for same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003344448A JP2005108158A (en) | 2003-10-02 | 2003-10-02 | Document retrieval apparatus and method, and program for same |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005108158A true JP2005108158A (en) | 2005-04-21 |
Family
ID=34538076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003344448A Withdrawn JP2005108158A (en) | 2003-10-02 | 2003-10-02 | Document retrieval apparatus and method, and program for same |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005108158A (en) |
-
2003
- 2003-10-02 JP JP2003344448A patent/JP2005108158A/en not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2000075809A1 (en) | Information sorting method, information sorter, recorded medium on which information sorting program is recorded | |
CN103430172A (en) | Search apparatus, search method, and program | |
JP2007310734A (en) | Retrieval device | |
JP2000200281A (en) | Device and method for information retrieval and recording medium where information retrieval program is recorded | |
US20040267737A1 (en) | Database search system | |
US6620207B1 (en) | Method and apparatus for processing chinese teletext | |
JP4719921B2 (en) | Data display device and data display program | |
JP5179564B2 (en) | Query segment position determination device | |
JP7180767B2 (en) | Response processing program, response processing method, and information processing device | |
JPH06215035A (en) | Text retrieving device | |
JP2004118476A (en) | Electronic dictionary equipment, retrieval result display method for electronic dictionary, its program, and recording medium | |
JP2005346486A (en) | Document retrieval device | |
JP2005108158A (en) | Document retrieval apparatus and method, and program for same | |
JPH07134720A (en) | Method and device for presenting relative information in sentence preparing system | |
JP4525224B2 (en) | Document management program, document management method, and document management apparatus | |
JPH10162011A (en) | Information retrieval method, information retrieval system, information retrieval terminal equipment, and information retrieval device | |
JP2009181524A (en) | Document search system and document search method | |
JP4574186B2 (en) | Important language identification method, important language identification program, important language identification device, document search device, and keyword extraction device | |
JPH06195386A (en) | Data retriever | |
JPH08314950A (en) | Retrieval method and device for text | |
JP3861105B2 (en) | Question answering system | |
JP5344649B2 (en) | Character string conversion apparatus, character string conversion method, program, and recording medium | |
JP2001325293A (en) | Method and device for retrieving whole sentences and storage medium with stored whole-sentence retrieval program | |
JPH04281558A (en) | Document retrieving device | |
JPH04169971A (en) | Document retrieving device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20061205 |