JP2006251935A - Document retrieval device, document retrieval method and document retrieval program - Google Patents

Document retrieval device, document retrieval method and document retrieval program Download PDF

Info

Publication number
JP2006251935A
JP2006251935A JP2005064680A JP2005064680A JP2006251935A JP 2006251935 A JP2006251935 A JP 2006251935A JP 2005064680 A JP2005064680 A JP 2005064680A JP 2005064680 A JP2005064680 A JP 2005064680A JP 2006251935 A JP2006251935 A JP 2006251935A
Authority
JP
Japan
Prior art keywords
document
search
conforming
classification
classification parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005064680A
Other languages
Japanese (ja)
Other versions
JP4754849B2 (en
Inventor
Atsuyuki Goto
淳之 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2005064680A priority Critical patent/JP4754849B2/en
Publication of JP2006251935A publication Critical patent/JP2006251935A/en
Application granted granted Critical
Publication of JP4754849B2 publication Critical patent/JP4754849B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To improve the precision of document retrieval as for a document retrieval device, document retrieval method and document retrieval program. <P>SOLUTION: A document retrieval device 100 is provided with a retrieval word extracting part 201 for extracting a retrieval word from a retrieval sentence designated by a retriever being an operator, a relevant document retrieving part 202 for retrieving a relevant document from a document group, a conforming document designating part 203 for designating a conforming document from the relevant document according to the operation of a retriever to an input/output part 230, a relevant word extracting part 204 for extracting a relevant word based on the conforming document, a non-conforming document extracting part 205 for extracting any non-conforming document which is not the conforming document, a learning part 206 for generating a parameter for classification by using the conforming document and the non-conforming document, a pre-filtering part 207 for verifying the validity of the parameter for classification and a classifying part 208 for classifying the adaptive document from the relevant document by using a parameter for classification whose validity is verified by the pre-filtering part 207. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

この発明は、文書検索装置、文書検索方法、および文書検索プログラムに関する。   The present invention relates to a document search device, a document search method, and a document search program.

文書検索における課題は、いかに効率よく目的とする文書を探し当てるかにある。この課題を解決するために、従来の文書検索では、キーワードを論理演算子と組み合わせて文書検索を行い、ここで得られた検索結果に対し新たなキーワードと論理演算子とを組み合わせて検索結果の絞込みを行っていた。特に、検索者が検索結果の一部から適合文書を選択して学習データとして与えれば、全文検索文書サーバが管理する全文書を適合文書と不適合文書に分類するための分類用パラメータを生成でき、検索者に適合文書のみを提示(フィルタリング)することが可能であった。   The problem in document search is how to efficiently find the target document. In order to solve this problem, in the conventional document search, a keyword is combined with a logical operator to perform a document search, and the search result obtained here is combined with a new keyword and a logical operator. I was narrowing down. In particular, if a searcher selects a conforming document from a part of a search result and gives it as learning data, a classification parameter for classifying all documents managed by the full-text search document server into a conforming document and a nonconforming document can be generated. It was possible to present (filter) only relevant documents to the searcher.

しかしながら、従来技術では、全文検索文書サーバが管理する全文書からフィルタリングによって取り出した適合文書に、学習データとして指定した適合文書が含まれる保障がないという問題がある。具体的には、次のような場合が考えられる。   However, the conventional technique has a problem that there is no guarantee that the conforming document specified as the learning data is included in the conforming document extracted by filtering from all the documents managed by the full-text search document server. Specifically, the following cases can be considered.

第一に、分類用パラメータに学習データである適合文書の単語が十分に反映されない場合、その適合文書は、フィルタリング処理で不適合文書として扱われるおそれがある。   First, when the words of the conforming document, which is the learning data, are not sufficiently reflected in the classification parameters, the conforming document may be handled as a nonconforming document in the filtering process.

第二に、適合文書に含まれない単語で不適合文書に含まれる単語が分類用パラメータになり、単純検索すると適合文書がヒットしまうおそれがある。たとえば、『リーン』が分類用パラメータに選ばれ、単純検索すると『リン』を含む適合文書がヒットするような場合である。これは、検索モジュールが単語『リーン』を正規化し、『リン』と同一視するための副作用が生じる。このとき、適合文書は『リーン』が含まれているとみなされ、分類用パラメータ『リーン』に対応する重みが減じられ、その結果、不適合文書に分類されることになる。   Secondly, words that are not included in the conforming document and included in the nonconforming document become classification parameters, and if the simple search is performed, the conforming document may be hit. For example, “Lean” is selected as a parameter for classification, and a simple search results in a hit with a matching document containing “Lin”. This has the side effect of causing the search module to normalize the word “lean” and identify it with “lin”. At this time, the conforming document is regarded as including “lean”, the weight corresponding to the classification parameter “lean” is reduced, and as a result, the document is classified as a nonconforming document.

第三に、部分文字列の一部が分類用パラメータになる場合、文書検索に不具合が生じるおそれがある。たとえば、分類用パラメータとして、『京都』が選択され、『京都』で単純検索すると『東京都』を含む文書もヒットする。すなわち、不適合文書が単語『京都』、適合文書が単語『東京都』を含む場合がこれに該当する。   Third, when a part of the partial character string is used as a classification parameter, there is a possibility that a document search may fail. For example, “Kyoto” is selected as the classification parameter, and a simple search for “Kyoto” also hits documents containing “Tokyo”. That is, this is the case when the nonconforming document includes the word “Kyoto” and the conforming document includes the word “Tokyo”.

以上のような不具合は、検索者が文書検索装置に対し学習データとして適合文書を指定したのに、フィルタリング結果にそれらの適合文書が現れないのは検索者にとり大きな不満になる。   The above-described problems make it very unsatisfactory for the searcher that the searcher designates the matching document as learning data to the document search apparatus, but the matching document does not appear in the filtering result.

この発明は、上述した従来技術による問題点を解消するため、検索者が学習データとして指定した適合文書が必ず文書検索した結果に含まれるようにすることで文書検索用の分類用パラメータが補正され、良好な文書検索結果が得られる文書検索装置、文書検索方法、および文書検索プログラムを提供することを目的とする。   In order to eliminate the above-described problems caused by the prior art, this invention corrects the classification parameters for document retrieval by ensuring that the relevant document specified as the learning data by the searcher is included in the document retrieval result. An object of the present invention is to provide a document search apparatus, a document search method, and a document search program that can obtain a good document search result.

上述した課題を解決し、目的を達成するため、この発明の請求項1にかかる文書検索装置は、操作命令を受け付ける操作手段と、前記操作手段に対する検索者の入力操作に応じて検索用の語句を検索語として抽出する検索語抽出手段と、電子化された複数の文書を文書群として蓄積する蓄積手段と、前記蓄積手段に蓄積されている文書群から、前記検索語抽出手段により抽出された前記検索語を含む文書を関連文書として検索する第1の関連文書検索手段と、表示動作を行う表示手段と、前記第1の関連文書検索手段による検索結果を前記表示手段に表示させる第1の表示制御手段と、前記操作手段に対する検索者の入力操作に応じて、前記第1の関連文書検索手段により検索された複数の前記関連文書から検索者が求める適合文書を指定する適合文書指定手段と、前記適合文書指定手段により指定された前記適合文書に基づいて検索用の語句を関連語として抽出する関連語抽出手段と、前記蓄積手段に蓄積されている文書群から、前記関連語抽出手段により抽出された前記関連語を含む文書を関連文書として検索する第2の関連文書検索手段と、前記第2の関連文書検索手段により検索された複数の前記関連文書から、前記適合文書指定手段により指定された前記適合文書に基づいて検索者が求めない不適合文書を抽出する不適合文書抽出手段と、前記適合文書指定手段により指定された前記適合文書および前記不適合文書抽出手段により抽出された前記不適合文書に基づいて分類用パラメータを生成する学習手段と、前記学習手段により生成された前記分類用パラメータの妥当性を検証するプレフィルタリング手段と、前記プレフィルタリング手段で妥当性が検証された分類用パラメータを検索語として、前記蓄積手段に蓄積されている文書群に対して再検索を行う第3の関連文書検索手段と、前記第3の関連文書検索手段による再検索結果に対して、前記プレフィルタリング手段で妥当性が検証された分類用パラメータに基づいて前記適合文書を分類する分類手段と、前記分類手段による分類結果を前記表示手段に表示させる第2の表示制御手段と、を備えていることを特徴とする。   In order to solve the above-described problems and achieve the object, a document search apparatus according to claim 1 of the present invention includes an operation unit that receives an operation command, and a search word / phrase according to an input operation of a searcher to the operation unit. Extracted from the search term extraction means, the storage means for storing a plurality of digitized documents as a document group, and the document group stored in the storage means. First related document search means for searching for a document including the search word as a related document, display means for performing a display operation, and a first result for causing the display means to display a search result by the first related document search means. In accordance with an input operation of the searcher with respect to the display control unit and the operation unit, a matching document desired by the searcher is specified from the plurality of related documents searched by the first related document search unit. From the document group stored in the storage means, the relevant word extraction means for extracting a search word / phrase as a related word based on the relevant document designated by the relevant document designation means, A second related document search unit that searches for a document including the related word extracted by the related word extraction unit as a related document, and the matching from a plurality of the related documents searched by the second related document search unit Based on the conforming document designated by the document designating means, a nonconforming document extracting means for extracting a nonconforming document that the searcher does not seek, the conforming document designated by the conforming document designating means, and the nonconforming document extracting means are extracted. Learning means for generating a classification parameter based on the non-conforming document, and validity of the classification parameter generated by the learning means. And a third related document search for performing a re-search on the document group stored in the storage means using the classification parameters verified by the pre-filtering means as search terms A classification means for classifying the relevant document based on a classification parameter verified by the pre-filtering means for a re-search result obtained by the third related document retrieval means, and by the classification means And a second display control means for displaying the classification result on the display means.

この請求項1に記載の発明によれば、検索者が指定した適合文書に基づく関連文書の検索に際し、蓄積手段などで管理されている全文書からフィルタリングによって取り出した適合文書に、必ず学習データとして指定した適合文書が含まれるため、文書検索の精度を向上させることができる。   According to the first aspect of the present invention, when searching for a related document based on a conforming document designated by a searcher, the conforming document extracted by filtering from all the documents managed by the storage means is always used as learning data. Since the specified conforming document is included, the accuracy of document retrieval can be improved.

また、請求項2にかかる文書検索装置は、請求項1に記載の発明において、前記プレフィルタリング手段が、前記学習手段が生成した分類用パラメータによって、前記適合文書と前記不適合文書が正確に適合文書と不適合文書とに分類されるように前記分類用パラメータを補正することを特徴とする。   According to a second aspect of the present invention, there is provided the document retrieval apparatus according to the first aspect, wherein the pre-filtering unit accurately determines that the conforming document and the non-conforming document are conforming documents based on the classification parameters generated by the learning unit. The classification parameters are corrected so as to be classified into non-conforming documents.

この請求項2に記載の発明によれば、文書検索に用いる分類用のパラメータの精度を向上させることができる。   According to the second aspect of the present invention, it is possible to improve the accuracy of classification parameters used for document retrieval.

また、請求項3にかかる文書検索装置は、請求項2に記載の発明において、前記プレフィルタリング手段が、妥当でない分類用パラメータを検出した際には、当該分類用パラメータを削除することを特徴とする。   The document retrieval apparatus according to claim 3 is characterized in that, in the invention according to claim 2, when the pre-filtering means detects an invalid classification parameter, the classification parameter is deleted. To do.

この請求項3に記載の発明によれば、妥当でない分類用パラメータが用いられるような不具合を回避することができる。   According to the third aspect of the present invention, it is possible to avoid a problem that an invalid classification parameter is used.

また、請求項4にかかる文書検索方法は、操作を受け付ける操作手段に対する検索者の入力操作に応じて検索用の語句を検索語として抽出する検索語抽出工程と、電子化された複数の文書を文書群として蓄積する蓄積手段に蓄積されている文書群から、前記検索語抽出工程により抽出された前記検索語を含む文書を関連文書として検索する第1の関連文書検索工程と、前記第1の関連文書検索工程による検索結果を表示させる第1の検索結果表示工程と、前記操作手段に対する検索者の入力操作に応じて、前記第1の関連文書検索工程により検索された複数の前記関連文書から検索者が求める適合文書を指定する適合文書指定工程と、前記適合文書指定工程により指定された前記適合文書に基づいて検索用の語句を関連語として抽出する関連語抽出工程と、前記蓄積手段に蓄積されている文書群から、前記関連語抽出工程により抽出された前記関連語を含む文書を関連文書として検索する第2の関連文書検索工程と、前記第2の関連文書検索工程により検索された複数の前記関連文書から、前記適合文書指定工程により指定された前記適合文書に基づいて検索者が求めない不適合文書を抽出する不適合文書抽出工程と、前記適合文書指定工程により指定された前記適合文書および前記不適合文書抽出工程により抽出された前記不適合文書に基づいて分類用パラメータを生成する分類用パラメータ生成工程と、前記分類用パラメータ生成工程により生成された前記分類用パラメータの妥当性を検証するプレフィルタリング工程と、前記プレフィルタリング工程で妥当性が検証された分類用パラメータを検索語として、前記蓄積手段に蓄積されている文書群に対して再検索を行う第3の関連文書検索工程と、前記第3の関連文書検索工程による再検索結果に対して、前記プレフィルタリング工程で妥当性が検証された分類用パラメータに基づいて前記適合文書を分類する適合文書分類工程と、前記適合文書分類工程による分類結果を表示する第2の表示工程と、を含むことを特徴とする。   According to a fourth aspect of the present invention, there is provided a document search method for extracting a search word / phrase as a search word in response to a searcher's input operation to an operation means for receiving an operation, and a plurality of digitized documents. A first related document search step of searching a document containing the search word extracted by the search word extraction step as a related document from a document group stored in a storage unit for storing as a document group; A first search result display step for displaying a search result in a related document search step, and a plurality of the related documents searched in the first related document search step in response to an input operation of a searcher to the operation means. A relevant document designating step for designating a relevant document requested by a searcher, and a related word extracting a search word / phrase based on the relevant document designated by the relevant document designating step. An extraction step; a second related document search step for searching as a related document a document including the related word extracted by the related word extraction step from the document group stored in the storage means; and the second A non-conforming document extraction step for extracting non-conforming documents that a searcher does not seek based on the conforming document designated by the conforming document designation step from the plurality of related documents retrieved by the related document retrieval step, and the conforming document designation A classification parameter generating step for generating a classification parameter based on the conforming document specified in the process and the nonconforming document extracted by the nonconforming document extracting step; and the classification parameter generated by the classification parameter generating step. A pre-filtering step for verifying the validity of parameters, and the amount of validity verified in the pre-filtering step. A third related document search step for performing a re-search on the document group stored in the storage means using a search parameter as a search term, and a re-search result by the third related document search step, Including a conforming document classification step of classifying the conforming document based on the classification parameter verified in the pre-filtering step, and a second display step of displaying a classification result by the conforming document classification step. Features.

この請求項4に記載の発明によれば、検索者が指定した適合文書に基づく関連文書の検索に際し、蓄積手段などで管理されている全文書からフィルタリングによって取り出した適合文書に、必ず学習データとして指定した適合文書が含まれるため、文書検索の精度を向上させることができる。   According to the fourth aspect of the present invention, when searching for related documents based on a conforming document designated by a searcher, the conforming document extracted by filtering from all the documents managed by the storage means is always used as learning data. Since the specified conforming document is included, the accuracy of document retrieval can be improved.

また、請求項5にかかる文書検索方法は、請求項4に記載の発明において、前記プレフィルタリング工程が、前記分類用パラメータ生成工程により生成された分類用パラメータによって、前記適合文書と前記不適合文書が正確に適合文書と不適合文書とに分類されるように前記分類用パラメータを補正することを特徴とする。   According to a fifth aspect of the present invention, there is provided the document retrieval method according to the fourth aspect, wherein the pre-filtering step determines whether the conforming document and the non-conforming document are based on the classification parameter generated by the classification parameter generation step. The classification parameter is corrected so as to be accurately classified into a conforming document and a nonconforming document.

この請求項5に記載の発明によれば、文書検索に用いる分類用のパラメータの精度を向上させることができる。   According to the fifth aspect of the present invention, it is possible to improve the accuracy of classification parameters used for document retrieval.

また、請求項6にかかる文書検索方法は、請求項5に記載の発明において、前記プレフィルタリング工程が、妥当でない分類用パラメータを検出した際には、当該分類用パラメータを削除することを特徴とする。   The document search method according to claim 6 is characterized in that, in the invention according to claim 5, when the pre-filtering step detects an invalid classification parameter, the classification parameter is deleted. To do.

この請求項6に記載の発明によれば、妥当でない分類用パラメータが用いられるような不具合を回避することができる。   According to the sixth aspect of the present invention, it is possible to avoid a problem that an invalid classification parameter is used.

また、請求項7にかかる文書検索プログラムは、請求項4〜6のいずれか一つに記載の文書検索方法をコンピュータに実行させることを特徴とする。   A document search program according to a seventh aspect causes a computer to execute the document search method according to any one of the fourth to sixth aspects.

この請求項7に記載の発明によれば、請求項4〜6のいずれか一つに記載の文書検索方法をコンピュータに実行させることができる。   According to the seventh aspect of the present invention, the computer can execute the document search method according to any one of the fourth to sixth aspects.

以上説明したように、請求項1に記載の発明によれば、操作命令を受け付ける操作手段と、前記操作手段に対する検索者の入力操作に応じて検索用の語句を検索語として抽出する検索語抽出手段と、電子化された複数の文書を文書群として蓄積する蓄積手段と、前記蓄積手段に蓄積されている文書群から、前記検索語抽出手段により抽出された前記検索語を含む文書を関連文書として検索する第1の関連文書検索手段と、表示動作を行う表示手段と、前記第1の関連文書検索手段による検索結果を前記表示手段に表示させる第1の表示制御手段と、前記操作手段に対する検索者の入力操作に応じて、前記第1の関連文書検索手段により検索された複数の前記関連文書から検索者が求める適合文書を指定する適合文書指定手段と、前記適合文書指定手段により指定された前記適合文書に基づいて検索用の語句を関連語として抽出する関連語抽出手段と、前記蓄積手段に蓄積されている文書群から、前記関連語抽出手段により抽出された前記関連語を含む文書を関連文書として検索する第2の関連文書検索手段と、前記第2の関連文書検索手段により検索された複数の前記関連文書から、前記適合文書指定手段により指定された前記適合文書に基づいて検索者が求めない不適合文書を抽出する不適合文書抽出手段と、前記適合文書指定手段により指定された前記適合文書および前記不適合文書抽出手段により抽出された前記不適合文書に基づいて分類用パラメータを生成する学習手段と、前記学習手段により生成された前記分類用パラメータの妥当性を検証するプレフィルタリング手段と、前記プレフィルタリング手段で妥当性が検証された分類用パラメータを検索語として、前記蓄積手段に蓄積されている文書群に対して再検索を行う第3の関連文書検索手段と、前記第3の関連文書検索手段による再検索結果に対して、前記プレフィルタリング手段で妥当性が検証された分類用パラメータに基づいて前記適合文書を分類する分類手段と、前記分類手段による分類結果を前記表示手段に表示させる第2の表示制御手段と、を備えているので、検索者が指定した適合文書に基づく関連文書の検索に際し、蓄積手段などで管理されている全文書からフィルタリングによって取り出した適合文書に、必ず学習データとして指定した適合文書が含まれるため、文書検索の精度を向上させることができるという効果を奏する。   As described above, according to the first aspect of the present invention, the operation means for accepting the operation command and the search word extraction for extracting the search word / phrase as the search word in accordance with the searcher's input operation to the operation means Means, storage means for storing a plurality of digitized documents as a document group, and a document containing the search word extracted by the search word extraction means from the document group stored in the storage means. A first related document search means for searching as a display means, a display means for performing a display operation, a first display control means for causing the display means to display a search result by the first related document search means, and an operation means A conforming document designating unit for designating a conforming document requested by the retriever from a plurality of the related documents retrieved by the first related document retrieving unit in response to an input operation by the retriever; A related word extracting means for extracting a search word / phrase as a related word based on the relevant document designated by the determining means, and the related word extracting means extracted from the document group stored in the accumulating means. A second related document search means for searching for a document including a related word as a related document; and the matching specified by the matching document specifying means from a plurality of the related documents searched by the second related document search means Non-conforming document extracting means for extracting non-conforming documents that the searcher does not seek based on the document, the conforming document specified by the conforming document specifying means, and the non-conforming document extracted by the non-conforming document extracting means Learning means for generating parameters, and pre-filtering means for verifying the validity of the classification parameters generated by the learning means A third related document search means for performing a re-search on the document group stored in the storage means, using the classification parameter verified by the pre-filtering means as a search word, and the third A classification unit that classifies the conforming document based on a classification parameter verified by the pre-filtering unit with respect to a re-search result by the related document retrieval unit, and a classification result by the classification unit in the display unit. A second display control means for displaying, so that when searching for related documents based on the relevant document designated by the searcher, the relevant documents extracted by filtering from all the documents managed by the storage means, Since the matching document specified as the learning data is always included, the document search accuracy can be improved.

また、請求項2に記載の発明によれば、請求項1に記載の発明において、前記プレフィルタリング手段が、前記学習手段が生成した分類用パラメータによって、前記適合文書と前記不適合文書が正確に適合文書と不適合文書とに分類されるように前記分類用パラメータを補正するので、文書検索に用いる分類用のパラメータの精度を向上させることができるという効果を奏する。   According to the invention described in claim 2, in the invention described in claim 1, the pre-filtering unit accurately matches the conforming document and the non-conforming document according to the classification parameter generated by the learning unit. Since the classification parameter is corrected so as to be classified into a document and a non-conforming document, the accuracy of the classification parameter used for document search can be improved.

また、請求項3に記載の発明によれば、請求項2に記載の発明において、前記プレフィルタリング手段が、妥当でない分類用パラメータを検出した際には、当該分類用パラメータを削除するので、妥当でない分類用パラメータが用いられるような不具合を回避することができるという効果を奏する。   According to the invention described in claim 3, in the invention described in claim 2, when the pre-filtering unit detects an invalid classification parameter, the classification parameter is deleted. Thus, there is an effect that it is possible to avoid such a problem that non-classifying parameters are used.

また、請求項4に記載の発明によれば、操作を受け付ける操作手段に対する検索者の入力操作に応じて検索用の語句を検索語として抽出する検索語抽出工程と、電子化された複数の文書を文書群として蓄積する蓄積手段に蓄積されている文書群から、前記検索語抽出工程により抽出された前記検索語を含む文書を関連文書として検索する第1の関連文書検索工程と、前記第1の関連文書検索工程による検索結果を表示させる第1の検索結果表示工程と、前記操作手段に対する検索者の入力操作に応じて、前記第1の関連文書検索工程により検索された複数の前記関連文書から検索者が求める適合文書を指定する適合文書指定工程と、前記適合文書指定工程により指定された前記適合文書に基づいて検索用の語句を関連語として抽出する関連語抽出工程と、前記蓄積手段に蓄積されている文書群から、前記関連語抽出工程により抽出された前記関連語を含む文書を関連文書として検索する第2の関連文書検索工程と、前記第2の関連文書検索工程により検索された複数の前記関連文書から、前記適合文書指定工程により指定された前記適合文書に基づいて検索者が求めない不適合文書を抽出する不適合文書抽出工程と、前記適合文書指定工程により指定された前記適合文書および前記不適合文書抽出工程により抽出された前記不適合文書に基づいて分類用パラメータを生成する分類用パラメータ生成工程と、前記分類用パラメータ生成工程により生成された前記分類用パラメータの妥当性を検証するプレフィルタリング工程と、前記プレフィルタリング工程で妥当性が検証された分類用パラメータを検索語として、前記蓄積手段に蓄積されている文書群に対して再検索を行う第3の関連文書検索工程と、前記第3の関連文書検索工程による再検索結果に対して、前記プレフィルタリング工程で妥当性が検証された分類用パラメータに基づいて前記適合文書を分類する適合文書分類工程と、前記適合文書分類工程による分類結果を表示する第2の表示工程と、を含むので、検索者が指定した適合文書に基づく関連文書の検索に際し、蓄積手段などで管理されている全文書からフィルタリングによって取り出した適合文書に、必ず学習データとして指定した適合文書が含まれるため、文書検索の精度を向上させることができるという効果を奏する。   According to the invention described in claim 4, a search word extracting step of extracting a search word / phrase as a search word in response to a searcher's input operation to an operation means for receiving an operation, and a plurality of digitized documents A first related document search step for searching a document including the search word extracted by the search word extraction step as a related document from the document group stored in the storage means for storing the document as a document group, and the first A first search result display step for displaying a search result of the related document search step, and a plurality of the related documents searched by the first related document search step in response to an input operation of a searcher to the operation means A matching document designating step for designating a matching document requested by a searcher from the search term, and a related term for extracting a search word / phrase as a related term based on the matching document designated by the matching document designating step A second related document search step for searching as a related document a document including the related word extracted by the related word extraction step from the document group stored in the storage means, and the second related document search step A non-conforming document extraction step for extracting non-conforming documents that a searcher does not seek based on the conforming document designated by the conforming document designation step from the plurality of related documents retrieved by the related document retrieval step, and the conforming document designation A classification parameter generating step for generating a classification parameter based on the conforming document specified in the process and the nonconforming document extracted by the nonconforming document extracting step; and the classification parameter generated by the classification parameter generating step. Pre-filtering process for verifying validity of parameters, and classification for which validity has been verified in the pre-filtering process A third related document search step for re-searching the document group stored in the storage means using a parameter as a search term, and a re-search result obtained by the third related document search step for the pre-search. Since it includes a conforming document classification step for classifying the conforming document based on the classification parameter verified in the filtering step, and a second display step for displaying a classification result obtained by the conforming document classification step. When searching for related documents based on relevant documents specified by the user, the relevant documents specified as learning data are always included in the relevant documents extracted by filtering from all documents managed by the storage means. The effect that can be improved.

また、請求項5に記載の発明によれば、請求項4に記載の発明において、前記プレフィルタリング工程が、前記分類用パラメータ生成工程により生成された分類用パラメータによって、前記適合文書と前記不適合文書が正確に適合文書と不適合文書とに分類されるように前記分類用パラメータを補正するので、文書検索に用いる分類用のパラメータの精度を向上させることができるという効果を奏する。   According to the invention described in claim 5, in the invention described in claim 4, the pre-filtering step uses the classification parameter generated by the classification parameter generation step, and the conforming document and the non-conforming document are included. Since the classification parameter is corrected so that the document is correctly classified into the conforming document and the nonconforming document, the accuracy of the classification parameter used for document search can be improved.

また、請求項6に記載の発明によれば、請求項5に記載の発明において、前記プレフィルタリング工程が、妥当でない分類用パラメータを検出した際には、当該分類用パラメータを削除するので、妥当でない分類用パラメータが用いられるような不具合を回避することができるという効果を奏する。   Further, according to the invention described in claim 6, in the invention described in claim 5, when the pre-filtering step detects an invalid classification parameter, the classification parameter is deleted. Thus, there is an effect that it is possible to avoid such a problem that non-classifying parameters are used.

また、請求項7に記載の発明によれば、請求項4〜6のいずれか一つに記載の文書検索方法をコンピュータに実行させることによって、請求項4〜6のいずれか一つに記載の文書検索方法をコンピュータで実現することが可能なプログラムが得られるという効果を奏する。   In addition, according to the invention described in claim 7, by causing a computer to execute the document search method described in any one of claims 4 to 6, the document search method described in any one of claims 4 to 6 is provided. There is an effect that a program capable of realizing the document search method by a computer can be obtained.

以下、添付図面を参照して、この発明にかかる文書検索装置、文書検索方法、および文書検索プログラムの好適な実施の形態を詳細に説明する。   Exemplary embodiments of a document search device, a document search method, and a document search program according to the present invention will be explained below in detail with reference to the accompanying drawings.

(文書検索装置のハードウエア構成)
まず、この発明の実施の形態にかかる文書検索装置のハードウエア構成について説明する。図1は、この発明の実施の形態にかかる文書検索装置のハードウエア構成を示す図である。この文書検索装置100は、各種演算を行って装置全体を制御するCPU101と、各種のROMやRAMからなるメモリ102とを備えており、それらはバス103で接続されている。
(Hardware configuration of document retrieval device)
First, the hardware configuration of the document search apparatus according to the embodiment of the present invention will be described. FIG. 1 is a diagram showing a hardware configuration of a document search apparatus according to an embodiment of the present invention. The document retrieval apparatus 100 includes a CPU 101 that performs various calculations and controls the entire apparatus, and a memory 102 that includes various ROMs and RAMs, and these are connected by a bus 103.

バス103には、所定のインターフェースを介して、ハードディスクなどの磁気記憶装置104と、キーボードやマウスなどの入力装置105と、表示動作を行うLCDやCRTなどの表示装置106と、光ディスクなどの記憶媒体107を読み取る記憶媒体読取装置108とが接続されている。また、バス103には、ネットワーク110と通信を行う通信制御装置109が接続されている。なお、記憶媒体107としては、CDやDVDなどの光ディスク、光磁気ディスク、フレキシブルディスクなどの各種メディアが用いられる。また、記憶媒体読取装置108は、記憶媒体107の種類に応じて光ディスク装置、光磁気ディスク装置、フレキシブルディスク装置などが用いられる。   A bus 103 is connected to a magnetic storage device 104 such as a hard disk, an input device 105 such as a keyboard and a mouse, a display device 106 such as an LCD and a CRT, and a storage medium such as an optical disk via a predetermined interface. A storage medium reading device 108 for reading 107 is connected. In addition, a communication control device 109 that communicates with the network 110 is connected to the bus 103. As the storage medium 107, various media such as an optical disk such as a CD and a DVD, a magneto-optical disk, and a flexible disk are used. As the storage medium reading device 108, an optical disk device, a magneto-optical disk device, a flexible disk device, or the like is used according to the type of the storage medium 107.

磁気記憶装置104には、この発明のプログラムを文書検索プログラム120が記憶されている。この文書検索プログラム120は、記憶媒体107から記憶媒体読取装置108により読み取るか、あるいは、インターネットなどのネットワーク110からダウンロードするかなどして、磁気記憶装置104にインストールされたものである。このインストールにより文書検索装置100は動作可能な状態となる。なお、この文書検索プログラム120は、所定のOS上で動作するものであってもよい。また、特定のアプリケーションソフトの一部をなすものであってもよい。   The magnetic storage device 104 stores a document search program 120 for the program of the present invention. The document search program 120 is installed in the magnetic storage device 104 by reading from the storage medium 107 by the storage medium reading device 108 or by downloading from the network 110 such as the Internet. With this installation, the document search apparatus 100 becomes operable. The document search program 120 may operate on a predetermined OS. Further, it may be a part of specific application software.

また、この文書検索装置100がサーバ装置としてネットワーク110を介して端末装置に接続されているような場合には、検索者は文書検索装置100を端末装置により操作することができる。端末装置としては、たとえば、パーソナルコンピュータ、携帯情報端末(PDA)、携帯電話などの情報処理装置が用いられる。また、ネットワーク110としては、無線、有線及び放送波のいずれを用いたものでもよく、たとえば、LAN、WAN、インターネット、アナログ電話網、デジタル電話網、PHS(パーソナルハンディホンシステム)網、携帯電話網、衛星通信網などを利用することができる。   When the document search apparatus 100 is connected as a server apparatus to a terminal device via the network 110, the searcher can operate the document search apparatus 100 using the terminal apparatus. As the terminal device, for example, an information processing device such as a personal computer, a personal digital assistant (PDA), or a mobile phone is used. Further, the network 110 may be any of wireless, wired and broadcast waves. For example, LAN, WAN, Internet, analog telephone network, digital telephone network, PHS (Personal Handyphone System) network, mobile phone network Satellite communication networks can be used.

(文書検索の機能的構成)
次に、この発明の実施の形態にかかる文書検索装置の機能的構成について説明する。図2は、この発明の実施の形態にかかる文書検索装置の機能的構成を示すブロック図である。
(Functional structure of document search)
Next, a functional configuration of the document search apparatus according to the embodiment of the present invention will be described. FIG. 2 is a block diagram showing a functional configuration of the document search apparatus according to the embodiment of the present invention.

図2に示すように、この文書検索装置100は、電子化された複数の文書を文書群として蓄積している蓄積部であるデータベース(DB)210と、文書群から適合文書を抽出するための文書検索部220と、入出力部230とを備えている。なお、文書群は、電子化された複数の文書から構成されている。   As shown in FIG. 2, the document search apparatus 100 includes a database (DB) 210 that is a storage unit that stores a plurality of digitized documents as a document group, and for extracting a matching document from the document group. A document search unit 220 and an input / output unit 230 are provided. The document group is composed of a plurality of digitized documents.

データベース210は磁気記憶装置104により構成されており、入出力部230は入力装置105および表示装置106により構成されている。ここで、入出力部230は操作部および表示部として機能する。なお、データベース210は、磁気記憶装置104で構成されているが、これに限るものではなく、たとえば、ネットワーク110を介して文書検索装置100に接続されていてもよい。   The database 210 is configured by the magnetic storage device 104, and the input / output unit 230 is configured by the input device 105 and the display device 106. Here, the input / output unit 230 functions as an operation unit and a display unit. The database 210 is configured by the magnetic storage device 104, but is not limited thereto, and may be connected to the document search device 100 via the network 110, for example.

文書検索部220は、操作者である検索者が指定した検索文から検索語(検索用の語句)を抽出する検索語抽出部201、文書群から関連文書を検索する関連文書検索部202、入出力部230に対する検索者の操作に応じて関連文書から適合文書を指定する適合文書指定部203、適合文書に基づいて関連語(検索用の語句)を抽出する関連語抽出部204、適合文書でない不適合文書を抽出する不適合文書抽出部205、不適合文書(学習データ)を使用して分類用パラメータを生成する学習部206、分類用パラメータの妥当性を検証するプレフィルタリング部207、プレフィルタリング部207で妥当性が検証された分類用パラメータを用いて、関連文書から適合文書を分類する分類部208を含み構成されている。   The document search unit 220 includes a search word extraction unit 201 that extracts a search word (search word / phrase) from a search sentence specified by a searcher who is an operator, a related document search unit 202 that searches for a related document from a document group, an input A conforming document designating unit 203 that designates a conforming document from a related document in accordance with a searcher's operation on the output unit 230, a related term extracting unit 204 that extracts a related word (search phrase) based on the conforming document, and not a conforming document A non-conforming document extraction unit 205 that extracts non-conforming documents, a learning unit 206 that generates classification parameters using non-conforming documents (learning data), a pre-filtering unit 207 that verifies the validity of classification parameters, and a pre-filtering unit 207 A classification unit 208 is configured to classify relevant documents from related documents using classification parameters whose validity has been verified.

以上のように構成された文書検索装置100において、まず、検索者は入出力部230を操作することにより検索要求となる検索文を指定する。すると、検索語抽出部201は検索者が指定した検索文から検索語を抽出し、関連文書検索部202に入力する。関連文書検索部202は、データベース210の文書群から検索語を含む文書を関連文書としてランキング検索し、その検索結果を入出力部230に入力する。入出力部230はその検索結果を表示する。   In the document search apparatus 100 configured as described above, first, the searcher operates the input / output unit 230 to specify a search sentence that is a search request. Then, the search term extraction unit 201 extracts a search term from the search sentence designated by the searcher and inputs it to the related document search unit 202. The related document search unit 202 performs a ranking search for documents including a search word as a related document from the document group of the database 210, and inputs the search result to the input / output unit 230. The input / output unit 230 displays the search result.

検索者は検索結果の内容を吟味して、入出力部230を操作することにより自身が求める(すなわち適合する)文書を適合文書として選択する。すると、適合文書指定部203は、その選択に応じて検索結果から複数の適合文書を指定する。関連語抽出部204は、検索者が指定した適合文書から関連語を抽出し、関連文書検索部202に入力する。関連文書検索部202は、データベース210の文書群から関連語を含む文書を関連文書としてランキング検索し、その検索結果を入出力部230に入力する。入出力部230はその検索結果を表示する。これにより、検索者が指定した適合文書は検索上位に現れるようになる。このような適合文書の指定および関連文書の検索が複数回繰り返され、十分な適合文書が得られる。   The searcher examines the contents of the search result and operates the input / output unit 230 to select a document that the searcher wants (that is, conforms) as a conforming document. Then, the relevant document designating unit 203 designates a plurality of relevant documents from the search result according to the selection. The related word extraction unit 204 extracts related words from the relevant document designated by the searcher and inputs the related words to the related document search unit 202. The related document search unit 202 performs a ranking search for documents including related words from the document group of the database 210 as related documents, and inputs the search results to the input / output unit 230. The input / output unit 230 displays the search result. As a result, the matching document designated by the searcher appears at the top of the search. The specification of the relevant document and the retrieval of the related document are repeated a plurality of times, and a sufficient relevant document is obtained.

検索者は入出力部230を操作することによりフィルタリング要求を指定する。すると、不適合文書抽出部205は、適合文書を入力データとして検索者が要求しない(すなわち適合しない)不適合文書を「不適合文書の抽出法(後述する)」に従って検索結果から自動的に抽出する。抽出された不適合文書は、適合文書とともに学習部206に渡り、分類用パラメータを生成する学習データとなる。学習部206はその学習データを使用して分類用パラメータを生成し、分類用パラメータをプレフィルタリング部207に渡す。   The searcher operates the input / output unit 230 to specify a filtering request. Then, the non-conforming document extraction unit 205 automatically extracts non-conforming documents that the searcher does not request (ie, does not conform) using the conforming documents as input data according to the “non-conforming document extraction method (described later)”. The extracted nonconforming document is transferred to the learning unit 206 together with the conforming document, and becomes learning data for generating a classification parameter. The learning unit 206 generates classification parameters using the learning data, and passes the classification parameters to the pre-filtering unit 207.

プレフィルタリング部207では、分類用パラメータの妥当性を検証するために、実際に分類用パラメータを使用して検索者が指定した適合文書と不適合文書の抽出法により抽出された不適合文書を分類する。そして、確実に、適合文書と不適合文書とに分類されるように分類用パラメータを補正する。なお、妥当でない分類用パラメータが検出された場合には、その分類用パラメータを削除する。検証が終わると分類用パラメータを関連文書検索部202に渡す。   In order to verify the validity of the classification parameter, the pre-filtering unit 207 classifies the non-conforming document extracted by the extraction method of the conforming document and the non-conforming document actually designated by the searcher using the classification parameter. Then, the classification parameters are corrected so as to be surely classified into conforming documents and nonconforming documents. If an invalid classification parameter is detected, the classification parameter is deleted. When the verification is completed, the classification parameters are passed to the related document search unit 202.

関連文書検索部202は、妥当性が検証された分類用パラメータを検索語として再検索を行い、その再検索結果を分類部208に入力する。分類部208は、再検索結果を関連文書検索部202から受け取り、妥当性が検証された分類用パラメータを使用してフィルタリングを行い、関連文書のみを取り出して、その関連文書を適合文書として入出力部230に入力する。入出力部230はその適合文書を検索結果として表示する。   The related document search unit 202 performs a re-search using the classification parameters whose validity has been verified as a search term, and inputs the re-search result to the classification unit 208. The classification unit 208 receives the re-search result from the related document search unit 202, performs filtering using the classification parameters whose validity has been verified, extracts only the related document, and inputs / outputs the related document as a conforming document. Input to the unit 230. The input / output unit 230 displays the relevant document as a search result.

ここで、不適合文書の抽出法について説明する。この不適合文書の抽出法は、与えられた文書群(文書集合)の中から適合文書に基づいて不適合文書を抽出する方法であり、文書間の類似度を決めて、ベクトル空間上で類似度計算を行うことで不適合文書を抽出する。ここでは、適合文書と(適合文書の中心ベクトルをCとする)とラベルなしの各文書(ラベルなし文書の文書ベクトルをDとする)との類似度simが閾値α以下(sim(C,D)≦α)の文書が不適合文書とされる。また、ラベルなし文書としては、関連文書の検索結果の上位からユーザが指定した適合文書を除いたn個の文書が選択される。そして、不適合文書は適合文書と同じ数だけ抽出される。   Here, a method of extracting nonconforming documents will be described. This non-conforming document extraction method is a method for extracting non-conforming documents from a given document group (document set) based on conforming documents. The similarity between documents is determined and the similarity is calculated on a vector space. To extract non-conforming documents. Here, the similarity sim between the conforming document (the center vector of the conforming document is C) and each unlabeled document (the document vector of the unlabeled document is D) is equal to or less than a threshold α (sim (C, D ) ≦ α) is considered a non-conforming document. In addition, as the unlabeled document, n documents are selected from the top of the retrieval result of the related document, excluding the conforming document designated by the user. Then, the same number of non-conforming documents are extracted as the conforming documents.

不適合文書の抽出方法は次の手順による。まず、適合文書の集合Rから中心ベクトルCを求める。関連文書の検索結果の上位からn個の文書を選択してSとする。Sから未選択の文書を1つ選択し文書ベクトルDを求め、中心ベクトルCとの類似度sim(C,D)を計算し、その計算結果を優先順序キューQに入れる。なお、優先順序キューQはsim(C,D)の値で半整列(判順序化)されている。また、キューサイズは適合文書サイズとなるように管理されている。優先順序キューQ内の要素の最大値がαになると、優先順序キューQ内の文書を不適合文書Nとし、不適合文書の抽出は完了する。S中の全て(n個)の文書に対して類似度を計算しても、優先順序キューQ内の要素の最大値がα以下にならない場合には、関連文書の検索結果からm個の文書をさらに選択してS中の文書数をnからn+mに拡張し、S中で未選択の文書の文書ベクトルDに対して、上述と同じことを繰り返す。   The method for extracting nonconforming documents is as follows. First, the center vector C is obtained from the set R of relevant documents. Select n documents from the top of the search result of the related documents, and set it as S. One unselected document is selected from S, a document vector D is obtained, similarity sim (C, D) with the center vector C is calculated, and the calculation result is put in the priority order queue Q. The priority order queue Q is semi-aligned (decided) by the value of sim (C, D). Further, the queue size is managed so as to be a compatible document size. When the maximum value of the elements in the priority order queue Q reaches α, the document in the priority order queue Q is set as the nonconforming document N, and the extraction of the nonconforming document is completed. Even if the similarity is calculated for all (n) documents in S, if the maximum value of the elements in the priority order queue Q is not less than or equal to α, m documents are obtained from the related document search results. Is further expanded to increase the number of documents in S from n to n + m, and the same process as described above is repeated for the document vector D of a document not selected in S.

このような文書検索部220の各機能は文書検索プログラム120に基づいてCPU101が実行する処理により実現される。   Each function of the document search unit 220 is realized by processing executed by the CPU 101 based on the document search program 120.

(文書検索処理)
次に、文書検索装置による文書検索処理の手順について説明する。図3は、この文書検索処理の手順を示すフローチャートである。この処理は、CPU101が文書検索プログラム120を実行することにより行われる。
(Document search process)
Next, a procedure for document search processing by the document search apparatus will be described. FIG. 3 is a flowchart showing the procedure of the document search process. This process is performed by the CPU 101 executing the document search program 120.

図3に示すように、まず、CPU101は、たとえば図4に示すような検索画面を入出力部230により表示する(ステップS301)。そして、検索語を入力し、検索実行ボタン401を押下する(ステップS302)。これにより、CPU101は、検索語に基づいて関連文書の検索を実行し(ステップS303)、その関連文書の検索結果を入出力部230に表示する(ステップS304)。これにより、数千や数万になる関連文書の検索結果のうち、関連度の高いものから所定件数分表示される。このとき、検索画面はたとえば図5に示すような画面になる。   As shown in FIG. 3, first, the CPU 101 displays a search screen as shown in FIG. 4, for example, by the input / output unit 230 (step S301). Then, a search word is input and the search execution button 401 is pressed (step S302). As a result, the CPU 101 searches for the related document based on the search word (step S303), and displays the search result of the related document on the input / output unit 230 (step S304). As a result, a predetermined number of documents are displayed starting from those having a high degree of relevance among the retrieval results of thousands or tens of thousands of related documents. At this time, the search screen is, for example, a screen as shown in FIG.

検索者は検索結果を確認して、より良い検索結果を得るために検索結果の文書の内容を確認し、入出力部230を操作して、自身が求める(適合する)文書に○(図5参照)をつけて適合文書の指定を行い、入力後に検索実行ボタン501を押下する(ステップS305)。   The searcher confirms the search result, confirms the content of the document of the search result in order to obtain a better search result, operates the input / output unit 230, and adds a ○ to the document that he wants (matches) (FIG. 5). The reference document is designated, and the relevant document is designated. After the input, the search execution button 501 is pressed (step S305).

これにより、CPU101は、○がついている関連文書を適合文書として指定し、その適合文書に基づいて関連語を抽出し、その関連語に基づいて関連文書の検索を実行する(ステップS306)。その後、その関連文書の検索結果を入出力部230により表示する(ステップS307)。すると、検索画面はたとえば図6に示すような画面になり、図5に示すような画面で適合文書として指定した文書が検索上位に移動する。また、それに合わせて適合文書と関連する文書が検索結果の上位に出現するようになる。CPU101は、関連文書の検索結果の適合性をさらに良くするために、入出力部230に対する検索者の操作に応じて適合文書を指定して、その後検索実行ボタン601を押下し、再び適合性フィードバック検索を開始する(ステップS308)。その後、フィルタリングに必要な適合文書数が得られたか否かを判断する(ステップS309)。   As a result, the CPU 101 designates the related document with a circle as a matching document, extracts a related word based on the matching document, and executes a search for the related document based on the related word (step S306). Thereafter, the search result of the related document is displayed by the input / output unit 230 (step S307). Then, the search screen becomes a screen as shown in FIG. 6, for example, and a document designated as a matching document on the screen as shown in FIG. In accordance with this, the document related to the conforming document appears at the top of the search result. In order to further improve the relevance of the search result of the related document, the CPU 101 designates the relevant document according to the searcher's operation on the input / output unit 230, and then presses the search execution button 601 to relevance feedback again. The search is started (step S308). Thereafter, it is determined whether or not the number of conforming documents necessary for filtering has been obtained (step S309).

通常、2〜3回の適合性フィードバック検索を行えば、フィルタリングに必要な適合文書数は得られる。適合文書数が多いほど、正確なフィルタリングを行うことができ、実用的には7つ程度の適合文書数で満足のいくフィルタリング結果が得られる。なお、DB210に検索者が求める文書がもともと3文書しかない場合には、適合性フィードバック検索を何回行っても、フィルタリングに必要な適合文書数は多く得られない。   Normally, the number of conforming documents necessary for filtering can be obtained by performing the conformity feedback search two to three times. As the number of matching documents increases, more accurate filtering can be performed, and practically, a satisfactory filtering result can be obtained with the number of matching documents of about seven. If there are only three documents originally requested by the searcher in the DB 210, the number of conforming documents necessary for filtering cannot be obtained no matter how many times the conformity feedback search is performed.

ステップS309においてフィルタリングに必要な適合文書数が得られていない場合(ステップS309:No)は、ステップS308へ戻り処理を続行する。ステップS309においてフィルタリングに必要な適合文書数が得られた場合(ステップS309:Yes)は、入出力部230に検索上位に適合文書が記された検索結果(図7に示す画面を参照)が表示される(ステップS310)。この状態で、フィルタリングボタン701が押されると(ステップS311)、適合文書を入力データとして検索者が要求しない(すなわち適合しない)不適合文書を前述の不適合文書の抽出法に従って検索結果から抽出する(ステップS312)。抽出された不適合文書および適合文書を学習データとして分類用パラメータを生成する(ステップS313)。そこで生成された分類用パラメータの妥当性を検証(プレフィルタリングを実行)する(ステップS314)。ここでは、確実に、適合文書と不適合文書とに分類されるように分類用パラメータの補正が実行される。また、妥当でない分類用パラメータが検出された場合には、その分類用パラメータは削除される。そして、妥当性が検証された分類用パラメータを検索語として再検索を実行する(ステップS315)。その検索結果の関連文書をフィルタリングを実行し(ステップS316)、その再検索結果を表示する(ステップS317)。これにより、検索画面は図8に示すような画面になる。   If the number of conforming documents necessary for filtering is not obtained in step S309 (step S309: No), the process returns to step S308 and continues. When the number of conforming documents necessary for filtering is obtained in step S309 (step S309: Yes), the search result (see the screen shown in FIG. 7) in which the conforming documents are described in the upper search unit is displayed in the input / output unit 230. (Step S310). In this state, when the filtering button 701 is pressed (step S311), the non-conforming document that the searcher does not request (ie, does not conform) using the conforming document as input data is extracted from the retrieval result according to the above-described incompatible document extraction method (step S311). S312). Classification parameters are generated using the extracted nonconforming document and conforming document as learning data (step S313). Therefore, the validity of the generated classification parameter is verified (pre-filtering is executed) (step S314). Here, the correction of the classification parameter is executed so as to be surely classified into the conforming document and the nonconforming document. If an invalid classification parameter is detected, the classification parameter is deleted. Then, the search is executed again using the classification parameter whose validity is verified as a search word (step S315). The related document of the search result is filtered (step S316), and the re-search result is displayed (step S317). Thereby, the search screen becomes a screen as shown in FIG.

このとき、図7に示すような画面の検索結果には、適合文書よりも不適合文書のほうが多く含まれるのが普通であるが、図8に示すような画面の再検索結果には、適合文書と関連しない文書は含まれていない。図8に示す画面には、図5、図6、図7の画面で指定した適合文書がフィルタリング結果一覧として必ず現れる。   At this time, the search results on the screen as shown in FIG. 7 usually include more non-conforming documents than the conforming documents, but the re-search results on the screen as shown in FIG. Documents not related to are not included. In the screen shown in FIG. 8, the conforming documents specified in the screens of FIGS. 5, 6, and 7 always appear as a filtering result list.

このような処理により、図4に示すような画面は、検索実行ボタン401が押されるとデータが図2に示すようにa→b→c→d→eと流れ、図5に示すような画面になる。より良い検索結果を得るために図5および図6に示すような画面において、検索者が検索結果に○をつけると、適合文書が指定されて適合性フィードバック検索が行われる。このとき、データは図2に示すようにf→g→h→c→d→eと流れる。その後、図6に示すような画面は十分な適合文書が得られると図7に示すような画面になる。この図7に示すような画面は、フィルタリングボタン701が押されるとデータがi→j→k→l→c→d→m→nと流れ、図8に示すような画面になる。   As a result of such processing, when the search execution button 401 is pressed, the screen as shown in FIG. 4 flows from a → b → c → d → e as shown in FIG. 2, and the screen as shown in FIG. become. In order to obtain a better search result, when the searcher puts a circle on the search result on the screens as shown in FIGS. 5 and 6, the relevant document is designated and the suitability feedback search is performed. At this time, the data flows in the order of f → g → h → c → d → e as shown in FIG. After that, the screen as shown in FIG. 6 becomes the screen as shown in FIG. 7 when a sufficient conforming document is obtained. When the filtering button 701 is pressed, the screen as shown in FIG. 7 flows as i → j → k → l → c → d → m → n, resulting in the screen as shown in FIG.

次に、ステップS314のプレフィルタリングの処理について説明する。ここでは、フィルタリングを線形分類により行う場合を例にとり説明する。   Next, the pre-filtering process in step S314 will be described. Here, a case where filtering is performed by linear classification will be described as an example.

フィルタリング向けの分類器f(x)は、分類用パラメータw={w1,w2,・・・
,wn}と、文書ベクトルx={x1,x2,・・・,xn}により、
Σwi×xi+β ・・・(1)
(βはしきい値)の形式で表現され、(適合文書か非適合文書か判定したい)被フィルタリング文書の文書ベクトルxに対して、
f(x)>0 ・・・(2)
の場合に、xは適合文書になり、
f(x)≦0 ・・・(3)
の場合に、xは不適合文書になる。
The classifier f (x) for filtering uses the classification parameter w = {w1, w2,.
, Wn} and the document vector x = {x1, x2,..., Xn}
Σwi × xi + β (1)
(Β is a threshold value) is expressed in the form of a document vector x of a document to be filtered (which is to be determined as a conforming document or a nonconforming document).
f (x)> 0 (2)
Then x becomes a conforming document,
f (x) ≦ 0 (3)
In this case, x becomes a nonconforming document.

なお、分類用パラメータは、単語の重みと単語のペアで表現される。以後、分類用パラメータwiが単語そのものを表す場合は、便宜上単にwiと表記し、単語の重みはvalue(wi)と表記することにする。   The classification parameters are expressed by word weights and word pairs. Hereinafter, when the classification parameter wi represents the word itself, it is simply expressed as wi for convenience, and the weight of the word is expressed as value (wi).

式(1)において、各wiは分類用パラメータであり、学習により決定される。   In equation (1), each wi is a classification parameter and is determined by learning.

次に分類用パラメータの生成法を説明する。   Next, a method for generating classification parameters will be described.

(A1)学習データdi(d1,d2,d3,・・・,dn)を用意する。   (A1) Learning data di (d1, d2, d3,..., Dn) is prepared.

(A2)各diから形態素解析等により単語を取り出す。   (A2) A word is extracted from each di by morphological analysis or the like.

(A3)各diを特徴づける単語を取り出すためにたとえば単語のtf×idf値を計算し、上位n個を取り出し集合Qに格納する(tfはterm frequencyで単語が文書内に出現する頻度、idfはinverse document frequencyでNを文書数、dfを単語が出現する文書の頻度とした場合、log(N/df)で表現される)。   (A3) In order to extract words characterizing each di, for example, the tf × idf value of the word is calculated, and the top n are extracted and stored in the set Q (tf is the frequency at which the word appears in the document with term frequency, idf Is expressed by log (N / df), where N is the number of documents and df is the frequency of the document in which the word appears in inverse document frequency.

(A4)集合Qからたとえばtf×idf値の大きい順に単語を取り出し、取り出した単語が不適合文書集合よりも適合文書集合により多く含まれる場合は正の分類用パラメータ、逆の場合に負の分類用パラメータとする。   (A4) For example, words are extracted from the set Q in descending order of tf × idf value. When the extracted words are included in the conforming document set more than the nonconforming document set, the positive classification parameter is used. It is a parameter.

(A5)各分類用パラメータの重みを学習アルゴリズム(たとえば、線形SVM、Fisher判別式、BayesのBinary Independence Model等のアルゴリズム)に基づき決定する。   (A5) The weight of each classification parameter is determined based on a learning algorithm (for example, an algorithm such as linear SVM, Fisher discriminant, Bayes' Binary Independence Model).

続いて、分類用パラメータの生成法を踏まえてプレフィルタリングの説明をする。   Next, pre-filtering will be described based on a method for generating classification parameters.

正の重みを持つ分類用パラメータをw(+)1,w(+)2,・・・,w(+)i、負の重みを持つ分類用パラメータをw(−)1,w(−)2,・・・,w(−)iと表現したとき、プレフィルタリング処理の前には、正の重みを持つ分類用パラメータw(+)1,w(+)2,・・・,w(+)iを降順に整列し、負の重みを持つ分類用パラメータw(−)1,w(−)2,・・・,w(−)iを昇順に整列していると仮定する。このとき、各学習データdiと分類用パラメータwjに対して、次の処理をする。   Classification parameters having positive weights are w (+) 1, w (+) 2,..., W (+) i, and classification parameters having negative weights are w (−) 1, w (−). 2,..., W (−) i, before the pre-filtering process, the classification parameters w (+) 1, w (+) 2,. Assume that +) i are arranged in descending order and the classification parameters w (−) 1, w (−) 2,..., W (−) i having negative weights are arranged in ascending order. At this time, the following processing is performed on each learning data di and the classification parameter wj.

まず、文書のscoreを初期化する。
score(d i)←0 ・・・(4)
First, the score of the document is initialized.
score (d i) ← 0 (4)

di が分類用パラメータwjを含むならば、文書のscoreに分類用パラメータwjの重みを加算する。
score(di)←score(di)+value(wj) ・・・(5)
If di includes the classification parameter wj, the weight of the classification parameter wj is added to the score of the document.
score (di) ← score (di) + value (wj) (5)

次に、
score(di)+b ・・・(6)
の値の正負を判定する。diが適合文書であるのに式(6)の値が負であるか、diが不適合文書であるのに式(6)の値が正である場合は、分類用パラメータw1,w2,・・・,wnに不適切なものがあることを意味する。
next,
score (di) + b (6)
The sign of the value is determined. When di is a conforming document, the value of expression (6) is negative, or when di is a nonconforming document and the value of expression (6) is positive, classification parameters w1, w2,. ·, Meaning that there is something inappropriate in wn.

分類用パラメータの補正は、正負の分類用パラメータを別々に行う。場合分けを簡単にするために、正の分類用パラメータを先に評価し、次に負の分類用パラメータを評価する。学習データとして与えられた適合文書xに対して、f(x)≦0になるのは、正の分類
用パラメータをすべて評価した後と負の分類用パラメータの評価中に起こる可能性がある。また、学習データとして与えられた不適合文書xに対して、f(x)>0になるのは、
正の分類用パラメータの評価中と負の分類用パラメータをすべて評価した後に起きる可能性がある。分類用パラメータの補正は、適合文書を使用して負の分類用パラメータを補正し、不適合文書を使用して正の分類用パラメータを補正する。
The correction of classification parameters is performed separately for positive and negative classification parameters. In order to simplify the case classification, the positive classification parameter is evaluated first, and then the negative classification parameter is evaluated. For a conforming document x given as learning data, f (x) ≦ 0 may occur after evaluating all positive classification parameters and during evaluation of negative classification parameters. In addition, f (x)> 0 for a nonconforming document x given as learning data
May occur during evaluation of positive classification parameters and after evaluation of all negative classification parameters. The correction of the classification parameter is performed by correcting the negative classification parameter using the conforming document and correcting the positive classification parameter using the nonconforming document.

不適合文書xが正の分類用パラメータw(+)iによるプレフィルタリングにおいて、f(x)>0となる場合は、次の操作で分類用パラメータw(+)iを補正する。   When f (x)> 0 in the pre-filtering with the non-conforming document x by the positive classification parameter w (+) i, the classification parameter w (+) i is corrected by the following operation.

(B1)分類用パラメータw(+)iをwから削除する。   (B1) The classification parameter w (+) i is deleted from w.

(B2)Qから分類用パラメータを追加し、追加した分類用パラメータの重みとしきい値βを再計算する。 式(6)を計算し、正負を判定する。   (B2) A classification parameter is added from Q, and the weight and threshold value β of the added classification parameter are recalculated. Formula (6) is calculated and positive / negative is determined.

(B3)負の場合は、分類用パラメータの補正は終了し、0以上の場合は、(B1)に戻る。   (B3) If negative, correction of the classification parameter ends, and if it is 0 or more, the process returns to (B1).

次に、負の分類用パラメータw(−)iによるプレフィルタリングにおいて、適合文書xがf(x)≦0となる場合は、次の操作で分類用パラメータw(−)iを補正する。   Next, in the pre-filtering with the negative classification parameter w (−) i, when the conforming document x is f (x) ≦ 0, the classification parameter w (−) i is corrected by the following operation.

(C1)分類用パラメータw(−)iをwから削除する。   (C1) The classification parameter w (−) i is deleted from w.

(C2)Qから分類用パラメータを追加し、追加した分類用パラメータの重みとしきい値βを再計算する。 式(6)を計算し、正負を判定する。   (C2) A classification parameter is added from Q, and the weight and threshold value β of the added classification parameter are recalculated. Formula (6) is calculated and positive / negative is determined.

(C3)正の場合は分類用パラメータの補正は終了し、0以下の場合は(C1)に戻る。   (C3) If the value is positive, the correction of the classification parameter is completed.

ここで、プレフィルタリングの処理手順について説明する。図9は、このプレフィルタリングの処理手順を示すフローチャートである。   Here, the pre-filtering processing procedure will be described. FIG. 9 is a flowchart showing the pre-filtering processing procedure.

図9に示すフローチャートにおいて、まず、学習データとして指定した適合文書を集合Rに入れる(ステップS901)。i番目の負の分類用パラメータw(−)iを検索語としてデータベース210に対して検索する(ステップS902)。検索の結果得られる文書群から一文書ずつ取り出し、集合R内の文書と一致するかどうかを調べる(ステップS903)。検索結果と一致した集合R内の文書djについて、分類用パラメータを使用したスコアscore(d j)を付与する(ステップS904)。   In the flowchart shown in FIG. 9, first, the conforming document designated as the learning data is put into the set R (step S901). The database 210 is searched using the i-th negative classification parameter w (−) i as a search word (step S902). One document is extracted from the document group obtained as a result of the search, and it is checked whether or not it matches the document in the set R (step S903). For the document dj in the set R that matches the search result, a score score (dj) using the classification parameter is assigned (step S904).

そして、score(d j)は0以下か否かを判定する(ステップS905)。ここで、score(d j)が0以下ならば(ステップS905:Yes)、分類用パラメータwからw(−)iを削除し、集合Qから分類用パラメータを追加し、w(−)iの代わりとする。そして、追加した分類用パラメータの重みとしきい値bを再計算する(ステップS906)。一方、score(d j)が0以下でないならば(ステップS905:No)、jにj+1を代入して(ステップS907)、ステップS904へ移行する。   Then, it is determined whether or not score (d j) is 0 or less (step S905). Here, if score (d j) is 0 or less (step S905: Yes), w (−) i is deleted from the classification parameter w, a classification parameter is added from the set Q, and w (−) i As an alternative. Then, the weight of the added classification parameter and the threshold value b are recalculated (step S906). On the other hand, if score (d j) is not 0 or less (step S905: No), j + 1 is substituted for j (step S907), and the process proceeds to step S904.

ステップS906の処理の後、すべてのjについての処理が終了したか否かを判定する(ステップS908)。ここで、すべてのjについての処理が終了していない場合(ステップS908:No)は、ステップS907へ移行する。一方、すべてのjについての処理が終了した場合(ステップS908:Yes)は、続けてすべてのiについての処理が終了したか否かを判定する(ステップS909)。ここで、すべてのiについての処理が終了した場合(ステップS909:Yes)は、一連の処理が終了となる。一方、すべてのiについての処理が終了していない場合(ステップS909:No)は、iにi+1を代入して(ステップS910)、ステップS902へ移行する。   After the process of step S906, it is determined whether or not the process for all j has been completed (step S908). Here, when the processing for all j is not completed (step S908: No), the process proceeds to step S907. On the other hand, if the processing for all j has been completed (step S908: Yes), it is determined whether the processing for all i has been completed (step S909). Here, when the processing for all i is completed (step S909: Yes), the series of processing is completed. On the other hand, if the processing for all i has not been completed (step S909: No), i + 1 is substituted for i (step S910), and the process proceeds to step S902.

なお、図9に示したフローチャートでは、負のパラメータを用いたプレフィルタリングの処理を示したが、正のパラメータを用いた場合はその対象性から容易に想像できるため省略した。   In the flowchart shown in FIG. 9, the pre-filtering process using the negative parameter is shown, but the case where the positive parameter is used is omitted because it can be easily imagined from the objectivity.

以上説明したように、この発明にかかる文書検索装置、文書検索方法によれば、検索者が指定した適合文書に基づく関連文書の検索に際し、蓄積手段などで管理されている全文書からフィルタリングによって取り出した適合文書に、必ず学習データとして指定した適合文書が含まれるため、文書検索の精度を向上させることができる。また、ユーザはフィルタリングのために不適合文書の指定をせずともフィルタリングを実行することができるので、ユーザの操作効率を向上させることができる。   As described above, according to the document search device and document search method of the present invention, when searching for related documents based on a conforming document specified by a searcher, all documents managed by the storage means are extracted by filtering. Therefore, the accuracy of the document search can be improved because the relevant document is always included as the learning data. In addition, since the user can perform filtering without specifying a nonconforming document for filtering, the user's operation efficiency can be improved.

なお、本実施の形態で説明した文書検索方法は、あらかじめ用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。   The document search method described in this embodiment can be realized by executing a program prepared in advance on a computer such as a personal computer or a workstation. This program is recorded on a computer-readable recording medium such as a hard disk, a flexible disk, a CD-ROM, an MO, and a DVD, and is executed by being read from the recording medium by the computer. Further, this program may be a transmission medium that can be distributed via a network such as the Internet.

以上のように、本発明にかかる文書検索装置、文書検索方法、および文書検索プログラムは、検索者が指定した適合文書に基づく関連文書の検索に有用であり、特に、精度の高い文書検索が必要な場合に適している。   As described above, the document search device, the document search method, and the document search program according to the present invention are useful for searching related documents based on a conforming document specified by a searcher, and in particular, highly accurate document search is required. Suitable for the case.

この発明の実施の形態にかかる文書検索装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the document search apparatus concerning embodiment of this invention. この発明の実施の形態にかかる文書検索装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the document search device concerning embodiment of this invention. 文書検索処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of a document search process. 検索画面の表示例を示す図である。It is a figure which shows the example of a display of a search screen. 検索画面の表示例を示す図である。It is a figure which shows the example of a display of a search screen. 検索画面の表示例を示す図である。It is a figure which shows the example of a display of a search screen. 検索画面の表示例を示す図である。It is a figure which shows the example of a display of a search screen. 検索画面の表示例を示す図である。It is a figure which shows the example of a display of a search screen. プレフィルタリングの処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of pre filtering.

符号の説明Explanation of symbols

100 文書検索装置
101 CPU
102 メモリ
103 バス
104 磁気記憶装置
105 入力装置
106 表示装置
107 記憶媒体
108 記憶媒体読取装置
109 通信制御装置
110 ネットワーク
120 文書検索プログラム
201 検索語抽出部
202 関連文書検索部
203 適合文書指定部
204 関連語抽出部
205 不適合文書抽出部
206 学習部
207 プレフィルタリング部
208 分類部
210 データベース(DB)
220 文書検索部
230 入出力部

100 Document Retrieval Device 101 CPU
DESCRIPTION OF SYMBOLS 102 Memory 103 Bus 104 Magnetic storage apparatus 105 Input apparatus 106 Display apparatus 107 Storage medium 108 Storage medium reading apparatus 109 Communication control apparatus 110 Network 120 Document search program 201 Search word extraction part 202 Related document search part 203 Relevant document designation part 204 Related word Extraction unit 205 Non-conforming document extraction unit 206 Learning unit 207 Pre-filtering unit 208 Classification unit 210 Database (DB)
220 Document search unit 230 Input / output unit

Claims (7)

操作命令を受け付ける操作手段と、
前記操作手段に対する検索者の入力操作に応じて検索用の語句を検索語として抽出する検索語抽出手段と、
電子化された複数の文書を文書群として蓄積する蓄積手段と、
前記蓄積手段に蓄積されている文書群から、前記検索語抽出手段により抽出された前記検索語を含む文書を関連文書として検索する第1の関連文書検索手段と、
表示動作を行う表示手段と、
前記第1の関連文書検索手段による検索結果を前記表示手段に表示させる第1の表示制御手段と、
前記操作手段に対する検索者の入力操作に応じて、前記第1の関連文書検索手段により検索された複数の前記関連文書から検索者が求める適合文書を指定する適合文書指定手段と、
前記適合文書指定手段により指定された前記適合文書に基づいて検索用の語句を関連語として抽出する関連語抽出手段と、
前記蓄積手段に蓄積されている文書群から、前記関連語抽出手段により抽出された前記関連語を含む文書を関連文書として検索する第2の関連文書検索手段と、
前記第2の関連文書検索手段により検索された複数の前記関連文書から、前記適合文書指定手段により指定された前記適合文書に基づいて検索者が求めない不適合文書を抽出する不適合文書抽出手段と、
前記適合文書指定手段により指定された前記適合文書および前記不適合文書抽出手段により抽出された前記不適合文書に基づいて分類用パラメータを生成する学習手段と、
前記学習手段により生成された前記分類用パラメータの妥当性を検証するプレフィルタリング手段と、
前記プレフィルタリング手段で妥当性が検証された分類用パラメータを検索語として、前記蓄積手段に蓄積されている文書群に対して再検索を行う第3の関連文書検索手段と、
前記第3の関連文書検索手段による再検索結果に対して、前記プレフィルタリング手段で妥当性が検証された分類用パラメータに基づいて前記適合文書を分類する分類手段と、
前記分類手段による分類結果を前記表示手段に表示させる第2の表示制御手段と、
を備えていることを特徴とする文書検索装置。
An operation means for receiving an operation command;
Search word extraction means for extracting a search word as a search word in response to a searcher's input operation on the operation means;
Storage means for storing a plurality of digitized documents as a document group;
First related document search means for searching as a related document a document including the search word extracted by the search word extraction means from the document group stored in the storage means;
Display means for performing a display operation;
First display control means for causing the display means to display a search result by the first related document search means;
In accordance with a searcher's input operation to the operation means, a compatible document specifying means for specifying a compatible document that the searcher seeks from the plurality of related documents searched by the first related document search means;
Related word extraction means for extracting a search phrase as a related word based on the relevant document designated by the relevant document designation means;
Second related document search means for searching as a related document a document containing the related word extracted by the related word extraction means from the document group stored in the storage means;
A non-conforming document extracting unit that extracts a non-conforming document that a searcher does not seek based on the conforming document designated by the conforming document designating unit from the plurality of related documents retrieved by the second related document retrieving unit;
Learning means for generating classification parameters based on the conforming document designated by the conforming document designating means and the nonconforming document extracted by the nonconforming document extracting means;
Pre-filtering means for verifying the validity of the classification parameter generated by the learning means;
A third related document search unit that performs a re-search on the document group stored in the storage unit, using the classification parameter verified by the pre-filtering unit as a search term;
Classification means for classifying the conforming document based on a classification parameter whose validity has been verified by the pre-filtering means with respect to the re-search result by the third related document search means;
Second display control means for displaying the classification result by the classification means on the display means;
A document retrieval apparatus comprising:
前記プレフィルタリング手段は、前記学習手段が生成した分類用パラメータによって、前記適合文書と前記不適合文書が正確に適合文書と不適合文書とに分類されるように前記分類用パラメータを補正することを特徴とする請求項1に記載の文書検索装置。   The prefiltering unit corrects the classification parameter so that the conforming document and the nonconforming document are correctly classified into a conforming document and a nonconforming document according to the classification parameter generated by the learning unit. The document search device according to claim 1. 前記プレフィルタリング手段は、妥当でない分類用パラメータを検出した際には、当該分類用パラメータを削除することを特徴とする請求項2に記載の文書検索装置。   3. The document search apparatus according to claim 2, wherein when the pre-filtering unit detects an invalid classification parameter, the pre-filtering unit deletes the classification parameter. 操作を受け付ける操作手段に対する検索者の入力操作に応じて検索用の語句を検索語として抽出する検索語抽出工程と、
電子化された複数の文書を文書群として蓄積する蓄積手段に蓄積されている文書群から、前記検索語抽出工程により抽出された前記検索語を含む文書を関連文書として検索する第1の関連文書検索工程と、
前記第1の関連文書検索工程による検索結果を表示させる第1の検索結果表示工程と、
前記操作手段に対する検索者の入力操作に応じて、前記第1の関連文書検索工程により検索された複数の前記関連文書から検索者が求める適合文書を指定する適合文書指定工程と、
前記適合文書指定工程により指定された前記適合文書に基づいて検索用の語句を関連語として抽出する関連語抽出工程と、
前記蓄積手段に蓄積されている文書群から、前記関連語抽出工程により抽出された前記関連語を含む文書を関連文書として検索する第2の関連文書検索工程と、
前記第2の関連文書検索工程により検索された複数の前記関連文書から、前記適合文書指定工程により指定された前記適合文書に基づいて検索者が求めない不適合文書を抽出する不適合文書抽出工程と、
前記適合文書指定工程により指定された前記適合文書および前記不適合文書抽出工程により抽出された前記不適合文書に基づいて分類用パラメータを生成する分類用パラメータ生成工程と、
前記分類用パラメータ生成工程により生成された前記分類用パラメータの妥当性を検証するプレフィルタリング工程と、
前記プレフィルタリング工程で妥当性が検証された分類用パラメータを検索語として、前記蓄積手段に蓄積されている文書群に対して再検索を行う第3の関連文書検索工程と、
前記第3の関連文書検索工程による再検索結果に対して、前記プレフィルタリング工程で妥当性が検証された分類用パラメータに基づいて前記適合文書を分類する適合文書分類工程と、
前記適合文書分類工程による分類結果を表示する第2の表示工程と、
を含むことを特徴とする文書検索方法。
A search term extraction step of extracting a search phrase as a search term in accordance with a searcher's input operation to an operation means for accepting an operation;
A first related document that retrieves a document including the search word extracted by the search word extraction step as a related document from a document group stored in a storage unit that stores a plurality of digitized documents as a document group. Search process;
A first search result display step for displaying a search result by the first related document search step;
A conforming document designating step of designating a conforming document requested by the searcher from the plurality of related documents retrieved by the first related document retrieving step in response to an input operation of the retriever to the operation means;
A related word extraction step of extracting a search word / phrase as a related word based on the relevant document designated by the relevant document designation step;
A second related document search step of searching as a related document a document including the related word extracted by the related word extraction step from the document group stored in the storage unit;
A non-conforming document extracting step of extracting non-conforming documents that a searcher does not seek based on the conforming document designated by the conforming document designating step from a plurality of the related documents retrieved by the second related document retrieving step;
A classification parameter generating step for generating a classification parameter based on the conforming document designated by the conforming document designating step and the nonconforming document extracted by the nonconforming document extracting step;
A pre-filtering step of verifying validity of the classification parameter generated by the classification parameter generation step;
A third related document search step for performing a re-search on the document group stored in the storage unit, using the classification parameter verified in the pre-filtering step as a search term;
A relevance document classification step of classifying the relevance document based on a classification parameter whose validity has been verified in the pre-filtering step with respect to a re-search result obtained by the third related document search step;
A second display step for displaying a classification result by the conforming document classification step;
A document retrieval method comprising:
前記プレフィルタリング工程は、前記分類用パラメータ生成工程により生成された分類用パラメータによって、前記適合文書と前記不適合文書が正確に適合文書と不適合文書とに分類されるように前記分類用パラメータを補正することを特徴とする請求項4に記載の文書検索方法。   The pre-filtering step corrects the classification parameter so that the conforming document and the nonconforming document are correctly classified into a conforming document and a nonconforming document based on the classification parameter generated by the classification parameter generating step. The document retrieval method according to claim 4, wherein: 前記プレフィルタリング工程は、妥当でない分類用パラメータを検出した際には、当該分類用パラメータを削除することを特徴とする請求項5に記載の文書検索方法。   6. The document search method according to claim 5, wherein when the pre-filtering step detects an invalid classification parameter, the classification parameter is deleted. 請求項4〜6のいずれか一つに記載の文書検索方法をコンピュータに実行させることを特徴とする文書検索プログラム。

A document search program for causing a computer to execute the document search method according to any one of claims 4 to 6.

JP2005064680A 2005-03-08 2005-03-08 Document search device, document search method, and document search program Expired - Fee Related JP4754849B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005064680A JP4754849B2 (en) 2005-03-08 2005-03-08 Document search device, document search method, and document search program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005064680A JP4754849B2 (en) 2005-03-08 2005-03-08 Document search device, document search method, and document search program

Publications (2)

Publication Number Publication Date
JP2006251935A true JP2006251935A (en) 2006-09-21
JP4754849B2 JP4754849B2 (en) 2011-08-24

Family

ID=37092394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005064680A Expired - Fee Related JP4754849B2 (en) 2005-03-08 2005-03-08 Document search device, document search method, and document search program

Country Status (1)

Country Link
JP (1) JP4754849B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010108477A (en) * 2008-09-30 2010-05-13 Yahoo Japan Corp Retrieval device
JP2011525673A (en) * 2008-06-24 2011-09-22 シャロン ベレンゾン, Search engine and methodology especially applicable to patent literature
KR101413988B1 (en) * 2012-04-25 2014-07-01 (주)이스트소프트 System and method for separating and dividing documents
JP2017010514A (en) * 2015-06-18 2017-01-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド Search engine and method for implementing the same
JP2020113046A (en) * 2019-01-11 2020-07-27 富士ゼロックス株式会社 Information processing apparatus and program
JP2020113048A (en) * 2019-01-11 2020-07-27 富士ゼロックス株式会社 Information processing apparatus and program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178421A (en) * 2002-11-28 2004-06-24 Ricoh Co Ltd Document retrieval device, method for retrieving document, program, and recording medium

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178421A (en) * 2002-11-28 2004-06-24 Ricoh Co Ltd Document retrieval device, method for retrieving document, program, and recording medium

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011525673A (en) * 2008-06-24 2011-09-22 シャロン ベレンゾン, Search engine and methodology especially applicable to patent literature
US10007882B2 (en) 2008-06-24 2018-06-26 Sharon Belenzon System, method and apparatus to determine associations among digital documents
JP2010108477A (en) * 2008-09-30 2010-05-13 Yahoo Japan Corp Retrieval device
KR101413988B1 (en) * 2012-04-25 2014-07-01 (주)이스트소프트 System and method for separating and dividing documents
JP2017010514A (en) * 2015-06-18 2017-01-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド Search engine and method for implementing the same
US10275533B2 (en) 2015-06-18 2019-04-30 Baidu Online Network Technology (Beijing) Co., Ltd. Search engine and method for implementing the same
JP2020113046A (en) * 2019-01-11 2020-07-27 富士ゼロックス株式会社 Information processing apparatus and program
JP2020113048A (en) * 2019-01-11 2020-07-27 富士ゼロックス株式会社 Information processing apparatus and program
JP7238411B2 (en) 2019-01-11 2023-03-14 富士フイルムビジネスイノベーション株式会社 Information processing device and program
JP7243196B2 (en) 2019-01-11 2023-03-22 富士フイルムビジネスイノベーション株式会社 Information processing device and program

Also Published As

Publication number Publication date
JP4754849B2 (en) 2011-08-24

Similar Documents

Publication Publication Date Title
CA2638558C (en) Topic word generation method and system
JP5161658B2 (en) Keyword input support device, keyword input support method, and program
JP2004326216A (en) Document search system, method and program, and recording medium
JP6123143B1 (en) Patent requirement conformity prediction device and patent requirement conformity prediction program
JPWO2006134682A1 (en) Named entity extraction apparatus, method, and program
JP4754849B2 (en) Document search device, document search method, and document search program
JP4896132B2 (en) Information retrieval method and apparatus reflecting information value
JP2000200281A (en) Device and method for information retrieval and recording medium where information retrieval program is recorded
JP5430312B2 (en) Data processing apparatus, data name generation method, and computer program
JP5179564B2 (en) Query segment position determination device
JP5418138B2 (en) Document search system, information processing apparatus, and program
JP7172187B2 (en) INFORMATION DISPLAY METHOD, INFORMATION DISPLAY PROGRAM AND INFORMATION DISPLAY DEVICE
JP2001265774A (en) Method and device for retrieving information, recording medium with recorded information retrieval program and hypertext information retrieving system
JP2020071678A (en) Information processing device, control method, and program
JP3743204B2 (en) Data analysis support method and apparatus
JP4416644B2 (en) Character processing apparatus with prediction function, method, recording medium, and program
JP2010282403A (en) Document retrieval method
JP4574186B2 (en) Important language identification method, important language identification program, important language identification device, document search device, and keyword extraction device
JP2006350749A (en) Document filtering device, document filtering method, program, and recording medium
JP4496797B2 (en) Document management apparatus and method
JP2005234772A (en) Documentation management system and method
JP4985096B2 (en) Document analysis system, document analysis method, and computer program
US20030009490A1 (en) Information processing apparatus, information processing method, recording medium, program, and electronic-publishing-data providing system
JP3902825B2 (en) Document search system and method
JP3383485B2 (en) Information retrieval device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080226

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110405

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110524

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110526

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4754849

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees