JP2003228581A - Method of retrieving similarity by compatibility feedback - Google Patents

Method of retrieving similarity by compatibility feedback

Info

Publication number
JP2003228581A
JP2003228581A JP2002027538A JP2002027538A JP2003228581A JP 2003228581 A JP2003228581 A JP 2003228581A JP 2002027538 A JP2002027538 A JP 2002027538A JP 2002027538 A JP2002027538 A JP 2002027538A JP 2003228581 A JP2003228581 A JP 2003228581A
Authority
JP
Japan
Prior art keywords
search
information
similarity
condition vector
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002027538A
Other languages
Japanese (ja)
Other versions
JP4003468B2 (en
Inventor
Takaaki Yayoi
隆明 弥生
Tadataka Matsubayashi
忠孝 松林
Yasuhiko Inaba
靖彦 稲場
Yuichi Ogawa
祐一 小川
Shinya Yamamoto
伸也 山本
Masayuki Hamakawa
雅之 濱川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2002027538A priority Critical patent/JP4003468B2/en
Priority to US10/353,789 priority patent/US7130849B2/en
Publication of JP2003228581A publication Critical patent/JP2003228581A/en
Application granted granted Critical
Publication of JP4003468B2 publication Critical patent/JP4003468B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To quantitatively calculate a value serving as an index for the finish of retrieval, and to exhibit it to a user to prevent useless retrieval from being repeated, in compatibility feedback. <P>SOLUTION: An evaluation content evaluated by the user is read in, a retrieved result before re-retrieval is stored, the re-retrieval is conducted by the compatibility feedback, a retrieved result after the re-retrieval is stored, the retrieved result in the re-retrieval is output, the retrieved results before and after the re-retrieval are compared each other to calculate a finish determining index serving as the index for determining the finish of the retrieval, and the finish determining index is output. <P>COPYRIGHT: (C)2003,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、文書や画像等の電
子データを格納するデータベースに対し検索を行う方法
および装置に関し、その検索結果に対してユーザが与え
た評価に基づいて再検索を行う方法および装置に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and apparatus for searching a database that stores electronic data such as documents and images, and re-searches the search results based on the evaluation given by the user. A method and apparatus.

【0002】[0002]

【従来の技術】近年の電子データの増加に伴い、これら
の電子データをより効率的に検索したいという要求が高
まっている。この要求に応えるための検索技術として類
似検索と呼ばれる技術がある。類似検索には、検索条件
に指定された文書に類似する文書を検索する類似文書検
索や検索条件に指定された画像に類似する画像を検索す
る類似画像検索等がある。以下、類似検索を説明するに
あたり、類似文書検索を例に取って説明する。
2. Description of the Related Art With the increase in electronic data in recent years, there is an increasing demand for more efficient retrieval of these electronic data. As a search technique for meeting this demand, there is a technique called similar search. The similar search includes similar document search for searching a document similar to the document specified in the search condition, similar image search for searching an image similar to the image specified in the search condition, and the like. In describing the similarity search, the similar document search will be described below as an example.

【0003】類似文書検索では、検索条件および検索対
象の文書(以下、検索対象の文書を検索対象文書と呼
ぶ)を、それぞれ自立語の可能性がある文字列(以下、
特徴文字列と呼ぶ)の出現情報を要素とするベクトルと
して表現する。文書の検索時には、検索条件のベクトル
(以下、検索条件ベクトルと呼ぶ)と検索対象文書のベ
クトル(以下、登録文書ベクトルと呼ぶ)の内積を検索
条件に対する検索対象文書の類似度として算出する。こ
の結果、算出された類似度の高い順に検索対象文書を参
照することで、目的とする文書を効率よく検索できる。
In the similar document search, a search condition and a search target document (hereinafter, the search target document is referred to as a search target document) are character strings each having a possibility of an independent word (hereinafter, referred to as a search target document).
It is expressed as a vector whose elements are the appearance information of (characteristic character string). When retrieving a document, an inner product of a search condition vector (hereinafter referred to as a search condition vector) and a search target document vector (hereinafter referred to as a registered document vector) is calculated as the similarity of the search target document to the search condition. As a result, the target document can be efficiently searched by referring to the search target documents in the descending order of the calculated similarity.

【0004】しかし、類似文書検索では、ユーザの意図
を適切に表現した文書を検索条件として指定することが
できない場合には、ユーザの意図と異なる検索結果が得
られるという問題がある。
However, the similar document search has a problem that a search result different from the user's intention can be obtained when a document that appropriately expresses the user's intention cannot be specified as a search condition.

【0005】これを解決する技術として、類似文書検索
の検索結果に対する評価を検索条件にフィードバックす
ることで精度の高い検索を実現する適合性フィードバッ
クがある。
As a technique for solving this problem, there is relevance feedback that realizes highly accurate retrieval by feeding back the evaluation of the retrieval result of the similar document retrieval to the retrieval condition.

【0006】適合性フィードバックは、検索結果に対し
てユーザが「所望する」文書であるか「所望しない」文
書であるかの評価を行い、前記評価に基づいて検索条件
を修正し、前記修正された検索条件を用いた再検索を行
うことで精度の高い検索を実現する技術であり、例えば
特開2001−117937号公報(以下、従来技術1
と呼ぶ)に示されている。
The relevance feedback evaluates whether the document is a “desired” document or a “desired” document by the user with respect to the search result, corrects the search condition based on the evaluation, and is corrected. This is a technique for realizing a highly accurate search by performing a re-search using the search conditions described above.
Called).

【0007】以下、従来技術1を例に取り、適合性フィ
ードバックを用いた類似文書検索の処理例を説明する。
[0007] Taking the prior art 1 as an example, a description will be given below of an example of a similar document search process using conformance feedback.

【0008】まず、従来技術1における類似文書検索方
法の概要を図2を用いて説明する。
First, an outline of a similar document search method in the prior art 1 will be described with reference to FIG.

【0009】本説明における類似文書検索では、検索条
件と検索対象文書を特徴文字列の出現頻度を要素とする
検索条件ベクトル、登録文書ベクトルとしてそれぞれ表
現し、検索条件ベクトルに対する登録文書ベクトルの類
似度を算出する。類似度の算出式として、従来技術1で
は数1を用いている。
In the similar document search in the present description, the search condition and the search target document are respectively expressed as a search condition vector having elements of the appearance frequency of the characteristic character string and a registered document vector, and the similarity of the registered document vector to the search condition vector. To calculate. In the prior art 1, the equation 1 is used as the expression for calculating the degree of similarity.

【0010】[0010]

【数1】 この式で、S(D)は検索条件ベクトルに対する登録文
書ベクトルDの類似度であり、Tは特徴文字列の異なり
数(異なる特徴文字列の総数)であり、Frq(i,D)
は文書Dにおける特徴文字列iの出現頻度であり、w
(i)は検索条件に指定される文書における特徴文字列
iの出現頻度から決定される検索条件ベクトルの特徴文
字列iに対する重みである。
[Equation 1] In this formula, S (D) is the similarity of the registered document vector D to the search condition vector, T is the number of different characteristic character strings (total number of different characteristic character strings), and Frq (i, D).
Is the appearance frequency of the characteristic character string i in the document D, and w
(I) is a weight for the characteristic character string i of the search condition vector determined from the appearance frequency of the characteristic character string i in the document specified as the search condition.

【0011】図2に示す検索条件ベクトル201は特徴
文字列Aに対して3,特徴文字列Bに対して2,特徴文
字列Cに対して2,特徴文字列Dに対して3,特徴文字
列Eに対して1の重みをそれぞれ持っている。ここで
は、検索条件ベクトル201を(3,2,2,3,1)
と表す。また、データベース202には、特徴文字列A
を1個、特徴文字列Bを1個、特徴文字列Cを1個、特
徴文字列Eを1個含む文書1の登録文書ベクトル(1,
1,1,0,1)、および特徴文字列Aを1個、特徴文
字列Bを1個、特徴文字列Cを1個含む文書2の登録文
書ベクトル(1,1,1,0,0)、特徴文字列Bを1
個、特徴文字列Dを1個、特徴文字列Eを1個含む文書
3の登録文書ベクトル(0,1,0,1,1)が登録さ
れているとする。
The search condition vector 201 shown in FIG. 2 includes 3 for the characteristic character string A, 2 for the characteristic character string B, 2 for the characteristic character string C, and 3 for the characteristic character string D. Each column E has a weight of 1. Here, the search condition vector 201 is set to (3, 2, 2, 3, 1)
Express. Further, the database 202 stores the characteristic character string A.
, A characteristic character string B, a characteristic character string C, a characteristic character string E, and a registered document vector (1,
1, 1, 0, 1), one characteristic character string A, one characteristic character string B, and one characteristic character string C are registered document vectors (1, 1, 1, 0, 0) of the document 2. ), 1 for the characteristic character string B
It is assumed that the registered document vector (0, 1, 0, 1, 1) of the document 3 including one, one characteristic character string D, and one characteristic character string E is registered.

【0012】類似文書検索の実行時には、類似度算出・
並べ替え処理203において、数1により検索条件ベク
トル201に対するデータベース202内の登録文書ベ
クトルの類似度が算出され、類似度の高い順に文書が並
び替えられる。
At the time of executing the similar document search, the similarity calculation
In the rearrangement process 203, the similarity of the registered document vector in the database 202 with respect to the search condition vector 201 is calculated by Equation 1, and the documents are rearranged in the descending order of similarity.

【0013】この結果、文書1の類似度が8、文書2の
類似度が7、そして文書3の類似度が6となり検索結果
204が得られる。
As a result, the similarity of the document 1 becomes 8, the similarity of the document 2 becomes 7, and the similarity of the document 3 becomes 6, and the retrieval result 204 is obtained.

【0014】次に、従来技術1における適合性フィード
バックの処理の概要を、類似文書検索の概要の説明と同
様に図2を用いて説明する。本図に示した例は、検索結
果204に対して、ユーザが文書3を「所望する」と評
価した場合の処理例である。従来技術1では、検索条件
ベクトルの特徴文字列の重みを以下の数2に従って修正
する。
Next, the outline of the process of the compatibility feedback in the prior art 1 will be described with reference to FIG. 2 similarly to the outline of the similar document search. The example shown in the figure is a processing example when the user evaluates the document 3 as “desired” with respect to the search result 204. In the prior art 1, the weight of the characteristic character string of the search condition vector is corrected according to the following Expression 2.

【0015】[0015]

【数2】 ここで、w’(i)は特徴文字列iに対するあらたな重
み、w(i)はもとの重みであり、FP(j)は「所望
する」と評価されたj番目の文書に含まれている特徴文
字列iの出現頻度、FN(k)は「所望しない」と評価
されたk番目の文書に含まれる特徴文字列iの出現頻度
である。また、Pは「所望する」と評価された文書の数
であり、Nは「所望しない」と評価された文書の数であ
る。なお、α、βはパラメータであり、本処理例ではい
ずれも1としている。
[Equation 2] Here, w ′ (i) is a new weight for the characteristic character string i, w (i) is the original weight, and FP (j) is included in the j-th document evaluated as “desired”. The appearance frequency of the characteristic character string i, FN (k), is the appearance frequency of the characteristic character string i included in the k-th document evaluated as “undesired”. Further, P is the number of documents evaluated as “desired”, and N is the number of documents evaluated as “not desired”. Note that α and β are parameters, and are set to 1 in this processing example.

【0016】まず、ユーザによる評価205においてユ
ーザが文書3を「所望する」と評価すると、評価結果読
み込み処理206において、評価結果が読み込まれる。
First, when the user evaluates the document 3 as “desired” in the evaluation 205 by the user, the evaluation result is read in the evaluation result reading process 206.

【0017】次に、登録文書ベクトル取得処理207に
より、評価結果に従ってデータベース202から文書3
の登録文書ベクトル208が取得される。
Next, the registered document vector acquisition process 207 is performed to retrieve the document 3 from the database 202 according to the evaluation result.
Registered document vector 208 is acquired.

【0018】次に、検索条件ベクトル修正処理209に
より、数2を用いて文書3の登録文書ベクトル208の
各特徴文字列の重みが検索条件ベクトル201の各要素
に加算され、検索条件ベクトル201が(3,3,2,
4,2)の重みを持つ検索条件ベクトル201aに修正
される。
Next, the search condition vector correction processing 209 adds the weight of each characteristic character string of the registered document vector 208 of the document 3 to each element of the search condition vector 201 by using the expression 2 to obtain the search condition vector 201. (3, 3, 2,
The search condition vector 201a having a weight of 4, 2) is modified.

【0019】次に、類似度算出・並べ替え処理210に
より、検索条件ベクトル201aに対するデータベース
202内の登録文書ベクトルの類似度が算出され、文書
1の類似度が10、文書2の類似度が8、文書3の類似
度が9となる。この結果、類似度の高い順に検索対象文
書を並べ替えることで、「所望する」と評価した文書3
の順位が上昇した適合性フィードバック後の検索結果
(以下、再検索結果と呼ぶ)211が得られる。
Next, the similarity calculation / sorting process 210 calculates the similarity of the registered document vector in the database 202 with respect to the search condition vector 201a, and the similarity of document 1 is 10 and the similarity of document 2 is 8. , Document 3 has a similarity of 9. As a result, the documents 3 which are evaluated as “desired” by rearranging the search target documents in descending order of similarity.
A search result (hereinafter, referred to as a re-search result) 211 after the conformity feedback with the increased rank is obtained.

【0020】このように、従来技術1のように、適合性
フィードバックを用いることで検索精度の向上を図るこ
とができる。しかし、適合性フィードバックには、検索
をどの時点で終了すればよいのかをユーザが判断するこ
とが困難であるという問題がある。
As described above, by using the compatibility feedback as in the prior art 1, it is possible to improve the search accuracy. However, relevance feedback has the problem that it is difficult for the user to determine when to end the search.

【0021】上記問題を説明するために、適合性フィー
ドバックにおいて、ユーザが検索の終了を判断する手順
を示す。
In order to explain the above problem, the procedure for the user to determine the end of the search in the compatibility feedback will be shown.

【0022】まず、ユーザは再検索結果と前回の検索結
果を比較する。次に、前記比較結果から再検索の前後に
おける検索結果の変動の度合を推量する。最後に、検索
結果の変動の度合が大きければ、さらに再検索を行うこ
とで、目的とする文書を検索できるので検索を終了すべ
きでないと判断し、逆に検索結果の変動の度合が小さけ
れば、これ以上再検索を行っても目的とする文書は検索
されないので検索を終了すべきであると判断する。
First, the user compares the re-search result with the previous search result. Next, the degree of change in the search result before and after the re-search is estimated from the comparison result. Finally, if the degree of variation in the search results is large, it is determined that the search should not be terminated because the target document can be retrieved by performing a further search, and conversely, if the degree of variation in the search results is small. The target document is not searched even if the search is performed again, so it is determined that the search should be ended.

【0023】[0023]

【発明が解決しようとする課題】このように、適合性フ
ィードバックにおいては,再検索前後における検索結果
の変動度合の推量、検索結果の変動の度合からの検索の
終了判断はユーザが行う必要がある。このため、推量や
判断におけるユーザの負担が大きい。また、誤った推
量、判断を行った場合には、無駄な検索を繰り返してし
まうことになったり、さらに検索を続行することで目的
とする文書が検索される場合にもかかわらず、検索を終
了してしまうという問題がある。
As described above, in the relevance feedback, it is necessary for the user to make an estimation of the degree of variation of the search result before and after the re-retrieval and to determine the end of the retrieval based on the degree of the variation of the search result. . Therefore, the burden on the user in estimating and making a decision is large. In addition, if incorrect guesses and judgments are made, the search will be terminated even if the search will be repeated in vain, or if the target document is searched by continuing the search. There is a problem of doing.

【0024】上記問題を具体的に説明するために、例え
ば図3に示すように検索結果301における文書5を
「所望する」と評価して適合性フィードバックを行うこ
とによる検索結果301から再検索結果302への順位
変動が大きい場合、および検索結果301から再検索結
果303への順位変動が小さい場合を考える。
In order to explain the above problem concretely, for example, as shown in FIG. 3, the document 5 in the search result 301 is evaluated as "desired" and the relevance feedback is performed from the search result 301 to perform relevance feedback. Consider a case where the rank change to 302 is large, and a case where the rank change from the search result 301 to the re-search result 303 is small.

【0025】以下に、それぞれの場合にユーザが行う検
索の終了判断の手順を具体的に説明する。
The procedure of determining the end of the search performed by the user in each case will be specifically described below.

【0026】検索結果301から再検索結果302への
順位変動が大きい例では、ユーザは検索結果301と再
検索結果302を見比べて、文書1は3位下降、文書2
は3位下降、文書3は不変、文書4は2位上昇、文書5
は4位上昇と変動していることを確認し、「順位の変動
が大きいので、再検索を行うことで目的とする文書を検
索できる」と判断し、検索を続行する。
In the example in which the rank change from the search result 301 to the re-search result 302 is large, the user compares the search result 301 with the re-search result 302, and the document 1 is lowered by the third place and the document 2 is
3rd down, Document 3 unchanged, Document 4 up 2nd, Document 5
Confirms that there is a fluctuation of 4th place, and determines that "the target document can be searched by re-searching because the fluctuation of the ranking is large" and continues the search.

【0027】また、検索結果301から再検索結果30
3への順位変動が小さい場合、ユーザは検索結果301
と再検索結果303を見比べて、文書1は不変、文書2
は不変、文書3は不変、文書4は1位下降、文書5は1
位上昇と変動していることを確認し、「順位の変動が小
さいので、これ以上検索を続行しても目的とする文書は
検索できない」と判断し、検索を終了する。
The search result 301 to the re-search result 30
If the rank change to 3 is small, the user can search for the search result 301.
And the re-search result 303, the document 1 is unchanged, the document 2
Is unchanged, document 3 is unchanged, document 4 is down one place, document 5 is 1
After confirming that the ranking is changing and the ranking is changing, it is judged that "the fluctuation of the ranking is small, the target document cannot be searched even if the search is continued any further", and the search is ended.

【0028】なお、上記説明ではユーザは表示されてい
る5件の文書の順位変動を確認するものとしているが、
文書が100件表示される場合には100件分の文書の
順位変動を確認した上で変動の度合を推量し、その変動
の度合から検索の終了を判断する必要がある。
In the above description, the user confirms the order change of the five displayed documents.
When 100 documents are displayed, it is necessary to confirm the order variation of 100 documents, estimate the degree of variation, and determine the end of the search from the degree of variation.

【0029】本発明の目的は、適合性フィードバックに
おける再検索の終了の判断指標となる値を定量的に算出
し、ユーザに提示することで、ユーザが適合性フィード
バックにおける検索の終了を誤って判断するのを防ぐこ
とにある。
An object of the present invention is to quantitatively calculate a value as a judgment index for the end of re-search in the compatibility feedback and present it to the user so that the user erroneously judges the end of the search in the compatibility feedback. To prevent it.

【0030】[0030]

【課題を解決するための手段】上記目的を達成するため
に、本発明の適合性フィードバック方法は、検索処理と
して以下のステップを有する。 (1)ユーザが評価した文書を識別する識別情報および
評価内容を読み込む評価内容読み込みステップ。 (2)適合性フィードバックによる再検索の前の検索結
果や検索条件(以下、再検索前情報と呼ぶ)を記憶する
再検索前情報記憶ステップ。 (3)前記評価内容読み込みステップで読み込まれた評
価内容を用いて、予め定められた方法に従って適合性フ
ィードバックによる再検索を行う再検索実行ステップ。 (4)前記再検索実行ステップによる再検索の後の検索
結果や検索条件(以下、再検索後情報と呼ぶ)を記憶す
る再検索後情報記憶ステップ。 (5)前記再検索実行ステップで検索された再検索の検
索結果を出力する再検索結果出力ステップ。 (6)前記再検索前情報記憶ステップで記憶された再検
索前情報と、前記再検索後情報記憶ステップで記憶され
た再検索後情報を予め定められた方法で比較すること
で、検索終了の判断指標となる値(以下、終了判断指標
と呼ぶ)を算出する終了判断指標値算出ステップ。 (7)前記終了判断指標算出ステップで算出された終了
判断指標を出力する終了判断指標出力ステップ。
In order to achieve the above object, the suitability feedback method of the present invention has the following steps as a search process. (1) An evaluation content reading step of reading the identification information for identifying the document evaluated by the user and the evaluation content. (2) Pre-re-search information storage step of storing search results and search conditions (hereinafter, referred to as pre-search information) before re-search by suitability feedback. (3) A re-retrieval execution step of re-retrieving by conformity feedback according to a predetermined method, using the evaluation contents read in the evaluation contents reading step. (4) Post-research information storage step of storing search results and search conditions (hereinafter referred to as post-research information) after the research by the research execution step. (5) A re-search result output step of outputting a search result of the re-search searched in the re-search execution step. (6) Completing the search by comparing the pre-research information stored in the pre-research information storing step with the post-research information stored in the post-research information storing step by a predetermined method. An end determination index value calculation step of calculating a value serving as a determination index (hereinafter referred to as an end determination index). (7) An end determination index output step of outputting the end determination index calculated in the end determination index calculation step.

【0031】[0031]

【発明の実施の形態】まず、本発明の第一の実施例の構
成について図1を用いて説明する。
BEST MODE FOR CARRYING OUT THE INVENTION First, the configuration of a first embodiment of the present invention will be described with reference to FIG.

【0032】本発明を適用した文書検索システムは、検
索結果を表示するディスプレイ101、登録・検索コマ
ンドおよび検索結果に対する評価を入力するキーボード
102、登録処理および検索処理を行う中央演算処理装
置(CPU)103、各種データを格納する磁気ディス
ク装置104、フロッピディスク105から各種プログ
ラムおよびデータを読み込むフロッピディスクドライブ
(FDD)106、登録処理および検索処理用のプログ
ラムならびにデータを一時的に格納する主メモリ107
およびこれらを結ぶバス108から構成される。
A document search system to which the present invention is applied includes a display 101 for displaying a search result, a keyboard 102 for inputting a registration / search command and an evaluation for the search result, a central processing unit (CPU) for performing a registration process and a search process. 103, a magnetic disk device 104 for storing various data, a floppy disk drive (FDD) 106 for reading various programs and data from a floppy disk 105, a main memory 107 for temporarily storing programs and data for registration processing and search processing
And a bus 108 connecting them.

【0033】磁気ディスク装置104は二次記憶装置の
一つであり、テキスト109が格納される。FDD10
6を介してフロッピディスク105に格納されている情
報が、主メモリ107あるいは磁気ディスク装置104
に読み込まれる。また、本発明の類似検索方法を実行す
るためのプログラムをフロッピディスク105に格納
し、これを読み込んで実行することもできる。
The magnetic disk device 104 is one of the secondary storage devices and stores the text 109. FDD10
Information stored in the floppy disk 105 via the main memory 107 or the magnetic disk device 104
Read in. It is also possible to store a program for executing the similarity search method of the present invention in the floppy disk 105, read it, and execute it.

【0034】主メモリ107には検索システム全体を制
御するシステム制御プログラム110、検索対象となる
文書の登録処理を行う文書登録プログラム111、検索
処理の制御を行う検索制御プログラム112が格納され
る。
The main memory 107 stores a system control program 110 for controlling the entire search system, a document registration program 111 for registering a document to be searched, and a search control program 112 for controlling the search process.

【0035】検索制御プログラム112は初回の検索に
おいて検索条件ベクトルを生成する検索条件ベクトル生
成プログラム113、前回の検索結果を保持する再検索
前情報格納プログラム114、検索結果に対する評価に
基づいて検索条件ベクトルを修正する検索条件ベクトル
修正プログラム115、検索条件を用いて類似検索を実
行する類似検索実行プログラム116、類似検索の結果
を出力する検索結果出力プログラム117、終了判断指
標を算出する検索結果利用終了判断指標算出プログラム
118、及び算出された終了判断指標を出力する終了判
断指標出力プログラム119から構成される。
The search control program 112 is a search condition vector generation program 113 that generates a search condition vector in the first search, a pre-research information storage program 114 that holds the previous search result, and a search condition vector based on the evaluation of the search result. Search condition vector correction program 115 that corrects, a similar search execution program 116 that executes a similar search using the search condition, a search result output program 117 that outputs the result of the similar search, and a search result use end determination that calculates an end determination index. The index calculation program 118 and the end determination index output program 119 that outputs the calculated end determination index are included.

【0036】さらに、類似検索の検索条件として用いら
れる特徴文字列とその重みの組からなる検索条件ベクト
ルを格納する検索条件ベクトル格納エリア120、前回
の検索結果を格納する再検索前情報格納エリア121、
および、その他の一時的なデータを格納するワークエリ
ア122が確保される。
Further, a search condition vector storage area 120 for storing a search condition vector composed of a combination of a characteristic character string used as a search condition for similarity search and its weight, and a pre-research information storage area 121 for storing a previous search result. ,
Also, a work area 122 for storing other temporary data is secured.

【0037】なお、本実施例では、二次記憶装置に磁気
ディスク装置を用いるものとするが、光磁気ディスク装
置など他の二次記憶装置を用いてもかまわないし、SA
N(Storage Area Network)などネットワークを介して
接続された記憶装置を用いてもかまわない。
In this embodiment, the magnetic disk device is used as the secondary storage device, but another secondary storage device such as a magneto-optical disk device may be used.
A storage device connected via a network such as N (Storage Area Network) may be used.

【0038】また、本実施例では、フロッピディスク1
05に格納されている情報を、FDD106を介して読
み込む構成としたが、CD−ROMとCD−ROMドラ
イブというように他の記憶媒体と対応する読み取り装置
を用いる構成としてもかまわない。
Further, in this embodiment, the floppy disk 1 is used.
The information stored in 05 is read via the FDD 106, but a reading device corresponding to another storage medium such as a CD-ROM and a CD-ROM drive may be used.

【0039】また、本実施例では入力装置としてキーボ
ードを利用しているが、マウスを用いてもかまわない
し、携帯電話やPDA(Personal Digital Assistant)
のような携帯端末を用いてもかまわないし、その他の入
力装置を用いてもかまわない。
Although a keyboard is used as an input device in this embodiment, a mouse may be used, and a mobile phone or PDA (Personal Digital Assistant) may be used.
Such a mobile terminal may be used, or another input device may be used.

【0040】また、本実施例では情報をディスプレイに
出力する構成にしているが、ネットワークを介した他の
PCのディスプレイに出力する構成にしてもかまわない
し、情報を電子メールとして送信する構成にしてもかま
わないし、他の出力装置を用いる構成としてもかまわな
い。
In the present embodiment, the information is output to the display. However, the information may be output to the display of another PC via the network, or the information may be sent as an electronic mail. It does not matter, and a configuration using another output device may be used.

【0041】以下に本実施例における各プログラムの処
理手順について説明する。
The processing procedure of each program in this embodiment will be described below.

【0042】まず、システム制御プログラム110の処
理手順を説明する。
First, the processing procedure of the system control program 110 will be described.

【0043】システム制御プログラム110は、キーボ
ード102から入力されるコマンドを判定し、文書登録
コマンドであった場合には、文書登録プログラム111
を起動し、文書の登録処理を実行する。また、前記コマ
ンドが文書検索コマンドであった場合には、検索制御プ
ログラム112を起動し、文書の検索処理を実行する。
The system control program 110 judges the command input from the keyboard 102, and if it is a document registration command, the document registration program 111.
To start the document registration process. If the command is a document search command, the search control program 112 is activated to execute a document search process.

【0044】次に、システム制御プログラム110によ
り起動される文書登録プログラム111の処理手順を説
明する。
Next, the processing procedure of the document registration program 111 activated by the system control program 110 will be described.

【0045】文書登録プログラム111は、フロッピデ
ィスク105に格納されている全ての検索対象文書に対
して、全ての検索対象文書内で検索対象文書を一意に識
別することができる任意の識別子(以下、文書識別子と
呼ぶ)を割り当てた後、磁気ディスク装置104内のテ
キスト109として格納する。
The document registration program 111, with respect to all the search target documents stored in the floppy disk 105, is an arbitrary identifier (hereinafter, referred to as an identifier that can uniquely identify the search target document in all the search target documents). After being assigned a document identifier), it is stored as the text 109 in the magnetic disk device 104.

【0046】次に、システム制御プログラム110によ
り起動される検索制御プログラム112の処理手順につ
いて図4に示すPAD(Problem Analysis Diagram)図
を用いて説明する。
Next, the processing procedure of the search control program 112 started by the system control program 110 will be described with reference to the PAD (Problem Analysis Diagram) diagram shown in FIG.

【0047】まず、ステップ401において、検索制御
プログラム112は検索条件ベクトル生成プログラム1
13を起動し、検索条件ベクトルを生成した後、該検索
条件ベクトルを検索条件ベクトル格納エリア120に格
納する。
First, in step 401, the search control program 112 is the search condition vector generation program 1
After starting 13 to generate a search condition vector, the search condition vector is stored in the search condition vector storage area 120.

【0048】次に、ステップ402において、キーボー
ド102から検索終了のコマンドが入力されるまで、ス
テップ403からステップ408までの処理を繰り返し
実行する。
Next, in step 402, the processing from step 403 to step 408 is repeatedly executed until the search end command is input from the keyboard 102.

【0049】まず、ステップ403において、再検索前
情報格納プログラム114を起動し、適合性フィードバ
ックによる検索が行われる前の検索結果を再検索前情報
格納エリア121に格納する。次に、類似検索実行プロ
グラム116を起動し、検索条件ベクトル格納エリア1
20に格納されている検索条件ベクトルを用いて類似検
索を実行する。次に、検索結果出力プログラム117を
起動し、類似検索実行プログラム116により実行され
た類似検索の結果をディスプレイ101に出力する。次
に、検索結果利用終了判断指標算出プログラム118を
起動し、適合性フィードバックの終了の判断指標となる
終了判断指標を算出する。次に、終了判断指標出力プロ
グラム119を起動し、検索結果利用終了判断指標算出
プログラム118により算出された終了判断指標をディ
スプレイ101に出力する。
First, in step 403, the pre-research information storage program 114 is activated, and the search results before the search by the compatibility feedback is performed are stored in the pre-research information storage area 121. Next, the similar search execution program 116 is started, and the search condition vector storage area 1
A similarity search is performed using the search condition vector stored in 20. Next, the search result output program 117 is activated, and the result of the similar search executed by the similar search execution program 116 is output to the display 101. Next, the search result utilization end determination index calculation program 118 is activated to calculate an end determination index serving as a determination index for the end of the compatibility feedback. Next, the end determination index output program 119 is started, and the end determination index calculated by the search result use end determination index calculation program 118 is output to the display 101.

【0050】次に、ステップ404において、キーボー
ド102から入力されるコマンドを読み込む。
Next, in step 404, the command input from the keyboard 102 is read.

【0051】次に、ステップ405において、前記ステ
ップ404において入力されたコマンドを判定し、検索
結果出力プログラム117によりディスプレイ101に
出力された類似検索の検索結果に含まれる文書に対する
「所望する」あるいは「所望しない」という評価のコマ
ンドであった場合には、ステップ407において、検索
条件ベクトル修正プログラム115を起動し、前記評価
コマンドに基づいて検索条件ベクトルを修正する。
Next, at step 405, the command input at step 404 is judged, and the "desired" or "desired" for the document included in the search result of the similar search output to the display 101 by the search result output program 117. If the command is an "undesired" evaluation command, the search condition vector correction program 115 is started in step 407, and the search condition vector is corrected based on the evaluation command.

【0052】また、ステップ406において、前記ステ
ップ404において入力されたコマンドを判定し、検索
を終了するコマンドであった場合には、ステップ408
において、検索条件ベクトル格納エリア120、再検索
前情報格納エリア121、ワークエリア122の内容を
クリアする。
In step 406, if the command input in step 404 is judged and the command ends the search, step 408.
In, the contents of the search condition vector storage area 120, the pre-search information storage area 121, and the work area 122 are cleared.

【0053】なお、本実施例では「所望する」又は「所
望しない」という評価コマンドが入力されるものとした
が、特開2001−22787で開示されているよう
に、「所望する」という評価コマンドのみが入力される
ものとしてもかまわないし、所望の度合を入力するなど
他の方法で評価を行ってもかまわない。
In this embodiment, the evaluation command "desired" or "not desired" is input. However, as disclosed in Japanese Patent Laid-Open No. 2001-22787, the evaluation command "desired" is input. Only the input may be made, or the evaluation may be made by another method such as inputting a desired degree.

【0054】次に、検索制御プログラム112により起
動される検索条件ベクトル生成プログラム113の処理
手順について説明する。検索条件を生成する方法には従
来技術1に開示される方法がある。以下に従来技術1で
開示されている検索条件生成の処理を例に取り、検索条
件生成プログラム113の処理手順を説明する。
Next, the processing procedure of the search condition vector generation program 113 started by the search control program 112 will be described. There is a method disclosed in Related Art 1 as a method for generating a search condition. The processing procedure of the search condition generation program 113 will be described below by taking the search condition generation processing disclosed in Related Art 1 as an example.

【0055】検索条件生成プログラム113は、類似検
索の検索条件としてキーボード102から入力される文
書(以下、種文書と呼ぶ)をワークエリア122に読み
込み、読み込んだ種文書から特徴文字列を抽出する。次
に、抽出した前記特徴文字列の種文書における出現頻度
を計数し、この特徴文字列と出現頻度の組を、後述の類
似検索実行プログラム116の処理において用いられる
検索条件ベクトルとして検索条件ベクトル格納エリア1
20へ格納する。
The search condition generation program 113 reads a document (hereinafter referred to as seed document) input from the keyboard 102 as a search condition for similarity search into the work area 122, and extracts a characteristic character string from the read seed document. Next, the appearance frequency of the extracted feature character string in the seed document is counted, and the set of the feature character string and the appearance frequency is stored as a search condition vector used as a search condition vector used in the processing of the similar search execution program 116 described later. Area 1
Store in 20.

【0056】特徴文字列の抽出方法としては、特開平6
−301722で開示されているような形態素解析に基
づく方法であってもかまわないし、特開2000−23
1563で開示されているようなn−gramを用いた
方法であってもかまわないし、その他の方法であっても
かまわない。
As a method for extracting the characteristic character string, Japanese Patent Laid-Open No.
The method based on the morphological analysis as disclosed in Japanese Patent Laid-Open No. 301722/1993 may be used.
The method using n-gram as disclosed in 1563 may be used, or another method may be used.

【0057】また、本実施例では種文書から抽出する特
徴文字列の種類数を制限していないが、メモリ使用量の
削減のために種文書から抽出する特徴文字列の種類数を
制限してもかまわない。
Although the number of types of characteristic character strings extracted from the seed document is not limited in this embodiment, the number of types of characteristic character strings extracted from the seed document is limited to reduce the memory usage. I don't care.

【0058】以下に、検索条件ベクトル生成プログラム
113により生成される検索条件ベクトルの生成手順を
図5を用いて具体的に説明する。
The procedure for generating the search condition vector generated by the search condition vector generation program 113 will be specifically described below with reference to FIG.

【0059】まず、種文書501が種文書読み込み処理
502により、ワークエリア122に読み込まれ、種文
書データ503として格納される。
First, the seed document 501 is read into the work area 122 by the seed document reading process 502 and stored as seed document data 503.

【0060】次に、特徴文字列抽出・出現頻度計数処理
504により、前記種文書読み込み処理502により読
み込まれた種文書データ503から特徴文字列が抽出さ
れるが、本例ではあらかじめ定められた手順に従って
「car」、「accident」、「cellular」、「phone」の特
徴文字列が抽出されるものとし、前記特徴文字列が抽出
された後、この特徴文字列の種文書データ503内にお
ける出現頻度が計数され、「car」が1回、「acciden
t」が1回、「cellular」が2回、「phone」が3回とい
う形で特徴文字列と出現頻度の組505が得られ、ワー
クエリア122に格納される。
Next, the characteristic character string extraction / appearance frequency counting process 504 extracts the characteristic character string from the seed document data 503 read by the seed document reading process 502. In this example, a predetermined procedure is used. The characteristic character strings “car”, “accident”, “cellular”, and “phone” are extracted in accordance with the above. After the characteristic character strings are extracted, the appearance frequency of the characteristic character strings in the seed document data 503. Are counted, "car" once, "acciden"
A set 505 of characteristic character strings and appearance frequencies is obtained in the form of “t” once, “cellular” twice, and “phone” three times, and stored in the work area 122.

【0061】最後に、格納処理506により、前記特徴
文字列抽出・出現頻度計数処理504により取得された
特徴文字列と出現頻度の組505が検索条件ベクトル5
07として、検索条件ベクトル格納エリア120に格納
される。
Finally, by the storage process 506, the set 505 of the characteristic character string and the appearance frequency acquired by the characteristic character string extraction / appearance frequency counting process 504 is obtained as the retrieval condition vector 5.
No. 07 is stored in the search condition vector storage area 120.

【0062】次に、検索制御プログラム112により起
動される再検索前情報格納プログラム114の処理手順
について説明する。
Next, the processing procedure of the pre-research information storage program 114 started by the search control program 112 will be described.

【0063】まず、再検索前情報格納プログラム114
は再検索前情報格納エリア121の内容をクリアする。
次に、後述の類似検索実行プログラム116の処理にお
いてワークエリア122に格納された最新の検索結果に
含まれる検索対象文書の順位と文書識別子の組を、適合
性フィードバックによる再検索を行う前の検索結果とし
て、再検索前情報格納エリア121に格納する。
First, the pre-research information storage program 114
Clears the contents of the pre-research information storage area 121.
Next, in the processing of the similar search execution program 116, which will be described later, the combination of the rank and the document identifier of the search target document included in the latest search result stored in the work area 122 is searched before performing the re-search by the compatibility feedback. As a result, it is stored in the pre-research information storage area 121.

【0064】なお、本実施例では再検索前情報格納エリ
ア121の内容をクリアしているが、履歴を保持するた
めに再検索前情報格納エリア121の内容をクリアしな
い構成にしてもかまわない。また、本実施例ではすべて
の文書の順位と文書識別子の組を格納するものとしてい
るが、メモリ使用量の削減のために、格納する文書の順
位と文書識別子の組の個数を制限するものとしてもかま
わない。
Although the contents of the pre-research information storage area 121 are cleared in this embodiment, the contents of the pre-research information storage area 121 may not be cleared in order to retain the history. Further, in the present embodiment, the sets of the order and the document identifier of all the documents are stored, but in order to reduce the memory usage, the number of the sets of the order of the stored document and the document identifier is limited. I don't care.

【0065】次に、検索制御プログラム112により起
動される検索条件ベクトル修正プログラム115につい
て説明する。検索条件ベクトル修正プログラム115
は、検索条件ベクトル格納エリア120に格納されてい
る検索条件ベクトルを、ユーザの評価に基づき修正す
る。なお、本実施例における検索条件ベクトル修正プロ
グラム115の処理は、従来技術1で提案されている方
法等で実現可能である。
Next, the search condition vector correction program 115 started by the search control program 112 will be described. Search condition vector correction program 115
Modifies the search condition vector stored in the search condition vector storage area 120 based on the user's evaluation. The processing of the search condition vector modification program 115 in the present embodiment can be realized by the method proposed in Prior Art 1 or the like.

【0066】次に、検索制御プログラム112により起
動される類似検索実行プログラム116の処理手順を説
明する。
Next, the processing procedure of the similar search execution program 116 started by the search control program 112 will be described.

【0067】まず、類似検索実行プログラム116は、
検索条件ベクトル格納エリア120内の検索条件ベクト
ルと、テキスト109に格納されているすべての検索対
象文書から生成する登録文書ベクトルとの類似度を数1
に示す類似度算出式を用いて算出し、類似度の降順にす
べての検索対象文書の文書識別子を並び替えた後、前記
文書識別子と順位の組を検索結果としてワークエリア1
22に格納する。
First, the similarity search execution program 116
The degree of similarity between the search condition vector in the search condition vector storage area 120 and the registered document vector generated from all the search target documents stored in the text 109 is expressed by the formula 1
Is calculated using the similarity calculation formula shown in FIG. 1, and the document identifiers of all the search target documents are rearranged in descending order of the similarity, and the work area 1 is used as the search result with the combination of the document identifier and the rank.
It stores in 22.

【0068】なお、本実施例では格納する検索結果の件
数を制限していないが、メモリ使用量の削減のために件
数を制限してもかまわない。また、本実施例では順位と
文書識別子の組を検索結果として格納するものとした
が、類似度を検索結果に含めるなど、他の情報を検索結
果に付与して格納するものとしてもかまわない。
Although the number of retrieval results to be stored is not limited in this embodiment, the number of retrieval results may be limited in order to reduce the memory usage. Further, in the present embodiment, the combination of the rank and the document identifier is stored as the search result, but other information such as including the similarity in the search result may be added to the search result and stored.

【0069】また、本実施例では順位と文書識別子の組
をワークエリア122に格納しているが、一時的に磁気
ディスク104に格納してもかまわない。また、本実施
例では類似度の算出には前述の数1を用いるものとした
が、他の類似度算出式を用いてもかまわない。
In this embodiment, the set of the order and the document identifier is stored in the work area 122, but it may be temporarily stored in the magnetic disk 104. Further, in the present embodiment, the calculation of the similarity is performed by using the above-mentioned equation 1, but other similarity calculation formulas may be used.

【0070】次に、検索制御プログラム112により起
動される検索結果出力プログラム117の処理手順につ
いて説明する。
Next, the processing procedure of the search result output program 117 started by the search control program 112 will be described.

【0071】検索結果出力プログラム117は類似検索
実行プログラム116によりワークエリア122に格納
された検索対象文書の順位と文書識別子の組をディスプ
レイ101に表示する。なお、本実施例では検索結果を
ディスプレイ101に出力しているが、検索結果を磁気
ディスク104に出力して他の処理に使用してもかまわ
ない。
The search result output program 117 displays on the display 101 the set of the order of the document to be searched and the document identifier stored in the work area 122 by the similarity search execution program 116. Although the search result is output to the display 101 in this embodiment, the search result may be output to the magnetic disk 104 and used for other processing.

【0072】次に、検索制御プログラム112により起
動される検索結果利用終了判断指標算出プログラム11
8の処理手順を図6に示すPAD図を用いて説明する。
Next, the search result utilization end judgment index calculation program 11 started by the search control program 112
The processing procedure of No. 8 will be described with reference to the PAD diagram shown in FIG.

【0073】まず、ステップ601において、ワークエ
リア122に格納されている終了判断指標をリセットす
る。
First, in step 601, the end determination index stored in the work area 122 is reset.

【0074】次に、ステップ602において、再検索前
情報格納エリア121に格納されている文書の数だけ、
ステップ603およびステップ604の処理を繰り返し
実行する。
Next, in step 602, the number of documents stored in the pre-retrieval information storage area 121,
The processes of steps 603 and 604 are repeatedly executed.

【0075】ステップ603においては、ワークエリア
122に格納されている再検索結果に含まれる文書のう
ち、未処理文書の順位変動を算出し、重み付けを行なう。
即ち、類似検索実行プログラム116によりワークエリ
ア122に格納された再検索結果に含まれる文書の内、
未処理の文書の順位と文書識別子の組を一つ選択する。
次に、再検索前情報格納プログラム114により再検索
前情報格納エリア121に格納された再検索前の検索結
果に含まれる文書の内、選択した文書識別子に対応する
文書の順位を参照する。次に、再検索前の検索結果にお
ける該検索対象文書の順位から、再検索結果における順
位を減算する。次に、算出した順位の差を再検索結果に
おける該検索対象文書の順位で除算する。
In step 603, the rank change of unprocessed documents among the documents included in the re-search result stored in the work area 122 is calculated and weighted.
That is, of the documents included in the re-search results stored in the work area 122 by the similarity search execution program 116,
Select one set of unprocessed document rank and document identifier.
Next, the pre-research information storage program 114 refers to the order of the document corresponding to the selected document identifier among the documents included in the pre-research information stored in the pre-research information storage area 121. Next, the rank in the re-search result is subtracted from the rank of the search target document in the search result before the re-search. Next, the calculated difference in rank is divided by the rank of the search target document in the re-search result.

【0076】最後に、ステップ604において、前記ス
テップ603で算出した順位変動を終了判断指標に加算
する。
Finally, in step 604, the rank change calculated in step 603 is added to the end determination index.

【0077】なお、図6に示す終了判断指標算出の処理
で算出される終了判断指標は数3で表現される。この式
で、Mは再検索前情報格納数であり、R(D)は前回検
索結果における文書Dの順位であり、R’(D)は再検
索結果における文書Dの順位である。
The end determination index calculated in the process of calculating the end determination index shown in FIG. 6 is expressed by Equation 3. In this formula, M is the number of stored information before re-search, R (D) is the rank of document D in the previous search result, and R '(D) is the rank of document D in the re-search result.

【0078】[0078]

【数3】 数3は、検索結果の順位変動が大きいほど、大きい終了
判断指標の値を算出するものであり、検索結果に順位変
動が起こらない場合には、終了判断指標は0となる。
[Equation 3] Formula 3 calculates a larger value of the end determination index as the rank variation of the search result is larger, and the end determination index becomes 0 when the rank variation of the search result does not occur.

【0079】なお、本実施例では終了判断指標をワーク
エリア122に格納しているが、磁気ディスク104に
出力するなど、他の方法で終了判断指標を格納してもか
まわない。また、本実施例では終了判断指標算出に数3
を用いているが、順位の差の絶対値を取る構成にしても
かまわないし、他の算出式を用いてもかまわない。ま
た、本実施例では順位の差から終了判断指標を算出する
ものとしているが、類似度の差から終了判断指標を算出
する構成にしてもかまわない。
Although the end determination index is stored in the work area 122 in this embodiment, the end determination index may be stored by another method such as outputting to the magnetic disk 104. In addition, in the present embodiment, the calculation of the termination judgment index is performed by the formula
However, the absolute value of the difference between the ranks may be used, or another calculation formula may be used. Further, in the present embodiment, the end determination index is calculated from the difference in rank, but the end determination index may be calculated from the difference in similarity.

【0080】以下、検索結果利用終了判断指標算出プロ
グラム118の処理を図3を用いて具体的に説明する。
The processing of the retrieval result use end judgment index calculation program 118 will be specifically described below with reference to FIG.

【0081】検索結果301において5位の文書5を
「所望する」と評価して再検索を行った結果、検索結果
301から順位が大きく変動した再検索結果302が得
られた場合の例において、数3に示す終了判断指標算出
式を用いて終了判断指標を算出した場合、数4に示すよ
うに終了判断指標3.65が得られる。
In the example of the case where the document 5 in the fifth place in the search result 301 is evaluated as “desired” and the re-search is performed, the re-search result 302 whose rank greatly changes from the search result 301 is obtained. When the end determination index is calculated using the end determination index calculation formula shown in Formula 3, the end determination index 3.65 is obtained as shown in Formula 4.

【0082】[0082]

【数4】 また、検索結果301からの再検索により順位の変動が
小さい再検索結果303が得られた場合の例では、数5
に示すように終了判断指標0.05が得られる。
[Equation 4] Also, in the example in which the re-search from the search result 301 yields the re-search result 303 with a small change in rank,
As shown in, an end judgment index of 0.05 is obtained.

【0083】[0083]

【数5】 この結果、終了判断指標を参照することで順位の変動の
大小を判断できる。
[Equation 5] As a result, it is possible to judge the magnitude of the change in rank by referring to the end judgment index.

【0084】次に、検索制御プログラム112により起
動される終了判断指標出力プログラム119の処理手順
を説明する。終了判断指標出力プログラム119は検索
結果利用終了判断指標算出プログラム118によりワー
クエリア122に格納された終了判断指標をディスプレ
イ101に表示する。
Next, the processing procedure of the termination judgment index output program 119 started by the search control program 112 will be described. The termination determination index output program 119 displays the termination determination index stored in the work area 122 by the search result utilization termination determination index calculation program 118 on the display 101.

【0085】なお、本実施例では終了判断指標を数値と
してディスプレイ101に出力しているが、算出された
終了判断指標を図7に示すようにメッセージ701とし
て表示してもかまわないし、終了判断指標に応じたメッ
セージ702を表示してもかまわないし、過去からの終
了判断指標の遷移のグラフ703として表示してもかま
わない。また、上記の情報を同時に出力してもかまわな
い。また、本例では終了判断指標をディスプレイ101
に表示しているが、終了判断指標をワークエリア122
に格納して他の処理に使用してもかまわないし、磁気デ
ィスク104に格納して他の処理に使用してもかまわな
い。また、終了判断指標に応じて検索を指示するユーザ
インタフェースの使用可及び使用不可を切り替えてもか
まわない。
In this embodiment, the termination judgment index is output as a numerical value to the display 101, but the calculated termination judgment index may be displayed as a message 701 as shown in FIG. A message 702 corresponding to the above may be displayed, or may be displayed as a graph 703 of transition of the end determination index from the past. Also, the above information may be output at the same time. Further, in this example, the end judgment index is displayed on the display 101.
Is displayed on the work area 122.
It may be stored in the HDD and used for other processing, or may be stored in the magnetic disk 104 and used for other processing. Further, the user interface for instructing the search may be switched between enabled and disabled according to the end determination index.

【0086】以下、本実施例の処理の流れを図8を用い
て説明する。
The processing flow of this embodiment will be described below with reference to FIG.

【0087】まず、種文書801が入力され、検索条件
ベクトル生成プログラム113により、検索条件ベクト
ル802が生成される。
First, the seed document 801 is input, and the search condition vector generation program 113 generates a search condition vector 802.

【0088】次に、類似検索実行プログラム116によ
り類似検索が実行され、検索結果803が出力される。
Next, the similar search execution program 116 executes the similar search, and the search result 803 is output.

【0089】次に、ユーザが検索結果803に対して
「所望する」、「所望しない」という評価を下すこと
で、検索条件ベクトル修正プログラム115により、検
索条件ベクトル802はユーザの行った評価に基づき検
索条件ベクトル802aに修正される。
Next, the user evaluates the search result 803 as “desired” or “not desired”, and the search condition vector correction program 115 causes the search condition vector 802 to be based on the evaluation performed by the user. The search condition vector 802a is modified.

【0090】次に、類似検索実行プログラム116によ
り類似検索が再度実行され、再検索結果804が出力さ
れる。
Next, the similar search execution program 116 executes the similar search again, and the re-search result 804 is output.

【0091】次に、検索結果利用終了判断指標算出プロ
グラム118により検索結果803と再検索結果804
から終了判断指標805が算出される。
Next, the search result utilization end judgment index calculation program 118 causes the search result 803 and the re-search result 804.
From this, the end determination index 805 is calculated.

【0092】最後に、終了判断指標出力プログラム11
9により、終了判断指標805がメッセージ806とし
て出力される。
Finally, the end judgment index output program 11
9, the end determination index 805 is output as the message 806.

【0093】なお、本実施例は文書検索の形態をとって
いるが、検索対象は色情報等を特徴量とする画像であっ
てもかまわないし、他の電子データであってもかまわな
い。さらに、本実施例では特徴文字列をテキストから随
時抽出する構成としていたが、大規模データベースにお
いては検索速度の低下が問題となる。その場合、特開平
9−309078で開示されているように、文書の登録
時にあらかじめ特徴文字列を計数した出現頻度を磁気デ
ィスク104に格納しておき、検索時に当該ファイルを
参照するという構成を取ることで高速な類似検索が実現
できる。また、当該ファイルにインデクスを付加するこ
とで更に高速な検索が実現できる。
Although the present embodiment takes the form of document retrieval, the retrieval target may be an image having color information or the like as a characteristic amount, or other electronic data. Further, in the present embodiment, the characteristic character string is extracted from the text at any time, but in a large-scale database, the decrease in search speed becomes a problem. In that case, as disclosed in Japanese Patent Application Laid-Open No. 9-309078, the frequency of appearance of the characteristic character string is stored in advance in the magnetic disk 104 when the document is registered, and the file is referred to in the search. By doing so, high-speed similarity search can be realized. Further, by adding an index to the file, a higher speed search can be realized.

【0094】以上示したように本実施例によれば、終了
判断指標を確認することで容易に検索の終了を判断でき
るようになり、ユーザが誤った判断をすることを防ぐこ
とができる。
As described above, according to this embodiment, it is possible to easily judge the end of the search by checking the end judgment index, and it is possible to prevent the user from making an incorrect judgment.

【0095】次に、第二の実施例について説明する。Next, the second embodiment will be described.

【0096】適合性フィードバックを用いた検索におい
て、ユーザが検索結果に含まれる文書の内、検索条件ベ
クトルに類似したベクトルを持つ文書を評価した場合、
評価による検索条件ベクトルの向きの変動が少なく、再
検索結果において順位の変動が無い場合がある。この場
合、第一の実施例では、終了判断指標が0となるため、
他の文書を評価して検索を続行することで目的とする文
書が検索できる場合でもユーザが検索を終了してしまう
という問題がある。
In the search using the relevance feedback, when the user evaluates a document having a vector similar to the search condition vector among the documents included in the search result,
In some cases, there is little change in the direction of the search condition vector due to evaluation, and there is no change in the ranking in the re-search results. In this case, in the first embodiment, the end determination index is 0, so
There is a problem that the user ends the search even if the target document can be searched by evaluating other documents and continuing the search.

【0097】上記の問題を説明するために、第一の実施
例に基づく適合性フィードバックの処理の例を図9およ
び図10に示す。
In order to explain the above problem, an example of the process of conformity feedback according to the first embodiment is shown in FIGS. 9 and 10.

【0098】本例では、図9に示す検索条件ベクトル9
01により検索結果902が検索されているものとす
る。また、ユーザは「Car accident while using a cel
lularphone」に関する文書を検索したいと考え、前記検
索結果902における文書D2を「所望する」と評価し
たものとする。
In this example, the search condition vector 9 shown in FIG.
It is assumed that the search result 902 is searched by 01. In addition, the user said "Car accident while using a cel
It is assumed that the user wants to search for a document related to "lularphone" and that the document D2 in the search result 902 is evaluated as "desired".

【0099】以下に、適合性フィードバックを行った際
の処理例を図10に示す。なお、本例に示す検索条件ベ
クトル修正処理では、従来技術1で開示されているよう
に、「所望する」と評価された文書に含まれる特徴文字
列の出現頻度が、検索条件ベクトルの重みに加算される
ものとしている。
FIG. 10 shows an example of processing when conformity feedback is performed below. Note that, in the search condition vector modification process shown in this example, as disclosed in Prior Art 1, the appearance frequency of the characteristic character string included in the document evaluated as “desired” is used as the weight of the search condition vector. It is supposed to be added.

【0100】まず、類似検索実行プログラム116によ
り検索条件ベクトル901に基づいて検索されている検
索結果902に対して、ユーザは文書D2を所望すると
いう評価1001を下す。
First, with respect to the search result 902 searched by the similar search execution program 116 based on the search condition vector 901, the user gives an evaluation 1001 that the document D2 is desired.

【0101】次に、検索条件ベクトル修正プログラム1
15により、前記評価1001に基づいて検索条件ベク
トル901が検索条件ベクトル901aに修正される。
Next, the retrieval condition vector correction program 1
15, the search condition vector 901 is corrected to the search condition vector 901a based on the evaluation 1001.

【0102】次に、類似検索実行プログラム116によ
り前記検索条件ベクトル901aに基づいて検索対象文
書の順位変動が無い再検索結果1002が検索される。
Next, the similarity search execution program 116 searches for the re-search result 1002 in which the rank of the document to be searched does not change based on the search condition vector 901a.

【0103】次に、検索結果利用終了判断指標算出プロ
グラム118により終了判断指標1003が数6に示す
ように0と出力される。
Next, the search result use end judgment index calculation program 118 outputs 0 as the end judgment index 1003 as shown in the equation (6).

【0104】[0104]

【数6】 このため、類似した内容を含む別の文書D3を「所望す
る」と評価することで、検索条件ベクトル901aがさ
らに検索条件ベクトル901bへと修正され、検索条件
ベクトル901bから検索される検索結果1006(以
下、再々検索結果と呼ぶ)において「所望する」と評価
した文書の順位が上昇する場合であっても、ユーザは、
ユーザによる評価1004において終了判断基準100
3が0であることから、適合性フィードバックの終了処
理1005を指示してしまう。
[Equation 6] Therefore, the search condition vector 901a is further modified into the search condition vector 901b by evaluating another document D3 containing similar contents as "desired", and the search result 1006 (searched from the search condition vector 901b ( Hereinafter, even if the rank of the document evaluated as “desired” in the re-retrieval result) increases, the user:
In the evaluation 1004 by the user, the end judgment criterion 100
Since 3 is 0, the end processing 1005 of the compatibility feedback is instructed.

【0105】以上の問題を解決するために、第二の実施
例では、終了判断指標を検索条件ベクトルから算出す
る。以下に、本発明の第二の実施例の構成を図11を用
いて説明する。
In order to solve the above problems, in the second embodiment, the end judgment index is calculated from the search condition vector. The configuration of the second embodiment of the present invention will be described below with reference to FIG.

【0106】本実施例では、図1に示す第一の実施例と
ほぼ同様の構成をとるが、検索結果利用終了判断指標算
出プログラム118の代わりに検索条件ベクトル利用終
了判断指標算出プログラム123が用いられる。また、
再検索前情報格納プログラム114aの処理手順が再検
索前情報格納プログラム114と異なる。
In this embodiment, the configuration is almost the same as that of the first embodiment shown in FIG. 1, but the search condition vector use end judgment index calculation program 123 is used in place of the search result use end judgment index calculation program 118. To be Also,
The processing procedure of the pre-research information storage program 114a is different from that of the pre-research information storage program 114.

【0107】次に、再検索前情報格納プログラム114
aの処理手順について説明する。
Next, the pre-retrieval information storage program 114
The processing procedure of a will be described.

【0108】まず、再検索前情報格納プログラム114
aは再検索前情報格納エリア121の内容をクリアす
る。次に、検索条件ベクトル格納エリア120に格納さ
れている最新の検索条件ベクトルに含まれる特徴文字列
と重みの組を、再検索を行う前の検索条件ベクトルとし
て、再検索前情報格納エリア121に格納する。
First, the pre-retrieval information storage program 114
a clears the contents of the pre-research information storage area 121. Next, in the pre-research information storage area 121, the combination of the characteristic character string and the weight included in the latest search condition vector stored in the search condition vector storage area 120 is set as the search condition vector before the research. Store.

【0109】次に、検索条件ベクトル利用終了判断指標
算出プログラム123の処理について説明する。
Next, the processing of the retrieval condition vector use end judgment index calculation program 123 will be described.

【0110】まず、再検索前情報格納プログラム114
aにより再検索前情報保持エリア121に格納されてい
る再検索前の検索条件ベクトルに含まれる特徴文字列と
重みの組を読み込む。次に、検索条件ベクトル修正プロ
グラム115により検索条件ベクトル格納エリア120
に格納されている再検索後の検索条件ベクトルに含まれ
る特徴文字列と重みの組を読み込む。最後に、数7に示
す終了判断指標算出式を用いて終了判断指標を算出し、
ワークエリア122に格納する。
First, the pre-research information storage program 114
By a, the combination of the characteristic character string and the weight included in the search condition vector before the re-search stored in the pre-research information holding area 121 is read. Next, the search condition vector storage area 120 is searched by the search condition vector correction program 115.
The characteristic character string and weight set included in the search condition vector after re-search stored in are read. Finally, the end determination index is calculated using the end determination index calculation formula shown in Formula 7,
Stored in the work area 122.

【0111】[0111]

【数7】 ここで、w’(i)は再検索後における検索条件ベクト
ルに含まれる特徴文字列iに対する重みであり、w
(i)は再検索前における検索条件ベクトルに含まれる
特徴文字列iに対する重みであり、T1は再検索の前後
における検索条件ベクトルで一致する特徴文字列の異な
り数(異なる特徴文字列の総数)であり、T2は再検索
後における検索条件ベクトルに含まれる特徴文字列の異
なり数であり、T3は再検索前における検索条件ベクト
ルに含まれる特徴文字列の異なり数である。
[Equation 7] Here, w ′ (i) is a weight for the characteristic character string i included in the search condition vector after the re-search, and w ′ (i) is w.
(I) is a weight for the characteristic character string i included in the search condition vector before the re-search, and T1 is the number of different characteristic character strings that match in the search condition vector before and after the re-search (total number of different characteristic character strings). , T2 is the number of different characteristic character strings included in the search condition vector after the re-search, and T3 is the number of different characteristic character strings included in the search condition vector before the re-search.

【0112】数7は、再検索前の検索条件ベクトルと再
検索後の検索条件ベクトルとの内積を算出するものであ
り、検索条件ベクトルの向きが検索条件ベクトル修正プ
ログラム115による処理によって全く変動しなかった
場合には、終了判断指標は0となる。
Equation 7 calculates the inner product of the search condition vector before the re-search and the search condition vector after the re-search, and the direction of the search condition vector is completely changed by the processing by the search condition vector correction program 115. If not, the end determination index becomes 0.

【0113】以下に、本実施例の具体例を図12を用い
て説明する。
A specific example of this embodiment will be described below with reference to FIG.

【0114】本例では、図10で示した処理の流れと同
様に再検索結果1002が検索されているものとする。
この時点で、検索条件ベクトルは、(2,1,4,3)
の重みを持つ検索条件ベクトル901から(4,4,
5,3)の重みを持つ検索条件ベクトル901aへと修
正されている。
In this example, it is assumed that the re-retrieval result 1002 is retrieved in the same manner as the processing flow shown in FIG.
At this point, the search condition vector is (2, 1, 4, 3)
From the search condition vector 901 having the weight of (4, 4,
The search condition vector 901a having the weights of 5 and 3) is modified.

【0115】ここで、検索条件ベクトル利用終了判断指
標算出プログラム123により数7に基づいて終了判断
指標が算出されると、終了判断指標1201は数8に示
すように0.078となる。
Here, when the search condition vector use end judgment index calculation program 123 calculates the end judgment index based on Expression 7, the end judgment index 1201 becomes 0.078 as shown in Expression 8.

【0116】[0116]

【数8】 この結果、ユーザは終了判断指標1201を参照するこ
とで、再検索結果1002において検索対象文書の順位
が変動していなくても、再検索を続行することができ
る。本例では、ユーザによる評価1202において類似
の内容を含む文書D3を「所望する」と評価すること
で、検索条件ベクトル修正プログラム115により、検
索条件ベクトル901aは更に検索条件ベクトル901
bに修正され、類似検索実行プログラム116により、
前記検索条件ベクトル901bに基づき類似検索が実行
されることで、「所望する」と評価した文書の順位が上
昇した再々検索結果1006が検索されている。
[Equation 8] As a result, the user can continue the re-search by referring to the end determination index 1201 even if the rank of the search target document does not change in the re-search result 1002. In this example, the user evaluates the document D3 containing similar contents as “desired” in the evaluation 1202, and the search condition vector correction program 115 causes the search condition vector 901a to further change to the search condition vector 901.
is modified to b, and the similar search execution program 116
By executing the similarity search based on the search condition vector 901b, the re-search result 1006 in which the rank of the document evaluated as "desired" is increased is searched.

【0117】なお、本実施例では、終了判断指標を算出
する際に用いる検索条件ベクトルに含まれるすべての特
徴文字列を用いる構成としたが、メモリ使用量の削減の
ために特徴文字列の個数を制限する構成としてもかまわ
ない。また、本実施例では終了判断指標算出式に数7を
用いたが、他の式を用いてもかまわない。
In this embodiment, all the characteristic character strings included in the search condition vector used when calculating the end judgment index are used, but the number of characteristic character strings is reduced in order to reduce the memory usage. It does not matter even if the configuration is restricted. Further, in the present embodiment, the formula 7 is used as the termination judgment index calculation formula, but other formulas may be used.

【0118】以上説明したように本実施例によれば、再
検索によって順位の変動が無い場合でも、終了判断指標
を参照することで、誤った判断をせずに検索を続行する
ことができる。
As described above, according to this embodiment, even if there is no change in the rank due to the re-search, the search can be continued without making an erroneous judgment by referring to the end judgment index.

【0119】次に、第三の実施例について説明する。Next, the third embodiment will be described.

【0120】適合性フィードバックにおいては、目的の
文書を検索するために検索を繰り返すと、所望と評価さ
れる登録文書ベクトルの重みが検索を繰り返しても不変
であるのに対し、検索条件ベクトルの重みは増加する。
このため、検索を繰り返すほど登録文書ベクトルの重み
と検索条件ベクトルの重みの格差は大きくなる。
In the relevance feedback, when the search is repeated to search for the target document, the weight of the registered document vector evaluated as desired remains unchanged even if the search is repeated. Will increase.
Therefore, as the search is repeated, the difference between the weight of the registered document vector and the weight of the search condition vector increases.

【0121】この結果、前記格差が大きくなると、適合
性フィードバックを行っても検索条件ベクトルの向きが
大きく変動せず検索結果が変化しない状態(以下、収束
状態と呼ぶ)に至る。
As a result, when the difference becomes large, the state of the search condition vector does not change greatly even if the conformity feedback is performed, and the search result does not change (hereinafter, referred to as a converged state).

【0122】収束状態に至った場合、ユーザは適合性フ
ィードバックを終了すべきであり、検索結果に不満があ
る場合には適合性フィードバックのやり直し、更には検
索手法自体を検討する必要がある。
When the convergence state is reached, the user should end the conformity feedback, and if the search result is dissatisfied, it is necessary to re-execute the conformance feedback and further consider the search method itself.

【0123】第二の実施例においては、検索条件ベクト
ルの変動が無い場合に、収束状態に至ったので検索を終
了すべきなのか、あるいは検索条件ベクトルに類似した
ベクトルを持つ検索対象文書を評価したので他の文書を
評価して検索を続行すべきなのかを判断することができ
ず、検索の終了を誤って判断してしまうという問題があ
る。
In the second embodiment, if there is no change in the search condition vector, the search should be ended because the convergence state has been reached, or the search target document having a vector similar to the search condition vector is evaluated. Therefore, there is a problem that other documents cannot be evaluated to determine whether the search should be continued, and the end of the search is erroneously determined.

【0124】上記問題を解決するために本実施例では、
再検索を行った後に算出される終了判断指標を再検索実
行前にあらかじめ算出しユーザに提示する。
In order to solve the above problem, in this embodiment,
The end determination index calculated after performing the re-search is calculated in advance before the re-search is executed and presented to the user.

【0125】まず、本実施例の構成を図13を用いて説
明する。
First, the structure of this embodiment will be described with reference to FIG.

【0126】本実施例では、図1に示す第一の実施例と
ほぼ同じ構成をとるが、検索結果利用終了判断指標算出
プログラム118の代わりに予測終了判断指標算出プロ
グラム124が用いられる。また、新たに検索条件ベク
トル修正予測プログラム125が追加される。また、新
たに予測検索条件ベクトル格納エリア126が確保され
る。また、終了判断指標出力プログラム119aの処理
手順が終了判断指標出力プログラム119と異なる。
This embodiment has almost the same configuration as that of the first embodiment shown in FIG. 1, except that the prediction end judgment index calculation program 124 is used instead of the search result use end judgment index calculation program 118. Further, a search condition vector correction prediction program 125 is newly added. In addition, a prediction search condition vector storage area 126 is newly secured. The processing procedure of the end determination index output program 119a is different from that of the end determination index output program 119.

【0127】次に、予測終了判断指標算出プログラム1
24の処理手順を図14に示すPAD図を用いて説明す
る。
Next, the prediction end judgment index calculation program 1
The processing procedure of 24 will be described using the PAD diagram shown in FIG.

【0128】まず、ステップ1401において、類似検
索実行プログラム116によりワークエリア122に格
納された検索対象文書の順位と文書識別子の組から、指
定できる評価コマンドの組み合わせ(以下、評価パター
ンと呼ぶ)を取得し、ワークエリア122に格納する。
First, in step 1401, a combination of evaluation commands that can be specified (hereinafter referred to as an evaluation pattern) is acquired from the set of the order of the document to be searched and the document identifier stored in the work area 122 by the similar search execution program 116. Then, it is stored in the work area 122.

【0129】以下に、評価パターン取得の具体例を図1
5を用いて説明する。
A specific example of evaluation pattern acquisition will be described below with reference to FIG.
This will be described using 5.

【0130】本例では二つの文書が検索結果1501に
含まれている場合を想定している。検索結果内の二つの
文書に対して、「所望する」、「所望しない」という二
通りの評価コマンドが指定できる場合、コマンドを指定
しない場合も含めて、取りうる評価パターン1502は
計8通りとなる。
In this example, it is assumed that two documents are included in the search result 1501. When two kinds of evaluation commands “desired” and “not desired” can be designated for the two documents in the search result, there are a total of eight possible evaluation patterns 1502 including the case where no command is designated. Become.

【0131】次に、ステップ1402において、ワーク
エリア122に格納されている評価パターンの数だけ、
ステップ1403からステップ1406までの処理を繰
り返し実行する。
Next, at step 1402, as many as the number of evaluation patterns stored in the work area 122,
The processing from step 1403 to step 1406 is repeatedly executed.

【0132】ステップ1403においては、未処理の評
価パターンを一つ選択する。
At step 1403, one unprocessed evaluation pattern is selected.

【0133】次に、ステップ1404において、検索条
件ベクトル修正プログラム115により修正された検索
条件ベクトル格納エリア120の内容を予測検索条件ベ
クトル格納エリア126にコピーする。
Next, in step 1404, the contents of the search condition vector storage area 120 modified by the search condition vector modification program 115 are copied to the predicted search condition vector storage area 126.

【0134】次に、ステップ1405において、検索条
件ベクトル修正予測プログラム125を起動し、予測検
索条件ベクトル格納エリア126内の検索条件ベクトル
を、該検索パターンが指定された場合の再検索により得
られる検索条件ベクトル(以下、予測検索条件ベクトル
と呼ぶ)に修正する。
Next, in step 1405, the retrieval condition vector correction prediction program 125 is activated to retrieve the retrieval condition vector in the predicted retrieval condition vector storage area 126 by re-retrieval when the retrieval pattern is designated. Correct the condition vector (hereinafter referred to as the predictive search condition vector).

【0135】最後に、ステップ1406において、数7
における再検索後の検索条件ベクトルw’(i)を、予
測検索条件ベクトル格納エリア126内の予測検索条件
ベクトル、再検索前の検索条件ベクトルw(i)を、検
索条件ベクトル格納エリア120内の検索条件ベクトル
とすることで、評価コマンドに基づいて再検索が行われ
た場合の終了判断指標(以下、予測終了判断指標と呼
ぶ)を数7に基づいて算出し、ワークエリア122に格
納する。
Finally, in step 1406, the equation 7
In the search condition vector storage area 126, the search condition vector w '(i) after the re-search in the search condition vector w (i) in the search condition vector storage area 126 By using the search condition vector, the end determination index (hereinafter, referred to as a predicted end determination index) when the re-search is performed based on the evaluation command is calculated based on Formula 7, and stored in the work area 122.

【0136】なお、本実施例では、検索結果に対するす
べての評価コマンドの組み合わせを取得するものとして
いるが、メモリ使用量の削減のために、評価できる検索
対象文書の数を制限するなどして組み合わせの数を制限
するものとしてもかまわない。
In this embodiment, all combinations of evaluation commands for search results are acquired. However, in order to reduce the memory usage, the number of search target documents that can be evaluated is limited and the combination is performed. The number may be limited.

【0137】次に、予測終了判断指標算出プログラム1
24により起動される検索条件ベクトル修正予測プログ
ラム125の処理について説明する。
Next, the prediction end judgment index calculation program 1
The processing of the search condition vector correction prediction program 125 started by 24 will be described.

【0138】検索条件ベクトル修正予測プログラム12
5は、予測検索条件ベクトル格納エリア126に格納さ
れている検索条件ベクトルを、前記予測終了判断指標算
出プログラム124の処理において予測終了判断指標を
参照して選択された評価パターンに基づいて図12と同
様に検索条件ベクトルを修正する。
Search condition vector correction prediction program 12
5 shows the search condition vector stored in the predicted search condition vector storage area 126 based on the evaluation pattern selected by referring to the predicted end determination index in the process of the predicted end determination index calculation program 124 shown in FIG. Similarly, modify the search condition vector.

【0139】次に、終了判断指標出力プログラム119
aの処理について説明する。
Next, the end judgment index output program 119
The processing of a will be described.

【0140】終了判断指標出力プログラム119aは予
測終了判断指標算出プログラム124によりワークエリ
ア122に格納された予測終了判断指標を例えば図15
に示すように評価パターンごとの予測終了判断指標の表
1503としてディスプレイ101に表示する。
The end judgment index output program 119a displays the prediction end judgment index stored in the work area 122 by the prediction end judgment index calculation program 124, for example, as shown in FIG.
As shown in, a display 150 is displayed as a table 1503 of the prediction end determination index for each evaluation pattern.

【0141】本実施例では、検索条件ベクトルから予測
終了判断指標を算出しているが、検索される文書の順位
から予測終了判断指標を算出してもかまわないし、他の
情報から予測終了判断指標を算出してもかまわない。ま
た、本実施例では評価パターンごとに予測終了判断指標
を出力しているが、予測終了判断指標の平均を出力する
など、他の形式で出力する構成にしてもかまわない。ま
た、本実施例では、すべての評価パターンに対する予測
終了判断指標を出力する構成としているが、評価コマン
ドが入力されたタイミングで予測終了判断指標を出力す
る構成としてもかまわない。
In this embodiment, the prediction end judgment index is calculated from the search condition vector, but the prediction end judgment index may be calculated from the rank of the document to be searched, or the prediction end judgment index may be calculated from other information. You may calculate. Further, although the prediction end determination index is output for each evaluation pattern in the present embodiment, the prediction end determination index may be output in another format such as an average output. Further, in the present embodiment, the prediction end determination index for all the evaluation patterns is output, but the prediction end determination index may be output at the timing when the evaluation command is input.

【0142】本実施例によれば、再検索を実行する前
に、再検索による検索条件ベクトルの変動を予測できる
ため、検索結果および検索条件ベクトル共に変動がない
場合でも、他の文書を評価することで再検索を続行でき
ることを知ることができ、誤った判断をせずに再検索を
続行できる。
According to this embodiment, it is possible to predict the change of the search condition vector due to the re-search before executing the re-search. Therefore, even if there is no change in the search result and the search condition vector, another document is evaluated. By doing so, you can know that the re-search can be continued, and you can continue the re-search without making a wrong decision.

【0143】[0143]

【発明の効果】システムの提示する終了判断指標を参照
することで、効率的に適合性フィードバックにおける検
索の終了判断を行うことができ、ユーザは少ない負荷で
検索を行うことができるようになる。
By referring to the end determination index presented by the system, it is possible to efficiently determine the end of the search in the compatibility feedback, and the user can perform the search with a small load.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明による文書検索システムの第一の実施例
の全体構成を示す図である。
FIG. 1 is a diagram showing an overall configuration of a first embodiment of a document search system according to the present invention.

【図2】従来技術1による類似文書検索、適合性フィー
ドバックの処理の概要を示す図である。
FIG. 2 is a diagram showing an outline of similar document search and conformity feedback processing according to the related art 1.

【図3】適合性フィードバックによる順位変動が大きい
場合、および順位変動が少ない場合の一例を示す図であ
る。
FIG. 3 is a diagram showing an example of a case in which the rank variation due to the compatibility feedback is large and a case in which the rank variation is small.

【図4】本発明の第一の実施例における検索制御プログ
ラムの処理手順を示すPAD図である。
FIG. 4 is a PAD showing a processing procedure of a search control program according to the first embodiment of the present invention.

【図5】本発明の第一の実施例における検索条件ベクト
ルの生成手順を示す図である。
FIG. 5 is a diagram showing a procedure for generating a search condition vector in the first embodiment of the present invention.

【図6】本発明の第一の実施例における検索結果利用終
了判断指標算出プログラムの処理手順を示すPAD図で
ある。
FIG. 6 is a PAD showing a processing procedure of a search result use end judgment index calculation program in the first embodiment of the present invention.

【図7】本発明の第一の実施例における終了判断指標の
表示例を示す図である。
FIG. 7 is a diagram showing a display example of an end determination index in the first embodiment of the present invention.

【図8】本発明の第一の実施例における処理の流れを示
す図である。
FIG. 8 is a diagram showing a flow of processing in the first embodiment of the present invention.

【図9】本発明の第二の実施例における類似文書検索の
例を示す図である。
FIG. 9 is a diagram showing an example of similar document search according to the second exemplary embodiment of the present invention.

【図10】本発明の第二の実施例における第一の実施例
の適合性フィードバックの処理の例を示す図である。
[Fig. 10] Fig. 10 is a diagram illustrating an example of processing of conformance feedback according to the first embodiment in the second embodiment of the present invention.

【図11】本発明の第二の実施例における検索サブシス
テムの構成を示す図である。
FIG. 11 is a diagram showing a configuration of a search subsystem according to a second embodiment of the present invention.

【図12】本発明の第二の実施例における適合性フィー
ドバックの処理の例を示す図である。
FIG. 12 is a diagram showing an example of processing of conformity feedback in the second exemplary embodiment of the present invention.

【図13】本発明の第三の実施例における検索サブシス
テムの構成を示す図である。
FIG. 13 is a diagram showing a configuration of a search subsystem according to a third embodiment of the present invention.

【図14】本発明の第三の実施例における予測終了判断
指標算出プログラムの処理手順を示すPAD図である。
FIG. 14 is a PAD showing a processing procedure of a prediction end determination index calculation program according to the third embodiment of the present invention.

【図15】本発明の第三の実施例における予測終了判断
指標の表示手順を示す図である。
FIG. 15 is a diagram showing a display procedure of a prediction end determination index in the third embodiment of the present invention.

【符号の説明】[Explanation of symbols]

101 ディスプレイ 102 キーボード 103 中央演算処理装置(CPU) 104 磁気ディスク装置 105 フロッピディスク 106 フロッピディスクドライブ(FDD) 107 主メモリ 108 バス 110 システム制御プログラム 111 文書登録プログラム 112 検索制御プログラム 113 検索条件ベクトル生成プログラム 114 再検索前情報格納プログラム 115 検索条件ベクトル修正プログラム 116 類似検索実行プログラム 117 検索結果出力プログラム 118 検索結果利用終了判断指標算出プログラム 119 終了判断指標出力プログラム 120 検索条件ベクトル格納エリア 121 再検索前情報格納エリア 122 ワークエリア 123 検索条件ベクトル利用終了判断指標算出プログ
ラム 124 予測終了判断指標算出プログラム 125 検索条件ベクトル修正予測プログラム 126 予測検索条件ベクトル格納エリア
101 Display 102 Keyboard 103 Central Processing Unit (CPU) 104 Magnetic Disk Unit 105 Floppy Disk 106 Floppy Disk Drive (FDD) 107 Main Memory 108 Bus 110 System Control Program 111 Document Registration Program 112 Search Control Program 113 Search Condition Vector Generation Program 114 Pre-research information storage program 115 Search condition vector correction program 116 Similar search execution program 117 Search result output program 118 Search result use end judgment index calculation program 119 End judgment index output program 120 Search condition vector storage area 121 Pre-search information storage area 122 work area 123 search condition vector use end judgment index calculation program 124 prediction end judgment index calculation program 125 Search condition vector correction prediction program 126 Prediction search condition vector storage area

───────────────────────────────────────────────────── フロントページの続き (72)発明者 松林 忠孝 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所ビジネスソリューション事 業部内 (72)発明者 稲場 靖彦 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所ビジネスソリューション事 業部内 (72)発明者 小川 祐一 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所ビジネスソリューション事 業部内 (72)発明者 山本 伸也 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 (72)発明者 濱川 雅之 東京都江東区新砂一丁目6番27号 株式会 社日立製作所公共システム事業部内 Fターム(参考) 5B075 PR03 QM08    ─────────────────────────────────────────────────── ─── Continued front page    (72) Inventor Tadataka Matsubayashi             890 Kashimada, Sachi-ku, Kawasaki City, Kanagawa Stock             Hitachi, Ltd. Business Solutions             Within the department (72) Inventor Yasuhiko Inaba             890 Kashimada, Sachi-ku, Kawasaki City, Kanagawa Stock             Hitachi, Ltd. Business Solutions             Within the department (72) Inventor Yuichi Ogawa             890 Kashimada, Sachi-ku, Kawasaki City, Kanagawa Stock             Hitachi, Ltd. Business Solutions             Within the department (72) Inventor Shinya Yamamoto             5030 Totsuka Town, Totsuka Ward, Yokohama City, Kanagawa Prefecture             Ceremony company Hitachi Ltd. software division (72) Inventor Masayuki Hamakawa             Tokyo Stock Exchange, 1-6-27 Shinsuna, Koto-ku, Tokyo             Hitachi, Ltd. Public Systems Division F-term (reference) 5B075 PR03 QM08

Claims (11)

【特許請求の範囲】[Claims] 【請求項1】適合性フィードバックによる類似検索方法
は、検索条件として特徴量と前記特徴量の重みの組から
なる検索条件ベクトルを用いてデータベースを検索し、 前記検索により得られた検索結果に対してユーザが入力
した「所望する」あるいは「所望しない」の少なくとも
一方の評価を受け取り、 前記検索条件ベクトルの特徴量の重みを前記評価に基づ
き変更して再検索を行ない、 再検索前の情報及び再検索後の情報を記憶し、 前記記憶した再検索の前後の情報を予め定められた方法
で比較することで検索を終了する判断指標となる終了判
断指標を算出することを特徴とする類似検索方法。
1. A similarity search method using relevance feedback searches a database using a search condition vector consisting of a feature quantity and a weight of the feature quantity as a search condition, and searches the database for the search results obtained by the search. Receiving at least one evaluation of “desired” or “undesired” input by the user, changing the weight of the feature amount of the search condition vector based on the evaluation, and performing a re-search. Similarity search characterized by storing information after re-search and calculating an end judgment index as a judgment index for ending the search by comparing the stored information before and after the re-search by a predetermined method Method.
【請求項2】適合性フィードバックによる類似検索方法
は、特徴量と前記特徴量の重みの組からなる検索条件ベ
クトルを用いてデータベースを検索し、 前記検索により得られた検索結果に対してユーザが入力
した「所望する」あるいは「所望しない」の少なくとも
一方の評価を受け取り、 前記検索条件ベクトルの特徴量の重みを前記評価に基づ
き変更して再検索を行ない、 再検索前の情報を記憶し、 前記記憶した再検索前の情報に基づいて再検索後の情報
を予測して記憶し、 前記記憶した再検索前の情報と再検索後の予測情報を予
め定められた方法で比較することで検索を終了する判断
指標となる終了判断指標を算出することを特徴とする類
似検索方法。
2. A similarity search method using relevance feedback searches a database using a search condition vector consisting of a set of feature quantities and weights of the feature quantities, and a user searches the search results obtained by the search. Receive at least one of the input "desired" or "not desired", change the weight of the feature amount of the search condition vector based on the evaluation, perform a re-search, and store the information before the re-search, The information after the re-search is predicted and stored based on the stored information before the re-search, and the information is searched by comparing the stored information before the re-search with the predicted information after the re-search by a predetermined method. A similarity search method, characterized in that an end judgment index serving as a judgment index for terminating is calculated.
【請求項3】請求項1および2に記載の類似検索方法に
おいて、前記検索条件ベクトルは検索条件として与えら
れた文書に含まれる自立語の可能性がある特徴文字列と
前記特徴文字列の出現情報との組であって、前記検索条
件ベクトルに含まれる特徴文字列の出現情報を前記評価
に基づき変更して再検索を行うことを特徴とする類似検
索方法。
3. The similarity search method according to claim 1, wherein the search condition vector is a feature character string that may be an independent word included in a document given as a search condition, and the appearance of the feature character string. A similarity search method, characterized in that the appearance information of a characteristic character string included in the search condition vector is changed based on the evaluation, and a search is performed again.
【請求項4】請求項1、2および3に記載の類似検索方
法において、前記検索前及び検索後に記憶する情報は、
検索結果に含まれるデータの順位およびデータの類似度
の少なくとも一つと、データベース内で一意にデータを
識別できる識別子の組とすることを特徴とする類似検索
方法。
4. The similarity search method according to claim 1, 2 or 3, wherein the information stored before and after the search is
A similarity search method, characterized in that at least one of data rank and data similarity included in a search result and a set of identifiers that can uniquely identify data in a database.
【請求項5】請求項1、2および3に記載の類似検索方
法において、前記検索前及び検索後記憶する情報は、検
索条件ベクトルであることを特徴とする類似検索方法。
5. The similarity search method according to claim 1, wherein the information to be stored before and after the search is a search condition vector.
【請求項6】請求項1、2および3に記載の類似検索方
法において、算出した終了判断指標に基づき検索の続行
あるいは終了を促すための情報を、ユーザインタフェー
スを介して表示することを特徴とする類似検索方法。
6. The similarity search method according to claim 1, 2, or 3, characterized in that information for prompting continuation or termination of the search based on the calculated termination judgment index is displayed via a user interface. A similar search method.
【請求項7】請求項1、2および3に記載の類似検索方
法において、前記算出した終了判断指標に基づき検索を
指示するユーザインタフェースの表示の可否を制御する
ことを特徴とする類似検索方法。
7. The similarity search method according to claim 1, 2 or 3, wherein whether or not to display a user interface for instructing a search is controlled based on the calculated end determination index.
【請求項8】適合性フィードバックによる類似検索方法
を実行するプログラムを格納したコンピュータ読み取り
可能な可搬型記憶媒体であって、前記類似検索方法は、
再検索前の情報を記憶する再検索前情報記憶ステップ
と、再検索後の情報を記憶する再検索後情報記憶ステッ
プと、上記ステップで記憶した再検索の前後の情報を予
め定められた方法で比較することで検索を終了する判断
指標となる終了判断指標を算出する終了判断指標算出ス
テップを有することを特徴とするコンピュータ読み取り
可能な可搬型記憶媒体。
8. A computer-readable portable storage medium that stores a program for executing a similarity search method using compatibility feedback, the similarity search method comprising:
Pre-research information storage step of storing information before re-search, post-research information storage step of storing information after re-search, and information before and after re-search stored in the above step by a predetermined method. A computer-readable portable storage medium comprising an end determination index calculating step of calculating an end determination index serving as a determination index for ending a search by comparing.
【請求項9】適合性フィードバックによる類似検索方法
を実行するプログラムを格納したコンピュータ読み取り
可能な可搬型記憶媒体であって、前記類似検索方法は、
再検索前の情報を記憶する再検索前情報記憶ステップ
と、再検索後の情報をユーザによる再検索実行の前に取
得し記憶する再検索後情報予測ステップと、上記ステッ
プで記憶した再検索前の情報と再検索後の予測情報を予
め定められた方法で比較することで検索を終了する判断
指標となる終了判断指標を算出する終了判断指標算出ス
テップを有することを特徴とするコンピュータ読み取り
可能な可搬型記憶媒体。
9. A computer-readable portable storage medium that stores a program for executing a similarity search method using compatibility feedback, the similarity search method comprising:
Pre-research information storage step of storing information before re-search, pre-research information prediction step of acquiring and storing post-research information before re-search execution by a user, and before re-search stored in the above step Computer-readable, characterized in that it has an end judgment index calculating step for calculating an end judgment index serving as a judgment index for terminating the search by comparing the above information with the predicted information after the re-search by a predetermined method. Portable storage medium.
【請求項10】適合性フィードバックによる類似検索装
置は、検索条件ベクトルを用いてデータベースを検索す
る検索手段、前記検索により得られた検索結果に対して
ユーザが入力した「所望する」あるいは「所望しない」
の少なくとも一方の評価を受け取る評価受け取り手段、
前記検索条件ベクトルの特徴量の重みを前記評価に基づ
き変更して再検索を行う再検索手段、再検索前の情報を
記憶する再検索前情報記憶手段、 再検索後の情報を記憶する再検索後情報記憶手段、 前記再検索前及び後情報記憶手段で記憶した再検索の前
後の情報を予め定められた方法で比較することで検索を
終了する判断指標となる終了判断指標を算出する終了判
断指標算出手段を有することを特徴とする類似検索装
置。
10. A similarity search device based on relevance feedback, a search means for searching a database using a search condition vector, “desired” or “not desired” input by a user with respect to a search result obtained by the search. "
Evaluation receiving means for receiving at least one evaluation of,
Re-search means for performing re-search by changing the weight of the feature quantity of the search condition vector based on the evaluation, pre-re-search information storage means for storing information before re-search, re-search for storing information after re-search After-information storage means, Completion judgment for calculating an end-judgment index which is a judgment index for terminating the search by comparing the information before and after the re-search stored before and after the re-search with a predetermined method A similarity search device having index calculation means.
【請求項11】適合性フィードバックによる類似検索装
置は、検索条件ベクトルを用いてデータベースを検索す
る検索手段、前記検索により得られた検索結果に対して
ユーザが入力した「所望する」あるいは「所望しない」
の少なくとも一方の評価を受け取る評価受け取り手段、
前記検索条件ベクトルの特徴量の重みを上記評価に基づ
き変更して再検索を行う再検索手段、再検索前の情報を
記憶する再検索前情報記憶手段、 再検索後の情報をユーザによる再検索実行の前に取得し
記憶する再検索後情報予測手段、 前記検索前情報記憶手段で取得した再検索前の情報と前
記再検索後情報予測手段で取得した再検索後の予測情報
とを予め定められた方法で比較することで検索を終了す
る判断指標となる終了判断指標を算出する終了判断指標
算出手段を有することを特徴とする類似検索装置。
11. A similarity search device using relevance feedback, a search means for searching a database using a search condition vector, “desired” or “not desired” input by a user with respect to a search result obtained by the search. "
Evaluation receiving means for receiving at least one evaluation of,
Re-search means for changing the weight of the feature quantity of the search condition vector based on the above-mentioned evaluation to perform re-search, pre-re-search information storage means for storing information before re-search, and re-search for information after re-search by user Pre-research information prediction means to be acquired and stored before execution, pre-research information acquired by the pre-search information storage means and pre-research prediction information acquired by the post-research information prediction means are determined in advance. A similarity search device, comprising: an end determination index calculating means for calculating an end determination index serving as a determination index for ending the search by performing a comparison by the above method.
JP2002027538A 2002-02-05 2002-02-05 Method and apparatus for retrieving similar data by relevance feedback Expired - Fee Related JP4003468B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002027538A JP4003468B2 (en) 2002-02-05 2002-02-05 Method and apparatus for retrieving similar data by relevance feedback
US10/353,789 US7130849B2 (en) 2002-02-05 2003-01-28 Similarity-based search method by relevance feedback

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002027538A JP4003468B2 (en) 2002-02-05 2002-02-05 Method and apparatus for retrieving similar data by relevance feedback

Publications (2)

Publication Number Publication Date
JP2003228581A true JP2003228581A (en) 2003-08-15
JP4003468B2 JP4003468B2 (en) 2007-11-07

Family

ID=27654631

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002027538A Expired - Fee Related JP4003468B2 (en) 2002-02-05 2002-02-05 Method and apparatus for retrieving similar data by relevance feedback

Country Status (2)

Country Link
US (1) US7130849B2 (en)
JP (1) JP4003468B2 (en)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006236345A (en) * 2005-02-25 2006-09-07 Microsoft Corp System and method for learning data ranking function
JP2007018389A (en) * 2005-07-08 2007-01-25 Just Syst Corp Data retrieval apparatus, data retrieving method, data retrieval program, and computer readable recording medium
JP2008243024A (en) * 2007-03-28 2008-10-09 Kyushu Institute Of Technology Information acquisition device, program therefor and method
JP2008242965A (en) * 2007-03-28 2008-10-09 Kddi Corp Moving image presentation system
JP2010541074A (en) * 2007-09-28 2010-12-24 ヤフー! インコーポレイテッド System and method for including interactive elements on a search results page
JP2011134357A (en) * 2004-03-22 2011-07-07 Microsoft Corp System and method for automated optimization of search result relevance
JP2011159296A (en) * 2003-09-30 2011-08-18 Google Inc Method for document scoring
JP2012043402A (en) * 2010-08-19 2012-03-01 Fuji Xerox Co Ltd Search device and program
US8661030B2 (en) 2009-04-09 2014-02-25 Microsoft Corporation Re-ranking top search results
US8898581B2 (en) 2011-02-22 2014-11-25 Sony Corporation Display control device, display control method, search device, search method, program and communication system
JP5876144B2 (en) * 2014-02-04 2016-03-02 株式会社Ubic Digital information analysis system, digital information analysis method, and digital information analysis program
WO2024084365A1 (en) * 2022-10-21 2024-04-25 株式会社半導体エネルギー研究所 Document search method and document search system
WO2024110824A1 (en) * 2022-11-24 2024-05-30 株式会社半導体エネルギー研究所 Document search assistance method, program, and document search assistance system

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348241A (en) * 2003-05-20 2004-12-09 Hitachi Ltd Information providing method, server, and program
CN100568231C (en) * 2003-06-23 2009-12-09 爱尔兰都柏林国立大学-都柏林大学 Conversational commending system and search method thereof
US8086619B2 (en) 2003-09-05 2011-12-27 Google Inc. System and method for providing search query refinements
US7505964B2 (en) * 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US8073836B2 (en) * 2004-03-01 2011-12-06 Epicor Software Corporation System for viewing databases
US7293007B2 (en) * 2004-04-29 2007-11-06 Microsoft Corporation Method and system for identifying image relatedness using link and page layout analysis
CN101087670B (en) * 2004-12-22 2011-07-20 日本特殊陶业株式会社 Sialon ceramic blade and cutting tool equipped therewith
US8438142B2 (en) * 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US20070094257A1 (en) * 2005-10-25 2007-04-26 Kathy Lankford File management
US20070168346A1 (en) * 2006-01-13 2007-07-19 United Technologies Corporation Method and system for implementing two-phased searching
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US7877384B2 (en) * 2007-03-01 2011-01-25 Microsoft Corporation Scoring relevance of a document based on image text
US8938463B1 (en) 2007-03-12 2015-01-20 Google Inc. Modifying search result ranking based on implicit user feedback and a model of presentation bias
US8694374B1 (en) 2007-03-14 2014-04-08 Google Inc. Detecting click spam
US7809714B1 (en) 2007-04-30 2010-10-05 Lawrence Richard Smith Process for enhancing queries for information retrieval
US9092510B1 (en) 2007-04-30 2015-07-28 Google Inc. Modifying search result ranking based on a temporal element of user feedback
US7752201B2 (en) * 2007-05-10 2010-07-06 Microsoft Corporation Recommendation of related electronic assets based on user search behavior
US8037042B2 (en) * 2007-05-10 2011-10-11 Microsoft Corporation Automated analysis of user search behavior
EP1993046A1 (en) * 2007-05-18 2008-11-19 United Technologies Corporation Method and system for implementing two-phased searching
US7783620B1 (en) 2007-06-29 2010-08-24 Emc Corporation Relevancy scoring using query structure and data structure for federated search
US7783630B1 (en) * 2007-06-29 2010-08-24 Emc Corporation Tuning of relevancy ranking for federated search
US8713001B2 (en) * 2007-07-10 2014-04-29 Asim Roy Systems and related methods of user-guided searching
WO2009009631A2 (en) * 2007-07-10 2009-01-15 Asim Roy Systems and related methods of user-guided searching
US8694511B1 (en) 2007-08-20 2014-04-08 Google Inc. Modifying search result ranking based on populations
US8086620B2 (en) * 2007-09-12 2011-12-27 Ebay Inc. Inference of query relationships
US8909655B1 (en) 2007-10-11 2014-12-09 Google Inc. Time based ranking
US8019748B1 (en) * 2007-11-14 2011-09-13 Google Inc. Web search refinement
US8001152B1 (en) * 2007-12-13 2011-08-16 Zach Solan Method and system for semantic affinity search
US8095412B1 (en) * 2008-11-03 2012-01-10 Intuit Inc. Method and system for evaluating expansion of a business
US8396865B1 (en) 2008-12-10 2013-03-12 Google Inc. Sharing search engine relevance data between corpora
CN101464897A (en) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 Word matching and information query method and device
US9223858B1 (en) 2009-02-27 2015-12-29 QuisLex, Inc. System and method to determine quality of a document screening process
US8140526B1 (en) 2009-03-16 2012-03-20 Guangsheng Zhang System and methods for ranking documents based on content characteristics
US9009146B1 (en) 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
US8577909B1 (en) 2009-05-15 2013-11-05 Google Inc. Query translation using bilingual search refinements
US8572109B1 (en) 2009-05-15 2013-10-29 Google Inc. Query translation quality confidence
US8577910B1 (en) 2009-05-15 2013-11-05 Google Inc. Selecting relevant languages for query translation
US8538957B1 (en) * 2009-06-03 2013-09-17 Google Inc. Validating translations using visual similarity between visual media search results
US8447760B1 (en) 2009-07-20 2013-05-21 Google Inc. Generating a related set of documents for an initial set of documents
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US8874555B1 (en) 2009-11-20 2014-10-28 Google Inc. Modifying scoring data based on historical changes
US8615514B1 (en) 2010-02-03 2013-12-24 Google Inc. Evaluating website properties by partitioning user feedback
US8924379B1 (en) 2010-03-05 2014-12-30 Google Inc. Temporal-based score adjustments
US8959093B1 (en) 2010-03-15 2015-02-17 Google Inc. Ranking search results based on anchors
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
US9623119B1 (en) 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US8832083B1 (en) 2010-07-23 2014-09-09 Google Inc. Combining user feedback
US9002867B1 (en) 2010-12-30 2015-04-07 Google Inc. Modifying ranking data based on document changes
CN102567408B (en) 2010-12-31 2014-06-04 阿里巴巴集团控股有限公司 Method and device for recommending search keyword
US9064007B1 (en) * 2011-01-05 2015-06-23 Google Inc. Co-click based similarity score of queries and keywords
US9183499B1 (en) 2013-04-19 2015-11-10 Google Inc. Evaluating quality based on neighbor features
US20140350961A1 (en) * 2013-05-21 2014-11-27 Xerox Corporation Targeted summarization of medical data based on implicit queries
CN103995880B (en) * 2014-05-27 2019-03-12 百度在线网络技术(北京)有限公司 Interactive method and device
CN108229289B (en) * 2017-06-27 2021-02-05 北京市商汤科技开发有限公司 Target retrieval method and device and electronic equipment
US11106683B2 (en) * 2017-08-25 2021-08-31 Accenture Global Solutions Limited System architecture for interactive query processing
JP7187411B2 (en) * 2019-09-12 2022-12-12 株式会社日立製作所 Coaching system and coaching method
JP2023528985A (en) * 2020-06-09 2023-07-06 ブイブイ エーピーエス Computer-implemented method for searching large-scale unstructured data with feedback loop and data processing apparatus or system therefor

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3361563B2 (en) 1993-04-13 2003-01-07 松下電器産業株式会社 Morphological analysis device and keyword extraction device
US5893065A (en) * 1994-08-05 1999-04-06 Nippon Steel Corporation Apparatus for compressing audio data
JP3871279B2 (en) 1996-05-24 2007-01-24 日本電産シバウラ株式会社 Electric tool
US5870740A (en) * 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US6012053A (en) * 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
US6347315B1 (en) * 1997-12-12 2002-02-12 Canon Kabushiki Kaisha Method and apparatus for selecting and utilizing one of computers or databases
JP3622503B2 (en) * 1998-05-29 2005-02-23 株式会社日立製作所 Feature character string extraction method and apparatus, similar document search method and apparatus using the same, storage medium storing feature character string extraction program, and storage medium storing similar document search program
JP3696745B2 (en) 1999-02-09 2005-09-21 株式会社日立製作所 Document search method, document search system, and computer-readable recording medium storing document search program
US6397212B1 (en) * 1999-03-04 2002-05-28 Peter Biffar Self-learning and self-personalizing knowledge search engine that delivers holistic results
JP2001022787A (en) 1999-07-13 2001-01-26 Nippon Telegr & Teleph Corp <Ntt> Multilinguistic interactive information retrieval system and recording medium where multilinguistic interactive information retrieval program is recorded
US6519647B1 (en) * 1999-07-23 2003-02-11 Microsoft Corporation Methods and apparatus for synchronizing access control in a web server
US6556992B1 (en) * 1999-09-14 2003-04-29 Patent Ratings, Llc Method and system for rating patents and other intangible assets
JP3861529B2 (en) 1999-10-20 2006-12-20 株式会社日立製作所 Document search method
US6772150B1 (en) * 1999-12-10 2004-08-03 Amazon.Com, Inc. Search query refinement using related search phrases
US6665659B1 (en) * 2000-02-01 2003-12-16 James D. Logan Methods and apparatus for distributing and using metadata via the internet
US6842761B2 (en) * 2000-11-21 2005-01-11 America Online, Inc. Full-text relevancy ranking
US6970863B2 (en) * 2001-09-18 2005-11-29 International Business Machines Corporation Front-end weight factor search criteria
US7149738B2 (en) * 2002-12-16 2006-12-12 International Business Machines Corporation Resource and data administration technologies for IT non-experts

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8521749B2 (en) 2003-09-30 2013-08-27 Google Inc. Document scoring based on document inception date
US9767478B2 (en) 2003-09-30 2017-09-19 Google Inc. Document scoring based on traffic associated with a document
US8639690B2 (en) 2003-09-30 2014-01-28 Google Inc. Document scoring based on query analysis
US8577901B2 (en) 2003-09-30 2013-11-05 Google Inc. Document scoring based on query analysis
US8549014B2 (en) 2003-09-30 2013-10-01 Google Inc. Document scoring based on document content update
JP2011159296A (en) * 2003-09-30 2011-08-18 Google Inc Method for document scoring
US8527524B2 (en) 2003-09-30 2013-09-03 Google Inc. Document scoring based on document content update
US8407231B2 (en) 2003-09-30 2013-03-26 Google Inc. Document scoring based on link-based criteria
JP2011134357A (en) * 2004-03-22 2011-07-07 Microsoft Corp System and method for automated optimization of search result relevance
JP2006236345A (en) * 2005-02-25 2006-09-07 Microsoft Corp System and method for learning data ranking function
JP4711761B2 (en) * 2005-07-08 2011-06-29 株式会社ジャストシステム Data search apparatus, data search method, data search program, and computer-readable recording medium
JP2007018389A (en) * 2005-07-08 2007-01-25 Just Syst Corp Data retrieval apparatus, data retrieving method, data retrieval program, and computer readable recording medium
JP2008242965A (en) * 2007-03-28 2008-10-09 Kddi Corp Moving image presentation system
JP2008243024A (en) * 2007-03-28 2008-10-09 Kyushu Institute Of Technology Information acquisition device, program therefor and method
JP2010541074A (en) * 2007-09-28 2010-12-24 ヤフー! インコーポレイテッド System and method for including interactive elements on a search results page
US8661030B2 (en) 2009-04-09 2014-02-25 Microsoft Corporation Re-ranking top search results
JP2012043402A (en) * 2010-08-19 2012-03-01 Fuji Xerox Co Ltd Search device and program
US8898581B2 (en) 2011-02-22 2014-11-25 Sony Corporation Display control device, display control method, search device, search method, program and communication system
US9430795B2 (en) 2011-02-22 2016-08-30 Sony Corporation Display control device, display control method, search device, search method, program and communication system
US9886709B2 (en) 2011-02-22 2018-02-06 Sony Corporation Display control device, display control method, search device, search method, program and communication system
JP5876144B2 (en) * 2014-02-04 2016-03-02 株式会社Ubic Digital information analysis system, digital information analysis method, and digital information analysis program
WO2024084365A1 (en) * 2022-10-21 2024-04-25 株式会社半導体エネルギー研究所 Document search method and document search system
WO2024110824A1 (en) * 2022-11-24 2024-05-30 株式会社半導体エネルギー研究所 Document search assistance method, program, and document search assistance system

Also Published As

Publication number Publication date
US7130849B2 (en) 2006-10-31
US20030149704A1 (en) 2003-08-07
JP4003468B2 (en) 2007-11-07

Similar Documents

Publication Publication Date Title
JP2003228581A (en) Method of retrieving similarity by compatibility feedback
JP3225912B2 (en) Information retrieval apparatus, method and recording medium
JP3870666B2 (en) Document retrieval method and apparatus, and recording medium recording the processing program
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
JP2002140361A (en) Method and device for document retrieval, and storage medium for document retrieving program
US7945543B2 (en) Method and system for deferred maintenance of database indexes
CN110232187A (en) Enterprise name similarity recognition method, device, computer equipment and storage medium
JP2002207760A (en) Document retrieval method, executing device thereof, and storage medium with its processing program stored therein
CN116431837B (en) Document retrieval method and device based on large language model and graph network model
US7831438B2 (en) Local item extraction
JP4754849B2 (en) Document search device, document search method, and document search program
JP5790820B2 (en) Inconsistency detection apparatus, program and method, correction support apparatus, program and method
JPH11272709A (en) File retrieval system
JP6370082B2 (en) Information processing apparatus, information processing method, and program
JPH1166078A (en) Retrieval request embodiment method/device and storage medium storing retrieval, request embodiment program
JP2001147923A (en) Device and method for retrieving similar document and recording medium
JP3902825B2 (en) Document search system and method
JP5402427B2 (en) Information processing apparatus, information processing system, and program
CN109085932B (en) Candidate entry adjustment method, device, equipment and readable storage medium
CN117573697A (en) Data searching method, device, storage medium and apparatus
JP2001084271A (en) Information retrieving device, algorithm updating method thereof and computer-readable storage medium
JPH0869455A (en) Document retrieval method, document retrieval device, and document storage device
CN117332782A (en) Subject information retrieval system and method based on Transformer
JP2002123545A (en) Apparatus and method for document retrieval and recording medium
JP2001325292A (en) System and method for judging similarity degree of compound word and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040913

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070417

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070813

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100831

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100831

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110831

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120831

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120831

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130831

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees