JP3861529B2 - Document search method - Google Patents

Document search method Download PDF

Info

Publication number
JP3861529B2
JP3861529B2 JP29760499A JP29760499A JP3861529B2 JP 3861529 B2 JP3861529 B2 JP 3861529B2 JP 29760499 A JP29760499 A JP 29760499A JP 29760499 A JP29760499 A JP 29760499A JP 3861529 B2 JP3861529 B2 JP 3861529B2
Authority
JP
Japan
Prior art keywords
document
string
weight
search
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP29760499A
Other languages
Japanese (ja)
Other versions
JP2001117937A (en
Inventor
勝己 多田
明彦 山口
靖司 川下
忠孝 松林
靖彦 稲場
菅谷  奈津子
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to JP29760499A priority Critical patent/JP3861529B2/en
Publication of JP2001117937A publication Critical patent/JP2001117937A/en
Application granted granted Critical
Publication of JP3861529B2 publication Critical patent/JP3861529B2/en
Application status is Expired - Fee Related legal-status Critical
Anticipated expiration legal-status Critical

Links

Images

Description

【0001】 [0001]
【発明の属する技術分野】 BACKGROUND OF THE INVENTION
本発明は、検索条件に基づいて文書データベースから文書を検索する方法および装置に関し、その検索の結果として得られた文書に対してユーザが評価を与え、その評価に基づき検索条件を変更する方法および装置に関する。 The present invention relates to a method relates to a method and apparatus for retrieving documents from the document database based on the search condition, the user to the document obtained as a result of the search a score, changes the search condition based on the evaluation and apparatus on.
【0002】 [0002]
【従来の技術】 BACKGROUND OF THE INVENTION
近年、パーソナルコンピュータやインターネット等の普及に伴い、電子化文書が急激に増加している。 In recent years, with the spread of personal computers and the Internet, electronic document has been increasing rapidly. このような状況において、ユーザが所望する情報を含んだ文書を高速かつ効率的に検索したいという要求が高まってきている。 In such a situation, the user has been a growing demand to search for documents containing the desired information quickly and efficiently.
【0003】 [0003]
このような要求に応えるための検索技術としてレリバンスフィードバックとよばれる技術がある。 There is a technique called Lelie Vance feedback as a search technique to meet such a demand. この技術は、全文検索や類似文書検索による検索結果に対して、ユーザが「所望の文書である」か「所望の文書でない」かなどの評価をシステムに入力し、その評価情報を検索条件に反映させることにより、その後の検索結果を改善する技術である。 This technique, the search result by full-text search or similar document search, enter the evaluation, such as the user whether "not desired document" "a is desired document" in system, the evaluation information to the search condition by reflecting a technique for improving the subsequent search results.
【0004】 [0004]
具体的な処理の内容としては、例えば「"Information Retrieval",William B.Frakes / Rocardo Baeza-Yates, Prentice Hall PTR, 1992 pp241〜263」に示されるように、ユーザが所望であると評価した文書から抽出した単語に関する検索条件中の重みを加算し、所望でないと評価した文書から抽出された単語に関する検索条件中の重みを減算する方法がある。 As The contents of specific processing is shown in, for example, "" Information Retrieval ", William B.Frakes / Rocardo Baeza-Yates, Prentice Hall PTR, 1992 pp241~263" documents that the user has evaluated as desired adding the weights in the search condition regarding the extracted words from, there is a method of subtracting the weight in the search conditions regarding the words extracted from the document evaluated as undesirable. 以下この技術を従来技術1と呼ぶ。 Hereinafter referred to as the technology of the prior art 1. 検索条件中のある単語について、具体的な重みの加減算の方法の例を式1に示す。 For words with during the search criteria, an example of a specific weighting subtraction methods in Equation 1.
【0005】 [0005]
【数1】 [Number 1]
【0006】 [0006]
ここでW'はその単語の新たな重み、Wは元の重みであり、FP(i)は所望であると評価されたi番目の文書におけるその単語の出現回数、FN(j)は所望でないと評価されたj番目の文書におけるその単語の出現回数である。 Here W 'are new weights, W of the word is the original weight, FP (i) the number of occurrences of the word in the i-th document is evaluated as desired, FN (j) is not the desired is the number of occurrences of the word in the j-th of the documents that have been evaluated to. また、Pは所望であると評価された文書の数、Nは所望でないと評価された文書の数である。 Also, P is the number of documents evaluated as desired, N is the number of documents that were rated as undesirable. なお、α、βはパラメータである。 In addition, α, β is a parameter. ここで、この新たな重みW'は負になってもよく、そのような場合は、その単語が含まれる文書は類似度が下がることになる。 Here, the new weight W 'may be negative, such cases, the document that contains the word will be the degree of similarity decreases.
【0007】 [0007]
この従来技術1によるレリバンスフィードバック処理の例を図2に示す。 An example of a Lelie Vance feedback processing by the prior art 1 in Fig. 本図に示す例は、ユーザが「高校野球」に関する文書を所望する場合に、「サッカーに続き高校野球が開幕した」という文書を種文書に選んだ場合である。 The example shown in this figure, if the user desires a document on "high school baseball", is when you choose a document referred to as a "continuation high school baseball was kicked off in soccer" to the seed document. その後、「サッカー」に関するノイズ文書に対し「所望でない」と評価をして、システムに入力した場合である。 Then, with respect to noise document related to "soccer" in the evaluation as "undesirable", the case was entered into the system. この結果、本図に示すように「サッカー」という単語の重みが下がり、以後「サッカー」に関する文書の類似度を下げることができる。 As a result, as shown in the figure decreases the weight of the word "football", it is possible to reduce the similarity of the document regarding hereinafter "soccer".
【0008】 [0008]
【発明が解決しようとする課題】 [Problems that the Invention is to Solve
しかし、従来技術1による方式では、ユーザが「所望のものでない」といった評価をしたときに検索結果が改善しない場合がある。 However, in the method according to the prior art 1, a user may search results when the evaluation such as "not desired one" does not improve. この問題を図3を用いて説明する。 This problem will be described with reference to FIG. 本図に示した例は、「高校野球」に関する文書を所望する場合に、「高校サッカーが開幕した・・・」といったノイズ文書に対し「所望の文書でない」と評価した場合である。 The example shown in the figure is a case that was evaluated as in the case of desired documents related to "high school baseball", "not the desired document" to the noise document, such as "... the high school football is kicked off." このとき従来技術1によれば、このノイズ文書から「高校」「サッカー」「開幕」といった単語を抽出し、検索条件中のそれぞれの単語の重みを減算することになる。 According this time in the prior art 1, to extract a word such as "school", "soccer", "opening" from the noise document, so that subtracting the weight of each word in the search criteria. この場合、「サッカー」の重みを減算するだけでなく、「高校」という単語の重みまでも減算してしまう。 In this case, not only to subtract the weight of "soccer", also it would subtract up to the weight of the word "high school". その結果、更新された検索条件によって検索を行なうと、「高校野球」に関する文書の類似度が、「プロ野球」「社会人野球」といった文書の類似度よりも低くなってしまうという問題がある。 As a result, when the search by the updated search condition, the similarity of the document on "High School Baseball" is, there is a problem that is "professional baseball", "adult baseball," such as lower than the similarity of the document.
【0009】 [0009]
このように、従来の方法によりユーザが「所望のものでない」と評価した文書から抽出した単語の重みを単純に減算すると、ユーザが所望とする概念を表す単語の重みまで減算してしまい、検索結果が改善しないという問題がある。 Thus, when the conventional method the user simply subtracting the weight of the words extracted from the document which was evaluated as "not desired ones" will be subtracted to the weight of words representing the concepts desired by the user, search a result there is a problem that does not improve.
【0010】 [0010]
本発明の目的は、ユーザが「所望のものでない」といった評価を与えた文書から抽出した情報のうち適切なものを使用して、検索結果を改善することにある。 An object of the present invention uses the appropriate one of the information extracted from the document which the user has a score, such as "not desired one", it is to improve the search results.
【0011】 [0011]
【課題を解決するための手段】 In order to solve the problems]
上記課題を解決するため、第1の手段として、 To solve the above problems, as a first means,
文字列に付与された重みを含む検索条件により文書データベースを検索し、該検索により得られた文書に対してユーザが入力した「所望である」または「所望でない」の評価を受け取り、上記検索の結果得られた文書から抽出した文字列の重みを上記評価に基づき変更して検索する文書検索方法において、 Searching the document database by the search conditions including the weights assigned to a string, receive evaluation of user inputs "desired is", or "undesirable" to the document obtained by the search, the search the weight of the extracted character string from the results obtained document in the document search method for searching changed based on the above evaluation,
上記「所望である」と評価した文書から抽出した第一の文字列に正の重みを付与し、 The positive weight assigned to the first character string extracted from the document which was evaluated as the "desired is"
上記「所望でない」と評価した文書から抽出した第二の文字列に負の重みを付与し、 The grant negative weight to a second character string extracted from the document which was evaluated as "undesired"
第二の文字列のうち上記第一の文字列と一致するもとともに当該第一の文字列の重みが所定値以上ものを除外したものとその重みおよび上記第一の文字列とその重みとを含む検索条件を生成して検索する。 Second both weights of the first string Moto consistent with the first character string in the character string as that exclude the predetermined value or more and the weight and the first character string and the weight Search and generates a search condition including.
【0012】 [0012]
この方法により、ユーザが所望のものと評価した文書から抽出した所望の内容を特徴付ける文字列に付与された負の重みにより検索精度を下げてしまうという課題を改善することができる。 By this method, it is possible to improve the problem of the user will lower the search accuracy by the negative weights assigned to string characterizing the desired content extracted from a document that was evaluated as desired.
【0013】 [0013]
また、第2の手段は、 In addition, second means,
文字列に付与された重みを含む検索条件により文書データベースを検索し、該検索により得られた文書に対してユーザが入力した「所望である」または「所望でない」の評価を受け取り、上記検索の結果得られた文書から抽出した文字列の重みを上記評価に基づき変更して検索する文書検索方法において、 Searching the document database by the search conditions including the weights assigned to a string, receive evaluation of user inputs "desired is", or "undesirable" to the document obtained by the search, the search the weight of the extracted character string from the results obtained document in the document search method for searching changed based on the above evaluation,
上記「所望である」と評価した文書から第一の文字列を抽出し、上記「所望でない」と評価した文書から抽出した文字列で上記第一の文字列と一致する場合は、当該第一の文字列の重みが所定値以下の場合は上記抽出した文字列を第二の文字列として抽出し、第二の文字列の重みを第一の文字列の重みよりも低くし、一致しない場合は上記抽出した文字列を第二の文字列として抽出し、第二の文字列の重みを第一の文字列の重みよりも低くする。 Said extracting a first character string from a document that was evaluated as "desired is" the case of matching the first string with the string extracted from documents evaluated as "undesired" is the first If the case the weight of the string is below a predetermined value of extracts character strings described above extracted as a second character string, the weight of the second string to be lower than the weight of the first string, which do not match extracts a string the extracted as a second string, the weight of the second string lower than the weight of the first string.
【0014】 [0014]
この方法により、ユーザが所望のものと評価した文書から抽出した所望の内容を特徴付ける文字列に、負の重みを付与してしまい以降の検索精度を下げてしまうという課題を改善できる。 This method can improve the problem of the user in a string characterizing the desired content extracted from a document that was evaluated as desired one, thereby lowering the retrieval accuracy of the later would be granted negative weight.
【0015】 [0015]
【発明の実施の形態】 DETAILED DESCRIPTION OF THE INVENTION
以下、本発明の第一の実施例について説明する。 The following describes the first embodiment of the present invention.
【0016】 [0016]
まず、本発明の第一の実施例のシステム構成を図1に示す。 First, the system configuration of the first embodiment of the present invention shown in FIG. 本実施例におけるシステムは、ディスプレイ100、キーボード101、中央演算処理装置(CPU)102、磁気ディスク装置105、フロッピディスクドライブ(FDD)106、主メモリ109およびこれらを結ぶバス108から構成される。 System in this embodiment includes a display 100, a keyboard 101, a central processing unit (CPU) 102, a magnetic disk device 105, a floppy disk drive (FDD) 106, a main memory 109 and a bus 108 connecting these.
【0017】 [0017]
磁気ディスク装置105は二次記憶装置の一つであり、テキスト103、出現頻度ファイル104が格納される。 Magnetic disk apparatus 105 is one of the secondary storage device, a text 103, the appearance frequency file 104 is stored. FDD106を介してフロッピディスク107に格納されている情報が、主メモリ109あるいは磁気ディスク装置105へ読み込まれる。 Information stored in the floppy disk 107 via the FDD106 is read into the main memory 109 or a magnetic disk unit 105.
【0018】 [0018]
主メモリ109には、システム制御プログラム110、文書登録プログラム111、検索制御プログラム112が格納される。 A main memory 109, the system control program 110, a document registration program 111, a search control program 112 is stored. 検索制御プログラム112は、検索条件生成プログラム113、類似文書検索プログラム114、検索結果文書内容表示プログラム115、検索条件修正制御プログラム116、およびプロファイル重み調整プログラム119で構成される。 Retrieval control program 112 is composed of a retrieval condition generating program 113, similar document search program 114, a search result document content display program 115, the search condition modifying the control program 116 and the profile weight adjustment program 119,. ここで、検索条件修正制御プログラム116は、プロファイル更新プログラム117、および検索使用文字列選択プログラム118で構成される。 Here, the search condition modifying the control program 116 is composed of profile update program 117, and a search using the character string selection program 118.
【0019】 [0019]
また、正のプロファイル120、負のプロファイル121、総合プロファイル122、種文書保存エリア123、登録文書保存エリア124、特徴文字列保存エリア125、および表示用文書保存エリア126が同じく主メモリ109に確保される。 The positive profiles 120, negative profile 121, overall profile 122, seeds document storage area 123, the registered document storage area 124, the characteristic character string storage area 125 and the display document storage area 126, are secured also to the main memory 109 that.
【0020】 [0020]
ここで、正のプロファイル120、負のプロファイル121、総合プロファイル122とは後述する図15に示すように、いずれも幾つかの検索文字列とその重みを保持したデータである。 Here, positive profile 120, a negative profile 121, as the overall profile 122 shown in FIG. 15 to be described later, both of which are data holding its weight and several search string. 正のプロファイル120には、ユーザが所望であると評価した文書から抽出した文字列が格納される。 Positive profile 120, the character string extracted from the document the user has evaluated as desired is stored. 負のプロファイル121には、ユーザが所望のものでないと評価した文書から抽出した文字列が格納される。 The negative profile 121, the character string extracted from the document which the user has rated not desired one is stored. 総合プロファイル122は、正負のプロファイルから選択された検索に用いる文字列が格納される。 Overall profile 122, a character string used to search selected from positive and negative profiles are stored.
【0021】 [0021]
以下に、第一の実施例における、各プログラムの処理手順について説明する。 Hereinafter, in the first embodiment, a procedure of the respective programs.
【0022】 [0022]
まず、システム制御プログラム110の処理手順について図4のPAD(Problem Analysis Diagram)図を用いて説明する。 First, the processing procedure of the system control program 110 will be described with reference to PAD (Problem Analysis Diagram) Figure of Figure 4.
【0023】 [0023]
システム制御プログラム110は、まずステップ401においてユーザがキーボードから入力したコマンドを解析する。 The system control program 110, first, in step 401 the user analyzes a command entered from the keyboard.
【0024】 [0024]
次にステップ402において、このコマンドが文書登録のコマンドであると解析された場合には、ステップ404で文書登録プログラム111を起動して文書の登録を行なう。 In step 402, the command when it is analyzed as a command of the document registration, and registers the document by starting the document registration program 111 at step 404.
【0025】 [0025]
またステップ403において、検索実行のコマンドであると解析された場合には、ステップ405で検索制御プログラム112を起動して文書の検索を行なう。 In step 403, if it is analyzed as a command search execution, to search for documents to start the search control program 112 in step 405.
【0026】 [0026]
以上が、システム制御プログラム110の処理手順である。 The processing procedure of the system control program 110.
【0027】 [0027]
次に、図4に示したステップ404でシステム制御プログラムにより起動される、文書登録プログラム111について図5のPAD図を用いて説明する。 Next, it is activated by the system control program at step 404 shown in FIG. 4, the document registration program 111 will be described with reference to the PAD diagram of Fig.
【0028】 [0028]
文書登録プログラム111は、まずステップ501においてD106に挿入されたフロッピディスク107から登録すべき文書データを読み込み、これをテキスト103として磁気ディスク装置105に格納する。 Document registration program 111, first in step 501 reads the document data to be registered from the floppy disk 107 inserted in D106, stores it as text 103 to the magnetic disk device 105. 文書データは、フロッピディスク107を用いて入力するだけに限らず、通信回線やCD−ROM装置(図1には示していない)等を用いて他の装置から入力するような構成を取ることも可能である。 Document data is not limited to simply input using a floppy disk 107, also take as input from another apparatus configured using a communication line or a CD-ROM device (not shown in FIG. 1), etc. possible it is.
【0029】 [0029]
次にステップ502で、検索対象文書から抽出される自立語の可能性がある文字列(以下、特徴文字列と呼ぶ)がどの文書に何回出現したかを高速に抽出するためのデータとして、出現頻度ファイル104を各登録対象文書について生成する。 In step 502, the character string of the possibility of independent words extracted from the target document (hereinafter, characteristic character is referred to as a string) or appeared many times what document as data to be extracted at high speed, the frequency file 104 generated for each registered document. ここで出現頻度ファイルの生成方法としては「特開平11−143902号広報」に開示されている出現頻度ファイルの生成方法と同一の方法でも良いし、形態素解析等を用いて各文書中の単語を抽出する方法やニューラルネットワークの学習データを用いた方法でもかまわない。 May be a product the same method of frequency file disclosed in "JP-A-11-143902 PR" as the method of generating the frequency file, where the words in each document by using the morphological analysis or the like it may be a method using the learning data extraction methods or neural networks. また、単純n−gramを抽出する方法であってもかまわない。 Further, it may be a method of extracting a simple n-gram.
【0030】 [0030]
以上が、文書登録プログラム111の処理手順である。 The processing procedure of the document registration program 111.
次に、図4に示したステップ405でシステム制御プログラムにより起動される、検索制御プログラム112の処理手順を図6のPAD図を用いて説明する。 Next, it is activated by the system control program in step 405 shown in FIG. 4 will be described with reference to the PAD diagram of Fig. 6 the procedure of the retrieval control program 112.
【0031】 [0031]
検索制御プログラム112は、まずステップ601において検索条件生成プログラム113を起動し、検索条件を生成する。 Retrieval control program 112 first starts the search condition generating program 113 in step 601, it generates the search condition.
【0032】 [0032]
次にステップ602において、ステップ603〜ステップ612の処理を、ステップ604においてユーザから検索セッションの終了が要求されたと解析されるまで繰り返す。 Next, in step 602, and repeats the processing of step 603 to step 612, until the end of the search session from the user is analyzed to have been requested in step 604.
【0033】 [0033]
この繰り返し処理では、まずステップ603において、類似文書検索プログラム114を起動し、ステップ601で生成された検索条件にもとづき類似文書検索を行なう。 In this iterative process, first, in step 603, to start the similar document retrieval program 114, based on the generated search condition in step 601 performs a similar document search.
【0034】 [0034]
次にステップ604において、キーボードから入力されるコマンドを解析する。 In step 604, it analyzes the command input from the keyboard.
【0035】 [0035]
次にステップ605において、このコマンドが文書の内容表示コマンドであると解析された場合には、ステップ609で検索結果文書内容表示プログラム115を起動し、指定された検索結果文書の内容を表示する。 In step 605, the command when it is analyzed that the contents display command of the document starts the search result document content display program 115 in step 609, displays the contents of the specified search result document.
【0036】 [0036]
次にステップ606において、検索結果文書に対するユーザの評価の入力コマンドであると解析された場合には、ステップ610で検索条件修正制御プログラム116を起動し、検索条件を修正する。 Next, in step 606, if it is analyzed that the input command of the evaluation of the user for the search result document, start a search condition correction control program 116 in step 610, it modifies the search criteria.
【0037】 [0037]
次にステップ607において、プロファイルの内容調整コマンドであると解析された場合には、ステップ611でプロファイル重み調整プログラム119を起動し、プロファイルの内容を調整する。 In step 607, if it is analyzed that the profile contents adjustment command starts the profile weight adjustment program 119 in step 611, to adjust the content of the profile.
【0038】 [0038]
次にステップ608において、検索セッション終了コマンドであると解析された場合には、ステップ612で、正のプロファイル120、負のプロファイル121、および総合プロファイル122の内容をクリアし、ステップ602の繰り返しを終了する。 In step 608, if it is analyzed that the search session end command in step 612, a positive profile 120, a negative profile 121, and the contents of the overall profile 122 clears, ends the repetition of steps 602 to.
【0039】 [0039]
以上が検索制御プログラム112の処理手順である。 The above is the procedure of the retrieval control program 112.
【0040】 [0040]
次に、図6に示したステップ601で検索制御プログラムにより起動される、検索条件生成プログラム113の処理手順を図7のPAD図を用いて説明する。 Next, is activated by the retrieval control program at step 601 shown in FIG. 6 will be described with reference to the PAD diagram of Fig. 7 the processing procedure of the search condition generating program 113.
【0041】 [0041]
検索条件生成プログラム113は、まずステップ701において、キーボード101から入力される種文書を読み込み、種文書保存エリア123に格納する。 Search-condition creating program 113, first in step 701, loads the seed document inputted from the keyboard 101 and stored in the seed document storage area 123.
【0042】 [0042]
次にステップ702において、種文書保存エリア123に格納された種文書から特徴文字列を抽出し、種文書内出現回数を計数して、特徴文字列保存エリア125に格納する。 Next, in step 702, it extracts a feature character string from the stored seed document type document storage area 123, by counting the seed document the number of occurrences, stored in the characteristic character string storage area 125.
【0043】 [0043]
ここで、特徴文字列を抽出する方法は、図5に示した文書登録プログラム111のステップ502における方法を用いても良いし、その他の方法を用いても良い。 Here, the method of extracting the feature character string may be used a method in step 502 of the document registration program 111 shown in FIG. 5, may be other methods.
【0044】 [0044]
次にステップ703において、ステップ702で抽出した特徴文字列をステップ702で計数した出現回数と共に総合プロファイル122に書き込む。 Next, at step 703, it writes the characteristic character string extracted in step 702 to the overall profile 122 with number of occurrences counted in step 702. ここで総合プロファイル122は、後述する図15に示すように特徴文字列とその重みが保持されたものであり、後述するように類似文書検索プログラム114の入力として使用する。 Here overall profile 122 is for its weight, wherein the character string as shown in FIG. 15 to be described later is held and used as input for a similar document search program 114 as described below. ここで重みとしては種文書内出現回数を用いるものとするが、他のものを用いても良い。 Here it is assumed to use a seed document in number of occurrences as a weight, it may be used other things. また、ここで総合プロファイル122に書き込む文字列は、ステップ702で抽出した特徴文字列のうち重みの上位から所定数のものに限定しても良い。 Further, where the string is written in comprehensive profile 122, it may be limited from the weighting level of characteristic character string extracted in step 702 to that of the predetermined number.
【0045】 [0045]
次にステップ704において、ステップ702で抽出した文字列をステップ702で計数した出現回数と共に正のプロファイル120に書き込む。 Next, at step 704, it writes the character string extracted in step 702 together with the number of occurrences counted in step 702 to a positive profile 120. この正のプロファイル120は、後述するように、検索結果文書に対しユーザが評価をした場合に、検索条件を修正する際に使用する。 This positive profile 120, as described later, the user to the search result document when the evaluation is used to modify the search criteria. また、ここで正のプロファイル120に書き込む文字列は、ステップ702で抽出した特徴文字列のうち重みの上位のもの所定数に限定しても良い。 Further, where writing to the positive profile 120 strings may be limited to a predetermined number one higher weight among the feature character string extracted in step 702.
【0046】 [0046]
以上が、検索条件生成プログラム113の処理手順である。 The processing procedure of the search condition generating program 113.
【0047】 [0047]
次に、図6に示したステップ603で検索制御プログラムにより起動される、類似文書検索プログラム114の処理手順を図8のPAD図を用いて説明する。 Next, is activated by the retrieval control program at step 603 shown in FIG. 6, it will be described with reference PAD of FIG. 8 to the processing procedure of the similar document search program 114.
【0048】 [0048]
類似文書検索プログラム114は、まずステップ801において、図7に示したステップ703で検索条件生成プログラム113により生成された総合プロファイル122を読み込む。 Similar document search program 114, first in step 801, reads the overall profile 122 generated by the search condition generating program 113 in the step 703 shown in FIG.
【0049】 [0049]
次にステップ802において、出現頻度ファイル104を読み込む。 Next, at step 802, it reads the frequency file 104.
【0050】 [0050]
次にステップ803において、総合プロファイル122内の特徴文字列の重みと、出現頻度ファイル104内の各文書における該文字列の出現頻度から、テキスト103内の各文書の類似度を算出する。 In step 803, it calculates the weights of the feature character string in the overall profile 122, the frequency of occurrence of the character string in each document in the frequency file 104, the similarity of each document in the text 103. ここで類似度の算出式としては、例えば以下の式2のようなものを用いる。 Here, as the equation for calculating the similarity, using for example, as Equation 2 below.
【0051】 [0051]
【数2】 [Number 2]
【0052】 [0052]
この式で、S(D)はテキスト103内の文書番号Dの類似度であり、Frq(i)は出現頻度ファイル104内の単語iの文書Dにおける出現頻度であり、w(i)は総合プロファイル内の単語iの重みである。 In this equation, S (D) is the similarity of the document number D in the text 103, Frq (i) is the frequency of occurrence in the document D of the word i in the frequency of occurrence file 104, w (i) a comprehensive it is the weight of the word i in the profile. ここで類似度算出式としては、これ以外のものを用いても構わない。 Here, as the similarity calculation formula, it may be used other than this.
【0053】 [0053]
次にステップ804において、テキスト103内の各文書の文書番号を類似度の順に降順にソートし、ディスプレイ100に出力する。 In step 804, sorted in descending order article number of each document in the text 103 in the order of similarity, and outputs to the display 100. ここで、類似度の上位所定件のみを出力するようにしても良いし、所定の類似度を上回るもののみを出力するようにしても良い。 Here, it may be output only the upper predetermined matter of similarity may be output only those above a predetermined similarity. また、文書にタイトルのような属性があればそれを出力しても良い。 It is also possible to output it if there is an attribute, such as the title of the document.
【0054】 [0054]
以上が、類似文書検索プログラム114の処理手順である。 The processing procedure of the similar document search program 114.
【0055】 [0055]
次に、図6に示したステップ609で検索制御プログラムにより起動される、検索結果文書内容表示プログラム115の処理手順を図9のPAD図を用いて説明する。 Next, is activated by the retrieval control program at step 609 shown in FIG. 6, it will be described with reference PAD of FIG. 9 the processing procedure of the search result document content display program 115.
【0056】 [0056]
検索結果文書内容表示プログラム115は、まずステップ901において、ユーザがキーボード101から入力する文書番号を読み込む。 Results document content display program 115, first in step 901, reads the document ID that the user enters via the keyboard 101.
【0057】 [0057]
次にステップ902において、ステップ901で入力された文書番号に該当する文書を登録文書保存エリア124に読み込む。 Next, at step 902, reads a document corresponding to the document number entered in step 901 in the registration document storage area 124.
【0058】 [0058]
次にステップ903において、ステップ904で該文書を最後まで読み込むまで以下に示すステップ904からステップ907の処理を繰り返す。 Next, in step 903, and repeats the processing of step 907 from step 904 described below to read the document in step 904 to the end.
【0059】 [0059]
ステップ903の繰り返し処理では、まずステップ904において、登録文書保存エリア124の文書の文字列を順次読み込み、総合プロファイル122に格納された文字列と照合する。 In repeating the process of step 903, in step 904, sequentially reads a character string of the document registration document storage area 124, matching the character string stored in the overall profile 122.
【0060】 [0060]
次にステップ905において、ステップ904で読み込んだ文字列が総合プロファイル122において正の重みを持つ文字列と一致した場合には、ステップ908で「該文字列を赤色表示する」という情報を付与して表示用文書保存エリア126に追加する。 In step 905, if it matches the string with a positive weight in string comprehensive profile 122 read in step 904, by applying the information "the character string to the red display" in step 908 to add to the display for document storage area 126. ここで例えばHTML(HyperText Markup Language)の形式で表示する場合は、該文字列の前後に赤色表示を表すタグを挿入し、表示用文書保存エリア126に追加する。 Here, for example when displaying in the form of HTML (HyperText Markup Language), insert a tag representing the red display before and after the character string is added to the display for document storage area 126. ここで、重みが所定値以下の文字列や、重みの上位所定件に含まれないものは、この処理の対象外にするなどしても構わない。 Here, the weight of the following text and a predetermined value, not included in the top predetermined matter of the weights, may also be such as to exempt from this process. また、表示色は別の色を用いても構わない。 In addition, the display color may be used a different color.
【0061】 [0061]
次にステップ906において、ステップ904で読み込んだ文字列が総合プロファイル122において負の重みを持つ文字列と一致した場合には、ステップ909で「該文字列を青色表示する」という情報を付与して表示用文書保存エリア126に追加する。 In step 906, if the character string read matches the string with a negative weight in total profile 122 in step 904, by applying the information of "blue displaying the character string" in step 909 to add to the display for document storage area 126. ここで例えばHTMLの形式で表示する場合は、該文字列の前後に青色表示を表すタグを挿入し、表示用文書保存エリア126に追加する。 When displaying Here, for example in the form of HTML, insert a tag that represents the blue display before and after the character string is added to the display for document storage area 126. ここで、重みが所定値以下の文字列や、重みの上位所定件に含まれないものは、この処理の対象外にするなどしても構わない。 Here, the weight of the following text and a predetermined value, not included in the top predetermined matter of the weights, may also be such as to exempt from this process. また、表示色はステップ908で指定する色以外の別の色を用いても構わない。 The display color may be used another color other than the color specified in step 908.
【0062】 [0062]
次にステップ907において、ステップ904で読み込んだ文字列が総合プロファイル内の文字列と一致しない場合には、ステップ910で「該文字列を黒色表示する」という情報を付与して表示用文書保存エリア126に追加する。 Next, in step 907, if the character string read does not match the string in the overall profile at step 904, "the character string black display to" information imparted to displaying document storage area is referred to in step 910 to add to the 126. ここで例えばHTMLの形式で表示する場合は、該文字列の前後に黒色表示を表すタグを挿入し、表示用文書保存エリア126に追加する。 When displaying Here, for example in the form of HTML, insert a tag that represents the black display before and after the character string is added to the display for document storage area 126. ここで、表示色はステップ908、909で指定する以外の別の色を用いても構わない。 Here, the display color may be used another color other than that specified in step 908 and 909.
【0063】 [0063]
次にステップ911において、表示用文書保存エリア126に保存された内容をディスプレイ100に表示する。 In step 911, it displays the contents stored in the display document storage area 126 on the display 100.
【0064】 [0064]
以上が、検索結果文書内容表示プログラム115の処理手順である。 The above is the processing procedure of the search result document content display program 115.
【0065】 [0065]
次に、図6に示したステップ610で検索制御プログラムにより起動される、検索条件修正制御プログラム116の処理手順を図10のPAD図を用いて説明する。 Next, is activated by the retrieval control program at step 610 shown in FIG. 6 will be described with reference to the PAD diagram of Fig. 10 the procedure of the search condition modifying control program 116.
【0066】 [0066]
検索条件修正制御プログラム116は、まずステップ1001においてプロファイル更新プログラム117を起動し、正のプロファイル120および負のプロファイル121の内容を更新する。 Search condition modifying the control program 116 first starts the profile update 117 at step 1001, it updates the content of the positive profile 120 and negative profiles 121.
【0067】 [0067]
次にステップ1002において、検索使用文字列選択プログラム118を起動し、ステップ1001で更新された正のプロファイル120および負のプロファイル121の内容にもとづき、総合プロファイル122の内容を更新する。 Next, in step 1002, and starts a search using text selection program 118, based on the contents of the primary profile 120 and negative profiles 121 updated in step 1001, and updates the contents of the overall profile 122.
【0068】 [0068]
以上が検索条件修正プログラム116の処理手順である。 The above is the processing procedure of the search condition modification program 116.
【0069】 [0069]
次に、図6に示したステップ611で検索制御プログラムにより起動される、プロファイル重み調整プログラム119の処理手順を図11のPAD図を用いて説明する。 Next, is activated by the retrieval control program at step 611 shown in FIG. 6, it will be described with reference PAD of FIG. 11 and the processing procedure of the profile weight adjustment program 119.
【0070】 [0070]
プロファイル重み調整プログラム119は、まずステップ1101において、正のプロファイル120に格納された文字列とその重みを一覧表示する。 Profile weight adjustment program 119, first, in step 1101, a positive profile 120 stored string and list the weights.
【0071】 [0071]
次にステップ1102において、負のプロファイル121に格納された文字列とその重みを一覧表示する。 In step 1102, to list a string and its weight stored in negative profile 121.
【0072】 [0072]
次にステップ1103において、ユーザがキーボード101により入力した、ユーザが重みを変更したい文字列、またはいずれかのプロファイルに追加したい文字列と、その重みを取得する。 In step 1103, the user inputs through a keyboard 101, a string to add text user wants to change the weight or to any of the profiles, to obtain the weight. ここで、正のプロファイルにある文字列に負の重みを付与しようとした場合や、負のプロファイルにある文字列に正の重みを付与しようとした場合には、ユーザへの警告を出力するようにする等しても良い。 Here, positive and if you try to impart a negative weight to the string in the profile, when an attempt impart positive weight to the string to the negative profile, to output a warning to the user it may be equal to.
【0073】 [0073]
次にステップ1104において、ステップ1103で取得したとおりに正のプロファイル120または負のプロファイル121の内容を変更する。 In step 1104, it changes the contents of the positive profile 120 or negative profile 121 as obtained in step 1103.
【0074】 [0074]
以上が、プロファイル重み調整プログラム119の処理手順である。 The processing procedure of the profile weight adjustment program 119.
【0075】 [0075]
ここで、図12にプロファイル重み調整プログラム119により、ユーザがプロファイルを調整する際にディスプレイ100に表示する入力画面の例を示す。 Here, the profile weight adjustment program 119 in FIG. 12 shows an example of an input screen for the user to display on the display 100 when adjusting the profile. 正のプロファイル120の内容が1201に、負のプロファイル121の内容が1202に表示される。 The contents of the primary profile 120 1201, the contents of the negative profile 121 is displayed in 1202. それぞれスクロールバー1203および1204を用いて、全ての内容を表示させることも可能である。 Respectively, using the scroll bars 1203 and 1204, it is also possible to display all content. ユーザがテキストボックス1205に重みを変更したい文字列、またはいずれかのプロファイルに追加したい文字列を入力し、重みを1206に入力して送信ボタン1207を押下する。 The user inputs a character string that you want to add to the string or any of the profiles, you want to change the weights in the text box 1205, and presses the send button 1207 by entering the weight in 1206. ここで、重みを変更したい文字列文字列はテキストボックス1205に入力する形ではなく、表示される一覧の中からラジオボタン等により選択する形にしても良い。 Here, the string string you want to change the weight is not in the form to be entered into the text box 1205, may be in the form to be selected by the radio button, and the like from the list that appears.
【0076】 [0076]
次に、図10に示したステップ1001で検索条件修正制御プログラム116により起動される、プロファイル更新プログラム117の処理手順を図13のPAD図を用いて説明する。 Next, is activated by the search condition correction control program 116 in step 1001 shown in FIG. 10 will be described with reference PAD of FIG. 13 and the processing procedure of the profile update 117.
【0077】 [0077]
プロファイル更新プログラム117は、まずステップ1301において、ユーザがキーボード101により入力した文書番号と、その文書番号の文書に対するユーザの評価(「所望のものであった」あるいは「所望のものでなかった」等の評価)を読み込む。 Profile update program 117, first in step 1301, the user and the document ID inputted through the keyboard 101, the evaluation of the user for the document of the document ID ( "were desired one" or "not intended desired" etc. read of evaluation).
【0078】 [0078]
次にステップ1302において、ステップ1301で読み込んだ文書番号に該当する文書を、テキスト103から登録文書保存エリア124に読み込む。 In step 1302, the document corresponding to the document ID read in step 1301, read from a text 103 into registration document storage area 124.
【0079】 [0079]
次にステップ1303において、登録文書保存エリア124に格納された文書から特徴文字列を抽出し、該文書内出現回数を計数出現頻度ファイル104を参照することにより抽出し、共に特徴文字列保存エリア125に格納する。 In step 1303, extracts a feature character string from a document that is stored in the registration document storage area 124, is extracted by referring to the count appearance frequency file 104 the document in number of occurrences, both characteristic character string storage area 125 and stores it in. ここで、特徴文字列の抽出方法としては前掲の「特開平11−143902号広報」による方法を用いても良いし、形態素解析やニューラルネットワークによる学習データなどを用いる方法でもかまわない。 Here, as a method of extracting characteristic character string may be used a method according to "JP-A-11-143902 PR" cited above, it may be a method of using such learned data by morphological analysis or a neural network.
【0080】 [0080]
次にステップ1304において、ステップ1301で読み込んだユーザの評価が正の評価であった場合には、ステップ1306において、特徴文字列保存エリア125内の文字列の出現回数を正のプロファイルの該当文字列の重みに加算する。 In step 1304, if the evaluation of the user read in step 1301 is positive evaluation in step 1306, the corresponding string of the number of occurrences of a string of feature string storage area 125 positive profile the addition of the weight. このとき、正のプロファイル120に無い文字列の場合には、ステップ1303で読み込んだ出現回数を重みとして付与し、該文字列を正のプロファイル120に追加する。 At this time, when the character string without a positive profile 120, the number of occurrences read in step 1303 is applied as a weight, add the string to the positive profile 120.
【0081】 [0081]
次にステップ1305において、ステップ1301で読み込んだユーザの評価が負の評価であった場合には、ステップ1307において、特徴文字列保存エリア125内の文字列の出現回数を負のプロファイルの該当文字列の重みから減算する。 In step 1305, when the evaluation of the user read in step 1301 is negative the evaluation, in step 1307, the corresponding string of negative profile the number of occurrences of a string of feature string storage area 125 It is subtracted from the weight. このとき、負のプロファイル121に無い文字列の場合には、ステップ1303で読み込んだ出現回数の負値を重みとして付与し、該文字列を負のプロファイル121に追加する。 At this time, when the character string without a negative profile 121, the negative value of the appearance frequency read at step 1303 and added as a weight, add the string to the negative profile 121.
【0082】 [0082]
ここでステップ1306、1307において重みの加減算の方法は、ユーザの評価により調整しても良い。 Wherein the method of addition and subtraction of the weight in step 1306 and 1307 may be adjusted by the evaluation of the user. 例えばステップ1306において、ユーザが「所望のものである」という評価をした場合には、その文書内の特徴文字列の出現回数を、そのまま正のプロファイル120の該文字列の重みに足し、「やや所望のものである」という評価をした場合には、その文書内の特徴文字列の出現回数の半数を、正のプロファイル120の該文字列の重みに足す、などといった方法にしても良い。 For example, in step 1306, if the user has a reputation "is desired one" is added the number of occurrences of feature character string in the document, the weight of it the string positive profile 120, "somewhat in the case where the evaluation of the is "the desired ones, the half of the number of occurrences of feature character string in the document, plus the weight of the string of positive profiles 120 may be a method such as. また、ステップ1306およびステップ1307で重みを加減算する特徴文字列は、ステップ1303において抽出した出現回数の上位所定数に限定しても構わない。 The feature string or subtracting the weight in step 1306 and step 1307 may be limited to a predetermined number of most significant occurrence count extracted in step 1303.
【0083】 [0083]
以上が、プロファイル更新プログラム117の処理手順である。 The above is the processing procedure of profile update program 117.
【0084】 [0084]
次に、図10に示したステップ1002において検索条件修正制御プログラム116により起動される、検索使用文字列選択プログラム118の処理手順を図14のPAD図を用いて説明する。 Next, is activated by the search condition modifying the control program 116 in step 1002 shown in FIG. 10 will be described with reference PAD of FIG. 14 the processing procedure of the search using the character string selection program 118.
【0085】 [0085]
検索使用文字列選択プログラム118は、まずステップ1401において、総合プロファイル122の内容をクリアする。 Search using string selection program 118, first, in step 1401, it clears the contents of the overall profile 122.
【0086】 [0086]
次にステップ1402において、正のプロファイル120の中の特徴文字列のうち重みの上位所定件を抽出し、その重みと共に総合プロファイル122に追加する。 In step 1402, it extracts a top predetermined matter weight of the feature character string in the positive profile 120, to add to the overall profile 122 with its weight.
【0087】 [0087]
次にステップ1403において、負のプロファイル121の中の特徴文字列のうち、重みの絶対値の上位所定件のもので、かつ正のプロファイル120の中の特徴文字列の重みの上位所定件に含まれないものを、総合プロファイル122に追加する。 In step 1403, the features string in the negative profile 121, but higher predetermined matter of absolute values ​​of the weights, and included in the top predetermined matter weight feature string in the positive profiles 120 the ones that are not, to add to the overall profile 122.
【0088】 [0088]
ここでステップ1402、ステップ1403で使用する所定件数はそれぞれ異なった値でも良い。 Here the step 1402, the predetermined number used in step 1403 may be respectively different values.
【0089】 [0089]
以上が検索使用文字列選択プログラム118の処理手順である。 The above is the processing procedure of the search using the string selection program 118.
【0090】 [0090]
以上が、本実施例における各プログラムの処理手順である。 The processing procedure of the program in the present embodiment.
【0091】 [0091]
以下、本実施例において検索結果文書に対しユーザが負の評価をした場合の、検索条件の修正および再検索処理の流れを、図15を用いて説明する。 Hereinafter, when the user to search result document in the present embodiment has a negative evaluation, the flow of the modification and re-search process of the search condition will be described with reference to FIG. 15.
【0092】 [0092]
本図においては、ユーザが「高校野球」に関する文書を検索したいものとし、最初に種文書に指定した「サッカーに続き、高校野球が開幕した…」という文書1501から抽出された「サッカー」「高校」「野球」「開幕」という文字列1502が検索条件生成プログラム113により、正のプロファイル120に登録されているものとする。 In this view, the user is and what you want to search for documents related to "high school baseball", first in "Following the football, high school baseball was kicked off ..." specified in the seed document has been extracted from the document 1501 called "soccer", "high school string 1502 that "," baseball "," opening "is by the search condition generating program 113, and those that are registered in a positive profile 120.
【0093】 [0093]
ここで、「高校サッカーが開幕した・・・」という検索結果文書1503に対して負の評価をした場合を想定する。 Here, it is assumed that was a negative evaluation to the search result document 1503 that "... the high school football is kicked off."
【0094】 [0094]
まず、出現頻度ファイル104に格納された出現頻度情報のうち、ユーザが負の評価をした「高校サッカーが開幕した・・・」という文書1503から特徴文字列1504を抽出し、それぞれの特徴文字列の文書1503内の出現頻度とともに特徴文字列保存エリア125に読み込む。 First of all, the appearance of the appearance frequency information that has been stored in the frequency file 104, a user extracts the feature character string 1504 from the document 1503 that "... the high school football kicked off" was a negative evaluation, each of the characteristic character strings read the characteristic character string storage area 125 together with the frequency in the document 1503. 本図の例では、「高校」、「サッカー」、「開幕」、・・・という文字列とその出現頻度を読み込む。 In the example of this figure, "high school", "soccer", "opening", reads the string and its frequency of occurrence that ....
【0095】 [0095]
次に、特徴文字列保存エリア125の文字列のうち負のプロファイル121にある文字列についてはその重みを減算し、負のプロファイル121に無い文字列については、その出現回数の負の数を重みとして負のプロファイル121に登録する。 Then, by subtracting the weight for strings in negative profile 121 of the string, wherein the character string storage area 125, for no string negative profile 121, weights a negative number of Occurrences to register a negative profile 121 as. 本図の例では、「高校」、「サッカー」、「開幕」、…という文字列にそれぞれ重み「−4」、「−4」、「−1」、…を付与して負のプロファイル121に追加する。 In the illustrated example, "high school", "soccer", "opening", ... each weight "-4" to the string "- 4", "- 1", ... to the negative profile 121 to confer to add.
【0096】 [0096]
次に、正にプロファイル120の文字列のうち重みの上位所定数もの1505と、負のプロファイル121のうち重みの下位所定数1506に含まれ、かつ正のプロファイル120の文字列のうち上位所定数のもの1507に含まれないものを、総合プロファイル122に登録する。 Next, a top predetermined number ones 1505 of weights of the positive profile 120 strings contained in the lower predetermined number 1506 of weights of the negative profile 121, and top predetermined number of the positive string in the profile 120 those not included in the 1507 ones, registered in the overall profile 122. 本図に示した例では、正のプロファイル120から「高校」と「野球」、負のプロファイル121から「サッカー」という文字列を選択し、総合プロファイル122に追加する。 In the example shown in the figure, from a positive profile 120 as "high school", "baseball", and select the character string "soccer" from the negative profile 121, to add to the overall profile 122.
【0097】 [0097]
検索時には、この総合プロファイル122の文字列とその重みにより検索を行なう。 During the search, it performs a search string of this complex profile 122 and by its weight. 本図に示した例では、負のプロファイル中の「高校」という文字列に関する重み値−4は検索に使用されないことになる。 In the example shown in the figure, the weighting value -4 related to the character string "High School" in negative profile will not be used in the search. このことにより、「高校サッカー」の文書に負の評価をしても、「高校」という文字列の重みが下がらないため、「高校野球」よりも「プロ野球」の文書に高い類似度が算出されてしまうといった問題を防ぐことができる。 Thus, even if a negative assessment to the document of "high school football", because the weight of the character string "High School" does not fall, a high degree of similarity to the document of "professional baseball" than "high school baseball" is calculated it is possible to prevent the problem that is.
【0098】 [0098]
以上が、検索結果文書に対しユーザが負の評価をした場合の、検索条件の修正および再検索処理の流れである。 Or, when a user to search result document has a negative evaluation, the flow of modification and re-search process of the search criteria.
【0099】 [0099]
以上示したように本実施例によれば、ユーザが「所望のものでない」と評価した文書から抽出された文字列のうち、ユーザが「所望のものである」と評価した文書から抽出された文字列を、重みを下げる対象から除外する形態をとる。 According to the present embodiment as shown above, among users' desired one not "a character string extracted from the documents evaluated, extracted from the document the user has rated" is desired one " a string, take the excluded form from the target to reduce the weight. そのため、ユーザの所望ではない概念を表す文字列のみの重みを適切に減算することができる。 Therefore, it is possible to appropriately subtracting the weight of only the character string representing the concept not the desired user. したがって、ユーザが「所望のものでない」と評価した文書から抽出した文字列の重みを単純に減算すると、ユーザの所望の概念を表す文字列の重みまで減算してしまい、検索結果が改善しない、といった問題を解決できる。 Therefore, when the user simply subtracting the weight of the extracted character string from a document that was evaluated as "not desired ones" will be subtracted to the weight of the string representing the desired concept of user, the search results do not improve, You can solve the problem of.
【0100】 [0100]
また、本実施例によれば、検索結果文書の内容を表示する際、検索条件データに保存されている文字列の重み正負により文字列を別の形式でハイライト表示する形態をとる。 Further, according to this embodiment, when displaying the contents of the search result documents in the form of highlighting the character string in a different format by the weight sign string stored in the search data.
【0101】 [0101]
この方法により、ユーザは、検索結果文書がどの程度所望の内容を示しているかを視覚的に容易に判断できる。 In this way, the user, the search result whether the document indicates how much the desired content can be easily visually determined. また、正の重みが付与された文字列や負の重みが付与された文字列として、どのようなものが所望文書やノイズ文書に含まれているかを見ることにより、次回以降のプロファイルの調整に役立てることができるようになる。 Further, as a positive weight assigned string and negative string weight is imparted, by see how things are included in the desired document or noise document, the adjustment of the next and subsequent profile it will be able to help.
【0102】 [0102]
また、本実施例によれば、検索条件データの中の文字列のうち検索に用いる文字列をユーザが選択、あるいはそれぞれの文字列の重みをユーザが調整する形態をとる。 Further, according to this embodiment, the user strings used for the search of the string in the search condition data is selected, or the form in which the weight of each string user adjusts.
【0103】 [0103]
この方法により、ユーザの所望する内容を特徴付けるものでないものを、検索に使用することを防ぐことができ、適切な検索結果を得られるようになる。 By this method, those that are not intended to characterize the desired contents of the user, can be prevented from being used in the search, so get the appropriate search results.
【0104】 [0104]
図13に示したプロファイル更新プログラムの処理おいては、ユーザが負の評価をした際に、評価対象文書から抽出した文字列を負のプロファイル121に追加した後、総合プロファイル122に追加する文字列を選択する形態をとっている。 The Keep processing profile update program shown in FIG. 13, when the user makes a negative evaluation, after adding a character string extracted from the evaluation target document to a negative profile 121, the character string to be added to the overall profile 122 It takes the form of selecting a. ここで図16に示すように、評価対象文書から抽出した文字列のうち、負のプロファイル121に追加する文字列を選択する形態をとっても良い。 Here, as shown in FIG. 16, among the extracted character string from the evaluation target document may take the form of selecting the text to be added to the negative profile 121.
【0105】 [0105]
すなわち、図16のステップ1305において、ステップ1301で読み込んだユーザの評価が負の評価であった場合には、ステップ1307を実行する前に図16に示すプロファイル更新用文字列選択ステップ1601を実行しても良い。 That is, in step 1305 of FIG. 16, when the evaluation of the user read in step 1301 is negative evaluations, executes the profile update string selection step 1601 shown in FIG. 16 before performing step 1307 and it may be. ここでプロファイル更新用文字列選択ステップ1601は、特徴文字列保存エリア125の文字列のうち、正のプロファイル120中の重みの上位のものに含まれるものを、特徴文字列保存エリア125からクリアするステップである。 Here the profile update string selection step 1601, among the character strings characteristic character string storage area 125, what is included in that of the weight of the upper during the positive profile 120, to clear the characteristic character string storage area 125 it is a step. これにより、正のプロファイル120に追加されているユーザの所望の概念を表す文字列に、負の重みを付与し負のプロファイル121に追加してしまうことを防ぐことができる。 Thus, it is possible to prevent the string that represents the desired concept of users that are added to the positive profile 120, would add to the negative profile 121 grants negative weight.
【0106】 [0106]
以下、本発明の第二の実施例について説明する。 The following describes a second embodiment of the present invention.
【0107】 [0107]
第一の実施例においては、検索時に使用する文字列、または検索条件の修正時にプロファイルに追加する文字列をシステムが自動的に選択する。 In a first embodiment, a character string used when searching or system the string to be added to the profile when correction of the search condition, is automatically selected. したがって、検索結果文書に対するユーザの評価が不適切な場合には、検索精度が向上しないという問題がある。 Therefore, if the evaluation of the user is inappropriate for the search result document has a problem that the retrieval accuracy does not improve.
【0108】 [0108]
以上の問題を解決するために、本発明の第二の実施例では、ユーザが正または負の評価をした文書から抽出される文字列を一覧表示し、正の重みまたは負の重みを付与する文字列をユーザが選択する手段を提供するものである。 In order to solve the above problems, in the second embodiment of the present invention, the user strings lists extracted from documents a positive or negative evaluation, imparting positive weight or negative weight string user is intended to provide a means for selecting.
【0109】 [0109]
本実施例は図1に示す第一の実施例とほぼ同様の構成をとる。 This example assumes substantially the same configuration as the first embodiment shown in FIG. ここで図17に示すように検索条件修正制御プログラム116aはプロファイル更新用文字列ユーザ選択プログラム1701、プロファイル更新プログラム117a、および検索使用文字列選択プログラム118により構成される。 Here the search condition correction control program as shown in FIG. 17 116a is composed of a profile update string user selection program 1701, profile updates 117a and search using text selection program 118,. また、図18に示すようにプロファイル更新プログラム117aの処理手順が、第一の実施例におけるプロファイル更新プログラム117と異なる。 The processing procedure of the profile update 117a as shown in FIG. 18 is different from the profile update 117 in the first embodiment.
【0110】 [0110]
以下、第二の実施例における、プロファイル更新プログラム117aの処理手順について図18のPAD図を用いて説明する。 Hereinafter, in the second embodiment will be described with reference to the PAD diagram of Fig. 18 processing procedure of the profile update 117a.
【0111】 [0111]
まずプロファイル更新プログラム117aは、まずステップ1801において、ユーザがキーボード101により入力した文書番号と、その文書番号の文書に対するユーザの評価(「所望のものであった」あるいは「所望のものでなかった」等の評価)を読み込む。 Profile update 117a is first in first step 1801, the user "not intended desired" rating of the user ( "were desired one" or for the document of the document ID inputted through the keyboard 101, the document ID read the evaluation) and the like.
【0112】 [0112]
次にステップ1802において、ステップ1801で読み込んだ文書番号に該当する文書を、テキスト103から登録文書保存エリア124に読み込む。 In step 1802, the document corresponding to the document ID read in step 1801, read from a text 103 into registration document storage area 124.
【0113】 [0113]
次にステップ1803において、登録文書保存エリア124に格納された文書から特徴文字列を抽出し、該文書内出現回数を計数出現頻度ファイル104を参照することにより抽出し、共に特徴文字列保存エリア125に格納する。 In step 1803, extracts a feature character string from a document that is stored in the registration document storage area 124, is extracted by referring to the count appearance frequency file 104 the document in number of occurrences, both characteristic character string storage area 125 and stores it in. ここで、特徴文字列の抽出方法としては前掲の「特開平11−143902号広報」による方法を用いても良いし、形態素解析やニューラルネットワークによる学習データなどを用いる方法でもかまわない。 Here, as a method of extracting characteristic character string may be used a method according to "JP-A-11-143902 PR" cited above, it may be a method of using such learned data by morphological analysis or a neural network.
【0114】 [0114]
次にステップ1804において、プロファイル更新用文字列ユーザ選択プログラム1701を起動し、ステップ1803において読み込んだ文字列のうちユーザが選択しなかった文字列を、特徴文字列保存エリア125からクリアする。 Next, in step 1804, activates the profile update string user selection program 1701, a character string that the user has not selected in the character string read in step 1803, clearing the characteristic character string storage area 125.
【0115】 [0115]
次にステップ1805において、ステップ1801で読み込んだユーザの評価が正の評価であった場合には、ステップ1807において、特徴文字列保存エリア125の文字列の出現回数を正のプロファイルの該当文字列の重みに加算する。 In step 1805, the evaluation of the user read in step 1801 when was the positive evaluation in step 1807, the number of occurrences of a string of feature character string storage area 125 of the positive profile of the relevant string and it adds to the weight. このとき、正のプロファイル120に無い文字列の場合には、ステップ1803で読み込んだ出現回数を重みとして付与し、該文字列を正のプロファイル120に追加する。 At this time, when the character string without a positive profile 120, the number of occurrences read in step 1803 is applied as a weight, add the string to the positive profile 120.
【0116】 [0116]
次にステップ1806において、ステップ1801で読み込んだユーザの評価が負の評価であった場合には、ステップ1808において、特徴文字列保存エリア125の文字列の出現回数を負のプロファイルの該当文字列の重みから減算する。 In step 1806, if the evaluation of the user read in step 1801 is negative the evaluation, in step 1808, the number of occurrences of a string of feature character string storage area 125 of the negative profile corresponding string It is subtracted from the weight. このとき、負のプロファイル121に無い文字列の場合には、ステップ1803で読み込んだ出現回数の負値を重みとして付与し、該文字列を負のプロファイル121に追加する。 At this time, when the character string without a negative profile 121, the negative value of the appearance frequency read at step 1803 and added as a weight, add the string to the negative profile 121.
【0117】 [0117]
ここでステップ1807、1808において重みの加減算の方法は、ユーザの評価により調整しても良い。 Wherein the method of addition and subtraction of the weight in step 1807,1808 may be adjusted by the evaluation of the user. 例えばステップ1807において、ユーザが「所望のものである」という評価をした場合には、その文書内の特徴文字列の出現回数を、そのまま正のプロファイル120の該文字列の重みに足し、「やや所望のものである」という評価をした場合には、その文書内の特徴文字列の出現回数の半数を、正のプロファイル120の該文字列の重みに足す、などといった方法にしても良い。 For example, in step 1807, if the user has a reputation "is desired one" is added the number of occurrences of feature character string in the document, the weight of it the string positive profile 120, "somewhat in the case where the evaluation of the is "the desired ones, the half of the number of occurrences of feature character string in the document, plus the weight of the string of positive profiles 120 may be a method such as. また、ステップ1807およびステップ1808で重みを加減算する特徴文字列は、ステップ1803において抽出した出現回数の上位所定数に限定しても構わない。 The feature string or subtracting the weight in step 1807 and step 1808, may be limited to a predetermined number of most significant occurrence count extracted in step 1803.
【0118】 [0118]
以上が、プロファイル更新プログラム117aの処理手順である。 The above is the processing procedure of profile update program 117a.
【0119】 [0119]
次に図18に示したステップ1804でプロファイル更新プログラム117aにより起動される、プロファイル更新用文字列ユーザ選択プログラム1701の処理手順を、図19のPAD図を用いて説明する。 Next it is activated by the profile update 117a in step 1804 shown in FIG. 18, a processing procedure of profile update string user selection program 1701 will be described with reference to the PAD diagram of Fig. 19.
【0120】 [0120]
まずステップ1901において、特徴文字列保存エリア125内の特徴文字列を一覧表示する。 First, in step 1901, to list the features string feature string storage area 125.
【0121】 [0121]
次にステップ1902において、ステップ1901で表示した文字列のうち、ユーザが選択しなかった文字列を取得し、該文字列の情報を特徴文字列保存エリア125からクリアする。 Next, in step 1902, among the character strings displayed in step 1901, and obtains a character string that the user has not selected, clears the information of the character string from the feature string storage area 125.
【0122】 [0122]
以上がプロファイル更新用文字列ユーザ選択プログラム1701の処理手順である。 The above is the processing procedure of profile update string user selection program 1701.
【0123】 [0123]
ここで、プロファイル更新用文字列ユーザ選択プログラム1701により、ユーザがプロファイルに追加したい文字列を選択する画面の例を図20に示す。 Here, the profile update string user selection program 1701, an example of a screen that the user selects a character string to be added to the profile in Figure 20. ウィンドウ2001に、ユーザが評価した文書から抽出される特徴文字列がチェックボックスと共に表示される。 In the window 2001, features a character string that the user is extracted from the document of the evaluation is displayed together with the check box. 特徴文字列が多数ある場合はスクロールバー2002を用いてすべての文字列をウィンドウ2001内で参照することができる。 All strings with a scroll bar 2002 If you have a large number of characteristic character string can be referenced in the window within 2001. ユーザは、ウィンドウ2001内の文字列のうち、プロファイルに追加したい文字列のチェックボックスをチェックし、送信ボタン2003を押下する。 The user, in the character string in the window 2001, check the check box of the string you want to add to the profile, the user presses the send button 2003.
【0124】 [0124]
なお、文字列の選択方法は図20の例のようにチェックボックスを用いたものでも良いし、各文字列に識別番号を付与して識別番号と共に一覧表示するようにし、文字列の識別番号により選択する方法でも良い。 The selection method of the string may be one using a check box as shown in the example of FIG. 20, by giving an identification number to each string so as to list along with the identification number, the identification number string it may be a method of choice.
【0125】 [0125]
以下、本実施例において検索結果テキストに対しユーザが負の評価をした場合の、検索条件の修正および再検索処理の流れを、図21を用いて説明する。 Hereinafter, when the user to search result text in this example has a negative evaluation, the flow of the modification and re-search process of the search condition will be described with reference to FIG. 21.
【0126】 [0126]
本図においては、ユーザが「高校野球」に関するテキストを検索したいものとし、最初に種文書に指定した「サッカーに続き、高校野球が開幕した…」というテキスト2101から抽出されたサッカー」「高校」「野球」「開幕」という文字列2102が検索条件生成プログラム113により、正のプロファイル120に登録されているものとする。 In this view, the user is and what you want to search for text on the "high school baseball", specified in the first seed document "Following the football, high school baseball was kicked off ..." soccer that has been extracted from the text 2101 of "," High School " string 2102 of "baseball", "opening" is by the search condition generating program 113, and those that are registered in a positive profile 120.
【0127】 [0127]
ここで、「高校サッカーの1回戦が・・・」という検索結果テキストに対して負の評価をした場合を想定する。 Here, it is assumed that the "first round of high school football ..." was a negative evaluation to the search result text.
【0128】 [0128]
まず、出現頻度ファイル104に格納された出現頻度情報のうち、ユーザが負の評価をした「高校サッカーの1回戦が・・・」という文書2103から特徴文字列2104を抽出し、それぞれの特徴文字列の文書2103内の出現頻度とともに特徴文字列保存エリア125に読み込む。 First, of the appearance frequency information stored in the frequency file 104, extracts a feature character string 2104 from the document 2103 that the user has a negative evaluation "... the first round of high school football", each feature character with frequency in the column document 2103 reads the characteristic character string storage area 125. 本図の例では、「高校」、「サッカー」、「1回戦」、・・・という文字列とその出現頻度が読み込まれる。 In the example of this figure, "high school", "soccer", "first round", the string and its frequency of occurrence that ... is read.
【0129】 [0129]
次に、前述した図20の画面でユーザが選択した文字列の情報を、文字列保存エリア125からクリアする。 Next, the information of the character string selected by the user in the screen of FIG. 20 described above, clears the character string storage area 125. 本図の例では、ユーザが「高校野球」に関するテキストを所望しており、「サッカー」に関するテキストは所望ではない。 In the example of this figure, the user has the desired text about "high school baseball", text related to "soccer" is not desired. したがってユーザは「サッカー」という文字列のみに負の重みを加えると指定するものとする。 Thus, the user shall be specified as applying a negative weight only to the character string "soccer". このとき、文字列保存エリア125から、「高校」および「1回戦」という文字列とその重みをクリアする。 In this case, from the character string storage area 125, to clear its weight a character string of "High School" and "first round".
【0130】 [0130]
次に、出現頻度情報2104のうち負のプロファイル121にある文字列についてはその重みを減算し、負のプロファイル121に無い文字列については、その出現回数の負の数を重みとして負のプロファイル121に登録する。 Next, the character string in the negative profile 121 of the appearance frequency information 2104 subtracts the weight, for no string negative profile 121, a negative profile 121 a negative number of the number of occurrences as the weight to register to. 本図の例では、「サッカー」という文字列に重み「−4」を付与して正のプロファイル120に追加する。 In the illustrated example, to add to the positive profile 120 by applying a weight "-4" to the string "soccer".
【0131】 [0131]
次に、正にプロファイル120の文字列のうち重みの上位所定数もの2105と、負のプロファイル121のうち重みの下位所定数2106に含まれ、かつ正のプロファイル120の文字列のうち上位所定数のもの2107に含まれないものを、総合プロファイル122に登録する。 Next, a top predetermined number ones 2105 of weights of the positive profile 120 strings contained in the lower predetermined number 2106 of weights of the negative profile 121, and top predetermined number of the positive string in the profile 120 those not included in the 2107 ones, registered in the overall profile 122. 検索時には、この総合プロファイル122の文字列とその重みにより検索を行なう。 During the search, it performs a search string of this complex profile 122 and by its weight.
【0132】 [0132]
以上のように、本図に示した例では、「高校サッカーの1回戦が…」というテキストに負の評価をしても、「高校」という文字列の重みが下がらないため、「高校野球」よりも「プロ野球」のテキストに高い類似度が算出されてしまうといった問題を防ぐことができる。 As described above, in the example shown in the figure, even if the negative evaluation to the text referred to as "the first round is ... high school soccer", because it does not drop the weight of the character string "High School", "high school baseball." high degree of similarity to the text of the "professional baseball" than it is possible to prevent the problem that is calculated. また、正のプロファイル120に無い「1回戦」という文字列の重みがさがらないため、「高校野球の1回戦」といったユーザが所望するテキストの類似度が下がってしまうといった問題を防ぐことができる。 In addition, since the weight of the positive is not in the profile 120 "first round" that the string does not fall, the user such as "the first round of high school baseball," it is possible to prevent the problem that dropped the similarity of the text to be desired.
【0133】 [0133]
以上が、検索結果テキストに対しユーザが負の評価をした場合の、検索条件の修正および再検索処理の流れである。 Or, when the user with search results text has a negative evaluation, the flow of modification and re-search process of the search criteria.
【0134】 [0134]
なお、本実施例において検索結果文書に対しユーザが正の評価をした場合にも同様に、正のプロファイルに追加する文字列を選択することができる。 In the same manner even if the user to search result document in the present embodiment has a positive evaluation, it is possible to select text to be added to the positive profile. したがって、正の評価をした文書から抽出されるがユーザの概念を表す文字列ではない文字列に、正の重みを付与してしまうことを防ぐことができる。 Therefore, although being extracted from the document in which the positive evaluation string is not a string representing the concept of a user, it is possible to prevent the grant positive weight.
【0135】 [0135]
以上が、本発明の第二の実施例である。 The above is the second embodiment of the present invention.
【0136】 [0136]
以上示したように本実施例によれば、ユーザが「所望のものでない」と評価した文書から抽出された文字列のうち、ユーザが所望する概念を表す文字列をユーザが指定することにより、該文字列を重みを下げる対象から除外する形態をとる。 According to the present embodiment as shown above, among users' desired one not "a character string extracted from the documents evaluated by a string that represents the concept that the user desires the user specifies, take exclude form the string from the target to reduce the weight. そのため、ユーザの所望ではない概念を表す文字列のみの重みを適切に減算することができる。 Therefore, it is possible to appropriately subtracting the weight of only the character string representing the concept not the desired user. したがって、ユーザが「所望のものでない」と評価した文書から抽出した文字列の重みを単純に減算すると、ユーザの所望の概念を表す文字列の重みまで減算してしまい、検索結果が改善しない、といった問題を解決できる。 Therefore, when the user simply subtracting the weight of the extracted character string from a document that was evaluated as "not desired ones" will be subtracted to the weight of the string representing the desired concept of user, the search results do not improve, You can solve the problem of.
【0137】 [0137]
また、ユーザが「所望のものである」と評価した文書から抽出された文字列のうち、ユーザが所望する概念を表さない文字列をユーザが指定することにより、該文字列を重みを上げる対象から除外する形態をとる。 In addition, among the users' desired one in which "the character string extracted from the documents evaluated by a string that does not represent the concept that the user desires the user specifies, increasing the weight of the string take exclude form from the target. そのため、ユーザの所望する概念を表す文字列のみの重みを適切に加算することができる。 Therefore, it is possible to appropriately add the weight of only the character string representing the desired concept of user. したがって、ユーザが「所望のものである」と評価した文書から抽出した文字列の重みを単純に加算すると、ユーザの所望の概念を表さない文字列の重みまで加算してしまい、検索結果が改善しない、といった問題を解決できる。 Therefore, when the user adds simply the weight of the extracted character string from a document that is evaluated to be "desired one", it will be added to the weight of the string that do not represent the desired concept of user, the search results It does not improve, it is possible to solve the problem, such as.
【0138】 [0138]
なお、第一、第二の実施例において、ひとつの検索結果文書に対しユーザが評価を入力し、その評価を反映した検索結果を出力するようにしたが、複数の検索結果文書に対しそれぞれ異なった評価を一度に入力し、それらの評価を反映した検索結果を出力するようにしても構わない。 Incidentally, the first, in the second embodiment, the user for one of the search result document enters the evaluation has been arranged to output the search result which reflects the evaluation, different from each the plurality of search result documents and the evaluation and input at a time, may be configured to output the search results that reflect their evaluation.
【0139】 [0139]
また、第一、第二の実施例において、最初に種文書を設定し、その種文書に類似した内容を持つ文書を検索するものとしたが、最初にキーワードを設定する全文検索を行なう形式にしても良い。 The first, in the second embodiment, first set the seed document, it is assumed to search for documents whose content is similar to the seed document, the format to perform full-text search to initially set the keyword and it may be. その場合には、図7に示した検索条件生成プログラム113のステップ702、703のかわりに、入力したキーワードを所定の重みを付与して正のプロファイル120、および総合プロファイル122に追加すれば良い。 In that case, instead of steps 702 and 703 of the search-condition creating program 113 shown in FIG. 7, a positive profile 120 keywords entered by applying a predetermined weight, and may be added to the overall profile 122.
【0140】 [0140]
本実施例によれば、ユーザの所望の概念を表す単語の重みを減算しないため、ユーザが「所望のものでない」といった評価を与えた検索結果文書から抽出した情報をもとに検索結果を改善することができる。 According to this embodiment, since no subtracting the weight of the words representing the desired concept of user, better search results based on the information extracted from the search result document that the user has given an evaluation such as "not desired one" can do.
【0141】 [0141]
【発明の効果】 【Effect of the invention】
本発明によれば、ユーザが「所望のものでない」といった評価を与えた文書から抽出した情報のうち適切なものを使用して、検索結果を改善することができる。 According to the present invention, the user can use the appropriate among the information extracted from the document that gave evaluation such as "not desired one", to improve search results.
【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS
【図1】本発明の第一の実施例の構成を示す図である。 1 is a diagram showing a configuration of a first embodiment of the present invention.
【図2】従来技術によるレリバンスフィードバック処理の例を示す図である。 2 is a diagram showing an example of a prior art Lelie Vance feedback processing.
【図3】従来技術によるレリバンスフィードバック処理により検索結果が改善しない例を示す図である。 3 is a diagram showing an example of search results does not improve the prior art by Lelie Vance feedback processing.
【図4】本発明の第一の実施例におけるシステム制御プログラム110の処理手順を示すPAD図である。 Is a PAD showing a processing procedure of the system control program 110 in the first embodiment of the present invention; FIG.
【図5】本発明の第一の実施例における文書登録プログラム111の処理手順を示すPAD図である。 5 is a PAD showing a processing procedure of the document registration program 111 in the first embodiment of the present invention.
【図6】本発明の第一の実施例における検索制御プログラム112の処理手順を示すPAD図である。 6 is a PAD showing a processing procedure of the retrieval control program 112 in the first embodiment of the present invention.
【図7】本発明の第一の実施例における検索条件生成プログラム113の処理手順を示すPAD図である。 7 is a PAD showing a processing procedure of the search condition generating program 113 in the first embodiment of the present invention.
【図8】本発明の第一の実施例における類似文書検索プログラム114の処理手順を示すPAD図である。 8 is a PAD showing a processing procedure of the similar document search program 114 in the first embodiment of the present invention.
【図9】本発明の第一の実施例における検索結果文書内容表示プログラム115の処理手順を示すPAD図である。 9 is a PAD showing a processing procedure of the search result document content display program 115 in the first embodiment of the present invention.
【図10】本発明の第一の実施例における検索条件修正制御プログラム116の処理手順を示すPAD図である。 Is a PAD showing a processing procedure of the search condition modifying the control program 116 in the first embodiment of the present invention; FIG.
【図11】本発明の第一の実施例におけるプロファイル重み調整プログラム119の処理手順を示すPAD図である。 11 is a PAD showing a processing procedure of the profile weight adjustment program 119 in the first embodiment of the present invention.
【図12】本発明の第一の実施例において、ユーザがプロファイルを調整する際にディスプレイ100に表示する入力画面の例を示す図である。 In a first embodiment of the present invention; FIG is a diagram showing an example of an input screen for the user to display on the display 100 when adjusting the profile.
【図13】本発明の第一の実施例におけるプロファイル更新プログラム117の処理手順を示すPAD図である。 13 is a PAD showing a processing procedure of a profile update 117 in the first embodiment of the present invention.
【図14】本発明の第一の実施例における検索使用文字列選択プログラム118の処理手順を示すPAD図である。 14 is a PAD showing a processing procedure of a search using the character string selection program 118 in the first embodiment of the present invention.
【図15】本発明の第一の実施例において、検索結果文書に対しユーザが負の評価をした場合の、検索条件の修正および再検索処理の流れを示す図である。 In a first embodiment of the present invention; FIG, when the user to search result document has a negative evaluation, which is a diagram showing a flow of modification and re-search process of the search criteria.
【図16】本発明の第一の実施例におけるプロファイル更新プログラムの処理117の処理の一形態を示すPAD図である。 16 is a PAD diagram showing one embodiment of a process of the first profile in the embodiment updates process 117 of the present invention.
【図17】本発明の第二の実施例における検索条件修正プログラム116aの構成を示すPAD図である。 17 is a PAD diagram showing the configuration of a search patch 116a in the second embodiment of the present invention.
【図18】本発明の第二の実施例におけるプロファイル更新プログラム117aの処理手順を示すPAD図である。 18 is a PAD showing a processing procedure of a profile update 117a according to the second embodiment of the present invention.
【図19】本発明の第二の実施例におけるプロファイル更新用文字列ユーザ選択プログラム1701の処理手順を示すPAD図である。 19 is a PAD showing a processing procedure of profile update string user selection program 1701 in the second embodiment of the present invention.
【図20】本発明の第二の実施例において、ユーザがプロファイルに追加したい文字列を選択する画面の例を示すPAD図である。 In a second embodiment of Figure 20 the present invention is a PAD showing an example of a screen that the user selects a character string to be added to the profile.
【図21】本発明の第二の実施例において、検索結果文書に対しユーザが負の評価をした場合の、検索条件の修正および再検索処理の流れを示す図である。 In a second embodiment of Figure 21 the present invention, when a user to search result document has a negative evaluation, which is a diagram showing a flow of modification and re-search process of the search criteria.
【符号の説明】 DESCRIPTION OF SYMBOLS
100 ディスプレイ101 キーボード102 中央演算処理装置(CPU) 100 Display 101 Keyboard 102 central processing unit (CPU)
103 テキスト104 出現頻度ファイル105 磁気ディスク装置106 フロッピディスクドライブ(FDD) 103 Text 104 frequency file 105 magnetic disk device 106 floppy disk drive (FDD)
107 フロッピディスク108 バス109 主メモリ110 システム制御プログラム111 文書登録プログラム112 検索制御プログラム113 検索条件生成プログラム114 類似文書検索プログラム115 検索結果文書内容表示プログラム116 検索条件修正制御プログラム117 プロファイル更新プログラム118 検索使用文字列選択プログラム119 プロファイル重み調整プログラム120 正のプロファイル121 負のプロファイル122 総合プロファイル123 種文書保存エリア124 登録文書保存エリア125 特徴文字列保存エリア126 表示文書保存エリア 107 main floppy disk 108 bus 109 Memory 110 system control program 111 document registration program 112 search control program 113 search-condition creating program 114 similar document search program 115 Results document content display program 116 filters the modified control program 117 profile updates 118 searches using string selection program 119 profile weight adjustment program 120 positive profile 121 negative profile 122 General profile 123 or document storage area 124 registered document storage area 125, wherein the character string storage area 126 displays the document storage area

Claims (2)

  1. 文字列とその重みを含む検索条件を入力し、前記検索条件に基づいて検索された文書に対するユーザの適否評価を取得し、適評価を受けた文書から抽出した第一の文字列に対しては前記文字列の重みに前記文字列の適評価を受けた文書における出現数に応じた所定値を加算、否評価を受けた文書から抽出した第二の文字列に対しては前記文字列の重みから前記文字列の否評価を受けた文書における出現数に応じた所定値を減算することにより、前記検索条件を修正する処理をする処理装置を有したシステムによる文書検索方法において、 Enter the search criteria, including text and its weight to obtain the appropriateness evaluation of the user for the retrieved documents based on the search condition, relative to the first character string extracted from a document that has received the proper evaluation weight of the string a predetermined value corresponding to the number of occurrences addition, with respect to a second character string extracted from the document that received not evaluated in the string the string document received a proper evaluation of the weight of wherein by subtracting a predetermined value corresponding to the number of occurrences in the document that received whether evaluation of the string, in a system according to a document searching method having a processing device for the processing of modifying the search condition from,
    前記処理装置が、前記否評価を受けた文書から抽出した第二の文字列から第一の文字列と一致する文字列を削除し、削除されなかった第二の文字列に対してのみ前記文字列の重みから前記文字列の否評価を受けた文書における出現数に応じた所定値を減算することにより前記検索条件を修正することを特徴とした文書検索方法。 The processing device, and deletes the character string that matches the first character string from the second character string extracted from a document that has received the not evaluated, the character only to the second character string that were not removed document search method characterized by modifying the search conditions by subtracting a predetermined value in accordance from the weight of the column to the number of occurrences in the document that received whether evaluation of the string.
  2. 文字列とその重みを含む検索条件を入力し、前記検索条件に基づいて検索された文書に対するユーザの適否評価を取得し、適評価を受けた文書から抽出した第一の文字列に対しては前記文字列の重みに前記文字列の適評価を受けた文書における出現数に応じた所定値を加算、否評価を受けた文書から抽出した第二の文字列に対しては前記文字列の重みから前記文字列の否評価を受けた文書における出現数に応じた所定値を減算することにより、前記検索条件を修正する処理をする処理装置を有したシステムによる文書検索方法において、 Enter the search criteria, including text and its weight to obtain the appropriateness evaluation of the user for the retrieved documents based on the search condition, relative to the first character string extracted from a document that has received the proper evaluation weight of the string a predetermined value corresponding to the number of occurrences addition, with respect to a second character string extracted from the document that received not evaluated in the string the string document received a proper evaluation of the weight of wherein by subtracting a predetermined value corresponding to the number of occurrences in the document that received whether evaluation of the string, in a system according to a document searching method having a processing device for the processing of modifying the search condition from,
    前記処理装置が、前記否評価を受けた文書から抽出した第二の文字列から所定の値より大きい重みを持つ第一の文字列と一致する文字列を削除し、削除されなかった第二の文字列に対してのみ前記文字列の重みから前記文字列の否評価を受けた文書における出現数に応じた所定値を減算することにより前記検索条件を修正することを特徴とした文書検索方法。 The processing device, and deletes the character string that matches the first character string having a weight greater than a predetermined value from the second character string extracted from a document that has received the not evaluated, a second that it was not removed document search method characterized by modifying the search condition by subtracting only for strings from the weight of the string a predetermined value corresponding to the number of occurrences in the document that received whether evaluation of the string.
JP29760499A 1999-10-20 1999-10-20 Document search method Expired - Fee Related JP3861529B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29760499A JP3861529B2 (en) 1999-10-20 1999-10-20 Document search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29760499A JP3861529B2 (en) 1999-10-20 1999-10-20 Document search method

Publications (2)

Publication Number Publication Date
JP2001117937A JP2001117937A (en) 2001-04-27
JP3861529B2 true JP3861529B2 (en) 2006-12-20

Family

ID=17848720

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29760499A Expired - Fee Related JP3861529B2 (en) 1999-10-20 1999-10-20 Document search method

Country Status (1)

Country Link
JP (1) JP3861529B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030224A (en) * 2001-07-17 2003-01-31 Fujitsu Ltd Device for preparing document cluster, system for retrieving document and system for preparing faq
JP4003468B2 (en) 2002-02-05 2007-11-07 株式会社日立製作所 Similar data search method and apparatus according to relevance feedback
AU2003216297A1 (en) * 2002-02-14 2003-09-04 Avaya Technology Corp. Presence tracking and name space interconnection techniques
US7177863B2 (en) * 2002-04-26 2007-02-13 International Business Machines Corporation System and method for determining internal parameters of a data clustering program
US20060074864A1 (en) * 2004-09-24 2006-04-06 Microsoft Corporation System and method for controlling ranking of pages returned by a search engine
JP2009075630A (en) * 2007-09-18 2009-04-09 Hitachi Software Eng Co Ltd Information retrieval system
US8914604B2 (en) * 2012-06-12 2014-12-16 The Boeing Company Creating optimal comparison criterion within associative memories
WO2018167830A1 (en) * 2017-03-13 2018-09-20 日本電気株式会社 Dialog device, dialog system, and computer-readable recording medium

Also Published As

Publication number Publication date
JP2001117937A (en) 2001-04-27

Similar Documents

Publication Publication Date Title
US5737734A (en) Query word relevance adjustment in a search of an information retrieval system
US5717914A (en) Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query
US5659742A (en) Method for storing multi-media information in an information retrieval system
US7567953B2 (en) System and method for retrieving and organizing information from disparate computer network information sources
US8065298B2 (en) Concept network
US7099860B1 (en) Image retrieval systems and methods with semantic and feature based relevance feedback
US5696964A (en) Multimedia database retrieval system which maintains a posterior probability distribution that each item in the database is a target of a search
DE69722785T2 (en) Browser method and apparatus with censorship for internet viewing
US9990421B2 (en) Phrase-based searching in an information retrieval system
AU2008259833B2 (en) Method and system for searching for digital assets
CN100590617C (en) Phrase-based indexing method and system in an information retrieval system
US8504564B2 (en) Semantic analysis of documents to rank terms
CN1653448B (en) System and method for searching data sources
US6243713B1 (en) Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US20070143262A1 (en) Interactive search engine
US6810414B1 (en) System and methods for easy-to-use periodic network data capture engine with automatic target data location, extraction and storage
US7580921B2 (en) Phrase identification in an information retrieval system
US5257186A (en) Digital computing apparatus for preparing document text
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US5523945A (en) Related information presentation method in document processing system
US9514102B2 (en) User interface for presentation of a document
US5241624A (en) Method for determining a user selected group of data objects for the propagation of attribute values
US20090049041A1 (en) Ranking content items related to an event
US20020016787A1 (en) Apparatus for retrieving similar documents and apparatus for extracting relevant keywords
US5943669A (en) Document retrieval device

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060322

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060606

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060918

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091006

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101006

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111006

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121006

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121006

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131006

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees