JP2001117937A - 文書検索方法および装置 - Google Patents

文書検索方法および装置

Info

Publication number
JP2001117937A
JP2001117937A JP29760499A JP29760499A JP2001117937A JP 2001117937 A JP2001117937 A JP 2001117937A JP 29760499 A JP29760499 A JP 29760499A JP 29760499 A JP29760499 A JP 29760499A JP 2001117937 A JP2001117937 A JP 2001117937A
Authority
JP
Japan
Prior art keywords
character string
document
weight
search
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP29760499A
Other languages
English (en)
Other versions
JP3861529B2 (ja
Inventor
Yasuhiko Inaba
靖彦 稲場
Katsumi Tada
勝己 多田
Natsuko Sugaya
菅谷  奈津子
Tadataka Matsubayashi
忠孝 松林
Akihiko Yamaguchi
明彦 山口
Yasushi Kawashita
靖司 川下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP29760499A priority Critical patent/JP3861529B2/ja
Publication of JP2001117937A publication Critical patent/JP2001117937A/ja
Application granted granted Critical
Publication of JP3861529B2 publication Critical patent/JP3861529B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】ユーザが指定した文書と内容的に類似した文書
を検索する類似文書検索において、検索結果に対する
適、不適といったユーザ評価にもとづいて、検索の精度
を簡易に向上させることのできるシステムを提供する。 【解決手段】評価対象文書から抽出された文字列を用い
て検索条件データを更新し、ユーザが所望のものである
と評価をした文書から抽出した文字列と、ユーザが所望
のものでないと評価した文書から抽出した文字列のうち
所望のものであると評価をした文書から抽出した文字列
の一部または全部に含まれないもの、を用いて検索を行
なう。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、検索条件に基づい
て文書データベースから文書を検索する方法および装置
に関し、その検索の結果として得られた文書に対してユ
ーザが評価を与え、その評価に基づき検索条件を変更す
る方法および装置に関する。
【0002】
【従来の技術】近年、パーソナルコンピュータやインタ
ーネット等の普及に伴い、電子化文書が急激に増加して
いる。このような状況において、ユーザが所望する情報
を含んだ文書を高速かつ効率的に検索したいという要求
が高まってきている。
【0003】このような要求に応えるための検索技術と
してレリバンスフィードバックとよばれる技術がある。
この技術は、全文検索や類似文書検索による検索結果に
対して、ユーザが「所望の文書である」か「所望の文書
でない」かなどの評価をシステムに入力し、その評価情
報を検索条件に反映させることにより、その後の検索結
果を改善する技術である。
【0004】具体的な処理の内容としては、例えば「"I
nformation Retrieval",William B.Frakes / Rocardo B
aeza-Yates, Prentice Hall PTR, 1992 p.p.241〜263」
に示されるように、ユーザが所望であると評価した文書
から抽出した単語に関する検索条件中の重みを加算し、
所望でないと評価した文書から抽出された単語に関する
検索条件中の重みを減算する方法がある。以下この技術
を従来技術1と呼ぶ。検索条件中のある単語について、
具体的な重みの加減算の方法の例を式1に示す。
【0005】
【数1】
【0006】ここでW'はその単語の新たな重み、Wは
元の重みであり、FP(i)は所望であると評価された
i番目の文書におけるその単語の出現回数、FN(j)
は所望でないと評価されたj番目の文書におけるその単
語の出現回数である。また、Pは所望であると評価され
た文書の数、Nは所望でないと評価された文書の数であ
る。なお、α、βはパラメータである。ここで、この新
たな重みW'は負になってもよく、そのような場合は、
その単語が含まれる文書は類似度が下がることになる。
【0007】この従来技術1によるレリバンスフィード
バック処理の例を図2に示す。本図に示す例は、ユーザ
が「高校野球」に関する文書を所望する場合に、「サッ
カーに続き高校野球が開幕した」という文書を種文書に
選んだ場合である。その後、「サッカー」に関するノイ
ズ文書に対し「所望でない」と評価をして、システムに
入力した場合である。この結果、本図に示すように「サ
ッカー」という単語の重みが下がり、以後「サッカー」
に関する文書の類似度を下げることができる。
【0008】
【発明が解決しようとする課題】しかし、従来技術1に
よる方式では、ユーザが「所望のものでない」といった
評価をしたときに検索結果が改善しない場合がある。こ
の問題を図3を用いて説明する。本図に示した例は、
「高校野球」に関する文書を所望する場合に、「高校サ
ッカーが開幕した・・・」といったノイズ文書に対し
「所望の文書でない」と評価した場合である。このとき
従来技術1によれば、このノイズ文書から「高校」「サ
ッカー」「開幕」といった単語を抽出し、検索条件中の
それぞれの単語の重みを減算することになる。この場
合、「サッカー」の重みを減算するだけでなく、「高
校」という単語の重みまでも減算してしまう。その結
果、更新された検索条件によって検索を行なうと、「高
校野球」に関する文書の類似度が、「プロ野球」「社会
人野球」といった文書の類似度よりも低くなってしまう
という問題がある。
【0009】このように、従来の方法によりユーザが
「所望のものでない」と評価した文書から抽出した単語
の重みを単純に減算すると、ユーザが所望とする概念を
表す単語の重みまで減算してしまい、検索結果が改善し
ないという問題がある。
【0010】本発明の目的は、ユーザが「所望のもので
ない」といった評価を与えた文書から抽出した情報のう
ち適切なものを使用して、検索結果を改善することにあ
る。
【0011】
【課題を解決するための手段】上記課題を解決するた
め、第1の手段として、文字列に付与された重みを含む
検索条件により文書データベースを検索し、該検索によ
り得られた文書に対してユーザが入力した「所望であ
る」または「所望でない」の評価を受け取り、上記検索
の結果得られた文書から抽出した文字列の重みを上記評
価に基づき変更して検索する文書検索方法において、上
記「所望である」と評価した文書から抽出した第一の文
字列に正の重みを付与し、上記「所望でない」と評価し
た文書から抽出した第二の文字列に負の重みを付与し、
第二の文字列のうち上記第一の文字列と一致するもとと
もに当該第一の文字列の重みが所定値以上ものを除外し
たものとその重みおよび上記第一の文字列とその重みと
を含む検索条件を生成して検索する。
【0012】この方法により、ユーザが所望のものと評
価した文書から抽出した所望の内容を特徴付ける文字列
に付与された負の重みにより検索精度を下げてしまうと
いう課題を改善することができる。
【0013】また、第2の手段は、文字列に付与された
重みを含む検索条件により文書データベースを検索し、
該検索により得られた文書に対してユーザが入力した
「所望である」または「所望でない」の評価を受け取
り、上記検索の結果得られた文書から抽出した文字列の
重みを上記評価に基づき変更して検索する文書検索方法
において、上記「所望である」と評価した文書から第一
の文字列を抽出し、上記「所望でない」と評価した文書
から抽出した文字列で上記第一の文字列と一致する場合
は、当該第一の文字列の重みが所定値以下の場合は上記
抽出した文字列を第二の文字列として抽出し、第二の文
字列の重みを第一の文字列の重みよりも低くし、一致し
ない場合は上記抽出した文字列を第二の文字列として抽
出し、第二の文字列の重みを第一の文字列の重みよりも
低くする。
【0014】この方法により、ユーザが所望のものと評
価した文書から抽出した所望の内容を特徴付ける文字列
に、負の重みを付与してしまい以降の検索精度を下げて
しまうという課題を改善できる。
【0015】
【発明の実施の形態】以下、本発明の第一の実施例につ
いて説明する。
【0016】まず、本発明の第一の実施例のシステム構
成を図1に示す。本実施例におけるシステムは、ディス
プレイ100、キーボード101、中央演算処理装置
(CPU)102、磁気ディスク装置105、フロッピ
ディスクドライブ(FDD)106、主メモリ109お
よびこれらを結ぶバス108から構成される。
【0017】磁気ディスク装置105は二次記憶装置の
一つであり、テキスト103、出現頻度ファイル104
が格納される。FDD106を介してフロッピディスク
107に格納されている情報が、主メモリ109あるい
は磁気ディスク装置105へ読み込まれる。
【0018】主メモリ109には、システム制御プログ
ラム110、文書登録プログラム111、検索制御プロ
グラム112が格納される。検索制御プログラム112
は、検索条件生成プログラム113、類似文書検索プロ
グラム114、検索結果文書内容表示プログラム11
5、検索条件修正制御プログラム116、およびプロフ
ァイル重み調整プログラム119で構成される。ここ
で、検索条件修正制御プログラム116は、プロファイ
ル更新プログラム117、および検索使用文字列選択プ
ログラム118で構成される。
【0019】また、正のプロファイル120、負のプロ
ファイル121、総合プロファイル122、種文書保存
エリア123、登録文書保存エリア124、特徴文字列
保存エリア125、および表示用文書保存エリア126
が同じく主メモリ109に確保される。
【0020】ここで、正のプロファイル120、負のプ
ロファイル121、総合プロファイル122とは後述す
る図15に示すように、いずれも幾つかの検索文字列と
その重みを保持したデータである。正のプロファイル1
20には、ユーザが所望であると評価した文書から抽出
した文字列が格納される。負のプロファイル121に
は、ユーザが所望のものでないと評価した文書から抽出
した文字列が格納される。総合プロファイル122は、
正負のプロファイルから選択された検索に用いる文字列
が格納される。
【0021】以下に、第一の実施例における、各プログ
ラムの処理手順について説明する。
【0022】まず、システム制御プログラム110の処
理手順について図4のPAD(Problem Ana
lysis Diagram)図を用いて説明する。
【0023】システム制御プログラム110は、まずス
テップ401においてユーザがキーボードから入力した
コマンドを解析する。
【0024】次にステップ402において、このコマン
ドが文書登録のコマンドであると解析された場合には、
ステップ404で文書登録プログラム111を起動して
文書の登録を行なう。
【0025】またステップ403において、検索実行の
コマンドであると解析された場合には、ステップ405
で検索制御プログラム112を起動して文書の検索を行
なう。
【0026】以上が、システム制御プログラム110の
処理手順である。
【0027】次に、図4に示したステップ404でシス
テム制御プログラムにより起動される、文書登録プログ
ラム111について図5のPAD図を用いて説明する。
【0028】文書登録プログラム111は、まずステッ
プ501においてD106に挿入されたフロッピディス
ク107から登録すべき文書データを読み込み、これを
テキスト103として磁気ディスク装置105に格納す
る。文書データは、フロッピディスク107を用いて入
力するだけに限らず、通信回線やCD−ROM装置(図
1には示していない)等を用いて他の装置から入力する
ような構成を取ることも可能である。
【0029】次にステップ502で、検索対象文書から
抽出される自立語の可能性がある文字列(以下、特徴文
字列と呼ぶ)がどの文書に何回出現したかを高速に抽出
するためのデータとして、出現頻度ファイル104を各
登録対象文書について生成する。ここで出現頻度ファイ
ルの生成方法としては「特開平11−143902号広
報」に開示されている出現頻度ファイルの生成方法と同
一の方法でも良いし、形態素解析等を用いて各文書中の
単語を抽出する方法やニューラルネットワークの学習デ
ータを用いた方法でもかまわない。また、単純n−gr
amを抽出する方法であってもかまわない。
【0030】以上が、文書登録プログラム111の処理
手順である。次に、図4に示したステップ405でシス
テム制御プログラムにより起動される、検索制御プログ
ラム112の処理手順を図6のPAD図を用いて説明す
る。
【0031】検索制御プログラム112は、まずステッ
プ601において検索条件生成プログラム113を起動
し、検索条件を生成する。
【0032】次にステップ602において、ステップ6
03〜ステップ612の処理を、ステップ604におい
てユーザから検索セッションの終了が要求されたと解析
されるまで繰り返す。
【0033】この繰り返し処理では、まずステップ60
3において、類似文書検索プログラム114を起動し、
ステップ601で生成された検索条件にもとづき類似文
書検索を行なう。
【0034】次にステップ604において、キーボード
から入力されるコマンドを解析する。
【0035】次にステップ605において、このコマン
ドが文書の内容表示コマンドであると解析された場合に
は、ステップ609で検索結果文書内容表示プログラム
115を起動し、指定された検索結果文書の内容を表示
する。
【0036】次にステップ606において、検索結果文
書に対するユーザの評価の入力コマンドであると解析さ
れた場合には、ステップ610で検索条件修正制御プロ
グラム116を起動し、検索条件を修正する。
【0037】次にステップ607において、プロファイ
ルの内容調整コマンドであると解析された場合には、ス
テップ611でプロファイル重み調整プログラム119
を起動し、プロファイルの内容を調整する。
【0038】次にステップ608において、検索セッシ
ョン終了コマンドであると解析された場合には、ステッ
プ612で、正のプロファイル120、負のプロファイ
ル121、および総合プロファイル122の内容をクリ
アし、ステップ602の繰り返しを終了する。
【0039】以上が検索制御プログラム112の処理手
順である。
【0040】次に、図6に示したステップ601で検索
制御プログラムにより起動される、検索条件生成プログ
ラム113の処理手順を図7のPAD図を用いて説明す
る。
【0041】検索条件生成プログラム113は、まずス
テップ701において、キーボード101から入力され
る種文書を読み込み、種文書保存エリア123に格納す
る。
【0042】次にステップ702において、種文書保存
エリア123に格納された種文書から特徴文字列を抽出
し、種文書内出現回数を計数して、特徴文字列保存エリ
ア125に格納する。
【0043】ここで、特徴文字列を抽出する方法は、図
5に示した文書登録プログラム111のステップ502
における方法を用いても良いし、その他の方法を用いて
も良い。
【0044】次にステップ703において、ステップ7
02で抽出した特徴文字列をステップ702で計数した
出現回数と共に総合プロファイル122に書き込む。こ
こで総合プロファイル122は、後述する図15に示す
ように特徴文字列とその重みが保持されたものであり、
後述するように類似文書検索プログラム114の入力と
して使用する。ここで重みとしては種文書内出現回数を
用いるものとするが、他のものを用いても良い。また、
ここで総合プロファイル122に書き込む文字列は、ス
テップ702で抽出した特徴文字列のうち重みの上位か
ら所定数のものに限定しても良い。
【0045】次にステップ704において、ステップ7
02で抽出した文字列をステップ702で計数した出現
回数と共に正のプロファイル120に書き込む。この正
のプロファイル120は、後述するように、検索結果文
書に対しユーザが評価をした場合に、検索条件を修正す
る際に使用する。また、ここで正のプロファイル120
に書き込む文字列は、ステップ702で抽出した特徴文
字列のうち重みの上位のもの所定数に限定しても良い。
【0046】以上が、検索条件生成プログラム113の
処理手順である。
【0047】次に、図6に示したステップ603で検索
制御プログラムにより起動される、類似文書検索プログ
ラム114の処理手順を図8のPAD図を用いて説明す
る。
【0048】類似文書検索プログラム114は、まずス
テップ801において、図7に示したステップ703で
検索条件生成プログラム113により生成された総合プ
ロファイル122を読み込む。
【0049】次にステップ802において、出現頻度フ
ァイル104を読み込む。
【0050】次にステップ803において、総合プロフ
ァイル122内の特徴文字列の重みと、出現頻度ファイ
ル104内の各文書における該文字列の出現頻度から、
テキスト103内の各文書の類似度を算出する。ここで
類似度の算出式としては、例えば以下の式2のようなも
のを用いる。
【0051】
【数2】
【0052】この式で、S(D)はテキスト103内の
文書番号Dの類似度であり、Frq(i)は出現頻度フ
ァイル104内の単語iの文書Dにおける出現頻度であ
り、w(i)は総合プロファイル内の単語iの重みであ
る。ここで類似度算出式としては、これ以外のものを用
いても構わない。
【0053】次にステップ804において、テキスト1
03内の各文書の文書番号を類似度の順に降順にソート
し、ディスプレイ100に出力する。ここで、類似度の
上位所定件のみを出力するようにしても良いし、所定の
類似度を上回るもののみを出力するようにしても良い。
また、文書にタイトルのような属性があればそれを出力
しても良い。
【0054】以上が、類似文書検索プログラム114の
処理手順である。
【0055】次に、図6に示したステップ609で検索
制御プログラムにより起動される、検索結果文書内容表
示プログラム115の処理手順を図9のPAD図を用い
て説明する。
【0056】検索結果文書内容表示プログラム115
は、まずステップ901において、ユーザがキーボード
101から入力する文書番号を読み込む。
【0057】次にステップ902において、ステップ9
01で入力された文書番号に該当する文書を登録文書保
存エリア124に読み込む。
【0058】次にステップ903において、ステップ9
04で該文書を最後まで読み込むまで以下に示すステッ
プ904からステップ907の処理を繰り返す。
【0059】ステップ903の繰り返し処理では、まず
ステップ904において、登録文書保存エリア124の
文書の文字列を順次読み込み、総合プロファイル122
に格納された文字列と照合する。
【0060】次にステップ905において、ステップ9
04で読み込んだ文字列が総合プロファイル122にお
いて正の重みを持つ文字列と一致した場合には、ステッ
プ908で「該文字列を赤色表示する」という情報を付
与して表示用文書保存エリア126に追加する。ここで
例えばHTML(HyperText MarkupL
anguage)の形式で表示する場合は、該文字列の
前後に赤色表示を表すタグを挿入し、表示用文書保存エ
リア126に追加する。ここで、重みが所定値以下の文
字列や、重みの上位所定件に含まれないものは、この処
理の対象外にするなどしても構わない。また、表示色は
別の色を用いても構わない。
【0061】次にステップ906において、ステップ9
04で読み込んだ文字列が総合プロファイル122にお
いて負の重みを持つ文字列と一致した場合には、ステッ
プ909で「該文字列を青色表示する」という情報を付
与して表示用文書保存エリア126に追加する。ここで
例えばHTMLの形式で表示する場合は、該文字列の前
後に青色表示を表すタグを挿入し、表示用文書保存エリ
ア126に追加する。ここで、重みが所定値以下の文字
列や、重みの上位所定件に含まれないものは、この処理
の対象外にするなどしても構わない。また、表示色はス
テップ908で指定する色以外の別の色を用いても構わ
ない。
【0062】次にステップ907において、ステップ9
04で読み込んだ文字列が総合プロファイル内の文字列
と一致しない場合には、ステップ910で「該文字列を
黒色表示する」という情報を付与して表示用文書保存エ
リア126に追加する。ここで例えばHTMLの形式で
表示する場合は、該文字列の前後に黒色表示を表すタグ
を挿入し、表示用文書保存エリア126に追加する。こ
こで、表示色はステップ908、909で指定する以外
の別の色を用いても構わない。
【0063】次にステップ911において、表示用文書
保存エリア126に保存された内容をディスプレイ10
0に表示する。
【0064】以上が、検索結果文書内容表示プログラム
115の処理手順である。
【0065】次に、図6に示したステップ610で検索
制御プログラムにより起動される、検索条件修正制御プ
ログラム116の処理手順を図10のPAD図を用いて
説明する。
【0066】検索条件修正制御プログラム116は、ま
ずステップ1001においてプロファイル更新プログラ
ム117を起動し、正のプロファイル120および負の
プロファイル121の内容を更新する。
【0067】次にステップ1002において、検索使用
文字列選択プログラム118を起動し、ステップ100
1で更新された正のプロファイル120および負のプロ
ファイル121の内容にもとづき、総合プロファイル1
22の内容を更新する。
【0068】以上が検索条件修正プログラム116の処
理手順である。
【0069】次に、図6に示したステップ611で検索
制御プログラムにより起動される、プロファイル重み調
整プログラム119の処理手順を図11のPAD図を用
いて説明する。
【0070】プロファイル重み調整プログラム119
は、まずステップ1101において、正のプロファイル
120に格納された文字列とその重みを一覧表示する。
【0071】次にステップ1102において、負のプロ
ファイル121に格納された文字列とその重みを一覧表
示する。
【0072】次にステップ1103において、ユーザが
キーボード101により入力した、ユーザが重みを変更
したい文字列、またはいずれかのプロファイルに追加し
たい文字列と、その重みを取得する。ここで、正のプロ
ファイルにある文字列に負の重みを付与しようとした場
合や、負のプロファイルにある文字列に正の重みを付与
しようとした場合には、ユーザへの警告を出力するよう
にする等しても良い。
【0073】次にステップ1104において、ステップ
1103で取得したとおりに正のプロファイル120ま
たは負のプロファイル121の内容を変更する。
【0074】以上が、プロファイル重み調整プログラム
119の処理手順である。
【0075】ここで、図12にプロファイル重み調整プ
ログラム119により、ユーザがプロファイルを調整す
る際にディスプレイ100に表示する入力画面の例を示
す。正のプロファイル120の内容が1201に、負の
プロファイル121の内容が1202に表示される。そ
れぞれスクロールバー1203および1204を用い
て、全ての内容を表示させることも可能である。ユーザ
がテキストボックス1205に重みを変更したい文字
列、またはいずれかのプロファイルに追加したい文字列
を入力し、重みを1206に入力して送信ボタン120
7を押下する。ここで、重みを変更したい文字列文字列
はテキストボックス1205に入力する形ではなく、表
示される一覧の中からラジオボタン等により選択する形
にしても良い。
【0076】次に、図10に示したステップ1001で
検索条件修正制御プログラム116により起動される、
プロファイル更新プログラム117の処理手順を図13
のPAD図を用いて説明する。
【0077】プロファイル更新プログラム117は、ま
ずステップ1301において、ユーザがキーボード10
1により入力した文書番号と、その文書番号の文書に対
するユーザの評価(「所望のものであった」あるいは
「所望のものでなかった」等の評価)を読み込む。
【0078】次にステップ1302において、ステップ
1301で読み込んだ文書番号に該当する文書を、テキ
スト103から登録文書保存エリア124に読み込む。
【0079】次にステップ1303において、登録文書
保存エリア124に格納された文書から特徴文字列を抽
出し、該文書内出現回数を計数出現頻度ファイル104
を参照することにより抽出し、共に特徴文字列保存エリ
ア125に格納する。ここで、特徴文字列の抽出方法と
しては前掲の「特開平11−143902号広報」によ
る方法を用いても良いし、形態素解析やニューラルネッ
トワークによる学習データなどを用いる方法でもかまわ
ない。
【0080】次にステップ1304において、ステップ
1301で読み込んだユーザの評価が正の評価であった
場合には、ステップ1306において、特徴文字列保存
エリア125内の文字列の出現回数を正のプロファイル
の該当文字列の重みに加算する。このとき、正のプロフ
ァイル120に無い文字列の場合には、ステップ130
3で読み込んだ出現回数を重みとして付与し、該文字列
を正のプロファイル120に追加する。
【0081】次にステップ1305において、ステップ
1301で読み込んだユーザの評価が負の評価であった
場合には、ステップ1307において、特徴文字列保存
エリア125内の文字列の出現回数を負のプロファイル
の該当文字列の重みから減算する。このとき、負のプロ
ファイル121に無い文字列の場合には、ステップ13
03で読み込んだ出現回数の負値を重みとして付与し、
該文字列を負のプロファイル121に追加する。
【0082】ここでステップ1306、1307におい
て重みの加減算の方法は、ユーザの評価により調整して
も良い。例えばステップ1306において、ユーザが
「所望のものである」という評価をした場合には、その
文書内の特徴文字列の出現回数を、そのまま正のプロフ
ァイル120の該文字列の重みに足し、「やや所望のも
のである」という評価をした場合には、その文書内の特
徴文字列の出現回数の半数を、正のプロファイル120
の該文字列の重みに足す、などといった方法にしても良
い。また、ステップ1306およびステップ1307で
重みを加減算する特徴文字列は、ステップ1303にお
いて抽出した出現回数の上位所定数に限定しても構わな
い。
【0083】以上が、プロファイル更新プログラム11
7の処理手順である。
【0084】次に、図10に示したステップ1002に
おいて検索条件修正制御プログラム116により起動さ
れる、検索使用文字列選択プログラム118の処理手順
を図14のPAD図を用いて説明する。
【0085】検索使用文字列選択プログラム118は、
まずステップ1401において、総合プロファイル12
2の内容をクリアする。
【0086】次にステップ1402において、正のプロ
ファイル120の中の特徴文字列のうち重みの上位所定
件を抽出し、その重みと共に総合プロファイル122に
追加する。
【0087】次にステップ1403において、負のプロ
ファイル121の中の特徴文字列のうち、重みの絶対値
の上位所定件のもので、かつ正のプロファイル120の
中の特徴文字列の重みの上位所定件に含まれないもの
を、総合プロファイル122に追加する。
【0088】ここでステップ1402、ステップ140
3で使用する所定件数はそれぞれ異なった値でも良い。
【0089】以上が検索使用文字列選択プログラム11
8の処理手順である。
【0090】以上が、本実施例における各プログラムの
処理手順である。
【0091】以下、本実施例において検索結果文書に対
しユーザが負の評価をした場合の、検索条件の修正およ
び再検索処理の流れを、図15を用いて説明する。
【0092】本図においては、ユーザが「高校野球」に
関する文書を検索したいものとし、最初に種文書に指定
した「サッカーに続き、高校野球が開幕した…」という
文書1501から抽出された「サッカー」「高校」「野
球」「開幕」という文字列1502が検索条件生成プロ
グラム113により、正のプロファイル120に登録さ
れているものとする。
【0093】ここで、「高校サッカーが開幕した・・・」
という検索結果文書1503に対して負の評価をした場
合を想定する。
【0094】まず、出現頻度ファイル104に格納され
た出現頻度情報のうち、ユーザが負の評価をした「高校
サッカーが開幕した・・・」という文書1503から特徴
文字列1504を抽出し、それぞれの特徴文字列の文書
1503内の出現頻度とともに特徴文字列保存エリア1
25に読み込む。本図の例では、「高校」、「サッカ
ー」、「開幕」、・・・という文字列とその出現頻度を読
み込む。
【0095】次に、特徴文字列保存エリア125の文字
列のうち負のプロファイル121にある文字列について
はその重みを減算し、負のプロファイル121に無い文
字列については、その出現回数の負の数を重みとして負
のプロファイル121に登録する。本図の例では、「高
校」、「サッカー」、「開幕」、…という文字列にそれ
ぞれ重み「−4」、「−4」、「−1」、…を付与して
負のプロファイル121に追加する。
【0096】次に、正にプロファイル120の文字列の
うち重みの上位所定数もの1505と、負のプロファイ
ル121のうち重みの下位所定数1506に含まれ、か
つ正のプロファイル120の文字列のうち上位所定数の
もの1507に含まれないものを、総合プロファイル1
22に登録する。本図に示した例では、正のプロファイ
ル120から「高校」と「野球」、負のプロファイル1
21から「サッカー」という文字列を選択し、総合プロ
ファイル122に追加する。
【0097】検索時には、この総合プロファイル122
の文字列とその重みにより検索を行なう。本図に示した
例では、負のプロファイル中の「高校」という文字列に
関する重み値−4は検索に使用されないことになる。こ
のことにより、「高校サッカー」の文書に負の評価をし
ても、「高校」という文字列の重みが下がらないため、
「高校野球」よりも「プロ野球」の文書に高い類似度が
算出されてしまうといった問題を防ぐことができる。
【0098】以上が、検索結果文書に対しユーザが負の
評価をした場合の、検索条件の修正および再検索処理の
流れである。
【0099】以上示したように本実施例によれば、ユー
ザが「所望のものでない」と評価した文書から抽出され
た文字列のうち、ユーザが「所望のものである」と評価
した文書から抽出された文字列を、重みを下げる対象か
ら除外する形態をとる。そのため、ユーザの所望ではな
い概念を表す文字列のみの重みを適切に減算することが
できる。したがって、ユーザが「所望のものでない」と
評価した文書から抽出した文字列の重みを単純に減算す
ると、ユーザの所望の概念を表す文字列の重みまで減算
してしまい、検索結果が改善しない、といった問題を解
決できる。
【0100】また、本実施例によれば、検索結果文書の
内容を表示する際、検索条件データに保存されている文
字列の重み正負により文字列を別の形式でハイライト表
示する形態をとる。
【0101】この方法により、ユーザは、検索結果文書
がどの程度所望の内容を示しているかを視覚的に容易に
判断できる。また、正の重みが付与された文字列や負の
重みが付与された文字列として、どのようなものが所望
文書やノイズ文書に含まれているかを見ることにより、
次回以降のプロファイルの調整に役立てることができる
ようになる。
【0102】また、本実施例によれば、検索条件データ
の中の文字列のうち検索に用いる文字列をユーザが選
択、あるいはそれぞれの文字列の重みをユーザが調整す
る形態をとる。
【0103】この方法により、ユーザの所望する内容を
特徴付けるものでないものを、検索に使用することを防
ぐことができ、適切な検索結果を得られるようになる。
【0104】図13に示したプロファイル更新プログラ
ムの処理おいては、ユーザが負の評価をした際に、評価
対象文書から抽出した文字列を負のプロファイル121
に追加した後、総合プロファイル122に追加する文字
列を選択する形態をとっている。ここで図16に示すよ
うに、評価対象文書から抽出した文字列のうち、負のプ
ロファイル121に追加する文字列を選択する形態をと
っても良い。
【0105】すなわち、図16のステップ1305にお
いて、ステップ1301で読み込んだユーザの評価が負
の評価であった場合には、ステップ1307を実行する
前に図16に示すプロファイル更新用文字列選択ステッ
プ1601を実行しても良い。ここでプロファイル更新
用文字列選択ステップ1601は、特徴文字列保存エリ
ア125の文字列のうち、正のプロファイル120中の
重みの上位のものに含まれるものを、特徴文字列保存エ
リア125からクリアするステップである。これによ
り、正のプロファイル120に追加されているユーザの
所望の概念を表す文字列に、負の重みを付与し負のプロ
ファイル121に追加してしまうことを防ぐことができ
る。
【0106】以下、本発明の第二の実施例について説明
する。
【0107】第一の実施例においては、検索時に使用す
る文字列、または検索条件の修正時にプロファイルに追
加する文字列をシステムが自動的に選択する。したがっ
て、検索結果文書に対するユーザの評価が不適切な場合
には、検索精度が向上しないという問題がある。
【0108】以上の問題を解決するために、本発明の第
二の実施例では、ユーザが正または負の評価をした文書
から抽出される文字列を一覧表示し、正の重みまたは負
の重みを付与する文字列をユーザが選択する手段を提供
するものである。
【0109】本実施例は図1に示す第一の実施例とほぼ
同様の構成をとる。ここで図17に示すように検索条件
修正制御プログラム116aはプロファイル更新用文字
列ユーザ選択プログラム1701、プロファイル更新プ
ログラム117a、および検索使用文字列選択プログラ
ム118により構成される。また、図18に示すように
プロファイル更新プログラム117aの処理手順が、第
一の実施例におけるプロファイル更新プログラム117
と異なる。
【0110】以下、第二の実施例における、プロファイ
ル更新プログラム117aの処理手順について図18の
PAD図を用いて説明する。
【0111】まずプロファイル更新プログラム117a
は、まずステップ1801において、ユーザがキーボー
ド101により入力した文書番号と、その文書番号の文
書に対するユーザの評価(「所望のものであった」ある
いは「所望のものでなかった」等の評価)を読み込む。
【0112】次にステップ1802において、ステップ
1801で読み込んだ文書番号に該当する文書を、テキ
スト103から登録文書保存エリア124に読み込む。
【0113】次にステップ1803において、登録文書
保存エリア124に格納された文書から特徴文字列を抽
出し、該文書内出現回数を計数出現頻度ファイル104
を参照することにより抽出し、共に特徴文字列保存エリ
ア125に格納する。ここで、特徴文字列の抽出方法と
しては前掲の「特開平11−143902号広報」によ
る方法を用いても良いし、形態素解析やニューラルネッ
トワークによる学習データなどを用いる方法でもかまわ
ない。
【0114】次にステップ1804において、プロファ
イル更新用文字列ユーザ選択プログラム1701を起動
し、ステップ1803において読み込んだ文字列のうち
ユーザが選択しなかった文字列を、特徴文字列保存エリ
ア125からクリアする。
【0115】次にステップ1805において、ステップ
1801で読み込んだユーザの評価が正の評価であった
場合には、ステップ1807において、特徴文字列保存
エリア125の文字列の出現回数を正のプロファイルの
該当文字列の重みに加算する。このとき、正のプロファ
イル120に無い文字列の場合には、ステップ1803
で読み込んだ出現回数を重みとして付与し、該文字列を
正のプロファイル120に追加する。
【0116】次にステップ1806において、ステップ
1801で読み込んだユーザの評価が負の評価であった
場合には、ステップ1808において、特徴文字列保存
エリア125の文字列の出現回数を負のプロファイルの
該当文字列の重みから減算する。このとき、負のプロフ
ァイル121に無い文字列の場合には、ステップ180
3で読み込んだ出現回数の負値を重みとして付与し、該
文字列を負のプロファイル121に追加する。
【0117】ここでステップ1807、1808におい
て重みの加減算の方法は、ユーザの評価により調整して
も良い。例えばステップ1807において、ユーザが
「所望のものである」という評価をした場合には、その
文書内の特徴文字列の出現回数を、そのまま正のプロフ
ァイル120の該文字列の重みに足し、「やや所望のも
のである」という評価をした場合には、その文書内の特
徴文字列の出現回数の半数を、正のプロファイル120
の該文字列の重みに足す、などといった方法にしても良
い。また、ステップ1807およびステップ1808で
重みを加減算する特徴文字列は、ステップ1803にお
いて抽出した出現回数の上位所定数に限定しても構わな
い。
【0118】以上が、プロファイル更新プログラム11
7aの処理手順である。
【0119】次に図18に示したステップ1804でプ
ロファイル更新プログラム117aにより起動される、
プロファイル更新用文字列ユーザ選択プログラム170
1の処理手順を、図19のPAD図を用いて説明する。
【0120】まずステップ1901において、特徴文字
列保存エリア125内の特徴文字列を一覧表示する。
【0121】次にステップ1902において、ステップ
1901で表示した文字列のうち、ユーザが選択しなか
った文字列を取得し、該文字列の情報を特徴文字列保存
エリア125からクリアする。
【0122】以上がプロファイル更新用文字列ユーザ選
択プログラム1701の処理手順である。
【0123】ここで、プロファイル更新用文字列ユーザ
選択プログラム1701により、ユーザがプロファイル
に追加したい文字列を選択する画面の例を図20に示
す。ウィンドウ2001に、ユーザが評価した文書から
抽出される特徴文字列がチェックボックスと共に表示さ
れる。特徴文字列が多数ある場合はスクロールバー20
02を用いてすべての文字列をウィンドウ2001内で
参照することができる。ユーザは、ウィンドウ2001
内の文字列のうち、プロファイルに追加したい文字列の
チェックボックスをチェックし、送信ボタン2003を
押下する。
【0124】なお、文字列の選択方法は図20の例のよ
うにチェックボックスを用いたものでも良いし、各文字
列に識別番号を付与して識別番号と共に一覧表示するよ
うにし、文字列の識別番号により選択する方法でも良
い。
【0125】以下、本実施例において検索結果テキスト
に対しユーザが負の評価をした場合の、検索条件の修正
および再検索処理の流れを、図21を用いて説明する。
【0126】本図においては、ユーザが「高校野球」に
関するテキストを検索したいものとし、最初に種文書に
指定した「サッカーに続き、高校野球が開幕した…」と
いうテキスト2101から抽出されたサッカー」「高
校」「野球」「開幕」という文字列2102が検索条件
生成プログラム113により、正のプロファイル120
に登録されているものとする。
【0127】ここで、「高校サッカーの1回戦が・・・」
という検索結果テキストに対して負の評価をした場合を
想定する。
【0128】まず、出現頻度ファイル104に格納され
た出現頻度情報のうち、ユーザが負の評価をした「高校
サッカーの1回戦が・・・」という文書2103から特徴
文字列2104を抽出し、それぞれの特徴文字列の文書
2103内の出現頻度とともに特徴文字列保存エリア1
25に読み込む。本図の例では、「高校」、「サッカ
ー」、「1回戦」、・・・という文字列とその出現頻度が
読み込まれる。
【0129】次に、前述した図20の画面でユーザが選
択した文字列の情報を、文字列保存エリア125からク
リアする。本図の例では、ユーザが「高校野球」に関す
るテキストを所望しており、「サッカー」に関するテキ
ストは所望ではない。したがってユーザは「サッカー」
という文字列のみに負の重みを加えると指定するものと
する。このとき、文字列保存エリア125から、「高
校」および「1回戦」という文字列とその重みをクリア
する。
【0130】次に、出現頻度情報2104のうち負のプ
ロファイル121にある文字列についてはその重みを減
算し、負のプロファイル121に無い文字列について
は、その出現回数の負の数を重みとして負のプロファイ
ル121に登録する。本図の例では、「サッカー」とい
う文字列に重み「−4」を付与して正のプロファイル1
20に追加する。
【0131】次に、正にプロファイル120の文字列の
うち重みの上位所定数もの2105と、負のプロファイ
ル121のうち重みの下位所定数2106に含まれ、か
つ正のプロファイル120の文字列のうち上位所定数の
もの2107に含まれないものを、総合プロファイル1
22に登録する。検索時には、この総合プロファイル1
22の文字列とその重みにより検索を行なう。
【0132】以上のように、本図に示した例では、「高
校サッカーの1回戦が…」というテキストに負の評価を
しても、「高校」という文字列の重みが下がらないた
め、「高校野球」よりも「プロ野球」のテキストに高い
類似度が算出されてしまうといった問題を防ぐことがで
きる。また、正のプロファイル120に無い「1回戦」
という文字列の重みがさがらないため、「高校野球の1
回戦」といったユーザが所望するテキストの類似度が下
がってしまうといった問題を防ぐことができる。
【0133】以上が、検索結果テキストに対しユーザが
負の評価をした場合の、検索条件の修正および再検索処
理の流れである。
【0134】なお、本実施例において検索結果文書に対
しユーザが正の評価をした場合にも同様に、正のプロフ
ァイルに追加する文字列を選択することができる。した
がって、正の評価をした文書から抽出されるがユーザの
概念を表す文字列ではない文字列に、正の重みを付与し
てしまうことを防ぐことができる。
【0135】以上が、本発明の第二の実施例である。
【0136】以上示したように本実施例によれば、ユー
ザが「所望のものでない」と評価した文書から抽出され
た文字列のうち、ユーザが所望する概念を表す文字列を
ユーザが指定することにより、該文字列を重みを下げる
対象から除外する形態をとる。そのため、ユーザの所望
ではない概念を表す文字列のみの重みを適切に減算する
ことができる。したがって、ユーザが「所望のものでな
い」と評価した文書から抽出した文字列の重みを単純に
減算すると、ユーザの所望の概念を表す文字列の重みま
で減算してしまい、検索結果が改善しない、といった問
題を解決できる。
【0137】また、ユーザが「所望のものである」と評
価した文書から抽出された文字列のうち、ユーザが所望
する概念を表さない文字列をユーザが指定することによ
り、該文字列を重みを上げる対象から除外する形態をと
る。そのため、ユーザの所望する概念を表す文字列のみ
の重みを適切に加算することができる。したがって、ユ
ーザが「所望のものである」と評価した文書から抽出し
た文字列の重みを単純に加算すると、ユーザの所望の概
念を表さない文字列の重みまで加算してしまい、検索結
果が改善しない、といった問題を解決できる。
【0138】なお、第一、第二の実施例において、ひと
つの検索結果文書に対しユーザが評価を入力し、その評
価を反映した検索結果を出力するようにしたが、複数の
検索結果文書に対しそれぞれ異なった評価を一度に入力
し、それらの評価を反映した検索結果を出力するように
しても構わない。
【0139】また、第一、第二の実施例において、最初
に種文書を設定し、その種文書に類似した内容を持つ文
書を検索するものとしたが、最初にキーワードを設定す
る全文検索を行なう形式にしても良い。その場合には、
図7に示した検索条件生成プログラム113のステップ
702、703のかわりに、入力したキーワードを所定
の重みを付与して正のプロファイル120、および総合
プロファイル122に追加すれば良い。
【0140】本実施例によれば、ユーザの所望の概念を
表す単語の重みを減算しないため、ユーザが「所望のも
のでない」といった評価を与えた検索結果文書から抽出
した情報をもとに検索結果を改善することができる。
【0141】
【発明の効果】本発明によれば、ユーザが「所望のもの
でない」といった評価を与えた文書から抽出した情報の
うち適切なものを使用して、検索結果を改善することが
できる。
【図面の簡単な説明】
【図1】本発明の第一の実施例の構成を示す図である。
【図2】従来技術によるレリバンスフィードバック処理
の例を示す図である。
【図3】従来技術によるレリバンスフィードバック処理
により検索結果が改善しない例を示す図である。
【図4】本発明の第一の実施例におけるシステム制御プ
ログラム110の処理手順を示すPAD図である。
【図5】本発明の第一の実施例における文書登録プログ
ラム111の処理手順を示すPAD図である。
【図6】本発明の第一の実施例における検索制御プログ
ラム112の処理手順を示すPAD図である。
【図7】本発明の第一の実施例における検索条件生成プ
ログラム113の処理手順を示すPAD図である。
【図8】本発明の第一の実施例における類似文書検索プ
ログラム114の処理手順を示すPAD図である。
【図9】本発明の第一の実施例における検索結果文書内
容表示プログラム115の処理手順を示すPAD図であ
る。
【図10】本発明の第一の実施例における検索条件修正
制御プログラム116の処理手順を示すPAD図であ
る。
【図11】本発明の第一の実施例におけるプロファイル
重み調整プログラム119の処理手順を示すPAD図で
ある。
【図12】本発明の第一の実施例において、ユーザがプ
ロファイルを調整する際にディスプレイ100に表示す
る入力画面の例を示す図である。
【図13】本発明の第一の実施例におけるプロファイル
更新プログラム117の処理手順を示すPAD図であ
る。
【図14】本発明の第一の実施例における検索使用文字
列選択プログラム118の処理手順を示すPAD図であ
る。
【図15】本発明の第一の実施例において、検索結果文
書に対しユーザが負の評価をした場合の、検索条件の修
正および再検索処理の流れを示す図である。
【図16】本発明の第一の実施例におけるプロファイル
更新プログラムの処理117の処理の一形態を示すPA
D図である。
【図17】本発明の第二の実施例における検索条件修正
プログラム116aの構成を示すPAD図である。
【図18】本発明の第二の実施例におけるプロファイル
更新プログラム117aの処理手順を示すPAD図であ
る。
【図19】本発明の第二の実施例におけるプロファイル
更新用文字列ユーザ選択プログラム1701の処理手順
を示すPAD図である。
【図20】本発明の第二の実施例において、ユーザがプ
ロファイルに追加したい文字列を選択する画面の例を示
すPAD図である。
【図21】本発明の第二の実施例において、検索結果文
書に対しユーザが負の評価をした場合の、検索条件の修
正および再検索処理の流れを示す図である。
【符号の説明】
100 ディスプレイ 101 キーボード 102 中央演算処理装置(CPU) 103 テキスト 104 出現頻度ファイル 105 磁気ディスク装置 106 フロッピディスクドライブ(FDD) 107 フロッピディスク 108 バス 109 主メモリ 110 システム制御プログラム 111 文書登録プログラム 112 検索制御プログラム 113 検索条件生成プログラム 114 類似文書検索プログラム 115 検索結果文書内容表示プログラム 116 検索条件修正制御プログラム 117 プロファイル更新プログラム 118 検索使用文字列選択プログラム 119 プロファイル重み調整プログラム 120 正のプロファイル 121 負のプロファイル 122 総合プロファイル 123 種文書保存エリア 124 登録文書保存エリア 125 特徴文字列保存エリア 126 表示文書保存エリア
───────────────────────────────────────────────────── フロントページの続き (72)発明者 菅谷 奈津子 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所システム開発本部内 (72)発明者 松林 忠孝 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所システム開発本部内 (72)発明者 山口 明彦 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所システム開発本部内 (72)発明者 川下 靖司 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 Fターム(参考) 5B075 ND03 NK02 NK32 PP30 PQ02 PQ40 PQ46 PR04 PR06 QM08 QS01 QS20 UU06

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】文字列に付与された重みを含む検索条件に
    より文書データベースを検索し、該検索により得られた
    文書に対してユーザが入力した「所望である」または
    「所望でない」の評価を受け取り、上記検索の結果得ら
    れた文書から抽出した文字列の重みを上記評価に基づき
    変更して検索する文書検索方法において、 上記「所望である」と評価した文書から抽出した第一の
    文字列に正の重みを付与し、 上記「所望でない」と評価した文書から抽出した第二の
    文字列に負の重みを付与し、 上記第二の文字列のうち上記第一の文字列と一致すると
    ともに当該第一の文字列の重みが所定値以上となるもの
    を除外したものとその重みおよび上記第一の文字列とそ
    の重みとを含む検索条件を生成して検索することを特徴
    とした文書検索方法。
  2. 【請求項2】文字列に付与された重みを含む検索条件に
    より文書データベースを検索し、該検索により得られた
    文書に対してユーザが入力した「所望である」または
    「所望でない」の評価を受け取り、上記検索の結果得ら
    れた文書から抽出した文字列の重みを上記評価に基づき
    変更して検索する文書検索方法において、 上記「所望である」と評価した文書から第一の文字列を
    抽出し、 上記「所望でない」と評価した文書から抽出した文字列
    で上記第一の文字列と一致する場合は、当該第一の文字
    列の重みが所定値以下の場合は上記抽出した文字列を第
    二の文字列として抽出し、第二の文字列の重みを第一の
    文字列の重みよりも低くし、一致しない場合は上記抽出
    した文字列を第二の文字列として抽出し、第二の文字列
    の重みを第一の文字列の重みよりも低くすることを特徴
    とした文書検索方法。
  3. 【請求項3】文字列に付与された重みを含む検索条件に
    より文書データベースを検索し、該検索により得られた
    文書に対してユーザが入力した「所望である」または
    「所望でない」の評価を受け取り、上記検索の結果得ら
    れた文書から抽出した文字列の重みを上記評価に基づき
    変更して検索する文書検索方法において、 上記「所望である」と評価した文書から第一の文字列を
    抽出し、 上記「所望でない」と評価した文書から抽出した文字列
    で上記第一の文字列と一致しない場合は上記抽出した文
    字列を第二の文字列として抽出し、第二の文字列の重み
    を第一の文字列の重みよりも低くすることを特徴とした
    文書検索方法。
  4. 【請求項4】請求項1または請求項2記載の文書検索方
    法において、 上記検索結果文書に対するユーザの評価は、ひとつ以上
    の段階評価を設定する方法であり、 文字列の重みの変更方法は、前記評価に応じて多段階に
    変更の程度を設定する方法であることを特徴とする文書
    検索方法。
  5. 【請求項5】請求項1または請求項2記載の文書検索方
    法において、ユーザの評価に基づき検索条件を更新する
    際に、 ユーザが評価した文書から抽出した文字列について、検
    索条件に用いるか否かをユーザが選択情報を入力して選
    択することすることを特徴とした文書検索方法。
  6. 【請求項6】文字列に付与された重みを含む検索条件に
    より文書データベースを検索し、該検索により得られた
    文書に対してユーザが入力した「所望である」または
    「所望でない」の評価を受け取り、上記検索の結果得ら
    れた文書から抽出した文字列の重みを上記評価に基づき
    変更して検索する文書検索装置において、 上記「所望である」と評価した文書から抽出した第一の
    文字列に正の重みを付与し、 上記「所望でない」と評価した文書から抽出した文字列
    が上記第一の文字列と一致する場合は当該第一の文字列
    の重みが所定値以下の場合は上記抽出した文字列を第二
    の文字列として負の重みを付与し、上記第一の文字列と
    一致しない場合は上記抽出した文字列を第二の文字列と
    して負の重みを付与する手段と、 上記第一の文字列とその重みおよび上記第二の文字列と
    その重みとを含む検索条件を生成して検索する手段とを
    備えたことを特徴とした文書検索方法。
JP29760499A 1999-10-20 1999-10-20 文書検索方法 Expired - Fee Related JP3861529B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29760499A JP3861529B2 (ja) 1999-10-20 1999-10-20 文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29760499A JP3861529B2 (ja) 1999-10-20 1999-10-20 文書検索方法

Publications (2)

Publication Number Publication Date
JP2001117937A true JP2001117937A (ja) 2001-04-27
JP3861529B2 JP3861529B2 (ja) 2006-12-20

Family

ID=17848720

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29760499A Expired - Fee Related JP3861529B2 (ja) 1999-10-20 1999-10-20 文書検索方法

Country Status (1)

Country Link
JP (1) JP3861529B2 (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030224A (ja) * 2001-07-17 2003-01-31 Fujitsu Ltd 文書クラスタ作成装置、文書検索システムおよびfaq作成システム
JP2005018617A (ja) * 2003-06-27 2005-01-20 Ricoh Co Ltd 文書検索装置
JP2005084943A (ja) * 2003-09-09 2005-03-31 Hitachi Ltd 文書検索システムおよび方法
JP2006092557A (ja) * 2004-09-24 2006-04-06 Microsoft Corp 検索エンジンから返されるページのランキングを制御するシステムおよび方法
US7130849B2 (en) 2002-02-05 2006-10-31 Hitachi, Ltd. Similarity-based search method by relevance feedback
US7177863B2 (en) * 2002-04-26 2007-02-13 International Business Machines Corporation System and method for determining internal parameters of a data clustering program
JP2009075630A (ja) * 2007-09-18 2009-04-09 Hitachi Software Eng Co Ltd 情報検索システム
JP2009177831A (ja) * 2002-02-14 2009-08-06 Avaya Technology Corp 存在追跡および名前空間相互接続の技術
JP2013257871A (ja) * 2012-06-12 2013-12-26 Boeing Co:The アソシエーティブメモリ内部での最適比較基準の形成
WO2018167830A1 (ja) * 2017-03-13 2018-09-20 日本電気株式会社 対話装置、対話システム、及びコンピュータ読み取り可能な記録媒体
JP2018156552A (ja) * 2017-03-21 2018-10-04 株式会社日立製作所 計算機システム及び文章データの検索方法
JP6555704B1 (ja) * 2019-04-08 2019-08-07 株式会社AI Samurai 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
JP2020013535A (ja) * 2018-07-06 2020-01-23 株式会社日立システムズ 情報処理装置、検査評価システムおよび検査評価方法
JP2020042560A (ja) * 2018-09-11 2020-03-19 Kddi株式会社 情報抽出装置、情報抽出方法及び情報抽出プログラム
WO2023058417A1 (ja) * 2021-10-08 2023-04-13 大塚化学株式会社 コンテンツ処理方法及びコンテンツ処理プログラム
WO2023058416A1 (ja) * 2021-10-08 2023-04-13 大塚化学株式会社 コンテンツ処理方法及びコンテンツ処理プログラム
WO2024110824A1 (ja) * 2022-11-24 2024-05-30 株式会社半導体エネルギー研究所 文書検索支援方法、プログラム、文書検索支援システム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08320879A (ja) * 1995-05-26 1996-12-03 Nec Corp 適合フィードバック装置
JPH09153051A (ja) * 1995-11-29 1997-06-10 Hitachi Ltd 類似文書検索方法
JPH09153064A (ja) * 1995-11-30 1997-06-10 Toshiba Corp 情報フィルタリング装置
JPH09153061A (ja) * 1995-11-30 1997-06-10 Fujitsu Ltd 文書検索装置および方法
JPH11161670A (ja) * 1997-12-01 1999-06-18 Ntt Data Corp 情報フィルタリング方法、装置及びシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08320879A (ja) * 1995-05-26 1996-12-03 Nec Corp 適合フィードバック装置
JPH09153051A (ja) * 1995-11-29 1997-06-10 Hitachi Ltd 類似文書検索方法
JPH09153064A (ja) * 1995-11-30 1997-06-10 Toshiba Corp 情報フィルタリング装置
JPH09153061A (ja) * 1995-11-30 1997-06-10 Fujitsu Ltd 文書検索装置および方法
JPH11161670A (ja) * 1997-12-01 1999-06-18 Ntt Data Corp 情報フィルタリング方法、装置及びシステム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
江口 浩二,伊藤 秀隆,隈元 昭,: "検索結果のクラスタリングに基づくユーザへの適応性を考慮した漸次的なクエリの拡張", 情報処理学会研究報告, vol. 98, no. 2, CSNG199800201007, 19 January 1998 (1998-01-19), JP, pages 43 - 48, ISSN: 0000769452 *
篠原 靖志: "文書検索システムExtractRequestにおける用語分析マップによるフィードバックの評価", 情報処理学会研究報告, vol. 98, no. 34, CSNG199800614007, 15 May 1998 (1998-05-15), JP, pages 49 - 56, ISSN: 0000769453 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030224A (ja) * 2001-07-17 2003-01-31 Fujitsu Ltd 文書クラスタ作成装置、文書検索システムおよびfaq作成システム
US7130849B2 (en) 2002-02-05 2006-10-31 Hitachi, Ltd. Similarity-based search method by relevance feedback
JP2009177831A (ja) * 2002-02-14 2009-08-06 Avaya Technology Corp 存在追跡および名前空間相互接続の技術
US7177863B2 (en) * 2002-04-26 2007-02-13 International Business Machines Corporation System and method for determining internal parameters of a data clustering program
JP2005018617A (ja) * 2003-06-27 2005-01-20 Ricoh Co Ltd 文書検索装置
JP2005084943A (ja) * 2003-09-09 2005-03-31 Hitachi Ltd 文書検索システムおよび方法
JP2006092557A (ja) * 2004-09-24 2006-04-06 Microsoft Corp 検索エンジンから返されるページのランキングを制御するシステムおよび方法
JP2009075630A (ja) * 2007-09-18 2009-04-09 Hitachi Software Eng Co Ltd 情報検索システム
JP2013257871A (ja) * 2012-06-12 2013-12-26 Boeing Co:The アソシエーティブメモリ内部での最適比較基準の形成
WO2018167830A1 (ja) * 2017-03-13 2018-09-20 日本電気株式会社 対話装置、対話システム、及びコンピュータ読み取り可能な記録媒体
US11663413B2 (en) 2017-03-13 2023-05-30 Nec Corporation Dialog apparatus, dialog system, and computer-readable recording medium
JP2018156552A (ja) * 2017-03-21 2018-10-04 株式会社日立製作所 計算機システム及び文章データの検索方法
JP2020013535A (ja) * 2018-07-06 2020-01-23 株式会社日立システムズ 情報処理装置、検査評価システムおよび検査評価方法
JP7229761B2 (ja) 2018-07-06 2023-02-28 株式会社日立システムズ 情報処理装置、検査評価システムおよび検査評価方法
JP7493638B2 (ja) 2018-07-06 2024-05-31 株式会社日立システムズ 情報処理装置、検査評価システムおよび検査評価方法
JP2020042560A (ja) * 2018-09-11 2020-03-19 Kddi株式会社 情報抽出装置、情報抽出方法及び情報抽出プログラム
WO2020208693A1 (ja) * 2019-04-08 2020-10-15 株式会社 AI Samurai 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
US11023721B2 (en) 2019-04-08 2021-06-01 Ai Samurai Inc. Document information evaluating device, document information evaluating method, and document information evaluating program
JP6555704B1 (ja) * 2019-04-08 2019-08-07 株式会社AI Samurai 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
WO2023058417A1 (ja) * 2021-10-08 2023-04-13 大塚化学株式会社 コンテンツ処理方法及びコンテンツ処理プログラム
WO2023058416A1 (ja) * 2021-10-08 2023-04-13 大塚化学株式会社 コンテンツ処理方法及びコンテンツ処理プログラム
JP2023056970A (ja) * 2021-10-08 2023-04-20 大塚化学株式会社 コンテンツ処理方法及びコンテンツ処理プログラム
JP7326400B2 (ja) 2021-10-08 2023-08-15 大塚化学株式会社 コンテンツ処理方法及びコンテンツ処理プログラム
WO2024110824A1 (ja) * 2022-11-24 2024-05-30 株式会社半導体エネルギー研究所 文書検索支援方法、プログラム、文書検索支援システム

Also Published As

Publication number Publication date
JP3861529B2 (ja) 2006-12-20

Similar Documents

Publication Publication Date Title
US10929487B1 (en) Customization of search results for search queries received from third party sites
US20040111678A1 (en) Method for retrieving documents
JP2001117937A (ja) 文書検索方法および装置
US7428538B2 (en) Retrieval of structured documents
US6865571B2 (en) Document retrieval method and system and computer readable storage medium
US7349895B2 (en) Semi-automatic annotation of multimedia objects
US20020143797A1 (en) File classification management system and method used in operating systems
US20110252062A1 (en) Electronic device for searching for entry word in dictionary data, control method thereof and program product
US20080104040A1 (en) Visually intuitive search method
JP3915488B2 (ja) 文書検索システム
JP4146361B2 (ja) ラベル表示型文書検索装置、ラベル表示型文書検索方法、ラベル表示型文書検索方法を実行させるコンピュータプログラム並びにこのコンピュータプログラムが格納されたコンピュータ読み取り可能な記録媒体
JP2003196294A (ja) 知識分析システムおよび知識分析方法
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH05233719A (ja) 複合的な情報間の関連性識別方法
JP2003256472A (ja) 文書検索システム
JP5332128B2 (ja) 情報検索装置、情報検索方法およびそのプログラム
JP2006190060A (ja) データベース検索方法、データベース検索プログラムおよび原稿処理機
JPH11272709A (ja) ファイル検索方式
JP2000200279A (ja) 情報検索装置
JP2000172698A (ja) 文書検索システム、文書検索方法およびその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4496797B2 (ja) 文書管理装置および方法
JP4292922B2 (ja) 文書検索システムおよび方法
JP2002117043A (ja) 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
JP7548569B2 (ja) 文書処理プログラム、情報処理装置及び文書処理方法
JP2000172710A (ja) 情報取得装置及び情報取得プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060322

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060918

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091006

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101006

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111006

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121006

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121006

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131006

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees