JP2002041524A - 文書検索システムおよび文書検索方法 - Google Patents

文書検索システムおよび文書検索方法

Info

Publication number
JP2002041524A
JP2002041524A JP2000227457A JP2000227457A JP2002041524A JP 2002041524 A JP2002041524 A JP 2002041524A JP 2000227457 A JP2000227457 A JP 2000227457A JP 2000227457 A JP2000227457 A JP 2000227457A JP 2002041524 A JP2002041524 A JP 2002041524A
Authority
JP
Japan
Prior art keywords
document
search
document file
evaluation
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000227457A
Other languages
English (en)
Other versions
JP4146067B2 (ja
Inventor
Atsuya Sasaki
淳哉 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000227457A priority Critical patent/JP4146067B2/ja
Publication of JP2002041524A publication Critical patent/JP2002041524A/ja
Application granted granted Critical
Publication of JP4146067B2 publication Critical patent/JP4146067B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】検索された文書ファイルに関する有用度の度合
いを判断するための指標を利用者に提示する。 【解決手段】検索された文書ファイルに対して利用者か
ら入力された評価情報は、その文書ファイルの検索に使
用されたキーワードまたは質問文と一緒に文書ファイル
に対応付けてデータベース201に登録される。これに
より、検索結果一覧画面や文書閲覧画面上などに表示さ
れる検索文書毎に、それに対応する評価情報とその評価
の基になったキーワードまたは質問文とを併せて提示す
ることができる。よって、検索された文書ファイルに関
する有用度の度合いを判断するための指標として、どの
ようなキーワードまたは質問文を利用した際にどのよう
な評価が得られた文書であるかを利用者に提示すること
ができ、有用な情報が書かれている文書を利用者が容易
に得ることが可能となる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は自然言語検索システ
ムなどの文書検索システムおよびその検索システムに用
いられる文書検索方法に関する。
【0002】
【従来の技術】従来より、文書検索の方式としてはキー
ワード検索システムが良く知られている。このキーワー
ド検索システムは、ユーザが入力したキーワードを含む
文書を検索するものである。このシステムで目的とする
文書を検索するためには、ユーザは、その目的文書に含
まれている適切なキーワードを指定する必要がある。こ
の場合、特に、データベース中に大量の文書がある場合
には、単独のキーワードを指定しただけでは多数の候補
文書が得られてしまうので、ユーザはさらにキーワード
を付加入力して候補を絞りこむといった絞り込み検索を
行う必要がある。
【0003】このような検索方式を用いたものとして、
膨大な文書ファイル中からユーザが必要とする文書ファ
イルを探し出すという全文検索システムが開発されてい
る。この文書検索システムにおいては、検索候補を絞り
込むために、ユーザがいくつかの単語を“or”あるい
は“and”あるいは“not”で結び、検索式を作成
し、それに応じて検索する必要があった。
【0004】そこで、最近では、登録された文書データ
を日常的な言葉(自然言語)で効率的に検索可能な自然
言語検索システムが開発されている。自然言語検索シス
テムにおいては、日常的な言葉(自然言語)により質問
文(クエリー)を入力するだけで、自動的にそのクエリ
ーの内容解析、構文解析、形態素解析、キーワードの重
み付け処理、類似度算出などの処理が行われ、これによ
り適切な文書をデータベースから容易に検索することが
できる。
【0005】このような自然言語検索システムにおいて
は、高度な文書解析処理が必要となるので、検索対象の
文書ファイルを予め解析してそれに対応する検索用デー
タを生成し、その検索用データをデータベースに登録し
ておくことが必要となる。
【0006】
【発明が解決しようとする課題】しかし、自然言語検索
システムを用いた場合であっても、検索はあくまで単語
ベースで行われるため、検索された文書に有用な情報が
書かれているか否かは、ユーザ自身が実際にその文書を
閲覧して内容を読んで判断する必要があった。特に、あ
る質問文に対して複数の候補文書が検索された場合に
は、ユーザは有用な情報にたどり着くまで、それら候補
文書を順に閲覧することが必要となる。
【0007】また、検索結果の一覧表示画面では、候補
文書が質問文に対する類似度をもって類似度の高い順
(スコア順)に表示されるもの、その類似度は単語ベー
スで計算されたものであるため、同一の単語が多数含ま
れている文書が高スコアとなるという傾向がある。この
ため、ユーザにとって有用な情報が書かれている文書が
必ずしも高スコアになるとは限らず、低スコアの文書に
有用な情報が書かれているというケースも多々生じるの
が現状である。
【0008】本発明は上述の事情に鑑みてなされたもの
であり、検索された文書ファイルに関する有用度の度合
いを判断するための指標を利用者に提示できるように
し、有用な情報が書かれている文書を利用者が容易に得
ることが可能な文書検索システムおよび文書検索方法を
提供することを目的とする。
【0009】
【課題を解決するための手段】上述の課題を解決するた
め、本発明は、データベースに登録された文書ファイル
の検索を行う文書検索システムにおいて、利用者から入
力されたキーワードまたは質問文に応じて前記データベ
ースに登録されている文書ファイルを検索する検索手段
と、前記検索手段によって検索された文書ファイルに対
して利用者から入力された評価情報と、前記文書ファイ
ルの検索に使用されたキーワードまたは質問文とを、前
記文書ファイルに対応付けて前記データベースに登録す
る手段と、前記検索手段によって検索された文書ファイ
ル毎にその文書ファイルに対応付けて登録されている前
記評価情報と前記キーワードまたは質問文とを提示する
情報提示手段とを具備することを特徴とする。
【0010】この文書検索システムにおいては、検索さ
れた文書ファイルに対して利用者から入力された評価情
報を、その文書ファイルの検索に使用されたキーワード
または質問文と一緒に文書ファイルに対応付けてデータ
ベースに登録しておくことにより、検索結果一覧画面や
文書閲覧画面上などに表示される検索文書毎に、それに
対応する評価情報とその評価の基になったキーワードま
たは質問文とを併せて提示することができる。よって、
検索された文書ファイルに関する有用度の度合いを判断
するための指標として、どのようなキーワードまたは質
問文を利用した際にどのような評価が得られた文書であ
るかを利用者に提示することができ、有用な情報が書か
れている文書を利用者が容易に得ることが可能となる。
【0011】入力される評価情報としては、検索された
文書ファイルの有用度の違いに応じて予め決められた複
数種の評価種類の中から選択されたものを使用し、且つ
前記データベースに登録されている文書ファイル毎に各
評価種類の入力数をカウントして、入力された評価種類
とその入力数のカウント値とを利用者に提示する手段を
さらに設けることが好ましい。これにより、評価種類毎
にその集計結果をも利用者に知らせることができるの
で、検索された文書ファイルに関する有用度の度合いを
さらに容易に判断することが可能となる。
【0012】また、各評価種類の入力数のカウント結果
に基づき、前記検索手段によって検索された文書ファイ
ルそれぞれの有用度を順位付けして提示する手段を設け
ることにより、単なるスコア表示のみを利用する場合よ
りも、有用度の高い文書を効率よく得ることが可能とな
る。
【0013】また、検索手段によって文書ファイルの検
索が行われた場合、その検索に使用されたキーワードま
たは質問文と、前記データベースにすでに登録されてい
るキーワードまたは質問文との類似度を、前記検索手段
によって検索された各文書ファイル毎に算出する手段
と、算出された類似度と、前記検索手段によって検索さ
れた各文書ファイルに対応して登録されている前記評価
情報の評価種類とに基づいて、前記検索手段によって検
索された文書ファイルそれぞれの有用度を順位付けして
表示する手段を設けることにより、評価情報のみなら
ず、入力されたキーワードまたは質問文とすでに登録さ
れているキーワードまたは質問文との類似度をも考慮し
て順位付けを行うことができ、より正確に有用度の順位
付けを行うことが可能となる。
【0014】また、本発明は、データベースに登録され
た文書ファイルの検索を行う文書検索システムにおい
て、利用者から入力されたキーワードまたは質問文に応
じて前記データベースに登録されている文書ファイルを
検索する検索手段と、前記検索手段によって検索された
文書ファイルに対して評価情報を入力する手段と、前記
入力された評価情報に基づいて、前記データベースに登
録された文書ファイルの有用度を順位付けして提示する
手段とを具備することを特徴とする。このように、入力
された評価情報に基づいて、データベースに登録された
文書ファイルの有用度を順付けして提示する構成のみに
よっても、検索された文書ファイルに関する有用度の度
合いを判断するための指標を利用者に提示することがで
きる。
【0015】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。図1には、本発明の一実施形態に係
る自然言語検索システムの機能構成が示されている。こ
の自然言語検索システム111は予め登録された文書フ
ァイルを日常的な言葉(自然言語)やキーワードで効率
的に検索可能な検索システムであり、利用者からの日常
的な言葉(自然言語)による質問文(クエリー)を解析
し、さらにその構文解析、形態素解析、キーワードの重
み付け処理、類似度算出などの処理を行うことにより、
登録文書の中から適切な文書を検索する。この自然言語
検索システム111には図示のように自然言語検索デー
タベース(DB)201、文書登録部202、検索・一
覧表示部203、原文取り出し部204、評価記録部2
05、評価順位表示部206、および評価類似度計算部
207が設けられている。
【0016】自然言語検索データベース(DB)201
には、検索対象として登録された文書ファイルとそれに
対応する検索用データ(インデックスデータ)が記憶さ
れている。さらに、本実施形態においては、自然言語検
索データベース(DB)201には文書ファイル毎に付
加フィールドが設けられており、文書ファイルに対して
利用者から入力された評価情報を、その文書ファイルの
検索に使用されたキーワードまたは質問文と一緒に文書
ファイルに対応付けて登録できるように構成されてい
る。評価情報としては、「役に立つ」、「役に立たな
い」、「その他」などの評価種情報と、利用者が自由に
入力できるコメント文とが用いられる。
【0017】文書登録部202は検索対象の文書ファイ
ルを自然言語検索データベース(DB)201に登録す
るためのものであり、例えば予め決められたファイル記
憶部などから定期的に文書ファイルを読み出し、その文
書ファイルの検索用データ(インデックスデータ)を生
成して自然言語検索データベース(DB)201に登録
する。文書登録時には、付加フィールドには予め決めら
れた初期値が設定される。また、登録された文書ファイ
ルは一意の文書IDによって管理される。
【0018】検索・一覧表示部203は、利用者から入
力される検索文(キーワード、または自然語による質問
文)に応じて自然言語検索データベース(DB)201
に登録されている文書ファイルを検索し、その検索によ
って得られた候補文書の一覧を検索結果一覧として利用
者に提供する。この場合、検索結果一覧の画面上には、
候補文書の一覧と共に、評価類似度計算部207によっ
て算出された各評価種類毎の集計結果などが各候補文書
毎に表示される。
【0019】原文取り出し部204は検索結果一覧画面
上で利用者によって選択された文書ファイルの原文を前
述のファイル記憶部や自然言語検索データベース(D
B)201から取り出して、それを利用者に提供する。
この場合、選択された文書ファイルに対応する評価情報
及び検索文(キーワードまたは質問文)も一緒に取り出
され、前述の各評価種類毎の集計結果と共に、利用者に
提供される。
【0020】評価記録部205は、検索された文書ファ
イルの閲覧画面上で利用者によって入力される評価情報
を検索文(キーワードまたは質問文)と一緒に該当する
文書ファイルに対応付けて自然言語検索データベース
(DB)201の付加フィールドに登録する。評価順位
表示部206は、検索された文書それぞれに対する評価
情報を基に検索された文書に対する順位付けを行うもの
である。
【0021】この自然言語検索システム111において
は、文書検索後の原文閲覧画面から、文書に対する評価
情報を入力することができ、またその評価情報を評価の
基となった検索文と一緒に表示することができる。よっ
て、どのようなキーワードまたは質問文を利用した際に
どのような評価が得られた文書であるかを利用者に提示
することができるので、それを、検索された文書ファイ
ルに関する有用度の度合いを判断するための指標として
利用することが可能となる。具体的には、以下のような
機能が提供される。
【0022】(1)検索された文書の閲覧画面に評価種
類・コメントの入力項目を設け、文書に対する評価を入
力できるようにする。 (2)検索された文書の閲覧画面に、入力された評価を
表示する場所を設け、文書に対する評価を閲覧できるよ
うにする。 (3)評価を格納する付加フィールドを設け、文書と共
に評価をデータベース201に格納する。 (4)評価種類毎に入力数をカウントする機構を設け、
文書毎に評価のカウントを行なう。 (5)評価の集計数を検索結果一覧画面、及び、閲覧画
面で表示する。 (6)評価の格納の際、評価の種類毎に、評価入力の際
に行われたの質問文またはキーワードを記録する付加フ
ィールドを設け、そこに質問文またはキーワードを記録
する。
【0023】(7)各文書に対応する評価の表示を行な
う際、評価の種類とともに、評価の基になった質問文ま
たはキーワードを表示し、どの様な問い合わせに対して
評価されたものかを表示する。 (8)入力された評価を用い、登録文書の有用度を順位
付けし表示する。 (9)入力された評価と記録された質問文またはキーワ
ードとを利用して新たな計算を行い、評価を反映した類
似度計算を行なう。
【0024】図2には、図1の自然言語検索システム1
11を適用したクランアント・サーバ型のコンピュータ
システムの構成が示されている。このコンピュータシス
テムは、図示のように、サーバコンピュータ11と、複
数のクライアントコンピュータ12とから構成されてい
る。サーバコンピュータ11およびクライアントコンピ
ュータ12は、LAN、インターネットなどのコンピュ
ータネットワークを介して接続されている。
【0025】サーバコンピュータ11には、図示のよう
に、前述の自然言語検索システム111と、HTTPサ
ーバ112とが設けられている。自然言語検索システム
111は、前述の自然言語検索データベース(DB)2
01に加え、検索サーバ301、検索エンジン302を
備えている。検索エンジン302上述の自然言語検索の
ための処理を行うソフトウェアモジュールであり、図1
の検索・一覧表示部203の機能を実現する。検索サー
バ301はHTTPサーバ112を通じてクライアント
コンピュータ12に対して検索サービスを提供するため
のソフトウェアモジュールであり、ここには図1の文書
登録部202、原文取り出し部204、評価記録部20
5、評価順位表示部206、および評価類似度計算部2
07などの機能が設けられている。
【0026】各クライアントコンピュータ12のユーザ
は、Webブラウザ121を通じてサーバコンピュータ
11にアクセスすることにより、文書ファイルの検索・
閲覧、評価の入力・およびその閲覧などを行うことがで
きる。
【0027】(データベースのフィールド構造)次に、
図3を参照して、自然言語検索データベース(DB)2
01のフィールド(列)構造について説明する。自然言
語検索データベース(DB)201においては、登録文
書毎にレコードが割り当てられ、そのレコード内の列に
検索に必要な情報や入力された評価情報などが記憶され
る。文書検索に際しては列毎に検索対象にするか否かを
設定することができる。
【0028】列1〜nには、ある登録文書に関する検索
用のインデックスデータが記憶される。続く、列n+1
〜n+mには、各評価種類(1〜m)毎の入力回数のカ
ウント値が記憶される。評価種類として例えば図4のよ
うに「役に立つ」、「役に立たない」、「その他」の3
種類が使用される場合には、m=3となり、それら3種
類の評価種類毎にそれが入力された回数が該当する列に
保持されることになる。
【0029】また、続く列n+m+1〜n+m+mに
は、各評価種類(1〜m)毎に入力されたコメントが登
録される。各列には、複数のコメントを登録することが
できる。さらに、続く列n+2m+1〜n+2m+mに
は、各評価種類(1〜m)毎に評価の基になった質問文
(またはキーワード)が登録される。各列には、複数の
質問文(またはキーワード)を登録することができる。
【0030】(文書登録処理)次に、図5のフローチャ
ートを参照して、文書登録部202によって実行される
文書登録処理の手順を説明する。まず、ファイル記憶部
などから登録対象の文書ファイルが読み込まれる(ステ
ップS101)。そして、登録先のレコードの付加フィ
ールド(列n+1〜n+2m+m)に対して初期設定が
行われた後(ステップS102)、文書ファイルに対す
る形態素解析で得られた検索用データ(インデックス)
が列1〜nに登録される(ステップS103)。付加フ
ィールド(列n+1〜n+2m+m)に対して初期設定
処理では、図6に示すように、列n+1〜n+mには入
力回数のカウント値として“0”が設定され、またコメ
ント登録用の列n+m+1〜n+m+m、および質問文
登録用の列n+2m+1〜n+2m+mは空きに設定さ
れる。
【0031】(評価登録処理)次に、図7のフローチャ
ートを参照して、評価情報および質問文の登録処理につ
いて説明する。
【0032】検索サーバ301によってWebブラウザ
121に提供されるWebページ上でユーザにより質問
文(またはキーワード)が入力され、そしてユーザ操作
によって検索の実行が要求されると(ステップS1
1)、その入力された質問文(またはキーワード)に基
づいて候補文書をデータベース201から検索する処理
が検索・一覧表示部203によって実行され、候補文書
の一覧からなる検索結果一覧画面が検索要求元のWeb
ブラウザ121に提供される(ステップS111)。
【0033】検索結果一覧画面上で閲覧対象の文書がユ
ーザによって選択されると、その文書IDを含む文書取
得要求が発行され(ステップS12)、それが原文取り
出し部204に送られる。原文取り出し部204では、
文書IDで指定された文書ファイルを取り出して、それ
を要求元のWebブラウザ121に登録文書閲覧画面と
して提供する処理が行われる(ステップS112)。登
録文書閲覧画面においては、図8に示すように、文書I
Dで指定された登録文書が表示される。さらに、この登
録文書閲覧画面には、評価情報の入力場所として、評価
種類入力用のラジオボタン(「役に立つ」、「役に立た
ない」、「その他」)と、コメント入力フィールド、お
よび評価情報の登録を指定する「登録」ボタンが用意さ
れている。ユーザは、登録文書を読み、評価種類入力用
のラジオボタンによって「役に立つ」、「役に立たな
い」、「その他」のいずれかを選択することができる。
そして、ユーザが、必要に応じてコメント入力フィール
ドにコメント文を入力した後、「登録」ボタンを押すこ
とにより、評価入力がなされる(ステップS13)。
【0034】入力された評価種類およびコメントは評価
記録部205に送られ、検索実行処理で使用した質問文
またはキーワードと一緒に、該当する文書IDの検索用
データが登録されているレコードの付加フィールドに登
録される(ステップS113)。
【0035】(評価登録処理)次に、図9のフローチャ
ートを参照して、評価記録部205によって実行される
評価登録処理の手順を説明する。
【0036】まず、評価対象の文書に関する文書IDお
よびユーザから入力された評価情報の読み込みが行われ
る(ステップS121)。図10は、ユーザから入力さ
れた評価情報の一例である。ここでは、評価種類として
「役に立つ」という情報が入力され、また「有用な情報
が書かれている」というコメント文が入力された場合を
想定している。次いで、その文書IDに対応する付加フ
ィールドにすでに登録されている情報が読み込まれ(ス
テップS122)、その情報にステップS121で読み
込んだ評価情報の内容が加えられて付加フィールドの更
新が行われる(ステップS123,S124)。図10
の場合には、「役に立つ」の評価種類に対応するフィー
ルドの入力回数のカウント値が+1されると共に、「役
に立つ」の評価種類に対応するフィールドに「有用な情
報が書かれている」というコメント文が追加登録される
ことになる。また、検索に使用された質問文「案内状の
書き方は?」も追加登録される。
【0037】(評価情報の提示)登録された評価情報
は、例えば登録文書閲覧画面上に図11のように表示さ
れる。図11に示されているように、登録文書閲覧画面
上には評価一覧を提示するための表示領域が設けられて
おり、そこに図12に示すように、評価種類の集計情報
(「役に立つ」:2、「役に立たない」:0、「その
他」:0)が表示されると共に、登録されている各評価
情報毎に、評価種類、コメント、質問文が表示される。
また、評価情報を入力したユーザ名を登録者名としてデ
ータベース201に記録しておくことにより、登録者名
を併せて表示するようにしても良い。
【0038】(付加フィールドの更新)次に、図13お
よび図14を参照して、付加フィールドの更新動作につ
いて具体的に説明する。
【0039】図13は評価情報追加前の付加フィールド
の内容を示しており、また図14は図10の評価情報を
追加登録した後の付加フィールドの内容を示している。
列n+1つまり「役に立つ」の評価種類に対応するフィ
ールドの値はそれまでのカウント値3から4に更新さ
れ、また「役に立つ」の評価種類に対応する列n+m+
1のフィールドには、それまで登録されているコメント
文が「,」で区切って記録されており、そこに「有用な
情報が書かれている」というコメント文が新たに追加登
録される。また、「役に立つ」の評価種類に対応する列
n+2m+1のフィールドにも、それまで登録されてい
る質問文が「,」で区切って記録されており、そこに
「案内状の書き方は?」という質問文が新たに追加登録
される。
【0040】(類似度表示#1)次に、登録されている
評価情報に基づいて、検索結果一覧画面上に表示される
候補文書それぞれの有用度を順位付けして提示する処理
について説明する。本例では、検索文(質問文またはキ
ーワード)に合致する単語の数などで示される通常の類
似度(スコア)を評価情報に基づいて再計算し、それを
有用度の順位付け情報として使用する場合を想定する。
この場合、検索・一覧表示部203では図15のフロー
チャートに示す処理が実行される。
【0041】すなわち、まず、ユーザから入力される検
索文(質問文またはキーワード)の読み込みが行われ
(ステップS131)、その検索文に基づいて候補文書
をデータベース201から検索する処理が行われる(ス
テップS132)。この検索処理ではデータベース20
1の各レコードの列1〜nの内容が用いられ、検索文で
要求された単語を含む候補文書(ヒット文書)のID
と、その文書のスコアが取得される(ステップS13
3)。この後、各ヒット文書毎にそれに対応する列n+
1〜n+mから各評価種類毎の入力回数のカウント値
(評価カウント数)が取り出され(ステップS13
4)、その評価カウント数を元にスコアを再計算し、そ
の再計算結果にしたがって候補文書それぞれを順位付け
して、検索結果一覧表示画面に表示する処理が行われる
(ステップS135)。すなわち、スコアの再計算処理
で、図17に示すように、各評価種類毎に評価カウント
数を取り出し(ステップS141)、それに評価種類毎
に決められた係数を乗じることによって評価得点を計算
し(ステップS142)、それをスコアに足し合わせて
表示するという処理(ステップS143)が行われる。
この場合の検索結果一覧表示画面の一例を図16に示
す。
【0042】図16に示されているように、検索結果一
覧表示画面においては、有用度の順位毎に、類似度(再
計算されたスコア)、該当する候補文書のタイトル、そ
の候補文書に対する評価カウント数が表示される。
【0043】(類似度表示#2)次に、評価種類のみな
らず、検索に使用されたキーワードまたは質問文と、評
価種毎に記録されているキーワードまたは質問文との類
似度をも考慮して、検索結果一覧画面上に表示される候
補文書それぞれの有用度を順位付けして提示する処理に
ついて説明する。この場合、検索・一覧表示部203で
は図18のフローチャートに示す処理が実行される。
【0044】すなわち、まず、ユーザから入力される検
索文(質問文またはキーワード)の読み込みが行われ
(ステップS151)、その検索文に基づいて候補文書
をデータベース201から検索する処理が行われる(ス
テップS152)。この検索処理ではデータベース20
1の各レコードの列1〜nの内容が用いられ、検索文で
要求された単語を含む候補文書(ヒット文書)のID
と、その文書ID(ID=i)のスコア(類似度=Si検
索)が取得される(ステップS153)。この後、各ヒ
ット文書毎に、入力された検索文と、すでに登録されて
いる検索文との類似度(Sij)を求める処理が評価種類
jを変えながら繰り返し実行され(ステップS154,
S155)、これによって新たなスコア(類似度)が再
計算される(ステップS156)。
【0045】検索文の類似度を考慮したスコアの再計算
においては、図19に示す式が利用される。すなわち、
ある文書ID=iの文書についての検索文に対する類似
度Siは、検索文で指定された単語を含む個数などから
計算される通常のスコア(Si検索)と、評価に基づく
類似度(Si評価)との関数によって与えられる。この
場合、評価に基づく類似度(Si評価)は、各評価種類
j毎に、検索文の類似度(Sij)に評価種類jに対する
係数(Cj)を乗じた値を求め、それらの総和として表
現される。係数(Cj)は、例えば図20に示すよう
に、「役に立つ」という評価種類については+0.2、
「役に立たない」という評価種類については−0.1と
するような重み付け値が利用される。
【0046】以上の処理により、評価情報のみならず、
入力されたキーワードまたは質問文とすでに登録されて
いるキーワードまたは質問文との類似度をも考慮して順
位付けを行うことができ、より正確に有用度の順位付け
を行うことが可能となる。
【0047】たとえば、ID=20の文書に対して「役
に立つ(j=1)」という評価が入力された場合、列n
+2m+1にその質問文が記録されるが、その後、ID
=20の文書が検索されると、Cjが正であるために、
評価を加えたスコアが高くなる。一方、「役に立たない
(j=2)」の評価が入れられた場合、Cjが負である
ため、評価を加えたスコアは低くなる。質問文の類似度
が低い場合には、スコアに加えられる評価(Si評価)
そのものの値が低くなり、質問文に対してより正しく評
価を反映した有用度の順位付けを行うことが可能とな
る。
【0048】なお、類似度表示#1,#2では、通常の
スコアを再計算することによって有用度の順位付けを行
うようにしてが、スコアを用いずに、評価のみ、あるい
は質問文の類似度と評価だけを利用して、有用度の順位
付けを行うことも可能である。
【0049】また、以上の説明では、本実施形態の文書
検索システムをクランアント・サーバ型のコンピュータ
システムに適用した場合を例に説明したが、スタンドア
ロンで使用されるコンピュータにおいても同様にして適
用することができる。
【0050】また、文書閲覧画面上に評価情報および質
問文を提示する場合を主に説明したが、評価情報および
質問文は検索結果一覧表示画面上の各文書毎に表示する
ことも可能である。また、本実施形態の自然言語検索シ
ステム111はコンピュータプログラムによって実現さ
れているので、そのコンピュータプログラムをコンピュ
ータ読み取り可能な記憶媒体に記録しておくことによ
り、その記憶媒体を通じてコンピュータプログラムを通
常のコンピュータに導入するだけで、本実施形態と同様
の効果を得ることが可能となる。また、コンピュータプ
ログラムの配布は、記憶媒体のみならず、通信媒体を通
じて行うこともできる。
【0051】また、本発明は、上記実施形態に限定され
るものではなく、実施段階ではその要旨を逸脱しない範
囲で種々に変形することが可能である。更に、上記実施
形態には種々の段階の発明が含まれており、開示される
複数の構成要件における適宜な組み合わせにより種々の
発明が抽出され得る。例えば、実施形態に示される全構
成要件から幾つかの構成要件が削除されても、発明が解
決しようとする課題の欄で述べた課題が解決でき、発明
の効果の欄で述べられている効果が得られる場合には、
この構成要件が削除された構成が発明として抽出され得
る。
【0052】
【発明の効果】以上説明したように、本発明によれば、
検索された文書ファイルに関する有用度の度合いを判断
するための指標を利用者に提示できるようになり、有用
な情報が書かれている文書を利用者が容易に取得するこ
とが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る文書検索システムの
機能構成を示すブロック図。
【図2】同実施形態の文書検索システムを適用したクラ
ンアント・サーバ型のコンピュータシステムの構成を示
すブロック図。
【図3】同実施形態の文書検索システムで使用されるデ
ータベースのフィールド構造を示す図。
【図4】同実施形態の文書検索システムで使用されるデ
ータベースの列位置と評価種類との関係を示す図。
【図5】同実施形態の文書検索システムにおける文書登
録処理の手順を示すフローチャート。
【図6】同実施形態の文書検索システムに登録される評
価情報の初期値の一例を示す図。
【図7】同実施形態の文書検索システムにおける評価情
報および質問文の登録処理の手順を示すフローチャー
ト。
【図8】同実施形態の文書検索システムで使用される登
録文書閲覧画面の一例を示す図。
【図9】同実施形態の文書検索システムにおける評価登
録処理の手順を示すフローチャート。
【図10】同実施形態の文書検索システムにおいて利用
者から入力される評価情報の一例を示す図。
【図11】同実施形態の文書検索システムで使用される
登録文書閲覧画面の一例を示す図。
【図12】図11の登録文書閲覧画面上に表示される評
価一覧表示部の内容の一例を示す図。
【図13】同実施形態の文書検索システムにおける評価
情報追加前の付加フィールドの内容の一例を示す図。
【図14】同実施形態の文書検索システムにおける評価
情報追加後の付加フィールドの内容の一例を示す図。
【図15】同実施形態の文書検索システムにおいて実行
される有用度の順位付け処理の手順を示すフローチャー
ト。
【図16】同実施形態の文書検索システムで使用される
検索結果一覧表示画面の一例を示す図。
【図17】同実施形態の文書検索システムにおけるスコ
アの再計算処理の手順を示すフローチャート。
【図18】同実施形態の文書検索システムにおける有用
度を順位付け処理の他の例を示すフローチャート、
【図19】同実施形態の文書検索システムにおけるスコ
ア再計算のための演算を説明するための図。
【図20】同実施形態の文書検索システムで使用される
重み付け値の一例を示す図。
【符号の説明】
111…自然言語検索システム 201…自然言語検索データベース 202…文書登録部 203…検索・一覧表示部 204…原文取り出し部 205…評価記録部 206…評価順位表示部 207…評価類似度計算部 11…サーバコンピュータ 12…クライアントコンピュータ 111…自然言語検索システム 112…HTTPサーバ

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 データベースに登録された文書ファイル
    の検索を行う文書検索システムにおいて、 利用者から入力されたキーワードまたは質問文に応じて
    前記データベースに登録されている文書ファイルを検索
    する検索手段と、 前記検索手段によって検索された文書ファイルに対して
    利用者から入力された評価情報と、前記文書ファイルの
    検索に使用されたキーワードまたは質問文とを 、前記文書ファイルに対応付けて前記データベースに登
    録する手段と、前記検索手段によって検索された文書フ
    ァイル毎に、その文書ファイルに対応付けて登録されて
    いる前記評価情報と前記キーワードまたは質問文とを提
    示する情報提示手段とを具備することを特徴とする文書
    検索システム。
  2. 【請求項2】 前記入力される評価情報は、検索された
    文書ファイルの有用度の違いに応じて予め決められた複
    数種の評価種類の中から選択されたものであり、 前記データベースに登録されている文書ファイル毎に前
    記各評価種類の入力数をカウントする手段をさらに具備
    し、 前記情報提示手段は、前記検索手段によって検索された
    文書ファイル毎に、入力された評価種類とその入力数の
    カウント値とを提示する手段を含むことを特徴とする請
    求項1記載の文書検索システム。
  3. 【請求項3】 前記入力される評価情報は、検索された
    文書ファイルの有用度の違いに応じて予め決められた複
    数種の評価種類の中から選択されたものであり、 前記データベースに登録されている文書ファイル毎に前
    記各評価種類の入力数をカウントする手段と、 前記各評価種類の入力数のカウント結果に基づき、前記
    検索手段によって検索された文書ファイルそれぞれの有
    用度を順位付けして提示する手段とをさらに具備するこ
    とを特徴とする請求項1記載の文書検索システム。
  4. 【請求項4】 前記入力される評価情報は、検索された
    文書ファイルの有用度の違いに応じて予め決められた複
    数種の評価種類の中から選択されたものであり、 前記検索手段によって文書ファイルの検索が行われた場
    合、その検索に使用されたキーワードまたは質問文と、
    前記データベースにすでに登録されているキーワードま
    たは質問文との類似度を、前記検索手段によって検索さ
    れた各文書ファイル毎に算出する手段と、 算出された類似度と、前記検索手段によって検索された
    各文書ファイルに対応して登録されている前記評価情報
    の評価種類とに基づいて、前記検索手段によって検索さ
    れた文書ファイルそれぞれの有用度を順位付けして表示
    する手段とをさらに具備することを特徴とする請求項1
    記載の文書検索システム。
  5. 【請求項5】 データベースに登録された文書ファイル
    の検索を行う文書検索システムにおいて、 利用者から入力されたキーワードまたは質問文に応じて
    前記データベースに登録されている文書ファイルを検索
    する検索手段と、 前記検索手段によって検索された文書ファイルに対して
    評価情報を入力する手段と、 前記入力された評価情報に基づいて、前記データベース
    に登録された文書ファイルの有用度を順位付けして提示
    する手段とを具備することを特徴とする文書検索システ
    ム。
  6. 【請求項6】 データベースに登録された文書ファイル
    の検索を行う文書検索方法において、 利用者から入力されたキーワードまたは質問文に応じて
    前記データベースに登録されている文書ファイルを検索
    する検索ステップと、 前記検索ステップによって検索された文書ファイルに対
    して利用者から入力された評価情報と、前記文書ファイ
    ルの検索に使用されたキーワードまたは質問文とを、前
    記文書ファイルに対応付けて前記データベースに登録す
    るステップと、 前記検索ステップによって検索された文書ファイル毎に
    その文書ファイルに対応付けて登録されている前記評価
    情報と前記キーワードまたは質問文とを提示する情報提
    示ステップとを具備することを特徴とする文書検索方
    法。
  7. 【請求項7】 前記入力される評価情報は、検索された
    文書ファイルの有用度の違いに応じて予め決められた複
    数種の評価種類の中から選択されたものであり、 前記データベースに登録されている文書ファイル毎に前
    記各評価種類の入力数をカウントするステップをさらに
    具備し、 前記情報提示ステップは、前記検索ステップによって検
    索された文書ファイル毎に、入力された評価種類とその
    入力数のカウント値とを提示するステップを含むことを
    特徴とする請求項6記載の文書検索方法。
  8. 【請求項8】 前記入力される評価情報は、検索された
    文書ファイルの有用度の違いに応じて予め決められた複
    数種の評価種類の中から選択されたものであり、 前記データベースに登録されている文書ファイル毎に前
    記各評価種類の入力数をカウントするステップと、 前記各評価種類の入力数のカウント結果に基づき、前記
    検索ステップによって検索された文書ファイルそれぞれ
    の有用度を順位付けして提示するステップとをさらに具
    備することを特徴とする請求項6記載の文書検索方法。
  9. 【請求項9】 前記入力される評価情報は、検索された
    文書ファイルの有用度の違いに応じて予め決められた複
    数種の評価種類の中から選択されたものであり、 前記検索ステップによって文書ファイルの検索が行われ
    た場合、その検索に使用されたキーワードまたは質問文
    と、前記データベースにすでに登録されているキーワー
    ドまたは質問文との類似度を、前記検索ステップによっ
    て検索された各文書ファイル毎に算出するステップと、 算出された類似度と、前記検索ステップによって検索さ
    れた各文書ファイルに対応して登録されている前記評価
    情報の評価種類とに基づいて、前記検索ステップによっ
    て検索された文書ファイルそれぞれの有用度を順位付け
    して表示するステップとをさらに具備することを特徴と
    する請求項6記載の文書検索方法。
  10. 【請求項10】 データベースに登録された文書ファイ
    ルの検索を行うためのコンピュータプログラムが記憶さ
    れたコンピュータ読み取り可能な記憶媒体であって、前
    記コンピュータプログラムは、 利用者から入力されたキーワードまたは質問文に応じて
    前記データベースに登録されている文書ファイルを検索
    する検索ステップと、 前記検索ステップによって検索された文書ファイルに対
    して利用者から入力された評価情報と、前記文書ファイ
    ルの検索に使用されたキーワードまたは質問文とを、前
    記文書ファイルに対応付けて前記データベースに登録す
    るステップと、 前記検索ステップによって検索された文書ファイル毎に
    その文書ファイルに対応付けて登録されている前記評価
    情報と前記キーワードまたは質問文とを提示する情報提
    示ステップとを具備することを特徴とする記憶媒体。
JP2000227457A 2000-07-27 2000-07-27 文書検索システムおよび文書検索方法 Expired - Fee Related JP4146067B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000227457A JP4146067B2 (ja) 2000-07-27 2000-07-27 文書検索システムおよび文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000227457A JP4146067B2 (ja) 2000-07-27 2000-07-27 文書検索システムおよび文書検索方法

Publications (2)

Publication Number Publication Date
JP2002041524A true JP2002041524A (ja) 2002-02-08
JP4146067B2 JP4146067B2 (ja) 2008-09-03

Family

ID=18720905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000227457A Expired - Fee Related JP4146067B2 (ja) 2000-07-27 2000-07-27 文書検索システムおよび文書検索方法

Country Status (1)

Country Link
JP (1) JP4146067B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008126184A1 (ja) * 2007-03-16 2008-10-23 Fujitsu Limited 文書重要度算出プログラム
JP2018136829A (ja) * 2017-02-23 2018-08-30 日本電信電話株式会社 提示装置及び提示方法
JP2018190060A (ja) * 2017-04-28 2018-11-29 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008126184A1 (ja) * 2007-03-16 2008-10-23 Fujitsu Limited 文書重要度算出プログラム
JP4781466B2 (ja) * 2007-03-16 2011-09-28 富士通株式会社 文書重要度算出プログラム
US8260788B2 (en) 2007-03-16 2012-09-04 Fujitsu Limited Document importance calculation apparatus and method
JP2018136829A (ja) * 2017-02-23 2018-08-30 日本電信電話株式会社 提示装置及び提示方法
JP2018190060A (ja) * 2017-04-28 2018-11-29 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム
JP2021108197A (ja) * 2017-04-28 2021-07-29 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム
JP7167233B2 (ja) 2017-04-28 2022-11-08 キヤノンマーケティングジャパン株式会社 情報処理装置、その制御方法及びプログラム

Also Published As

Publication number Publication date
JP4146067B2 (ja) 2008-09-03

Similar Documents

Publication Publication Date Title
JP4638439B2 (ja) ウェブ検索の個人化
US8244725B2 (en) Method and apparatus for improved relevance of search results
US8751489B2 (en) Predictive selection of item attributes likely to be useful in refining a search
JP3717808B2 (ja) 情報検索システム
JP5638031B2 (ja) 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム
US8280878B2 (en) Method and apparatus for real time text analysis and text navigation
DK177142B1 (da) Fremgangsmåde til præsentation af et datasæt ved brug af søgning, computerlæsbart medium og computer
US20040002945A1 (en) Program for changing search results rank, recording medium for recording such a program, and content search processing method
TW201202980A (en) Infinite browse
JP2007249322A (ja) 文書視覚化装置及び文書視覚化プログラム
JP2007249899A (ja) 検索処理プログラム
JP5084673B2 (ja) 商品情報検索装置、方法及びシステム
JP2009009461A (ja) キーワードの入力支援システム、コンテンツ検索システム、コンテンツ登録システム、コンテンツ検索・登録システム、およびこれらの方法、並びにプログラム
JPH11224256A (ja) 情報検索方法および情報検索プログラムを記録した記録媒体
JP2003091552A (ja) 検索要求情報抽出方法及びその実施システム並びにその処理プログラム
JP5345582B2 (ja) シソーラス構築システム、シソーラス構築方法およびシソーラス構築プログラム
JP2004178421A (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP2002007450A (ja) 検索支援システム
JP2008065417A (ja) 連想語群検索装置、システム及びコンテンツマッチ型広告システム
JP4146067B2 (ja) 文書検索システムおよび文書検索方法
US20080114786A1 (en) Breaking documents
JP2020064482A (ja) 属性抽出装置および属性抽出方法
JP2006185020A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2022111544A (ja) 情報処理システム、及び情報処理方法
JPH1139338A (ja) 文書検索装置、文書検索方法及び文書検索のためのプログラムを記録した媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080205

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080617

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080619

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110627

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120627

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees