JP4146067B2 - Document search system and document search method - Google Patents

Document search system and document search method Download PDF

Info

Publication number
JP4146067B2
JP4146067B2 JP2000227457A JP2000227457A JP4146067B2 JP 4146067 B2 JP4146067 B2 JP 4146067B2 JP 2000227457 A JP2000227457 A JP 2000227457A JP 2000227457 A JP2000227457 A JP 2000227457A JP 4146067 B2 JP4146067 B2 JP 4146067B2
Authority
JP
Japan
Prior art keywords
search
document
document file
evaluation
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000227457A
Other languages
Japanese (ja)
Other versions
JP2002041524A (en
Inventor
淳哉 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000227457A priority Critical patent/JP4146067B2/en
Publication of JP2002041524A publication Critical patent/JP2002041524A/en
Application granted granted Critical
Publication of JP4146067B2 publication Critical patent/JP4146067B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は自然言語検索システムなどの文書検索システムおよびその検索システムに用いられる文書検索方法に関する。
【0002】
【従来の技術】
従来より、文書検索の方式としてはキーワード検索システムが良く知られている。このキーワード検索システムは、ユーザが入力したキーワードを含む文書を検索するものである。このシステムで目的とする文書を検索するためには、ユーザは、その目的文書に含まれている適切なキーワードを指定する必要がある。この場合、特に、データベース中に大量の文書がある場合には、単独のキーワードを指定しただけでは多数の候補文書が得られてしまうので、ユーザはさらにキーワードを付加入力して候補を絞りこむといった絞り込み検索を行う必要がある。
【0003】
このような検索方式を用いたものとして、膨大な文書ファイル中からユーザが必要とする文書ファイルを探し出すという全文検索システムが開発されている。この文書検索システムにおいては、検索候補を絞り込むために、ユーザがいくつかの単語を“or”あるいは“and”あるいは“not”で結び、検索式を作成し、それに応じて検索する必要があった。
【0004】
そこで、最近では、登録された文書データを日常的な言葉(自然言語)で効率的に検索可能な自然言語検索システムが開発されている。自然言語検索システムにおいては、日常的な言葉(自然言語)により質問文(クエリー)を入力するだけで、自動的にそのクエリーの内容解析、構文解析、形態素解析、キーワードの重み付け処理、類似度算出などの処理が行われ、これにより適切な文書をデータベースから容易に検索することができる。
【0005】
このような自然言語検索システムにおいては、高度な文書解析処理が必要となるので、検索対象の文書ファイルを予め解析してそれに対応する検索用データを生成し、その検索用データをデータベースに登録しておくことが必要となる。
【0006】
【発明が解決しようとする課題】
しかし、自然言語検索システムを用いた場合であっても、検索はあくまで単語ベースで行われるため、検索された文書に有用な情報が書かれているか否かは、ユーザ自身が実際にその文書を閲覧して内容を読んで判断する必要があった。特に、ある質問文に対して複数の候補文書が検索された場合には、ユーザは有用な情報にたどり着くまで、それら候補文書を順に閲覧することが必要となる。
【0007】
また、検索結果の一覧表示画面では、候補文書が質問文に対する類似度をもって類似度の高い順(スコア順)に表示されるもの、その類似度は単語ベースで計算されたものであるため、同一の単語が多数含まれている文書が高スコアとなるという傾向がある。このため、ユーザにとって有用な情報が書かれている文書が必ずしも高スコアになるとは限らず、低スコアの文書に有用な情報が書かれているというケースも多々生じるのが現状である。
【0008】
本発明は上述の事情に鑑みてなされたものであり、検索された文書ファイルに関する有用度の度合いを判断するための指標を利用者に提示できるようにし、有用な情報が書かれている文書を利用者が容易に得ることが可能な文書検索システムおよび文書検索方法を提供することを目的とする。
【0009】
【課題を解決するための手段】
上述の課題を解決するため、本発明は、データベースに登録された文書ファイルの検索を行う文書検索システムにおいて、利用者から入力されたキーワードまたは質問文に応じて前記データベースに登録されている文書ファイルを検索する検索手段と、前記検索手段によって検索された文書ファイルに対して利用者から入力された評価情報と、前記文書ファイルの検索に使用されたキーワードまたは質問文とを、前記文書ファイルに対応付けて前記データベースに登録する手段と、前記検索手段によって検索された文書ファイル毎にその文書ファイルに対応付けて登録されている前記評価情報と前記キーワードまたは質問文とを提示する情報提示手段とを具備することを特徴とする。
【0010】
この文書検索システムにおいては、検索された文書ファイルに対して利用者から入力された評価情報を、その文書ファイルの検索に使用されたキーワードまたは質問文と一緒に文書ファイルに対応付けてデータベースに登録しておくことにより、検索結果一覧画面や文書閲覧画面上などに表示される検索文書毎に、それに対応する評価情報とその評価の基になったキーワードまたは質問文とを併せて提示することができる。よって、検索された文書ファイルに関する有用度の度合いを判断するための指標として、どのようなキーワードまたは質問文を利用した際にどのような評価が得られた文書であるかを利用者に提示することができ、有用な情報が書かれている文書を利用者が容易に得ることが可能となる。
【0011】
入力される評価情報としては、検索された文書ファイルの有用度の違いに応じて予め決められた複数種の評価種類の中から選択されたものを使用し、且つ前記データベースに登録されている文書ファイル毎に各評価種類の入力数をカウントして、入力された評価種類とその入力数のカウント値とを利用者に提示する手段をさらに設けることが好ましい。これにより、評価種類毎にその集計結果をも利用者に知らせることができるので、検索された文書ファイルに関する有用度の度合いをさらに容易に判断することが可能となる。
【0012】
また、各評価種類の入力数のカウント結果に基づき、前記検索手段によって検索された文書ファイルそれぞれの有用度を順位付けして提示する手段を設けることにより、単なるスコア表示のみを利用する場合よりも、有用度の高い文書を効率よく得ることが可能となる。
【0013】
また、検索手段によって文書ファイルの検索が行われた場合、その検索に使用されたキーワードまたは質問文と、前記データベースにすでに登録されているキーワードまたは質問文との類似度を、前記検索手段によって検索された各文書ファイル毎に算出する手段と、算出された類似度と、前記検索手段によって検索された各文書ファイルに対応して登録されている前記評価情報の評価種類とに基づいて、前記検索手段によって検索された文書ファイルそれぞれの有用度を順位付けして表示する手段を設けることにより、評価情報のみならず、入力されたキーワードまたは質問文とすでに登録されているキーワードまたは質問文との類似度をも考慮して順位付けを行うことができ、より正確に有用度の順位付けを行うことが可能となる。
【0014】
また、本発明は、データベースに登録された文書ファイルの検索を行う文書検索システムにおいて、利用者から入力されたキーワードまたは質問文に応じて前記データベースに登録されている文書ファイルを検索する検索手段と、前記検索手段によって検索された文書ファイルに対して評価情報を入力する手段と、前記入力された評価情報に基づいて、前記データベースに登録された文書ファイルの有用度を順位付けして提示する手段とを具備することを特徴とする。このように、入力された評価情報に基づいて、データベースに登録された文書ファイルの有用度を順付けして提示する構成のみによっても、検索された文書ファイルに関する有用度の度合いを判断するための指標を利用者に提示することができる。
【0015】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を説明する。
図1には、本発明の一実施形態に係る自然言語検索システムの機能構成が示されている。この自然言語検索システム111は予め登録された文書ファイルを日常的な言葉(自然言語)やキーワードで効率的に検索可能な検索システムであり、利用者からの日常的な言葉(自然言語)による質問文(クエリー)を解析し、さらにその構文解析、形態素解析、キーワードの重み付け処理、類似度算出などの処理を行うことにより、登録文書の中から適切な文書を検索する。この自然言語検索システム111には図示のように自然言語検索データベース(DB)201、文書登録部202、検索・一覧表示部203、原文取り出し部204、評価記録部205、評価順位表示部206、および評価類似度計算部207が設けられている。
【0016】
自然言語検索データベース(DB)201には、検索対象として登録された文書ファイルとそれに対応する検索用データ(インデックスデータ)が記憶されている。さらに、本実施形態においては、自然言語検索データベース(DB)201には文書ファイル毎に付加フィールドが設けられており、文書ファイルに対して利用者から入力された評価情報を、その文書ファイルの検索に使用されたキーワードまたは質問文と一緒に文書ファイルに対応付けて登録できるように構成されている。評価情報としては、「役に立つ」、「役に立たない」、「その他」などの評価種情報と、利用者が自由に入力できるコメント文とが用いられる。
【0017】
文書登録部202は検索対象の文書ファイルを自然言語検索データベース(DB)201に登録するためのものであり、例えば予め決められたファイル記憶部などから定期的に文書ファイルを読み出し、その文書ファイルの検索用データ(インデックスデータ)を生成して自然言語検索データベース(DB)201に登録する。文書登録時には、付加フィールドには予め決められた初期値が設定される。また、登録された文書ファイルは一意の文書IDによって管理される。
【0018】
検索・一覧表示部203は、利用者から入力される検索文(キーワード、または自然語による質問文)に応じて自然言語検索データベース(DB)201に登録されている文書ファイルを検索し、その検索によって得られた候補文書の一覧を検索結果一覧として利用者に提供する。この場合、検索結果一覧の画面上には、候補文書の一覧と共に、評価類似度計算部207によって算出された各評価種類毎の集計結果などが各候補文書毎に表示される。
【0019】
原文取り出し部204は検索結果一覧画面上で利用者によって選択された文書ファイルの原文を前述のファイル記憶部や自然言語検索データベース(DB)201から取り出して、それを利用者に提供する。この場合、選択された文書ファイルに対応する評価情報及び検索文(キーワードまたは質問文)も一緒に取り出され、前述の各評価種類毎の集計結果と共に、利用者に提供される。
【0020】
評価記録部205は、検索された文書ファイルの閲覧画面上で利用者によって入力される評価情報を検索文(キーワードまたは質問文)と一緒に該当する文書ファイルに対応付けて自然言語検索データベース(DB)201の付加フィールドに登録する。評価順位表示部206は、検索された文書それぞれに対する評価情報を基に検索された文書に対する順位付けを行うものである。
【0021】
この自然言語検索システム111においては、文書検索後の原文閲覧画面から、文書に対する評価情報を入力することができ、またその評価情報を評価の基となった検索文と一緒に表示することができる。よって、どのようなキーワードまたは質問文を利用した際にどのような評価が得られた文書であるかを利用者に提示することができるので、それを、検索された文書ファイルに関する有用度の度合いを判断するための指標として利用することが可能となる。具体的には、以下のような機能が提供される。
【0022】
(1)検索された文書の閲覧画面に評価種類・コメントの入力項目を設け、文書に対する評価を入力できるようにする。
(2)検索された文書の閲覧画面に、入力された評価を表示する場所を設け、文書に対する評価を閲覧できるようにする。
(3)評価を格納する付加フィールドを設け、文書と共に評価をデータベース201に格納する。
(4)評価種類毎に入力数をカウントする機構を設け、文書毎に評価のカウントを行なう。
(5)評価の集計数を検索結果一覧画面、及び、閲覧画面で表示する。
(6)評価の格納の際、評価の種類毎に、評価入力の際に行われたの質問文またはキーワードを記録する付加フィールドを設け、そこに質問文またはキーワードを記録する。
【0023】
(7)各文書に対応する評価の表示を行なう際、評価の種類とともに、評価の基になった質問文またはキーワードを表示し、どの様な問い合わせに対して評価されたものかを表示する。
(8)入力された評価を用い、登録文書の有用度を順位付けし表示する。
(9)入力された評価と記録された質問文またはキーワードとを利用して新たな計算を行い、評価を反映した類似度計算を行なう。
【0024】
図2には、図1の自然言語検索システム111を適用したクランアント・サーバ型のコンピュータシステムの構成が示されている。このコンピュータシステムは、図示のように、サーバコンピュータ11と、複数のクライアントコンピュータ12とから構成されている。サーバコンピュータ11およびクライアントコンピュータ12は、LAN、インターネットなどのコンピュータネットワークを介して接続されている。
【0025】
サーバコンピュータ11には、図示のように、前述の自然言語検索システム111と、HTTPサーバ112とが設けられている。自然言語検索システム111は、前述の自然言語検索データベース(DB)201に加え、検索サーバ301、検索エンジン302を備えている。検索エンジン302上述の自然言語検索のための処理を行うソフトウェアモジュールであり、図1の検索・一覧表示部203の機能を実現する。検索サーバ301はHTTPサーバ112を通じてクライアントコンピュータ12に対して検索サービスを提供するためのソフトウェアモジュールであり、ここには図1の文書登録部202、原文取り出し部204、評価記録部205、評価順位表示部206、および評価類似度計算部207などの機能が設けられている。
【0026】
各クライアントコンピュータ12のユーザは、Webブラウザ121を通じてサーバコンピュータ11にアクセスすることにより、文書ファイルの検索・閲覧、評価の入力・およびその閲覧などを行うことができる。
【0027】
(データベースのフィールド構造)
次に、図3を参照して、自然言語検索データベース(DB)201のフィールド(列)構造について説明する。
自然言語検索データベース(DB)201においては、登録文書毎にレコードが割り当てられ、そのレコード内の列に検索に必要な情報や入力された評価情報などが記憶される。文書検索に際しては列毎に検索対象にするか否かを設定することができる。
【0028】
列1〜nには、ある登録文書に関する検索用のインデックスデータが記憶される。続く、列n+1〜n+mには、各評価種類(1〜m)毎の入力回数のカウント値が記憶される。評価種類として例えば図4のように「役に立つ」、「役に立たない」、「その他」の3種類が使用される場合には、m=3となり、それら3種類の評価種類毎にそれが入力された回数が該当する列に保持されることになる。
【0029】
また、続く列n+m+1〜n+m+mには、各評価種類(1〜m)毎に入力されたコメントが登録される。各列には、複数のコメントを登録することができる。さらに、続く列n+2m+1〜n+2m+mには、各評価種類(1〜m)毎に評価の基になった質問文(またはキーワード)が登録される。各列には、複数の質問文(またはキーワード)を登録することができる。
【0030】
(文書登録処理)
次に、図5のフローチャートを参照して、文書登録部202によって実行される文書登録処理の手順を説明する。
まず、ファイル記憶部などから登録対象の文書ファイルが読み込まれる(ステップS101)。そして、登録先のレコードの付加フィールド(列n+1〜n+2m+m)に対して初期設定が行われた後(ステップS102)、文書ファイルに対する形態素解析で得られた検索用データ(インデックス)が列1〜nに登録される(ステップS103)。付加フィールド(列n+1〜n+2m+m)に対して初期設定処理では、図6に示すように、列n+1〜n+mには入力回数のカウント値として“0”が設定され、またコメント登録用の列n+m+1〜n+m+m、および質問文登録用の列n+2m+1〜n+2m+mは空きに設定される。
【0031】
(評価登録処理)
次に、図7のフローチャートを参照して、評価情報および質問文の登録処理について説明する。
【0032】
検索サーバ301によってWebブラウザ121に提供されるWebページ上でユーザにより質問文(またはキーワード)が入力され、そしてユーザ操作によって検索の実行が要求されると(ステップS11)、その入力された質問文(またはキーワード)に基づいて候補文書をデータベース201から検索する処理が検索・一覧表示部203によって実行され、候補文書の一覧からなる検索結果一覧画面が検索要求元のWebブラウザ121に提供される(ステップS111)。
【0033】
検索結果一覧画面上で閲覧対象の文書がユーザによって選択されると、その文書IDを含む文書取得要求が発行され(ステップS12)、それが原文取り出し部204に送られる。原文取り出し部204では、文書IDで指定された文書ファイルを取り出して、それを要求元のWebブラウザ121に登録文書閲覧画面として提供する処理が行われる(ステップS112)。登録文書閲覧画面においては、図8に示すように、文書IDで指定された登録文書が表示される。さらに、この登録文書閲覧画面には、評価情報の入力場所として、評価種類入力用のラジオボタン(「役に立つ」、「役に立たない」、「その他」)と、コメント入力フィールド、および評価情報の登録を指定する「登録」ボタンが用意されている。ユーザは、登録文書を読み、評価種類入力用のラジオボタンによって「役に立つ」、「役に立たない」、「その他」のいずれかを選択することができる。そして、ユーザが、必要に応じてコメント入力フィールドにコメント文を入力した後、「登録」ボタンを押すことにより、評価入力がなされる(ステップS13)。
【0034】
入力された評価種類およびコメントは評価記録部205に送られ、検索実行処理で使用した質問文またはキーワードと一緒に、該当する文書IDの検索用データが登録されているレコードの付加フィールドに登録される(ステップS113)。
【0035】
(評価登録処理)
次に、図9のフローチャートを参照して、評価記録部205によって実行される評価登録処理の手順を説明する。
【0036】
まず、評価対象の文書に関する文書IDおよびユーザから入力された評価情報の読み込みが行われる(ステップS121)。図10は、ユーザから入力された評価情報の一例である。ここでは、評価種類として「役に立つ」という情報が入力され、また「有用な情報が書かれている」というコメント文が入力された場合を想定している。次いで、その文書IDに対応する付加フィールドにすでに登録されている情報が読み込まれ(ステップS122)、その情報にステップS121で読み込んだ評価情報の内容が加えられて付加フィールドの更新が行われる(ステップS123,S124)。図10の場合には、「役に立つ」の評価種類に対応するフィールドの入力回数のカウント値が+1されると共に、「役に立つ」の評価種類に対応するフィールドに「有用な情報が書かれている」というコメント文が追加登録されることになる。また、検索に使用された質問文「案内状の書き方は?」も追加登録される。
【0037】
(評価情報の提示)
登録された評価情報は、例えば登録文書閲覧画面上に図11のように表示される。図11に示されているように、登録文書閲覧画面上には評価一覧を提示するための表示領域が設けられており、そこに図12に示すように、評価種類の集計情報(「役に立つ」:2、「役に立たない」:0、「その他」:0)が表示されると共に、登録されている各評価情報毎に、評価種類、コメント、質問文が表示される。また、評価情報を入力したユーザ名を登録者名としてデータベース201に記録しておくことにより、登録者名を併せて表示するようにしても良い。
【0038】
(付加フィールドの更新)
次に、図13および図14を参照して、付加フィールドの更新動作について具体的に説明する。
【0039】
図13は評価情報追加前の付加フィールドの内容を示しており、また図14は図10の評価情報を追加登録した後の付加フィールドの内容を示している。
列n+1つまり「役に立つ」の評価種類に対応するフィールドの値はそれまでのカウント値3から4に更新され、また「役に立つ」の評価種類に対応する列n+m+1のフィールドには、それまで登録されているコメント文が「,」で区切って記録されており、そこに「有用な情報が書かれている」というコメント文が新たに追加登録される。また、「役に立つ」の評価種類に対応する列n+2m+1のフィールドにも、それまで登録されている質問文が「,」で区切って記録されており、そこに「案内状の書き方は?」という質問文が新たに追加登録される。
【0040】
(類似度表示#1)
次に、登録されている評価情報に基づいて、検索結果一覧画面上に表示される候補文書それぞれの有用度を順位付けして提示する処理について説明する。本例では、検索文(質問文またはキーワード)に合致する単語の数などで示される通常の類似度(スコア)を評価情報に基づいて再計算し、それを有用度の順位付け情報として使用する場合を想定する。この場合、検索・一覧表示部203では図15のフローチャートに示す処理が実行される。
【0041】
すなわち、まず、ユーザから入力される検索文(質問文またはキーワード)の読み込みが行われ(ステップS131)、その検索文に基づいて候補文書をデータベース201から検索する処理が行われる(ステップS132)。この検索処理ではデータベース201の各レコードの列1〜nの内容が用いられ、検索文で要求された単語を含む候補文書(ヒット文書)のIDと、その文書のスコアが取得される(ステップS133)。この後、各ヒット文書毎にそれに対応する列n+1〜n+mから各評価種類毎の入力回数のカウント値(評価カウント数)が取り出され(ステップS134)、その評価カウント数を元にスコアを再計算し、その再計算結果にしたがって候補文書それぞれを順位付けして、検索結果一覧表示画面に表示する処理が行われる(ステップS135)。すなわち、スコアの再計算処理で、図17に示すように、各評価種類毎に評価カウント数を取り出し(ステップS141)、それに評価種類毎に決められた係数を乗じることによって評価得点を計算し(ステップS142)、それをスコアに足し合わせて表示するという処理(ステップS143)が行われる。この場合の検索結果一覧表示画面の一例を図16に示す。
【0042】
図16に示されているように、検索結果一覧表示画面においては、有用度の順位毎に、類似度(再計算されたスコア)、該当する候補文書のタイトル、その候補文書に対する評価カウント数が表示される。
【0043】
(類似度表示#2)
次に、評価種類のみならず、検索に使用されたキーワードまたは質問文と、評価種毎に記録されているキーワードまたは質問文との類似度をも考慮して、検索結果一覧画面上に表示される候補文書それぞれの有用度を順位付けして提示する処理について説明する。この場合、検索・一覧表示部203では図18のフローチャートに示す処理が実行される。
【0044】
すなわち、まず、ユーザから入力される検索文(質問文またはキーワード)の読み込みが行われ(ステップS151)、その検索文に基づいて候補文書をデータベース201から検索する処理が行われる(ステップS152)。この検索処理ではデータベース201の各レコードの列1〜nの内容が用いられ、検索文で要求された単語を含む候補文書(ヒット文書)のIDと、その文書ID(ID=i)のスコア(類似度=Si検索)が取得される(ステップS153)。この後、各ヒット文書毎に、入力された検索文と、すでに登録されている検索文との類似度(Sij)を求める処理が評価種類jを変えながら繰り返し実行され(ステップS154,S155)、これによって新たなスコア(類似度)が再計算される(ステップS156)。
【0045】
検索文の類似度を考慮したスコアの再計算においては、図19に示す式が利用される。すなわち、ある文書ID=iの文書についての検索文に対する類似度Siは、検索文で指定された単語を含む個数などから計算される通常のスコア(Si検索)と、評価に基づく類似度(Si評価)との関数によって与えられる。この場合、評価に基づく類似度(Si評価)は、各評価種類j毎に、検索文の類似度(Sij)に評価種類jに対する係数(Cj)を乗じた値を求め、それらの総和として表現される。係数(Cj)は、例えば図20に示すように、「役に立つ」という評価種類については+0.2、「役に立たない」という評価種類については−0.1とするような重み付け値が利用される。
【0046】
以上の処理により、評価情報のみならず、入力されたキーワードまたは質問文とすでに登録されているキーワードまたは質問文との類似度をも考慮して順位付けを行うことができ、より正確に有用度の順位付けを行うことが可能となる。
【0047】
たとえば、ID=20の文書に対して「役に立つ(j=1)」という評価が入力された場合、列n+2m+1にその質問文が記録されるが、その後、ID=20の文書が検索されると、Cjが正であるために、評価を加えたスコアが高くなる。一方、「役に立たない(j=2)」の評価が入れられた場合、Cjが負であるため、評価を加えたスコアは低くなる。質問文の類似度が低い場合には、スコアに加えられる評価(Si評価)そのものの値が低くなり、質問文に対してより正しく評価を反映した有用度の順位付けを行うことが可能となる。
【0048】
なお、類似度表示#1,#2では、通常のスコアを再計算することによって有用度の順位付けを行うようにしてが、スコアを用いずに、評価のみ、あるいは質問文の類似度と評価だけを利用して、有用度の順位付けを行うことも可能である。
【0049】
また、以上の説明では、本実施形態の文書検索システムをクランアント・サーバ型のコンピュータシステムに適用した場合を例に説明したが、スタンドアロンで使用されるコンピュータにおいても同様にして適用することができる。
【0050】
また、文書閲覧画面上に評価情報および質問文を提示する場合を主に説明したが、評価情報および質問文は検索結果一覧表示画面上の各文書毎に表示することも可能である。また、本実施形態の自然言語検索システム111はコンピュータプログラムによって実現されているので、そのコンピュータプログラムをコンピュータ読み取り可能な記憶媒体に記録しておくことにより、その記憶媒体を通じてコンピュータプログラムを通常のコンピュータに導入するだけで、本実施形態と同様の効果を得ることが可能となる。また、コンピュータプログラムの配布は、記憶媒体のみならず、通信媒体を通じて行うこともできる。
【0051】
また、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【0052】
【発明の効果】
以上説明したように、本発明によれば、検索された文書ファイルに関する有用度の度合いを判断するための指標を利用者に提示できるようになり、有用な情報が書かれている文書を利用者が容易に取得することが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る文書検索システムの機能構成を示すブロック図。
【図2】同実施形態の文書検索システムを適用したクランアント・サーバ型のコンピュータシステムの構成を示すブロック図。
【図3】同実施形態の文書検索システムで使用されるデータベースのフィールド構造を示す図。
【図4】同実施形態の文書検索システムで使用されるデータベースの列位置と評価種類との関係を示す図。
【図5】同実施形態の文書検索システムにおける文書登録処理の手順を示すフローチャート。
【図6】同実施形態の文書検索システムに登録される評価情報の初期値の一例を示す図。
【図7】同実施形態の文書検索システムにおける評価情報および質問文の登録処理の手順を示すフローチャート。
【図8】同実施形態の文書検索システムで使用される登録文書閲覧画面の一例を示す図。
【図9】同実施形態の文書検索システムにおける評価登録処理の手順を示すフローチャート。
【図10】同実施形態の文書検索システムにおいて利用者から入力される評価情報の一例を示す図。
【図11】同実施形態の文書検索システムで使用される登録文書閲覧画面の一例を示す図。
【図12】図11の登録文書閲覧画面上に表示される評価一覧表示部の内容の一例を示す図。
【図13】同実施形態の文書検索システムにおける評価情報追加前の付加フィールドの内容の一例を示す図。
【図14】同実施形態の文書検索システムにおける評価情報追加後の付加フィールドの内容の一例を示す図。
【図15】同実施形態の文書検索システムにおいて実行される有用度の順位付け処理の手順を示すフローチャート。
【図16】同実施形態の文書検索システムで使用される検索結果一覧表示画面の一例を示す図。
【図17】同実施形態の文書検索システムにおけるスコアの再計算処理の手順を示すフローチャート。
【図18】同実施形態の文書検索システムにおける有用度を順位付け処理の他の例を示すフローチャート、
【図19】同実施形態の文書検索システムにおけるスコア再計算のための演算を説明するための図。
【図20】同実施形態の文書検索システムで使用される重み付け値の一例を示す図。
【符号の説明】
111…自然言語検索システム
201…自然言語検索データベース
202…文書登録部
203…検索・一覧表示部
204…原文取り出し部
205…評価記録部
206…評価順位表示部
207…評価類似度計算部
11…サーバコンピュータ
12…クライアントコンピュータ
111…自然言語検索システム
112…HTTPサーバ
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document search system such as a natural language search system and a document search method used in the search system.
[0002]
[Prior art]
Conventionally, a keyword search system is well known as a document search method. This keyword search system searches for a document including a keyword input by a user. In order to search for a target document using this system, the user needs to specify an appropriate keyword included in the target document. In this case, especially when there are a large number of documents in the database, a large number of candidate documents can be obtained simply by specifying a single keyword. Therefore, the user further refines the candidates by additionally inputting keywords. A refined search is required.
[0003]
As a system using such a search method, a full-text search system for searching for a document file required by a user from a large number of document files has been developed. In this document search system, in order to narrow down search candidates, the user needs to connect several words with “or”, “and”, or “not”, create a search expression, and search accordingly. .
[0004]
Therefore, recently, a natural language search system capable of efficiently searching registered document data with daily words (natural language) has been developed. In a natural language search system, just by inputting a question sentence (query) in everyday language (natural language), the query content analysis, syntax analysis, morpheme analysis, keyword weighting, and similarity calculation are performed automatically. Thus, an appropriate document can be easily retrieved from the database.
[0005]
Such a natural language search system requires advanced document analysis processing. Therefore, the search target document file is analyzed in advance to generate search data corresponding thereto, and the search data is registered in the database. It is necessary to keep it.
[0006]
[Problems to be solved by the invention]
However, even if a natural language search system is used, since the search is performed on a word basis, whether or not useful information is written in the searched document is determined by the user himself / herself. It was necessary to browse and read the contents. In particular, when a plurality of candidate documents are searched for a certain question sentence, it is necessary for the user to browse the candidate documents in order until it reaches useful information.
[0007]
In addition, on the search result list display screen, candidate documents are displayed in descending order of similarity (score order) with similarities to the question sentences, and the similarities are calculated on a word basis, and therefore the same Documents that contain many words tend to have high scores. For this reason, a document in which useful information for a user is written does not necessarily have a high score, and there are many cases in which useful information is written in a low-score document.
[0008]
The present invention has been made in view of the above-described circumstances, and can provide a user with an index for determining the degree of usefulness regarding a searched document file, and a document in which useful information is written can be obtained. It is an object to provide a document search system and a document search method that can be easily obtained by a user.
[0009]
[Means for Solving the Problems]
In order to solve the above-described problems, the present invention provides a document search system for searching a document file registered in a database, and a document file registered in the database in accordance with a keyword or a question sentence input from a user. A search means for searching the document file, the evaluation information input by the user for the document file searched by the search means, and the keyword or question sentence used for searching the document file And means for registering in the database, and information presentation means for presenting the evaluation information and the keyword or question sentence registered in association with the document file for each document file searched by the search means It is characterized by comprising.
[0010]
In this document retrieval system, the evaluation information input by the user for the retrieved document file is registered in the database in association with the document file together with the keyword or question text used to retrieve the document file. By doing so, for each search document displayed on the search result list screen or the document browsing screen, it is possible to present the corresponding evaluation information together with the keyword or question text that is the basis of the evaluation. it can. Therefore, as an index for determining the degree of usefulness of the retrieved document file, it is shown to the user what kind of evaluation is obtained when using a keyword or a question sentence. Therefore, the user can easily obtain a document in which useful information is written.
[0011]
As the input evaluation information, a document registered in the database using information selected from a plurality of types of evaluation determined in advance according to the difference in usefulness of the retrieved document file is used. It is preferable to further provide means for counting the number of inputs of each evaluation type for each file and presenting the input evaluation type and the count value of the input number to the user. As a result, it is possible to notify the user of the total result for each evaluation type, so that it is possible to more easily determine the degree of usefulness related to the retrieved document file.
[0012]
Further, by providing a means for ranking and presenting the usefulness of each document file searched by the search means based on the count result of the number of inputs of each evaluation type, it is more than using only a simple score display. It is possible to efficiently obtain a highly useful document.
[0013]
When a document file is searched by the search means, the search means searches the similarity between the keyword or question sentence used for the search and the keyword or question sentence already registered in the database. The search based on the means for calculating each document file, the calculated similarity, and the evaluation type of the evaluation information registered corresponding to each document file searched by the search means By providing means for ranking and displaying the usefulness of each document file searched by means, not only the evaluation information but also the similarity between the entered keyword or question sentence and the already registered keyword or question sentence The ranking can be performed in consideration of the degree, and the ranking of the usefulness can be more accurately performed.
[0014]
Further, the present invention provides a document retrieval system for retrieving a document file registered in a database, search means for retrieving a document file registered in the database according to a keyword or a question sentence input from a user, Means for inputting evaluation information for the document file searched by the search means, and means for ranking and presenting the usefulness of the document file registered in the database based on the input evaluation information It is characterized by comprising. Thus, based on the input evaluation information, it is possible to determine the degree of usefulness related to the retrieved document file only by the configuration in which the usefulness of the document file registered in the database is ordered and presented. The indicator can be presented to the user.
[0015]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 shows a functional configuration of a natural language search system according to an embodiment of the present invention. The natural language search system 111 is a search system that can efficiently search a pre-registered document file with daily words (natural language) and keywords, and questions from users with daily words (natural language). A sentence (query) is analyzed, and further, a syntactic analysis, a morphological analysis, a keyword weighting process, a similarity calculation, and the like are performed to search for an appropriate document from registered documents. The natural language search system 111 includes a natural language search database (DB) 201, a document registration unit 202, a search / list display unit 203, an original text extraction unit 204, an evaluation recording unit 205, an evaluation rank display unit 206, as shown in FIG. An evaluation similarity calculation unit 207 is provided.
[0016]
The natural language search database (DB) 201 stores document files registered as search targets and search data (index data) corresponding thereto. Further, in this embodiment, the natural language search database (DB) 201 is provided with an additional field for each document file, and the evaluation information input from the user for the document file is searched for the document file. It is configured so that it can be registered in association with the document file together with the keyword or question sentence used in the above. As the evaluation information, evaluation type information such as “useful”, “useless”, “other”, and a comment sentence that can be freely input by the user are used.
[0017]
The document registration unit 202 is for registering a document file to be searched in the natural language search database (DB) 201. For example, the document registration unit 202 periodically reads a document file from a predetermined file storage unit or the like, and stores the document file. Search data (index data) is generated and registered in the natural language search database (DB) 201. At the time of document registration, a predetermined initial value is set in the additional field. The registered document file is managed by a unique document ID.
[0018]
The search / list display unit 203 searches the document file registered in the natural language search database (DB) 201 in accordance with a search sentence (keyword or natural language question sentence) input from the user, and performs the search. A list of candidate documents obtained by the above is provided to the user as a search result list. In this case, on the search result list screen, together with a list of candidate documents, a total result for each evaluation type calculated by the evaluation similarity calculation unit 207 is displayed for each candidate document.
[0019]
The original text retrieval unit 204 retrieves the original text of the document file selected by the user on the search result list screen from the file storage unit or the natural language search database (DB) 201 and provides it to the user. In this case, the evaluation information and the search text (keyword or question text) corresponding to the selected document file are also taken out and provided to the user together with the above-described total result for each evaluation type.
[0020]
The evaluation recording unit 205 associates the evaluation information input by the user on the browse screen of the searched document file with the corresponding document file together with the search sentence (keyword or question sentence), and the natural language search database (DB). ) 201 is registered in the additional field 201. The evaluation rank display unit 206 ranks the retrieved documents based on the evaluation information for each retrieved document.
[0021]
In this natural language search system 111, the evaluation information for the document can be input from the original text browsing screen after the document search, and the evaluation information can be displayed together with the search text based on the evaluation. . Therefore, it is possible to present to the user what kind of evaluation is obtained when using which keyword or question sentence, and this is the degree of usefulness regarding the retrieved document file. It can be used as an index for judging Specifically, the following functions are provided.
[0022]
(1) An evaluation type / comment input item is provided on the retrieved document browsing screen so that the evaluation of the document can be input.
(2) A place for displaying the input evaluation is provided on the browsing screen of the retrieved document so that the evaluation on the document can be browsed.
(3) An additional field for storing the evaluation is provided, and the evaluation is stored in the database 201 together with the document.
(4) A mechanism for counting the number of inputs for each evaluation type is provided, and the evaluation is counted for each document.
(5) Display the total number of evaluations on the search result list screen and the browsing screen.
(6) At the time of storing the evaluation, an additional field for recording the question sentence or the keyword that was used when inputting the evaluation is provided for each type of evaluation, and the question sentence or the keyword is recorded there.
[0023]
(7) When displaying the evaluation corresponding to each document, the question text or keyword that is the basis of the evaluation is displayed together with the type of evaluation, and what kind of inquiry is evaluated is displayed.
(8) Using the input evaluation, the usefulness of registered documents is ranked and displayed.
(9) A new calculation is performed using the input evaluation and the recorded question sentence or keyword, and a similarity calculation reflecting the evaluation is performed.
[0024]
FIG. 2 shows the configuration of a client server type computer system to which the natural language search system 111 of FIG. 1 is applied. As shown in the figure, this computer system includes a server computer 11 and a plurality of client computers 12. Server computer 11 and client computer 12 are connected via a computer network such as a LAN or the Internet.
[0025]
As shown in the figure, the server computer 11 is provided with the above-described natural language search system 111 and an HTTP server 112. The natural language search system 111 includes a search server 301 and a search engine 302 in addition to the natural language search database (DB) 201 described above. A search engine 302 is a software module that performs the processing for the natural language search described above, and realizes the function of the search / list display unit 203 in FIG. The search server 301 is a software module for providing a search service to the client computer 12 through the HTTP server 112. Here, the document registration unit 202, the original text extraction unit 204, the evaluation recording unit 205, and the evaluation order display in FIG. Functions such as a unit 206 and an evaluation similarity calculation unit 207 are provided.
[0026]
The user of each client computer 12 can access the server computer 11 through the Web browser 121 to search and browse the document file, input and browse the evaluation, and the like.
[0027]
(Database field structure)
Next, the field (column) structure of the natural language search database (DB) 201 will be described with reference to FIG.
In the natural language search database (DB) 201, a record is assigned to each registered document, and information necessary for search, input evaluation information, and the like are stored in columns in the record. In document search, it can be set for each column whether or not to search.
[0028]
In columns 1 to n, index data for search related to a certain registered document is stored. In subsequent columns n + 1 to n + m, count values of the number of inputs for each evaluation type (1 to m) are stored. For example, when three types of “useful”, “useless”, and “others” are used as evaluation types, as shown in FIG. 4, m = 3, and these are input for each of the three types of evaluations. The number of times will be held in the corresponding column.
[0029]
In the subsequent columns n + m + 1 to n + m + m, comments input for each evaluation type (1 to m) are registered. A plurality of comments can be registered in each column. Further, in the subsequent columns n + 2m + 1 to n + 2m + m, a question sentence (or keyword) based on the evaluation is registered for each evaluation type (1 to m). A plurality of question sentences (or keywords) can be registered in each column.
[0030]
(Document registration process)
Next, the procedure of document registration processing executed by the document registration unit 202 will be described with reference to the flowchart of FIG.
First, a document file to be registered is read from a file storage unit or the like (step S101). Then, after initial setting is performed for the additional fields (columns n + 1 to n + 2m + m) of the registration destination record (step S102), the search data (index) obtained by the morphological analysis for the document file is the columns 1 to n. (Step S103). In the initial setting process for the additional fields (columns n + 1 to n + 2m + m), as shown in FIG. 6, “0” is set as the count value of the number of input times in the columns n + 1 to n + m, and the comment registration columns n + m + 1 to n + m + m and question sentence registration columns n + 2m + 1 to n + 2m + m are set to be empty.
[0031]
(Evaluation registration process)
Next, evaluation information and question sentence registration processing will be described with reference to the flowchart of FIG.
[0032]
When a user inputs a question sentence (or keyword) on a Web page provided to the Web browser 121 by the search server 301 and a search operation is requested by a user operation (step S11), the input question sentence The search / list display unit 203 executes processing for searching candidate documents from the database 201 based on (or keywords), and a search result list screen including a list of candidate documents is provided to the Web browser 121 that is the search request source ( Step S111).
[0033]
When a user selects a document to be viewed on the search result list screen, a document acquisition request including the document ID is issued (step S12), and the document acquisition request is sent to the original text extraction unit 204. The original text retrieving unit 204 retrieves the document file specified by the document ID and provides it to the requesting Web browser 121 as a registered document browsing screen (step S112). On the registered document browsing screen, as shown in FIG. 8, the registered document designated by the document ID is displayed. In addition, on this registered document browsing screen, as input locations for evaluation information, radio buttons for inputting evaluation types (“useful”, “useless”, “other”), comment input fields, and registration of evaluation information are registered. There is a “Register” button to specify. The user can read the registered document and select “useful”, “useless”, or “other” by using the radio button for inputting the evaluation type. Then, after the user inputs a comment text in the comment input field as necessary, the user inputs an evaluation by pressing a “register” button (step S13).
[0034]
The input evaluation type and comment are sent to the evaluation recording unit 205, and are registered in the additional field of the record in which search data for the corresponding document ID is registered together with the question sentence or keyword used in the search execution process. (Step S113).
[0035]
(Evaluation registration process)
Next, the procedure of the evaluation registration process executed by the evaluation recording unit 205 will be described with reference to the flowchart of FIG.
[0036]
First, the document ID related to the document to be evaluated and the evaluation information input from the user are read (step S121). FIG. 10 is an example of evaluation information input from the user. Here, it is assumed that information “useful” is input as an evaluation type and a comment sentence “useful information is written” is input. Next, the information already registered in the additional field corresponding to the document ID is read (step S122), and the contents of the evaluation information read in step S121 are added to the information to update the additional field (step S122). S123, S124). In the case of FIG. 10, the count value of the input count of the field corresponding to the “useful” evaluation type is incremented by 1, and “useful information is written” in the field corresponding to the “useful” evaluation type. Will be additionally registered. In addition, the question sentence “How to write a guide letter?” Used for the search is additionally registered.
[0037]
(Presentation of evaluation information)
The registered evaluation information is displayed on the registered document browsing screen as shown in FIG. As shown in FIG. 11, a display area for presenting an evaluation list is provided on the registered document browsing screen, and as shown in FIG. : 2, “useless”: 0, “others”: 0) and an evaluation type, a comment, and a question sentence are displayed for each registered evaluation information. Further, the user name that has entered the evaluation information is recorded in the database 201 as the registrant name, so that the registrant name may be displayed together.
[0038]
(Update additional fields)
Next, the additional field update operation will be described in detail with reference to FIGS. 13 and 14.
[0039]
FIG. 13 shows the contents of the additional field before adding the evaluation information, and FIG. 14 shows the contents of the additional field after additionally registering the evaluation information of FIG.
The value of the field corresponding to the column n + 1, that is, the “useful” evaluation type is updated from the previous count value 3 to 4, and the field in the column n + m + 1 corresponding to the “useful” evaluation type is registered so far. Comment sentences are recorded by separating them with “,”, and a comment sentence “Useful information is written” is newly registered there. Also, in the column n + 2m + 1 corresponding to the “useful” evaluation type, the question texts registered so far are separated by “,”, and there is a question “How to write a guide letter?” A new sentence is newly registered.
[0040]
(Similarity display # 1)
Next, processing for ranking and presenting the usefulness of each candidate document displayed on the search result list screen based on the registered evaluation information will be described. In this example, the normal similarity (score) indicated by the number of words that match the search sentence (question sentence or keyword) is recalculated based on the evaluation information, and is used as ranking information for usefulness. Assume a case. In this case, the search / list display unit 203 executes the process shown in the flowchart of FIG.
[0041]
That is, first, a search sentence (question sentence or keyword) input by the user is read (step S131), and a process for searching candidate documents from the database 201 based on the search sentence is performed (step S132). In this search processing, the contents of columns 1 to n of each record in the database 201 are used, and the ID of the candidate document (hit document) including the word requested in the search sentence and the score of the document are acquired (step S133). ). Thereafter, for each hit document, the count value (evaluation count) of the number of inputs for each evaluation type is extracted from the corresponding columns n + 1 to n + m (step S134), and the score is recalculated based on the evaluation count. Then, according to the recalculation result, each candidate document is ranked and displayed on the search result list display screen (step S135). That is, in the score recalculation process, as shown in FIG. 17, the evaluation count is extracted for each evaluation type (step S141), and the evaluation score is calculated by multiplying it by the coefficient determined for each evaluation type ( In step S142), a process of adding it to the score and displaying it (step S143) is performed. An example of the search result list display screen in this case is shown in FIG.
[0042]
As shown in FIG. 16, in the search result list display screen, for each rank of usefulness, the similarity (recalculated score), the title of the corresponding candidate document, and the evaluation count for the candidate document are displayed. Is displayed.
[0043]
(Similarity display # 2)
Next, not only the evaluation type but also the similarity between the keyword or question text used in the search and the keyword or question text recorded for each evaluation type is also displayed on the search result list screen. A process for ranking and presenting the usefulness of each candidate document will be described. In this case, the search / list display unit 203 executes the process shown in the flowchart of FIG.
[0044]
That is, first, a search sentence (question sentence or keyword) input from the user is read (step S151), and a process for searching candidate documents from the database 201 based on the search sentence is performed (step S152). In this search processing, the contents of columns 1 to n of each record in the database 201 are used, and the ID of the candidate document (hit document) including the word requested in the search sentence and the score of the document ID (ID = i) ( (Similarity = Si search) is acquired (step S153). Thereafter, for each hit document, the similarity (Si) between the input search sentence and the already registered search sentence. j ) Is repeatedly executed while changing the evaluation type j (steps S154 and S155), whereby a new score (similarity) is recalculated (step S156).
[0045]
In the recalculation of the score considering the similarity of the search sentences, the formula shown in FIG. 19 is used. That is, the similarity Si for the search sentence for a document with a document ID = i is a normal score (Si search) calculated from the number of words including the word specified in the search sentence and the similarity based on the evaluation (Si Is given by the function). In this case, the similarity based on the evaluation (Si evaluation) is the similarity (Si) of the search sentence for each evaluation type j. j ) Is the coefficient (C j ) Is multiplied and expressed as the sum of them. Coefficient (C j For example, as shown in FIG. 20, weighting values such as +0.2 are used for the evaluation type “useful” and −0.1 is used for the evaluation type “useless”.
[0046]
Through the above processing, ranking can be performed considering not only evaluation information but also the similarity between the entered keyword or question sentence and the already registered keyword or question sentence. Can be ranked.
[0047]
For example, when an evaluation of “useful (j = 1)” is input to a document with ID = 20, the question sentence is recorded in the column n + 2m + 1. Thereafter, when the document with ID = 20 is searched. , C j Since is positive, the score including the evaluation becomes high. On the other hand, if an evaluation of “useless (j = 2)” is entered, j Since the is negative, the score with the evaluation is low. When the degree of similarity of the question sentences is low, the value of the evaluation (Si evaluation) itself added to the score is low, and it becomes possible to rank the usefulness levels more accurately reflecting the evaluations on the question sentences. .
[0048]
In the similarity display # 1 and # 2, the ranking of usefulness is performed by recalculating the normal score, but only the evaluation or the similarity and the evaluation of the question sentence without using the score. It is also possible to rank the usefulness by using only.
[0049]
In the above description, the case where the document search system of the present embodiment is applied to a client-server type computer system has been described as an example. However, the document search system can be similarly applied to a stand-alone computer. .
[0050]
Although the case where the evaluation information and the question sentence are presented on the document browsing screen has been mainly described, the evaluation information and the question sentence can be displayed for each document on the search result list display screen. In addition, since the natural language search system 111 according to the present embodiment is realized by a computer program, the computer program is stored in a computer-readable storage medium so that the computer program can be transferred to a normal computer through the storage medium. The effect similar to that of the present embodiment can be obtained only by introduction. The computer program can be distributed not only via a storage medium but also via a communication medium.
[0051]
Further, the present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the scope of the invention in the implementation stage. Further, the above embodiments include inventions at various stages, and various inventions can be extracted by appropriately combining a plurality of disclosed constituent elements. For example, even if some constituent requirements are deleted from all the constituent requirements shown in the embodiment, the problem described in the column of the problem to be solved by the invention can be solved, and the effect described in the column of the effect of the invention Can be obtained as an invention.
[0052]
【The invention's effect】
As described above, according to the present invention, it is possible to present a user with an index for determining the degree of usefulness related to a searched document file, and a document in which useful information is written can be presented to the user. Can be easily obtained.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a functional configuration of a document search system according to an embodiment of the present invention.
FIG. 2 is an exemplary block diagram illustrating a configuration of a client server type computer system to which the document search system according to the embodiment is applied.
FIG. 3 is an exemplary view showing a field structure of a database used in the document search system according to the embodiment;
FIG. 4 is an exemplary view showing a relationship between database column positions and evaluation types used in the document search system of the embodiment;
FIG. 5 is an exemplary flowchart illustrating the procedure of document registration processing in the document search system according to the embodiment;
FIG. 6 is a view showing an example of initial values of evaluation information registered in the document search system of the embodiment.
FIG. 7 is an exemplary flowchart illustrating a procedure of registration processing of evaluation information and a question sentence in the document search system according to the embodiment;
FIG. 8 is a view showing an example of a registered document browsing screen used in the document search system of the embodiment.
FIG. 9 is an exemplary flowchart illustrating the procedure of evaluation registration processing in the document search system according to the embodiment;
FIG. 10 is a diagram showing an example of evaluation information input from a user in the document search system of the embodiment.
FIG. 11 is an exemplary view showing an example of a registered document browsing screen used in the document search system of the embodiment.
12 is a diagram showing an example of the contents of an evaluation list display unit displayed on the registered document browsing screen of FIG.
FIG. 13 is a view showing an example of the contents of an additional field before evaluation information is added in the document search system of the embodiment.
FIG. 14 is a view showing an example of the contents of an additional field after evaluation information is added in the document search system of the embodiment.
FIG. 15 is an exemplary flowchart illustrating a procedure of a usefulness ranking process which is executed in the document search system according to the embodiment;
FIG. 16 is an exemplary view showing an example of a search result list display screen used in the document search system of the embodiment.
FIG. 17 is an exemplary flowchart illustrating a procedure of score recalculation processing in the document search system according to the embodiment;
FIG. 18 is a flowchart showing another example of a usefulness ranking process in the document search system according to the embodiment;
FIG. 19 is a view for explaining an operation for score recalculation in the document search system according to the embodiment;
FIG. 20 is a view showing an example of weight values used in the document search system of the embodiment.
[Explanation of symbols]
111 ... Natural language search system
201 ... Natural language search database
202 ... Document registration section
203 ... Search / list display section
204 ... Original text retrieval unit
205 ... Evaluation recording section
206 ... Evaluation rank display section
207 ... Evaluation similarity calculation unit
11 ... Server computer
12 ... Client computer
111 ... Natural language search system
112 ... HTTP server

Claims (3)

データベースに登録された文書ファイルの検索を行う文書検索システムにおいて、
利用者から入力されたキーワードまたは質問文に応じて前記データベースに登録されている文書ファイルを検索する検索手段と、
前記検索手段によって検索された文書ファイルに対して利用者から入力された、予め決められた複数種の評価種類の中から選択された評価種類から構成される評価情報と、前記文書ファイルの検索に使用されたキーワードまたは質問文とを、前記文書ファイルに対応付けて前記データベースに登録する手段と、
前記検索手段によって検索された文書ファイル毎に、その文書ファイルに対応付けて登録されている前記評価情報と前記キーワードまたは質問文とを提示する情報提示手段と
前記検索手段によって文書ファイルの検索が行われた場合、その検索に使用されたキーワードまたは質問文と、前記データベースにすでに登録されているキーワードまたは質問文との類似度を、前記検索手段によって検索された各文書ファイル毎に算出する手段と、
算出された類似度と、前記検索手段によって検索された各文書ファイルに対応して登録されている前記評価情報の評価種類とに基づいて、前記検索手段によって検索された文書ファイルそれぞれの有用度を順位付けして表示する順位付け表示手段とを具備することを特徴とする文書検索システム。
In a document search system that searches document files registered in the database,
Search means for searching a document file registered in the database according to a keyword or a question sentence input from a user;
Evaluation information composed of evaluation types selected from a plurality of predetermined evaluation types input from the user for the document file searched by the search means, and for searching the document file Means for registering the used keyword or question sentence in the database in association with the document file;
Information presentation means for presenting the evaluation information and the keyword or question sentence registered in association with the document file for each document file searched by the search means ;
When a document file is searched by the search means, the search means searches the similarity between the keyword or question sentence used in the search and the keyword or question sentence already registered in the database. Means for calculating each document file,
Based on the calculated similarity and the evaluation type of the evaluation information registered corresponding to each document file searched by the search means, the usefulness of each document file searched by the search means is calculated. A document search system comprising ranking display means for ranking and displaying .
データベースに登録された文書ファイルの検索を文書検索システムによって実行する文書検索方法において、In a document search method for executing a search for a document file registered in a database by a document search system,
前記文書検索システムが、利用者から入力されたキーワードまたは質問文に応じて前記データベースに登録されている文書ファイルを検索する検索ステップと、A search step in which the document search system searches for a document file registered in the database according to a keyword or a question sentence input by a user;
前記文書検索システムが、前記検索ステップによって検索された文書ファイルに対して利用者から入力された、予め決められた複数種の評価種類の中から選択された評価種類から構成される評価情報と、前記文書ファイルの検索に使用されたキーワードまたは質問文とを、前記文書ファイルに対応付けて前記データベースに登録するステップと、Evaluation information composed of an evaluation type selected from a plurality of predetermined evaluation types, which is input from the user to the document file searched by the search step by the document search system, Registering the keyword or question sentence used for searching the document file in the database in association with the document file;
前記文書検索システムが、前記検索ステップによって検索された文書ファイル毎に、その文書ファイルに対応付けて登録されている前記評価情報と前記キーワードまたは質問文とを提示する情報提示ステップと、An information presentation step in which the document search system presents the evaluation information and the keyword or question sentence registered in association with the document file for each document file searched in the search step;
前記文書検索システムが、前記検索ステップによって文書ファイルの検索が行われた場合、その検索に使用されたキーワードまたは質問文と、前記データベースにすでに登録されているキーワードまたは質問文との類似度を、前記検索ステップによって検索された各文書ファイル毎に算出するステップと、When the document search system searches for a document file in the search step, the similarity between the keyword or question sentence used for the search and the keyword or question sentence already registered in the database, Calculating for each document file searched by the search step;
前記文書検索システムが、前記算出された類似度と、前記検索ステップによって検索された各文書ファイルに対応して登録されている前記評価情報の評価種類とに基づいて、前記検索ステップによって検索された文書ファイルそれぞれの有用度を順位付けして表示する順位付け表示ステップとを具備することを特徴とする文書検索方法。The document search system is searched by the search step based on the calculated similarity and the evaluation type of the evaluation information registered corresponding to each document file searched by the search step A document search method comprising: a ranking display step of ranking and displaying the usefulness of each document file.
データベースに登録された文書ファイルの検索を行うためのコンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、A computer-readable storage medium storing a computer program for searching a document file registered in a database, the computer program comprising:
利用者から入力されたキーワードまたは質問文に応じて前記データベースに登録されている文書ファイルを検索する手順と、A procedure for searching a document file registered in the database according to a keyword or a question sentence inputted by a user;
前記検索された文書ファイルに対して利用者から入力された、予め決められた複数種の評価種類の中から選択された評価種類から構成される評価情報と、前記文書ファイルの検索に使用されたキーワードまたは質問文とを、前記文書ファイルに対応付けて前記データベースに登録する手順と、Evaluation information composed of an evaluation type selected from a plurality of predetermined evaluation types input from the user for the searched document file, and used for searching the document file A procedure for registering keywords or question sentences in the database in association with the document file;
前記検索された文書ファイル毎に、その文書ファイルに対応付けて登録されている前記評価情報と前記キーワードまたは質問文とを提示する情報提示手順と、An information presentation procedure for presenting the evaluation information and the keyword or question sentence registered in association with the document file for each retrieved document file;
文書ファイルの検索が行われた場合、その検索に使用されたキーワードまたは質問文と、前記データベースにすでに登録されているキーワードまたは質問文との類似度を、前記When the document file is searched, the similarity between the keyword or question sentence used in the search and the keyword or question sentence already registered in the database is calculated as 検索された各文書ファイル毎に算出する手順と、A procedure for calculating each retrieved document file;
算出された類似度と、前記検索された各文書ファイルに対応して登録されている前記評価情報の評価種類とに基づいて、前記検索された文書ファイルそれぞれの有用度を順位付けして表示する順位付け表示手順とをコンピュータに実行させることを特徴とする記憶媒体。Based on the calculated similarity and the evaluation type of the evaluation information registered corresponding to each retrieved document file, the usefulness of each retrieved document file is ranked and displayed. A storage medium that causes a computer to execute a ranking display procedure.
JP2000227457A 2000-07-27 2000-07-27 Document search system and document search method Expired - Fee Related JP4146067B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000227457A JP4146067B2 (en) 2000-07-27 2000-07-27 Document search system and document search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000227457A JP4146067B2 (en) 2000-07-27 2000-07-27 Document search system and document search method

Publications (2)

Publication Number Publication Date
JP2002041524A JP2002041524A (en) 2002-02-08
JP4146067B2 true JP4146067B2 (en) 2008-09-03

Family

ID=18720905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000227457A Expired - Fee Related JP4146067B2 (en) 2000-07-27 2000-07-27 Document search system and document search method

Country Status (1)

Country Link
JP (1) JP4146067B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008126184A1 (en) * 2007-03-16 2008-10-23 Fujitsu Limited Document degree-of-importance calculating program
JP6662800B2 (en) * 2017-02-23 2020-03-11 日本電信電話株式会社 Presentation device and presentation method
JP6871799B2 (en) * 2017-04-28 2021-05-12 キヤノンマーケティングジャパン株式会社 Information processing equipment, information processing system, its control method and program

Also Published As

Publication number Publication date
JP2002041524A (en) 2002-02-08

Similar Documents

Publication Publication Date Title
JP4638439B2 (en) Personalized web search
JP3717808B2 (en) Information retrieval system
US7783644B1 (en) Query-independent entity importance in books
KR101323187B1 (en) Methods of and systems for searching by incorporating user-entered information
US7865495B1 (en) Word deletion for searches
US8280878B2 (en) Method and apparatus for real time text analysis and text navigation
US7949674B2 (en) Integration of documents with OLAP using search
US20020073079A1 (en) Method and apparatus for searching a database and providing relevance feedback
US20180004850A1 (en) Method for inputting and processing feature word of file content
US20040002945A1 (en) Program for changing search results rank, recording medium for recording such a program, and content search processing method
JP5066963B2 (en) Database construction device
WO2001024038A2 (en) Internet brokering service based upon individual health profiles
KR20160124079A (en) Systems and methods for in-memory database search
JP2003067419A (en) Information retrieving method and information retrieval system
JP2007249322A (en) Document visualization device and document visualization program
JP2009009461A (en) Keyword inputting-supporting system, content-retrieving system, content-registering system, content retrieving and registering system, methods thereof, and program
JP4091146B2 (en) Document retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus
JP2004178421A (en) Document retrieval device, method for retrieving document, program, and recording medium
US8082240B2 (en) System for retrieving information units
JP4146067B2 (en) Document search system and document search method
JP4428703B2 (en) Information retrieval method and system, and computer program
JP5518665B2 (en) Patent search device, patent search method, and program
JP3249743B2 (en) Document search system
JP2005010848A (en) Information retrieval device, information retrieval method, information retrieval program and recording medium
JP2020064482A (en) Attribute extraction device and attribute extraction method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080205

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080617

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080619

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110627

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120627

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees