JP2000276470A - 情報検索性能評価方法および情報検索性能評価装置並びに情報検索性能評価処理プログラムを記録した記録媒体 - Google Patents

情報検索性能評価方法および情報検索性能評価装置並びに情報検索性能評価処理プログラムを記録した記録媒体

Info

Publication number
JP2000276470A
JP2000276470A JP11077896A JP7789699A JP2000276470A JP 2000276470 A JP2000276470 A JP 2000276470A JP 11077896 A JP11077896 A JP 11077896A JP 7789699 A JP7789699 A JP 7789699A JP 2000276470 A JP2000276470 A JP 2000276470A
Authority
JP
Japan
Prior art keywords
search
information
text
performance evaluation
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11077896A
Other languages
English (en)
Inventor
Naoki Kayahara
直樹 萱原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP11077896A priority Critical patent/JP2000276470A/ja
Priority to US09/533,100 priority patent/US6615200B1/en
Publication of JP2000276470A publication Critical patent/JP2000276470A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】自然文を検索要求として入力することで情報検
索を可能とする検索システムの検索性能を定量的に評価
する。 【解決手段】本文とその本文に対する表題(見出し)と
を1対の文書と考え、この本文とその見出しを有する文
書を検索対象文書として複数用意し、たとえば、それぞ
れの見出しを検索要求内容とするとともに、それぞれの
本文をその見出しに対して検索される検索対象情報とす
る。そして、ある1つの見出しを検索手段に入力し(ス
テップs1)、検索処理を行い(ステップs2)、それ
によって検索された検索結果を見出しに対する適合度に
基づく順位付けを行って、その順位に基づいてその検索
システムの検索処理評価を行う(ステップs3)。そし
て、次の見出しにを入力して同じ処理を繰り返し、それ
ぞれの検索結果から総合的にその検索システムの検索性
能の評価を行う(ステップs4,s5)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、検索システムの検
索性能を自動で定量的に評価する情報検索性能評価方法
および情報検索性能評価装置ならびに情報検索性能評価
処理プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】膨大な量の情報の中から所望とする情報
を得るため検索処理としては、従来より、主に単語のよ
うなごく短いキーワードを検索要求として検索システム
に入力することによって、そのキーワードの存在する文
書を検索結果として出力することがごく普通に行われて
いる。これをここではキーワード指向による情報検索と
呼ぶ。
【0003】しかし、最近では、そのようなキーワード
指向による情報検索だけではなく、ここでいうキーワー
ドよりは長い文字列によって構成されているいわゆる自
然文を入力することで、情報検索を可能とする検索方法
も出現している。これをここでは、自然文指向による情
報検索と呼ぶことにする。
【0004】上述のキーワード指向による情報検索で
は、ユーザが単語などのキーワードを検索要求として入
力することによって、データベースに蓄積された多数の
情報の中からそのキーワードが存在する情報を取り出し
て出力する。一方、自然文指向による情報検索は、ユー
ザがある自然文を検索要求として入力することによっ
て、その自然文に概念的に近い内容を有する文書を探
し、それがあれば、その文書を検索結果として出力する
ものである。
【0005】これらキーワード指向による情報検索ある
いは自然文指向による情報検索のいずれであっても、入
力された検索要求に対して適切な情報が検索されること
が要求される。今後の動向としては、キーワード指向に
よる情報検索もこれまでと同様、広く用いれらると考え
られるが、それ以上に、自然文指向によるキーワード検
索が注目されてくるものと考えられる。以下では、単
に、情報検索処理と言った場合には、その情報検索処理
は自然文指向による情報検索を強く意識した情報検索処
理であるとする。
【0006】
【発明が解決しようとする課題】現在、このような情報
検索処理を実現するシステムとしては様々な検索システ
ムがある。ただし、それらの検索システムが、本当に、
ユーザの検索要求に対して適切な結果を出力できるかど
うか、つまり、検索システムの検索性能を定量的に評価
することは難しい。
【0007】それは、ユーザの入力する自然文を表す概
念も、それによって検索される文書が表す概念も一意に
決められるものではなく、その自然文に対してどれが適
切な文書であるかの判断は、最終的には、その検索要求
を入力したユーザが決めることになるからである。
【0008】したがって、検索システムにおける検索性
能評価は、ユーザが入力した検索要求(自然文)によっ
て検索された検索結果を、そのユーザが見て、自分の入
力した検索要求に対してどの程度納得できる内容である
かによって、その検索システムを評価するしかなかっ
た。
【0009】検索システムにおける検索性能評価を行う
従来の一例を挙げるとすれば、検索対象とする複数の何
らかの文書に対して、それとは全く別に検索要求を複数
用意し、それぞれの検索要求に対して検索対象文書がど
の程度類似しているかを人間が両者の対応付けから判断
し、ある検索要求に対する正解の検索結果はどの文書で
あるかを決めて、実際に検索を行ってその検索結果から
その検索システムを評価するというような方法がある。
【0010】しかし、この従来の評価方法では、検索要
求に対して検索対象文書がどの程度類似しているかを人
間が両者の対応付けから判断し、ある検索要求に対する
正解の検索結果はどの文書であるかを決めるなど、評価
基準を決めるに際して人間が幾つもの作業を行う必要が
ある。また、ある検索要求に対しそれとは全く別な検索
対象文書の対応付けを人間の判断によって決めると、主
観的になりがちで適切な評価基準とはならないことにも
なり、適正な検索性能評価が行えないという問題点もあ
る。
【0011】そこで本発明は、ある情報検索システムの
検索性能評価を行う際の評価基準を簡単にしかも適切に
決めることができ、それによって適正な検索性能評価を
可能とすることを目的としている。
【0012】
【課題を解決するための手段】上述の目的を達成するた
めに、本発明の情報検索性能評価方法は、本文とその本
文に対する表題とを1対の文書と考え、この本文とその
表題を有する文書を検索対象文書として用意し、表題ま
たは本文の一方を前記検索要求とするとともに、他方を
その検索要求に対して検索される検索対象情報とし、前
記検索要求を入力することによって検索された検索結果
に基づいて、検索処理システムの検索性能評価を行うよ
うにしている。
【0013】また、本発明の情報検索性能評価装置は、
本文とその本文に対する表題とを1対の文書と考え、こ
の本文とその表題を有する文書を検索対象文書として用
意し、表題または本文の一方を前記検索要求とするとと
もに、他方をその検索要求に対して検索される検索対象
情報とし、前記検索要求を入力することによって検索さ
れた検索結果に基づいて、検索処理システムの検索性能
評価を行う情報検索性能評価装置であって、この情報検
索性能評価装置は、前記検索対象情報を格納する記憶手
段と、前記検索要求が入力されることによって、前記記
録手段から当該検索要求に基づいた検索を行う検索手段
と、この検索手段によって検索された検索結果に基づい
てその検索処理システムの検索性能評価を行う検索結果
評価手段とを有した構成としている。
【0014】また、本発明の情報検索性能評価処理プロ
グラムを記録した記録媒体であって、その情報検索性能
評価処理プログラムは、本文とその本文に対する表題と
を1対の文書と考え、この本文とその表題を有する文書
を検索対象文書として用意し、表題または本文の一方を
前記検索要求とするとともに、他方をその検索要求に対
して検索される検索対象情報とし、前記検索要求を入力
することによって検索された検索結果に基づいて、検索
処理システムの検索性能評価を行う情報検索性能評価プ
ログラムを記録した記録媒体であって、その情報検索性
能評価プログラムは、前記検索要求が入力されることに
よって、その検索要求と対をなす情報を検索結果として
出力する手順と、これによって検索された検索結果に基
づいてその検索処理システムの検索性能評価を行う手順
とを含むものである。
【0015】これらそれぞれの発明において、前記検索
システムの検索性能評価は、前記表題または本文の一方
を検索要求として入力することによって検索された検索
結果の中に、そのときの検索要求と対をなす検索対象情
報が存在するか否かを判断し、対をなす検索対象情報が
存在する場合には、当該対をなす検索対象情報が当該検
索結果の中にどのような状態で存在しているかに基づい
て行うようにしている。
【0016】そして、前記検索要求と対をなす検索対象
情報が検索結果の中に存在する場合、どのような状態で
存在しているかに基づいてその検索処理システムの検索
結果評価を行う処理は、その検索要求に基づいて複数の
情報を検索し、検索されたそれぞれの検索結果に対し当
該検索要求との適合度に基づく順位付けを行い、その順
位に基づいてその検索システムの検索性能評価を行うよ
うにしている。
【0017】また、前記本文とその表題を有する文書を
複数種類用意し、それぞれの検索要求を1つ1つ与え
て、それぞれの検索要求に対する検索結果を総合して検
索性能評価を行うようにしてもよい。
【0018】本発明は、ある情報検索システムに検索要
求を与えたとき、その検索要求に対して適切な情報が検
索されるか否かを定量的に評価可能とするもので、これ
を実現するために、本発明では、本文とその表題を有す
る文書を検索対象文書として用意し、表題または本文の
一方を前記検索要求とし、他方を検索対象情報として、
その検索要求を入力したとき、どのような情報が検索さ
れるかによってその検索システムの検索性能を評価する
ようにしている。
【0019】たとえば、新聞を例に取れば、見出しがあ
ってその見出しに対する本文が存在する。この見出し
は、本文内容を簡潔に表したものであり、仮に見出しを
検索要求として与えたとき、その見出しと対をなす本文
が検索されればその検索処理は適正になされたといえ
る。
【0020】本発明は、このように、表題または本文の
一方を前記検索要求とし、他方を検索対象情報として、
その検索要求を入力したとき、どのような情報が検索さ
れるかによってその検索システムの検索性能を評価する
ようにしているので、それぞれの検索システムの検索性
能を的確にしかも定量的に評価することができる。
【0021】その評価の仕方としては、たとえば、表題
を検索要求内容としたとすれば、その表題に基づいて複
数の情報を検索し、かつ、それぞれの検索結果に対し、
そのとき入力した表題との適合度に基づく順位付けを行
い、その順位に基づいてその検索システムの検索処理評
価を行うようにしている。これによって、その検索シス
テムの検索性能評価を定量的に行うことができ、これを
それぞれの検索システムについて行えば、それぞれの検
索システムの検索性能の比較も簡単に行える。
【0022】さらに、本文とその表題を有する文書を複
数種類用意することで、1つの検索システムにおいて、
複数の検索を試みることができ、それぞれがどのような
検索結果となるかを総合的に調べることによって、より
適正に検索システムの検索性能評価を行うことができ
る。
【0023】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。なお、この実施の形態で説明する内容は、
本発明の情報検索性能評価方法および情報検索性能評価
装置についての説明であるとともに、本発明の情報検索
性能評価処理プログラムを記録した記録媒体における検
索性能評価処理プログラムの具体的な処理内容をも含む
ものである。
【0024】本発明は、ある検索システムについて、ユ
ーザの入力した検索要求(自然文)に対しどの程度適切
な文書が検索されたかを評価するものであるが、その評
価を行うに際して、本文とそれに付された表題とを有す
る文書を用意し、たとえば、その表題を入力したときに
その本文がどのような状態で検索されるかを調べること
によって行う。
【0025】たとえば、新聞を例に取れば、記事内容で
ある本文に対してその本文の内容を簡潔に表した表題
(見出しという)が付けられている。この見出しは、そ
の本文を作成した記者などが、本文の内容の大枠を読者
に簡単に伝えることができるように考えられた短い文
(自然文)であるといえる。
【0026】したがって、本文とその本文に付された見
出しとを一対として考え、見出しを検索要求として入力
したときに、それと対をなす本文が検索されることが望
ましい検索であると言える。
【0027】そこで、これを利用して、見出しと本文で
対をなす文書を多数用意し、それをデータベースに蓄積
して、ある見出しを検索要求として入力し、それに対し
てどのような文書(本文)が検索されるかを調べること
で、その検索システムの検索性能の評価を行うことがで
きると考えられる。以下、具体例を参照しながら説明す
る。
【0028】図1は本発明の検索システムにおける情報
検索性能評価装置の実施の形態の構成図である。記憶手
段1には多数の見出しQ1,Q2,Q3,・・・,Qn
が蓄積されたデータベース(これを第1のデータベース
という)11と、これらの見出しと対をなす本文、つま
り、見出しQ1と対をなす本文D1、見出しQ2と対を
なす本文D2、見出しQnと対をなす本文Dnというよ
うに、個々の見出しと対をなす本文D1,D2,D3,
・・・,Dnが蓄積されたデータベース(これを第2の
データベースという)12が存在する。
【0029】また、検索要求入力手段2は、第1のデー
タベース11から所定の見出しを抽出して、それを検索
要求として検索手段3に送る。検索手段3は検索要求入
力手段2からの検索要求(抽出された見出し)を受け取
ると、第2のデータベース12からその見出しに基づい
た情報検索を行って、その検索結果を検索結果評価手段
4に送る。
【0030】検索結果評価手段4は、検索手段3によっ
て得られた検索結果が適正であるか否かの評価を行う。
このとき、与えられた検索要求(見出し)と対をなす本
文がどれであるかを、見出し・本文対応デーブル5を参
照して調べ、それによってその検索要求に対する検索結
果が適正であるか否かの評価を行うものである。なお、
この具体的な評価の仕方についてはのちに説明する。
【0031】図2は見出し・本文対応テーブル5の一例
を示すもので、この例では、見出しQ1に対しては本文
D1、見出しQ2に対しては本文D2、見出しQ3に対
しては本文D3、見出しQnに対しては本文Dnという
ような対応付けがなされている。
【0032】図3は本発明における処理手順を説明する
フローチャートであり、以下、このフローチャートを参
照しながら具体的な処理内容について説明する。
【0033】まず、検索要求入力手段2が第1のデータ
ベース11からある1つの見出しQ1を抽出してそれを
検索手段3に送る(ステップs1)。これによって、検
索手段3は、その見出しQ1を用いて第2のデータベー
ス12から検索を行う(ステップs2)。このとき、検
索手段3は、見出しQ1に対しその見出しQ1の内容に
適合する複数の情報をその適合度に応じた順位で抽出す
る。
【0034】たとえば、見出しQ1の内容に対しては、
本文D1が最も適合度が高いとして本文D1が第1位で
抽出され、本文D4が2番目に適合度が高いとして本文
D4が第2位で抽出され、本文D3が3番目に適合度が
高いとして本文D3が第3位で抽出されるというよう
に、予め定められた順位まで(第m位まで)抽出するも
のとする。
【0035】そして、その第m位までの検索結果を検索
結果評価手段4に送る(ステップs3)。次に、処理対
象とする見出しが残っているか否かを調べて(ステップ
s4)、処理対象となる見出しが残っていれば、ステッ
プs1に戻って、次の見出しを抽出する。
【0036】なお、この実施の形態では、説明を簡単に
するために、最初に見出しQ1を抽出し、次に見出しQ
2を抽出し、その次に、見出しQ3を抽出するように、
その抽出順番は、見出し番号順に順次抽出されるような
設定となっているものとする。また、処理対象とする見
出しの数は、第1のデータベース11内に存在するすべ
ての見出し(ここでは、すべての見出しとして見出しQ
1〜Qnが存在する)としてもよいが、予め何個の見出
しを処理対象とするかを決めておいてもよい。たとえ
ば、ここでは、説明を簡単にするために、5個の見出し
(見出しQ1〜Q5)を処理対象の見出しとする。ま
た、適合度の順位はこの実施の形態では第10位までと
し、第10位までを抽出するものとする。
【0037】前述の図3のフローチャートに説明が戻
る。現在の処理対象の見出しがQ1であったとすれば、
この場合まだ、処理対象となる見出しが残っているの
で、次の処理対象となる見出し(この場合は、見出しQ
2)を検索要求入力手段2が抽出して、それを検索手段
3に送って、その見出しQ2による検索処理を行う。こ
れによって、検索手段3は、見出しQ2に対しその見出
しQ2の内容に適合する複数の情報をその適合度に応じ
た順位で抽出する。
【0038】たとえば、見出しQ2の内容に対して、本
文D7が第1位の適合度であるとして抽出され、本文D
2が第2位の適合度であるとして抽出され、本文D5が
第3位の適合度であるとして抽出されるというように、
予め定められた順位(10番目まで)までを抽出する。
【0039】このような処理を処理対象となる見出しQ
5まで繰り返す。これによって得られた検索結果一覧を
図4に示す。この検査結果一覧は、今現在、評価対象と
なっている検索システムが検索システムST1であると
すれば、その検索システムST1における検索結果であ
る。
【0040】この図4において、見出しQ1〜Q5に対
し、それぞれ第1位で検索された検索結果に注目してみ
ると、この検索システムST1は、見出しQ1に対して
は本文D1が第1位で検出され、見出しQ2に対しては
本文D7が第1位で検出され、見出しQ3に対しては本
文D3が第1位で検出され、見出しQ4に対しては本文
D2が第1位で検出され、見出しQ5に対しては本文D
5が第1位で検出されるというような検索結果となって
いる。
【0041】検索結果評価手段4は、図2に示される見
出し・本文対応テーブルを参照して、本来、どの見出し
とどの本文が対をなしているかを調べ、それによって評
価を行ってその評価結果を出力する(ステップs5)。
たとえば、見出しQ1を検索要求とした場合、それと対
をなす本文D1が当該検索結果の中にどのような状態で
存在しているかを判断し、その判断結果に基づいてその
検索処理システムの検索性能評価を行う。
【0042】図4で示される検索結果一覧では、見出し
Q1,Q3,Q5に対してはそれらと対をなす本文D
1,D3,D5がそれぞれ第1位で検索され、見出しQ
2に対してはそれと対をなす本文D2が第2位、見出し
Q4に対してはそれと対をなす本文D4が第3位で検索
されている。
【0043】この検索結果によれば、確かに、見出しQ
2とQ4を検索要求としたとき、それぞれ対をなす本文
D2,D4がそれぞれ第1位で検索されなかったが、処
理対象のすべての見出Q1〜Q5で判断すると、この検
索システムST1は、全体的にみれば適正な検索処理が
なされる検索システムであるということができる。
【0044】このような検索結果一覧を得ることによっ
て、その検索結果一覧から、その検索処理に対する客観
的な評価結果を出力することができる。なお、その評価
結果の表し方は様々考えられるが、ここではその一例に
ついて説明する。
【0045】たとえば、検索要求として用いられた見出
しに対して第1位で検索された本文がその見出しと対を
なす本文であった場合、つまり、見出しQ1を検索要求
とした場合について見れば、見出しQ1に対して本文D
1が第1位で検索された場合には10点、本文D1が第
2位で検索された場合には9点、本文D1が第3位で検
索された場合には8点というように、順位に対する点数
を決めておき、その点数の合計を用いてそのシステムの
評価結果とすることができる。
【0046】一例として、図4の検索結果一覧で考えれ
ば、図5に示すように、見出しQ1に対しては10点、
見出しQ2に対しては9点、見出しQ3に対しては10
点、見出しQ4に対しては8点、見出しQ5に対しては
10点というような点数が付けられる。そして、処理対
象のすべての見出しQ1〜Q5に対する合計点を出し、
その合計点を評価結果とすることができる。この評価結
果は点数そのものでもよいが、その点数に基づいて、た
とえば、5段階評価などの形で表現することもできる。
【0047】そして、このような処理を他の検索システ
ム(たとえば、検索システムST2,ST3とする)に
ついても行い、それぞれの検索システムST2,ST3
それぞれについて、処理対象のすべての見出しQ1〜Q
5に対する合計点を出し、その合計点を評価結果とす
る。図6は検索システムST1,ST2,ST3におけ
る処理対象のすべての見出しQ1〜Q5に対する合計点
と、その合計点を合計して得られた評価結果を示すもの
である。これによれば、システムST1の評価結果が他
の検索システムST2,ST3に比べて最も高く、これ
ら3つの検索システムのなかでは最も優れた検索処理シ
ステムであることがわかる。
【0048】以上説明したように、この実施の形態によ
れば、処理対象となる見出しとして見出しQ1〜Q5を
選び、これらの見出しQ1,Q2,Q3,Q4,Q5を
それぞれ検索要求として検索システムに入力して、その
検索要求によって実際に検索処理を行わせる。そして、
実際に検索された情報(本文)がどのような本文である
か否かを調べる。
【0049】つまり、検索要求である見出しに対して
は、それと対をなす本文が検索されるのが最も望ましい
ので、たとえば、見出しQ1に対しては本文D1がどの
ような順位で検索されるのかを調べることによって、そ
の検索システムに対する評価を行うことができる。
【0050】この実施の形態では、1つ1つの見出しに
ついて第1位で検索された場合に10点、第2位に検索
された場合に9点などというように、それぞれの見出し
ごとに、順位に対応した点数を付けてその合計点を評価
結果とし、その評価結果によって検索システムを客観的
に評価することができる。
【0051】なお、本発明は以上説明した実施の形態に
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。たとえば、そ
れぞれの検索システムの検索処理を評価する評価結果の
求めかたは、前述の実施の形態の例に限られるものでは
なく、その他にも様々な方法がある。たとえば、前述の
実施の形態では、第1位から順に直線的な変化での点数
の付け方であったが、たとえば、高順位に対してはより
高い点数となるような重みづけを行った曲線的な変化と
なるような点数の付け方であってもよい。
【0052】また、たとえば、処理対象となる見出しの
数を5種類としたとき、その5種類の見出しについてそ
れぞれ検索を行った結果、それぞれの見出しと対をなす
本文が第1位となった回数を求め、その回数の数によっ
て評価結果を求めることもできる。一例として、5種類
の見出しがあったとすると、そのうち、4個の見出しに
ついて第1位になった場合、その「4」という値(その
値そのものを評価結果としてもよいが、その値に基づい
て何らかの形で評価結果を求めるようにしてもよい)。
【0053】また、第1位になった確率を求めて評価結
果を得るようにしてもよい。その一例として、5種類の
見出しがあったとすると、そのうち、4個の見出しにつ
いて第1位になった場合、1位となった確率(この場
合、80%)をその評価結果としてもよい。この場合
も、その確率そのものを評価結果としてもよいが、その
確率に基づいて何らかの形で評価結果を求めるようにし
てもよい。
【0054】さらに、順位にしきい置を設定して、その
しきい値以内に検索要求となっている見出しと対をなす
本文があるか否かによって、そのシステムの検索性能評
価とするようにしてもよい。たとえば、しきい値を第3
位に設定したとすれば、第3位以内で対をなす本文が検
索された場合には、プラスの評価をし、第3位内で検索
されない場合にはマイナスの評価をして、プラスの数を
カウントとしてその数によって評価するというようなこ
ともできる。これは大まかな評価となるが、検索システ
ムの検索処理の性能を知る目安とするには十分である。
【0055】このように、それぞれの検索システムを評
価する方法は様々考えられ、どのような形で評価を行う
かは特に限定されるものではない。
【0056】また、前述の実施の形態では、見出しを検
索要求として第1のデータベースに蓄積し、本文を検索
対象文書として第2のデータベースに蓄積して、その見
出しに対してどのような本文が検索されるかを調べた
が、逆に、本文を検索要求として第1のデータベースに
蓄積し、見出しを検索対象文書として第2のデータベー
スに蓄積し、本文を検索要求として入力し、その本文に
対してどのような見出しが検索されるかを調べ、その結
果によってその検索システムを評価するようにしてもよ
い。
【0057】さらに、前述の実施の形態では、検索結果
評価手段が検索結果についての評価を行う際、現在、処
理を行っている見出しがどれであるか、そして、その見
出しと対をなす本文がどれであるかを、見出し・本文対
応テーブルの内容を参照して調べていたが、テーブルを
参照するのではなく、検索手段が現在どの見出しについ
て検索処理を行っているかの情報を検索手段から受けた
り、それに対をなす本文はどれであるかの情報を第2の
データベースから直接受けるようにすればテーブルは特
に必要ではなくなる。
【0058】さらに、前述の実施の形態では、表題(見
出し)と本文を有する文書として、新聞の記事を例にと
って説明したが、これは新聞に限られるものではなく、
表題と本文が対をなして存在する文書であれば特に限定
されるものではない。
【0059】また、前述の実施の形態では、検索要求と
して用いられる見出しは、第1のデータベースに格納し
ておいて、検索要求入力手段2がその第1のデータベー
スから検索要求としての見出しを1つ1つ抽出するよう
にしたが、この検索要求は、必ずしもデータベースに蓄
積しておくことはなく、人間がその都度、評価を行うた
めに予め用意された検索要求(この実施の形態では見出
し)を入力して、その入力された見出しに基づいて検索
処理を行うようにすることもできる。
【0060】また、以上説明した本発明の処理を行う検
索性能評価処理プログラムは、フロッピィディスク、光
ディスク、ハードディスクなどの記録媒体に記録させて
おくことができ、本発明はその記録媒体をも含むもので
ある。また、ネットワークからその処理プログラムを得
るようにしてもよい。
【0061】
【発明の効果】以上説明したように本発明によれば、本
文とその表題を有する文書を検索対象文書として用意
し、表題または本文の一方を前記検索要求内容とし、他
方を検索対象情報として、その検索要求を入力したと
き、どのような情報が検索されるかによってその検索シ
ステムの検索性能を評価するようにしている。たとえ
ば、新聞を例に取れば、見出しがあってその見出しに対
する本文が存在する。この見出しは、本文内容を簡潔に
表したものであり、仮に見出しを検索要求として与えた
とき、その見出しと対をなす本文が検索されればその検
索処理は適正になされたといえる。
【0062】このように、本発明は、従来のように、検
索対象とする複数の何らかの文書に対して、それとは全
く別に検索要求を複数用意し、それぞれの検索要求に対
して検索対象文書がどの程度類似しているかを人間が両
者の対応付けから判断し、ある検索要求に対する正解の
検索結果はどの文書であるかを決めるというように、評
価基準を決めるに際して人間が幾つもの作業を行う必要
がなくなり、しかも、本発明では、それぞれの検索シス
テムの検索性能を適正にしかも定量的に評価することが
できる。その評価の仕方としては、たとえば、表題を検
索要求としたとすれば、その表題に基づいて複数の情報
を検索し、かつ、それぞれの検索結果に対し、そのとき
入力した表題との適合度に基づく順位付けを行い、その
順位に基づいてその検索システムの検索処理評価を行う
ようにしている。
【0063】これによって、その検索システムの検索性
能評価を自動的にしかも定量的に行うことができ、これ
をそれぞれの検索システムについて行えば、それぞれの
検索システムの検索性能の比較も簡単に行える。さら
に、本文とその表題を有する文書を複数種類用意するこ
とで、1つの検索システムにおいて、複数の検索を試み
ることができ、それぞれがどのような検索結果となるか
を総合的に調べることによって、より正確に検索システ
ムの検索性能評価を行うことができる。
【図面の簡単な説明】
【図1】本発明の検索性能評価装置の実施の形態を説明
する構成図である。
【図2】本発明の実施の形態で用いられる新聞の見出し
とその本文の対応付けを示すテーブルを説明する図であ
る。
【図3】本発明の実施の形態の検索性能評価処理手順を
説明するフローチャートである。
【図4】ある検索システムST1における検索要求とし
ての見出しQ1〜Q5に対する検索結果一覧の一例を示
す図である。
【図5】ある検索システムST1における検索要求とし
ての見出しQ1〜Q5に対する検索結果の評価結果を説
明する図である。
【図6】複数の検索システムST1,ST2,ST3に
おける検索要求としての見出しQ1〜Q5に対する検索
結果の評価結果を説明する図である。
【符号の説明】
1 記憶手段 2 検索要求入力手段 3 検索手段 4 検索結果評価手段 5 見出し・本文対応テーブル 11 第1のデータベース 12 第2のデータベース Q1,Q2,Q3,・・・,Q5 見出し(表題) D1,D2,D3,・・・,D5 本文

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 本文とその本文に対する表題とを1対の
    文書と考え、この本文とその表題を有する文書を検索対
    象文書として用意し、表題または本文の一方を検索要求
    とするとともに、他方をその検索要求に対して検索され
    る検索対象情報とし、前記検索要求を入力することによ
    って検索された検索結果に基づいて、検索処理システム
    の検索性能評価を行うことを特徴とする情報検索性能評
    価方法。
  2. 【請求項2】 前記検索システムの検索性能評価は、前
    記表題または本文の一方を検索要求として入力すること
    によって検索された検索結果の中に、そのときの検索要
    求と対をなす検索対象情報が存在するか否かを判断し、
    対をなす検索対象情報が存在する場合には、当該対をな
    す検索対象情報が当該検索結果の中にどのような状態で
    存在しているかに基づいて行うことを特徴とする請求項
    1記載の情報検索性能評価方法。
  3. 【請求項3】 前記検索要求と対をなす検索対象情報が
    検索結果の中に存在する場合、どのような状態で存在し
    ているかに基づいて検索結果評価を行う処理は、 その検索要求に基づいて複数の情報を検索し、検索され
    たそれぞれの検索結果に対し当該検索要求との適合度に
    基づく順位付けを行い、その順位に基づいてその検索シ
    ステムの検索性能評価を行うことを特徴とする請求項2
    記載の情報検索性能評価方法。
  4. 【請求項4】 前記本文とその表題を有する文書を複数
    種類用意し、それぞれの検索要求を1つ1つ与えて、そ
    れぞれの検索要求に対する検索結果を総合して検索性能
    評価を行うことを特徴とする請求項1から3のいずれか
    1項に記載の情報検索性能評価方法。
  5. 【請求項5】 本文とその本文に対する表題とを1対の
    文書と考え、この本文とその表題を有する文書を検索対
    象文書として用意し、表題または本文の一方を前記検索
    要求とするとともに、他方をその検索要求に対して検索
    される検索対象情報とし、前記検索要求を入力すること
    によって検索された検索結果に基づいて、検索処理シス
    テムの検索性能評価を行う情報検索性能評価装置であっ
    て、 この情報検索性能評価装置は、 前記検索対象情報を格納する記憶手段と、 前記検索要求が入力されることによって、前記記録手段
    から当該検索要求に基づいた検索を行う検索手段と、 この検索手段によって検索された検索結果に基づいて検
    索処理システムの検索性能評価を行う検索結果評価手段
    と、 を有することを特徴とする情報検索性能評価装置。
  6. 【請求項6】 前記結果評価手段が行う検索システムの
    検索性能評価は、前記表題または本文の一方を検索要求
    として入力することによって検索された検索結果の中
    に、そのときの検索要求と対をなす検索対象情報が存在
    するか否かを判断し、対をなす検索対象情報が存在する
    場合には、当該対をなす検索対象情報が当該検索結果の
    中にどのような状態で存在しているかに基づいて行うこ
    とを特徴とする請求項5記載の情報検索性能評価装置。
  7. 【請求項7】 前記検索結果評価手段が行う前記検索要
    求と対をなす検索対象情報が検索結果の中に存在する場
    合、どのような状態で存在しているかに基づいて検索結
    果評価を行う処理は、 その検索要求に基づいて複数の情報を検索し、検索され
    たそれぞれの検索結果に対し当該検索要求との適合度に
    基づく順位付けを行い、その順位に基づいてその検索シ
    ステムの検索性能評価を行うことを特徴とする請求項6
    記載の情報検索性能評価装置。
  8. 【請求項8】 前記本文とその表題を有する文書を複数
    種類用意し、それぞれの検索要求を1つ1つ与えて、そ
    れぞれの検索要求に対する検索結果を総合して検索性能
    評価を行うことを特徴とする請求項5から7のいずれか
    1項に記載の情報検索性能評価装置。
  9. 【請求項9】 本文とその本文に対する表題とを1対の
    文書と考え、この本文とその表題を有する文書を検索対
    象文書として用意し、表題または本文の一方を前記検索
    要求とするとともに、他方をその検索要求に対して検索
    される検索対象情報とし、前記検索要求を入力すること
    によって検索された検索結果に基づいて検索処理システ
    ムの検索性能評価を行う情報検索性能評価処理プログラ
    ムを記録した記録媒体であって、その情報検索性能評価
    処理プログラムは、 前記検索要求が入力されることによって、その検索要求
    と対をなす情報を検索結果として出力する手順と、 これによって検索された検索結果に基づいて検索処理シ
    ステムの検索性能評価を行う手順と、 を含むことを特徴とする情報検索性能評価処理プログラ
    ムを記録した記録媒体。
  10. 【請求項10】 前記検索システムの検索性能評価は、
    前記表題または本文の一方を検索要求として入力するこ
    とによって検索された検索結果の中に、そのときの検索
    要求と対をなす検索対象情報が存在するか否かを判断
    し、対をなす検索対象情報が存在する場合には、当該対
    をなす検索対象情報が当該検索結果の中にどのような状
    態で存在しているかに基づいて行うことを特徴とする請
    求項9記載の情報検索性能評価処理プログラムを記録し
    た記録媒体。
  11. 【請求項11】 前記検索要求と対をなす検索対象情報
    が検索結果の中に存在する場合、どのような状態で存在
    しているかに基づいて検索結果評価を行う処理は、 その検索要求に基づいて複数の情報を検索し、検索され
    たそれぞれの検索結果に対し当該検索要求との適合度に
    基づく順位付けを行い、その順位に基づいてその検索シ
    ステムの検索性能評価を行うことを特徴とする請求項1
    0記載の情報検索性能評価処理プログラムを記録した記
    録媒体。
  12. 【請求項12】 前記本文とその表題を有する文書を複
    数種類用意し、それぞれの検索要求を1つ1つ与えて、
    それぞれの検索要求に対する検索結果を総合して検索性
    能評価を行うことを特徴とする請求項9から11のいず
    れか1項に記載の情報検索性能評価処理プログラムを記
    録した記録媒体。
JP11077896A 1999-03-23 1999-03-23 情報検索性能評価方法および情報検索性能評価装置並びに情報検索性能評価処理プログラムを記録した記録媒体 Withdrawn JP2000276470A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP11077896A JP2000276470A (ja) 1999-03-23 1999-03-23 情報検索性能評価方法および情報検索性能評価装置並びに情報検索性能評価処理プログラムを記録した記録媒体
US09/533,100 US6615200B1 (en) 1999-03-23 2000-03-22 Information-retrieval-performance evaluating method, information-retrieval-performance evaluating apparatus, and storage medium containing information-retrieval-performance-retrieval-evaluation processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11077896A JP2000276470A (ja) 1999-03-23 1999-03-23 情報検索性能評価方法および情報検索性能評価装置並びに情報検索性能評価処理プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2000276470A true JP2000276470A (ja) 2000-10-06

Family

ID=13646851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11077896A Withdrawn JP2000276470A (ja) 1999-03-23 1999-03-23 情報検索性能評価方法および情報検索性能評価装置並びに情報検索性能評価処理プログラムを記録した記録媒体

Country Status (2)

Country Link
US (1) US6615200B1 (ja)
JP (1) JP2000276470A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4025517B2 (ja) * 2001-05-31 2007-12-19 株式会社日立製作所 文書検索システムおよびサーバ

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5294229A (en) * 1992-01-27 1994-03-15 Jonathan Hartzell Teacher and parent interactive communication system incorporating pocket sized portable audio numeric terminals
JPH0756933A (ja) * 1993-06-24 1995-03-03 Xerox Corp 文書検索方法
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5794050A (en) * 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US5855015A (en) * 1995-03-20 1998-12-29 Interval Research Corporation System and method for retrieval of hyperlinked information resources
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US5826261A (en) * 1996-05-10 1998-10-20 Spencer; Graham System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query
US6078914A (en) * 1996-12-09 2000-06-20 Open Text Corporation Natural language meta-search system and method
US5924105A (en) * 1997-01-27 1999-07-13 Michigan State University Method and product for determining salient features for use in information searching
US5950196A (en) * 1997-07-25 1999-09-07 Sovereign Hill Software, Inc. Systems and methods for retrieving tabular data from textual sources
US6289342B1 (en) * 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6275820B1 (en) * 1998-07-16 2001-08-14 Perot Systems Corporation System and method for integrating search results from heterogeneous information resources
US6266668B1 (en) * 1998-08-04 2001-07-24 Dryken Technologies, Inc. System and method for dynamic data-mining and on-line communication of customized information
US6167368A (en) * 1998-08-14 2000-12-26 The Trustees Of Columbia University In The City Of New York Method and system for indentifying significant topics of a document
US6249769B1 (en) * 1998-11-02 2001-06-19 International Business Machines Corporation Method, system and program product for evaluating the business requirements of an enterprise for generating business solution deliverables
US6370527B1 (en) * 1998-12-29 2002-04-09 At&T Corp. Method and apparatus for searching distributed networks using a plurality of search devices
US6366683B1 (en) * 1999-03-16 2002-04-02 Curtis P. Langlotz Apparatus and method for recording image analysis information

Also Published As

Publication number Publication date
US6615200B1 (en) 2003-09-02

Similar Documents

Publication Publication Date Title
US7707204B2 (en) Factoid-based searching
US8150843B2 (en) Generating search results based on user feedback
US9183250B2 (en) Query disambiguation
US5659742A (en) Method for storing multi-media information in an information retrieval system
US5737734A (en) Query word relevance adjustment in a search of an information retrieval system
US8521713B2 (en) Domain expert search
US5721902A (en) Restricted expansion of query terms using part of speech tagging
US7818314B2 (en) Search fusion
US9348900B2 (en) Generating an answer from multiple pipelines using clustering
US7571157B2 (en) Filtering search results
US5873076A (en) Architecture for processing search queries, retrieving documents identified thereby, and method for using same
EP1669896A2 (en) A machine learning system for extracting structured records from web pages and other text sources
US20160042001A1 (en) Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching
US20040249808A1 (en) Query expansion using query logs
JP2005339542A (ja) クエリからタスクへのマッピング
US20110231411A1 (en) Topic Word Generation Method and System
CA2577376A1 (en) Point of law search system and method
JP2006073012A (ja) 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法
JP2007249899A (ja) 検索処理プログラム
US20150206101A1 (en) System for determining infringement of copyright based on the text reference point and method thereof
US20140289260A1 (en) Keyword Determination
US20040158558A1 (en) Information processor and program for implementing information processor
EP1293913A2 (en) Information retrieving method
JP4375626B2 (ja) カテゴリ別のキーワードの入力順位を提供するための検索サービスシステムおよびその方法
US20190384828A1 (en) Method and system for generating optimized response to user input

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060320

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090120

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090206