JP4075302B2 - Search knowledge creation method in document search and search knowledge creation device in document search - Google Patents

Search knowledge creation method in document search and search knowledge creation device in document search Download PDF

Info

Publication number
JP4075302B2
JP4075302B2 JP2000327779A JP2000327779A JP4075302B2 JP 4075302 B2 JP4075302 B2 JP 4075302B2 JP 2000327779 A JP2000327779 A JP 2000327779A JP 2000327779 A JP2000327779 A JP 2000327779A JP 4075302 B2 JP4075302 B2 JP 4075302B2
Authority
JP
Japan
Prior art keywords
search
document
knowledge
sample
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000327779A
Other languages
Japanese (ja)
Other versions
JP2002132790A (en
Inventor
道博 長石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2000327779A priority Critical patent/JP4075302B2/en
Publication of JP2002132790A publication Critical patent/JP2002132790A/en
Application granted granted Critical
Publication of JP4075302B2 publication Critical patent/JP4075302B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ある分野に属する多数の文書の中から必要な文書を検索するための検索知識を決定する文書検索における検索知識作成方法および文書検索における検索知識作成装置に関する。
【0002】
【従来の技術】
最近は収集した大量の文書を意味のあるカテゴリーに分類したり文書内容の理解などの知的作業が行われることが増えてきた。このような作業を手動で行うのは非常に多くの時間とコストがかかる上、分類が操作者の知識に依存するため、分類基準を一定にすることが難しい。
【0003】
これまで文書検索をする際の検索キーワードは、該当文書に存在する単語の意味的な特徴、出現頻度、単語間の共起確率などの統計的な情報から決められることが多い(wwwにおける情報検索技術の動向、電子情報通信学会誌vol.82,No.12,PP.1237-1242 (1999.12))。
【0004】
しかし、この方法は新聞記事のような内容の揃った文書に対しては威力を発揮するが、webに存在する情報のように種類が雑多で内容が多様な文書を精度よく分類することは難しい。
【0005】
そこで、これら統計情報を文書の特徴ベクトルなどの多次元空間で表現し、検索システムを構築する操作者がベクトルの修正、変更を容易にすることで操作者の意図が反映しやすくする方法も提案されている(特開平11−296552 「文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体」)。
【0006】
【発明が解決しようとする課題】
しかしながら、この方法は意図が反映できるのはシステム構築者だけであり、しかも特徴ベクトルという非常に抽象的なパラメーターを操作するため、特徴ベクトルなどに関する高度な知識が必要であり、一般的な人の意図を反映させるのは容易ではない。
【0007】
また、webのページ内のリンク頻度が高いものは文書の重要性が高いと考えて、検索結果をランク付けする方法(例えば,http://www.google.com/intl/ja/)が検討されている。しかしながら、この方法による検索は基本的に検索キーワードなので、文書検索自体の問題は解決しない。そして、リンクはインターネットで使われるHTMLなどのハイパーテキストの情報なので、一般の文書には応用できない。
【0008】
また、連想構造を用いた情報整理システム(情報処理学会論文 38 (3) pp.616-625, 1997奈良先端大学:前田晴美、 糀谷和人、 西田豊明)には、緩い情報構造(連想知識)で検索する方法が記述されている。この構造があれば知的な情報を検索、整理することができる。しかし、この構造は人間がもっている知識であり、一般化すること(機械的に自動で作成するなど)は難しくシステム化は容易ではない。
【0009】
そこで本発明は、多数のサンプル文書がある分野にどの程度適応しているかを主観評価し、その主観評価した結果から検索知識を決定するようすることで、ユーザの意図を的確に反映した検索知識を得ることができるようにし、これによって、ユーザの欲する情報を効率よく高精度に検索可能とする文書検索における検索知識作成方法および文書検索における検索知識作成装置を提供することを目的としている。
【0010】
【課題を解決するための手段】
上述の目的を達成するために本発明の文書検索における検索知識作成方法は、ある分野に属する多数の文書の中から必要な文書を検索するための検索知識を決定する文書検索における検索知識作成方法であって、前記ある分野に属する複数のサンプル文書を順次表示し、それを被験者が見て、そのサンプル文書が当該分野にどの程度適応しているかを主観評価し、その主観評価した結果から前記検索知識を決定するようにしている。
【0011】
この文書検索における検索知識作成方法において、前記主観評価の対象となるサンプル文書は、複数の被験者がネットワーク経由で取得可能とし、それを取得したそれぞれの被験者が当該サンプル文書に対して主観評価を行うことを可能としている。
【0012】
また、この文書検索における検索知識作成方法において、前記主観評価した結果から前記検索知識を決定する処理は、前記主観評価したそれぞれのサンプル文書に出現する単語や熟語などの語句を検索知識候補として個々のサンプル文書ごとに複数個抽出し、前記個々のサンプル文書ごとにおける前記複数個の検索知識候補の出現頻度と当該サンプル文書に対する主観評価結果に基づいて、それぞれの検索知識候補の重要性を示す値を求め、求められたそれぞれの検索知識候補の重要性を示す値に基づいて幾つかの検索知識候補を組み合わせてなる検索知識候補群を複数組生成し、その複数組の検索知識候補群を1組ずつ順次用いて前記複数のサンプル文書に対する検索を試みて、その検索結果から、前記主観評価結果の上位の文書をより多く検索することができる検索知識候補群はどれかを判定し、その判定結果から前記検索知識を決定するようにしている。
【0013】
そして、この文書検索における検索知識作成方法において、前記抽出された複数の検索知識候補同志に類似語や同義語が存在する場合は、必要に応じて1つの検索知識候補としてまとめることもできる。
【0014】
また、この文書検索における検索知識作成方法において、前記主観評価結果の上位の文書をより多く検索することができる検索知識候補群はどれかの判定は、その検索知識候補群を与えて検索を試みたときの複数のサンプル文書がどのような順位で検索されたかを示す検索順位に関する情報と前記主観評価値とから得られる値と、その検索知識候補群を与えて検索を試みたときの前記複数のサンプル文書に対する検索が終了するに必要な検索時間とを用いるようにしている。
【0015】
また、この文書検索における検索知識作成方法において、前記判定を行う際、その途中経過を表示し、その結果を見た被験者が個々の検索知識候補群の内容設定などを修正可能としている。
【0016】
また、この文書検索における検索知識作成方法において、前記複数組の検索知識候補群を用いて前記サンプル文書の検索を試みる際に検索対象として用いられる文書は、前記検索知識候補を作成したサンプル文書以外の前記サンプル文書でも可能としている。
【0017】
また、本発明の文書検索における検索知識作成装置は、ある分野に属する多数の文書の中から必要な文書を検索するための検索知識を決定する文書検索における検索知識作成装置であって、前記ある分野に属する複数のサンプル文書を順次表示させる表示手段と、そのサンプル文書を被験者が見て、そのサンプル文書が当該分野にどの程度適応しているかの主観評価入力を可能とする主観評価入力手段と、被験者による主観評価入力に基づいて個々のサンプル文書に対する評価結果を対応付けて出力する評価結果生成手段と、この評価結果生成手段からの情報に基づいて前記検索知識を決定する検索知識決定手段とを有している。
【0018】
この文書検索における検索知識作成装置において、前記主観評価の対象となるサンプル文書は、複数の被験者がネットワーク経由で取得可能とし、それを取得したそれぞれの被験者が当該サンプル文書に対して主観評価を行うことを可能としている。
【0019】
また、この文書検索における検索知識作成装置において、前記検索知識決定手段は、前記主観評価したそれぞれのサンプル文書に出現する単語や熟語などの語句を検索知識候補として個々のサンプル文書ごとに複数個抽出し、前記個々のサンプル文書ごとにおける前記複数個の検索知識候補の出現頻度と当該サンプル文書に対する主観評価結果に基づいて、それぞれの検索知識候補の重要性を示す値を求め、求められたそれぞれの検索知識候補の重要性を示す値に基づいて幾つかの検索知識候補を組み合わせてなる検索知識候補群を複数組生成し、その複数組の検索知識候補群を1組ずつ順次用いて前記複数のサンプル文書に対する検索を試みて、その検索結果から、前記主観評価結果の上位の文書をより多く検索することができる検索知識候補群はどれかを判定し、その判定結果から前記検索知識を決定する処理を行うようにしている。
【0020】
そして、この文書検索における検索知識作成装置において、前記抽出された複数の検索知識候補同志に類似語や同義語が存在する場合は、必要に応じて1つの検索知識候補としてまとめることもできる。
【0021】
また、この文書検索における検索知識作成装置において、前記主観評価結果の上位の文書をより多く検索することができる検索知識候補群はどれかの判定は、その検索知識候補群を与えて検索を試みたときの複数のサンプル文書がどのような順位で検索されたかを示す検索順位に関する情報と前記主観評価値とから得られる値と、その検索知識候補群を与えて検索を試みたときの前記複数のサンプル文書に対する検索が終了するに必要な検索時間とを用いるようにしている。
【0022】
また、この文書検索における検索知識決定装置において、前記判定を行う際、その途中経過を表示し、その結果を見た被験者が個々の検索知識候補群の内容設定などを修正可能としている。
【0023】
また、この文書検索における検索知識作成装置において、前記複数組の検索知識候補群を用いて前記サンプル文書の検索を試みる際に検索対象として用いられる文書は、前記検索知識候補を作成したサンプル文書以外の前記サンプル文書でも可能としている。
【0024】
このように本発明は、ある分野に属する複数のサンプル文書を被験者が実際に見て、そのサンプル文書が当該分野にどの程度適応しているかを主観評価し、その主観評価した結果から前記検索知識を決定するようにしているので、ユーザの意図を的確に反映した検索知識を得ることができ、これによって、ユーザの欲する情報を効率よく高精度な検索が可能となる。なお、本発明でいう「検索知識」というのは、キーワードによるブーリアン検索を例に取れば、キーワード群を指している。
【0025】
また、主観評価の対象となるサンプル文書は、複数の被験者がネットワーク経由で取得可能としているので、より多くの人の意図を反映させることができる。
【0026】
また、個々のサンプル文書ごとにおける前記検索知識候補の出現頻度と当該サンプル文書に対する主観評価結果とに基づいて、それぞれの検索知識候補の重要度を求め、求められたそれぞれの検索知識候補の重要度に基づいて幾つかの検索知識候補を組み合わせてなる検索知識候補群を複数組生成するようにしているので、当該分野における主観評価の高い文書により多く出現する意味のある語句や単語で構成された検索知識候補群を得ることができる。
【0027】
このとき、抽出された複数の検索知識候補同志に類似語や同義語が存在する場合は、必要に応じて1つの検索知識候補としてまとめるようにすることで、不要な語句や単語数を減らすことができ、検索知識候補群の生成などの処理を効率よく行うことができる。
【0028】
そして、前記複数組の検索知識候補群を1組ずつ順次用いて前記複数のサンプル文書に対して実際に検索を試みて、その検索結果から、適切な検索知識候補群はどれかを判定し、その判定結果から検索知識を決定するようにしているので、それによって決定された検索知識は、ある分野の文書を検索する上で最適なものとすることができる。
【0029】
また、その検索知識候補群はどれかの判定は、その検索知識候補群を与えて検索を試みたときの複数のサンプル文書がどのような順位で検索されたかを示す検索順位に関する情報と前記主観評価値とから得られる値と、その検索知識候補群を与えて検索を試みたときの前記複数のサンプル文書に対する検索が終了するに必要な検索時間とを用いるようにしているので、検索の速さも考慮された検索知識を決めることができる。
【0030】
また、判定を行う際、その途中経過を表示し、その結果を見た被験者が個々の検索知識候補群の内容設定などを修正可能としているので、より適正な結果が得られるように検索知識候補の組み合わせなどを変えることができる。
【0031】
また、前記複数組の検索知識候補群を用いて前記サンプル文書の検索を試みる際に検索対象として用いられる文書は、前記検索知識候補を作成したサンプル文書以外の前記サンプル文書でも可能とすることにより、より適切な検索知識候補群を決めることができる。
【0032】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。
【0033】
本発明は、ある分野に属する複数のサンプル文書を被験者が実際に見て、そのサンプル文書が当該分野にどの程度適応しているかを主観評価し、その主観評価した結果から検索知識を決定することを特徴としており、次に示す代表的な2つの検索方法への適用を想定している。その2つの検索方法としては、単純なキーワードによるブーリアン検索とベクトル検索である。なお、本発明でいう検索知識というのは、キーワード検索の場合はキーワード群を指し、ベクトル検索の場合は典型的な文書群を指している。
【0034】
単純なキーワードによるブーリアン検索は、一般的な全文検索であり、通常検索エンジンでいうキーワード検索はこの方法である。
【0035】
一方、ベクトル検索は、比較する文書をベクトル化して、同じくベクトル化した例示文書との類似度度から計算する。この方法はたとえば、前述した特開平11-045257「web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体」に記載されている。
【0036】
本発明はこれらキーワード検索とベクトル検索の両方に適用できるが、この実施の形態では、キーワード検索の場合について説明する。
【0037】
まず、基本的な検索知識(キーワード群)を決定する方法について概略的に説明する。
(1)ある分野について主観評価対象となる多数のサンプル文書を準備する。
(2)そのサンプル文書を順次(出来ればランダム)に表示して被験者にその分野の文書として適当かどうか主観評価してもらう。
(3)サンプル文書と主観評価結果の値の対応関係を記録する。
(4)主観評価されたサンプル文書から有効な検索知識(キーワード群)を抽出する。
【0038】
なお、ここでいうある分野とは、たとえば、「新製品」、「環境問題」といった情報項目である。そして、主観評価する場合、被験者にはその分野が何であってどういう情報が該当するかについての基本方針や見本などが準備・教示されるとする。主観評価対象となるサンプル文書はたとえば次のように集める。
【0039】
一番単純なのは、システムが持っている文書すべてをサンプル文書とする方法であるが、これに限らず、対象分野ごとにサンプル文書を用意するのも1つの方法である。これは、システムがもっている文書データから適当に選んでくる(たとえば、ある製品についての文書であれば機種名などでキーワード検索する)。
なお、主観評価対象となるサンプル文書がシステムに蓄積されているデータでなく、インターネット(web)など広範囲に存在する場合は、検索エンジンなどで適当に検索して見つかった文書でもよい。
【0040】
以上のように、サンプル文書はどのように収集してもよいが、できれば文書量はあまり多すぎず(多いと被験者の評価作業が大変である)、該当しない文書が非常に多いとか少ないとかの偏りも小さい方がよい。
【0041】
ここで、評価の仕方を簡単に述べる。まず、前述のように、被験者にはその分野が何であってどういう情報が該当するかについての基本方針や見本などが準備・教示されている。また、主観評価を行う上での評価尺度は予め決められている。
【0042】
この評価尺度は5段階評価や3段階評価が好ましく、5段階評価とした場合は、たとえば、その分野にサンプル文書がよく一致しているは「5」、ある程度一致しているは「4」、どちらでもないは「3」、あまり一致していないは「2」、全く一致していないは「1」というような5段階のランクをユーザに付けてもらう。
【0043】
なお、このような段階評価を行うとき、評価尺度の表し方は、上述した5段階評価を例に取れば、「3」を中心として、「5」と「1」の評価、「4」と「2」の評価は、それぞれ相反するような表現が好ましい。たとえば、「5」が「よく一致している」であれば、「1」は「全く一致していない」といった表現であり、「4」が「ある程度一致している」であれば、「2」は「あまり一致していない」といった表現とするのが、中間値から見てプラス方向の評価とマイナス方向の評価の大きさに偏りが生じにくくする上で好ましい。
【0044】
以上のような評価尺度を設定し、その評価尺度に従って評価を行う。すなわち、分野別にサンプル文書が順次表示され、それに対し被験者がランク(評価値という)を付与していく。具体的には、被験者の操作するパーソナルコンピュータ(PCという)の表示画面上に開かれているwebブラウザなどにサンプル文書が表示され、別フレームに評価値を入力する部分が表示される。被験者は表示されたサンプル文書を見て評価値を次々と入力してゆく。入力された評価値とサンプル文書の対応はPCで自動的に記録される。これは、webならばCGIなどの仕組みで実現できる。
【0045】
このような主観評価を複数の被験者に行ってもらうことが望ましい。一般に被験者が多く、評価するサンプル文書が多くなるほど検索精度は向上する。
【0046】
図1は以上説明した主観評価を行うための手順を図示したもので、多数のサンプル文書が蓄積された文書データ記憶部1から、ある分野におけるサンプル文書を順次取り出して、1つ1つのサンプル文書ごとに表示部2に表示させる。そして、被験者は表示されるサンプル文書の内容を読んで、前述したような評価(5段階評価)を行う。そして、評価結果生成部3が被験者の入力した評価値を取得し、それぞれのサンプル文書対応に評価値を付した評価結果データ4を作成し、それを対応するサンプル文書に記録しておく。
【0047】
図2は表示部2に表示される画面構成例を示すもので、あるサンプル文書が表示画面21上に表示されるとともに、その表示画面21の一部を使って被験者入力用画面21aが表示される。この被験者入力用画面21aには、サンプル文書選択部22、評価値入力部23、評価値確定入力部24などが表示される。
【0048】
被験者はサンプル文書選択部22によってサンプル文書をスクロールして表示画面21上に表示させ、画面上に表示されたサンプル文書を見て、その文書がある分野における文書としてどの程度の妥当性を有するかを主観評価する。この主観評価は、評価値入力部23によって行うが、その評価の仕方は、前述したような5段階評価である場合、評価値入力部23からたとえば「3」といった評価値を入力し、最後にそれを確定するための評価値確定入力部24を操作する。
【0049】
このようにして、幾つものサンプル文書に対し、被験者が主観評価を行うことで、それぞれのサンプル文書に対する評価結果データが得られる。図3はその一例を示すもので、ここでは、主観評価対象となるサンプル文書を文書番号No.1,No.2,No.3,・・・で表せば、これらそれぞれのサンプル文書No.1,No.2,No.3,・・・に対して、たとえば、図3のように、サンプル文書No.1に対しても「5」、サンプル文書No.2に対しては「3」、サンプル文書No.3に対しては「3」、サンプル文書No.4に対しては「4」というように、それぞれのサンプル文書に対する評価値が評価結果データとして得られる。
【0050】
なお、このような主観評価を行う際、主観評価の仕方は、PC単独で何人もの被験者によって主観評価してもらってもよいし、1つのサーバにデータを入れておいて、webなどを通じてネットワーク経由で何人もの被験者によって評価してもらってもよく、その形態は問わない。
【0051】
上述のように、それぞれのサンプル文書に対する評価値が得られると、次に、その結果に基づいて、検索に有効な知識を抽出する。
【0052】
まず、キーワードのランキング付けを行うために、各サンプル文書に出現するキーワードを抽出する。その手順は、
(1)各サンプル文書をテキストに変換する(webなどの場合はタグやイメー ジを除く)。
(2)形態素解析などで単語や熟語などの語句(以下では単語として説明する)に切り出す。
(3)どの単語がどのサンプル文書に何回出現したかを数える。
(4)単語ごとに出現したサンプル文書と出現回数(出現頻度)からスコアを計算する。
(5)スコアの高い単語を求める。
である。
【0053】
まず、1つのサンプル文書で単語の出現回数を集計する。あるサンプル文書において単語の出現頻度を表す出現回数を求めたとき、たとえば、「愛用者」という単語の出現回数が「13」、「圧縮」という単語の出現回数が「8」であったとする。このように、どのような単語が何回出現したかを調べる。これを主観評価した全てのサンプル文書について行う。
【0054】
図4は各単語ごとにその単語がどのサンプル文書に何回出現したかを調べた結果を示すものである。この図4では、「愛用者」という単語について示されており、この「愛用者」は文書番号No.1のサンプル文書においては出現回数「6」、文書番号No.2のサンプル文書においては出現回数「2」、文書番号No.3のサンプル文書においては出現回数「0」、文書番号No.4のサンプル文書においては出現回数「3」という結果である。
【0055】
このような結果に各サンプル文書ごとにすでに得られている主観評価による評価値(図3参照)を掛け算してスコアを求める。図5はその一例を示すもので、文書番号No.1のサンプル文書の評価値は図3より「5」であるので、出現回数「6」に5を掛け算してスコア「30」を得る。また、文書番号No.2のサンプル文書の評価値は図3より「3」であるので、出現回数「2」に3を掛け算してスコア「6」を得る。同様にして、文書番号No.3のサンプル文書はその評価値「3」に出現回数「0」を掛け算してスコア0を得て、文書番号No.4のサンプル文書はその評価値「4」に出現回数「3」を掛け算してスコア12を得る。
【0056】
このような計算を行うと、主観評価の高い文書(その分野の関連性が高い文書)に頻繁に出現する単語のスコアが高くなる。逆に主観評価の低い文書(その分野の関連性が低い文書)に出現する単語のスコアが低くなる。
【0057】
これを全ての単語について行う。ここで、高いスコアが得られた単語というのは、主観評価の高い(その分野の関連性が高い)と評価された文書に数多く出現する意味のある単語と言え、いわば、このスコアは単語の重要度を示すものでもあり、スコアが高いほどその単語の重要度は高いと言える。
【0058】
なお、図5ではスコアを出現頻度と主観評価値の単純な積で求めたが、実際にはこれ以外の計算によってスコアを求めるようにしてもよい。たとえば、出現回数は文書に一回でれば一回とするとか、積に補正値をかける(1,2,3,・・・と線形ではなく、評価値が高くなるとスコアの重みをあげるなど)ようにしてもよい。要は主観評価で判断された関連性の高い文書に数多く含まれる単語に高いスコアが出るようにして、意味のある単語が適切に抽出されればよい。
【0059】
また、得られた単語は文書から得られたそのままである。たとえば、あるサンプル文書の中に、「パーソナルコンピュータ」と「パソコン」という同じ意味の単語が頻繁に出てきたとしても、それは、「パーソナルコンピュータ」、「パソコン」としてそのまま取り出される。
【0060】
このように、「パーソナルコンピュータ」、「パソコン」というような同じ意味の単語が取り出された場合、この「パーソナルコンピュータ」と「パソコン」の数を比べて、仮に、「パーソナルコンピュータ」の方が「パソコン」に比べて大幅に出現回数が少なければ、類義語辞書(シソーラス)を用いて、両者を「パソコン」に統合することができる。こうすれば、不要な単語候補が減り、計算量を削減できる。ただし、類義語であって両者の出現頻度がともに高い場合は、それぞれ別の意味や敢えて使い分けを行っていると考えられるため統合は行わないなどの措置も講ずる。
【0061】
以上のような処理によって重要であると思われる単語(キーワード)がどれかということがわかってくるが、その中からさらに絞り込みを行う。その絞り込みの方法の手順としては、
(1)スコアの高い順に上位から所定数の単語(キーワード)を選ぶ。
(2)選ばれた所定数のキーワードに対してスコアの上位を優先に、単独、複数のキーワードの組み合わせでなるキーワード候補群を検索知識候補群として作成し、それを用いて実際に主観評価した多数のサンプル文書に対して実際に検索してみる。
(3)その検索結果とサンプル文書(主観評価によるランク付け)と比較して、どのキーワードの組み合わせ(キーワード候補群)がよいかランク付けする(ランクの高い文書がたくさん検索されるキーワード候補群を選ぶ)。
(4)キーワード候補群の上位から人間が選ぶ。
(5)このとき、検索時間も計測して、その検索時間を考慮して最適なキーワード候補群を検索知識として決定する。以下、具体的に説明する。
【0062】
たとえば、検索知識候補群としてのキーワード候補群を作成する。ここでは、スコア順に上位から50個のキーワードをキーワード候補群として選び、それをK(50)で表す。たとえば、K(50) =〔愛用者,圧縮,転送,・・・〕というようなスコア順上位50個のキーワードでなるキーワード候補群を作成する。
【0063】
そして、このキーワード候補群を用いてサンプル文書(たとえばキーワード候補群の作成に用いられたサンプル文書)を検索してみて、その検索結果を得る。図6は検索対象となるサンプル文書の数を100個とし、上述のK(50) =〔愛用者,圧縮,転送,・・・〕を用いて、その100個のサンプル文書を検索した検索結果の一例を示すもので、検索順位(1位〜100位)、検索されたサンプル文書の文書番号(文書番号No.1〜No.100)、それぞれのサンプル文書に対する5段階の評価値(5〜1)、求められたスコアが示されている。
【0064】
なお、スコアは検索順位が高く主観評価が高いほど大きな値となるようにしてある。すなわち、この場合、主観評価値(5〜1)に(文書数−検索順位)を掛け算するようにしている。たとえば、検索順位が第1位は文書番号No.23のサンプル文書で、その主観評価値は「5」であるので、スコアは(100−1)×5=495を得ている。同様に、検索順位が第2位は文書番号No.3のサンプル文書で、その主観評価値は「4」であるので、スコアは(100−2)×4=392を得ている。このようにして、100位までのそれぞれのサンプル文書に対してスコアを計算する。
【0065】
このように、あるキーワード候補群(上述の例ではK(50) =〔愛用者,圧縮,転送,・・・〕) で検索して、その検索結果を得て、主観評価値(5〜1)に(文書数−検索順位)を掛け算することで、それぞれのサンプル文書に対するスコアが求められる。このとき、検索順位が高く主観評価の高いサンプル文書に対してはスコアが高くなる。
【0066】
したがって、あるキーワード候補群(ここではK(50))を用いて100個のサンプル文書に対し検索を試みたとき、主観評価の高い妥当なサンプル文書が多く検索されれば、そのキーワード候補群はその分野の文書を検索する上で適切なキーワード群(検索知識)と言うことができる。
【0067】
そこで、色々なキーワード候補群を作成し、それぞれのキーワード候補群を用いて100個のサンプル文書に対し検索を試みて、スコアの合計(総スコアという)を比較してみる。この総スコアというのは、図6において、100個のサンプル文書に対するスコアを足し算して得られるもので、図6の例では、総スコアは「2356」であるとする。これを色々なキーワード候補群について求める。
【0068】
この色々なキーワード候補群というのは、キーワードの組み合わせを色々に設定することで生成される。たとえば、上位30位までをキーワード候補群としたり、上位20位あるいは上位10位までをキーワード候補群としたり、さらには、上位何十位までの中から幾つかを選んでキーワード候補群を構成するなど多様に生成することができる。
【0069】
このようにして、色々なキーワード候補群を生成し、それらのキーワード候補群を使って実際に検索を試みたところ、その結果が図7のようだったとする。この図7において、K(50)、 K(30) 、 K(20)、 K(10)というのは、上述したように、たとえば、上位から順に所定数のキーワード(括弧内に数値はキーワード数を表している)を取り出してキーワード候補群を構成したものであってもよく、上位の中から所定数を選んでキーワード候補群を構成したものであってもよいが、ここでは、スコアの上位から順に必要な数(括弧内の数値)のキーワードによって構成されたものとする。なお、 K(50)については図6で説明したものをそのまま用いている。また、図6では説明しなかったが、ここでは検索時間(この場合、文書数が100個であるので、100個の文書を検索するのに要した時間)も計測され、K(50)の場合の検索時間は8.7秒であった。
【0070】
同様にして、K(30)、 K(20)、 K(10)などについても、図6で説明したと同様に、検索されたそれぞれのサンプル文書に対するスコアを求め、その合計値(総スコア)を求めるとともに、検索するのに要した検索時間を計測すると、 K(30)の場合は、総スコアは「2200」、検索時間は4.2秒であり、 K(20)の場合は、総スコアは「1890」、検索時間は3.8秒であり、 K(10)の場合は、総スコアは「1745」、検索時間は3.6秒であった。
【0071】
この図7からもわかるように、キーワード数が多ければより精度の高い検索が可能となり総スコアの値も高くなるが、それだけ多くの検索時間も必要となってくる。この図7において、総スコアが最も高いのはK(50)であるが、検索時間が8.7秒と最も多い。また、検索時間が最も低いのはK(10)であるが、総スコアが「1745」と最も低い値である。したがって、これら総スコアと検索時間の両方に優れているものを選ぶと、この場合、K(30)がスコアも高くその割に検索時間も少ないので、この場合、K(30)が最も適切であると判定する。
【0072】
このように、主観評価結果に基づいて得られたキーワード候補群を用いて、検索対象のサンプル文書に対し、実際に検索を試みることで、総スコアと検索時間の2つのパラメータを得て、これら2つのパラメータからどれが適切なキーワード群であるかがわかり、それを検索知識とすることができる。
【0073】
なお、上述の判定手順、スコアの計算などは全て自動化できるので、主観評価結果データさえ集めれば判断は簡単である。また、図7のような内容を判断の途中経過として表示画面上に表示させれば、どのキーワード候補群が適切に働いているかなどを人間が判断することができる。そして、状況に応じて、個々のキーワード候補群の内容設定(キーワードの組み合わせなど)を修正可能とすれば、より適正な結果が得られるように、キーワード候補群の内容(キーワードの組み合わせなど)を変えることができる。
【0074】
ところで、検索対象となるサンプル文書は、検索知識の候補をつくったサンプル文書でもよいし、主観評価したが検索知識作成に用いていないものでもよい。このように、検索知識作成に用いていないサンプル文書に対しても検索対象とすることで、より一層、適切なキーワード候補群を選ぶことができる。
【0075】
図8は上述したキーワード候補群を生成し、生成されたキーワード候補群を用いて実際に検索を試みることによって最適なキーワード群を検索知識として得る処理を実現するための構成図であり、多数のサンプル文書群が蓄積された文書データ記憶部1、検索知識候補群生成部11、シソーラス12、検索部13、検索知識決定部14、評価結果データ4などからなる。なお、評価結果データ4は、文書データ記憶部1に記憶されている主観評価済みの文書に評価結果(評価値)が付加されている場合には、それを用いてもよい。
【0076】
検索知識候補群生成部11は、それぞれのサンプル文書に対する評価結果データ4(図3に示すような結果)を用いて、図5で説明したように、個々の単語(キーワード)について、各サンプル文書における出現回数によって各サンプル文書ごとのスコアを求め、求められた個々の単語ごとのスコアに基づいて、前述したように、K(50)、K(30)、K(20)、 K(10)というようなキーワード候補群を選ぶ。なお、このとき、必要に応じて、それぞれの単語同志で意味の同じまたは類似しているものはシソーラス12を用いて1つにまとめるなどの処理を行う。
【0077】
このようにして、キーワード候補群が選ばれると、それを用いて検索部13によって文書データ記憶部1に記憶されているサンプル文書に対して実際に検索を試みる。その検索結果を用いて、検索知識決定部14が図6や図7で説明したように、それぞれのキーワード候補群に対する総スコアと検索時間を得て、それによって最適なキーワード候補群を検索知識としてを決定する。なお、このとき、検索対象となるサンプル文書は、前述したように、検索知識の候補をつくったサンプルでもよいし、主観評価したが検索知識作成に用いていないものであってもよい。
【0078】
図9はこれまで説明した最適なキーワード候補群を検索知識として決定するための全体的な処理手順を示すフローチャートである。処理内容の詳細についてはすでに説明したので、ここでは、大まかな処理手順について簡単に説明する。
【0079】
まず、ある分野における1つ1つのサンプル文書(被験者によって主観評価された文書)について、形態素解析を行うことでそのサンプル文書に出現する単語を切り出す(ステップs1)。そして、それぞれのサンプル文書に対する被験者の与えた評価値と単語の出現回数とからそれぞれの単語に対して、図5で説明したようにスコアを計算する(ステップs2)。続いて、スコアの高い単語(キーワード)をリストアップし(ステップs3)、そのリストをもとに、前述したように、K(50)、K(30)、K(20)、 K(10)というようなキーワード候補群を作成する(ステップs4)。
【0080】
そして、この、キーワード候補群の1つを用いてサンプル文書群に対して実際に検索を試みる(ステップs5)。これを全てのキーワード群について行い、設定されたすべてのキーワード候補群を用いて検索処理が終了したか否かを判断し(ステップs6)、すべてのキーワード候補群を用いての検索処理が終了し、たとえば、図7に示すような結果が得られれば、その中から最適と思われるキーワード候補群を選び、それを検索知識として決定する(ステップs7)。
【0081】
以上説明したようにこの実施の形態では、ある分野における幾つかのサンプル文書を被験者が見て、内容の適正さを主観評価し、その評価値とそれぞれのサンプル文書に出現する単語の出現回数とからそれぞれの単語(キーワード)に対してスコアを計算し、スコアの高い単語をリストアップし、そのリストをもとに、前述したように、K(50)、K(30)、K(20)、 K(10)というようなキーワード候補群を設定している。そして、この、キーワード候補群をそれぞれ用いてサンプル文書群に対して実際に検索を試み、その検索結果から最適と思われるキーワード候補群を選び、それを検索知識として決定するようにしている。
【0082】
このように、実際にサンプル文書を見て人間が評価を行うので、人間が見て納得できる評価を与えることができ、しかも、ユーザの行う主な操作としては、画面上に表示された文書内容を見て評価値を入力するだけであるので、特別な技術や知識が無くても簡単に評価を行うことができる。そして、このような評価結果が得られれば、あとは、所定のアルゴリズムに従って、設定された幾つかのキーワード候補群に対し、総スコアと検索時間を求めることができるので、 迅速にしかも人間が実際に評価した結果が反映された適切なキーワード群を検索知識として決定することができる。
【0083】
なお、本発明は以上説明した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、以上の実施の形態では、単純なキーワードによるブーリアン検索について述べたが、ベクトル検索にも適用できる。このベクトル検索の場合はおおよそ次のようにする。まず、キーワードの場合と同じようにサンプル文書を主観評価でランク付けしておく。続いて、単語のベクトルを求め、各ベクトルの大きさをサンプル文書の主観評価で重み付けする。それにより、重要なベクトルがどれであるか候補を挙げることができる。あとはキーワードの場合と同じように、実際に試して適切なベクトルを絞り込む。このように、キーワード群がベクトルに置き換わっただけで基本的には前述の実施の形態で説明したキーワードによるブーリアン検索と同様に実施できる。
【0084】
また、本発明は、以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくことができ、本発明はその処理プログラムが記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【0085】
【発明の効果】
以上説明したように本発明によれば、ある分野に属する複数のサンプル文書を被験者が実際に見て、そのサンプル文書が当該分野にどの程度適応しているかを主観評価し、その主観評価した結果から前記検索知識を決定するようにしているので、ユーザの意図を的確に反映した検索知識を得ることができ、これによって、ユーザの欲する情報を効率よく高精度な検索が可能となる。また、この検索知識を得るに際して、ユーザが行う操作としては、サンプル文書を評価するだけでよいので、特別な技術や知識を必要としないので、誰でも簡単に検索知識の作成を行うことができる。
【0086】
また、個々のサンプル文書ごとにおける前記検索知識候補の出現頻度と当該サンプル文書に対する主観評価結果とに基づいて、それぞれの検索知識候補の重要度を求め、求められたそれぞれの検索知識候補の重要度に基づいて幾つかの検索知識候補を組み合わせてなる検索知識候補群を複数組生成し、その複数組の検索知識候補群を1組ずつ順次用い、前記複数のサンプル文書に対して実際に検索を試みて、その検索結果から、適切な検索知識候補群はどれかを判定し、その判定結果から検索知識を決定するようにしているので、それによって決定された検索知識は、その分野の文書を検索する上で最適な検索知識とすることができる。
【0087】
そして、上述の適切な検索知識候補群はどれかの判定は、その検索知識候補群を与えて検索を試みたときの複数のサンプル文書がどのような順位で検索されたかを示す検索順位に関する情報と前記主観評価値とから得られる値と、その検索知識候補群を与えて検索を試みたときの前記複数のサンプル文書に対する検索が終了するに必要な検索時間とを用いるようにしているので、検索の速さも考慮された検索知識を決めることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態における主観評価を行うための処理手順を説明する図である。
【図2】ユーザ側のPC画面上に表示される主観評価を行うための表示例を示す図である。
【図3】各サンプル文書に対する主観評価結果の一例を示す図である。
【図4】各サンプル文書に出現する単語についてそれぞれのサンプル文書にどのような出現頻度で出現しているかを示す図である。
【図5】図4で得られた結果に評価値を掛け算してスコアを求めた結果を示す図である。
【図6】あるキーワード候補群を用いてサンプル文書群に対して実際に検索を試みた結果に対し、各サンプル文書の検索順位から得られた情報と各サンプル文書の評価値とを用いて各サンプル文書ごとのスコアを計算した結果を示す図である。
【図7】それぞれのキーワード候補群による検索結果から得られた総スコアと検索に要した時間とを示す図である。
【図8】本発明を実現するに必要な主要部分の構成を示す図であり、検索知識候補群を抽出して、それを用いてサンプル文書に対して検索を試みて、その検索結果から検索知識を決定する処理を行うに必要な構成図である。
【図9】本発明の全体的な処理手順を説明するフローチャートである。
【符号の説明】
1 文書データ記憶部
2 表示部
3 評価結果生成部
4 評価結果データ
11 検索知識候補群生成部
12 シソーラス
13 検索部
14 検索知識決定部
21 表示画面
21a 被験者入力用画面
22 サンプル文書選択部22
23 評価値入力部23
24 評価値確定入力部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a search knowledge creation method in document search and a search knowledge creation device in document search for determining search knowledge for searching for a necessary document from a large number of documents belonging to a certain field.
[0002]
[Prior art]
Recently, intellectual work such as classifying a large amount of collected documents into meaningful categories and understanding the contents of documents has been increasing. Performing such work manually takes a lot of time and cost, and classification depends on the operator's knowledge, so it is difficult to make the classification standard constant.
[0003]
The search keywords used to search documents so far are often determined from statistical information such as semantic characteristics of words existing in the document, frequency of occurrence, and co-occurrence probability between words (information search on www) Technical Trend, IEICE Journal vol.82, No.12, PP.1237-1242 (1999.12)).
[0004]
However, this method is effective for documents with a full content such as newspaper articles, but it is difficult to accurately classify documents with various types such as information existing on the web. .
[0005]
Therefore, a method is also proposed in which the statistical information is expressed in a multidimensional space such as a document feature vector, and the operator who constructs the search system can easily correct and change the vector so that the operator's intention is easily reflected. (Japanese Patent Laid-Open No. 11-296552 “Document classification apparatus, document classification method and computer-readable recording medium recording a program for causing a computer to execute the method”).
[0006]
[Problems to be solved by the invention]
However, this method can only reflect the intentions of the system builder, and also operates a very abstract parameter called a feature vector. It is not easy to reflect the intention.
[0007]
Also, considering the high link frequency in web pages, the importance of the document is high, and a method for ranking search results (eg http://www.google.com/intl/en/) is considered. Has been. However, since the search by this method is basically a search keyword, the problem of document search itself is not solved. Since links are hypertext information such as HTML used on the Internet, they cannot be applied to general documents.
[0008]
Information organization system using association structure (Information Processing Society of Japan, 38 (3) pp.616-625, 1997 Nara Institute of Science: Harumi Maeda, Kazuhito Sugaya, Toyoaki Nishida) has a loose information structure (associative knowledge) Describes how to search with. With this structure, intelligent information can be searched and organized. However, this structure is knowledge that humans have, and it is difficult to generalize (such as creating it automatically mechanically) and systemization is not easy.
[0009]
Therefore, the present invention subjectively evaluates how much a large number of sample documents are applied to a certain field, and determines the search knowledge from the result of the subjective evaluation, so that the search knowledge that accurately reflects the user's intention is obtained. It is an object of the present invention to provide a search knowledge creation method in document search and a search knowledge creation device in document search that can efficiently and accurately search information desired by a user.
[0010]
[Means for Solving the Problems]
In order to achieve the above object, a search knowledge creation method in document search according to the present invention is a search knowledge creation method in document search for determining search knowledge for searching for a necessary document from a large number of documents belonging to a certain field. In this case, a plurality of sample documents belonging to a certain field are sequentially displayed, and the subject sees it, and subjectively evaluates how much the sample document is adapted to the field. Search knowledge is determined.
[0011]
In the search knowledge creation method in this document search, the subject document subject to subjective evaluation can be obtained by a plurality of subjects via a network, and each subject who has obtained the subject subjects performs subjective assessment on the sample document. Making it possible.
[0012]
Further, in the search knowledge creation method in the document search, the process of determining the search knowledge from the subjective evaluation results is performed by individually using words and phrases such as words and idioms appearing in each sample document subjected to the subjective evaluation as search knowledge candidates. A value indicating the importance of each search knowledge candidate based on the appearance frequency of the plurality of search knowledge candidates in each individual sample document and the subjective evaluation result for the sample document. A plurality of search knowledge candidate groups are generated by combining several search knowledge candidates based on the obtained value indicating the importance of each search knowledge candidate. Attempts to search the plurality of sample documents by sequentially using each set, and from the search results, the higher number of documents that are higher in the subjective evaluation result. Search Knowledge candidate group that can search determines the any, are adapted to determine the search knowledge from the determination result.
[0013]
In the search knowledge creation method in this document search, if there are similar words or synonyms in the plurality of extracted search knowledge candidates, they can be combined as one search knowledge candidate as necessary.
[0014]
Further, in the search knowledge creation method in this document search, a determination is made as to which search knowledge candidate group is capable of searching more documents higher in the subjective evaluation result. The plurality of sample documents when the search is attempted by giving information about the search order indicating the order in which the plurality of sample documents were searched and the subjective evaluation value and the search knowledge candidate group. The search time required to complete the search for the sample document is used.
[0015]
Further, in the search knowledge creation method in this document search, when the determination is made, the progress is displayed, and the subject who sees the result can correct the content setting of each search knowledge candidate group.
[0016]
Further, in the search knowledge creation method in the document search, a document used as a search target when attempting to search the sample document using the plurality of sets of search knowledge candidate groups is other than the sample document in which the search knowledge candidate is created. The above sample document is also possible.
[0017]
The search knowledge creation device for document search according to the present invention is a search knowledge creation device for document search for determining search knowledge for searching for a necessary document from among a large number of documents belonging to a certain field. A display means for sequentially displaying a plurality of sample documents belonging to a field; and a subjective evaluation input means for allowing a subject to view the sample document and to input a subjective evaluation of how much the sample document is adapted to the field; Evaluation result generating means for associating and outputting evaluation results for individual sample documents based on subjective evaluation input by a subject, and search knowledge determining means for determining the search knowledge based on information from the evaluation result generating means have.
[0018]
In the search knowledge creation device in this document search, the subject document subject to subjective evaluation can be obtained by a plurality of subjects via a network, and each subject who has obtained the subject subjects performs subjective assessment on the sample document. Making it possible.
[0019]
Further, in the search knowledge creation device in this document search, the search knowledge determination means extracts a plurality of words and phrases such as words and idioms appearing in each of the subjectively evaluated sample documents as search knowledge candidates for each sample document. Then, based on the appearance frequency of the plurality of search knowledge candidates for each individual sample document and the subjective evaluation result for the sample document, a value indicating the importance of each search knowledge candidate is obtained, and each obtained Based on a value indicating the importance of the search knowledge candidate, a plurality of search knowledge candidate groups formed by combining several search knowledge candidates are generated, and the plurality of sets of search knowledge candidate groups are sequentially used one by one. Retrieval knowledge that allows users to search for sample documents and to search more documents that are higher in the subjective evaluation results from the search results Hogun determines the any, are to perform the process for determining the search knowledge from the determination result.
[0020]
In the search knowledge creating apparatus for document search, if there are similar words or synonyms in the extracted search knowledge candidates, they can be combined as one search knowledge candidate as necessary.
[0021]
Further, in the search knowledge creation device in this document search, a determination is made as to which search knowledge candidate group can search more documents higher in the subjective evaluation result. The plurality of sample documents when the search is attempted by giving information about the search order indicating the order in which the plurality of sample documents were searched and the subjective evaluation value and the search knowledge candidate group. The search time required to complete the search for the sample document is used.
[0022]
Further, in the search knowledge determination device in the document search, when the determination is made, the progress is displayed, and the subject who sees the result can correct the content setting of each search knowledge candidate group.
[0023]
Further, in the search knowledge creation device in this document search, a document used as a search target when attempting to search the sample document using the plurality of sets of search knowledge candidate groups is a sample document other than the sample document in which the search knowledge candidate is created. The above sample document is also possible.
[0024]
As described above, the present invention allows the subject to actually see a plurality of sample documents belonging to a certain field, subjectively evaluate how much the sample document is adapted to the field, and based on the subjective evaluation result, the search knowledge Therefore, it is possible to obtain search knowledge that accurately reflects the user's intention, thereby enabling efficient and highly accurate search of information desired by the user. Note that “search knowledge” in the present invention refers to a group of keywords if a Boolean search using keywords is taken as an example.
[0025]
In addition, since the sample document to be subject to subjective evaluation can be obtained by a plurality of subjects via the network, it is possible to reflect the intentions of more people.
[0026]
Further, the importance of each search knowledge candidate is obtained based on the appearance frequency of the search knowledge candidate for each sample document and the subjective evaluation result for the sample document, and the importance of each search knowledge candidate obtained. Since multiple search knowledge candidate groups are created by combining several search knowledge candidates based on the above, it is composed of meaningful phrases and words that appear more frequently in documents with high subjective evaluation in the field A search knowledge candidate group can be obtained.
[0027]
At this time, if similar words or synonyms exist among the extracted search knowledge candidates, the number of unnecessary words and words can be reduced by collecting them as one search knowledge candidate as necessary. Thus, processing such as generation of a search knowledge candidate group can be performed efficiently.
[0028]
Then, the plurality of sets of search knowledge candidate groups are sequentially used one by one to actually perform a search on the plurality of sample documents, and from the search results, the appropriate search knowledge candidate group is determined, Since the search knowledge is determined from the determination result, the search knowledge determined thereby can be optimized for searching a document in a certain field.
[0029]
In addition, the determination of which search knowledge candidate group is given is based on the information related to the search order indicating the order in which a plurality of sample documents were searched when the search knowledge candidate group was given and the search was attempted, and the subjectivity Since the value obtained from the evaluation value and the search time required to complete the search for the plurality of sample documents when the search is performed by giving the search knowledge candidate group, the speed of the search is used. In addition, it is possible to determine search knowledge that also takes into account.
[0030]
In addition, when making a decision, the progress is displayed and the subject who sees the result can modify the content settings of each search knowledge candidate group, so that the search knowledge candidate can be obtained more appropriately. The combination of can be changed.
[0031]
The document used as a search target when the search of the sample document is attempted using the plurality of sets of search knowledge candidate groups can be the sample document other than the sample document in which the search knowledge candidate is created. A more appropriate search knowledge candidate group can be determined.
[0032]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below.
[0033]
According to the present invention, a subject actually looks at a plurality of sample documents belonging to a certain field, subjectively evaluates how much the sample document is adapted to the field, and determines search knowledge from the result of the subjective evaluation. And is assumed to be applied to the following two typical search methods. The two search methods are a Boolean search using simple keywords and a vector search. The search knowledge referred to in the present invention indicates a keyword group in the case of keyword search, and a typical document group in the case of vector search.
[0034]
A Boolean search using simple keywords is a general full-text search, and a keyword search usually used by a search engine is this method.
[0035]
On the other hand, in the vector search, the documents to be compared are vectorized and calculated from the degree of similarity with the vectorized example document. This method is described, for example, in the above-mentioned Japanese Patent Application Laid-Open No. 11-045257 “Web document search support apparatus and computer-readable recording medium storing a program for causing a computer to function as the apparatus”.
[0036]
The present invention can be applied to both keyword search and vector search. In this embodiment, the case of keyword search will be described.
[0037]
First, a method for determining basic search knowledge (keyword group) will be schematically described.
(1) Prepare a large number of sample documents to be subject to subjective evaluation in a certain field.
(2) Display the sample documents sequentially (preferably at random) and ask the subject to make a subjective evaluation as to whether it is appropriate as a document in the field.
(3) Record the correspondence between the sample document and the value of the subjective evaluation result.
(4) Extract effective search knowledge (keyword group) from the subjectively evaluated sample document.
[0038]
In addition, a certain field here is information items, such as "new product" and "environmental problem", for example. Then, in the case of subjective evaluation, it is assumed that the subject is prepared and taught a basic policy and a sample regarding what the field is and what information is applicable. Sample documents to be subject to subjective evaluation are collected as follows, for example.
[0039]
The simplest method is to use all the documents in the system as sample documents. However, the present invention is not limited to this, and one method is to prepare sample documents for each target field. This is appropriately selected from the document data held by the system (for example, if a document is about a certain product, a keyword search is performed using the model name or the like).
If the sample document to be subject to subjective evaluation is not data stored in the system but exists in a wide range such as the Internet (web), it may be a document found by appropriately searching with a search engine or the like.
[0040]
As described above, sample documents may be collected in any way, but if possible, the amount of documents is not too large (the evaluation of the subject is difficult if there are too many), and there are very many or not applicable documents. Smaller bias is better.
[0041]
Here, the evaluation method is briefly described. First, as described above, the subject is prepared and taught a basic policy and a sample regarding what the field is and what information is applicable. An evaluation scale for performing subjective evaluation is determined in advance.
[0042]
This evaluation scale is preferably a five-step evaluation or a three-step evaluation. When the five-step evaluation is adopted, for example, “5” indicates that the sample documents are well matched in the field, “4” indicates a certain match. The user is given a five-level rank such as “3” for neither, “2” for not matching, and “1” for not matching at all.
[0043]
In addition, when performing such a stage evaluation, the evaluation scale can be expressed using the above-described five-stage evaluation as an example, with an evaluation of “5” and “1” centered on “3”, “4” The evaluation of “2” is preferably expressed in conflicting terms. For example, if “5” is “matched well”, “1” is an expression “not matched at all”, and if “4” is “matched to some extent”, “2” “Is not very consistent” is preferable in order to make it difficult for the positive evaluation and the negative evaluation to be biased when viewed from the intermediate value.
[0044]
The evaluation scale as described above is set, and the evaluation is performed according to the evaluation scale. That is, sample documents are sequentially displayed for each field, and the subject gives ranks (referred to as evaluation values). Specifically, a sample document is displayed on a web browser or the like opened on a display screen of a personal computer (PC) operated by the subject, and a part for inputting an evaluation value is displayed in another frame. The subject sees the displayed sample document and inputs evaluation values one after another. The correspondence between the input evaluation value and the sample document is automatically recorded by the PC. This can be achieved by a mechanism such as CGI on the web.
[0045]
It is desirable to have a plurality of subjects perform such subjective evaluation. In general, the search accuracy improves as the number of subjects increases and the number of sample documents to be evaluated increases.
[0046]
FIG. 1 illustrates a procedure for performing the subjective evaluation described above. Sample documents in a certain field are sequentially extracted from the document data storage unit 1 in which a large number of sample documents are accumulated, and each sample document is obtained. For each display on the display unit 2. Then, the subject reads the contents of the displayed sample document and performs the above-described evaluation (five-step evaluation). Then, the evaluation result generation unit 3 acquires the evaluation value input by the subject, creates evaluation result data 4 with the evaluation value assigned to each sample document, and records it in the corresponding sample document.
[0047]
FIG. 2 shows an example of a screen configuration displayed on the display unit 2. A sample document is displayed on the display screen 21, and a subject input screen 21 a is displayed using a part of the display screen 21. The A sample document selection unit 22, an evaluation value input unit 23, an evaluation value confirmation input unit 24, and the like are displayed on the subject input screen 21a.
[0048]
The subject scrolls the sample document by the sample document selection unit 22 to display it on the display screen 21, sees the sample document displayed on the screen, and how relevant the document is in a certain field. Is subjectively evaluated. This subjective evaluation is performed by the evaluation value input unit 23. When the evaluation method is the five-step evaluation as described above, an evaluation value such as “3” is input from the evaluation value input unit 23, and finally, The evaluation value confirmation input unit 24 for confirming this is operated.
[0049]
In this way, the subject performs subjective evaluation on a number of sample documents, whereby evaluation result data for each sample document is obtained. FIG. 3 shows an example thereof. Here, if sample documents to be subject to subjective evaluation are represented by document numbers No. 1, No. 2, No. 3,... , No.2, No.3,..., For example, as shown in FIG. 3, “5” for sample document No.1, “3” for sample document No.2, Evaluation values for each sample document are obtained as evaluation result data, such as “3” for sample document No. 3 and “4” for sample document No. 4.
[0050]
When performing such subjective evaluation, subjective evaluation may be performed by a number of subjects on a PC alone, or data may be entered in one server and transmitted via a network via the web or the like. It may be evaluated by any number of subjects, and the form is not limited.
[0051]
As described above, once the evaluation value for each sample document is obtained, knowledge effective for the search is extracted based on the result.
[0052]
First, keywords appearing in each sample document are extracted in order to rank keywords. The procedure is
(1) Convert each sample document to text (excluding tags and images for web).
(2) Cut into words and phrases such as words and idioms (hereinafter described as words) by morphological analysis or the like.
(3) Count how many times each word appears in which sample document.
(4) A score is calculated from the sample document that appears for each word and the number of appearances (appearance frequency).
(5) Find words with high scores.
It is.
[0053]
First, the number of appearances of words is counted in one sample document. When the number of appearances representing the appearance frequency of a word in a sample document is obtained, for example, it is assumed that the number of appearances of the word “favorite” is “13” and the number of appearances of the word “compressed” is “8”. In this way, what kind of word appears how many times is examined. This is performed for all sample documents subject to subjective evaluation.
[0054]
FIG. 4 shows the result of examining how many times the word appears in each sample document for each word. In FIG. 4, the word “favorite” is shown. This “favorite” appears in the sample document with the document number No. 1 and the appearance number “6” in the sample document with the document number No. 2. The number of appearances is “2”, the number of appearances is “0” for the sample document with the document number No. 3, and the number of appearances is “3” for the sample document with the document number No. 4.
[0055]
A score is obtained by multiplying such a result by an evaluation value (see FIG. 3) based on subjective evaluation already obtained for each sample document. FIG. 5 shows an example of this. Since the evaluation value of the sample document with the document number No. 1 is “5” from FIG. 3, the score “30” is obtained by multiplying the number of appearances “6” by 5. Further, since the evaluation value of the sample document with the document number No. 2 is “3” from FIG. 3, the score “6” is obtained by multiplying the appearance count “2” by 3. Similarly, the sample document with the document number No. 3 is multiplied by the evaluation value “3” by the number of appearances “0” to obtain a score 0, and the sample document with the document number No. 4 has the evaluation value “4”. Is multiplied by the number of appearances “3” to obtain a score of 12.
[0056]
When such a calculation is performed, the score of a word that frequently appears in a document with high subjective evaluation (a document with high relevance in the field) increases. Conversely, the score of words appearing in a document with a low subjective evaluation (a document with low relevance in the field) becomes low.
[0057]
This is done for all words. Here, a word with a high score can be said to be a meaningful word that appears in many documents evaluated as highly subjective (highly relevant in the field). It also indicates the importance, and the higher the score, the higher the importance of the word.
[0058]
In FIG. 5, the score is obtained by a simple product of the appearance frequency and the subjective evaluation value. However, the score may actually be obtained by calculation other than this. For example, if the number of appearances is once in a document, it is set once, or a correction value is applied to the product (1, 2, 3,... Is not linear, and the score becomes higher when the evaluation value becomes higher. You may do it. In short, meaningful words may be appropriately extracted so that a high score is obtained for a large number of words included in highly related documents determined by subjective evaluation.
[0059]
Moreover, the obtained word is obtained as it is from the document. For example, even if words having the same meaning “personal computer” and “personal computer” frequently appear in a sample document, they are extracted as “personal computer” and “personal computer” as they are.
[0060]
Thus, when words having the same meaning such as “personal computer” and “personal computer” are extracted, the number of “personal computer” and “personal computer” is compared. If the number of appearances is significantly smaller than that of “PC”, both can be integrated into “PC” using a synonym dictionary (thesaurus). In this way, unnecessary word candidates are reduced and the amount of calculation can be reduced. However, if it is a synonym and the frequency of occurrence of both is high, it can be considered that each has a different meaning and is used separately, so measures such as no integration are also taken.
[0061]
Through the processing described above, it becomes clear which words (keywords) are considered to be important. As a procedure of the narrowing down method,
(1) Select a predetermined number of words (keywords) from the top in descending order of score.
(2) A keyword candidate group consisting of a single keyword and a combination of a plurality of keywords is created as a search knowledge candidate group with priority given to the highest score for a predetermined number of selected keywords, and actual subjective evaluation is performed using the keyword candidate group. Search for a large number of sample documents.
(3) Compare the search results with sample documents (ranking by subjective evaluation), and rank which keyword combination (keyword candidate group) is better (keyword candidate group for which many high-ranked documents are searched) Choose).
(4) A human selects from the top of the keyword candidate group.
(5) At this time, the search time is also measured, and the optimum keyword candidate group is determined as search knowledge in consideration of the search time. This will be specifically described below.
[0062]
For example, a keyword candidate group as a search knowledge candidate group is created. Here, the top 50 keywords are selected as a keyword candidate group in the order of score, and are represented by K (50). For example, a keyword candidate group including the top 50 keywords in the order of score such as K (50) = [user, compression, transfer,...] Is created.
[0063]
Then, a sample document (for example, a sample document used to create the keyword candidate group) is searched using the keyword candidate group, and the search result is obtained. In FIG. 6, the number of sample documents to be searched is 100, and the above-described K (50) = [user, compression, transfer,...] Is used to search the 100 sample documents. The search order (1st to 100th), the document number of the searched sample document (document number No. 1 to No. 100), and the five-level evaluation value (5 to 5) for each sample document 1) The obtained score is shown.
[0064]
It should be noted that the score becomes larger as the search order is higher and the subjective evaluation is higher. That is, in this case, the subjective evaluation value (5-1) is multiplied by (number of documents-search order). For example, the first search rank is the sample document with the document number No. 23, and the subjective evaluation value is “5”, so the score is (100−1) × 5 = 495. Similarly, the second highest search order is the sample document with the document number No. 3 and its subjective evaluation value is “4”, and thus the score is (100−2) × 4 = 392. In this way, a score is calculated for each sample document up to the 100th place.
[0065]
Thus, a search is made with a certain keyword candidate group (K (50) = [favorite, compression, transfer,...] In the above example), the search result is obtained, and the subjective evaluation value (5 to 1) is obtained. ) Is multiplied by (number of documents−search order) to obtain a score for each sample document. At this time, the score is high for a sample document having a high search order and a high subjective evaluation.
[0066]
Therefore, when searching for 100 sample documents using a certain keyword candidate group (here, K (50)), if many valid sample documents with high subjective evaluation are searched, the keyword candidate group is It can be said that it is an appropriate keyword group (search knowledge) for searching documents in the field.
[0067]
Therefore, various keyword candidate groups are created, and search is performed on 100 sample documents using each keyword candidate group, and the total scores (referred to as total scores) are compared. The total score is obtained by adding the scores for 100 sample documents in FIG. 6. In the example of FIG. 6, the total score is “2356”. This is obtained for various keyword candidate groups.
[0068]
The various keyword candidate groups are generated by setting various combinations of keywords. For example, a keyword candidate group is made up to the top 30, a keyword candidate group is made up to the top 20 or top 10, and a keyword candidate group is configured by selecting some of the top dozens. And so on.
[0069]
In this way, various keyword candidate groups are generated, and when an actual search is attempted using these keyword candidate groups, the result is as shown in FIG. In FIG. 7, K (50), K (30), K (20), and K (10) are, for example, a predetermined number of keywords in order from the top (the number in parentheses is the number of keywords). The keyword candidate group may be configured by taking out the keyword candidate group, or the keyword candidate group may be configured by selecting a predetermined number from the top. It is assumed that it is composed of a required number of keywords (numerical values in parentheses) in order. For K (50), the one described in FIG. 6 is used as it is. Although not described in FIG. 6, here, the search time (in this case, since the number of documents is 100, the time required to search 100 documents) is also measured, and K (50) The search time in case was 8.7 seconds.
[0070]
Similarly, for K (30), K (20), K (10), etc., as described with reference to FIG. 6, the score for each retrieved sample document is obtained, and the total value (total score) When the search time required for the search is calculated, the total score is “2200” for K (30), the search time is 4.2 seconds, and the total score for K (20) is “1890”, the search time was 3.8 seconds. In the case of K (10), the total score was “1745”, and the search time was 3.6 seconds.
[0071]
As can be seen from FIG. 7, if the number of keywords is large, more accurate search is possible and the total score value is also increased, but more search time is required. In FIG. 7, K (50) has the highest total score, but the search time is as long as 8.7 seconds. The search time is lowest for K (10), but the total score is “1745”, which is the lowest value. Therefore, if you choose one that is excellent in both the total score and the search time, in this case K (30) is the most appropriate because K (30) has a high score and the search time is small. Judge that there is.
[0072]
In this way, by using the keyword candidate group obtained based on the subjective evaluation results, by actually trying to search the sample document to be searched, two parameters of the total score and the search time are obtained. It can be understood from the two parameters which is an appropriate keyword group, and it can be used as search knowledge.
[0073]
Since the above-described determination procedure, score calculation, and the like can all be automated, determination is simple as long as subjective evaluation result data is collected. Further, if the contents as shown in FIG. 7 are displayed on the display screen as a process of determination, a human can determine which keyword candidate group is working properly. Then, depending on the situation, if you can modify the content settings (keyword combinations, etc.) of individual keyword candidates, the content of the keyword candidates (keyword combinations, etc.) Can be changed.
[0074]
By the way, the sample document to be searched may be a sample document in which search knowledge candidates are created, or may be one that has been subjectively evaluated but not used for search knowledge creation. In this way, by selecting a sample document that is not used for search knowledge creation as a search target, a more appropriate keyword candidate group can be selected.
[0075]
FIG. 8 is a configuration diagram for realizing the process of generating the keyword candidate group described above and obtaining the optimum keyword group as search knowledge by actually attempting a search using the generated keyword candidate group. The document data storage unit 1 stores sample document groups, the search knowledge candidate group generation unit 11, the thesaurus 12, the search unit 13, the search knowledge determination unit 14, the evaluation result data 4, and the like. The evaluation result data 4 may be used when an evaluation result (evaluation value) is added to the subjectively evaluated document stored in the document data storage unit 1.
[0076]
The search knowledge candidate group generation unit 11 uses the evaluation result data 4 (results shown in FIG. 3) for each sample document, as described in FIG. The score for each sample document is calculated based on the number of appearances in, and based on the obtained score for each individual word, as described above, K (50), K (30), K (20), K (10) Select keyword candidates such as At this time, as necessary, the words having the same or similar meaning are combined into one using the thesaurus 12.
[0077]
When a keyword candidate group is selected in this way, a search is actually performed on the sample document stored in the document data storage unit 1 by the search unit 13 using the keyword candidate group. Using the search results, the search knowledge determination unit 14 obtains the total score and search time for each keyword candidate group as described with reference to FIGS. To decide. At this time, as described above, the sample document to be searched may be a sample in which search knowledge candidates are created, or may be one that has been subjectively evaluated but not used for search knowledge creation.
[0078]
FIG. 9 is a flowchart showing an overall processing procedure for determining the optimum keyword candidate group described so far as search knowledge. Since the details of the processing contents have already been described, a rough processing procedure will be briefly described here.
[0079]
First, for each sample document (document subjectively evaluated by the subject) in a certain field, words appearing in the sample document are cut out by performing morphological analysis (step s1). Then, as described with reference to FIG. 5, a score is calculated for each word from the evaluation value given by the subject for each sample document and the number of appearances of the word (step s2). Subsequently, the words (keywords) with high scores are listed (step s3). Based on the list, as described above, K (50), K (30), K (20), K (10) Such a keyword candidate group is created (step s4).
[0080]
Then, a search is actually performed on the sample document group using one of the keyword candidate groups (step s5). This is performed for all keyword groups, and it is determined whether or not the search process is completed using all the set keyword candidates (step s6), and the search process using all the keyword candidate groups is completed. For example, if a result as shown in FIG. 7 is obtained, a keyword candidate group considered to be optimal is selected from the results, and determined as search knowledge (step s7).
[0081]
As described above, in this embodiment, the subject looks at several sample documents in a certain field, subjectively evaluates the appropriateness of the contents, the evaluation value and the number of occurrences of the word appearing in each sample document, The score is calculated for each word (keyword) from the list, the words with the highest scores are listed, and K (50), K (30), K (20) , K (10) keyword candidates are set. Then, the keyword candidate group is used to actually search the sample document group, the keyword candidate group that seems to be optimal is selected from the search result, and it is determined as search knowledge.
[0082]
In this way, humans actually evaluate the sample document and evaluate it. Therefore, it is possible to give an evaluation that humans can see and convince, and the main operations performed by the user are the contents of the document displayed on the screen. Therefore, the evaluation value can be easily evaluated without any special technique or knowledge. If such an evaluation result is obtained, the total score and search time can be obtained for a set of several keyword candidates according to a predetermined algorithm. An appropriate keyword group reflecting the evaluation result can be determined as search knowledge.
[0083]
The present invention is not limited to the embodiment described above, and various modifications can be made without departing from the gist of the present invention. For example, in the above embodiment, a Boolean search using simple keywords has been described, but it can also be applied to a vector search. In the case of this vector search, the following is performed roughly. First, as in the case of keywords, sample documents are ranked by subjective evaluation. Subsequently, word vectors are obtained, and the size of each vector is weighted by the subjective evaluation of the sample document. Thereby, it is possible to list candidates that are important vectors. After that, just like keywords, try and narrow down the appropriate vectors. As described above, the keyword group can be basically replaced with a vector and can be basically executed in the same manner as the Boolean search using the keyword described in the above embodiment.
[0084]
In addition, the present invention can create a processing program in which the processing procedure for realizing the present invention described above is described, and the processing program can be recorded on a recording medium such as a floppy disk, an optical disk, or a hard disk. The present invention also includes a recording medium on which the processing program is recorded. Further, the processing program may be obtained from a network.
[0085]
【The invention's effect】
As described above, according to the present invention, the subject actually looks at a plurality of sample documents belonging to a certain field, and subjectively evaluates how much the sample document is adapted to the field, and the result of the subjective evaluation Therefore, the search knowledge that accurately reflects the user's intention can be obtained. This makes it possible to efficiently and accurately search the information desired by the user. In addition, since the user only needs to evaluate the sample document when obtaining this search knowledge, no special technique or knowledge is required, so anyone can easily create search knowledge. .
[0086]
Further, the importance of each search knowledge candidate is obtained based on the appearance frequency of the search knowledge candidate for each sample document and the subjective evaluation result for the sample document, and the importance of each search knowledge candidate obtained. Based on the above, a plurality of search knowledge candidate groups formed by combining some search knowledge candidates are generated, and the plurality of search knowledge candidate groups are sequentially used one by one to actually search the plurality of sample documents. Attempts are made to determine the appropriate search knowledge candidate group from the search results, and the search knowledge is determined from the determination results. It is possible to obtain optimum search knowledge for searching.
[0087]
The determination as to which of the appropriate search knowledge candidate groups described above is the information related to the search order indicating the order in which the plurality of sample documents were searched when the search knowledge candidate group was given and the search was attempted. And the value obtained from the subjective evaluation value, and the search time required to complete the search for the plurality of sample documents when a search is attempted by giving the search knowledge candidate group, It is possible to determine search knowledge considering the speed of search.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating a processing procedure for performing subjective evaluation in an embodiment of the present invention.
FIG. 2 is a diagram illustrating a display example for performing subjective evaluation displayed on a PC screen on the user side.
FIG. 3 is a diagram illustrating an example of a subjective evaluation result for each sample document.
FIG. 4 is a diagram showing how frequently words appearing in each sample document appear in each sample document;
FIG. 5 is a diagram illustrating a result of obtaining a score by multiplying the result obtained in FIG. 4 by an evaluation value.
FIG. 6 shows a result of an actual search for a sample document group using a keyword candidate group, and information obtained from the search order of each sample document and an evaluation value of each sample document. It is a figure which shows the result of having calculated the score for every sample document.
FIG. 7 is a diagram showing a total score obtained from a search result by each keyword candidate group and a time required for the search.
FIG. 8 is a diagram illustrating a configuration of a main part necessary for realizing the present invention, in which a search knowledge candidate group is extracted and a search is performed on a sample document using the search knowledge candidate group, and a search is performed from the search result. It is a block diagram required in order to perform the process which determines knowledge.
FIG. 9 is a flowchart illustrating an overall processing procedure of the present invention.
[Explanation of symbols]
1 Document data storage
2 display section
3 Evaluation result generator
4 Evaluation result data
11 Search knowledge candidate group generation unit
12 Thesaurus
13 Search part
14 Search Knowledge Determination Department
21 Display screen
21a Subject input screen
22 Sample document selection unit 22
23 Evaluation Value Input Unit 23
24 Evaluation value confirmation input section

Claims (2)

表示手段と主観評価入力手段と評価結果生成手段と検索知識決定手段とを有する検索知識作成装置、ある分野に属する複数の文書の中から所望の文書を検索するときに用いる検索知識を作成する検索知識作成方法であって、
前記表示手段が、前記ある分野に属する複数のサンプル文書を順次表示させる表示工程と、
前記主観評価入力手段が、前記表示されたサンプル文書が当該分野に属する文書としてどの程度妥当かを表す主観評価を入力させる主観評価入力工程と、
前記評価結果生成手段が、前記主観評価された個々のサンプル文書と前記入力された主観評価とを対応付けた評価結果を生成する評価結果生成工程と、
前記検索知識決定手段が、前記個々のサンプル文書ごとにサンプル文書に出現する単語を検索知識候補として複数個抽出し、前記個々のサンプル文書ごとに求めた前記複数個の検索知識候補の出現回数と前記個々のサンプル文書に対する主観評価とに基づいて、それぞれの検索知識候補の重要性を示す値を求め、前記それぞれの検索知識候補の重要性を示す値に基づいて、複数の前記検索知識候補を組み合わせた検索知識候補群を複数組生成し、前記複数組の検索知識候補群を1組ずつ順次用いて前記複数のサンプル文書に対する検索を行い、前記複数のサンプル文書に対する検索の結果得られた前記個々のサンプル文書の検索順位と前記個々のサンプル文書に対する主観評価と前記複数のサンプル文書に対する検索に要した検索時間とを用いて、前記複数組の検索知識候補群のなかから前記検索知識を決定する検索知識決定工程と、
を含むことを特徴とする検索知識作成方法
Search knowledge forming apparatus having a display means and subjective evaluation input means evaluation results generating means and search the knowledge determining means, to create a search knowledge used when searching for a desired document from a plurality of documents belonging to a field A search knowledge creation method,
A display step in which the display means sequentially displays a plurality of sample documents belonging to the certain field;
A subjective evaluation input step in which the subjective evaluation input means inputs a subjective evaluation indicating how appropriate the displayed sample document is as a document belonging to the field;
An evaluation result generating step for generating an evaluation result in which the evaluation result generating means associates the subjective evaluation with each sample document and the input subjective evaluation;
The search knowledge determining means extracts a plurality of words appearing in the sample document for each individual sample document as search knowledge candidates, and the appearance count of the plurality of search knowledge candidates obtained for each individual sample document; A value indicating the importance of each search knowledge candidate is obtained based on the subjective evaluation of the individual sample documents, and a plurality of the search knowledge candidates are determined based on the value indicating the importance of each search knowledge candidate. A plurality of combinations of search knowledge candidate groups are generated, the plurality of search knowledge candidate groups are sequentially used one by one to perform a search for the plurality of sample documents, and the search result for the plurality of sample documents is obtained as a result of the search The search order of individual sample documents, the subjective evaluation for the individual sample documents, and the search time required for the search for the plurality of sample documents are used. Te, a search knowledge determining step of determining the search knowledge from the multiple sets of search knowledge candidates,
A search knowledge creation method characterized by including :
ある分野に属する複数の文書の中から所望の文書を検索するときに用いる検索知識を作成する検索知識作成装置であって、
前記ある分野に属する複数のサンプル文書を順次表示させる表示手段と、
前記表示されたサンプル文書が当該分野に属する文書としてどの程度妥当かを表す主観評価を入力させる主観評価入力手段と、
前記主観評価された個々のサンプル文書と前記入力された主観評価とを対応付けた評価結果を生成する評価結果生成手段と、
前記個々のサンプル文書ごとにサンプル文書に出現する単語を検索知識候補として複数個抽出し、前記個々のサンプル文書ごとに求めた前記複数個の検索知識候補の出現回数と前記個々のサンプル文書に対する主観評価とに基づいて、それぞれの検索知識候補の重要性を示す値を求め、前記それぞれの検索知識候補の重要性を示す値に基づいて、複数の前記検索知識候補を組み合わせた検索知識候補群を複数組生成し、前記複数組の検索知識候補群を1組ずつ順次用いて前記複数のサンプル文書に対する検索を行い、前記複数のサンプル文書に対する検索の結果得られた前記個々のサンプル文書の検索順位と前記個々のサンプル文書に対する主観評価と前記複数のサンプル文書に対する検索に要した検索時間とを用いて、前記複数組の検索知識候補群のなかから前記検索知識を決定する検索知識決定手段と、
を有することを特徴とする検索知識作成装置。
A search knowledge creating device for creating search knowledge used when searching for a desired document from a plurality of documents belonging to a certain field,
Display means for sequentially displaying a plurality of sample documents belonging to the certain field;
Subjective evaluation input means for inputting a subjective evaluation indicating how appropriate the displayed sample document is as a document belonging to the field;
An evaluation result generating means for generating an evaluation result in which the individual sample document subjected to the subjective evaluation is associated with the input subjective evaluation;
A plurality of words appearing in the sample document are extracted as search knowledge candidates for each of the individual sample documents, and the number of appearances of the plurality of search knowledge candidates obtained for each of the individual sample documents and subjectivity for the individual sample documents are extracted. Based on the evaluation, a value indicating the importance of each search knowledge candidate is obtained, and based on the value indicating the importance of each search knowledge candidate, a search knowledge candidate group combining a plurality of the search knowledge candidates is obtained. A plurality of sets are generated, the plurality of sets of search knowledge candidate groups are sequentially used one by one to perform a search for the plurality of sample documents, and the search order of the individual sample documents obtained as a result of the search for the plurality of sample documents And a plurality of sets of search information using a subjective evaluation of the individual sample documents and a search time required for searching the plurality of sample documents. And search the knowledge determination means for determining the search knowledge from among the group of candidates,
A search knowledge creation device characterized by comprising:
JP2000327779A 2000-10-26 2000-10-26 Search knowledge creation method in document search and search knowledge creation device in document search Expired - Fee Related JP4075302B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000327779A JP4075302B2 (en) 2000-10-26 2000-10-26 Search knowledge creation method in document search and search knowledge creation device in document search

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000327779A JP4075302B2 (en) 2000-10-26 2000-10-26 Search knowledge creation method in document search and search knowledge creation device in document search

Publications (2)

Publication Number Publication Date
JP2002132790A JP2002132790A (en) 2002-05-10
JP4075302B2 true JP4075302B2 (en) 2008-04-16

Family

ID=18804739

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000327779A Expired - Fee Related JP4075302B2 (en) 2000-10-26 2000-10-26 Search knowledge creation method in document search and search knowledge creation device in document search

Country Status (1)

Country Link
JP (1) JP4075302B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6023254B1 (en) * 2015-04-09 2016-11-09 真之 正林 Information processing apparatus and method, and program
JP6345206B2 (en) * 2016-06-14 2018-06-20 ヤフー株式会社 Distribution device, distribution method, distribution program, terminal device, display method, and display program
JP6734174B2 (en) * 2016-10-06 2020-08-05 真之 正林 Information processing equipment
JP7178388B2 (en) * 2020-07-09 2022-11-25 真之 正林 Information processing device and method, and program

Also Published As

Publication number Publication date
JP2002132790A (en) 2002-05-10

Similar Documents

Publication Publication Date Title
US6513036B2 (en) Method and apparatus for searching and presenting search result from one or more information sources based on context representations selected from the group of other users
US8275773B2 (en) Method of searching text to find relevant content
US7617199B2 (en) Characterizing context-sensitive search results as non-spam
US20050060290A1 (en) Automatic query routing and rank configuration for search queries in an information retrieval system
US20070239707A1 (en) Method of searching text to find relevant content
US20080228752A1 (en) Technical correlation analysis method for evaluating patents
JP4750832B2 (en) Information retrieval method and system
WO2007113585A1 (en) Methods and systems of indexing and retrieving documents
JP2001306612A (en) Device and method for information provision and machine-readable recording medium with recorded program materializing the same method
JPH10254911A (en) Method, device for preparing retrieval conditions, method for retrieving object while using the same and retrieval system using the same
JP4075302B2 (en) Search knowledge creation method in document search and search knowledge creation device in document search
JP4891638B2 (en) How to classify target data into categories
JP3373086B2 (en) Information retrieval device
GB2603318A (en) Workshop assistance system and workshop assistance method
JP2010198142A (en) Device, method and program for preparing database in which phrase included in document classified by category
Ren et al. Resource recommendation algorithm based on text semantics and sentiment analysis
JP2020181463A (en) Treasure keyword search system
JP5368900B2 (en) Information presenting apparatus, information presenting method, and program
JP5295818B2 (en) Database creation apparatus, database creation method, and database creation program in which words included in document are assigned by category
JP2002215642A (en) Feedback type internet retrieval method, and system and program recording medium for carrying out the method
Pisal et al. AskUs: An opinion search engine
JP2002108933A (en) Data retrieval system
JP5068304B2 (en) Extraction apparatus, method and program
JP2000242670A (en) Design method coping with customer satisfaction and design device coping with customer satisfaction
JP2024056293A (en) Design support device and design support method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080121

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110208

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110208

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120208

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130208

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130208

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees