JP2005010848A - Information retrieval device, information retrieval method, information retrieval program and recording medium - Google Patents
Information retrieval device, information retrieval method, information retrieval program and recording medium Download PDFInfo
- Publication number
- JP2005010848A JP2005010848A JP2003170997A JP2003170997A JP2005010848A JP 2005010848 A JP2005010848 A JP 2005010848A JP 2003170997 A JP2003170997 A JP 2003170997A JP 2003170997 A JP2003170997 A JP 2003170997A JP 2005010848 A JP2005010848 A JP 2005010848A
- Authority
- JP
- Japan
- Prior art keywords
- information
- word
- attribute
- concept
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、複数の情報の中から、所定の情報を検索する情報検索装置に関する。特に、問合せに対して広範囲の検索を行ない、利用者に相応しい情報を選択して出力する情報検索装置に関する。
【0002】
【従来の技術】
現在、情報を検索する方法として、入力された語と一致する語を含む情報を検索する方法が一般的に用いられている。この情報検索方法は、所望の情報の内容を端的に表現する語を利用者が思いつき、かつ利用者が思いついた語を含む情報が多量に存在する場合に、検索漏れの少ない検索結果を得る事ができる。
【0003】
ところが、利用者が所望の情報を端的に表現する語を思いつかず、所望の情報を得るには的外れな語を入力した場合、得られる情報も的外れな情報となる。また、利用者が思いついた語を含む情報が少量しかない場合、少量の情報の中に利用者が所望する情報が含まれている可能性は低い。これらの場合、利用者は思いついた語から連想する別の語を入力して検索を行なうという作業を、満足な検索結果が得られるまで繰返す必要に迫られる。
【0004】
この様な問題を解決するために、語の意味的関係を階層構造で記述し、その情報を利用して文書検索を行なう技術が、特許文献1に開示されている。特許文献1に記載されている検索方法は、語によって表現される概念同士の上位、及び下位関係を記憶した辞書データを参照して、入力した文字列が示す語の下位に位置する概念を表現する語を抽出し、抽出した語を検索キーとして文書を検索する検索方法である。
【0005】
図18に、語によって表現される概念同士の上位、及び下位関係を記憶した辞書データの模式図を示す。図18を参照して、この樹形図において、語902、904、…、918はそれぞれ樹形図のノードに配置されている。上位概念を表現する語と、その上位概念に属する下位概念を表現する語とは、それらの語によって表現される概念が互いに関連している事を示すパス900によってそれぞれ連結されている。
【0006】
特許文献1に記載の文書検索方法では、例えば「釣り」という語を示す文字列が入力されると、「釣り」という語908だけでなく、その下位概念を表現する語である「磯釣り」という語916と、「渓流釣り」という語918とを検索キーとして文書の検索を行なう。この様にして検索を行なう事により、大量の文書の中から、より具体的な情報を探し出す事ができる。
【0007】
また、特許文献1には、入力した文字列が示す語の上位に位置する概念を表現する語を抽出し、抽出した語、又は抽出した語によって表現される概念の下位に位置する概念を表現する語を検索キーとして文書を検索する検索方法も開示されている。例えば、「釣り」という語を示す文字列が入力されると、図18を参照して、「釣り」という語908だけでなく、その上位概念を表現する語である「アウトドア」という語914と、さらに上位概念を表現する「レクリエーション」という語902と、これらの語が表現する概念の下位概念を表現する語「キャンプ」910、「旅行」906、「温泉」912、「グルメ」914などの語を検索キーとして文書の検索を行なう。この様にして検索を行なう事により、関連性のある情報をより広範囲にわたって探し出す事ができる。
【0008】
【特許文献1】
特開平4−10062号公報
【発明が解決しようとする課題】
特許文献1に開示された方法を用いて情報を検索した場合、次の様な問題点がある。例えば、図18に示す辞書データに記載された語902から語918までのいずれかの語を検索キーとして検索する事によって、データベースから得られる情報の一覧が図19に示すものであるものとする。なお、図19を参照して、この情報の一覧は、情報940、942、及び944、並びにこれらの情報を得るための検索キー946、948、及び950を一覧にまとめたものである。
【0009】
特許文献1に記載の検索方法を用いて、与えられた語によって表現される概念の下位の概念を表現する語によって情報の検索を行なうと、大量の情報の中から、より具体的な情報を探し出す事ができる。しかし、下位の概念を表現する語を用いて検索を行なっても、十分な成果を得る事が期待できない場合がある。
【0010】
例えば、利用者によって入力された文字列が示す語が「釣り」という語908であったとする。図18を参照して「釣り」という語908の下位の概念を表現する語は、「磯釣り」916と「渓流釣り」918とである。この場合データベースには、利用者にとっては「釣り」と関係ある情報が含まれているかも知れない「キャンプ用品バーゲン情報」940という情報が保持されているが、この情報を探し出す事ができない。この様に、利用者は関係があると考えているかもしれない情報がデータベースに保持されているにもかかわらず、検索結果から漏れる恐れがある。
【0011】
逆に、上位概念を表現する語、及びその下位概念を表現する語によって情報の検索を行なうと、論理的には利用者が所望する情報に近い情報であっても、利用者が所望する情報の内容に対して抱くイメージと全く異なるイメージを想起させる情報である恐れがある。
【0012】
例えば、利用者によって入力された文字列の示す語が「釣り」という語であったとする。この検索方法では、上位概念を表現する語、及びその下位概念を表現する語を検索キーとして検索を行なう。すると、図19を参照して、「キャンプ用品バーゲン情報」という情報940、「近郊温泉施設」という情報942、及び「探検倶楽部」という情報944が得られる。ところが利用者が「釣り」と「温泉」とには「のんびりした」イメージを抱いており、「キャンプ」と「探検」とには「のんびりした」イメージを抱いていない場合がある。この様な場合、利用者が入力した「釣り」という語と、検索結果として得られた「キャンプ用品バーゲン情報」という情報940との関係、及び「釣り」という語と、「探検倶楽部」という情報944との関係が利用者には分からず、利用者はこれらの情報は無駄な情報であると感じる恐れがある。
【0013】
それゆえに本発明の目的は、利用者が入力した語によって表現される概念と関連する情報を検索する装置であって、高い検索精度と高い再現性とを共に備える情報検索装置を提供する事である。
【0014】
本発明の他の目的は、利用者が検索するために入力した語によって表現される概念と関連する情報を検索する情報検索装置であって、当該入力した語との間に高い関連性を有する情報を、広範囲な情報から検索できる情報検索装置を提供する事である。
【0015】
本発明のさらに他の目的は、利用者が検索するために入力した語によって表現される概念と関連する情報を検索する情報検索装置であって、多面的な評価により、当該入力した語との間に高い関連性を有すると推定される情報を、広範囲な情報から検索できる情報検索装置を提供する事である。
【0016】
本発明のさらに他の目的は、利用者が検索するために入力した語によって表現される概念と関連する情報を検索する情報検索装置であって、利用者が重視する情報の性質に関して、当該入力した語との間に高い関連性を有すると推定される情報を、広範囲な情報から検索できる情報検索装置を提供する事である。
【0017】
本発明のさらに他の目的は、利用者が検索するために入力した語によって表現される概念と関連する情報を検索する情報検索装置であって、利用者が重視する情報の性質を推定する事により、当該入力した語との間に高い関連性を有すると推定される情報を、広範囲な情報から検索できる情報検索装置を提供する事である。
【0018】
本発明の追加の目的は、利用者が検索するために入力した語によって表現される概念と関連する情報を検索する情報検索装置であって、当該入力した語が利用者に想起させるイメージと類似のイメージを利用者に想起させる情報を、広範囲な情報から検索できる情報検索装置を提供する事である。
【0019】
【課題を解決するための手段】
本発明の第1の局面に係る情報検索装置は、第1の語を示す文字列を取得するための文字列取得手段と、複数の語に関して、語の概念間の階層的な関係を示す概念情報を保持するための概念情報保持手段と、第1の語によって表現される概念と関連性のある概念を表現する第2の語を、概念情報に基づいて、概念情報保持手段より収集するための語収集手段と、検索対象となる情報を保持するためのデータベースと、第1の語、及び第2の語を検索キーとして、データベースから、第1の語、及び第2の語のいずれかと一致するキーワード、並びに当該一致するキーワードに対応するデータベースに保持されている情報とを抽出するための抽出手段と、複数の語に関して、語の属性を示す情報を取得するための手段と、第1の語の属性と、当該一致するキーワードの属性との類似性を基準として、抽出手段が抽出した情報の優先順位を決定するための順位決定手段と、順位決定手段が決定した優先順位に従って、抽出手段が抽出した情報を出力するための出力手段とを含む。
【0020】
この情報検索装置の利用者によって入力される文字列が示す第1の語のみならず、第1の語と概念的な関連性を有する第2の語を検索キーとして情報を検索する事により、広範囲な情報から情報を検索する事ができる様になる。そのため、検索の再現性が向上する。さらに検索結果を、第1の語の属性との類似性という別の基準によって検証を行なう事により、利用者が入力した語との間に高い関連性を有する情報を検索できる。そのため、検索精度が向上する。
【0021】
好ましくは、順位決定手段は、語の属性を示す情報を取得するための手段が取得した、第1の語の属性を示す情報と、一致するキーワードの属性を示す情報とを元に、第1の語の属性と、一致するキーワードの属性との類似性を示す得点を算出するための得点算出手段と、得点算出手段が算出した得点を基準として、抽出手段が抽出した情報の優先順位を決定するための決定手段とを含む。
【0022】
第1の語の属性と、キーワードの属性との類似性を示す得点を算出する事により、具体的な基準に基づく優先順位の決定を行なう事ができる。よって、利用者が入力した語との間に高い関連性を有する情報を検索できる。
【0023】
好ましくは、語の属性を示す情報を取得するための手段は、複数の語の各々に関して、当該語の属性を、属性ごとに予め設定された属性値によって示す属性情報を保持するための属性情報保持手段を含み、順位決定手段は、属性情報保持手段に保持された、第1の語に関する属性情報と、一致するキーワードに関する属性情報とを元に、第1の語と、一致するキーワードとの心的距離を算出するための心的距離算出手段と、心的距離算出手段が算出した心的距離を基準とし、抽出手段が抽出した情報の優先順位を決定するための決定手段とを含む。
【0024】
第1の語の属性と、キーワードの属性との間の心的距離を算出する事により、さらに具体的な基準に基づく優先順位の決定を行なう事ができる。よって、利用者が入力した語との間に高い関連性を有する情報を検索できる。
【0025】
さらに好ましくは、順位決定手段はさらに、概念情報保持手段に保持された、第1の語に関する概念情報と、一致するキーワードに関する概念情報とを元に、第1の語と、一致するキーワードとの概念距離を算出するための概念距離算出手段と、第1の語と、一致するキーワードとの組合せごとに、心的距離と、概念距離とを統合した基準値を作成するための手段とを含み、決定手段は、心的距離と、概念距離とを統合した基準値を基準として、抽出手段が抽出した情報の優先順位を決定するための手段を含む。
【0026】
第1の語によって表現される概念と、キーワードによって表現される概念との関連性を概念距離によって具体化し、さらに、この概念距離と、心的距離とを用いて多面的に情報を評価する事により、利用者が入力した語との間に高い関連性を有すると推定される情報を、広範囲な情報から検索できる。
【0027】
心的距離算出手段は、各属性の重要度を設定するための重要度設定手段と、属性情報保持手段に保持された、第1の語に関する属性情報、一致するキーワードに関する属性情報、及び重要度設定手段が設定した各属性の重要度を元に、第1の語と、一致するキーワードとの心的距離を算出するための手段とを含んでもよい。
【0028】
利用者が重視する情報の性質がどの様なものであるかを重要度設定手段による設定によって具体化する事ができる。そのため、この設定を加味して心的距離を算出する事により、利用者が重視する性質に関して、利用者が入力した語と高い関連性を有する情報を検索する事ができる。
【0029】
重要度設定手段は、出力手段が出力した情報の履歴を記録するための履歴記録手段と、履歴記録手段が記録した履歴に基づき、各属性の重要度を設定するための手段とを含んでもよい。
【0030】
各属性の重要度を設定するための手段は、履歴記録手段が記録した履歴と、データベースとを照合する事により、情報に対する利用者の嗜好を推定するための嗜好推定手段と、嗜好推定手段が推定した嗜好と、属性情報保持手段が保持する属性情報とを元に、各属性の重要度を設定するための手段とを含んでもよい。
【0031】
嗜好推定手段は、履歴記録手段が記録した履歴と、データベースとを照合し、キーワードごとに、キーワードに対応するデータベースに保持されている情報が出力された頻度を算出するための手段と、このキーワードごとの頻度、及び属性情報保持手段に保持されたキーワードの属性を元に、情報に対する利用者の嗜好を推定するための手段とを含んでもよい。
【0032】
過去に出力された情報から、重要度を算出する事により、利用者が重視する情報の性質を推定する事が可能となり、利用者が重視する性質に関して、入力された語と高い関連性を有する情報を検索する事ができる。よって、利用者が入力した語が利用者に想起させるイメージと類似のイメージを利用者に想起させる情報を検索できる。
【0033】
出力手段は、順位決定手段が決定した優先順位に従って、抽出した情報を優先順位によって示される順に、所定の順位まで出力するための手段を含んでもよい。
【0034】
出力する情報を絞込む事により、特に利用者にとって興味あると思われる情報を検索結果として提示する事ができる。よって、情報の検索結果が利用者にとって充実したものとなる。
【0035】
本発明の第2の局面に係る情報検索方法は、第1の語を示す文字列を取得するステップと、取得した文字列が示す第1の語によって表現される概念と関連性のある概念を表現する第2の語を収集するステップと、第1の語、及び第2の語を検索キーとして、キーワードに対応するデータベースに保持されている情報を検索するステップと、この検索するステップにおいて、検索キーによって得られた検索結果である情報に対応するキーワードの属性と、第1の語の属性との類似性を基準として、出力する検索結果である情報の優先順位を決定するステップと、この決定するステップにおいて決定された優先順位に従い、検索結果である情報を出力するステップとを含む。
【0036】
情報を検索する際に、この情報検索方法を用いる事により、入力した語との間に高い関連性を有する情報を、広範囲な情報から検索できる。
【0037】
本発明の第3の局面に係る情報検索プログラムは、コンピュータ上で実行されると、当該コンピュータを本発明の第1の局面に係る情報検索装置として動作させる。
【0038】
この情報検索プログラムを実行する事により、上記した第1の局面に係る発明の作用及び効果をコンピュータで実現する事が可能となる。
【0039】
本発明の第4の局面に係る記録媒体は、本発明の第3の局面に係る情報検索プログラムが記録された、コンピュータで読取可能な記録媒体である。
【0040】
この記録媒体に記録された情報検索プログラムをコンピュータで読取り、実行する事により、上記した第1の局面に係る発明の作用及び効果を実現できる。
【0041】
【発明の実施の形態】
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明に用いる図面では、同一の部品には同一の符号が付してある。それらの名称及び機能も同一である。従って、それらについての詳細な説明は繰返さない。
【0042】
[実施の形態1]
本発明の実施の形態1に係る情報検索装置の概要について説明する。本実施の形態1に係る情報検索装置は、特許文献1に記載の技術と同様、情報の検索を行なう前に、与えられた語について、その語によって表現される概念(以下、この概念を「語の概念」と呼ぶ。)と関連する概念を表現する語を集める。そして、そうした語を検索キーとして情報の検索を行なう。
【0043】
しかし本実施の形態1に係る情報検索装置はさらに、語に備わる性質(以下、この性質を「語の属性」と呼ぶ。)に基づいて、検索の結果を出力する際の優先順位を決定し、決定した優先順位に従って検索結果を出力する。
【0044】
ある語の属性は、本実施の形態に係る情報検索装置の利用者が当該の語、若しくは当該の語によって表現される事物に対して抱くイメージなどの心情的な性質、又は当該の語によって表現される時代的、若しくは地域的な背景など、論理的な概念によって関連性を示す事が困難な性質などがある。そのため、本実施の形態1に係る情報検索装置は、関連する概念の語を検索キーとして検索を行ない、複数種類の情報を得た場合、利用者が所望する情報に類似する印象を想起させる可能性の高い情報を優先的に出力する。
【0045】
図1に、本実施の形態1に係る情報検索装置の構成をブロック図形式で示す。図1を参照して、情報検索装置100は、キーボード、マウス、又はタッチパネルなどの入力装置からなり、検索キーを示す文字列を取得する文字列取得部102と、語の概念間の階層的な関係を示す概念辞書を記憶する概念辞書記憶部104と、文字列取得部102及び概念辞書記憶部104に接続され、文字列取得部102が取得した文字列によって構成される語(以下、この語を「入力語」と呼ぶ。)と関連性のある概念の語(以下、この語を「拡張語」と呼ぶ。)を概念辞書記憶部104から取得し、入力語と拡張語とからなる拡張検索キーを作成する語拡張部106とを含む。
【0046】
情報検索装置100はさらに、検索対象となるデータを、データを検索する際に用いるキーワードに対応付けて保持するデータベース108と、語拡張部106及びデータベース108に接続され、語拡張部より与えられた拡張検索キーを用いて、データベース108に保持されたデータを検索するデータ検索部110とを含む。
【0047】
情報検索装置100はさらに、語の属性を示す属性情報によって構成された属性辞書を記憶する属性辞書記憶部112と、データ検索部110、及び属性辞書記憶部112に接続され、データ検索部110による検索結果を、属性辞書記憶部112に記憶されている属性情報に基づいて検証し、検索結果であるデータに優先順位を付けるランク計算部114と、データベース108及びランク計算部114に接続され、検索結果であるデータの優先順位をランク計算部114から取得し、取得した優先順位に従って、データベース108からデータを取得するデータ選択部116と、データ選択部116が取得したデータを出力する出力部118とを含む。
【0048】
図2に、概念辞書記憶部104に記憶される語の概念の関連性を示す。図2を参照して、語の概念の関連性は、樹形図によって模式的に表現される。この樹形図において、語132、134、…、148、…はそれぞれ樹形図のノードに配置されている。上位概念を表現する語と、その上位概念に属する下位概念を表現する語とは、それらの語によって表現される概念が互いに関連している事を示すパス130によってそれぞれ連結されている。例えば、「釣り」という語138の概念は、「磯釣り」という語146の概念、及び「渓流釣り」という語148の概念の上位概念となる。また、「釣り」という語138の概念は、「アウトドア」という語134の概念の下位概念となる。また例えば、「釣り」という語138の概念と、「パラグライダー」という語140の概念との関連性は、「釣り」という語138の概念と、「温泉」と語142の概念との関連性より高い。
【0049】
図3に、概念辞書記憶部104に記憶されている概念辞書の構成を示す。図3を参照して、概念辞書160は、多数の項目162、164、…、182、…を含む。各項目は語186と、語を識別するためのユニークな語番号188と、語186によって表現される概念の関連を示す概念情報190とを含む。概念情報190は、図2に示す樹形図におけるパス130に相当する情報である。概念情報190は、上位概念を表現する語の語番号192と、下位概念を表現する語の語番号194とを含む。
【0050】
概念辞書160の各項目に記載された語が表現する概念の関連性は、概念情報190に格納された上位概念の語の語番号192、及び下位概念の語の語番号194によって示される。例えば、項目168に記載されている「釣り」という語の上位概念を表現する語の語番号は、「00123」である。語番号「00123」の語は、項目164に記載された「アウトドア」という語である。すなわち、「アウトドア」という語が、「釣り」という語の上位概念を表現する語となる。逆に語番号「00123」の「アウトドア」という語の下位概念を表現する語の語番号は「01734」と「02495」とである。即ち、「アウトドア」という語の下位概念を表現する語には、「釣り」という語に加えて、「パラグライダー」という語が含まれる。
【0051】
図4に、語拡張部106が、図3に示す概念辞書160に基づいて作成する拡張検索キーの構成を示す。図4を参照して、拡張検索キー200は、入力語202と、拡張語204とを含む。入力語202は、後の動作において図1に示すランク計算部114が、検索結果のランク付けを行なうために用いるので、拡張語204とは区別される。
【0052】
図5に、データベース108に保持されているデータの一例を示す。図5を参照して、データベース108に保持されているデータ210は、複数のデータ項目212、214、216、218、…を含む。各データ項目は、格納されたデータ220と、データ項目を識別するための項目番号222と、データ検索部110がデータを検索する際に参照するキーワード224とを含む。キーワード224として選ばれる語は、データ220の内容に関連する語である。例えば、データ220の内容を端的に示す単語であってもよいし、データ220内に出現する単語を抽出したものであってもよい。
【0053】
なお、図5に示すデータベースは、キーワードをデータと共に保持する形式で示されているが、これは説明の都合上のものであり、この形式に限定されるものではない。
【0054】
図1に示すデータ検索部110は、語拡張部106より与えられた拡張検索キーに含まれる語と同一の語がキーワードに含まれているデータ項目をデータベース108から検索し、検索結果をランク計算部114に与えるための検索結果情報を作成する機能を有する。図6に、データ検索部110が作成し、ランク計算部114に与える検索結果情報の一例を示す。図6を参照して、検索結果情報240は複数の項目242、244、246、…を含む。これらは、それぞれ検索結果であるデータ項目の項目番号248と、検索時に拡張検索キーと一致したキーワード250とを含む。
【0055】
図7に、属性辞書記憶部112(図1参照)に記憶されている属性辞書の構成を示す。図7を参照して、属性辞書260は、多数の項目262、264、266、268、…を含む。各項目は、語270と、語を識別するための語番号272と、語の属性を示す属性情報274とを含む。属性情報274は、語の属性を、属性の種類を示す属性項目276、278、280、…ごとにそれぞれ数値化した属性値を含む情報である。図7に示す属性辞書260では、語に、属性項目に示される属性が備わっている場合に属性値「1」を、備わっていない場合には属性値「0」が与えられている。これらの属性値は、調査に基づいて設定しておいてもよいし、利用者本人が設定する様にしてもよい。
【0056】
図1に示すランク計算部114は、与えられた検索結果情報を元に、属性辞書記憶部112に記憶されている属性辞書を参照して、出力するデータ項目の優先順位を付ける機能を有する。ランク計算部114が出力するデータ項目の優先順位を付ける方法の一例を説明する。
【0057】
例えば、属性辞書記憶部112に記憶されている属性辞書が、図7に示す属性辞書260であり、ランク計算部114に入力語として「釣り」という語が与えられ、検索結果情報として図6に示される検索結果情報240が与えられたとする。このとき、図6に示す検索結果情報240に記載されている項目244のキーワードは「温泉」である。図7を参照して、「温泉」という語を含む項目262と、入力語である「釣り」という語を含む項目266とは、属性項目「のんびり」276の属性値と、属性項目「和風」280の属性値が一致する。よって、図6に示す検索結果情報240の項目244の得点は2点となる。この様にして算出した得点の降順に出力するデータ項目の優先順位を決定する。
【0058】
図1から図7を参照して、本実施の形態に係る情報検索装置100は、以下の様に動作する。
【0059】
図1を参照して、利用者が文字列取得部102を用いて入力語を入力した事に応答して、文字列取得部102は、入力語を語拡張部106に与える。
【0060】
入力語を与えられた語拡張部106は、概念辞書記憶部104に記憶された図3に示す概念辞書160内で入力語が含まれている項目を探し出す。次に語拡張部106は、入力語が記載された項目の概念情報190を参照し、入力語の上位概念の語と、下位概念の語とを拡張語として取得する。語拡張部106は、取得した拡張語の概念情報190を参照して、拡張語の上位概念の語と下位概念の語とを取得する動作を所定の回数(本実施の形態では3回)繰返して拡張語を取得し、入力語及び取得した拡張語から拡張検索キーを作成する。作成された拡張検索キーは、データ検索部110に与えられる。
【0061】
データ検索部110は、与えられた拡張検索キーによって、データベース108に格納されているデータを検索する。データ検索部110は、拡張検索キーに含まれる語のいずれかと一致するキーワードを含むという条件に該当するデータ項目の項目番号と、一致したキーワードとをデータベース108から読出す。
【0062】
例えば、データベース108には図5に示すデータ210が記憶されており、データ検索部110には図4に示す拡張検索キー200が与えられたとする。このときデータ検索部110は、拡張検索キー200に含まれる語と一致するキーワードを含むデータ項目212、214、及び216の項目番号222とキーワード224とを検索結果として読出す。データ検索部110は、読出した項目番号及びキーワードを元に検索結果情報を作成する。作成された検索結果情報は入力語と共にランク計算部114に与える。
【0063】
入力語と検索結果情報とが与えられた事に応答して、ランク計算部114は、入力語の属性情報と、検索結果情報に含まれるキーワードの属性情報とを属性辞書記憶部112から読出す。ランク計算部114は、読出した属性情報の各属性項目について、入力語の属性値とキーワードの属性値とを比較し、両者の属性値が一致した数だけ検索結果情報に得点を付与する。この動作を検索結果情報に含まれるすべてのキーワードに対して行ない、当該の検索結果情報の得点とする。ランク計算部114は、算出した得点が高い順に、検索結果情報に記載された項目番号を並べたランク表を作成し、データ選択部116に与える。
【0064】
データ選択部116は、与えられたランク表の上位から、所定の数だけの項目番号を読出す。データ選択部116はさらに、読出した項目番号のデータ項目を、データベース108から読出して、読出したデータ項目を出力部118に与える。出力部118は与えられたデータを出力する。
【0065】
本実施の形態1に係る情報検索装置100は、一般的なコンピュータ、又は携帯情報端末装置と、それらの上で実行されるコンピュータプログラムにより実現できる。以下、情報検索装置100に関する所望の機能を実現するためのプログラムの制御構造について説明する。
【0066】
図8に情報検索装置100が実行するプログラムのフローチャートを示す。図8を参照して、情報検索装置100がプログラムを開始すると、制御はステップ(以下、ステップを単に「S」と表記する。)302に進む。S302では、情報検索装置100は検索キーとなる文字列を取得する。制御はS304に進む。
【0067】
S304では、取得した検索キーとなる文字列を入力語とし、入力語を元に、拡張検索キーを作成する。制御はS306に進む。
【0068】
S306では、入力語と、S304の制御によって作成した拡張検索キーによって、データベースに保持されているデータを検索し、検索結果であるデータ項目の項目番号と、当該のデータ項目に関連付けられたキーワードとを取得する。制御はS308に進む。
【0069】
S308では、S306の制御によって取得したキーワードの属性情報と入力語の属性情報とを比較し、各データ項目に得点を付ける。制御はS310に進む。
【0070】
S310では、出力するデータとして、高得点のデータ項目から順に所定の数のデータ項目を選択する。続くS312では、選択されたデータ項目のデータを出力する。以上の制御が終了した後、このプログラムは終了する。
【0071】
以上の様に本実施の形態1に係る情報検索装置100は、与えられた入力語から、拡張検索キーを作成してデータを検索するため、入力語によって表現される概念を含む広範囲の概念と符合する情報を検索する事ができる。また、検索の結果得られた情報に対して、語の属性に基づく順位付けを行ない、順位に基づいて検索結果を出力するため、入力語と類似した性質を表現する情報が優先的に出力される。そのため、入力された語との間に高い関連性を有する情報を検索結果として出力する事ができる。
【0072】
[実施の形態2]
実施の形態1に係る情報検索装置100は、語によって表現される概念に基づいてデータの検索範囲を拡張し、語の属性に基づいて検索結果を出力する際の優先順位を決定するものであった。しかし、本発明は、この様な実施の形態には限定されない。
【0073】
本実施の形態2に係る情報検索装置は、検索結果を出力する際の優先順位を決定する際に、入力語と、検索結果であるデータ項目のキーワードとの語の属性の類似性のみならず、入力語と、キーワードとの語の概念の関連性を加味した基準によって優先順位の決定を行なう。
【0074】
図9に、本実施の形態2に係る情報検索装置の構成を、ブロック図形式で示す。図9を参照して、本実施の形態2に係る情報検索装置400は、図1に示す実施の形態1に係る情報検索装置100と同一の文字列取得部102と、概念辞書記憶部104と、語拡張部106と、データベース108と、データ検索部110と、データ選択部116と、出力部118とを含む。
【0075】
情報検索装置400はさらに、図1に示す実施の形態1に係る属性辞書記憶部112に替えて、属性辞書記憶部112と異なり、語がどの程度属性を備えているかを数値化した属性値からなる属性情報によって構成された属性辞書を記憶する属性辞書記憶部412を含む。
【0076】
情報検索装置400はさらに、データ検索部110及び概念辞書記憶部104に接続され、概念辞書記憶部104に記憶されている概念情報に基づいて、検索結果であるデータ項目のキーワードと入力語との概念の関連性を示す値である概念距離を計算する概念距離計算部402と、データ検索部110及び属性辞書記憶部412に接続され、属性辞書記憶部412に記憶されている属性情報に基づいて、検索結果であるデータ項目が利用者に与える心情的な印象と、入力語とが利用者に与える心情的な印象との類似性を示す値である心的距離を計算する心的距離計算部404とを含む。
【0077】
情報検索装置400はさらに、図1に示すランク計算部114に替えて、概念距離計算部402、心的距離計算部404、及びデータ選択部116に接続され、概念距離計算部402によって数値化された概念距離と、心的距離計算部404によって数値化された心的距離とに基づいて、検索されたデータ項目をランク付けするランク計算部414を含む。
【0078】
概念距離計算部402は、概念辞書記憶部に記憶されている概念情報に基づいて、概念距離を計算する機能を有する。以下に、概念距離の計算方法の一例を示す。
【0079】
語の概念が図2に示す樹形図によって模式化されるとする。概念距離計計算部402は、図2を参照して、この樹形図上で語Wiが位置するノードとWjが位置するノードとを繋ぐパス130の本数を、2つの語Wi、Wj間の概念距離d(Wi,Wj)とする。この計算方法を用いると、例えば「釣り」という語138と、「アウトドア」という語134との間の概念距離d(「釣り」,「アウトドア」)は1と計算される。また例えば、「釣り」という語138と、「温泉」という語142との間の概念距離d(「釣り」,「温泉」)は4と計算される。また、入力語とキーワードが同一の語である場合、概念距離を0とする。以上の様にして計算した概念距離によると、語の概念の関連性が高いほど、概念距離は小さくなる。
【0080】
図10に、本実施の形態2に係る属性辞書記憶部412が記憶する属性辞書の構成を示す。図10を参照して、本実施の形態2に係る属性辞書記憶部412に記憶される属性辞書440は、多数の項目442、444、446、448、…を含む。各項目は図7に示す実施の形態1に係る属性辞書260と同様の構成を有するが、次の点で異なる。即ち、図7に示す属性辞書260の属性値は、各属性項目に関して、語が属性を備えているか否かを2値的に示した値であったのに対して、本実施の形態2に係る属性辞書440の属性値は、各属性項目に関して、語がどの程度属性を備えているかを示す「0」から「10」の整数値を属性値としている。その他の点については、実施の形態1に係る属性辞書260と実施の形態2に係る属性辞書440とは同一である。なお、属性辞書440の属性値には、調査に基づいて統計的に算出した値を用いてもよいし、利用者が設定した値を用いてもよい。
【0081】
心的距離計算部404は、図10に示す属性情報に基づいて、心的距離を計算する機能を有する。以下に、心的距離の計算方法の一例を説明する。
【0082】
属性辞書記憶部412(図9参照)に記憶されている語の属性情報が、図10に示す属性辞書440によって定義されているとする。図10を参照して、属性情報は先にも述べた様に、各属性項目に関して語がどの程度属性を備えているかを示す属性値を含む。定義されている属性項目の総数をnとし、ある語Wiの属性項目Ak(1≦k≦n)における属性値をai , kとすると、この語Wiの属性情報はai , kをそれぞれ成分とするn次元の属性情報ベクトルとして表現される。即ち語Wiの属性は、n次元のベクトル空間上で属性情報ベクトルによって定義される。このベクトルをwiとする。そして、語Wiの属性と、語Wjの属性との間のユークリッド距離の2乗を下記の数式1によって計算し、これから語Wiと語Wjとの間の心的距離s(Wi,Wj)を計算する。
【0083】
【数1】
例えば、図10を参照して、第1の属性項目A1を属性項目「のんびり」276、第2の属性項目A2を属性項目「スリリンク」278、第3の属性項目A3を属性項目「和風」280とし、「釣り」という語を語Wi、「パラグライダー」という語を語Wjとする。語Wi、及び語Wjの属性情報ベクトルwi、wjは、項目446及び項目448を参照して、それぞれ、wi=(10,2,6)、wj=(0,10,1)となる。よって、語Wiと、語Wjとの間の心的距離の2乗は、
【0084】
【数2】
となる。よって、「釣り」という語と、「パラグライダー」という語との間の心的距離s(「釣り」,「パラグライダー」)は、
【0085】
【数3】
となる。以上の様にして計算した心的距離によると、二つの語の属性が類似するほど、それらの語の間の心的距離は小さくなる。
【0086】
本実施の形態2に係る情報検索装置400は、以下の様に動作する。
【0087】
図9を参照して、実施の形態1に係る情報検索装置100と同様に、利用者が入力語を入力した事に応答し、文字列取得部102は、入力語を語拡張部106に与える。語拡張部106は、実施の形態1と同様の動作で拡張検索キーを作成し、データ検索部110に与える。データ検索部110は、実施の形態1と同様の動作で、拡張検索キーによって、データベース108に記憶されているデータの検索を行ない、検索結果情報を作成する。データ検索部110は、入力語と、作成した検索結果情報とを出力する。これらは概念距離計算部402、及び心的距離計算部404に与えられる。
【0088】
概念距離計算部402は、入力語と検索結果情報とが与えられた事に応答して、概念辞書記憶部104に記憶されている概念辞書に基づいて、入力語の概念と検索結果情報に含まれる各データ項目のキーワードの概念との間の概念距離を計算し、与えられた検索結果情報の各項目に、計算によって得られた入力語とキーワードとの間の概念距離を添付して、ランク計算部414に与える。
【0089】
一方、図9を参照して、心的距離計算部404は、データ検索部110から入力語及び検索結果情報が与えられた事に応答して、属性辞書記憶部412に記憶されている属性情報に基づいて、入力語と各データ項目のキーワードとの間の心的距離を計算し、与えられた検索結果情報の各項目に、計算によって得られた入力語とキーワードとの間の心的距離を添付して、ランク計算部414に与える。
【0090】
ランク計算部414、概念距離が添付された検索結果情報が概念距離計算部402から与えられたという条件、及び心的距離が添付された検索結果情報が心的距離計算部404から与えられたという条件の両方が満たされた事に応答して、検索結果情報に記載された各データ項目について、概念距離と心的距離との和をそれぞれ算出する。
【0091】
先述の通り、与えられた概念距離の値が小さいという事は、入力語の概念とキーワードの概念とが高い関連性をもっている事を示す。また、心的距離が小さいという事は、入力語の属性と、キーワードの属性との類似性が高い事を示す。そのため、ランク計算部414は、入力語の概念と高い関連性をもつデータ項目、又は入力語の属性と類似した属性のデータ項目を優先的に出力させるために、概念距離と心的距離との和が小さいデータ項目から順に、データ項目の項目番号を並べたランク表を作成し、データ選択部116に与える。
【0092】
データ選択部116は、与えられたランク表の上位から、所定の数だけ項目番号を読出し、読出した項目番号によって識別されるデータ項目を、データベース108から読出して、出力部118に与える。出力部118は与えられたデータを出力する。
【0093】
本実施の形態2に係る情報検索装置400は、実施の形態1に係る情報検索装置100と同様に、一般的なコンピュータ、又は携帯情報端末と、それらの上で実行されるコンピュータプログラムにより実現できる。以下、情報検索装置400に関する所望の機能を実現するためのプログラムの制御構造について説明する。
【0094】
図11に、本実施の形態2に係る情報検索装置400が実行するプログラムのフローチャートを示す。図11を参照して、本実施の形態2に係る情報検索装置400がプログラムを開始すると、まずS302で、入力語を取得し、S304では取得した入力語を元に拡張検索キーを作成する。続くS306では、作成した拡張検索キーを用いてデータベース108に保持されているデータを検索し、検索結果と、検索結果であるデータ項目と関連付けられているキーワードとを取得する。
【0095】
本実施の形態2に係る情報検索装置400が実行するプログラムにおいては、S306の処理が終了した後、制御はS508に進む。
【0096】
S508では、取得したキーワードについて、概念距離と心的距離との和をすべて算出したか否かを判定する。概念距離と心的距離との和をすべて算出しているならば、制御はS516に進む。算出していない検索結果があるならば、制御はS510に進む。
【0097】
S510では、入力語と、検索結果のデータ項目と関連付けられたキーワードとの間の概念距離を算出する。S512では、入力語とキーワードとの間の心的距離を算出する。続くS514では、概念距離と心的距離との和を算出する。制御はS508に戻る。
【0098】
S516では、概念距離と心的距離の和が小さな検索結果が上位になる様に、検索結果であるデータ項目にランク付けをする。制御は、S310に進む。
【0099】
S310では、図8に示す実施の形態1に係るプログラムによる制御と同様に、ランクが上位のデータ項目から順に所定数のデータ項目を選択し、続くS312で、選択したデータ項目を出力する。以上の制御が終了した後、このプログラムは終了する。
【0100】
以上の様に、実施の形態2に係る情報検索装置400は、検索の結果得られた情報に対して、属性の類似性、及び概念の関連性に基づく順位付けを行ない、順位に基づいて検索結果を出力する。そのため、概念的にも性質的にも、入力語と高い関連性を有する情報を検索結果として出力する事が可能となる。
【0101】
[実施の形態3]
実施の形態2において、概念距離、及び心的距離によって検索結果の優先順位を決定する機能を例示した。しかし本発明は、その様な実施の形態には限定されるものではない。
【0102】
本実施の形態に係る情報検索装置は、出力された情報の履歴に基づいて属性項目の重要度を算出し、算出した重要度によって、属性項目に重み付けを行なって心的距離の計算を行なう機能をさらに有する。
【0103】
図12に、本実施の形態3に係る情報検索装置の構成をブロック図形式で示す。図12を参照して、本実施の形態3に係る情報検索装置600は、図9に示す実施の形態2に係る情報検索装置400の文字列取得部102、概念辞書記憶部104、語拡張部106、データベース108データ検索部110、データ選択部116、出力部118に加えて、データ選択部116に接続され、データ選択部116によって選択されたデータ項目の項目番号を取得し、出力したデータ項目の履歴として記録する履歴記録部602と、履歴記録部602及びデータベース108に接続され、利用者の嗜好を示す嗜好データを作成する嗜好抽出部604と、属性辞書記憶部412、及び嗜好抽出部604に接続され、嗜好データ、及び属性辞書の属性情報を元に、属性辞書の各属性項目の重要度を算出する重み調整部606とを含む。
【0104】
本実施の形態3に係る情報検索装置600はさらに、図9に示す実施の形態2に示す心的距離計算部404に替えて、データ検索部110、属性辞書記憶部412、ランク計算部416、及び重み調整部606に接続され、属性辞書記憶部412に記憶されている情報、及び重み調整部606によって算出された重要度を元に、二つの語の間の心的距離を計算する心的距離計算部608を含む。
【0105】
図13に本実施の形態3に係る履歴記録部602が記録する履歴情報の構成を示す。図13を参照して、履歴情報620は、複数の履歴項目を含む。各履歴項目は、過去に情報検索装置600が出力したデータ項目の項目番号622と、データ項目が出力された日時624とを含む。項目番号622は、嗜好抽出部604(図12参照)が嗜好データを作成する際に用いられる。
【0106】
図14に嗜好抽出部604が作成する嗜好データの構成を示す。図14を参照して、嗜好データ640の各項目は、現在までに出力されたデータ項目と関連付けられているキーワードを示す出力キーワード642と、当該のキーワードと関連付けられているデータ項目が出力された回数を示す出力頻度644とを含む。出力頻度644は、出力されたデータ項目と関連付けられているキーワード群に、出力キーワード622が含まれている場合に加算される。この出力キーワードの出力頻度が高い値であるという事により、情報検索装置600の利用者が、当該の出力頻度が高いキーワードの属性を好む傾向がある事が示される。
【0107】
図12に示す重み調整部606は、先述の通り、嗜好抽出部604が作成する嗜好データ、及び属性辞書記憶部412に記憶されている属性情報を元に、属性項目の重要度を計算する機能を有する。以下に、重み調整部606が算出する重要度の計算方法の一例を説明する。
【0108】
与えられた嗜好データに、総数hの出力キーワードKm(1≦m≦h)が含まれているものとする。出力キーワードKmの出力頻度をfmで表わす。出力キーワードKmと一致する語の属性項目Alにおける属性値をal,mとする。このとき、属性項目Alの重要度Ilは以下の数式4によって算出される。
【0109】
【数4】
例えば、重み調整部606に図14に示す嗜好データ640が与えられ、図10に示す属性辞書440に記載された属性情報を元に、各属性項目の重要度を算出する場合を考える。属性項目236、238、240の重要度をそれぞれI1、I2、I3とすると、
【0110】
【数5】
となる。
【0111】
本実施の形態3に係る心的距離計算部608が行なう心的距離の計算方法の一例を、以下に説明する。
【0112】
定義されている属性項目の総数をn、語Wiの属性項目Ak(1≦k≦n)における属性値をai,k、属性項目Akの重要度をIkとする。心的距離計算部608は、Ikの逆数を重み値とする、語Wiと語Wjとの間の重み付きユークリッド距離の2乗を下記の数式6によって計算し、語Wiと語Wj間の心的距離s(Wi,Wj)を計算する。
【0113】
【数6】
【0114】
本実施の形態3に係る情報検索装置600は、以下の様に動作する。
【0115】
図12を参照して、情報検索装置600が起動すると、嗜好推定部604が、履歴記録部602に記録されている履歴情報を読出す。嗜好推定部602はさらに、履歴情報に記載されている項目番号のデータ項目と関連付けられているキーワードを、データベース108から読出す。読出したキーワードを出力キーワードとして、履歴情報に基づき出力頻度を算出し、嗜好データを作成する。作成した嗜好データは、重み調整部606に与えられる。
【0116】
嗜好データが与えられた事に応答して、重み調整部606は、嗜好データに含まれている出力キーワードと一致する語の属性情報を、属性辞書記憶部412から読出す。重み調整部606は、与えられた嗜好データと、読出した属性情報とを元に、各属性項目の重要度を算出する。算出した各属性項目の重要度は、心的距離計算部608に与えられる。
【0117】
一方、利用者が語を入力すると、文字列取得部102が入力語を語拡張部106に与える。語拡張部106は、概念辞書記憶部104に記憶された概念辞書を参照して拡張検索キーを作成し、データ検索部110に与える。データ検索部110は、拡張検索キーによって、データベース108に記憶されているデータの検索を行ない、検索結果情報を作成する。データ検索部110は、入力語と、作成した検索結果情報を出力する。出力された入力語と、作成した検索結果情報とは、概念距離計算部402、及び心的距離計算部608に与えられる。
【0118】
概念距離計算部402は、実施の形態2と同様に、入力語の概念と検索結果情報に含まれる各データ項目のキーワードの概念との間の概念距離を計算し、入力語とキーワードとに、概念距離を添付して、ランク計算部414に与える。
【0119】
一方、心的距離計算部608は、データ検索部110から入力語と検索結果情報とを与えられた事に応答して、属性辞書記憶部412に記憶されている属性情報、及び重み調整部606より与えられた各属性項目の重要度に基づいて、入力語の属性と、検索結果情報に記載された各データ項目のキーワードとの心的距離を計算する。
【0120】
図12を参照して、心的距離計算部608は、与えられた検索結果情報の各項目に、計算によって得られた入力語とキーワードとの間の心的距離を添付して、ランク計算部414に与える。
【0121】
ランク計算部414は、概念距離を含む検索結果情報が概念距離計算部402から与えられたという条件、及び心的距離を含む検索結果情報が心的距離計算部608から与えられたという条件の両方が満たされた事に応答して、検索結果情報に添付された概念距離、及び心的距離を読出し、検索結果情報に含まれる各データ項目について、概念距離と心的距離との和をそれぞれ算出する。
【0122】
ランク計算部414は、概念距離と心的距離との和の昇順に、データ項目の項目番号をソートしてランク表を作成し、データ選択部116に与える。データ選択部116は、与えられたランク表の上位から、所定の数だけデータ項目の項目番号を読出す。データ選択部116は、読出した項目番号のデータ項目を、データベース108から読出して、出力部118に与えると共に、読出したデータ項目の項目番号を、履歴記録部602に与える。出力部118は与えられたデータを出力し、履歴記録部602は、与えられた項目番号を履歴情報に加え、履歴情報を更新する。
【0123】
本実施の形態3に係る情報検索装置600は、実施の形態1、又は実施の形態2に係る情報検索装置と同様に、一般的なコンピュータ、又は携帯情報端末と、それらの上で実行されるコンピュータプログラムにより実現できる。以下、情報検索装置600に関する所望の機能を実現するためのプログラムの制御構造について説明する。
【0124】
図15に、本実施の形態3に係る情報検索装置600が実行するプログラムのフローチャートを示す。図15を参照して、まずS702で、記録されている履歴情報を読出し、データベースと照合して、出力キーワードを抽出する。S704では、履歴情報とデータベースとを照合して、S702で抽出した出力頻度を算出する。続くS706では、S702で抽出した出力キーワードと一致する語の属性情報、及びS704で算出した出力頻度に基づき、属性辞書に記載されている各属性項目の重要度を算出する。制御はS302に進む。
【0125】
図11に示す実施の形態2に係るプログラムと同様に、S302で、入力語を取得し、S304では取得した入力語を元に、拡張検索キーを作成する。続くS306では、S304で作成した拡張検索キーを用いて、データベースに保持されているデータを検索し、検索結果と、検索結果であるデータ項目と関連付けられているキーワードとを取得する。制御はS508に進む。
【0126】
S508では、取得したキーワードについて、入力語との間の概念距離と心的距離との和をすべて算出したか否かを判定する。概念距離と心的距離との和をすべて算出しているならば、制御はS516に進む。算出していない検索結果があるならば、制御はS510に進む。
【0127】
S510では、入力語と、検索結果のデータ項目と関連付けられたキーワードとの間の概念距離を算出する。制御はS708に進む。
【0128】
S708では、S706で算出した、各属性項目の重要度の逆数を重みとして、入力語とキーワードとの間の心的距離を算出する。続くS514では、図11に示す実施の形態2に係るプログラムによる制御と同様の制御で、概念距離と心的距離との和を算出する。制御はS508に戻る。
【0129】
S516では、概念距離と心的距離との和の昇順に、検索結果であるデータ項目をソートし、ランク付けをする。制御はS310に進み、図8に示す実施の形態1と同様に、上位のデータ項目から順に、所定の数のデータ項目を選択する。続くS312では、選択されたデータ項目を出力する。制御はS710に進む。
【0130】
S710では、S516で選択したデータ項目のデータ番号を元に、履歴情報を更新する。以上の制御が終了した後、このプログラムは終了する。
【0131】
本実施の形態3に係る情報検索装置600は、出力されたデータ項目の履歴に基づいて、利用者の嗜好を推定し、属性項目の重要度を算出する。算出した重要度が高い属性項目は、利用者が好む性質の項目であると考えられる。この属性項目の重要度を加味して心的距離を計算する事により、利用者が重視する情報の性質を推定し、利用者が重視する性質に関して、入力された語と高い関連性を有する情報を検索結果として出力する事が可能となる。
【0132】
実施の形態1から実施の形態3を例示するにあたり、拡張語を取得する方法の一例として、入力語の上位概念を表現する語と下位概念を表現する語とを取得し、取得した語のさらに上位概念を表現する語と、下位概念を表現する語とを取得する方法を例示した。しかし、拡張語を取得する方法は、この様な方法に限定されない。例えば、入力語の概念の下位概念を表現する語をすべて取得する様にしてもよい。
【0133】
実施の形態1から実施の形態3を例示するにあたり、概念辞書記憶部に記憶される概念辞書は、語の概念の上位、又は下位関係を示すものとしたが、概念辞書が示す語と語との関連性は、この様な上位、下位関係に限定しない。例えば、語と、その語の類義語とを関連付ける類義語辞典の様なものでもよい。概念辞書は、ある語と語との関連性を示すものであれば、その形態を問わない。
【0134】
また、実施の形態1に係る属性辞書は、実施の形態2又は実施の形態3に係る属性辞書の様な属性値を記載した辞書であってもよい。さらに、実施の形態1に係るランク計算部は、実施の形態2に係る心的距離を計算し、心的距離に基づくランク付けを行ってもよい。
【0135】
また、実施の形態1から実施の形態3に係る属性辞書に含まれる属性値は、語に備わる性質を、性質の種類ごとに数値化したものであれば、属性値、及び属性値の決定方法を問わない。
【0136】
実施の形態2、及び実施の形態3において、心的距離の計算方法として、ユークリッド距離、又は重み付きユークリッド距離を用いる計算方法を例示したが、心的距離を計算する方法はこの様な方法には限定されない。例えば、語の属性ベクトルに基づいてシティーブロック距離を算出する事により、心的距離を計算する様にしてもよい。
【0137】
実施の形態2、及び実施の形態3において、心的距離と、概念距離との和に基づいてデータ項目のランク付けを行なう例を示した。しかし、ランク付けを行なうために用いる値を算出するための計算方法は、この様な方法には限定されない。例えば、心的距離と概念距離とにそれぞれ所定の係数を掛けて正規化し、これら正規化した心的距離と正規化した概念距離との和をランク付けの基準となる値として用いてもよい。さらに、概念距離に掛ける係数と心的距離に掛ける係数とを利用者の好みに応じて設定し、概念距離と心的距離とを正規化する際に、設定した係数を掛ける様にしてもよい。また、ランク付けの基準となる値として、心的距離と概念距離との積を用いてもよい。
【0138】
実施の形態1から実施の形態3に係る情報検索装置の一例として、情報検索装置に含まれる各部が一体の構成を例示した。しかし本発明はそうした実施の形態には限定されない。例えば、情報検索装置を構成する各部が、2以上の筐体に分割されていてもよい。ただし、それらは互いに通信可能である必要がある。
【0139】
以上に例示した各実施の形態は前述の様に、コンピュータ及びコンピュータ上で動作するソフトウェアにより実現する事もできる。もちろん、以下に述べる機能の一部又は全部を、ソフトウェアでなくハードウェアで実現する事も可能である。
【0140】
図16に、本実施の形態で利用されるコンピュータシステム800の外観図を、図17にコンピュータシステム800のブロック図を、それぞれ示す。なおここに示すコンピュータシステム800はあくまで一例であり、この他にも種々の構成が可能である。
【0141】
図16を参照して、コンピュータシステム800は、コンピュータ820と、モニタ822、キーボード826、及びパッド型ポインティングデバイス828を含む。コンピュータ800にはさらに、CD―ROM(Compact Disc Read−Only Memory)ドライブ830が内蔵されている。
【0142】
図17を参照して、コンピュータシステム800はさらに、コンピュータ800に接続されるプリンタ824を含むが、これは図16には示していない。またコンピュータ800はさらに、CD―ROMドライブ830に接続されたバス846と、いずれもバス846に接続された中央演算装置(Central Processing Unit:CPU)836と、コンピュータシステム800のブートアッププログラムなどを記憶したROM(Read−Only Memory)838と、CPU836が使用する作業エリア及びCPU836により実行されるプログラムの格納エリアを提供するRAM(Random Access Memory)840と、データベース、概念辞書、又は属性辞書などを格納するハードディスク834とを含む。
【0143】
実施の形態1から実施の形態3で例示した情報検索装置の動作を実現するソフトウェアは、例えば、CD―ROM842の様な記録媒体上に記録されて流通し、CD―ROMドライブ830の様な読取装置を介してコンピュータ800に読込まれ、ハードディスク834に格納される。CPU836がこのプログラムを実行する際には、ハードディスク834からこのプログラムを読出してRAM840に格納し、図示しないプログラムカウンタによって指定されるアドレスから命令を読出して実行する。CPU836は、処理対象のデータをハードディスク834から読出し、処理結果を同じくハードディスク834に格納する。
【0144】
コンピュータシステム800の動作自体は周知であるので、ここではその詳細については繰返さない。
【0145】
なお、ソフトウェアの流通形態は上記した様に記録媒体に固定された形には限定されない。例えば、ネットワークを通じて接続された他のコンピュータからデータを受取る形で流通する事もあり得る。また、ソフトウェアの一部がハードディスク834中に格納されており、ソフトウェアの残りの部分をネットワーク経由でハードディスク834に取込んで実行時に統合する様な形の流通形態もあり得る。
【0146】
現代のプログラムはコンピュータのオペレーティングシステム(OS)又はいわゆるサードパーティ等によって提供される汎用の機能を利用し、それらを所望の目的に従って組織化した形態で実行する事により、所望の目的を達成するものが一般的である。従って、実施の形態1から実施の形態3において例示した各機能のうち、OS又はサードパーティが提供する汎用的な機能を含まず、それら汎用的な機能の実行順序の組合せだけを指定するプログラム(群)であっても、それらを利用して全体的として所望の目的を達成する制御構造を有するプログラム(群)である限り、それらが本発明の技術的範囲に含まれる事は明らかである。
【0147】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
【0148】
【発明の効果】
以上の様に、本発明の第1の局面によると、広範囲な情報から情報を検索する事ができる様になり、入力された語との間に高い関連性を有する情報を検索できる。そのため、検索精度と再現性とを向上できる。
【0149】
また、具体的な基準に基づく検証を行なったり、多面的に情報を評価する事により、入力された語との間に高い関連性を有すると推定される情報を、広範囲な情報から検索をしたりする事ができる。
【0150】
さらに、利用者が重視する性質に関して、入力された語と高い関連性を有する情報を検索する事ができる。さらに、利用者が重視する情報の性質を推定する事が可能となり、利用者が入力した語が利用者に想起させるイメージと類似のイメージを利用者に想起させる情報を検索できる。
【図面の簡単な説明】
【図1】本発明の実施の形態1に係る情報検索装置100の構成を示すブロック図である。
【図2】本発明の実施の形態に係る概念辞書記憶部104に記憶される語の概念の関連性を示す模式図である。
【図3】本発明の実施の形態に係る概念辞書記憶部104に記憶されている概念辞書の構成を示す図である。
【図4】本発明の実施の形態1に係る語拡張部106が作成した拡張検索キーの構成を示す図である。
【図5】本発明の実施の形態に係るデータベース108に保持されているデータの構成を示す図である。
【図6】本発明の実施の形態1に係るデータ検索部110が作成する検索結果情報の構成を示す図である。
【図7】本発明の実施の形態1に係る属性辞書記憶部112に記憶されている属性辞書の構成を示す図である。
【図8】本発明の実施の形態1に係る情報検索装置100が実行するプログラムのフローチャートである。
【図9】本発明の実施の形態2に係る情報検索装置400の構成を示すブロック図である。
【図10】本発明の実施の形態2に係る属性辞書記憶部412が記憶する属性辞書の構成を示す図である。
【図11】本発明の実施の形態2に係る情報検索装置400が実行するプログラムのフローチャートである。
【図12】本発明の実施の形態3に係る情報検索装置600の構成を示すブロック図である。
【図13】本発明の実施の形態3に係る履歴記録部602が記録する履歴情報の構成を示す図である。
【図14】本発明の実施の形態3に係る嗜好抽出部604が作成する嗜好データの構成を示す図である。
【図15】本発明の実施の形態3に係る情報検索装置600が実行するプログラムのフローチャートである。
【図16】本発明の実施の形態で利用されるコンピュータシステム800の外観図である。
【図17】本発明の実施の形態で利用されるコンピュータシステム800の構成を示すブロック図である。
【図18】従来の技術における、辞書データの模式図である。
【図19】従来の技術における、辞書データに記載された語を検索キーとして情報を検索したときに得られる情報の一例を示す図である。
【符号の説明】100、400、600 情報検索装置、102 文字列取得部、104 概念辞書記憶部、106 語拡張部、108 データベース、110 データ検索部、112、412 属性辞書記憶部、114、414 ランク計算部、116 データ選択部、118 出力部、160 概念辞書、260、440 属性辞書、402 概念距離計算部、404、608 心的距離計算部、602 履歴記録部、604 嗜好抽出部、606 重み調整部、620履歴情報、640 嗜好データ、800 コンピュータシステム、820 コンピュータ、822 モニタ、824 プリンタ、826 キーボード、828パッド型ポインティングデバイス、830 CD−ROMドライブ、834 ハードディスク、836 CPU、838 ROM、840 RAM、842 CD−ROM、846 バス[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an information search apparatus for searching for predetermined information from a plurality of information. In particular, the present invention relates to an information search apparatus that performs a wide range search for an inquiry and selects and outputs information suitable for a user.
[0002]
[Prior art]
Currently, as a method of searching for information, a method of searching for information including a word that matches an input word is generally used. This information retrieval method obtains a search result with few omissions when a user comes up with a word that expresses the content of desired information in a simple manner and there is a large amount of information including the word that the user has come up with. Can do.
[0003]
However, if the user cannot come up with a word that expresses the desired information in a straightforward manner and enters a word that is inappropriate for obtaining the desired information, the obtained information is also inappropriate. In addition, when there is only a small amount of information including a word that the user has come up with, the possibility that the information desired by the user is included in the small amount of information is low. In these cases, the user is required to repeat the search by inputting another word associated with the word that has been conceived until a satisfactory search result is obtained.
[0004]
In order to solve such a problem, Japanese Patent Application Laid-Open No. H10-228561 discloses a technique for describing a semantic relationship between words in a hierarchical structure and performing a document search using the information. The search method described in
[0005]
FIG. 18 is a schematic diagram of dictionary data that stores upper and lower relationships between concepts expressed by words. Referring to FIG. 18, in this tree diagram,
[0006]
In the document search method described in
[0007]
Further, in
[0008]
[Patent Document 1]
JP-A-4-10062
[Problems to be solved by the invention]
When information is searched using the method disclosed in
[0009]
Using the search method described in
[0010]
For example, it is assumed that the word indicated by the character string input by the user is the
[0011]
Conversely, when information is searched for using a word that expresses a higher concept and a word that expresses a lower concept, even if the information is logically close to the information desired by the user, the information desired by the user There is a possibility that it is information that reminds us of an image completely different from the image held for the contents of.
[0012]
For example, it is assumed that the word indicated by the character string input by the user is the word “fishing”. In this search method, a search is performed using a word expressing a superordinate concept and a word expressing the subordinate concept as search keys. Then, referring to FIG. 19,
[0013]
Therefore, an object of the present invention is to provide an information retrieval apparatus that retrieves information related to a concept expressed by a word input by a user and has both high retrieval accuracy and high reproducibility. is there.
[0014]
Another object of the present invention is an information search apparatus for searching for information related to a concept expressed by a word input for searching by a user, and has a high relationship with the input word. The object is to provide an information retrieval device capable of retrieving information from a wide range of information.
[0015]
Still another object of the present invention is an information search device for searching for information related to a concept expressed by a word input for searching by a user. The object is to provide an information retrieval apparatus capable of retrieving information presumed to have a high degree of relevance from a wide range of information.
[0016]
Still another object of the present invention is an information search device for searching for information related to a concept expressed by a word input for searching by a user, the input regarding the nature of information emphasized by the user. It is to provide an information retrieval apparatus capable of retrieving information presumed to be highly relevant to a word from a wide range of information.
[0017]
Still another object of the present invention is an information retrieval apparatus for retrieving information related to a concept expressed by a word input for retrieval by a user, and estimating a property of information emphasized by the user. Thus, it is to provide an information retrieval apparatus capable of retrieving information presumed to have high relevance with the input word from a wide range of information.
[0018]
An additional object of the present invention is an information search device for searching for information related to a concept expressed by a word input for searching by a user, similar to an image that the input word reminds a user. It is to provide an information retrieval device that can retrieve information reminiscent of a user's image from a wide range of information.
[0019]
[Means for Solving the Problems]
An information search apparatus according to a first aspect of the present invention includes a character string acquisition unit for acquiring a character string indicating a first word, and a concept indicating a hierarchical relationship between word concepts with respect to a plurality of words. To collect concept information holding means for holding information and a second word expressing a concept related to the concept expressed by the first word from the concept information holding means based on the concept information A word collection means, a database for holding information to be searched, a first word, and a second word as a search key, and from the database, either the first word or the second word Extracting means for extracting matching keywords and information held in a database corresponding to the matching keywords, means for acquiring information indicating word attributes for a plurality of words, Attribute of the word Based on the similarity with the attribute of the matching keyword, the rank determining unit for determining the priority of the information extracted by the extracting unit, and the information extracted by the extracting unit according to the priority determined by the rank determining unit are output. Output means.
[0020]
By searching for information using not only the first word indicated by the character string input by the user of this information search apparatus but also the second word having a conceptual relationship with the first word as a search key, Information can be searched from a wide range of information. This improves the reproducibility of the search. Further, by verifying the search result according to another criterion of similarity to the attribute of the first word, information having high relevance with the word input by the user can be searched. Therefore, the search accuracy is improved.
[0021]
Preferably, the rank determining means uses the information indicating the attribute of the first word acquired by the means for acquiring information indicating the attribute of the word and the information indicating the attribute of the matching keyword based on the first information. The score calculation means for calculating the score indicating the similarity between the attribute of the word and the attribute of the matching keyword, and the priority of the information extracted by the extraction means is determined based on the score calculated by the score calculation means And determining means.
[0022]
By calculating a score indicating the similarity between the attribute of the first word and the attribute of the keyword, the priority order can be determined based on specific criteria. Therefore, it is possible to search for information having high relevance with the word input by the user.
[0023]
Preferably, the means for acquiring information indicating the attribute of the word is attribute information for holding attribute information indicating the attribute of the word by an attribute value set in advance for each attribute for each of the plurality of words. The ranking determination means includes a holding means, and the rank determination means determines the first word and the matching keyword based on the attribute information relating to the first word and the attribute information relating to the matching keyword held in the attribute information holding means. A mental distance calculating means for calculating the mental distance; and a determining means for determining the priority of the information extracted by the extracting means with reference to the mental distance calculated by the mental distance calculating means.
[0024]
By calculating the mental distance between the attribute of the first word and the attribute of the keyword, it is possible to determine the priority based on a more specific criterion. Therefore, it is possible to search for information having high relevance with the word input by the user.
[0025]
More preferably, the rank determining means further includes the first word and the matching keyword based on the concept information relating to the first word and the concept information relating to the matching keyword held in the concept information holding means. A conceptual distance calculating means for calculating a conceptual distance; and means for creating a reference value integrating the mental distance and the conceptual distance for each combination of the first word and the matching keyword. The determining means includes means for determining the priority of the information extracted by the extracting means on the basis of a reference value obtained by integrating the mental distance and the conceptual distance.
[0026]
The relationship between the concept expressed by the first word and the concept expressed by the keyword is materialized by the concept distance, and further, information is evaluated in a multifaceted manner using the concept distance and the mental distance. Thus, information that is presumed to have high relevance with the word input by the user can be searched from a wide range of information.
[0027]
The mental distance calculation means includes importance setting means for setting the importance of each attribute, attribute information relating to the first word, attribute information relating to the matching keyword, and importance held in the attribute information holding means Based on the importance of each attribute set by the setting means, a means for calculating a mental distance between the first word and the matching keyword may be included.
[0028]
The nature of the information that the user attaches importance to can be embodied by setting by the importance setting means. Therefore, by calculating the mental distance in consideration of this setting, it is possible to search for information having a high relevance to the word input by the user with respect to the property emphasized by the user.
[0029]
The importance setting means may include a history recording means for recording a history of information output by the output means, and a means for setting the importance of each attribute based on the history recorded by the history recording means. .
[0030]
Means for setting the importance of each attribute include a preference estimation unit for estimating a user's preference for information by comparing a history recorded by the history recording unit with a database, and a preference estimation unit. A means for setting the importance of each attribute may be included based on the estimated preference and the attribute information held by the attribute information holding means.
[0031]
The preference estimating means collates the history recorded by the history recording means with the database, and calculates, for each keyword, the frequency at which the information held in the database corresponding to the keyword is output; And means for estimating the user's preference for information based on the frequency of each and the keyword attribute held in the attribute information holding means.
[0032]
By calculating the importance from the information output in the past, it is possible to estimate the nature of the information that the user places importance on, and it has a high relevance to the input word with respect to the nature that the user places importance on You can search for information. Therefore, it is possible to search for information that reminds the user of an image similar to the image that the user input word recalls.
[0033]
The output means may include means for outputting the extracted information to a predetermined order in the order indicated by the priority order according to the priority order determined by the order determining means.
[0034]
By narrowing down the information to be output, information that seems to be of particular interest to the user can be presented as a search result. Therefore, the information search result is enriched for the user.
[0035]
An information search method according to a second aspect of the present invention includes a step of acquiring a character string indicating a first word, and a concept related to the concept expressed by the first word indicated by the acquired character string. In the step of collecting the second word to be expressed, the step of searching for information held in the database corresponding to the keyword using the first word and the second word as a search key, and the step of searching, Determining the priority of the information that is the search result to be output based on the similarity between the attribute of the keyword corresponding to the information that is the search result obtained by the search key and the attribute of the first word; And outputting information as a search result according to the priority order determined in the determining step.
[0036]
By using this information search method when searching for information, it is possible to search for information having high relevance with the input word from a wide range of information.
[0037]
When the information search program according to the third aspect of the present invention is executed on a computer, the information search program causes the computer to operate as the information search device according to the first aspect of the present invention.
[0038]
By executing this information search program, the operation and effect of the invention according to the first aspect described above can be realized by a computer.
[0039]
A recording medium according to a fourth aspect of the present invention is a computer-readable recording medium on which an information search program according to the third aspect of the present invention is recorded.
[0040]
By reading and executing the information retrieval program recorded on the recording medium with a computer, the operation and effect of the invention according to the first aspect described above can be realized.
[0041]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the drawings used for the following description, the same parts are denoted by the same reference numerals. Their names and functions are also the same. Therefore, detailed description thereof will not be repeated.
[0042]
[Embodiment 1]
An outline of the information search apparatus according to
[0043]
However, the information search apparatus according to the first embodiment further determines the priority order for outputting the search result based on the property of the word (hereinafter, this property is referred to as “word attribute”). The search result is output according to the determined priority order.
[0044]
The attribute of a word is expressed by emotional properties such as an image held by the user of the information search apparatus according to the present embodiment with respect to the word or an object expressed by the word, or expressed by the word. It is difficult to show relevance by logical concepts, such as historical or regional backgrounds. Therefore, the information search device according to the first embodiment can perform a search using related concept words as a search key, and can obtain an impression similar to the information desired by the user when multiple types of information are obtained. High-quality information is output preferentially.
[0045]
FIG. 1 shows the configuration of the information search apparatus according to the first embodiment in the form of a block diagram. Referring to FIG. 1, an
[0046]
The
[0047]
The
[0048]
FIG. 2 shows the relevance of the concept of words stored in the concept
[0049]
FIG. 3 shows the configuration of the concept dictionary stored in the concept
[0050]
The relevance of the concept expressed by the words described in each item of the
[0051]
FIG. 4 shows a configuration of an extended search key created by the
[0052]
FIG. 5 shows an example of data held in the
[0053]
The database shown in FIG. 5 is shown in a format that holds keywords together with data, but this is for convenience of explanation and is not limited to this format.
[0054]
The
[0055]
FIG. 7 shows the configuration of the attribute dictionary stored in the attribute dictionary storage unit 112 (see FIG. 1). Referring to FIG. 7, the
[0056]
The
[0057]
For example, the attribute dictionary stored in the attribute
[0058]
With reference to FIG. 1 to FIG. 7, the
[0059]
Referring to FIG. 1, in response to the user inputting an input word using character
[0060]
The
[0061]
The
[0062]
For example, it is assumed that the
[0063]
In response to the input word and the search result information being given, the
[0064]
The
[0065]
The
[0066]
FIG. 8 shows a flowchart of a program executed by the
[0067]
In S304, the acquired search string is used as an input word, and an extended search key is created based on the input word. Control proceeds to S306.
[0068]
In S306, the data stored in the database is searched using the input word and the extended search key created by the control in S304, the item number of the data item that is the search result, and the keyword associated with the data item, To get. Control proceeds to S308.
[0069]
In S308, the attribute information of the keyword acquired by the control in S306 is compared with the attribute information of the input word, and each data item is scored. Control proceeds to S310.
[0070]
In S310, as a data to be output, a predetermined number of data items are selected in order from a high score data item. In subsequent S312, the data of the selected data item is output. After the above control ends, this program ends.
[0071]
As described above, since the
[0072]
[Embodiment 2]
The
[0073]
The information search apparatus according to
[0074]
FIG. 9 shows the configuration of the information search apparatus according to the second embodiment in the form of a block diagram. Referring to FIG. 9,
[0075]
Unlike the attribute
[0076]
The
[0077]
The
[0078]
The concept
[0079]
Assume that the word concept is modeled by the tree diagram shown in FIG. The conceptual distance
[0080]
FIG. 10 shows the configuration of the attribute dictionary stored in the attribute
[0081]
The mental
[0082]
Assume that the attribute information of words stored in the attribute dictionary storage unit 412 (see FIG. 9) is defined by the
[0083]
[Expression 1]
For example, referring to FIG. 10, the first attribute item A1Attribute item “Leisurely” 276, second attribute item A2Attribute item “Surilink” 278, third attribute item A3Is the attribute item “Japanese style” 280 and the word “fishing” is the word Wi, The word "paraglider"jAnd Attribute information vector w of word Wi and word Wji, WjRefer to
[0084]
[Expression 2]
It becomes. Therefore, the mental distance s between the word “fishing” and the word “paragliding” (“fishing”, “paragliding”) is
[0085]
[Equation 3]
It becomes. According to the mental distance calculated as described above, the more similar the attributes of two words, the smaller the mental distance between the words.
[0086]
The
[0087]
Referring to FIG. 9, in a manner similar to
[0088]
The concept
[0089]
On the other hand, referring to FIG. 9, the mental
[0090]
The
[0091]
As described above, a small value of the given concept distance indicates that the concept of the input word and the concept of the keyword are highly related. A small mental distance indicates that the similarity between the attribute of the input word and the attribute of the keyword is high. For this reason, the
[0092]
The
[0093]
Similar to the
[0094]
FIG. 11 shows a flowchart of a program executed by the
[0095]
In the program executed by the
[0096]
In S508, it is determined whether or not all the sums of the conceptual distance and the mental distance have been calculated for the acquired keyword. If all the sums of the conceptual distance and the mental distance have been calculated, the control proceeds to S516. If there is a search result that has not been calculated, control proceeds to S510.
[0097]
In S510, the conceptual distance between the input word and the keyword associated with the data item of the search result is calculated. In S512, a mental distance between the input word and the keyword is calculated. In subsequent S514, the sum of the conceptual distance and the mental distance is calculated. Control returns to S508.
[0098]
In S516, the data items that are the search results are ranked so that the search result having the smaller sum of the conceptual distance and the mental distance is higher. Control proceeds to S310.
[0099]
In S310, as in the control by the program according to the first embodiment shown in FIG. 8, a predetermined number of data items are selected in order from the data item with the higher rank, and in S312, the selected data item is output. After the above control ends, this program ends.
[0100]
As described above, the
[0101]
[Embodiment 3]
In the second embodiment, the function of determining the priority order of search results based on the conceptual distance and the mental distance is exemplified. However, the present invention is not limited to such an embodiment.
[0102]
The information search apparatus according to the present embodiment calculates the importance of the attribute item based on the output information history, and calculates the mental distance by weighting the attribute item according to the calculated importance It has further.
[0103]
FIG. 12 shows the configuration of the information search apparatus according to the third embodiment in a block diagram format. Referring to FIG. 12,
[0104]
The
[0105]
FIG. 13 shows a configuration of history information recorded by the
[0106]
FIG. 14 shows the configuration of preference data created by the
[0107]
As described above, the
[0108]
A total of h output keywords K are added to the given preference data.m(1 ≦ m ≦ h) is included. Output keyword KmOutput frequency of fmIt expresses by. Output keyword KmAttribute item A for words that matchlAttribute value in al, mAnd At this time, attribute item AlImportance IlIs calculated by Equation 4 below.
[0109]
[Expression 4]
For example, consider the case where
[0110]
[Equation 5]
It becomes.
[0111]
An example of a mental distance calculation method performed by the mental
[0112]
The total number of defined attribute items is n and the word WiAttribute item AkThe attribute value in (1 ≦ k ≦ n) is ai, k, Attribute item AkThe importance of IkAnd The mental
[0113]
[Formula 6]
[0114]
The
[0115]
Referring to FIG. 12, when
[0116]
In response to the preference data being given, the
[0117]
On the other hand, when the user inputs a word, the character
[0118]
As in the second embodiment, the concept
[0119]
On the other hand, the mental
[0120]
Referring to FIG. 12, mental
[0121]
The
[0122]
The
[0123]
Similar to the information search device according to the first or second embodiment, the
[0124]
FIG. 15 shows a flowchart of a program executed by the
[0125]
Similar to the program according to the second embodiment shown in FIG. 11, an input word is acquired in S302, and an extended search key is created based on the acquired input word in S304. In subsequent S306, data stored in the database is searched using the extended search key created in S304, and a search result and a keyword associated with the data item that is the search result are acquired. Control proceeds to S508.
[0126]
In S508, it is determined whether or not the sum of the conceptual distance and the mental distance between the input keyword and the acquired word has been calculated. If all the sums of the conceptual distance and the mental distance have been calculated, the control proceeds to S516. If there is a search result that has not been calculated, control proceeds to S510.
[0127]
In S510, the conceptual distance between the input word and the keyword associated with the data item of the search result is calculated. Control proceeds to S708.
[0128]
In S708, the mental distance between the input word and the keyword is calculated using the reciprocal of the importance of each attribute item calculated in S706 as a weight. In subsequent S514, the sum of the conceptual distance and the mental distance is calculated by the same control as the control by the program according to the second embodiment shown in FIG. Control returns to S508.
[0129]
In S516, the data items as the search results are sorted and ranked in ascending order of the sum of the conceptual distance and the mental distance. Control proceeds to S310, and a predetermined number of data items are selected in order from the upper data item, as in the first embodiment shown in FIG. In subsequent S312, the selected data item is output. Control proceeds to S710.
[0130]
In S710, the history information is updated based on the data number of the data item selected in S516. After the above control ends, this program ends.
[0131]
The
[0132]
In exemplifying
[0133]
In exemplifying the first to third embodiments, the concept dictionary stored in the concept dictionary storage unit indicates the upper or lower relationship of the concept of words. The relevance of is not limited to such upper and lower relationships. For example, a synonym dictionary that associates a word with a synonym of the word may be used. The concept dictionary may be in any form as long as it shows the relationship between a word and a word.
[0134]
Further, the attribute dictionary according to the first embodiment may be a dictionary describing attribute values like the attribute dictionary according to the second or third embodiment. Furthermore, the rank calculation unit according to the first embodiment may calculate the mental distance according to the second embodiment and perform ranking based on the mental distance.
[0135]
In addition, the attribute value included in the attribute dictionary according to the first to third embodiments is an attribute value and a method for determining the attribute value, as long as the property included in the word is quantified for each property type. It doesn't matter.
[0136]
In the second embodiment and the third embodiment, the calculation method using the Euclidean distance or the weighted Euclidean distance is exemplified as the mental distance calculation method. However, the mental distance calculation method is such a method. Is not limited. For example, the mental distance may be calculated by calculating the city block distance based on the word attribute vector.
[0137]
In the second embodiment and the third embodiment, the example in which the data items are ranked based on the sum of the mental distance and the conceptual distance is shown. However, the calculation method for calculating the values used for ranking is not limited to such a method. For example, the mental distance and the conceptual distance may be normalized by multiplying each by a predetermined coefficient, and the sum of the normalized mental distance and the normalized conceptual distance may be used as a reference value for ranking. Furthermore, a coefficient to be multiplied by the conceptual distance and a coefficient to be multiplied by the mental distance may be set according to the user's preference, and when the conceptual distance and the mental distance are normalized, the set coefficient may be multiplied. . Further, a product of the mental distance and the conceptual distance may be used as a value serving as a reference for ranking.
[0138]
As an example of the information search device according to the first to third embodiments, a configuration in which each unit included in the information search device is integrated is illustrated. However, the present invention is not limited to such an embodiment. For example, each part which comprises an information search device may be divided | segmented into the 2 or more housing | casing. However, they need to be able to communicate with each other.
[0139]
Each embodiment illustrated above can also be realized by a computer and software operating on the computer, as described above. Of course, some or all of the functions described below can be realized by hardware instead of software.
[0140]
FIG. 16 shows an external view of a
[0141]
Referring to FIG. 16, a
[0142]
Referring to FIG. 17,
[0143]
The software that realizes the operation of the information retrieval apparatus exemplified in the first to third embodiments is recorded and distributed on a recording medium such as a CD-
[0144]
Since the operation of
[0145]
The software distribution form is not limited to the form fixed on the recording medium as described above. For example, data may be distributed in the form of receiving data from other computers connected through a network. Further, there may be a distribution form in which a part of software is stored in the
[0146]
Modern programs use general-purpose functions provided by computer operating systems (OS) or so-called third parties, and execute them in an organized form according to the desired purpose, thereby achieving the desired purpose. Is common. Accordingly, among the functions exemplified in the first to third embodiments, the general function provided by the OS or the third party is not included, and only the combination of the execution order of these general functions is specified ( It is obvious that these programs are included in the technical scope of the present invention as long as they are programs (groups) having a control structure that achieves a desired object as a whole by using them.
[0147]
The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
[0148]
【The invention's effect】
As described above, according to the first aspect of the present invention, information can be retrieved from a wide range of information, and information having high relevance with the input word can be retrieved. Therefore, search accuracy and reproducibility can be improved.
[0149]
In addition, by performing verification based on specific criteria and evaluating information from multiple angles, information that is presumed to be highly relevant to the input word is searched from a wide range of information. You can do it.
[0150]
Furthermore, it is possible to search for information having a high relevance to the input word with respect to the property emphasized by the user. Furthermore, it is possible to estimate the nature of the information that is important to the user, and it is possible to search for information that causes the user to recall an image similar to the image that the word entered by the user reminds the user.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an
FIG. 2 is a schematic diagram showing relevance of word concepts stored in a concept
FIG. 3 is a diagram showing a configuration of a concept dictionary stored in a concept
FIG. 4 is a diagram showing a configuration of an extended search key created by the
FIG. 5 is a diagram showing a configuration of data held in a
FIG. 6 is a diagram showing a configuration of search result information created by the
7 is a diagram showing a configuration of an attribute dictionary stored in an attribute
FIG. 8 is a flowchart of a program executed by the
FIG. 9 is a block diagram showing a configuration of an
FIG. 10 is a diagram showing a configuration of an attribute dictionary stored in an attribute
FIG. 11 is a flowchart of a program executed by the
FIG. 12 is a block diagram showing a configuration of an
FIG. 13 is a diagram showing a structure of history information recorded by a
FIG. 14 is a diagram showing a configuration of preference data created by a
FIG. 15 is a flowchart of a program executed by the
FIG. 16 is an external view of a
FIG. 17 is a block diagram showing a configuration of a
FIG. 18 is a schematic diagram of dictionary data in the prior art.
FIG. 19 is a diagram illustrating an example of information obtained when information is searched using a word described in dictionary data as a search key in a conventional technique.
[Explanation of Symbols] 100, 400, 600 Information retrieval device, 102 Character string acquisition unit, 104 Concept dictionary storage unit, 106 Word expansion unit, 108 Database, 110 Data retrieval unit, 112, 412 Attribute dictionary storage unit, 114, 414 Rank calculation unit, 116 data selection unit, 118 output unit, 160 concept dictionary, 260, 440 attribute dictionary, 402 concept distance calculation unit, 404, 608 mental distance calculation unit, 602 history recording unit, 604 preference extraction unit, 606 weight Adjustment unit, 620 history information, 640 preference data, 800 computer system, 820 computer, 822 monitor, 824 printer, 826 keyboard, 828 pad type pointing device, 830 CD-ROM drive, 834 hard disk, 836 CPU, 838
Claims (12)
複数の語に関して、語の概念間の階層的な関係を示す概念情報を保持するための概念情報保持手段と、
前記文字列が示す前記第1の語によって表現される概念と関連性のある概念を表現する第2の語を、前記概念情報に基づいて、前記概念情報保持手段より収集するための語収集手段と、
検索対象となる情報を保持するためのデータベースと、
前記第1の語、及び前記第2の語を検索キーとして、前記データベースから、前記第1の語、及び前記第2の語のいずれかと一致するキーワードと、当該一致するキーワードに対応する前記データベースに保持されている情報とを抽出するための抽出手段と、
複数の語に関して、語の属性を示す情報を取得するための手段と、
前記第1の語の属性と、前記一致するキーワードの属性との類似性を基準として、前記抽出手段が抽出した情報の優先順位を決定するための順位決定手段と、
前記順位決定手段が決定した優先順位に従って、前記抽出した情報を出力するための出力手段とを含む、情報検索装置。A character string acquisition means for acquiring a character string indicating the first word;
Concept information holding means for holding conceptual information indicating a hierarchical relationship between the concepts of the words for a plurality of words,
Word collection means for collecting, from the concept information holding means, a second word representing a concept related to the concept represented by the first word indicated by the character string, based on the concept information When,
A database to hold the information to be searched,
Using the first word and the second word as a search key, the database corresponding to either the first word or the second word from the database and the database corresponding to the matching keyword Extraction means for extracting information held in
Means for obtaining information indicating the attribute of the word for a plurality of words;
Rank determination means for determining the priority of the information extracted by the extraction means on the basis of the similarity between the attribute of the first word and the attribute of the matching keyword;
And an output means for outputting the extracted information in accordance with the priority order determined by the order determination means.
前記取得するための手段が取得した、前記第1の語の属性を示す情報と、前記一致するキーワードの属性を示す情報とを元に、前記第1の語の属性と、前記一致するキーワードの属性との類似性を示す得点を算出するための得点算出手段と、
前記得点算出手段が算出した得点を基準として、前記抽出手段が抽出した情報の優先順位を決定するための決定手段とを含む、請求項1に記載の情報検索装置。The rank determining means includes
Based on the information indicating the attribute of the first word acquired by the means for acquiring and the information indicating the attribute of the matching keyword, the attribute of the first word and the matching keyword A score calculation means for calculating a score indicating similarity to the attribute;
The information search apparatus according to claim 1, further comprising: a determination unit that determines a priority order of the information extracted by the extraction unit on the basis of the score calculated by the score calculation unit.
前記順位決定手段は、
前記属性情報保持手段に保持された、前記第1の語に関する属性情報と、前記一致するキーワードに関する属性情報とを元に、前記第1の語と、前記一致するキーワードとの心的距離を算出するための心的距離算出手段と、
前記心的距離算出手段が算出した心的距離を基準とし、前記抽出手段が抽出した情報の優先順位を決定するための決定手段とを含む、請求項1に記載の情報検索装置。The means for obtaining includes attribute information holding means for holding attribute information indicating an attribute of the word for each of the plurality of words by an attribute value set in advance for each attribute,
The rank determining means includes
A mental distance between the first word and the matching keyword is calculated based on the attribute information about the first word and the attribute information about the matching keyword held in the attribute information holding unit. Mental distance calculation means for
The information search apparatus according to claim 1, further comprising: a determination unit that determines a priority of information extracted by the extraction unit based on the mental distance calculated by the mental distance calculation unit.
前記概念情報保持手段に保持された、前記第1の語に関する概念情報と、前記一致するキーワードに関する概念情報とを元に、前記第1の語と、前記一致するキーワードとの概念距離を算出するための概念距離算出手段と、
前記第1の語と、前記一致するキーワードとの組合せごとに、前記心的距離と、前記概念距離とを統合した基準値を作成するための手段とをさらに含み、
前記決定手段は、前記基準値を基準として、前記抽出手段が抽出した情報の優先順位を決定するための手段を含む、請求項3に記載の情報検索装置。The rank determining means includes
Based on the concept information related to the first word and the concept information related to the matching keyword held in the concept information holding means, a concept distance between the first word and the matching keyword is calculated. Conceptual distance calculation means for
Means for creating a reference value integrating the mental distance and the conceptual distance for each combination of the first word and the matching keyword;
4. The information search apparatus according to claim 3, wherein the determining means includes means for determining a priority order of information extracted by the extracting means with reference to the reference value.
前記各属性の重要度を設定するための重要度設定手段と、
前記属性情報保持手段に保持された、前記第1の語に関する属性情報、前記一致するキーワードに関する属性情報、及び前記重要度設定手段が設定した前記各属性の重要度を元に、前記第1の語と、前記一致するキーワードとの心的距離を算出するための手段とを含む、請求項3に記載の情報検索装置。The mental distance calculation means includes
Importance setting means for setting the importance of each attribute;
Based on the attribute information related to the first word, the attribute information related to the matching keyword, and the importance of each attribute set by the importance setting means held in the attribute information holding means, the first The information search apparatus according to claim 3, comprising: a word and means for calculating a mental distance between the matching keywords.
前記出力手段が出力した情報の履歴を記録するための履歴記録手段と、
前記履歴記録手段が記録した履歴に基づき、前記各属性の重要度を設定するための手段とを含む、請求項5に記載の情報検索装置。The importance setting means includes:
History recording means for recording a history of information output by the output means;
The information search device according to claim 5, further comprising: means for setting importance of each attribute based on a history recorded by the history recording means.
前記履歴と、前記データベースとを照合する事により、情報に対する利用者の嗜好を推定するための嗜好推定手段と、
前記嗜好推定手段が推定した嗜好と、前記属性情報保持手段が保持する属性情報とを元に、前記各属性の重要度を設定するための手段とを含む、請求項6に記載の情報検索装置。The means for setting is:
Preference estimation means for estimating the user's preference for information by comparing the history and the database;
The information search device according to claim 6, further comprising means for setting importance of each attribute based on the preference estimated by the preference estimation means and the attribute information held by the attribute information holding means. .
前記履歴と、前記データベースとを照合し、キーワードごとに、当該キーワードに対応する前記データベースに保持されている情報が出力された頻度を算出するための手段と、
前記キーワードごとの頻度、及び前記属性情報保持手段に保持された前記キーワードの属性を元に、情報に対する利用者の嗜好を推定するための手段とを含む、請求項7に記載の情報検索装置。The preference estimation means includes
Means for collating the history with the database, and for each keyword, calculating a frequency at which information held in the database corresponding to the keyword is output;
The information search apparatus according to claim 7, further comprising: means for estimating a user's preference for information based on a frequency for each keyword and an attribute of the keyword held in the attribute information holding means.
前記文字列が示す前記第1の語によって表現される概念と関連性のある概念を表現する第2の語を収集するステップと、
前記第1の語、及び前記第2の語を検索キーとして、キーワードに対応するデータベースに保持されている情報を検索するステップと、
前記検索するステップにおいて、前記検索キーによって得られた検索結果である情報に対応するキーワードの属性と、前記第1の語の属性との類似性を基準として、出力する検索結果である情報の優先順位を決定するステップと、
前記決定するステップにおいて決定された優先順位に従い、前記検索結果である情報を出力するステップとを含む、情報検索方法。Obtaining a character string indicating a first word;
Collecting a second word representing a concept related to the concept represented by the first word represented by the character string;
Using the first word and the second word as a search key to search information held in a database corresponding to the keyword;
In the searching step, priority is given to the information that is the search result to be output on the basis of the similarity between the attribute of the keyword corresponding to the information that is the search result obtained by the search key and the attribute of the first word. Determining the ranking;
Outputting the information as the search result according to the priority order determined in the determining step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003170997A JP2005010848A (en) | 2003-06-16 | 2003-06-16 | Information retrieval device, information retrieval method, information retrieval program and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003170997A JP2005010848A (en) | 2003-06-16 | 2003-06-16 | Information retrieval device, information retrieval method, information retrieval program and recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005010848A true JP2005010848A (en) | 2005-01-13 |
Family
ID=34095633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003170997A Pending JP2005010848A (en) | 2003-06-16 | 2003-06-16 | Information retrieval device, information retrieval method, information retrieval program and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005010848A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007047903A (en) * | 2005-08-08 | 2007-02-22 | Nippon Telegr & Teleph Corp <Ntt> | Interest information generating device, interest information generating method and interest information generating program |
JP2007102487A (en) * | 2005-10-04 | 2007-04-19 | Ricoh Co Ltd | Book stock retrieval method, book stock retrieval system and book stock retrieval program |
JP2007304744A (en) * | 2006-05-10 | 2007-11-22 | Hiromichi Saito | Image retrieval system |
JP2009110231A (en) * | 2007-10-30 | 2009-05-21 | Nippon Telegr & Teleph Corp <Ntt> | Text search server computer, text search method, text search program, and recording medium with the program recorded thereon |
JP2010039781A (en) * | 2008-08-05 | 2010-02-18 | Yahoo Japan Corp | Search processing system for personalizing search processing in web search using click history, search processing apparatus, terminal device, and search processing method |
CN101930437A (en) * | 2009-06-19 | 2010-12-29 | 日电(中国)有限公司 | Method and equipment for reasoning inconsistent and uncertain ontology associated with specific query |
JP2014044721A (en) * | 2012-08-24 | 2014-03-13 | Samsung Electronics Co Ltd | Method of recommending friends, and server and terminal therefor |
CN111209378A (en) * | 2019-12-26 | 2020-05-29 | 航天信息股份有限公司企业服务分公司 | Ordered hierarchical ordering method based on business dictionary weight |
-
2003
- 2003-06-16 JP JP2003170997A patent/JP2005010848A/en active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007047903A (en) * | 2005-08-08 | 2007-02-22 | Nippon Telegr & Teleph Corp <Ntt> | Interest information generating device, interest information generating method and interest information generating program |
JP4728063B2 (en) * | 2005-08-08 | 2011-07-20 | 日本電信電話株式会社 | Interest information generating apparatus, interest information generating method, and interest information generating program |
JP2007102487A (en) * | 2005-10-04 | 2007-04-19 | Ricoh Co Ltd | Book stock retrieval method, book stock retrieval system and book stock retrieval program |
JP2007304744A (en) * | 2006-05-10 | 2007-11-22 | Hiromichi Saito | Image retrieval system |
JP2009110231A (en) * | 2007-10-30 | 2009-05-21 | Nippon Telegr & Teleph Corp <Ntt> | Text search server computer, text search method, text search program, and recording medium with the program recorded thereon |
JP2010039781A (en) * | 2008-08-05 | 2010-02-18 | Yahoo Japan Corp | Search processing system for personalizing search processing in web search using click history, search processing apparatus, terminal device, and search processing method |
CN101930437A (en) * | 2009-06-19 | 2010-12-29 | 日电(中国)有限公司 | Method and equipment for reasoning inconsistent and uncertain ontology associated with specific query |
JP2011008782A (en) * | 2009-06-19 | 2011-01-13 | Nec (China) Co Ltd | Method and device of inferring uncertain mismatching ontology regarding specific query |
JP2014044721A (en) * | 2012-08-24 | 2014-03-13 | Samsung Electronics Co Ltd | Method of recommending friends, and server and terminal therefor |
US10061825B2 (en) | 2012-08-24 | 2018-08-28 | Samsung Electronics Co., Ltd. | Method of recommending friends, and server and terminal therefor |
CN111209378A (en) * | 2019-12-26 | 2020-05-29 | 航天信息股份有限公司企业服务分公司 | Ordered hierarchical ordering method based on business dictionary weight |
CN111209378B (en) * | 2019-12-26 | 2024-03-12 | 航天信息股份有限公司企业服务分公司 | Ordered hierarchical ordering method based on business dictionary weights |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3673487B2 (en) | Hierarchical statistical analysis system and method | |
JP4638439B2 (en) | Personalized web search | |
KR101078864B1 (en) | The query/document topic category transition analysis system and method and the query expansion based information retrieval system and method | |
KR100304335B1 (en) | Keyword Extraction System and Document Retrieval System Using It | |
US8046363B2 (en) | System and method for clustering documents | |
US20040049499A1 (en) | Document retrieval system and question answering system | |
US8983965B2 (en) | Document rating calculation system, document rating calculation method and program | |
US20090094223A1 (en) | System and method for classifying search queries | |
KR20090007626A (en) | Method for domain identification of documents in a document database | |
WO2000075809A1 (en) | Information sorting method, information sorter, recorded medium on which information sorting program is recorded | |
JP3803961B2 (en) | Database generation apparatus, database generation processing method, and database generation program | |
JP4569380B2 (en) | Vector generation method and apparatus, category classification method and apparatus, program, and computer-readable recording medium storing program | |
JP3820878B2 (en) | Information search device, score determination device, information search method, score determination method, and program recording medium | |
JP5565568B2 (en) | Information recommendation device, information recommendation method and program | |
JP2005010848A (en) | Information retrieval device, information retrieval method, information retrieval program and recording medium | |
KR101178208B1 (en) | Apparatus and method for extracting keywords | |
JP6639040B2 (en) | Information retrieval device and program | |
JP5418138B2 (en) | Document search system, information processing apparatus, and program | |
JP2010003134A (en) | Server, method, and program for recommending retrieval keyword | |
JP6145562B2 (en) | Information structuring system and information structuring method | |
JP2008077252A (en) | Document ranking method, document retrieval method, document ranking device, document retrieval device, and recording medium | |
JP3646011B2 (en) | Retrieval system and computer-readable recording medium on which program of retrieval system is recorded | |
JP4134975B2 (en) | Topic document presentation method, apparatus, and program | |
JP3249743B2 (en) | Document search system | |
JP6181890B2 (en) | Literature analysis apparatus, literature analysis method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081118 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090113 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090324 |