JP2005031950A - 情報検索装置、情報検索方法およびプログラム - Google Patents
情報検索装置、情報検索方法およびプログラム Download PDFInfo
- Publication number
- JP2005031950A JP2005031950A JP2003195809A JP2003195809A JP2005031950A JP 2005031950 A JP2005031950 A JP 2005031950A JP 2003195809 A JP2003195809 A JP 2003195809A JP 2003195809 A JP2003195809 A JP 2003195809A JP 2005031950 A JP2005031950 A JP 2005031950A
- Authority
- JP
- Japan
- Prior art keywords
- information
- search
- occurrence
- occurrence information
- culture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】検索条件として「日本の文化」を入力すると、検索キーワード(トークン)として、「日本」および「文化」が抽出され、この中から、リレーション情報を取り出すトークンとして「文化」を選択すると、指定トークン「文化」への係り側共起情報として、「新しい」「伝統」「食」・・・などの共起トークンが取り出される。また、受け側共起情報として、「形成」「発展」「あげる」・・・などの共起トークン情報が取り出される。検索者は、自分の望んでいる検索条件に近い共起トークン情報を選択する。このとき、「伝統」という共起トークンが選択されたとすると、トークン情報とリレーション条件が新たに加えられた検索条件に基づいて再検索され、検索結果が再表示される。
【選択図】 図6
Description
【発明の属する技術分野】
本発明は、複数の情報から目的の情報を検索する情報検索装置、情報検索方法およびプログラムに関する。
【0002】
【従来の技術】
近年、インターネットの普及などを通じて大量の文書情報がインターネット上に存在するようになった。そこで、大量の文書から関係する情報を速やかに収集するために、検索技術は欠かせないものとなっている。
【0003】
大量の文書の中から必要な文書を取得する方法として、現在、キーワード間の近傍関係を利用した近傍検索や、自然文検索条件の構文情報を利用した検索などが存在する。
【0004】
近傍検索とは、複数の検索語間の出現距離を指定して検索結果を絞り込むための技術である。検索条件として、たとえば次のような条件を指定した場合、
検索条件:{日本,文化,近傍3}
「日本」と「文化」が3文字以内に出現する文書の検索を行なう。
【0005】
したがって、下記文書(1)は、キーワード間の距離が2文字なので、検索結果となり、下記文書(2)は、キーワード間の距離が1文字なので、検索結果となる。しかし、下記文書(3)は、キーワード間の距離が5文字なので、検索結果とはならず、同様に、下記文書(4)も、キーワード間の距離が7文字であるので、検索結果とはならない。
(1)日本的な文化 (○)
(2)日本の文化遺産 (○)
(3)日本の伝統的な文化 (×)
(4)日本の古代の歴史を文化から (×)
上記文書(1)から上記文書(4)までは、単なる文字列マッチングではすべて検索結果となる文書であるが、このように複数のキーワード間の距離を検索条件に加えることによって、単なる文字列マッチングによる検索結果より、検索結果を絞り込んだ出力をすることができる。
【0006】
一方、構文情報を利用した検索は、検索条件として入力された自然文を構成する文字列を解析し、その構文情報と一致した文書を検索結果とすることで、検索結果を絞り込むための技術である。検索条件として、たとえば「日本の文化」を入力した場合、キーワード「日本」がキーワード「文化」に連体修飾する構文情報を持つと解析される。
【0007】
下記文書(5)では、「日本(的):文化」の連体修飾関係が認められる。下記文書(6)では、「日本」は「文化遺産」に連体修飾する。しかし、複合語「文化遺産」は、「文化」が「遺産」に連体修飾した複合語と考えられる。実際には「日本:遺産」の連体修飾関係と、「文化:遺産」の連体修飾関係の構造を持つ。下記文書(7)では、「日本」は「伝統的」とは関係なく、「日本:文化」の連体修飾と「伝統的:文化」の連体修飾の構造をもつ。下記文書(8)では、「日本:古代」の連体修飾関係を持つと考えられる。したがって、「日本:文化」の関係は存在しない。
(5)日本的な文化 (○)
(6)日本の文化遺産 (×)
(7)日本の伝統的な文化 (○)
(8)日本の古代の歴史を文化から (×)
上記文書(5)から上記文書(8)までは、単なる単語マッチングではすべて検索結果となる文書であるが、このように構文解析を利用することによって、単なる単語マッチングよりも木目の細かい、検索意図に合った検索結果を出力することができる(たとえば、特許文献1参照)。
【0008】
【特許文献1】
特開平5−342255号公報
【0009】
【発明が解決しようとする課題】
しかし、上記従来の情報検索装置では、大量の文書の中から指定した検索条件に合う文書を検索した場合、検索条件によっては、十分に絞り込まれないことが多く、検索者が望む検索結果を速やかに取得することが難しかった。
【0010】
1つ目の問題点として、検索条件に単語が一文字しか存在しない場合、検索語間の近傍条件や構文情報を利用した検索を実現する上記従来の情報検索装置では、最低でも2単語以上の検索語が検索条件に含まれていないとその機能を十分に発揮させることはできないということである。
【0011】
検索条件として、たとえば「北海道」を入力した場合、北海道の歴史、北海道の面積、北海道の産業、北海道の経済、北海道は寒い、北海道は広い、北海道南部の地震、北海道から出馬・・・など、「北海道」が含まれるすべての文書が検索対象となる。すなわち、この場合、近傍検索や構文利用の検索を行なえず、大量の文書を対象とすればするほど膨大な量の検索結果が得られてしまう。
【0012】
検索者は、検索結果となった膨大な文書の中から自分が望む検索結果であるかどうかを1つずつチェックしていくか、あるいは別の検索条件によって再び検索する必要があった。1つずつチェックしていくためには多大な労力を要し、情報検索の機能として十分な役割を果たしているとは言えない。
【0013】
さらに、絞込条件や、新しい検索条件を与えて再検索した場合、速やかに望む検索結果を得ることができるとは言い難く、問題がある。また、2つめの問題点で説明する問題も同時に抱えることになる。
【0014】
2つめの問題点として、検索条件に単語が複数存在する場合、つまり本来の近傍検索や構文利用の検索が十分に活用できる条件で検索を行なう場合でも、検索者が指定した検索条件が、十分な絞り込みを行われる条件を満たしていないときには、速やかに望む結果が得られないということである。
【0015】
近傍検索の検索条件として、たとえば{日本,文化,近傍5}
あるいは、構文情報を利用した検索の検索条件として、たとえば「日本の文化」を入力した場合の問題点について説明する。
【0016】
近傍検索では、「日本」と「文化」が5文字以内に出現する文書を取得するので、日本の文化、日本の食文化、日本の伝統文化、日本の文化遺産、日本から文化の輸出、日本人の文化貢献、日本と韓国の文化・・・・など、「日本」と「文化」が近傍にある情報はすべて検索結果となってしまい、システムで管理している文書が大量であればあるほど、大量の検索結果が出力されてしまう。
【0017】
同様に、構文情報を利用した検索でも、「日本:文化(連体修飾)」の関係を検索するので、検索結果として、日本の文化を考える、日本の新しい文化、日本人の文化、日本の文化に関するレポート、・・・など「日本」と「文化」が連体修飾関係にある情報はすべて検索結果となってしまい、近傍検索を行なったときと同様に大量の検索結果が出力されていた。
【0018】
1つ目の問題点であげた対応と同様に、検索者は検索結果となった膨大な文書の中から自分が望む検索結果であるかどうかを1つずつチェックしていくか、あるいは別の検索条件によって再び検索する必要があった。
【0019】
このように、単純な検索条件では十分に絞り込まれた検索が出来ずに、検索条件に関しても検索者の技能によるところが大きかった。
【0020】
3つめの問題点として、ユーザが複雑な検索条件を入力した場合、たとえば、「日本の文化の発展を報告したメモ」と入力した場合、検索結果が得られない可能性が大きいということである。
【0021】
以上のように、上記従来の情報検索装置では、1つの検索語を検索条件としたときには、効果がまったく得られず、また、複数の検索語を検索条件としたときも、十分な絞り込みが行われず、さらに、検索条件を複雑にすると、検索結果が得られないという状況が発生した。
【0022】
このような検索機能では、何度も試行錯誤を繰り返しながら検索条件を変更して検索する必要があったため、検索者にとっての操作性は非常に悪く、速やかに目的の文書を見つけ出すためには労力や経験が必要となっていた。
【0023】
本発明は、この点に着目してなされたものであり、操作性を向上させつつ、速やかに目的の情報を検索することが可能となる情報検索装置、情報検索方法およびプログラムを提供することを目的とする。
【0024】
【課題を解決するための手段】
上記目的を達成するため、請求項1に記載の情報検索装置は、言語情報を含む第1の検索条件を入力する入力手段と、該入力手段によって入力された検索条件から検索キーワードを抽出する抽出手段と、該抽出手段によって抽出された検索キーワードと共起するキーワードを含む共起情報を複数提示する提示手段と、該提示手段によって提示された複数の共起情報から、少なくとも1つ以上の共起情報を選択する選択手段と、前記抽出された検索キーワードに、前記選択手段によって選択された共起情報を加えた第2の検索条件に基づいて、対応する情報を検索する検索手段とを有することを特徴とする。
【0025】
請求項2に記載の情報検索装置は、請求項1の情報検索装置において、前記提示手段によって提示される複数の共起情報のそれぞれに、所定の基準に従って序列を付ける序列付け手段をさらに有し、前記提示手段は、前記序列付け手段によって付けられた序列に基づいて、前記複数の共起情報を提示することを特徴とする。
【0026】
請求項3に記載の情報検索装置は、請求項1の情報検索装置において、前記所定の基準は、前記各共起情報の重要度であることを特徴とする。
【0027】
請求項4に記載の情報検索装置は、請求項2または3の情報検索装置において、前記複数の共起情報に対して、前記序列付け手段によって付けられた序列のうち、前記選択手段によって選択された共起情報に対する序列以外の序列を変更する変更手段をさらに有し、前記提示手段は、前記変更手段によって変更された序列に基づいて、前記選択された共起情報を除く、前記複数の共起情報を提示することを特徴とする。
【0028】
請求項5に記載の情報検索装置は、請求項1の情報検索装置において、前記提示手段は、前記複数の共起情報に加えて、前記選択手段によって選択された共起情報に含まれるキーワードと共起するキーワードを含む共起情報を提示することを特徴とする。
【0029】
請求項6に記載の情報検索装置は、請求項1〜5のいずれかの情報検索装置において、前記選択手段によって選択された共起情報を記憶する記憶手段をさらに有することを特徴とする。
【0030】
上記目的を達成するため、請求項7に記載の情報検索方法は、言語情報を含む第1の検索条件を入力し、該入力された検索条件から検索キーワードを抽出し、該抽出された検索キーワードと共起するキーワードを含む共起情報を複数提示し、該提示された複数の共起情報から、少なくとも1つ以上の共起情報を選択し、前記抽出された検索キーワードに、前記選択された共起情報を加えた第2の検索条件に基づいて、対応する情報を検索することを特徴とする。
【0031】
上記目的を達成するため、請求項8に記載のプログラムは、言語情報を含む第1の検索条件を入力する入力手順と、該入力手順によって入力された検索条件から検索キーワードを抽出する抽出手順と、該抽出手順によって抽出された検索キーワードと共起するキーワードを含む共起情報を複数提示する提示手順と、該提示手順によって提示された複数の共起情報から、少なくとも1つ以上の共起情報を選択する選択手順と、前記抽出された検索キーワードに、前記選択手順によって選択された共起情報を加えた第2の検索条件に基づいて、対応する情報を検索する検索手順とを有することを特徴する。
【0032】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。
【0033】
(第1の実施の形態)
図1は、本発明の第1の実施の形態に係る情報検索装置の概略構成を示すブロック図である。
【0034】
同図に示すように、本実施の形態の情報検索装置は、キーボードなどの入力装置1と、装置全体の制御を司るCPU2と、ディスプレイなどの出力装置3と、メモリやハードディスクなどの記憶装置4とによって構成されている。
【0035】
入力装置1から入力された検索条件は、記憶装置4上に展開された処理プログラム41によって、CPU2で処理される。記憶装置4上に展開された処理プログラム41は、入力装置1より入力された検索条件を基に、文書データ42を検索して、検索結果の判定を行なう。検索結果は、出力装置3に出力される。
【0036】
なお、本実施の形態の情報検索装置は、図1のような単体のコンピュータ上に構築する以外にも、図2のようなローカルなネットワーク環境上および図3のようなインターネット環境上にも構築することができる。
【0037】
以下、以上のように構成された情報検索装置が実行する動作処理を説明する。
【0038】
まず、入力された検索条件に対して、係り受け関係処理などを行うことにより、内部的な検索条件を生成する。たとえば「日本の文化」が入力されたときには、検索キーワードとして、「日本:固有名詞」と「文化:一般名詞」が抽出され、係り受け関係として、格助詞「の」による連体修飾関係がキーワード間の距離1として抽出される。以後、抽出結果のキーワードを「トークン」と言い、係り受け関係の情報を「リレーション」と言う。
【0039】
入力された「日本の文化」という自然文は、トークン1=[日本:固有名詞],トークン2=[文化:一般名詞]、リレーション1=[1、連体、の]という内部的な検索条件となり、以降の検索処理は、この内部的な検索条件に基づいてなされる。
【0040】
文書データは、トークンを見出しとして、文書IDと係り受け関係の情報によって構成されている。
【0041】
図4は、文書データの構造の一例を示す図である。
【0042】
同図に示すように、見出しとなるトークンに対して、そのトークンが出現する文書の情報列が格納されている。また、文書情報nとしては、文書に出現するトークンの詳細な情報列が格納されている。
【0043】
トークン情報としては、出現したトークンの品詞や活用などが格納され、係り側の情報と複数の受け側の情報が格納される。一般的な係り受け構造のルールとして、複数の係り情報を受けることができ、1つの係り情報を作成する。
【0044】
係り側情報としては、先に説明したリレーションの情報が格納され、受け側情報としては、どのようなトークンの関係を受けたか分かるように、受け側の情報が格納されている。たとえば、文書番号1の文書として「日本の新しい文化を形成する。」という文字列が登録されている場合、日本−文化、新しい−文化、文化−形成の関係があり、文書データは次のようになる。
日本 [1:{固有名詞(受:文化、2、連体、の)、(係:−)}]
新しい [1:{形容連体(受:文化、0、−)、(係:−)}]
文化 [1:{一般名詞(受:形成、1、目的、を)、(係:日本)、(係:新しい)}]
形成 [1:{サ動終止(受:−)、(係:文化)}]
今回の検索条件のトークンは、「日本」と「文化」なので、「日本」と「文化」に該当する文書データをそれぞれ取得して、先の検索条件と文書中とのリレーションの一致度を計算する。トークンの見出しとして、たとえば次の情報を取り出した場合、
日本 [1(),3(),5(),7(),9(),10(),11(),13(),・・・・]
文化 [1(),3(),5(),8(),9(),11(),14(),・・・]
リレーションを構成する両方のトークンが同じ文書に存在する文書に対して、すなわち、1,3,5,8,9,11の文書に対して詳細な検討を行なう。7,8,10,13,14などの、リレーションを構成するトークンが片方しかない文書に関しては、その単語の重要度のみが加算され、リレーションの一致度は加算されない。
【0045】
まず、文書番号1の文書では、検索条件である受け側トークン「文化」とのリレーション[1、連体、の]と「日本」の文書情報に含まれている受け側のリレーションを比較する。
日本 [1:{固有名詞(受:文化、2、連体、の)、(係:−)}]
文化 [1:{一般名詞(受:形成、1、目的、を)、(係:日本)、(係:新しい)}]
検索条件と文書番号1の文書とでは、トークンの品詞およびトークンの係り受け関係は同じ関係があることが確認できる。しかし、トークンの距離関係は、検索条件が1単語であるのに対して、文書番号1の文書では2単語で出現していることが分かる。
一致度 ={トークン情報一致度、リレーション一致度}
トークン情報一致度 ={品詞一致度、単語重要度}
リレーション一致度 ={係り受け関係一致度、距離関係一致度}
一致度の計算方法は、トークン情報一致度とリレーション一致度を要素とし、トークン情報一致度は、トークン品詞の一致度と単語重要度から計算され、リレーション一致度は、係り受け関係の一致度とトークン間の距離関係の一致度で表わされる。
【0046】
たとえば、トークン情報一致度とリレーション一致度はそれぞれ、50:50の重みを持つ。品詞一致度は、品詞が一致していると“20”、同じ品詞でない場合、品詞の違いによって一致度は異なる。単語重要度は、すべての単語がそろっている場合、“30”とし、該文書に出現するトークンの種類数(m)を検索条件のトークンの数(n)で割った値に“30”をかけたものを単語重要度とする。
【0047】
係り受け関係一致度は、“40”を最大値とし、同じ係り受け関係ではない場合、係り受け関係の一致度により異なる。距離関係一致度は、最大10とし、距離関係が1つ異なる毎に半減する。
【0048】
したがって、文書番号1の文書の場合、距離関係が1つ異なるので“10”の半分の“5”になり、一致度は“95.0”となる。
【0049】
同様に、文書番号3の文書には、「日本の文化は飛鳥時代から始まった。」という文章があり、この部分の一致度は“100.0”であり、文書番号5の文書では、「日本の伝統的な文化には歌舞伎や・・・」の部分の一致度は“92.5”であり、文書番号9の文書では、「日本の文化は和食の文化につながる」の部分の一致度は“100.0”であり、文書番号11の文書では、「日本の伝統文化として歌舞伎や能があげられる。」の部分の一致度は“95.0”である。最終的に、図5のような検索結果となる。
【0050】
この検索結果に対し、本実施の形態では、さらに詳細条件を加えたいトークンを指定することにより、その係り受け関係を基とする詳細情報を取得することが出来る。ここでは、「文化」を選択すると、先ほど取り出したトークン見出しの情報を基に、「文化」に関する係り受け関係を全て取得し、指定トークンの情報として、係り側共起情報と受け側共起情報を表示する。
【0051】
図6は、リレーション情報を取り出すトークンとして「文化」を選んだときの例である。
【0052】
同図に示すように、指定トークン「文化」への係り側共起情報として、「新しい」、「伝統」、「食」・・・などの共起トークンが取り出される。また、受け側共起情報として、「形成」、「発展」、「あげる」・・・などの共起トークン情報が取り出される。
【0053】
ここで、検索者は、指定トークン「文化」の係り側共起情報および受け側共起情報の中から、自分の望んでいる検索条件に近い共起トークン情報を選択する。このとき、「伝統」という共起トークンを選択したとする。
【0054】
そこで、「伝統」、「品詞(全品詞同列)」というトークン情報と、「伝統」と「文化」のリレーションとして、「全距離同列:全関係同列:指定なし」という条件が新たに加えられた検索条件に基づいて再検索され、その検索結果が再表示される。
【0055】
図7は、共起トークンとして「伝統」を指定したときの検索結果の一例を示す図である。
文書番号11 :「日本の伝統文化として歌舞伎や能があげられる。」
文書番号5 :「日本の伝統的な文化には歌舞伎や・・・」
文書番号104 :「日本の文化の歴史は伝統を重んじ・・・」
上記文書番号11の文書は、「伝統」、「文化」というリレーションが認められるために、一致度が若干あがる。上記文書番号5の文書でも同様である。しかし、上記文書番号104の文書は、「伝統」というトークンは存在するが、「伝統」と「文化」の間に関係が認められないため、一致度は下がるものの、文書番号3の文書などのように共起トークン「伝統」が文書中に存在しない文書と比較するとその下がり方は穏やかである。
【0056】
さらに、詳細情報を取得したい場合には、文化の受け側の情報や日本の係り側の情報を指定することにより、詳細検索が可能となる。
【0057】
続いて、検索条件に1つの検索語しか含まれなかった場合の動作処理を説明する。ここでは、検索条件として「北海道」を入力したときについて説明する。この場合、トークン情報としては「北海道:固有名詞」が作られるが、リレーションは作られないので、「北海道」を含む単語がすべて検索結果になる。次に、トークン「北海道」で文書データを取得する。
【0058】
図8のように、
北海道 [3(),8(),10(),21(),30(),・・・,100(),131(),・・・・]
というデータを取得することができ、これらに含まれる文書番号は一致度の計算をすることなく検索結果として出力できる。
【0059】
次に、さらに詳細な検索をするためにトークン情報「北海道」を指定する。
【0060】
図9のように、「北海道」についてのリレーション情報の取得を行なう。受け側共起情報には、「産業」、「経済」、「味覚」、・・・などの共起トークンがあることが分かる。一方、係り側共起情報には、「昨年」、「秋」、「夏」・・・などの共起トークンがあることが分かる。
【0061】
検索者は、「北海道の味覚」について検索したい場合、受け側共起情報にある共起トークン「味覚」を指定する。これにより、図10のように、北海道−味覚というリレーションを加味した検索結果が表示される。
【0062】
さらに、係り側共起情報として、たとえば共起トークン「秋」を指定することによって、図11のように、「秋の北海道の味覚」についての検索を行うことができる。
【0063】
(第2の実施の形態)
本実施の形態では、上記第1の実施の形態に加えて、指定された検索語に関する共起関係の情報を関係の重要性を加味し、重要性に基づいて出力する。
【0064】
共起関係の重要度を求める計算方法には、めずらしい共起関係を重要とする特異性を求める方法や、よく使われる共起関係を重要とする一般性を求める方法などが考えられるが、本実施の形態では一般性を重視した方法について説明する。
【0065】
上記第1の実施の形態における「日本の文化」を例にとって考える。
【0066】
「文化」についての文書データを基に、係り受け情報を取得する。検索条件の指定により、「日本」との係り受け関係は指定されているために、この条件を満たす共起関係が最優先となる。
【0067】
たとえば、次の例文をトークン「文化」のデータについてみてみると、
「日本の新しい文化の形成」 (1)
「日本は中国の文化を取り入れた」 (2)
(1)の文書では、
係り側共起情報 日本、新しい
受け側共起情報 形成、距離=1、連体修飾、の
一方、(2)の文書では、
係り側共起情報 中国
受け側共起情報 取り入れる、距離=1、目的、を
となり、検索条件にある「日本」と「文化」の係り受け関係を持つ、(1)の文書に現れる「文化」の共起情報のほうが優先される。
係り側情報 新しい > 中国
受け側情報 形成 > 取り入れる
次に、係り受け関係の出現率によって重みを加える。
【0068】
たとえば、係り側共起情報として検索条件によって優先された共起関係にある共起トークンが、「食」、「独自」、「伝統」、「珍しい」、「新しい」、「韓国」、・・・、であった場合において、それぞれの出現数が、食(5)、独自(8)、伝統(6)、珍しい(2)、新しい(9)、韓国(3)だった場合、出力順は、新しい、独自、伝統、食、韓国、珍しい・・・となる。また、検索条件の履歴が残っているシステムの場合には、履歴に残る共起トークンを優先することも考えられる。
【0069】
同様に、受け側共起情報として検索条件によって優先された共起関係にある共起トークンが、発展(15)、受け入れる(3)、取り入れる(2)、形成(10)、歴史(8)、・・・、であった場合、出力順は、「発展」、「形成」、「歴史」、「受け入れる」、「取り入れる」・・・となる。また、検索条件の履歴が残っているシステムの場合には、履歴に残る共起関係を優先することも考えられる。
【0070】
最終的なリレーション情報の取り出し結果として、図12のような結果を出力することになる。
【0071】
(第3の実施の形態)
本実施の形態では、上記第2の実施の形態に加えて、指定されたトークンの共起関係を共起トークンの重要度を基に表示する処理において、共起トークンを指定したときの処理の例を説明する。
【0072】
上記第2の実施の形態では、指定トークンと共起関係にある共起トークンが指定されたとき、指定トークンと共起トークンの間にリレーション情報が作成され、その情報を検索条件で指定された検索条件に追加して再検索を実行し、検索結果を再表示していた。
【0073】
本実施の形態では、さらに共起トークンが指定されることにより、他の共起情報に表示されている共起トークンの重要度が変更される検索処理を説明する。
【0074】
「日本の文化」を検索条件とし、トークン「日本」およびトークン「文化」に関する共起情報として、図13のような共起情報が表示されたことを前提に説明する。
【0075】
検索語の「日本」に関しては、係り側共起情報に、共起トークンとして、「新しい」、「昔」、「現代」、「最近」、「韓国」などが重要度に従って出力される。受け側共起情報に関しては、既に「日本」と「文化」の間にリレーションが存在するので、優先される受け側の共起トークンは存在しない。しかし、トークン「日本」に対する共起トークンは存在するので、「歴史」、「経済」、「政治」など「日本の文化」を無視した共起トークンを重要度に従って出力することができる。「文化」に関しても同様に、「新しい」、「独自」、「伝統」、「食」、「韓国」、「珍しい」などの係り側共起情報の共起トークンが重要度に従って出力される。同様に受け側共起情報には、「発展」、「形成」、「歴史」、「受け入れる」、「取り入れる」、・・・、などの共起トークンが重要度に従って出力される。
【0076】
ここで、トークン「文化」の係り側共起情報の共起トークン「伝統」を指定した場合について説明する。
【0077】
共起トークン「伝統」を指定したことにより、検索条件のトークン間のリレーション「日本−文化」に加えて、指定した共起トークンとトークンの間のリレーション「伝統−文化」も検索条件に加えられて再検索される。その結果、新しい検索条件による検索結果が表示されるが、同時に新しいリレーションである「伝統−文化」をも同時に満たす条件が共起トークンの重要度を計算するときに加えられ、重要度を再計算して、新しい重要度を再計算する。
【0078】
また、検索条件であるトークン間の関係(「日本」と「文化」)を無視した共起トークンを指定することも可能である。たとえば、文化の共起トークンである「アメリカ」を指定した場合、「日本」と「文化」の間のリレーション関係は壊れる。この場合は、リレーションによる優先関係を無視した共起トークンの重要度に従って共起情報内の共起トークンが出力される。
【0079】
(第4の実施の形態)
本実施の形態では、指定した共起トークンに対する共起情報の取り出しおよび共起トークンの表示を行なう。
【0080】
前記図7のように、共起トークンとして「伝統」を指定した場合、「伝統」と「文化」に関するリレーションを追加して検索結果を出力していた。
【0081】
本実施の形態では、ここで指定した共起トークン「伝統」に対して、共起情報の表示を指定できるようにしたものである。
【0082】
図14は、共起トークンに対する共起情報の取り出し例である。
【0083】
このように、共起トークンに対する指定をすることによって、複雑な係り受け関係にある文書を視覚的に取得することが可能となる。
【0084】
なお、上述した各実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムまたは装置に供給し、そのシステムまたは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。
【0085】
この場合、記憶媒体から読出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0086】
プログラムコードを供給するための記憶媒体としては、たとえば、フレキシブルディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。また、通信ネットワークを介してサーバコンピュータからプログラムコードが供給されるようにしてもよい。
【0087】
また、コンピュータが読出したプログラムコードを実行することにより、上述した各実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行い、その処理によって上述した各実施の形態の機能が実現される場合も含まれることは言うまでもない。
【0088】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって上述した各実施の形態の機能が実現される場合も含まれることは言うまでもない。
【0089】
【発明の効果】
以上、説明したように、本発明によれば、まず、検索条件の検索語が1単語であった場合においても、その単語に係り受け関係にある共起情報を表示することにより、効率の良い絞り込みが可能になる。次に、複数の検索語によって検索された場合において、大量の検索結果が得られた場合においても同様に、係り受け関係を意識した検索条件を提示することになり、複雑な検索条件を検索者は意識することなく指定することが可能となる。さらに、絞り込み作業によって検索結果が0件になることがなくなる。
【0090】
したがって、検索者は意識することなく複雑な検索条件を指定することが可能となり、検索の操作性は大幅に向上し、また共起関係が表示されることから次の検索語に追加する単語を考える必要はなく、リストから選べることにより、検索者の検索に対するスキルを必要とせず、誰でも簡単に検索結果を得ることができる。また、検索結果がなくなると言うことがないために、最終的な検索結果に速くたどり着くことが可能になる。また、共起データに対する情報はメモリ上に保持しておくことにより、絞込検索時に再び文書データへのアクセスが不要であるために高速な検索が実現される。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る情報検索装置の概略構成を表すブロック図である。
【図2】図1の情報検索装置を構築する他の環境の一例として挙げた、ローカルなネットワーク環境を示す図である。
【図3】図1の情報検索装置を構築する他の環境の一例として挙げた、インターネット環境を示す図である。
【図4】図1の記憶装置内の文書データの構造の一例を示す図である。
【図5】図1の情報検索装置による検索結果の一例を示す図である。
【図6】共起トークンとして「文化」を指定したときの検索結果の一例を示す図である。
【図7】共起トークンとして「伝統」を指定したときの検索結果の一例を示す図である。
【図8】検索条件として「北海道」の一語を入力したときの検索結果の一例を示す図である。
【図9】「北海道」についてのリレーション情報を取得する様子の一例を示す図である。
【図10】「北海道」に「味覚」というリレーション情報を加味したときの検索結果の一例を示す図である。
【図11】図10の検索条件に、さらに、係り側共起情報として「秋」を加味したときの検索結果の一例を示す図である。
【図12】本発明の第2の実施の形態に係る情報検索装置による検索結果の一例を示す図である。
【図13】本発明の第3の実施の形態に係る情報検索装置が実行する検索処理を説明するための図である。
【図14】本発明の第4の実施の形態に係る情報検索装置が実行する検索処理を説明するための図である。
【符号の説明】
1 入力装置
2 CPU
3 出力装置
4 記憶装置
41 処理プログラム
42 文書データ
Claims (8)
- 言語情報を含む第1の検索条件を入力する入力手段と、
該入力手段によって入力された検索条件から検索キーワードを抽出する抽出手段と、
該抽出手段によって抽出された検索キーワードと共起するキーワードを含む共起情報を複数提示する提示手段と、
該提示手段によって提示された複数の共起情報から、少なくとも1つ以上の共起情報を選択する選択手段と、
前記抽出された検索キーワードに、前記選択手段によって選択された共起情報を加えた第2の検索条件に基づいて、対応する情報を検索する検索手段と
を有することを特徴とする情報検索装置。 - 前記提示手段によって提示される複数の共起情報のそれぞれに、所定の基準に従って序列を付ける序列付け手段をさらに有し、
前記提示手段は、前記序列付け手段によって付けられた序列に基づいて、前記複数の共起情報を提示することを特徴とする請求項1に記載の情報検索装置。 - 前記所定の基準は、前記各共起情報の重要度であることを特徴とする請求項2に記載の情報検索装置。
- 前記複数の共起情報に対して、前記序列付け手段によって付けられた序列のうち、前記選択手段によって選択された共起情報に対する序列以外の序列を変更する変更手段をさらに有し、
前記提示手段は、前記変更手段によって変更された序列に基づいて、前記選択された共起情報を除く、前記複数の共起情報を提示することを特徴とする請求項2または3に記載の情報検索装置。 - 前記提示手段は、前記複数の共起情報に加えて、前記選択手段によって選択された共起情報に含まれるキーワードと共起するキーワードを含む共起情報を提示することを特徴とする請求項1に記載の情報検索装置。
- 前記選択手段によって選択された共起情報を記憶する記憶手段をさらに有することを特徴とする請求項1〜5のいずれかに記載の情報検索装置。
- 言語情報を含む第1の検索条件を入力し、
該入力された検索条件から検索キーワードを抽出し、
該抽出された検索キーワードと共起するキーワードを含む共起情報を複数提示し、
該提示された複数の共起情報から、少なくとも1つ以上の共起情報を選択し、
前記抽出された検索キーワードに、前記選択された共起情報を加えた第2の検索条件に基づいて、対応する情報を検索する
ことを特徴とする情報検索方法。 - 言語情報を含む第1の検索条件を入力する入力手順と、
該入力手順によって入力された検索条件から検索キーワードを抽出する抽出手順と、
該抽出手順によって抽出された検索キーワードと共起するキーワードを含む共起情報を複数提示する提示手順と、
該提示手順によって提示された複数の共起情報から、少なくとも1つ以上の共起情報を選択する選択手順と、
前記抽出された検索キーワードに、前記選択手順によって選択された共起情報を加えた第2の検索条件に基づいて、対応する情報を検索する検索手順と
をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003195809A JP4557513B2 (ja) | 2003-07-11 | 2003-07-11 | 情報検索装置、情報検索方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003195809A JP4557513B2 (ja) | 2003-07-11 | 2003-07-11 | 情報検索装置、情報検索方法およびプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005031950A true JP2005031950A (ja) | 2005-02-03 |
JP2005031950A5 JP2005031950A5 (ja) | 2006-08-31 |
JP4557513B2 JP4557513B2 (ja) | 2010-10-06 |
Family
ID=34206524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003195809A Expired - Fee Related JP4557513B2 (ja) | 2003-07-11 | 2003-07-11 | 情報検索装置、情報検索方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4557513B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007310663A (ja) * | 2006-05-18 | 2007-11-29 | Nec Corp | 情報検索支援システム、情報検索支援方法および情報検索支援プログラム |
JP2009075747A (ja) * | 2007-09-19 | 2009-04-09 | Toshiba Corp | 類似文検索システム及びプログラム |
WO2010001455A1 (ja) * | 2008-06-30 | 2010-01-07 | 富士通株式会社 | 検索装置及び方法 |
JP2012208774A (ja) * | 2011-03-30 | 2012-10-25 | Casio Comput Co Ltd | 検索方法、検索装置、ならびに、コンピュータプログラム |
CN112819622A (zh) * | 2021-01-26 | 2021-05-18 | 深圳价值在线信息科技股份有限公司 | 一种信息的实体关系联合抽取方法、装置及终端设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6287192B2 (ja) * | 2013-12-26 | 2018-03-07 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理方法、プログラム |
JP6521118B2 (ja) * | 2018-02-08 | 2019-05-29 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理方法、プログラム |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0756948A (ja) * | 1993-08-09 | 1995-03-03 | Fuji Xerox Co Ltd | 情報検索装置 |
JPH1049549A (ja) * | 1996-05-29 | 1998-02-20 | Matsushita Electric Ind Co Ltd | 文書検索装置 |
JPH11338873A (ja) * | 1998-05-26 | 1999-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 再検索方法及び装置及び再検索プログラムを格納した記憶媒体及び追加検索語候補提示方法及び装置及び追加検索語候補提示プログラムを格納した記憶媒体 |
JP2000305938A (ja) * | 1999-04-21 | 2000-11-02 | Sharp Corp | 文書情報検索装置およびコンピュータを文書情報検索装置として機能させるためのコンピュータ読取可能な記録媒体 |
JP2002230021A (ja) * | 2001-01-30 | 2002-08-16 | Canon Inc | 情報検索装置及び情報検索方法並びに記憶媒体 |
JP2003022274A (ja) * | 2001-07-06 | 2003-01-24 | Sony Communication Network Corp | 店舗情報登録システムおよび方法、店舗情報提供システムおよび方法、ならびに店舗情報確認システムおよび方法 |
JP2003108582A (ja) * | 2001-09-27 | 2003-04-11 | Mitsubishi Electric Corp | 類義語抽出方法および文書検索装置 |
JP2004133564A (ja) * | 2002-10-09 | 2004-04-30 | Fujitsu Ltd | 文書検索装置 |
-
2003
- 2003-07-11 JP JP2003195809A patent/JP4557513B2/ja not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0756948A (ja) * | 1993-08-09 | 1995-03-03 | Fuji Xerox Co Ltd | 情報検索装置 |
JPH1049549A (ja) * | 1996-05-29 | 1998-02-20 | Matsushita Electric Ind Co Ltd | 文書検索装置 |
JPH11338873A (ja) * | 1998-05-26 | 1999-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 再検索方法及び装置及び再検索プログラムを格納した記憶媒体及び追加検索語候補提示方法及び装置及び追加検索語候補提示プログラムを格納した記憶媒体 |
JP2000305938A (ja) * | 1999-04-21 | 2000-11-02 | Sharp Corp | 文書情報検索装置およびコンピュータを文書情報検索装置として機能させるためのコンピュータ読取可能な記録媒体 |
JP2002230021A (ja) * | 2001-01-30 | 2002-08-16 | Canon Inc | 情報検索装置及び情報検索方法並びに記憶媒体 |
JP2003022274A (ja) * | 2001-07-06 | 2003-01-24 | Sony Communication Network Corp | 店舗情報登録システムおよび方法、店舗情報提供システムおよび方法、ならびに店舗情報確認システムおよび方法 |
JP2003108582A (ja) * | 2001-09-27 | 2003-04-11 | Mitsubishi Electric Corp | 類義語抽出方法および文書検索装置 |
JP2004133564A (ja) * | 2002-10-09 | 2004-04-30 | Fujitsu Ltd | 文書検索装置 |
Non-Patent Citations (1)
Title |
---|
中山 拓也,松本裕治: "文節共起を利用した文章検索支援", 情報処理学会研究報告, vol. 第99巻第22号, JPN6010009619, 5 March 1999 (1999-03-05), JP, pages 33 - 40, ISSN: 0001547904 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007310663A (ja) * | 2006-05-18 | 2007-11-29 | Nec Corp | 情報検索支援システム、情報検索支援方法および情報検索支援プログラム |
JP4631795B2 (ja) * | 2006-05-18 | 2011-02-16 | 日本電気株式会社 | 情報検索支援システム、情報検索支援方法および情報検索支援プログラム |
JP2009075747A (ja) * | 2007-09-19 | 2009-04-09 | Toshiba Corp | 類似文検索システム及びプログラム |
JP4602388B2 (ja) * | 2007-09-19 | 2010-12-22 | 株式会社東芝 | 類似文検索システム及びプログラム |
WO2010001455A1 (ja) * | 2008-06-30 | 2010-01-07 | 富士通株式会社 | 検索装置及び方法 |
JP2012208774A (ja) * | 2011-03-30 | 2012-10-25 | Casio Comput Co Ltd | 検索方法、検索装置、ならびに、コンピュータプログラム |
CN112819622A (zh) * | 2021-01-26 | 2021-05-18 | 深圳价值在线信息科技股份有限公司 | 一种信息的实体关系联合抽取方法、装置及终端设备 |
CN112819622B (zh) * | 2021-01-26 | 2023-10-17 | 深圳价值在线信息科技股份有限公司 | 一种信息的实体关系联合抽取方法、装置及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
JP4557513B2 (ja) | 2010-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3820242B2 (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
US8521713B2 (en) | Domain expert search | |
TWI336850B (en) | System and method for text searching using weighted keywords | |
US7349896B2 (en) | Query routing | |
JP4654780B2 (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
US20080177528A1 (en) | Method of enabling any-directional translation of selected languages | |
US20160019260A1 (en) | Query disambiguation | |
US7493252B1 (en) | Method and system to analyze data | |
US20020184204A1 (en) | Information retrieval apparatus and information retrieval method | |
WO2002101588A1 (fr) | Systeme de gestion de contenus | |
JPH11184855A (ja) | 翻訳方法およびシステム | |
JP2011134334A (ja) | ショートテキスト通信のトピックを識別するためのシステムおよび方法 | |
JP2009169541A (ja) | Webページ検索サーバ及びクエリ推薦方法 | |
JP2003196280A (ja) | テキスト生成方法及びテキスト生成装置 | |
EP1293913A2 (en) | Information retrieving method | |
JP2001084255A (ja) | 文書検索装置および方法 | |
JP4092933B2 (ja) | 文書情報検索装置及び文書情報検索プログラム | |
TWI290687B (en) | System and method for search information based on classifications of synonymous words | |
JP4557513B2 (ja) | 情報検索装置、情報検索方法およびプログラム | |
JP2001188802A (ja) | 情報検索装置及び情報検索方法 | |
CN111259136A (zh) | 一种基于用户偏好自动生成主题评价摘要的方法 | |
Iqbal et al. | CURE: Collection for urdu information retrieval evaluation and ranking | |
JP2004192546A (ja) | 情報検索方法、装置、プログラム、および記録媒体 | |
US20040205051A1 (en) | Dynamic comparison of search systems in a controlled environment | |
JP2001167096A (ja) | 文書検索システム、文書検索方法及びその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060417 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060711 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060711 |
|
RD05 | Notification of revocation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7425 Effective date: 20070626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090721 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090917 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100223 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100713 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100720 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130730 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |