JP2004133684A - 情報検索システムおよび情報検索プログラム - Google Patents
情報検索システムおよび情報検索プログラム Download PDFInfo
- Publication number
- JP2004133684A JP2004133684A JP2002297547A JP2002297547A JP2004133684A JP 2004133684 A JP2004133684 A JP 2004133684A JP 2002297547 A JP2002297547 A JP 2002297547A JP 2002297547 A JP2002297547 A JP 2002297547A JP 2004133684 A JP2004133684 A JP 2004133684A
- Authority
- JP
- Japan
- Prior art keywords
- document
- coordinate
- plane
- information search
- coordinate plane
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ユーザ側において検索語を用意せずとも視覚的に文書の絞込みができる情報検索システムおよび情報検索プログラムを提供すること。
【解決手段】文書群に含まれる単語または文書群の各文書に設定されたキーワードに基づいて、文書ベクトルを生成し(ステップS101)、生成した文書ベクトルの要素(素性)に基づいて、文書ごとかつ素性ごとの関連度を算出する(ステップS102)。そして、ユーザにより選択された素性の少なくとも2つを座標軸に設定し、さらに各文書を座標点にすることで座標平面を生成する(ステップS103,S104)。つづいて、生成した座標平面を所定の優先度順に表示し、表示された座標表面上の座標点を選択することで(ステップS105,S107)、さらなる座標平面の表示や文書内容の確認を行い(ステップS111,S110)、最終的に目的の文書を取得する。
【選択図】 図2
【解決手段】文書群に含まれる単語または文書群の各文書に設定されたキーワードに基づいて、文書ベクトルを生成し(ステップS101)、生成した文書ベクトルの要素(素性)に基づいて、文書ごとかつ素性ごとの関連度を算出する(ステップS102)。そして、ユーザにより選択された素性の少なくとも2つを座標軸に設定し、さらに各文書を座標点にすることで座標平面を生成する(ステップS103,S104)。つづいて、生成した座標平面を所定の優先度順に表示し、表示された座標表面上の座標点を選択することで(ステップS105,S107)、さらなる座標平面の表示や文書内容の確認を行い(ステップS111,S110)、最終的に目的の文書を取得する。
【選択図】 図2
Description
【0001】
【発明の属する技術分野】
本発明は、大量の文書からユーザの欲する内容の文書を検索する情報検索システムおよび情報検索プログラムに関し、特に、ユーザ側において検索語を用意せずとも視覚的に文書の絞込みができ、さらには文書群の内容の傾向を把握することもできる情報検索システムおよび情報検索プログラムに関する。
【0002】
【従来の技術】
近年、インターネットの普及やオフィスのIT化により、WEBをはじめ、営業日報、コールセンターへの問合せ、アンケートなどの文書データが急増している。そこで、そのような大量の文書データの内容を迅速に把握してビジネスに生かしたいという、いわゆるナレッジマネジメントのニーズが高まっている。
【0003】
大量のデータを管理する手段としては、一般にデータベースが知られているが、データベースは基本的には集計や検索を効率化することを目的に設計、運用されているもので、文書間の相関関係などの規則生成を行うのは苦手とされている。そこで、単純な集計表や一覧するだけでは見えてこなかった相関関係を浮かび上がらせるために、データマイニングと呼ばれる手法が採用されつつある。ところが、このデータマイニングにおいても、解析の対象となる情報は、主に数値や属性などの形式化されたデータであり、形式化されていない文書データからユーザが欲する検索結果や内容の把握を実現するのは困難であった。
【0004】
このような背景から、近年では、テキストマイニングと呼ばれる手法が注目されている。テキストマイニングは、データマイニングから派生した研究分野であり、文書データのような生のデータを対象として、情報抽出、文書検索、文書分類、文書クラスタリングなどの自然言語処理の要素技術を組み合わせて大量の文書データから新しい知識を獲得することを目的としている。
【0005】
その一方で、文書データに対する情報検索システムとして、インターネット上に公開されたHTML文書等を検索する、いわゆる検索エンジンが多く利用されている。検索エンジンは、全文検索データベースの技術を基礎としており、検索対象となる文書データが大量であることから、その仕組みとして、あらかじめ各文書から単語を抽出して作成されたインデックスを参照する手法を主に採用している。
【0006】
ところが、このインデックス参照の手法は、検索処理の高速化を実現できるものの、ユーザが検索式あるいは自然文を入力して検索を行い、得られた検索結果が、要求するテキストか否かを判断し、必要ならば検索式あるいは自然文を修正して再検索するといった、試行錯誤しながら検索結果を絞り込むという時間のかかる作業を要求する。特に、この絞込み作業に要する時間は、適切な検索語や複数の検索語を用いた検索式の入力など、ユーザの検索技術の力量に左右される。すなわち、このような絞込み作業を前提とした従来の情報検索システムにおいて、初心者が迅速に目的とする文書を得るのは困難であるという問題があった。
【0007】
このような問題を解決する手法として、ベクトル空間モデルが知られている。ベクトル空間モデルは、文書と検索要求の双方を単語のベクトルで表現したものであり、このモデルによれば、検索要求に非常に近い内容の文書を特定することができる。換言すれば、ベクトル空間モデルでは、ユーザが入力した検索要求に対し、概念的に同一の内容を表す文書を抽出することができる。すなわち、ユーザは、適切な検索語や検索式を想定できずとも、ほぼ目的に合った内容の文書を得ることができる。
【0008】
また、視覚的に検索を進める方法としてベン図を利用することにより、検索語の組み合わせを視覚的に提示する方法が提案されている(例えば、特許文献1参照)。また、検索で得られたテキストの関連性を数値化して平面上に配置する方法が提案されている(例えば、特許文献2参照)。
【0009】
【特許文献1】
特開平9−44520
【特許文献2】
特開平8−320881
【0010】
【発明が解決しようとする課題】
しかしながら、上記したベクトル空間モデルは、検索要求と類似した内容の文書を抽出できるという点で非常に有効である一方、依然としてユーザに対して検索語や検索式の入力を要求する。すなわち、ユーザは、何らかの具体的な単語または文章を想起しなければならないという負担を強いられる。
【0011】
また、上記したベン図を利用する方法は、検索式中の語を等価に組み合わせて絞り込むもので、式が複雑になると図が直感的にわかりにくいという問題がある。さらに、上記したテキストの関連性を平面図で表す方法は、どのような観点で検索要求と文書との距離が近いのか把握できず、また各平面図を構成する座標軸の意味も明確でないため、その後の絞込みには使いづらいという問題があった。
【0012】
本発明は上記に鑑みてなされたものであって、ユーザ側において検索語を用意せずとも視覚的に文書の絞込みができ、さらには文書群の内容の傾向を把握することもできる情報検索システムおよび情報検索プログラムを提供することを目的とする。
【0013】
【課題を解決するための手段】
上述した課題を解決し、上記目的を達成するために、この発明にかかる情報検索システムにおいては、文書群から所望の文書を検索する情報検索装置と、前記情報検索装置に通信網を介して接続された端末装置または前記情報検索装置に接続された表示装置および入力装置と、を具備した情報検索システムにおいて、前記情報検索装置が、前記文書群に含まれる単語または前記文書群の各文書に設定されたキーワードに基づいて、各文書を複数種の関連度で表し、ユーザの指示に従って該複数種のうちの任意の2つの種類の関連度を座標軸にするとともに各文書を座標点で表した座標平面を生成し、前記端末装置または前記入力装置が、ユーザから前記指示を受け取り、受け取った指示を前記情報検索装置に伝え、前記端末装置または前記表示装置が、前記座標平面を表示することを特徴とする。
【0014】
この発明によれば、単語やキーワードに基づいた複数種の間連度で各文書を表し、その関連度を座標軸とした座標平面が、各文書を表す座標点とともに表示されるので、ユーザに対して文書内容の傾向を視覚的に与えることができる。
【0015】
つぎの発明にかかる情報検索システムにあっては、前記入力装置が、前記座標平面上の座標点の少なくとも一つを選択し、前記情報検索装置は、前記入力装置によって選択された座標点に相当する文書について新たに前記座標平面を生成することを特徴とする。
【0016】
この発明によれば、座標平面上の座標点、すなわち文書を選択して再度、その文書に対する座標平面を表示するので、ユーザの関心のある文書へと絞り込むことができる。
【0017】
つぎの発明にかかる情報検索プログラムにあっては、文書群から所望の文書を検索する情報検索プログラムにおいて、前記文書群に含まれる単語または前記文書群の各文書に設定されたキーワードに基づいて、各文書を複数種の関連度で表す関連度算出手順と、ユーザの指示に従って前記複数種のうちの任意の2つの種類の関連度を座標軸にするとともに各文書を座標点で表した座標平面を生成する座標平面生成手順と、前記座標平面を表示する座標平面表示手順と、をコンピュータに実行させることを特徴とする。
【0018】
この発明によれば、コンピュータプログラムによって、単語やキーワードに基づいた複数種の間連度で各文書を表し、その関連度を座標軸とした座標平面が、各文書を表す座標点とともに表示されるので、ユーザに対して文書内容の傾向を視覚的に与えることができる。
【0019】
つぎの発明にかかる情報検索プログラムにあっては、前記座標平面上の座標点の少なくとも一つを選択する座標点選択手順と、前記座標点選択手順によって選択された座標点に相当する文書について再度、前記関連度算出手順、座標平面生成手順および座標平面表示手順を実行する絞込み手順と、をコンピュータに実行させることを特徴とする。
【0020】
この発明によれば、コンピュータプログラムによって、座標平面上の座標点、すなわち文書を選択して再度、その文書に対する座標平面を表示するので、ユーザが関心のある文書へと絞り込むことができる。
【0021】
【発明の実施の形態】
以下に、本発明にかかる情報検索システムおよび情報検索プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。
【0022】
(実施の形態1)
まず、実施の形態1にかかる情報検索システムおよび情報検索プログラムについて説明する。実施の形態1にかかる情報検索システムおよび情報検索プログラムは、文書ベクトルの要素(素性)に基づいて文書ごとに各素性の関連度を算出し、それら関連度を座標軸とした座標平面を表示することにより、文書の絞込みやユーザによる文書内容の把握を可能にすることを特徴としている。
【0023】
図1は、実施の形態1にかかる情報検索システムの概略構成を示すブロック図である。図1において、実施の形態1にかかる情報検索システムは、検索絞込み処理を行なう情報検索装置10と、キーボードやポインティングデバイス等の入力装置21と、CRT(Cathode−Ray Tube)や液晶ディスプレイ等の表示装置22と、インターネットやLAN(Local Area Network)等の通信網30を介して情報検索装置10と接続される端末装置31と、を備えて構成される。
【0024】
また、情報検索装置10は、他の情報検索システムを用いてある程度絞り込まれた数の文書群、ロボット検索によってインターネット上から収集された文書群、あるいは、データベースに登録された文書群などから文書データ(テキストデータ)を取得する検索対象文書群取得部11と、取得したすべての文書データに対してベクトル空間モデルに従ったベクトル化を行なう文書ベクトル化部12と、ベクトル化された各結果(以下、文書ベクトルと称する。)に対して素性ごとの関連度を算出する関連度算出部13と、算出した関連度を、素性を座標軸とした座標平面上に展開する座標平面生成部14とを備えて構成される。ここで、素性とは、検索対象の特徴を記述する要素であって、文書ベクトルの各要素(FEATURE)を意味する。この素性の詳細については後述する。
【0025】
なお、情報検索装置10、入力装置21および表示装置22からなる構成は、いわゆるコンピュータシステムと等価である。よって、上記した検索対象文書群取得部11、文書ベクトル化部12、関連度算出部13および座標平面生成部14等の検索絞込み処理部は、CD−ROM等の記録媒体やネットワークを介したダウンロードなどによってインストールされたコンピュータプログラムで実現することができる。また、情報検索装置10は、端末装置31に対してサーバマシンとして機能することもできる。
【0026】
端末装置31の詳細な構成もまた、コンピュータシステムと等価であり、情報検索装置10がサーバマシンとして機能する場合には、特に、クライアントマシンとして機能する。すなわち、端末装置31は、情報検索装置10に対して検索要求やその他の指示を発信することにより、情報検索装置10から検索結果等の検索絞込み処理結果を受け取って表示することができる。
【0027】
なお、情報検索装置10をスタンドアロンとして動作させるときは、端末装置31は不要であり、また、情報検索装置10をサーバマシンとして動作させるときは、入力装置21および表示装置22は不要である。
【0028】
以下に、この情報検索システムの動作について説明する。図2は、情報検索システムの動作を説明するためのフローチャートであり、換言すれば、実施の形態1にかかる情報検索プログラムの動作を示す図である。
【0029】
図2において、まず、情報検索装置10は、検索対象文書群取得部11によって、上記したような文書群から文書データを取得し、文書ベクトル化部12によって、各文書データをベクトル化する(ステップS101)。図3は、このベクトル化処理を説明するためのフローチャートである。また、図4は、ベクトル化処理を説明するための補足図である。図3に示すように、文書データのベクトル化において、まず、各文書データに含まれる単語を抽出する(ステップS201)。単語の抽出は、日本文などのマルチバイト文字列に対しては、よく知られている形態素解析により実現でき、英文などの分かち書き文章に対しては、スペースや句読点の位置に基づいて分離することで実現することができる。
【0030】
そして、ステップS201によって抽出された単語は、文書ベクトルの要素に相当する素性として設定される(ステップS202)。例えば、検索対象の文書データ数が20であり、その20の文書データに、液晶、トランジスタ、超伝導、....、放出素子の100個の単語が出現する場合、それら各単語は素性番号が付与されるとともに、素性として設定される(図4(a))。
【0031】
つづいて、それら素性を用いて各文書データをベクトル化する(ステップS203)。ベクトル化の具体的な方法としては、各文書において、上記した素性が現われる場合に、その素性の素性番号に相当するベクトル要素に1を設定し、現われない場合には0を設定する方法が知られている。例えば、上記素性の例の場合、文書Aに、「トランジスタ」および「放出素子」が出現し、「液晶」および「超伝導」が出現しないとすると、その文書Aの文書ベクトルは、(0,1,0,....,1)と表される。また、他のベクトル化の方法として、ベクトル要素を0,1ではなく、素性(単語)の重要度に応じて重みを付ける方法がある。なお、素性の重み付けの方法としては、単語頻度と文書頻度の逆数の積を用いる、いわゆるtf・idf法が知られている。ここで、単語頻度とは、一つの文書内でのある素性の出現回数を表し、文書頻度とは、文書間でのある素性の出現回数を表す。
【0032】
このようにして各文書についての文書ベクトルが得られると、各文書ベクトルを正規化する(ステップS204)。すなわち、各文書ベクトルを単位ベクトルに変換する(図4(b))。以上のようにして正規化された文書ベクトルを得ることができるが、本実施の形態1において、素性の設定方法やベクトル化の方法は、主要部を構成するものではなく、上記説明以外にも種々の方法を採用することができる。よって、例えば、ステップS201およびS202においては文書内の単語を抽出して素性に設定したが、各文書にあらかじめキーワードが設定されていれば、そのキーワードを素性にしてもよいし、ベクトル化自体も他の方法を用いることができる。
【0033】
各文書ベクトルが得られると、つぎに、情報検索装置10は、関連度算出部13によって、各文書について素性ごとの関連度を算出する。図5は、関連度の算出を説明するための説明図である。関連度は素性の関連性を表す指標であり、図5に示すように、各文書ベクトルの各ベクトル要素に基づいて算出される。具体的には、例えば、文書Aの素性「液晶」の関連度は、全文書におけるその素性「液晶」のベクトル要素の平均値および分散を算出し、文書Aの素性「液晶」のベクトル要素と上記平均値との差分を上記分散で除算した値を関連度rA0001として設定する。なお、シソーラスや多変量解析などを利用すれば、関連度を求める対象は必ずしも単一の素性である必要はなく、複数の素性をまとめて一つの関連度で表現することも可能である。
【0034】
すべての文書ベクトルについて、関連度の算出が終わると、情報検索装置10は、ユーザに対して素性の選択を促す画面を表示装置22上に表示する(ステップS103)。図6は、素性選択画面の一例を示す図である。図6に示すように、素性選択画面60には、上記したステップS202で設定された素性のすべてまたは一部が一覧表示され、各素性にはチェックボックス61が対応づけられている。すなわち、ユーザは、入力装置21を用いて、選択したい素性に対応するチェックボックスにチェックを付与することができる。図6に示す例では、100個の素性のうちの先頭から10個のみが表示されており、他の素性の選択は、「次ページ」ボタン63等のページ切換ボタンを押下することにより可能となる。なお、「選択終了」ボタン62を押下することにより、素性の選択処理を終了することができる。
【0035】
このように、情報検索装置10が文書群に含まれる単語(素性)をユーザに提示して単語の選択を促すので、ユーザは、検索語や検索式を想起することなく、情報検索装置10に対して、自分が関心のある内容の情報を与えることができる。
【0036】
ユーザによる素性の選択が終了すると、つぎに情報検索装置10は、座標平面生成部14によって、選択された素性の関連度を座標軸とした座標平面を生成し、生成した座標平面上に、各文書に相当する点をプロットする(ステップS104)。例えば、上記したステップS103において4つの素性が選択された場合には、それら素性のうちの任意の2つをそれぞれ座標軸とした24とおりの座標平面が生成される。そして、情報検索装置10は、生成した各座標平面について、座標点、すなわち文書データの散らばり度合いや分離度合いなどに注目して、ユーザに提示する優先度を設定する。例えば、文書データ群が座標平面上において2つの領域に分離できるような場合、具体的には、文書データが第1の関連度範囲と第2の関連度範囲に完全に分離でき、かつ第1の関連度範囲の上限と第2の関連度範囲の下限との差分が所定値以上である場合には、その差分が大きい順に高い優先度を設定する。
【0037】
そして、情報検索装置10は、生成した各座標平面を、上記優先度順に表示装置22上に表示する(ステップS105)。図7および図8は、座標平面の一例を示す図である。ここでは、情報検索装置10によって24とおりの座標平面が生成されたものとし、図7は、そのうち最も優先度が高い座標平面を表し、図8は、15番目に優先度が高い座標平面を表している。図7に示す例では、座標平面表示画面70上に、上記ステップS103において選択された素性「太陽電池」の関連度を横軸にし、上記ステップS103において選択された素性「携帯」の関連度を縦軸にした座標平面が表されており、その座標平面上に、各文書データに相当する25個の座標点41がプロットされている。
【0038】
また、図7に示す座標平面表示画面70上には、次の優先度の座標平面を表示させるための「次の平面」ボタン71と、後述する「軸の指定」ボタン72と、同じく後述する「絞込み」ボタン73とが配置されている。よって、図7において、図8に示す15番目の優先度の座標平面を表示するには、「次の平面」ボタン71を順次押下すればよい。
【0039】
一方、図8に示す例では、座標平面表示画面80上に、上記ステップS103において選択された素性「液晶」の関連度を横軸にし、上記ステップS103において選択された素性「省電力」の関連度を縦軸にした座標平面が表されており、その座標平面上に、各文書データに相当する25個の座標点がプロットされている。
【0040】
また、図8に示す座標平面表示画面80上には、図7と同様に、「次の平面」ボタン71と、「軸の指定」ボタン72と、「絞込み」ボタン73とが配置されており、さらに一つ前の優先度の座標平面を表示するための「前の平面」ボタン81が配置されている。よって、この「前の平面」ボタン81と「次の平面」ボタン71を順次押下することにより、所望の座標平面を表示させることができる。
【0041】
この状態において、ユーザは、上記した「軸の指定」ボタン72を押下することにより、上記ステップS103において選択された素性のみならず、選択されてなかったその他の素性の関連度を、縦軸または横軸に割り当て、新たな座標平面を表示させることもできる。
【0042】
図9は、座標軸指定画面の一例を示す図である。図9に示すように、座標軸指定画面90には、上記したステップS202で設定された素性のすべてまたは上記したステップS103において選択された素性が選択可能なセレクトボックス91および93が、それぞれ横軸と縦軸に割り当てられており、選択リストの表示は、それぞれリスト表示ボタン92および94の押下によって可能である。そして、ユーザによって「終了」ボタン96が押下されると、現在セレクトボックス91および93に表示されている素性の関連度をそれぞれ座標軸にした座標平面が新たに生成され、表示装置22上に表示される(ステップS106:YES)。なお、「キャンセル」ボタン95を押下することにより、座標軸指定処理を取り消すことができる。
【0043】
このように、ユーザは、文書群について、自分の関心のある単語(素性)に対する関連度を視覚的に確認することができる。換言すれば、ユーザは、文書の内容の傾向を直感的に把握することができる。
【0044】
つぎに、ユーザは、座標軸の指定を必要としない場合には(ステップS106:NO)、最も関心のある座標平面を表示させた状態で(ステップS107)、その座標表面上の座標点、すなわち文書データを選択する(ステップS108)。図10および図11は、文書データの選択処理例を示す図である。文書データの選択方法の一つとして、図10に示す座標平面表示画面100のように、入力装置21を用いて、カーソル101を関心のある座標点(文書データ)上に移動させ、その状態において、入力装置21(例えば、ここではマウス)上のボタンをシングルクリックする。これによって、カーソルの下に位置する座標点の色または形状が変化する。ユーザは、この操作を繰り返すことにより、座標平面表示画面100上の任意の座標点を複数個選択することができる。
【0045】
また、文書データの他の選択方法として、図11に示す座標平面表示画面110のように、入力装置21(例えば、ここではマウス)を用いたドラッグ&ドロップ操作によって、関心のある座標点(文書データ)群を囲む。この操作によって、カーソル111で形成された矩形112内に位置するすべての座標点の色または形状が変化する。これにより、ユーザは、座標平面表示画面110上の任意の座標点群を複数個選択することができる。
【0046】
このように、一部の座標点の色または形状が変化した状態、すなわち文書データが選択された状態において、ユーザによって上記した「絞込み」ボタン73が押下されると(ステップS109:YES)、情報検索装置10は、選択された文書のみを検索対象文書に設定し(ステップS111)、再度、上記したステップS101から始まる処理を実行する。すなわち、選択された文書データのみに対し、再度、ベクトル化、関連度の算出、素性の選択および座標平面の表示を行う。
【0047】
図12は、選択された文書に対して算出された関連度の例を示す図である。特に、図12は、上記ステップS108において文書D、文書H、文書Jおよび文書Mが選択された場合の例を示している。なお、図12に示すように、選択対象となる文書の数およびその内容の幅も、当初の検索対象文書群とは異なるため、素性の構成が変わり、その個数も少なくなっている。
【0048】
図13は、選択された文書に対して生成された座標平面の例を示す図である。特に、図13に示す座標平面表示画面130は、上記したステップS103において新たに選択された素性「太陽電池」と「液晶」をそれぞれ座標軸とした最も表示優先度の高い座標平面を示している。
【0049】
このように、ユーザは、文書の内容の傾向を座標平面によって把握しつつ、より関心のある文書への絞込みを実現することができる。そして、絞込みの要求をこれ以上または最初から全く必要としない場合(ステップS109:NO)には、ユーザは、表示された座標平面上において、より関心のある座標点(文書データ)上にカーソルを移動させ、入力装置21(例えば、ここではマウス)上のボタンをダブルクリックする。この操作によって、該当する文書データの内容が表示され、ユーザはその文書データに、欲していた情報が含まれているのかどうかを確認することができる(ステップS110)。なお、この文書内容確認操作は、上記したステップS105以降の座標平面が表示された状態においていつでも可能である。
【0050】
また、上述した座標平面の表示とともに、同座標平面上に配置された各文書データの情報を、別画面または別ウィンドウにおいて表形式で表示させることもできる。図14は、文書データを表形式に表示した文書リストの例を示す図である。図14に示す文書リスト表示画面140に示すように、文書リスト141中には、各軸の関連度、文書名(ファイル名)、文書のタイトル、概要などを含ませるのが好ましい。また、各文書に対してID番号142を割り当て、そのID番号142の表示部分を、例えば入力装置21(例えば、ここではマウス)を用いてダブルクリックすることにより、上記ステップS110と同様に、文書データの実際の内容を表示させることもできる。
【0051】
さらに、上述した説明では、ステップS103に示したように、情報検索装置10は、ユーザが選択した素性に基づいて座標平面の生成を行なったが、ユーザの選択によらずに、あらかじめ所定の関連度の範囲を設定しておき、その関連度の範囲内に所定個数以上の文書データが含まれるような素性のみを自動的に抽出し、その素性を座標軸とした座標平面を生成するようにすることもできる。
【0052】
以上に説明したとおり、実施の形態1にかかる情報検索システムおよび情報検索プログラムによれば、文書データ群の内容の傾向を視覚的に確認しながら文書データの絞込みが可能であるので、ユーザは、検索語や複雑な検索式を記述せずに検索イメージに合致した文書をインタラクティブに絞り込むことができ、初心者にも使いやすく、さらには作業時間の短縮および情報の効率的活用が可能となる。また、逆に、素性が提示されることによって、新しい検索語を発見することも可能になる。さらに、様々な素性を座標軸とした複数の座標平面を表示することができるので、ユーザは、さまざまな視点から文書の関連性を概観することができ、データの類別も可能となる。
【0053】
(実施の形態2)
つぎに、実施の形態2にかかる情報検索システムおよび情報検索プログラムについて説明する。実施の形態2は、実施の形態1において示した座標平面の表示形態の他の例を説明するものである。
【0054】
実施の形態2における座標平面の第一の表示形態例は、座標平面間を順次確認する過程において、他の座標平面上で選択した文書データが、現在表示されている座標平面上のどの座標点に該当するかを確認できるように、その該当する座標点の色や形状を変化させることを特徴とするものである。図15は、この第一の表示形態例を説明するための座標平面表示画面の図である。まず、図15に示すように、1番目の優先度の座標平面表示画面150(以下、平面1と称する。)において、ユーザによって選択履歴表示のチェックボックス151がチェックされると、同画面内で、図2のステップS108の手順に従って選択された座標点(文書データ)は、平面1で選択されたことを示す色または形状に変化する。その後、例えば、7番目の優先度の座標平面表示画面152(以下、平面7と称する。)を表示させると、その平面7上に配置された座標点のうち、上記した平面1上で選択された文書データに相当する座標点は、平面1で選択されたことを示す色または形状で表示される。
【0055】
これにより、ユーザは、他の座標平面上でより関心のある文書データが、現在表示されている座標平面上においてどのような分布をとるのかを把握することができる。特に、上記した手順を、順次表示される各座標平面上において文書データの選択を行なうことにより、ユーザの関心のある素性を含む文書の傾向を段階的に明らかにすることができる。
【0056】
つぎに、実施の形態2における座標平面の第二の表示形態例は、上記した第一の表示形態例に従って表示された座標平面において、他の座標平面で選択された文書データに該当する座標点のみを表示したり、その座標点以外を表示するなどの文書データの分布の確認を視覚的に容易に行なえることを特徴とするものである。
【0057】
図16〜図19は、この第二の表示形態例を説明するための座標平面表示画面の図である。まず、上記した第一の表示形態例に従って、図16に示すように、11番目の優先度の座標平面表示画面160(以下、平面11と称する。)が表示された状態を考える。特に、この平面11では、平面1と平面7においてそれぞれユーザの関心のある座標点がいくつか選択されており、平面1で選択された文書データに相当する座標点がドットハッチングで表され、平面7で選択された文書データに相当する座標点が黒丸で表されている。
【0058】
さらに、平面11は、ビュー設定領域161を有しており、ビュー設定領域161内には、平面11において過去に一度も選択されていない文書データの座標点のみを表示するためのチェックボックスと、平面1のみにおいて選択された文書データの座標点を表示するためのチェックボックスと、平面7のみにおいて選択された文書データの座標点を表示するためのチェックボックスと、平面1かつ平面7において選択された文書データの座標点を表示するためのチェックボックス(図中、平面1&7で表現されている。)とが配置されている。
【0059】
平面11が初めて表示された状態にあっては、それらチェックボックス162はすべてチェックされた状態であり、平面11にはすべての文書データに相当する座標点が配置されている。この状態において、ユーザによって、平面11のチェックボックスと平面1&7のチェックボックスの各チェックが外されると、図16の下段に示す座標平面表示画面163のように、その座標平面上には、平面11において過去に一度も選択されていない文書データの座標点と、平面7のみにおいて選択された文書データの座標点とが非表示になる。すなわち、ユーザは、平面11の座標平面上において、平面1で選択された文書データの座標点の分布を確認することができる。
【0060】
また、ユーザによって、平面11のチェックボックスと平面1のチェックボックスの各チェックのみが外されると、図17の下段に示す座標平面表示画面170のように、その座標平面上には、平面11において過去に一度も選択されていない文書データの座標点と、平面1のみにおいて選択された文書データの座標点とが非表示になる。すなわち、ユーザは、平面11の座標平面上において、平面7で選択された文書データの座標点の分布を確認することができる。
【0061】
また、ユーザによって、平面11のチェックボックスのチェックのみが外されると、図18の下段に示す座標平面表示画面180のように、その座標平面上には、平面11において過去に一度も選択されていない文書データの座標点が非表示になる。すなわち、ユーザは、平面11の座標平面上において、平面1または平面7で選択された文書データの座標点の分布を確認することができる。
【0062】
また、ユーザによって、平面1&7のチェックボックスのチェックのみが外されると、図19の下段に示す座標平面表示画面190のように、その座標平面上には、平面1かつ平面7において選択された文書データの座標点が非表示になる。すなわち、ユーザは、平面11の座標平面上において、平面1かつ平面7で選択された文書データの座標点の分布を確認することができる。
【0063】
これにより、ユーザは、他の座標平面上でより関心のある文書データが、現在表示されている座標平面上においてどのような分布をとるのかが視認しやすくなり、より直感的に素性ごとの文書データの内容の傾向を把握することができる。
【0064】
以上に説明したとおり、実施の形態2にかかる情報検索システムおよび情報検索プログラムによれば、現在表示されている座標平面において、他の座標平面で関心を示した文書データに相当する座標点の分布を視覚的に確認することができるので、文書群の内容の全体的な傾向を直感的に把握することが可能になる。
【0065】
【発明の効果】
以上に説明したように、本発明にかかる情報検索装置および情報検索プログラムによれば、単語やキーワードに基づいた複数種の間連度で各文書を表し、その関連度を座標軸とした座標平面が、各文書を表す座標点とともに表示されるので、ユーザに対して文書内容の傾向を視覚的に与えることができるとともに、検索語や検索式の入力が要求されることがなくなり、初心者でも迅速に所望の内容の文書を取得することができるという効果を奏する。
【0066】
また、本発明にかかる情報検索装置および情報検索プログラムによれば、座標平面上の座標点、すなわち文書を選択して再度、その文書に対する座標平面を表示するので、検索語や検索式の入力を必要とせずに視覚的にユーザの関心のある文書へと絞り込むことができ、文書内容の傾向の把握とともに、文書の検索を迅速にかつ簡単に行なうことができるという効果を奏する。
【図面の簡単な説明】
【図1】実施の形態1にかかる情報検索システムの概略構成を示すブロック図である。
【図2】実施の形態1にかかる情報検索システムの動作を説明するためのフローチャートである。
【図3】ベクトル化処理を説明するためのフローチャートである。
【図4】ベクトル化処理を説明するための補足図である。
【図5】実施の形態1にかかる情報検索システムでの関連度の算出を説明するための説明図である。
【図6】実施の形態1にかかる情報検索システムでの素性選択画面の一例を示す図である。
【図7】実施の形態1にかかる情報検索システムにおいて、最も優先度が高い座標平面の例を示した図である。
【図8】実施の形態1にかかる情報検索システムにおいて、15番目に優先度が高い座標平面の例を示した図である。
【図9】実施の形態1にかかる情報検索システムでの座標軸指定画面の一例を示す図である。
【図10】実施の形態1にかかる情報検索システムでの文書データの選択処理例を示す図である。
【図11】実施の形態1にかかる情報検索システムでの文書データの選択処理の他の例を示す図である。
【図12】実施の形態1にかかる情報検索システムにおいて、選択された文書に対して算出された関連度の例を示す図である。
【図13】実施の形態1にかかる情報検索システムにおいて、選択された文書に対して生成された座標平面の例を示す図である。
【図14】実施の形態1にかかる情報検索システムにおいて、文書データを表形式に表示した文書リストの例を示す図である。
【図15】実施の形態2にかかる情報検索システムでの第一の表示形態例を説明するための座標平面表示画面の図である。
【図16】実施の形態2にかかる情報検索システムでの第二の表示形態例を説明するための座標平面表示画面の図である。
【図17】実施の形態2にかかる情報検索システムでの第二の表示形態例を説明するための座標平面表示画面の図である。
【図18】実施の形態2にかかる情報検索システムでの第二の表示形態例を説明するための座標平面表示画面の図である。
【図19】実施の形態2にかかる情報検索システムでの第二の表示形態例を説明するための座標平面表示画面の図である。
【符号の説明】
10 情報検索装置
11 検索対象文書群取得部
12 文書ベクトル化部
13 関連度算出部
14 座標表面生成部
21 入力装置
22 表示装置
30 通信網
31 端末装置
【発明の属する技術分野】
本発明は、大量の文書からユーザの欲する内容の文書を検索する情報検索システムおよび情報検索プログラムに関し、特に、ユーザ側において検索語を用意せずとも視覚的に文書の絞込みができ、さらには文書群の内容の傾向を把握することもできる情報検索システムおよび情報検索プログラムに関する。
【0002】
【従来の技術】
近年、インターネットの普及やオフィスのIT化により、WEBをはじめ、営業日報、コールセンターへの問合せ、アンケートなどの文書データが急増している。そこで、そのような大量の文書データの内容を迅速に把握してビジネスに生かしたいという、いわゆるナレッジマネジメントのニーズが高まっている。
【0003】
大量のデータを管理する手段としては、一般にデータベースが知られているが、データベースは基本的には集計や検索を効率化することを目的に設計、運用されているもので、文書間の相関関係などの規則生成を行うのは苦手とされている。そこで、単純な集計表や一覧するだけでは見えてこなかった相関関係を浮かび上がらせるために、データマイニングと呼ばれる手法が採用されつつある。ところが、このデータマイニングにおいても、解析の対象となる情報は、主に数値や属性などの形式化されたデータであり、形式化されていない文書データからユーザが欲する検索結果や内容の把握を実現するのは困難であった。
【0004】
このような背景から、近年では、テキストマイニングと呼ばれる手法が注目されている。テキストマイニングは、データマイニングから派生した研究分野であり、文書データのような生のデータを対象として、情報抽出、文書検索、文書分類、文書クラスタリングなどの自然言語処理の要素技術を組み合わせて大量の文書データから新しい知識を獲得することを目的としている。
【0005】
その一方で、文書データに対する情報検索システムとして、インターネット上に公開されたHTML文書等を検索する、いわゆる検索エンジンが多く利用されている。検索エンジンは、全文検索データベースの技術を基礎としており、検索対象となる文書データが大量であることから、その仕組みとして、あらかじめ各文書から単語を抽出して作成されたインデックスを参照する手法を主に採用している。
【0006】
ところが、このインデックス参照の手法は、検索処理の高速化を実現できるものの、ユーザが検索式あるいは自然文を入力して検索を行い、得られた検索結果が、要求するテキストか否かを判断し、必要ならば検索式あるいは自然文を修正して再検索するといった、試行錯誤しながら検索結果を絞り込むという時間のかかる作業を要求する。特に、この絞込み作業に要する時間は、適切な検索語や複数の検索語を用いた検索式の入力など、ユーザの検索技術の力量に左右される。すなわち、このような絞込み作業を前提とした従来の情報検索システムにおいて、初心者が迅速に目的とする文書を得るのは困難であるという問題があった。
【0007】
このような問題を解決する手法として、ベクトル空間モデルが知られている。ベクトル空間モデルは、文書と検索要求の双方を単語のベクトルで表現したものであり、このモデルによれば、検索要求に非常に近い内容の文書を特定することができる。換言すれば、ベクトル空間モデルでは、ユーザが入力した検索要求に対し、概念的に同一の内容を表す文書を抽出することができる。すなわち、ユーザは、適切な検索語や検索式を想定できずとも、ほぼ目的に合った内容の文書を得ることができる。
【0008】
また、視覚的に検索を進める方法としてベン図を利用することにより、検索語の組み合わせを視覚的に提示する方法が提案されている(例えば、特許文献1参照)。また、検索で得られたテキストの関連性を数値化して平面上に配置する方法が提案されている(例えば、特許文献2参照)。
【0009】
【特許文献1】
特開平9−44520
【特許文献2】
特開平8−320881
【0010】
【発明が解決しようとする課題】
しかしながら、上記したベクトル空間モデルは、検索要求と類似した内容の文書を抽出できるという点で非常に有効である一方、依然としてユーザに対して検索語や検索式の入力を要求する。すなわち、ユーザは、何らかの具体的な単語または文章を想起しなければならないという負担を強いられる。
【0011】
また、上記したベン図を利用する方法は、検索式中の語を等価に組み合わせて絞り込むもので、式が複雑になると図が直感的にわかりにくいという問題がある。さらに、上記したテキストの関連性を平面図で表す方法は、どのような観点で検索要求と文書との距離が近いのか把握できず、また各平面図を構成する座標軸の意味も明確でないため、その後の絞込みには使いづらいという問題があった。
【0012】
本発明は上記に鑑みてなされたものであって、ユーザ側において検索語を用意せずとも視覚的に文書の絞込みができ、さらには文書群の内容の傾向を把握することもできる情報検索システムおよび情報検索プログラムを提供することを目的とする。
【0013】
【課題を解決するための手段】
上述した課題を解決し、上記目的を達成するために、この発明にかかる情報検索システムにおいては、文書群から所望の文書を検索する情報検索装置と、前記情報検索装置に通信網を介して接続された端末装置または前記情報検索装置に接続された表示装置および入力装置と、を具備した情報検索システムにおいて、前記情報検索装置が、前記文書群に含まれる単語または前記文書群の各文書に設定されたキーワードに基づいて、各文書を複数種の関連度で表し、ユーザの指示に従って該複数種のうちの任意の2つの種類の関連度を座標軸にするとともに各文書を座標点で表した座標平面を生成し、前記端末装置または前記入力装置が、ユーザから前記指示を受け取り、受け取った指示を前記情報検索装置に伝え、前記端末装置または前記表示装置が、前記座標平面を表示することを特徴とする。
【0014】
この発明によれば、単語やキーワードに基づいた複数種の間連度で各文書を表し、その関連度を座標軸とした座標平面が、各文書を表す座標点とともに表示されるので、ユーザに対して文書内容の傾向を視覚的に与えることができる。
【0015】
つぎの発明にかかる情報検索システムにあっては、前記入力装置が、前記座標平面上の座標点の少なくとも一つを選択し、前記情報検索装置は、前記入力装置によって選択された座標点に相当する文書について新たに前記座標平面を生成することを特徴とする。
【0016】
この発明によれば、座標平面上の座標点、すなわち文書を選択して再度、その文書に対する座標平面を表示するので、ユーザの関心のある文書へと絞り込むことができる。
【0017】
つぎの発明にかかる情報検索プログラムにあっては、文書群から所望の文書を検索する情報検索プログラムにおいて、前記文書群に含まれる単語または前記文書群の各文書に設定されたキーワードに基づいて、各文書を複数種の関連度で表す関連度算出手順と、ユーザの指示に従って前記複数種のうちの任意の2つの種類の関連度を座標軸にするとともに各文書を座標点で表した座標平面を生成する座標平面生成手順と、前記座標平面を表示する座標平面表示手順と、をコンピュータに実行させることを特徴とする。
【0018】
この発明によれば、コンピュータプログラムによって、単語やキーワードに基づいた複数種の間連度で各文書を表し、その関連度を座標軸とした座標平面が、各文書を表す座標点とともに表示されるので、ユーザに対して文書内容の傾向を視覚的に与えることができる。
【0019】
つぎの発明にかかる情報検索プログラムにあっては、前記座標平面上の座標点の少なくとも一つを選択する座標点選択手順と、前記座標点選択手順によって選択された座標点に相当する文書について再度、前記関連度算出手順、座標平面生成手順および座標平面表示手順を実行する絞込み手順と、をコンピュータに実行させることを特徴とする。
【0020】
この発明によれば、コンピュータプログラムによって、座標平面上の座標点、すなわち文書を選択して再度、その文書に対する座標平面を表示するので、ユーザが関心のある文書へと絞り込むことができる。
【0021】
【発明の実施の形態】
以下に、本発明にかかる情報検索システムおよび情報検索プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。
【0022】
(実施の形態1)
まず、実施の形態1にかかる情報検索システムおよび情報検索プログラムについて説明する。実施の形態1にかかる情報検索システムおよび情報検索プログラムは、文書ベクトルの要素(素性)に基づいて文書ごとに各素性の関連度を算出し、それら関連度を座標軸とした座標平面を表示することにより、文書の絞込みやユーザによる文書内容の把握を可能にすることを特徴としている。
【0023】
図1は、実施の形態1にかかる情報検索システムの概略構成を示すブロック図である。図1において、実施の形態1にかかる情報検索システムは、検索絞込み処理を行なう情報検索装置10と、キーボードやポインティングデバイス等の入力装置21と、CRT(Cathode−Ray Tube)や液晶ディスプレイ等の表示装置22と、インターネットやLAN(Local Area Network)等の通信網30を介して情報検索装置10と接続される端末装置31と、を備えて構成される。
【0024】
また、情報検索装置10は、他の情報検索システムを用いてある程度絞り込まれた数の文書群、ロボット検索によってインターネット上から収集された文書群、あるいは、データベースに登録された文書群などから文書データ(テキストデータ)を取得する検索対象文書群取得部11と、取得したすべての文書データに対してベクトル空間モデルに従ったベクトル化を行なう文書ベクトル化部12と、ベクトル化された各結果(以下、文書ベクトルと称する。)に対して素性ごとの関連度を算出する関連度算出部13と、算出した関連度を、素性を座標軸とした座標平面上に展開する座標平面生成部14とを備えて構成される。ここで、素性とは、検索対象の特徴を記述する要素であって、文書ベクトルの各要素(FEATURE)を意味する。この素性の詳細については後述する。
【0025】
なお、情報検索装置10、入力装置21および表示装置22からなる構成は、いわゆるコンピュータシステムと等価である。よって、上記した検索対象文書群取得部11、文書ベクトル化部12、関連度算出部13および座標平面生成部14等の検索絞込み処理部は、CD−ROM等の記録媒体やネットワークを介したダウンロードなどによってインストールされたコンピュータプログラムで実現することができる。また、情報検索装置10は、端末装置31に対してサーバマシンとして機能することもできる。
【0026】
端末装置31の詳細な構成もまた、コンピュータシステムと等価であり、情報検索装置10がサーバマシンとして機能する場合には、特に、クライアントマシンとして機能する。すなわち、端末装置31は、情報検索装置10に対して検索要求やその他の指示を発信することにより、情報検索装置10から検索結果等の検索絞込み処理結果を受け取って表示することができる。
【0027】
なお、情報検索装置10をスタンドアロンとして動作させるときは、端末装置31は不要であり、また、情報検索装置10をサーバマシンとして動作させるときは、入力装置21および表示装置22は不要である。
【0028】
以下に、この情報検索システムの動作について説明する。図2は、情報検索システムの動作を説明するためのフローチャートであり、換言すれば、実施の形態1にかかる情報検索プログラムの動作を示す図である。
【0029】
図2において、まず、情報検索装置10は、検索対象文書群取得部11によって、上記したような文書群から文書データを取得し、文書ベクトル化部12によって、各文書データをベクトル化する(ステップS101)。図3は、このベクトル化処理を説明するためのフローチャートである。また、図4は、ベクトル化処理を説明するための補足図である。図3に示すように、文書データのベクトル化において、まず、各文書データに含まれる単語を抽出する(ステップS201)。単語の抽出は、日本文などのマルチバイト文字列に対しては、よく知られている形態素解析により実現でき、英文などの分かち書き文章に対しては、スペースや句読点の位置に基づいて分離することで実現することができる。
【0030】
そして、ステップS201によって抽出された単語は、文書ベクトルの要素に相当する素性として設定される(ステップS202)。例えば、検索対象の文書データ数が20であり、その20の文書データに、液晶、トランジスタ、超伝導、....、放出素子の100個の単語が出現する場合、それら各単語は素性番号が付与されるとともに、素性として設定される(図4(a))。
【0031】
つづいて、それら素性を用いて各文書データをベクトル化する(ステップS203)。ベクトル化の具体的な方法としては、各文書において、上記した素性が現われる場合に、その素性の素性番号に相当するベクトル要素に1を設定し、現われない場合には0を設定する方法が知られている。例えば、上記素性の例の場合、文書Aに、「トランジスタ」および「放出素子」が出現し、「液晶」および「超伝導」が出現しないとすると、その文書Aの文書ベクトルは、(0,1,0,....,1)と表される。また、他のベクトル化の方法として、ベクトル要素を0,1ではなく、素性(単語)の重要度に応じて重みを付ける方法がある。なお、素性の重み付けの方法としては、単語頻度と文書頻度の逆数の積を用いる、いわゆるtf・idf法が知られている。ここで、単語頻度とは、一つの文書内でのある素性の出現回数を表し、文書頻度とは、文書間でのある素性の出現回数を表す。
【0032】
このようにして各文書についての文書ベクトルが得られると、各文書ベクトルを正規化する(ステップS204)。すなわち、各文書ベクトルを単位ベクトルに変換する(図4(b))。以上のようにして正規化された文書ベクトルを得ることができるが、本実施の形態1において、素性の設定方法やベクトル化の方法は、主要部を構成するものではなく、上記説明以外にも種々の方法を採用することができる。よって、例えば、ステップS201およびS202においては文書内の単語を抽出して素性に設定したが、各文書にあらかじめキーワードが設定されていれば、そのキーワードを素性にしてもよいし、ベクトル化自体も他の方法を用いることができる。
【0033】
各文書ベクトルが得られると、つぎに、情報検索装置10は、関連度算出部13によって、各文書について素性ごとの関連度を算出する。図5は、関連度の算出を説明するための説明図である。関連度は素性の関連性を表す指標であり、図5に示すように、各文書ベクトルの各ベクトル要素に基づいて算出される。具体的には、例えば、文書Aの素性「液晶」の関連度は、全文書におけるその素性「液晶」のベクトル要素の平均値および分散を算出し、文書Aの素性「液晶」のベクトル要素と上記平均値との差分を上記分散で除算した値を関連度rA0001として設定する。なお、シソーラスや多変量解析などを利用すれば、関連度を求める対象は必ずしも単一の素性である必要はなく、複数の素性をまとめて一つの関連度で表現することも可能である。
【0034】
すべての文書ベクトルについて、関連度の算出が終わると、情報検索装置10は、ユーザに対して素性の選択を促す画面を表示装置22上に表示する(ステップS103)。図6は、素性選択画面の一例を示す図である。図6に示すように、素性選択画面60には、上記したステップS202で設定された素性のすべてまたは一部が一覧表示され、各素性にはチェックボックス61が対応づけられている。すなわち、ユーザは、入力装置21を用いて、選択したい素性に対応するチェックボックスにチェックを付与することができる。図6に示す例では、100個の素性のうちの先頭から10個のみが表示されており、他の素性の選択は、「次ページ」ボタン63等のページ切換ボタンを押下することにより可能となる。なお、「選択終了」ボタン62を押下することにより、素性の選択処理を終了することができる。
【0035】
このように、情報検索装置10が文書群に含まれる単語(素性)をユーザに提示して単語の選択を促すので、ユーザは、検索語や検索式を想起することなく、情報検索装置10に対して、自分が関心のある内容の情報を与えることができる。
【0036】
ユーザによる素性の選択が終了すると、つぎに情報検索装置10は、座標平面生成部14によって、選択された素性の関連度を座標軸とした座標平面を生成し、生成した座標平面上に、各文書に相当する点をプロットする(ステップS104)。例えば、上記したステップS103において4つの素性が選択された場合には、それら素性のうちの任意の2つをそれぞれ座標軸とした24とおりの座標平面が生成される。そして、情報検索装置10は、生成した各座標平面について、座標点、すなわち文書データの散らばり度合いや分離度合いなどに注目して、ユーザに提示する優先度を設定する。例えば、文書データ群が座標平面上において2つの領域に分離できるような場合、具体的には、文書データが第1の関連度範囲と第2の関連度範囲に完全に分離でき、かつ第1の関連度範囲の上限と第2の関連度範囲の下限との差分が所定値以上である場合には、その差分が大きい順に高い優先度を設定する。
【0037】
そして、情報検索装置10は、生成した各座標平面を、上記優先度順に表示装置22上に表示する(ステップS105)。図7および図8は、座標平面の一例を示す図である。ここでは、情報検索装置10によって24とおりの座標平面が生成されたものとし、図7は、そのうち最も優先度が高い座標平面を表し、図8は、15番目に優先度が高い座標平面を表している。図7に示す例では、座標平面表示画面70上に、上記ステップS103において選択された素性「太陽電池」の関連度を横軸にし、上記ステップS103において選択された素性「携帯」の関連度を縦軸にした座標平面が表されており、その座標平面上に、各文書データに相当する25個の座標点41がプロットされている。
【0038】
また、図7に示す座標平面表示画面70上には、次の優先度の座標平面を表示させるための「次の平面」ボタン71と、後述する「軸の指定」ボタン72と、同じく後述する「絞込み」ボタン73とが配置されている。よって、図7において、図8に示す15番目の優先度の座標平面を表示するには、「次の平面」ボタン71を順次押下すればよい。
【0039】
一方、図8に示す例では、座標平面表示画面80上に、上記ステップS103において選択された素性「液晶」の関連度を横軸にし、上記ステップS103において選択された素性「省電力」の関連度を縦軸にした座標平面が表されており、その座標平面上に、各文書データに相当する25個の座標点がプロットされている。
【0040】
また、図8に示す座標平面表示画面80上には、図7と同様に、「次の平面」ボタン71と、「軸の指定」ボタン72と、「絞込み」ボタン73とが配置されており、さらに一つ前の優先度の座標平面を表示するための「前の平面」ボタン81が配置されている。よって、この「前の平面」ボタン81と「次の平面」ボタン71を順次押下することにより、所望の座標平面を表示させることができる。
【0041】
この状態において、ユーザは、上記した「軸の指定」ボタン72を押下することにより、上記ステップS103において選択された素性のみならず、選択されてなかったその他の素性の関連度を、縦軸または横軸に割り当て、新たな座標平面を表示させることもできる。
【0042】
図9は、座標軸指定画面の一例を示す図である。図9に示すように、座標軸指定画面90には、上記したステップS202で設定された素性のすべてまたは上記したステップS103において選択された素性が選択可能なセレクトボックス91および93が、それぞれ横軸と縦軸に割り当てられており、選択リストの表示は、それぞれリスト表示ボタン92および94の押下によって可能である。そして、ユーザによって「終了」ボタン96が押下されると、現在セレクトボックス91および93に表示されている素性の関連度をそれぞれ座標軸にした座標平面が新たに生成され、表示装置22上に表示される(ステップS106:YES)。なお、「キャンセル」ボタン95を押下することにより、座標軸指定処理を取り消すことができる。
【0043】
このように、ユーザは、文書群について、自分の関心のある単語(素性)に対する関連度を視覚的に確認することができる。換言すれば、ユーザは、文書の内容の傾向を直感的に把握することができる。
【0044】
つぎに、ユーザは、座標軸の指定を必要としない場合には(ステップS106:NO)、最も関心のある座標平面を表示させた状態で(ステップS107)、その座標表面上の座標点、すなわち文書データを選択する(ステップS108)。図10および図11は、文書データの選択処理例を示す図である。文書データの選択方法の一つとして、図10に示す座標平面表示画面100のように、入力装置21を用いて、カーソル101を関心のある座標点(文書データ)上に移動させ、その状態において、入力装置21(例えば、ここではマウス)上のボタンをシングルクリックする。これによって、カーソルの下に位置する座標点の色または形状が変化する。ユーザは、この操作を繰り返すことにより、座標平面表示画面100上の任意の座標点を複数個選択することができる。
【0045】
また、文書データの他の選択方法として、図11に示す座標平面表示画面110のように、入力装置21(例えば、ここではマウス)を用いたドラッグ&ドロップ操作によって、関心のある座標点(文書データ)群を囲む。この操作によって、カーソル111で形成された矩形112内に位置するすべての座標点の色または形状が変化する。これにより、ユーザは、座標平面表示画面110上の任意の座標点群を複数個選択することができる。
【0046】
このように、一部の座標点の色または形状が変化した状態、すなわち文書データが選択された状態において、ユーザによって上記した「絞込み」ボタン73が押下されると(ステップS109:YES)、情報検索装置10は、選択された文書のみを検索対象文書に設定し(ステップS111)、再度、上記したステップS101から始まる処理を実行する。すなわち、選択された文書データのみに対し、再度、ベクトル化、関連度の算出、素性の選択および座標平面の表示を行う。
【0047】
図12は、選択された文書に対して算出された関連度の例を示す図である。特に、図12は、上記ステップS108において文書D、文書H、文書Jおよび文書Mが選択された場合の例を示している。なお、図12に示すように、選択対象となる文書の数およびその内容の幅も、当初の検索対象文書群とは異なるため、素性の構成が変わり、その個数も少なくなっている。
【0048】
図13は、選択された文書に対して生成された座標平面の例を示す図である。特に、図13に示す座標平面表示画面130は、上記したステップS103において新たに選択された素性「太陽電池」と「液晶」をそれぞれ座標軸とした最も表示優先度の高い座標平面を示している。
【0049】
このように、ユーザは、文書の内容の傾向を座標平面によって把握しつつ、より関心のある文書への絞込みを実現することができる。そして、絞込みの要求をこれ以上または最初から全く必要としない場合(ステップS109:NO)には、ユーザは、表示された座標平面上において、より関心のある座標点(文書データ)上にカーソルを移動させ、入力装置21(例えば、ここではマウス)上のボタンをダブルクリックする。この操作によって、該当する文書データの内容が表示され、ユーザはその文書データに、欲していた情報が含まれているのかどうかを確認することができる(ステップS110)。なお、この文書内容確認操作は、上記したステップS105以降の座標平面が表示された状態においていつでも可能である。
【0050】
また、上述した座標平面の表示とともに、同座標平面上に配置された各文書データの情報を、別画面または別ウィンドウにおいて表形式で表示させることもできる。図14は、文書データを表形式に表示した文書リストの例を示す図である。図14に示す文書リスト表示画面140に示すように、文書リスト141中には、各軸の関連度、文書名(ファイル名)、文書のタイトル、概要などを含ませるのが好ましい。また、各文書に対してID番号142を割り当て、そのID番号142の表示部分を、例えば入力装置21(例えば、ここではマウス)を用いてダブルクリックすることにより、上記ステップS110と同様に、文書データの実際の内容を表示させることもできる。
【0051】
さらに、上述した説明では、ステップS103に示したように、情報検索装置10は、ユーザが選択した素性に基づいて座標平面の生成を行なったが、ユーザの選択によらずに、あらかじめ所定の関連度の範囲を設定しておき、その関連度の範囲内に所定個数以上の文書データが含まれるような素性のみを自動的に抽出し、その素性を座標軸とした座標平面を生成するようにすることもできる。
【0052】
以上に説明したとおり、実施の形態1にかかる情報検索システムおよび情報検索プログラムによれば、文書データ群の内容の傾向を視覚的に確認しながら文書データの絞込みが可能であるので、ユーザは、検索語や複雑な検索式を記述せずに検索イメージに合致した文書をインタラクティブに絞り込むことができ、初心者にも使いやすく、さらには作業時間の短縮および情報の効率的活用が可能となる。また、逆に、素性が提示されることによって、新しい検索語を発見することも可能になる。さらに、様々な素性を座標軸とした複数の座標平面を表示することができるので、ユーザは、さまざまな視点から文書の関連性を概観することができ、データの類別も可能となる。
【0053】
(実施の形態2)
つぎに、実施の形態2にかかる情報検索システムおよび情報検索プログラムについて説明する。実施の形態2は、実施の形態1において示した座標平面の表示形態の他の例を説明するものである。
【0054】
実施の形態2における座標平面の第一の表示形態例は、座標平面間を順次確認する過程において、他の座標平面上で選択した文書データが、現在表示されている座標平面上のどの座標点に該当するかを確認できるように、その該当する座標点の色や形状を変化させることを特徴とするものである。図15は、この第一の表示形態例を説明するための座標平面表示画面の図である。まず、図15に示すように、1番目の優先度の座標平面表示画面150(以下、平面1と称する。)において、ユーザによって選択履歴表示のチェックボックス151がチェックされると、同画面内で、図2のステップS108の手順に従って選択された座標点(文書データ)は、平面1で選択されたことを示す色または形状に変化する。その後、例えば、7番目の優先度の座標平面表示画面152(以下、平面7と称する。)を表示させると、その平面7上に配置された座標点のうち、上記した平面1上で選択された文書データに相当する座標点は、平面1で選択されたことを示す色または形状で表示される。
【0055】
これにより、ユーザは、他の座標平面上でより関心のある文書データが、現在表示されている座標平面上においてどのような分布をとるのかを把握することができる。特に、上記した手順を、順次表示される各座標平面上において文書データの選択を行なうことにより、ユーザの関心のある素性を含む文書の傾向を段階的に明らかにすることができる。
【0056】
つぎに、実施の形態2における座標平面の第二の表示形態例は、上記した第一の表示形態例に従って表示された座標平面において、他の座標平面で選択された文書データに該当する座標点のみを表示したり、その座標点以外を表示するなどの文書データの分布の確認を視覚的に容易に行なえることを特徴とするものである。
【0057】
図16〜図19は、この第二の表示形態例を説明するための座標平面表示画面の図である。まず、上記した第一の表示形態例に従って、図16に示すように、11番目の優先度の座標平面表示画面160(以下、平面11と称する。)が表示された状態を考える。特に、この平面11では、平面1と平面7においてそれぞれユーザの関心のある座標点がいくつか選択されており、平面1で選択された文書データに相当する座標点がドットハッチングで表され、平面7で選択された文書データに相当する座標点が黒丸で表されている。
【0058】
さらに、平面11は、ビュー設定領域161を有しており、ビュー設定領域161内には、平面11において過去に一度も選択されていない文書データの座標点のみを表示するためのチェックボックスと、平面1のみにおいて選択された文書データの座標点を表示するためのチェックボックスと、平面7のみにおいて選択された文書データの座標点を表示するためのチェックボックスと、平面1かつ平面7において選択された文書データの座標点を表示するためのチェックボックス(図中、平面1&7で表現されている。)とが配置されている。
【0059】
平面11が初めて表示された状態にあっては、それらチェックボックス162はすべてチェックされた状態であり、平面11にはすべての文書データに相当する座標点が配置されている。この状態において、ユーザによって、平面11のチェックボックスと平面1&7のチェックボックスの各チェックが外されると、図16の下段に示す座標平面表示画面163のように、その座標平面上には、平面11において過去に一度も選択されていない文書データの座標点と、平面7のみにおいて選択された文書データの座標点とが非表示になる。すなわち、ユーザは、平面11の座標平面上において、平面1で選択された文書データの座標点の分布を確認することができる。
【0060】
また、ユーザによって、平面11のチェックボックスと平面1のチェックボックスの各チェックのみが外されると、図17の下段に示す座標平面表示画面170のように、その座標平面上には、平面11において過去に一度も選択されていない文書データの座標点と、平面1のみにおいて選択された文書データの座標点とが非表示になる。すなわち、ユーザは、平面11の座標平面上において、平面7で選択された文書データの座標点の分布を確認することができる。
【0061】
また、ユーザによって、平面11のチェックボックスのチェックのみが外されると、図18の下段に示す座標平面表示画面180のように、その座標平面上には、平面11において過去に一度も選択されていない文書データの座標点が非表示になる。すなわち、ユーザは、平面11の座標平面上において、平面1または平面7で選択された文書データの座標点の分布を確認することができる。
【0062】
また、ユーザによって、平面1&7のチェックボックスのチェックのみが外されると、図19の下段に示す座標平面表示画面190のように、その座標平面上には、平面1かつ平面7において選択された文書データの座標点が非表示になる。すなわち、ユーザは、平面11の座標平面上において、平面1かつ平面7で選択された文書データの座標点の分布を確認することができる。
【0063】
これにより、ユーザは、他の座標平面上でより関心のある文書データが、現在表示されている座標平面上においてどのような分布をとるのかが視認しやすくなり、より直感的に素性ごとの文書データの内容の傾向を把握することができる。
【0064】
以上に説明したとおり、実施の形態2にかかる情報検索システムおよび情報検索プログラムによれば、現在表示されている座標平面において、他の座標平面で関心を示した文書データに相当する座標点の分布を視覚的に確認することができるので、文書群の内容の全体的な傾向を直感的に把握することが可能になる。
【0065】
【発明の効果】
以上に説明したように、本発明にかかる情報検索装置および情報検索プログラムによれば、単語やキーワードに基づいた複数種の間連度で各文書を表し、その関連度を座標軸とした座標平面が、各文書を表す座標点とともに表示されるので、ユーザに対して文書内容の傾向を視覚的に与えることができるとともに、検索語や検索式の入力が要求されることがなくなり、初心者でも迅速に所望の内容の文書を取得することができるという効果を奏する。
【0066】
また、本発明にかかる情報検索装置および情報検索プログラムによれば、座標平面上の座標点、すなわち文書を選択して再度、その文書に対する座標平面を表示するので、検索語や検索式の入力を必要とせずに視覚的にユーザの関心のある文書へと絞り込むことができ、文書内容の傾向の把握とともに、文書の検索を迅速にかつ簡単に行なうことができるという効果を奏する。
【図面の簡単な説明】
【図1】実施の形態1にかかる情報検索システムの概略構成を示すブロック図である。
【図2】実施の形態1にかかる情報検索システムの動作を説明するためのフローチャートである。
【図3】ベクトル化処理を説明するためのフローチャートである。
【図4】ベクトル化処理を説明するための補足図である。
【図5】実施の形態1にかかる情報検索システムでの関連度の算出を説明するための説明図である。
【図6】実施の形態1にかかる情報検索システムでの素性選択画面の一例を示す図である。
【図7】実施の形態1にかかる情報検索システムにおいて、最も優先度が高い座標平面の例を示した図である。
【図8】実施の形態1にかかる情報検索システムにおいて、15番目に優先度が高い座標平面の例を示した図である。
【図9】実施の形態1にかかる情報検索システムでの座標軸指定画面の一例を示す図である。
【図10】実施の形態1にかかる情報検索システムでの文書データの選択処理例を示す図である。
【図11】実施の形態1にかかる情報検索システムでの文書データの選択処理の他の例を示す図である。
【図12】実施の形態1にかかる情報検索システムにおいて、選択された文書に対して算出された関連度の例を示す図である。
【図13】実施の形態1にかかる情報検索システムにおいて、選択された文書に対して生成された座標平面の例を示す図である。
【図14】実施の形態1にかかる情報検索システムにおいて、文書データを表形式に表示した文書リストの例を示す図である。
【図15】実施の形態2にかかる情報検索システムでの第一の表示形態例を説明するための座標平面表示画面の図である。
【図16】実施の形態2にかかる情報検索システムでの第二の表示形態例を説明するための座標平面表示画面の図である。
【図17】実施の形態2にかかる情報検索システムでの第二の表示形態例を説明するための座標平面表示画面の図である。
【図18】実施の形態2にかかる情報検索システムでの第二の表示形態例を説明するための座標平面表示画面の図である。
【図19】実施の形態2にかかる情報検索システムでの第二の表示形態例を説明するための座標平面表示画面の図である。
【符号の説明】
10 情報検索装置
11 検索対象文書群取得部
12 文書ベクトル化部
13 関連度算出部
14 座標表面生成部
21 入力装置
22 表示装置
30 通信網
31 端末装置
Claims (4)
- 文書群から所望の文書を検索する情報検索装置と、前記情報検索装置に通信網を介して接続された端末装置または前記情報検索装置に接続された表示装置および入力装置と、を具備した情報検索システムにおいて、
前記情報検索装置は、前記文書群に含まれる単語または前記文書群の各文書に設定されたキーワードに基づいて、各文書を複数種の関連度で表し、ユーザの指示に従って該複数種のうちの任意の2つの種類の関連度を座標軸にするとともに各文書を座標点で表した座標平面を生成し、
前記端末装置または前記入力装置は、ユーザから前記指示を受け取り、受け取った指示を前記情報検索装置に伝え、
前記端末装置または前記表示装置は、前記座標平面を表示することを特徴とする情報検索システム。 - 前記入力装置は、前記座標平面上の座標点の少なくとも一つを選択し、
前記情報検索装置は、前記入力装置によって選択された座標点に相当する文書について新たに前記座標平面を生成することを特徴とする請求項1に記載の情報検索システム。 - 文書群から所望の文書を検索する情報検索プログラムにおいて、
前記文書群に含まれる単語または前記文書群の各文書に設定されたキーワードに基づいて、各文書を複数種の関連度で表す関連度算出手順と、
ユーザの指示に従って前記複数種のうちの任意の2つの種類の関連度を座標軸にするとともに各文書を座標点で表した座標平面を生成する座標平面生成手順と、
前記座標平面を表示する座標平面表示手順と、
をコンピュータに実行させることを特徴とする情報検索プログラム。 - 前記座標平面上の座標点の少なくとも一つを選択する座標点選択手順と、
前記座標点選択手順によって選択された座標点に相当する文書について再度、前記関連度算出手順、前記座標平面生成手順および前記座標平面表示手順を実行させる絞込み手順と、
をコンピュータに実行させることを特徴とする請求項3に記載の情報検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002297547A JP2004133684A (ja) | 2002-10-10 | 2002-10-10 | 情報検索システムおよび情報検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002297547A JP2004133684A (ja) | 2002-10-10 | 2002-10-10 | 情報検索システムおよび情報検索プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004133684A true JP2004133684A (ja) | 2004-04-30 |
Family
ID=32287222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002297547A Pending JP2004133684A (ja) | 2002-10-10 | 2002-10-10 | 情報検索システムおよび情報検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004133684A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011028483A (ja) * | 2009-07-24 | 2011-02-10 | Mitsubishi Electric Corp | 多次元データ選択装置及び多次元データ選択方法及び多次元データ選択プログラム |
JP2012103841A (ja) * | 2010-11-09 | 2012-05-31 | Hitachi Systems Ltd | データ分析の分析軸推薦方法、システム、及びプログラム |
JP2012238153A (ja) * | 2011-05-11 | 2012-12-06 | Hitachi Systems Ltd | データ整形システム、方法、及びプログラム |
JP2014010820A (ja) * | 2012-07-03 | 2014-01-20 | Pioneer Electronic Corp | 文書評価整理システム及び方法、コンピュータプログラム並びに記録媒体 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01189721A (ja) * | 1988-01-25 | 1989-07-28 | Nec Corp | 電子化文書検索装置 |
JPH07244668A (ja) * | 1994-03-04 | 1995-09-19 | Hitachi Ltd | データ解析システム |
JPH08227297A (ja) * | 1994-12-21 | 1996-09-03 | Fujitsu Ltd | サウンド・データのマッピング方法及び表示装置 |
JPH0969107A (ja) * | 1995-06-20 | 1997-03-11 | Casio Comput Co Ltd | レコード検索方法、抽出方法及びレコード抽出装置 |
JP2000076294A (ja) * | 1998-09-02 | 2000-03-14 | Ntt Data Corp | データ検索方法及び装置、記録媒体 |
JP2001022621A (ja) * | 1999-07-08 | 2001-01-26 | Hitachi Ltd | 多次元データベース管理システム |
JP2001075990A (ja) * | 1999-09-06 | 2001-03-23 | Sharp Corp | デ−タ検索装置 |
JP2001134586A (ja) * | 1999-11-04 | 2001-05-18 | Avix Inc | コンピュータによるデータベース検索処理方法とシステム |
JP2002163275A (ja) * | 2000-11-29 | 2002-06-07 | Matsushita Electric Ind Co Ltd | 技術文書検索装置 |
-
2002
- 2002-10-10 JP JP2002297547A patent/JP2004133684A/ja active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01189721A (ja) * | 1988-01-25 | 1989-07-28 | Nec Corp | 電子化文書検索装置 |
JPH07244668A (ja) * | 1994-03-04 | 1995-09-19 | Hitachi Ltd | データ解析システム |
JPH08227297A (ja) * | 1994-12-21 | 1996-09-03 | Fujitsu Ltd | サウンド・データのマッピング方法及び表示装置 |
JPH0969107A (ja) * | 1995-06-20 | 1997-03-11 | Casio Comput Co Ltd | レコード検索方法、抽出方法及びレコード抽出装置 |
JP2000076294A (ja) * | 1998-09-02 | 2000-03-14 | Ntt Data Corp | データ検索方法及び装置、記録媒体 |
JP2001022621A (ja) * | 1999-07-08 | 2001-01-26 | Hitachi Ltd | 多次元データベース管理システム |
JP2001075990A (ja) * | 1999-09-06 | 2001-03-23 | Sharp Corp | デ−タ検索装置 |
JP2001134586A (ja) * | 1999-11-04 | 2001-05-18 | Avix Inc | コンピュータによるデータベース検索処理方法とシステム |
JP2002163275A (ja) * | 2000-11-29 | 2002-06-07 | Matsushita Electric Ind Co Ltd | 技術文書検索装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011028483A (ja) * | 2009-07-24 | 2011-02-10 | Mitsubishi Electric Corp | 多次元データ選択装置及び多次元データ選択方法及び多次元データ選択プログラム |
JP2012103841A (ja) * | 2010-11-09 | 2012-05-31 | Hitachi Systems Ltd | データ分析の分析軸推薦方法、システム、及びプログラム |
JP2012238153A (ja) * | 2011-05-11 | 2012-12-06 | Hitachi Systems Ltd | データ整形システム、方法、及びプログラム |
JP2014010820A (ja) * | 2012-07-03 | 2014-01-20 | Pioneer Electronic Corp | 文書評価整理システム及び方法、コンピュータプログラム並びに記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11100124B2 (en) | Systems and methods for similarity and context measures for trademark and service mark analysis and repository searches | |
US10896212B2 (en) | System and methods for automating trademark and service mark searches | |
US6772148B2 (en) | Classification of information sources using graphic structures | |
EP2368200B1 (en) | Interactively ranking image search results using color layout relevance | |
US20090070321A1 (en) | User search interface | |
JP4746439B2 (ja) | 文書検索サーバおよび文書検索方法 | |
US20060106793A1 (en) | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation | |
US5761666A (en) | Document retrieval system | |
US20040230570A1 (en) | Search processing method and apparatus | |
EP2227761A1 (en) | Search query transformation using direct manipulation | |
JPH10240771A (ja) | 意味及び認識に基づく画像検索方法及び意味及び認識に基づく画像検索装置 | |
JP2005352888A (ja) | 表記揺れ対応辞書作成システム | |
JPH0991314A (ja) | 情報探索装置 | |
JP2011248596A (ja) | 画像入り文書の検索システム及び検索方法 | |
KR20220123187A (ko) | 다중 시스템 기반 지능형 질의 응답 방법, 장치와 기기 | |
JP2004341753A (ja) | 検索支援装置、検索支援方法、およびプログラム | |
JP2000148748A (ja) | 仮名漢字変換及び画像検索表示システム | |
WO2003032199A2 (en) | Classification of information sources using graph structures | |
US8584007B2 (en) | Information processing method, information processing apparatus, and program | |
JP3385297B2 (ja) | 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム | |
CN114048308A (zh) | 一种类案检索报告生成的方法及装置 | |
JP2002189721A (ja) | Webページ検索システム及び翻訳システム | |
KR100512275B1 (ko) | 멀티미디어 객체의 특징 기술정보 생성방법 | |
JP2004133684A (ja) | 情報検索システムおよび情報検索プログラム | |
CN108932247A (zh) | 一种优化文本搜索的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050524 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20051206 |