JP2006127523A - 文書情報表示システム - Google Patents

文書情報表示システム Download PDF

Info

Publication number
JP2006127523A
JP2006127523A JP2005312942A JP2005312942A JP2006127523A JP 2006127523 A JP2006127523 A JP 2006127523A JP 2005312942 A JP2005312942 A JP 2005312942A JP 2005312942 A JP2005312942 A JP 2005312942A JP 2006127523 A JP2006127523 A JP 2006127523A
Authority
JP
Japan
Prior art keywords
document
axis
display system
unit
information display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005312942A
Other languages
English (en)
Inventor
Osamu Konichi
修 今一
Tetsuo Nishikawa
哲夫 西川
Toru Hisamitsu
徹 久光
Makoto Iwayama
真 岩山
Masakazu Fujio
正和 藤尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2005312942A priority Critical patent/JP2006127523A/ja
Publication of JP2006127523A publication Critical patent/JP2006127523A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】従来の文書検索システムにおいては、文書を分類した結果をフォルダ表示した時、一度に一つのフォルダ内容しか表示できず、複数文書間の関係を表示することができなかった。そこで、複数文書の内容を一覧性を損なうことなく可視化できるようにする。
【解決手段】文書データベースから取り出された2つの文書ユニットの集合に対し、それぞれの集合から単語を抽出し、これを基に、文書集合間の関連度を計算する。そして、上記の文書集合の関係を、二つの軸に各文書集合の要素を配置した二次元座標軸上に、文書間の関連度の強さをプロットすることでグラフ表示する。このとき、二次元座標軸上の範囲を指定することができる。文書データベースが時系列情報を持っている場合、座標軸の一つは時系列情報となる。
【選択図】図9

Description

本発明は、複数の文書の内容を概観表示する文書情報表示システムに関する。
コンピュータやインターネットの普及に伴い、文書情報の電子化が急速に進んでいる。入手可能な文書情報が増加するにつれ、その中から必要な情報を探し出すことが重要な課題となってくる。情報検索技術はこのような課題を解決するための技術であり、最近では、情報検索技術を応用した検索エンジン(サーチエンジンともいう)を利用して必要とする情報を検索することが一般的に行なわれている。
インターネット上で利用可能な代表的な検索エンジンである Google(http://www.google.com)やgoo(http://www.goo.ne.jp)では、利用者が検索要求を入力すると、それに関連するウェブページがインターネット上から検索され、結果が関連度順にリスト形式で表示される。利用者はそこから自分に必要な情報を入手するわけであるが、検索結果の中には利用者の検索要求とは無関係なものが含まれることがある。しかし、検索結果が単なるリスト形式で表示されているだけでは、検索結果の内容を個々に判断しながら取捨選択する必要があり面倒である。したがって、検索結果として得られた文書集合がどのようなものであるかを利用者が容易に判断できる仕組みが必要となってくる。
これに対する一つのアプローチとして、クラスタリング技術を利用して検索結果を分類表示する技術がある。ここで、クラスタリングとは、文書集合を類似度に応じてグループ分けすることであり、その手法は階層型クラスタリングと非階層型クラスタリングに分けられる。階層型クラスタリングの結果は木構造となり、非階層型クラスタリングの結果は単にグループ分けされただけの平坦な構造となる。クラスタリングの手法としては、例えば、特開平9−62693号公報「確率モデルによる文書分類方法」に記載されている方法を用いることができる。Lycosサーチ(http://www.lycos.co.jp)が採用しているWiseNutサーチ(http://www.wisenut.com)では、検索結果のウェブページを分類し、類似したウェブページをフォルダにまとめて表示している。一方、Vivisimo(http://www.vivisimo.com)では、階層型クラスタリング技術を利用することで、検索結果を木構造状に分類して表示している。どちらの技術も検索結果を単にリスト形式で羅列するのではなく、検索結果をその内容に応じて分類することで利用者の情報アクセスに対する利便性の向上をはかっている。
特開平9−62693号公報 http://www.google.com http://www.goo.ne.jp http://www.lycos.co.jp http://www.wisenut.com http://www.vivisimo.com
しかし、分類結果をフォルダ表示すると、一度に一つのフォルダの内容しか参照できないため、文書集合全体に対する一覧性が欠如する。また、木構造状に表示する場合でも、個々の木のノードを展開して順に参照していく必要があるため、フォルダ表示の場合と同様に一覧性が欠如してしまう。
本発明は、上記現状を鑑み、一覧性を損なうことなく文書集合全体の特徴を可視化することのできる文書情報表示システムを提供することを目的とする。
本発明では、文書集合の特徴を2次元座標上に表示することによって文書集合全体の特徴を一目で概観できるようにする。
すなわち、複数の文書に関する情報を画面表示する本発明の文書情報表示システムは、一方の軸に要素として文書又は文を配置し、他方の軸に要素として文書の集合、文書、文又は単語を配置した2次元座標を表示し、該2次元座標上の各座標点に、対応する一方の軸の要素と他方の軸の要素の関連度を表示することを特徴とする。この文書情報表示システムは、データベース検索によって得られた複数の文書の特徴を概観するのに利用することができる。
2つの軸の要素間の関連度は、2次元座標の座標点に、関連度の強さに応じた明度又は彩度を有する色あるいは関連度の強さに応じたサイズを有する図形を表示することによって示すことができる。一方の軸の要素及び/又は他方の軸の要素の並び順を、要素の類似度を反映したものにすると、類似した要素同士が隣接して表示されるため、要素間の関連をより明確に捉えることが出来る。
複数の文書に関する情報を画面表示する本発明の文書情報表示方法は、文書の集合又は文書中の文の集合からなる第1の集合の各要素と、文書集合の集合、文書の集合、文の集合又は単語の集合からなる第2の集合の各要素の間の関連度を計算するステップと、一方の軸に第1の集合の要素を配置し、他方の軸に第2の集合の要素を配置した2次元座標上の各座標点に、対応する一方の軸の要素と他方の軸の要素の関連度を表示するステップとを含むことを特徴とする。
典型的には、第1の集合は文書の集合、第2の集合は単語の集合であり、文書の集合から単語の集合を抽出するステップを有する。また、一方の軸の要素の類似度及び/又は他方の軸の要素の類似度を計算するステップと、一方の軸の要素及び/又は他方の軸の要素を類似度に応じて並べ替えるステップとを更に有することも出来る。
本発明による文書検索方法は、文書データベースの検索要求を受信するステップと、検索要求に応じて前記文書データベースを検索し、複数の文書情報を取得するステップと、検索によって得られた複数の文書から複数の単語を抽出するステップと、各文書と各単語の間の関連度を計算するステップと、複数の文書、複数の単語、及び各文書と各単語の間の関連度に関する情報を送信するステップとを含むことを特徴とする。この文書検索方法は、複数の文書の間の類似度及び/又は前記複数の単語の間の類似度を計算するステップと、計算した複数の文書の間の類似度及び/又は複数の単語の間の類似度を送信するステップとを更に有していてもよい。
本発明によると、2次元座標上に表示された文書ユニット間の関連を見ることで、一覧性を失うことなく文書内容の概観を得ることができる。
本発明の代表的な態様には、以下のものがある。
(1)文書集合が一つある場合、一方の軸に文書集合、もう一方の軸にその文書集合に含まれる単語集合をとり、単語iと文書jの関連度をその強さに応じた表示状態で座標(i,j)に表示するようにする。文書と単語の関係を2次元座標上に表示することで、ある文書にどのような単語が含まれているのか、ある単語がどのような文書に含まれているのかなど、文書集合の特徴を一見して把握できるようになる。
(2)2つの文書集合(文書集合A、文書集合Bとする)がある場合、一方の軸に文書集合A、もう一方の軸に文書集合Bをとり、文書集合Aの文書iと文書集合Bの文書jの関連度をその強さに応じた表示状態で座標(i,j)に表示する。文書間の関係を2次元座標上に表示することで、文書集合全体としての関係、個々の文書間の関係など、文書集合の特徴を一見して把握できるようになる。
文書集合Aと文書集合Bが同一の文書集合の場合に、この表示をすると、一つの文書集合内における文書間の関係を容易に把握できる。但し、その場合、縦軸と横軸に同一の文書がきたときの関連度は情報としての意味がないため、表示しないようにする。
(3)前記(1)(2)において、縦軸方向、横軸方向のどちらか一方、あるいは両方について、クラスタリングして並べ替えを行った結果を2次元座標上に表示すると、クラスタリングを行った軸方向に関して、関連度の高い文書、あるいは単語が近くにまとまって配置される。その結果、縦軸と横軸の要素間の関連度が、クラスタリングを行わない場合に比べて、より明確に2次元座標上に可視化されるようになり、文書集合の特徴の把握が更に容易に行えるようになる。
(4)前記(1)(2)(3)において、縦軸方向、横軸方向の要素数が多い場合、座標軸上にそれぞれの要素名(単語、記事のタイトルなど)を表示せず、2次元座標上の任意の領域を範囲指定したとき、その部分を拡大表示するようにする。全体表示画面で全体の様子を把握し、注目する領域を拡大表示すると縦軸、横軸、それぞれの要素名を知ることができる。
(5)2つの文集合(文集合A、文集合Bとする)がある場合、一方の軸に文集合A、もう一方の軸に文集合Bをとり、文集合Aの要素iと文集合Bの要素jの関連度をその強さに応じた表示状態で座標(i,j)に表示するようにする。文集合A,Bが一つの文書に含まれる場合(例えば、論文の概要とその本文、特許の請求項とその実施例など)、文書内における文集合の対応関係を2次元座標上に表示することで、文書の内部構造を把握することができる。文集合A,Bが別の文書の場合、2つの文書内における文集合の対応関係を2次元座標上に表示することで、2つの文書間のどの部分が関連しているかなど、文書の内部構造を分析しながら文集合A,Bを比較検討することができる。
(6)前記(5)の2次元座標表示を画面上部、画面下部に文集合A,Bを表示する。2次元座標上の任意の領域を範囲指定すると、その範囲に対応する文集合A,Bの該当範囲が識別表示されるようにする。また、表示されている文集合のうち、どちらか一方の文集合中の文を範囲選択すると、それに対応する2次元座標上の領域が識別表示され、更に、もう一方の文集合中において、選択された文集合に関連する文に該当する部分が識別表示されるようにする。これにより、各文集合間の関連を視覚的に捉えることができ、文書内容の概観把握、比較、分析を容易に行うことができる。
以下、図面を参照して本発明の実施の形態を説明する。
図1は、本発明を実現するためのシステムの構成例を示す概略図である。このシステムはクライアント20、サーバ30、文書データベース40,50から構成され、クライアント20とサーバ30は通信ネットワーク10で接続されている。図に示した例では、2つの文書データベースがサーバ30に接続されているが、サーバに接続される文書データベースの数は任意でよい。クライアントの数も任意である。
クライアント20は、表示部201、検索要求入力部202、文書データベース選択部203を備える。サーバ30は関連度計算部301、クラスタリング部302、単語抽出部303、検索部304を備える。上記のうち、最低限、2次元座標を表示する表示部201と文書ユニット間の関連度を計算する関連度計算部301とが本発明の実施には必要である。文書ユニットとは、単語、単語の集合、文、文の集合、文書、文書の集合のいずれかであり、2次元座標の縦軸あるいは横軸に配列される要素となるものである。
サーバ30の備える関連度計算部301は、入力として文書データベースから取り出した2つの文書ユニットの集合を受け取る。2つの文書ユニット集合は異なる文書データベースから取り出しても良いし、同じ文書データベースから取り出しても良い。以下の説明では、文書データベースから取り出した2つの文書ユニットの集合を、それぞれ文書ユニットAi(i=1〜M)、文書ユニットBj(j=1〜N)として説明を行う。
サーバ30の関連度計算部301は、文書ユニットAiと文書ユニットBjの間の関連度を計算する。関連度の計算方法は任意でよい。例えば、文書ユニットAi(i=1〜M)が単語、文書ユニットBj(j=1〜N)が文書の場合、公知技術である tf*idf法で単語と文書の間の関連度を計算できる。ここでtf*idf法とは、ある文書d中に出現する単語tの頻度(term frequency)であるtf(t,d)と、ある単語tが全文書中でどれくらいの文書に出現するかを表わすIDF(inverse document frequency)と呼ばれる尺度
Figure 2006127523
との積であるtf(t,d)×idf(t)を重みとする方法である。ここでTは全文書数、df(t)は単語tが出現する文書数である。また、tf*idf法を改良したSMART尺度(Singhal, A., Duckley, C. and Mitra, M., "Pivoted Document Length Normalization", in Proceedings of SIGIR'96, pp.21-29, 1996)を用いることもできる。
また、文書ユニットAi(i=1〜M)と文書ユニットBj(j=1〜N)がともに文書の場合、各文書に含まれる単語を用いて文書をベクトル表現し、公知技術であるベクトル空間法を用いて文書間の関連度を計算できる。ベクトル空間法については、文献"Automatic Text Processing"(Salton, G., ADDISON-WESLEY PUBLISHING COMPANY)の10章に詳しい。
関連度の計算結果は行列形式のデータ構造として表現され、クライアント20に送られる。図2はそのデータ構造の例であり、文書ユニットAiと文書ユニットBj間の関連度がxijとして表現されている。
クライアント20の表示部201は、関連度計算部301から受け取ったデータを利用して、文書ユニット間の関係を2次元座標上に表示する。どちらをどの軸にとるかは任意でよいが、ここでは説明のために、文書ユニットAを縦軸、文書ユニットBを横軸にとる。文書ユニットAの要素がM個、文書ユニットBの要素がN個あるとする。文書ユニットAのj番目の要素と文書ユニットBのi番目の要素の関連度の強さを座標(i,j)に表示する。ここで、関連度の強さは、あるオブジェクト(円や四角など)の大きさ、色の明度、彩度の差異などで表現すればよい。関連度の値を連続的に表示することもできるが、値をある範囲に区切って離散化し、段階的に関連度の強さを表示する方が見やすく便利である。図3は、関連度の強さを3段階の円の大きさで表現した例を示している。
このような可視化を行うことで、文書ユニット間の関連を視覚的に把握することができる。例えば、文書ユニットAが文書、文書ユニットBが単語とすると、どの文書にどの単語が含まれているのか、どの単語がどの文書に含まれているのかが、一覧性を失うことなく把握できる。
サーバ30が備えるクラスタリング部302は、関連度計算部301が出力したデータをもとに、文書ユニットA、文書ユニットBのどちらか一方、あるいは両方をクラスタリングして並べ替えを行い、その結果をクライアント20の表示部201に送る。表示部201は、受け取った結果を先述の方法で表示する。図4は、文書ユニットA、文書ユニットBの両方をクラスタリングして並べ替えた例を示す。クラスタリングした結果を2次元座標上に可視化することで、類似した文書ユニットどうしが隣接して表示されるため、クラスタリングを行わない場合と比較して、より明確に文書ユニット間の関連を捉えることができる。
ここで、クラスタリング手法について、文書集合をクラスタリングする場合を例にとって説明する。文書集合を類似度に応じてグループ分けすることをクラスタリングと呼び、その手法は階層型クラスタリングと非階層型クラスタリングに分けられる。階層型クラスタリングの結果は木構造となり、非階層型クラスタリングの結果は単にグループ分けされただけの平坦な構造となる。階層型クラスタリングの結果として得られる木構造はデンドログラムと呼ばれる。図5はデンドログラムの例である。デンドログラムにおいて、中間節点の集合を選ぶと非階層型クラスタリングのような平坦なクラスタを得ることができる。
階層型クラスタリングのアルゴリズムは基本的に以下の手順からなる。
(1)各要素だけからなるクラスタを作る。
(2)すべてのクラスタ間の距離(類似度)を計算する。
(3)最も距離の近いクラスタの組を併合する。
(4)併合によってできたクラスタと他のクラスタの距離を計算する。
(5)上記(3)(4)をクラスタが一つになるまで繰り返す。
上記(4)の手順における距離計算の方法として様々な手法があるが、一般に、単一リンク法、完全リンク法、Ward法などがよく用いられる。各手法の詳細については、例えば"Information Retrieval"(Frakes, W. and Baeza-Yates, R. eds, Prentice Hall)の16章に記述されている。
本発明で用いるクラスタリング手法は任意であるが、上記以外の方法として、ある文書があるクラスタに入る確率をモデル化することによってクラスタリングを行う特開平9−62693号公報「確率モデルによる文書分類方法」に記載されている方法を用いてもよい。
クラスタリングに必要な類似度は、関連度計算部301が出力したデータから計算できる。図2の各行をベクトルとみなすと、文書ユニットAの各要素を文書ユニットBの各要素の重みベクトルとして表現することができ、公知技術であるベクトル空間法を用いて文書ユニットAの各要素間の類似度が計算できる。同様に、図2の各列をベクトルとみなすと、文書ユニットBの各要素間の類似度が計算できる。類似度計算はすべての要素間で行う必要がある(上記、階層型クラスタリングの手順(2))。
このように計算された類似度を用いて階層型クラスタリングを行い、デンドログラムを構成することで文書ユニットの並べ替えを行うことができる。図5は、文書d1〜d10からなる文書集合をクラスタリングした例を示している。最初のクラスタ併合によって文書d1とd6、d8とd5、d10とd2、d3とd9が併合され、次にクラスタ(d1,d6)と(d8,d5)、クラスタ(d10,d2)とd7、クラスタ(d3,d9)とd4が併合され…と順にクラスタを併合し、図示するようなデンドログラムが得られている。このクラスタリングの結果、例えば横軸上にd1,d2,d3,…,d10のように並んでいた文書集合は、d1,d6,d8,…,d9のように並べ替えて配列される。
縦軸方向、横軸方向それぞれに対して、各要素間の類似度を計算し、デンドログラムを構成することで、図4のような表示が得られる。
検索結果を可視化する場合、入力としては検索結果の文書集合しか得ることができない。そのような場合の処理について、図6から図9を用いて説明する。ここでは簡単のためキーワード検索によって文書集合を得る例によって説明する。しかし、キーワード検索に限らず、連想検索(例えば、特開2000−155758号公報参照)など任意の方法で取得した文書集合に対しても本発明が適用できるのは勿論である。
図6は、クライアント20の備えるモニターの初期画面例を示す図である。モニター画面は、検索された文書集合についての情報を表示する表示部201、検索キーワードを入力する検索要求入力部202、所望のデータベースを選択するための文書データベース選択部203を備える。
図7は、クライアントからのコマンド送信とサーバからのデータ返信の処理の流れを示すシーケンス図である。いま、ユーザが検索要求入力部202に検索要求として例えばキーワード「virus」を入力し、文書データベース選択部203における文書データベース選択ボタン2031によりDB1を選択し、「search」ボタン2021を押すと、選択されたデータベースの情報とキーワードがサーバに送られる(T11)。
サーバ30では、検索部304により指定された文書データベースをキーワード検索し、その結果の文書集合を得る。次に、単語抽出部303によって、取得した文書集合から単語集合を抽出する。単語抽出の方法は任意でよいが、例えば、前述の tf*idf法などを利用して文書中の単語の重要度を計算し、重要度の高い順に抽出すればよい。得られた文書集合と単語集合を入力として関連度計算部301が単語と文書の間の関連度の計算を行い、結果をクライアントに返す(T12)。クライアント20は、先述した方法と同様にして、表示部201に、2次元座標によって単語集合と文書集合の関連を可視化する。
図8は、2次元座標による表示例を示す図である。図8の2次元座標表示部2011には、横軸に単語を配置し、縦軸に文書の表題を配置した相互の関連度が2次元表示されている。縦軸と横軸の交点に配置されている四角形のオブジェクトは、縦軸の文書と横軸の単語の関連度を表し、両者の関連度が高いほど濃い色のオブジェクトが配置される。関連度自体は連続数で表されるが、ここでは関連度をその値に応じて数段階(例えば5段階)に等級分けし、各等級に異なる明度を割り当てて表示している。オブジェクトが表示されていない交点は、縦軸の文書と横軸の単語の間に関連が無いか、関連度が表示のための閾値以下であることを示している。この2次元表示により、検索された文書全体を概観しながら各文書の内容をある程度推測することができる。しかし、高い関連度を表す濃い色の
オブジェクトが2次元座標上に分散しているため、文書間に何らかの関連があるのか等の情報は把握しにくい。
そこで、ユーザが図8の表示部201に表示されている「clustering」ボタン2012を押すと、クラスタリング実行の指示がサーバに送信される(T13)。サーバ30のクラスタリング部302では、記事方向のクラスタリングで記事が分類され、また、単語方向のクラスタリングで単語が分類され、その結果のデータがクライアント20に返される(T14)。クラスタリングを行った2次元座標データを受け、クライアントの表示部201には、クラスタリングによって縦軸及び横軸の要素の並び替えが行われた単語と文書の2次元座標が表示される。それによってユーザは、記事集合に含まれる話題を2次元座標上で視覚的に捉えることができる。
図9は、クラスタリング処理をした後の単語と文書の関連度の2次元座標表示例を示す図である。図9の例では、右下部分と左上部分に特徴的なまとまりがあり、文書集合に2つの話題(コンピュータウイルスに関する話題と生物学のウイルスに関する話題)が含まれていると推測される。更に、縦軸の単語を参照することで、記事タイトルだけでは読み取ることのできない情報を得ることができ、それぞれの話題をより深く理解できるようになる。
以下、本発明による文書ユニット間の関連度の2次元座標表示の他の例について説明する。
図10は文書ユニットAとして記事集合A、文書ユニットBとして記事集合Bとし、クラスタリング部302でクラスタリングして両方の軸について並べ替えを行った例を示す図である。2つの記事集合A,Bを得る方法は任意でよいが、例えば、2つのデータベースに対して、同じキーワードで同時に検索を行い、それぞれのデータベースから得られた検索結果を文書集合A,Bとすればよい。得られた文書集合A,Bに対し、関連度計算部301が文書集合Aの要素と文書集合Bの要素の間の関連度を計算する。その結果をクラスタリング部302でクラスタリングして両方の軸に沿って並べ替えを行うことで図10が得られる。
2つの記事集合がある場合、それらの間の関連を知ることは難しいが、図10のように可視化を行うことによって、2つの記事集合の中で、どの記事とどの記事に関連があるのかを視覚的に理解できるようになる。記事集合A,Bが同一の記事集合の場合でも記事集合内部の構造を把握するのに利用することができる。
文書ユニットAとして単語、文書ユニットBとして時間順に並んだ新聞記事とし、それらの関係を2次元座標上に可視化することもできる。図11はある新聞社から発行された新聞を一ヶ月単位で2次元座標上に可視化するためのインタフェースの初期画面の例を示した図である。文書データベース選択部203で「Newspaper A (2002/02/01-28)」を選択し、「Search」ボタン2021を押すと、横軸に新聞一ヶ月分の記事の集合を時間順にとり、縦軸にそれらの記事から抽出した単語が配置したものが表示される。その画面が図12である。時間順に並んだ新聞記事とそれらに含まれる単語を2次元座標上に可視化することで、時系列に沿った話題の推移を視覚的に見ることができる。
図13は、2次元座標の拡大表示機能を有するインタフェースの例を示す図である。2次元座標に表示する文書ユニットの数が増えると、座標軸上にそれぞれの要素名(単語、記事タイトルなど)を全て表示することができない。このような場合は、拡大表示することで、それぞれの要素名を知ることができる。
図13において、2次元座標表示部2011内に表示された2次元座標上で、高い関連度を示すオブジェクトが集中している興味のある任意の範囲を範囲指定部分21として選択すると、拡大表示部2013にその部分の2次元座標が拡大表示され、縦軸、横軸の要素名を知ることができる。範囲指定は、マウスのドラッグで矩形領域の対角線上の2点を指定することで行うことができる。
2つの文集合(文集合A、文集合Bとする)がある場合、一方の軸に文集合Aを、もう一方の軸に文集合Bをとり、文集合Aの要素iと文集合Bの要素jの関連度を座標(i,j)に表示してもよい。関連度の強さは、座標(i,j)に表示するオブジェクトの色や形状によって表現することができる。文集合A,Bが一つの文書に属する場合(例えば、論文の概要とその本文、特許公報の請求項とその実施例の説明など)、文書内における文集合の対応関係を2次元座標上に表示することで、文書の内部構造を把握することができる。文集合A,Bが別の文書の場合、2つの文書内における文集合の対応関係を2次元座標上に表示することで、2つの文書間のどの部分が関連しているかなど、文書の内部構造を分析しながら文集合A,Bを比較検討することができる。
図14は、文書ユニットの2次元座標表示と文書ユニットの内容表示を同時に行うことで文集合間を関連づける機能を有するインタフェースの例を示す図である。文書ユニットAとして特許公報の請求項(CLAIM)、文書ユニットBとして特許公報の実施例や段落(DESCRIPTION)をとり、2次元座標表示部2011内の2次元座標に表示されている。
本文表示部2014には特許公報の請求項、特許公報の実施例の本文がそれぞれ表示されている。ここで、マウスのドラッグ等によって2次元座標上の任意の範囲21を選択すると、本文表示部2014に、その範囲に対応する請求項、実施例の文が識別表示される。図14では斜体太字で識別表示してあるが、識別表示の仕方は任意でよい。
この場合、本文表示部2014に表示された特定の文を選択すると、それに対応する2次元座標上の領域が識別表示されるようにしてもよい。図15に、その例を示す。図15において、本文表示部2014に表示されているCLAIM内の任意の文22をマウス等でクリックして範囲指定すると、それに対応する2次元座標上の領域23が識別表示され、更に、実施例において、請求項で選択した文に関連する文が斜体太字等で識別表示される。実施例内の任意の文を範囲選択した場合も同様に識別表示が行なわれる。図15では2次元座標上の識別表示を矩形で囲むことによって行っているが、識別表示の仕方は任意でよい。
このインタフェースを用いることで、各文集合間の対応関係を視覚的に捉える
ことができ、内容の概観把握、比較、分析などを容易に行うことができるように
なる。
本発明を実現するためのシステムの構成例を示す概略図。 文書ユニット間の関連度を表現するデータ構造の例を示す図。 文書ユニット間の関連度を2次元座標に可視化した例を示す図。 クラスタリング処理をした表示例を示す図。 階層的クラスタリングの例を示す図。 クライアントの備えるモニターの初期画面例を示す図。 クライアントとサーバ間におけるコマンドとデータの流れを示すシーケンス図。 2次元座標による表示例を示す図。 クラスタリング処理をした後の2次元座標表示例を示す図。 2つの記事集合間の関係を2次元座標表示した例を示す図。 単語と時系列に並んだ記事の関係を2次元座標表示する場合の初期画面の例を示す図。 単語と時系列に並んだ記事の関係を2次元座標表示した例を示す図。 2次元座標の拡大表示機能を有するインタフェースの例を示す図。 2次元座標表示と文書表示を同時に行うことで文集合間を関連づける機能を有するインタフェースの例を示す図。 2次元座標表示と文書表示を同時に行うことで文集合間を関連づける機能を有するインタフェースの例を示す図。
符号の説明
10:通信ネットワーク
20:クライアント
201:表示部
2011:2次元座標表示部
2013:拡大表示部
2014:本文表示部
202:検索要求入力部
203:文書データベース選択部
2031:文書データベース選択ボタン
2032:文書データベース名表示ボックス
21、22:範囲指定部分
23:識別表示部分
30:サーバ
301:関連度計算部
302:クラスタリング部
303:単語抽出部
304:検索部
40,50:文書データベース

Claims (9)

  1. 検索要求を入力する入力部と、
    前記入力部から入力された検索要求に従って文書データベースを検索し、検索結果を出力する検索部と、
    前記検索部によって検索された文書集合から単語集合を抽出する単語抽出部と、
    第1の集合の各要素と、第2の集合の各要素の間の関連度を計算する関連度計算部と、
    表示部とを備え、
    前記関連度計算部は、前記検索によって得られた文書の集合又は文書中の文若しくは単語を第1の集合とし、前記検索によって得られた文書集合の集合、文書の集合、文の集合又は前記単語抽出部によって抽出された単語集合を第2の集合として、前記第1の集合の各要素と前記第2の集合の各要素との間での重みづけを関連度として計算し、
    前記表示部は、一方の軸に前記第1の集合の要素を配置し、他方の軸に前記第2の集合の要素を配置した2次元座標を表示し、前記2次元座標上の各座標点に、前記関連度計算部によって計算された、対応する一方の軸の要素と他方の軸の要素の前記関連度を表示することを特徴とする文書情報表示システム。
  2. 請求項1に記載の文書情報表示システムにおいて、前記一方の軸の要素は前記検索部によるデータベース検索によって得られた文書であり、前記他方の軸の要素は前記データベース検索によって得られた文書に含まれている単語であることを特徴とする文書情報表示システム。
  3. 請求項1に記載の文書情報表示システムにおいて、前記一方の軸の要素及び前記他方の軸の要素が共に文書であることを特徴とする文書情報表示システム。
  4. 請求項1に記載の文書情報表示システムにおいて、さらに、前記2次元座標上の範囲を指定させる範囲指定手段を有し、前記範囲指定手段は、指定された範囲を拡大表示することを特徴とする文書情報表示システム。
  5. 請求項1に記載の文書情報表示システムにおいて、前記文書データベースは時系列情報を有した文書データベースであり、前記一方の軸の要素は前記時系列情報であり、前記他方の軸の要素は前記文書データベースの文書中の単語であることを特徴とする文書情報表示システム。
  6. 請求項3に記載の文書情報表示システムにおいて、前記一方の軸の要素は、特許公報の請求項であり、前記他方の軸の要素は、特許公報の明細書であることを特徴とする文書情報表示システム。
  7. 請求項6に記載の文書情報表示システムにおいて、さらに、前記2次元座標上の範囲を指定させる範囲指定手段を有し、前記表示部は、前記範囲指定手段によって指定された範囲に対応した前記請求項及び前記明細書を識別表示することを特徴とする文書情報表示システム。
  8. 請求項6に記載の文書情報表示システムにおいて、前記表示部は、前記請求項及び前記明細書を表示するものであって、さらに、表示された前記請求項又は前記明細書のいずれかを選択させる手段を有し、前記表示部は、選択された前記請求項又は前記明細書に対応した前記2次元座標を識別表示することを特徴とする文書情報表示システム。
  9. 請求項1に記載の文書情報表示システムにおいて、前記一方の軸の要素及び/又は他方の軸の要素の並び順は、要素の類似度を反映したものになっていることを特徴とする文書情報表示システム。
JP2005312942A 2005-10-27 2005-10-27 文書情報表示システム Pending JP2006127523A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005312942A JP2006127523A (ja) 2005-10-27 2005-10-27 文書情報表示システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005312942A JP2006127523A (ja) 2005-10-27 2005-10-27 文書情報表示システム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002152594A Division JP4116329B2 (ja) 2002-05-27 2002-05-27 文書情報表示システム、文書情報表示方法及び文書検索方法

Publications (1)

Publication Number Publication Date
JP2006127523A true JP2006127523A (ja) 2006-05-18

Family

ID=36722138

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005312942A Pending JP2006127523A (ja) 2005-10-27 2005-10-27 文書情報表示システム

Country Status (1)

Country Link
JP (1) JP2006127523A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169926A (ja) * 2008-03-31 2009-07-30 Ricoh Co Ltd 情報検索装置、情報検索方法、制御プログラム
JP2011215909A (ja) * 2010-03-31 2011-10-27 Toshiba Corp 電子機器、検索制御方法、及び検索制御プログラム
JP2013168177A (ja) * 2013-05-07 2013-08-29 Fujitsu Ltd 情報提供プログラム、情報提供装置および検索サービスの提供方法
JP2016148927A (ja) * 2015-02-10 2016-08-18 日本電信電話株式会社 情報提示装置、方法、及びプログラム
JP2016167323A (ja) * 2016-06-23 2016-09-15 日本電信電話株式会社 情報提示装置、方法、及びプログラム
WO2022123386A1 (ja) * 2020-12-10 2022-06-16 株式会社半導体エネルギー研究所 文書検索システム及び文書検索結果の出力方法
JP7390343B2 (ja) 2021-09-10 2023-12-01 日本電子株式会社 散布図表示装置、散布図表示方法、および分析装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0736922A (ja) * 1993-07-19 1995-02-07 Sumitomo Metal Mining Co Ltd 情報の検索処理システム
JPH08320881A (ja) * 1995-05-25 1996-12-03 Tokyo Gas Co Ltd 文書検索システム
JP2000035964A (ja) * 1998-07-17 2000-02-02 Fujitsu Ltd 関連度算出装置および関連度算出プログラムを記録した記憶媒体並びに情報検索システム
JP2000155758A (ja) * 1998-11-19 2000-06-06 Hitachi Ltd 複数文書データベースを対象とした文書検索方法および文書検索サービス
JP2000235574A (ja) * 1999-02-16 2000-08-29 Ricoh Co Ltd 文書処理装置
JP2001092825A (ja) * 1999-09-17 2001-04-06 Nec Corp 情報処理装置および情報処理方法
JP2001265788A (ja) * 2000-03-23 2001-09-28 Nippon Telegr & Teleph Corp <Ntt> 文書分類方法及び装置及び文書分類プログラムを格納した記録媒体
JP2002032394A (ja) * 2000-07-18 2002-01-31 Ricoh Co Ltd 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0736922A (ja) * 1993-07-19 1995-02-07 Sumitomo Metal Mining Co Ltd 情報の検索処理システム
JPH08320881A (ja) * 1995-05-25 1996-12-03 Tokyo Gas Co Ltd 文書検索システム
JP2000035964A (ja) * 1998-07-17 2000-02-02 Fujitsu Ltd 関連度算出装置および関連度算出プログラムを記録した記憶媒体並びに情報検索システム
JP2000155758A (ja) * 1998-11-19 2000-06-06 Hitachi Ltd 複数文書データベースを対象とした文書検索方法および文書検索サービス
JP2000235574A (ja) * 1999-02-16 2000-08-29 Ricoh Co Ltd 文書処理装置
JP2001092825A (ja) * 1999-09-17 2001-04-06 Nec Corp 情報処理装置および情報処理方法
JP2001265788A (ja) * 2000-03-23 2001-09-28 Nippon Telegr & Teleph Corp <Ntt> 文書分類方法及び装置及び文書分類プログラムを格納した記録媒体
JP2002032394A (ja) * 2000-07-18 2002-01-31 Ricoh Co Ltd 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
富田準二: "主題グラフ及び関連度情報からの単語重要度付与を用いた情報検索システムの提案", 情報処理学会研究報告, vol. 第98巻第109号, JPN6008058715, 30 November 1998 (1998-11-30), JP, pages 17 - 24, ISSN: 0001187450 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169926A (ja) * 2008-03-31 2009-07-30 Ricoh Co Ltd 情報検索装置、情報検索方法、制御プログラム
JP2011215909A (ja) * 2010-03-31 2011-10-27 Toshiba Corp 電子機器、検索制御方法、及び検索制御プログラム
JP2013168177A (ja) * 2013-05-07 2013-08-29 Fujitsu Ltd 情報提供プログラム、情報提供装置および検索サービスの提供方法
JP2016148927A (ja) * 2015-02-10 2016-08-18 日本電信電話株式会社 情報提示装置、方法、及びプログラム
JP2016167323A (ja) * 2016-06-23 2016-09-15 日本電信電話株式会社 情報提示装置、方法、及びプログラム
WO2022123386A1 (ja) * 2020-12-10 2022-06-16 株式会社半導体エネルギー研究所 文書検索システム及び文書検索結果の出力方法
JP7390343B2 (ja) 2021-09-10 2023-12-01 日本電子株式会社 散布図表示装置、散布図表示方法、および分析装置

Similar Documents

Publication Publication Date Title
JP4116329B2 (ja) 文書情報表示システム、文書情報表示方法及び文書検索方法
US10997678B2 (en) Systems and methods for image searching of patent-related documents
JP3781696B2 (ja) イメージ検索方法及び検索装置
JP4382526B2 (ja) 文章分類装置および方法
US20060179051A1 (en) Methods and apparatus for steering the analyses of collections of documents
US20020091678A1 (en) Multi-query data visualization processes, data visualization apparatus, computer-readable media and computer data signals embodied in a transmission medium
Hoeber et al. The visual exploration ofweb search results using hotmap
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
JPH1074210A (ja) 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JP2006127523A (ja) 文書情報表示システム
US7743061B2 (en) Document search method with interactively employed distance graphics display
JP3577822B2 (ja) 情報提示装置及び情報提示方法
EP1154355B1 (en) Document processing method, system and computer readable storage medium
Lee et al. Viziometrix: A platform for analyzing the visual information in big scholarly data
Wei et al. DF-Miner: Domain-specific facet mining by leveraging the hyperlink structure of Wikipedia
JP2010224625A (ja) キーワード二次元可視化方法およびキーワード二次元可視化プログラム
JP2001337971A (ja) 文書分類装置、文書分類方法及び文書分類方法のプログラムを記録した記憶媒体
JP4453440B2 (ja) 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体
JP5368900B2 (ja) 情報提示装置、情報提示方法およびプログラム
JP2002324077A (ja) 文書検索装置および文書検索方法
JP2008197952A (ja) テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体
van Hoek et al. Assessing visualization techniques for the search process in digital libraries
JPH1185794A (ja) 検索語入力装置および検索語入力プログラムを記録した記録媒体
Hoeber et al. Exploring web search results using coordinated views
Meinecke et al. A visual analytics framework for composing a hierarchical classification for medieval illuminations

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090324