JP4202287B2

JP4202287B2 - 注目する情報について複数のタームを用いて記述されてなる文章テキストからなる情報オブジェクトをコンピュータで可視的に処理するためのシステム及びそのためのコンピュータソフトウエア

Info

Publication number: JP4202287B2
Application number: JP2004073614A
Authority: JP
Inventors: 公策大久保; 卓郎田村
Original assignee: BITS Co Ltd
Current assignee: BITS Co Ltd
Priority date: 2004-03-15
Filing date: 2004-03-15
Publication date: 2008-12-24
Anticipated expiration: 2024-03-15
Also published as: US20050203889A1; JP2005259088A; US7903884B2

Description

本発明は、書籍等の知識集積物に含まれる知識情報を可視化するための手法に関するものであり、さらに詳しくは、注目する情報と知識集積物との関係を可視的に処理・表示するためのシステム及びコンピュータソフトウエアプログラム製品に関する。

近年、パーソナルコンピュータの一般化による情報の電子化と、インターネットの普及による情報の流通による相乗効果により、処理しなければならない情報量が爆発的に増大している。バイオテクノロジー分野における測定技術の発明等、科学技術の発達により生み出される情報に関しても同様のことが言える。

従来、これらの情報を解釈し、有為な情報を抽出することを目的とした情報処理手段として、情報を構成する要素（情報オブジェクト）の間の関係を定量化することによる、関連情報オブジェクトの検索、情報オブジェクトの分類、情報オブジェクトの集合が持つ特徴の抽出、などが行われている。インターネット上の情報検索サービスである「ｇｏｏｇｌｅ」（ｗｗｗ．ｇｏｏｇｌｅ．ｃｏｍ）における情報検索や、バイオテクノロジー分野における遺伝子発現頻度情報のクラスタリングによる遺伝子の分類などが例としてあげられる。

一方、より古くから行われている情報解釈のための情報処理手段として、辞書を用いる方法がある。すなわち、あらかじめ、個々の情報オブジェクトに対応して用意された情報を利用する手段であり、コンピュータによる言語翻訳等がその応用例としてあげられる。

ところで、従来の情報処理方法においては、以下のような解決するべき課題がある。

すなわち、情報オブジェクト間の関係の定量化を利用する情報処理手段は、様々な分野に容易に応用可能である反面、得られる情報が曖昧である。すなわち、分析する情報を情報オブジェクトの集合と捉えて、その情報オブジェクトの集合が表す特徴等を抽出するものであるため、結果がその情報の質によって左右されてしまう。

一方、辞書を用いる方法においては、目的とする情報を確実に得ることが可能である反面、多様な目的に合った辞書を用意することが困難である。

この発明は、このような事情に鑑みてなされたものであり、本などの体系化知識集積物と注目する情報との関係を定量化し可視化して提示できるシステムを提供することを目的とする。

なお、本発明の新規性や進歩性を否定するものではないが、本発明に関連する特許文献として以下の文献１がある。
特開２００３−３３０９６６

上記目的を達成するべく、この発明の主要な側面によれば、注目する情報を処理するためのシステムであって、知識を体系化してなる構成と各構成に属する知識情報とからなる知識集積物を格納する知識集積物格納部と、ユーザから、当該ユーザが注目する情報を受け取る注目情報受取部と、前記注目する情報と、前記知識集積物の各構成に属する知識情報との関係を定量化する定量化処理部と、上記定量化処理部によって定量化された値を、前記書籍の各構成に関連付けて表示する定量化値表示処理部とを有することを特徴とするシステムが提供される。

このような構成によれば、体系的に纏められた知識集積物として、例えば書籍を利用し、"書籍の一部"（書籍要素）を情報単位として、注目する情報との関連を定量化し、書籍の構成要素、例えば目次との関係での可視化により結果を提示することができる。ここで、知識集積物が例えば書籍の場合、前記構成とは、ページ、章、段落、年表、図や表の脚注、文字数・ワード数・時間など、書籍を構成する内容の一定区間を指す。すなわち、それらの構成と注目する情報との関連性を定量化して、例えば、この値を一方の軸とし、書籍要素の書籍における位置を他方の軸としてグラフ表示することにより、著者や編集者によって書籍としてまとめられた知識の構成を、情報の解釈のために利用することが可能となる。例えば、書籍として教科書を利用した場合、注目した情報オブジェクトが、教科書として編集された「該当する学問において体系的に纏められた知識」の、どの部分と関連する情報であるかを知ることが可能になる。このことにより、情報分析結果の可視化が可能となる。

この発明の１の実施形態によれば、前記システムにおいて、前記知識集積物の各構成とこの各構成に属する情報に含まれるタームの頻度を示す頻度マトリックスを生成する頻度マトリックス生成部と、前記頻度マトリックスに基づき、前記各構成と前記タームの特異値座標系を求める特異値分解部と、をさらに有し、前記定量化処理部は、前記注目する情報に含まれるタームを、前記特異値座標系にマッピングすることで、前記注目する情報と前記知識集積物の各構成に属する知識情報との関係を定量化するものであることを特徴とするシステムが提供される。ここで、前記定量化処理部は、前記注目する情報に含まれるタームをその重要度に応じて集計する注目ターム集計部を有するものであることが好ましい。さらにこの場合、前記注目ターム集計部は、前記注目する情報が含まれる母データでの前記タームの使用頻度・要度に応じて前記タームを集計するものであることがさらに望ましい。さらに、前記定量化処理部は、前記タームを、前記特異値座標系中で前記重要度に応じた位置にマッピングするものであることが好ましい。そして、このシステムは、ターム辞書を保持する辞書保持部をさらに有し、前記頻度マトリックス生成部は、前記各構成中に属する情報中前記ターム辞書に含まれるタームのみを抽出して前記頻度マトリックスを生成するものであっても良い。

この発明の別の１の実施形態によれば、前記知識集積物は教科書等の書籍であり、前記体系化してなる構成は各ページ、節、章等の書籍の目次単位であり、前記構成に含まれる情報は前記目次単位に含まれるコンテンツである。この場合、定量化値表示処理部は、上記定量化処理部によって定量化された値を、前記書籍の目次単位のうち任意の種類の目次単位に関連付けて表示するものであることが好ましい。

この発明の更なる別の１の実施形態によれば、前記知識集積物は、Ｗｅｂサイトであり、前記体系化してなる構成は各Ｗｅｂページ、構成に含まれる知識情報は各Ｗｅｂページのコンテンツである。ここで、前記定量化値表示処理部は、上記定量化処理部によって定量化された値を、前記Ｗｅｂサイトのページに関連付けて表示するものであることが好ましい。

この発明の更なる別の１の実施形態によれば、前記知識集積物は、自然言語によるスピーチ若しくは議論であり、前記体系化してなる構成は段落や時間であり、構成に含まれる情報は当該段落や時間に属するスピーチや議論内容である。ここで、前記定量化値表示処理部は、上記定量化処理部によって定量化された値を、前記段落や時間に関連付けて表示するものであることが好ましい。

この発明の更なる別の１の実施形態によれば、さらに、注目する情報と最も関連する前記知識集積物の構成位置を検索する位置検索部を有する。また、このシステムは、さらに、注目する情報と複数知識集積物との関係を処理し、注目する情報と最も関連する知識集積物とその構成位置を検索する知識集積物・位置検索部を有する。

この発明の第２の主要な観点によれば、知識を体系化してなる構成と各構成に属する知識情報とからなる知識集積物に基づいて注目する情報を可視的に処理するためのコンピュータソフトウエア製品であって、記憶媒体と、この記憶媒体から呼び出されコンピュータ上で実行される以下の構成：ユーザから、当該ユーザが注目する情報を受け取る注目情報受取部と、前記注目する情報と、前記知識集積物の各構成に属する知識情報との関係を定量化する定量化処理部と、上記定量化処理部によって定量化された値を、前記知識集積物の各構成に関連付けて表示する定量化値表示処理部と、を有する発明が提供される。

なお、この発明の更なる別の特徴と効果は、以下の発明の実施形態の説明を参照することで、当業者にとって明らかになる。

本発明を実施する場合の一実施形態を、図面を参照して具体的に説明する。

図１は、本実施例にかかるシステムの利用形態を示す全体構成図である。

この構成例では、本発明の実施形態にかかるシステムがインストールされたサーバ１と、このサーバ１にＬＡＮやインターネット等のネットワーク２を介して接続された管理者用クライアント３及び利用者用クライアント４とが設けられている。前記サーバ１には、電子化された書籍データ、書籍要素データ、用語（ターム）辞書を読み込んで、書籍要素×タームマトリックス、統計計算の結果等などを出力する知識情報処理システム５が設けられている。前記各クライアント３、４には、ネットワーク２経由で前記サーバ１と通信し、前記処理システム５を操作するためのユーザインタフェース（Ｗｅｂブラウザ）を提供するクライアントシステム６、ユーザインターフェースを表示する表示装置７、及び管理者用ユーザインターフェースを操作するキーボード・マウス等８が設けられている。

図２は、前記知識情報処理システム５を示す詳細構成図である。

このサーバは、ＣＰＵ１０、ＲＡＭ１１、Ｉ／Ｏインタフェース１２等が接続されているバス１３に、プログラム格納部１４と、前記知識情報格納部１５とが接続されてなる。

プログラム格納部１４には、ＯＳ等のメインプログラム１７他、この発明の要旨に関係するもののみ挙げると、書籍情報読込部１８と、書籍要素×タームマトリックス生成部１９と、特異値分解部２０と、注目情報オブジェクト読込部２１と、注目ターム集計部２２と、注目タームマッピング部２４と、相関計算部と、表示部２５と、知識情報検索部３２とが格納されている。

また、知識情報格納部１５には、この発明の知識集積物としての書籍データ２６と、ターム辞書２９と、書籍要素×タームマトリックス３０と、集積計算結果３１が格納される。前記書籍データ２６は、体系化情報としての書籍要素情報（ページ、章、節、図表の脚注等）２７と、知識情報としての書籍要素内容（ページ、章、節、図表の脚注等の内容）２８とを有する。この書籍要素内容は、ページに関連付けられた索引用語であっても良い。索引用語は、そのページに含まれるコンテンツであり、かつ精選された重要技術用語である。

上記各構成要素１７〜３１は、実際には、ハードディスク等の記憶媒体に確保された一定の領域及びその領域にインストールされたソフトウエアプログラムから構成されており、前記ＣＰＵ１０によって適宜ＲＡＭ１１上に呼び出され実行されることで、この発明の各構成要素として構成され機能するようになっている。

以下、上記各構成要素の詳細な構成及び機能を、図３に示すフローチャートに示す具体的な動作に沿って説明する。

この実施形態においては、情報オブジェクト間の関連を定量化する手段として、ＬａｔｅｎｔＳｅｍａｎｔｉｃＡｎａｌｙｓｉｓ（ＬＳＩ：Ｌａｎｄａｕｅｒ，Ｔ．Ｋ．ｅｔａｌ．（１９９８）ＩｎｔｒｏｄｕｃｔｉｏｎｔｏＬａｔｅｎｔＳｅｍａｎｔｉｃＡｎａｌｙｓｉｓ．ＤｉｓｃｏｕｒｓｅＰｒｏｃｅｓｓｅｓ，２５，２５９−２８４）に示される手法を用いた例を示す（この文献の記載はこの参照により本明細書に組み込まれたものとする）。すなわち、この実施形態では、情報オブジェクト間の関係の定量化に、情報オブジェクトの実体であるテキスト、もしくは情報オブジェクトに付随するテキストにおいて、共通して存在する用語（ターム）の統計量を利用する。

まず、前記書籍情報読込部１８が、電子化された書籍データ２６をＲＡＭ１１に読み込んで展開し（ステップＳ１）、書籍要素内容を書籍要素であるページ、章、節、図表の脚注等の各要素に分解する（ステップＳ２）。そして、書籍要素×タームマトリックス生成部１９が、当該書籍データを１つの情報オブジェクトと見做して、書籍要素内容に含まれるタームの種類と量を集計し、書籍要素×タームマトリックスを生成する（ステップＳ３）。この実施形態では、精度を向上させるために、前記タームを辞書的に保存してなるターム辞書２９を用い、このターム辞書２９に含まれるタームに基づいて前記書籍要素×タームマトリックス３０を生成し、前記知識情報格納部１５に格納する。

次に、特異値分解部２０が、上記書籍要素とタームの特異値を見つけるべく、前記マトリックス３０を特異値分解（ＳＶＤ:ＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ）する。これにより、特異値とそれに関連した特異ベクトル（特異座標系）を計算する（ステップＳ４）。すなわち、書籍要素をｍ個の章（要素）から成るケース、タームをｎ個の語（要素）から成る変数とするとき、ｍ行ｎ列から成るケース×変数マトリックスをＸとする。その階数をｒとし、λ１、λ２、...λｒ（λ１≧λ２≧...≧λｒ≧０）を対角要素とする対角行列をＳ、正規直行ベクトルを行ベクトルとする行列をＵ、Ｖとすると、行列Ｘは、Ｘ＝ＵＳＶ^Ｔと分解できる。ここで、Ｓは、ｒ行ｒ列の対角行列、Ｕは、直行する列を持つｍ行ｒ列の行列、Ｖは、直行する列を持つｎ行ｒ列の行列である。ここで、行列ＵＳを求める。行列ＵＳにおける行は書籍要素に対応する。すなわち、行列ＵＳの列を説明変量として列間、書籍要素間の相関を計算することが可能となる。なお、情報オブジェクトに含まれるタームの種類と量の集計においては、前記したように、あらかじめ目的に応じて用意したターム辞書（ｃｏｎｔｒｏｌｌｅｄｖｏｃａｂｕｌａｒｙ）を利用することにより、目的に対して分解能の高い行列ＵＳを実現することが可能である。

ついで、前記注目情報オブジェクト読込部２１が、ユーザから注目する情報オブジェクトの入力を受け付け、ＲＡＭ１１に読み込む（ステップＳ５）。この情報オブジェクトは、ユーザが注目したい情報であり、たとえば、「特定の遺伝子」である。ついで、注目ターム集計部２２が、当該注目する情報オブジェクトを構成するテキストに含まれるタームの種類と量を集計する（ステップＳ６）。この集計の際は、前記ターム辞書２９を使用しなくても良い。たとえば、すべての単語（動詞、名詞、形容詞）の種類と数を集計されたとしても、後のマッピング処理により、前記書籍要素×タームマトリックス生成部１９で抽出された書籍要素のタームと一致するタームのみが用いられることになるからである。

ついで、前記注目ターム集計部２２によって集計された結果を、注目タームマッピング部２３が、ＴｅｒｍＦｒｅｑｕｅｎｃｙ−ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ重み付け（ＴＦ−ＩＤＦ：ＧｅｒａｒｄＳａｌｔｏｎｅｔａｌ．Ｔｅｒｍ−ｗｅｉｇｈｔｉｎｇａｐｐｒｏａｃｈｅｓｉｎａｕｔｏｍａｔｉｃｔｅｘｔｒｅｔｒｉｅｖａｌ，ＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇａｎｄＭａｎａｇｅｍｅｎｔ：ａｎＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌ，ｖ．２４ｎ．５，ｐ．５１３−５２３,１９８８）に開示されている手法によって、行列ＵＳと同一の空間にマップする（ステップＳ７）。行列ＵＳと同一の空間にマップすることにより、相関計算部２４において、注目する情報オブジェクトと書籍要素との間の相関が計算可能となる。相関の計算手段として、この実施例においては、ｃｏｓｉｎｅｃｏｒｒｅｌａｔｉｏｎを用いて相関関係を計算する（ステップＳ８）。

以上により、注目する情報オブジェクトと書籍要素との相関が求められると、前記表示部３５が、相関値を一方の変数、書籍の構成における書籍要素の位置を他方の変数として、これをグラフ化してディスプレイ上に表示する（ステップＳ９）。なお、このとき、目次より、書籍要素が位置する書籍の構成に関する情報を取得し、これをグラフに利用することが有効である（ステップＳ１０）。

以上のシステム及びその処理を、知識集積物／書籍として教科書「Ａｎａｔｏｍｙａｎｄｐｈｙｓｉｏｌｏｇｙ，５^ｔｈｅｄｉｔｉｏｎ」、注目情報オブジェクトとして以下の情報を用いた場合を例にとって説明する。

「遺伝子データベース：ＮＣＢＩ(米国立バイオ情報技術研究所)のＲｅｆＳｅｑデータベース（各エントリーが１ドキュメントに相当。総ドキュメント数約２万件）
遺伝子ＩＤ（遺伝子オブジェクト）：ＮＭ＿００２５９７
遺伝子定義：Ｈｏｍｏｓａｐｉｅｎｓｐｈｏｓｄｕｃｉｎ（ＰＤＣ），ｔｒａｎｓｃｒｉｐｔｖａｒｉａｎｔ１，ｍＲＮＡ.
遺伝子を解説したテキスト：
Ｓｕｍｍａｒｙ：Ｔｈｉｓｇｅｎｅｅｎｃｏｄｅｓａｐｈｏｓｐｈｏｐｒｏｔｅｉｎ，ｗｈｉｃｈｉｓｌｏｃａｔｅｄｉｎｔｈｅｏｕｔｅｒａｎｄｉｎｎｅｒｓｅｇｍｅｎｔｓｏｆｔｈｅｒｏｄｃｅｌｌｓｉｎｔｈｅｒｅｔｉｎａ．Ｔｈｉｓｐｒｏｔｅｉｎｍａｙｐａｒｔｉｃｉｐａｔｅｉｎｔｈｅｒｅｇｕｌａｔｉｏｎｏｆｖｉｓｕａｌｐｈｏｔｏｔｒａｎｓｄｕｃｔｉｏｎｏｒｉｎｔｈｅｉｎｔｅｇｒａｔｉｏｎｏｆｐｈｏｔｏｒｅｃｅｐｔｏｒｍｅｔａｂｏｌｉｓｍ．ＩｔｍｏｄｕｌａｔｅｓｔｈｅｐｈｏｔｏｔｒａｎｓｄｕｃｔｉｏｎｃａｓｃａｄｅｂｙｉｎｔｅｒａｃｔｉｎｇｗｉｔｈｔｈｅｂｅｔａａｎｄｇａｍｍａｓｕｂｕｎｉｔｓｏｆｔｈｅｒｅｔｉｎａｌＧ−ｐｒｏｔｅｉｎｔｒａｎｓｄｕｃｉｎ．ＴｈｉｓｇｅｎｅｉｓａｐｏｔｅｎｔｉａｌｃａｎｄｉｄａｔｅｇｅｎｅｆｏｒｒｅｔｉｎｉｔｉｓｐｉｇｍｅｎｔｏｓａａｎｄＵｓｈｅｒｓｙｎｄｒｏｍｅｔｙｐｅＩＩ．Ａｌｔｅｒｎａｔｉｖｅｌｙｓｐｌｉｃｅｄｔｒａｎｓｃｒｉｐｔｖａｒｉａｎｔｓｅｎｃｏｄｉｎｇｄｉｆｆｅｒｅｎｔｉｓｏｆｏｒｍｓｈａｖｅｂｅｅｎｉｄｅｎｔｉｆｉｅｄ．」

前記教科書に対して、精度を向上させるために、この教科書の属する技術分野のターム辞書２９を用い、このターム辞書２９に含まれるタームに基づいて前記書籍要素×タームマトリックス３０を生成する。一方、上記注目情報オブジェクトに含まれるテキストから注目ターム集計部２２が、タームを抽出して集計するが、このタームのうち、後の相関関係の計算に用いられるのは、上記ターム辞書２９に含まれるタームと一致するタームのみである。注目情報オブジェクトのうち、この一致するタームを下線を引いて示すと以下のようになる。

「Ｓｕｍｍａｒｙ：Ｔｈｉｓｇｅｎｅｅｎｃｏｄｅｓａｐｈｏｓｐｈｏｐｒｏｔｅｉｎ，ｗｈｉｃｈｉｓｌｏｃａｔｅｄｉｎｔｈｅｏｕｔｅｒａｎｄｉｎｎｅｒｓｅｇｍｅｎｔｓｏｆｔｈｅｒｏｄｃｅｌｌｓｉｎｔｈｅｒｅｔｉｎａ．Ｔｈｉｓｐｒｏｔｅｉｎｍａｙｐａｒｔｉｃｉｐａｔｅｉｎｔｈｅｒｅｇｕｌａｔｉｏｎｏｆｖｉｓｕａｌｐｈｏｔｏｔｒａｎｓｄｕｃｔｉｏｎｏｒｉｎｔｈｅｉｎｔｅｇｒａｔｉｏｎｏｆｐｈｏｔｏｒｅｃｅｐｔｏｒｍｅｔａｂｏｌｉｓｍ．ＩｔｍｏｄｕｌａｔｅｓｔｈｅｐｈｏｔｏｔｒａｎｓｄｕｃｔｉｏｎｃａｓｃａｄｅｂｙｉｎｔｅｒａｃｔｉｎｇｗｉｔｈｔｈｅｂｅｔａａｎｄｇａｍｍａｓｕｂｕｎｉｔｓｏｆｔｈｅｒｅｔｉｎａｌＧ−ｐｒｏｔｅｉｎｔｒａｎｓｄｕｃｉｎ.ＴｈｉｓｇｅｎｅｉｓａｐｏｔｅｎｔｉａｌｃａｎｄｉｄａｔｅｇｅｎｅｆｏｒｒｅｔｉｎｉｔｉｓｐｉｇｍｅｎｔｏｓａａｎｄＵｓｈｅｒｓｙｎｄｒｏｍｅｔｙｐｅＩＩ.Ａｌｔｅｒｎａｔｉｖｅｌｙｓｐｌｉｃｅｄｔｒａｎｓｃｒｉｐｔｖａｒｉａｎｔｓｅｎｃｏｄｉｎｇｄｉｆｆｅｒｅｎｔｉｓｏｆｏｒｍｓｈａｖｅｂｅｅｎｉｄｅｎｔｉｆｉｅｄ．」

次に、上記相関計算部２４が、上記情報オブジェクト中のタームのＴＦ−ＩＤＦ値を計算する。

ＴＦ−ＩＤＦは、上述したように、ＴｅｒｍＦｒｅｑｕｅｎｃｙ−ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙを意味する略語で、ドキュメントの要約や特徴付けを目的として計算されるドキュメントベクトルの一種である。ドキュメントに含まれるタームにスコアをアサインし、そのスコアを持ってベクトルとするが、これをドキュメント中のタームの頻度に比例して増加し、そのタームを持つドキュメントの割合によって減少するように計算する（下式参照）。

「対象ドキュメント中の対象タームの頻度×ｌｏｇ(ドキュメント総数)／対象タームを含むドキュメントの数」

つまり、その単語が出てくるドキュメントが少ないターム（珍しいターム）はスコアが高く、さらに、ドキュメント中にあるそのタームの数により、スコアが増減する。この例では、ＩＤＦは、ＲｅｆＳｅｑデータベースの全エントリーに対して算出し、図４に示すようになる。

ついで、前記注目タームマッピング部２３が、これを行列USと同一の空間にマップする。前述したように、特異値分解により求められる、行列ＵＳにおける行は書籍要素ベクトルを表すが、行列ＳＶにおける行はＵＳと同一空間におけるタームのベクトルを現す。そこで、注目するオブジェクトにマッピングされた各タームのベクトルを、ＴＦ−ＩＤＦ値で重み付けして加算したものを、注目するオブジェクトのベクトルとする。そして、注目するオブジェクトのベクトルと、書籍要素ベクトル間の相関値（コサイン）を求めることにより、注目するオブジェクトと書籍要素間の関連性を定量化する。

図５は、上記の注目するオブジェクトと、教科書「Ａｎａｔｏｍｙａｎｄｐｈｙｓｉｏｌｏｇｙ，５^ｔｈｅｄｉｔｉｏｎ」を構成するページ（書籍オブジェクト）との関連を定量化し、グラフ化したものである。注目するオブジェクト（遺伝子ＩＤ：ＮＭ＿００２５９７）が、ＩｎｔｅｇｒａｔｉｏｎａｎｄＣｏｎｔｒｏｌｓｙｓｔｅｍに関連していることが、また、さらに詳細に見ると、Ｓｅｎｓｅｓに関連していることが分かる。

また、別の実施例として、医学・生物学分野の教科書のページを書籍要素として、それらの書籍のインデックスに含まれるタームをターム辞書として用いた場合、ＳＶＤ（特異値分解）において、階数ｒ＝５０においても、書籍要素×タームマトリックスの特徴が維持されていることが観測されている。また、階数ｒ＝２００において、書籍要素×タームマトリックスの特徴がより良く維持されていることが観測されている。

特異値分解の結果より得られる行列ＶＳにおける行はタームに対応しており、書籍要素とタームを同一空間上に置くことが可能であり、行列ＶＳの列を説明変量として、ターム同士、ターム−書籍要素間の相関を計算することが可能となる。すなわち、注目する情報オブジェクトがタームそれ自体である場合は、ＴＦ−ＩＤＦを実行することなく、書籍要素との相関が計算可能であり、これをグラフ化することが可能である。

以上を用いると、対象である情報オブジェクトに相関の高いタームや書籍要素の検索、反対に、タームや書籍要素に相関の高い情報オブジェクトの検索も可能となる。なお、上記では、グラフを目視することにより関連性の高いタームや書籍を検索するようにしているが、これを機械的に行うことは当然に可能であり、例えば前記検索部３２は、上記情報オブジェクトともっとも相関値合計が高い書籍要素を特定するようにしてもよい。また、関連性の高さを集計するのに上記グラフの面積を使用するようにしてもよい。また、複数の書籍について上記と同様の処理を行い、前記検索部３２で、前記注目情報オブジェクトともっとも関連性の高い書籍及びその書籍内の位置を上記と同様の方法で検索するようにしてもよい。

図６に、本発明において利用される情報を、知識情報格納部に格納する際の一形態として、リレーショナルデータベースを利用する場合の概略スキーマを示す。これにより、本システムで扱うのに適した情報の特徴を説明する。

ここでは、書籍の「ページ」を書籍要素の単位として用いる。書籍情報テーブル２１は、書籍情報に関するマスターＩＤであるブックＩＤ、書籍の題名、ページ数を含む。ページテーブル２２は、書籍を構成するページ（体系化情報）に関する情報を格納し、ブックＩＤ、ページ情報のマスターＩＤであるページＩＤ、書籍の中でのページの順序を示すページ番号、ページに含まれるテキスト情報（知識情報）を含む。ページ番号は、各種マトリックスにおいて行または列番号として用いることを考慮し、システムにより付与された連続した整数を格納するものとする。また、テキスト情報は、ページ番号に関連付けられた索引用語の集合であっても良い。

代表タームテーブル２３は、タームのマスターＩＤであるタームＩＤと代表タームを含む。このテーブルにおいては、タームＩＤはユニークＩＤである。タームＩＤに基づくターム情報の表示を行う際は、代表タームをそのタイトルとして用いる。

タームテーブル２４には、シノニムを含むタームを、所属するタームＩＤと共に格納する。テキスト情報中のタームの集計を行う際は、タームテーブルに含まれるタームによるマッチングを行い、タームＩＤによって集計する。

辞書情報テーブル２５には、辞書情報のマスターＩＤである辞書ＩＤ、辞書に所属するタームを示すタームＩＤ、辞書内でのタームのアドレスであるターム番号を格納する。ターム番号は、各種マトリックスにおいて行または列番号として用いることを考慮し、システムにより付与された連続した整数を格納するものとする。

ページ×タームマトリックステーブル２６には、ブックＩＤと辞書ＩＤを格納し、マトリックス計算の対象となった書籍とタームの集合である辞書を指定する。ページ×タームマトリックスは、行がページ番号に、列がターム番号に対応する。ページ×タームマトリックスは要素数が巨大となる。本システムにおけるページ×タームマトリックスの利用においては、広範囲な要素を対象とした処理が必要であるため、情報の正規化を行った場合、現状コンピュータとＤＢＭＳの組み合わせでは、現実的な処理が不可能となる。そのため、マトリックス全体を１つのデータとして、若しくはファイルシステムに格納したマトリックスデータへの参照をフィールドに格納することとする。また、通常、ページ×タームマトリックスにおいては、空間は巨大であるが、スパースであるため、マトリックス全体を１つのデータとしてデータベースに格納する場合は、スパース行列形式で格納することにより、データ容量の縮小と、入出力時の高速化を図ることが可能である。

ＵＳマトリックス２７においては、ブックＩＤと辞書ＩＤを格納し、マトリックス計算の対象となった書籍とタームの集合である辞書を指定する。ＵＳマトリックスは、行がページ番号に、列が特異ベクトルの階数に対応する。ＵＳマトリックスにおいても、マトリックスのサイズが巨大となるため、マトリックスデータの正規化によるデータベースへの格納は行わず、マトリックス全体を１つのデータとして、若しくはファイルシステムに格納したマトリックスデータへの参照をフィールドに格納することとする。

ＶＳマトリックス２８においては、ブックＩＤと辞書ＩＤを格納し、マトリックス計算の対象となった書籍とタームの集合である辞書を指定する。ＶＳマトリックスは、行がターム番号に、列が特異ベクトルの階数に対応する。ＶＳマトリックスにおいても、マトリックスのサイズが巨大となるため、マトリックスデータの正規化によるデータベースへの格納は行わず、マトリックス全体を１つのデータとして、若しくはファイルシステムに格納したマトリックスデータへの参照をフィールドに格納することとする。

書籍の章テーブル２９には、書籍におけるページ集合としての章の構成を、階層化して格納し、書籍の構成に基づくグラフ表示において、付加情報として利用可能とする。書籍の章テーブルには、ブックＩＤ若しくは章ＩＤを格納してページ集合の上位のグループを指定する親ＩＤ。書籍の章データのマスターＩＤである章ＩＤ、章の題名、書籍における章の開始ページ、終了ページを格納する。開始ページ、終了ページには、ページ番号を格納する。書籍の章テーブルの利用方法としては、興味の対象となる章を複数の書籍から収集し、仮想書籍を作成して、情報の視覚化を行うことがある。

図７に、注目するオブジェクトと書籍要素との相関をグラフ表示する例を示す。この図は、注目するオブジェクトと書籍要素であるページとの相関を計算し、相関値を一方の軸３０、書籍の構成に沿ったページを他方の軸３１とした折れ線グラフである。書籍の構成として、目次から取得した書籍の構成に関する情報（章のタイトルなど）を表示３２することが有効である。同様に、相関値を一方の軸、書籍の構成に沿った書籍要素を他方の軸とした棒グラフ（図８）、書籍要素を方位、相関値を中心からの距離としたレーダーグラフ（図９）、書籍要素毎の相関値を占有角度とした円グラフやドーナツグラフ（図１０）などによるグラフ表示が可能である。

本発明において、注目情報オブジェクトとしては、用語、人名、記事、学術論文、グラントアプリケーション、生体分子、表現型など、テキストで構成された情報や、テキストによる情報が添付された任意の情報が、また、知識集積物としては、教科書、辞典などに限らず、地図、新聞、論文、グラントアプリケーション、Ｗｅｂサイト、討論会など、著者・編集者の意思によって執筆・編纂され、構成された、テキスト情報の集合が、対象となる。たとえば、書籍としての教科書の利用では、多くの教科書において、対象分野における知識の体系化、階層化、分類が行われており、その構成に従った情報の表示を行うことで、注目する情報に関連する知識階層・分類を得ることが可能となる。

図１１ａ，ｂは、複数の書籍に対する注目する情報オブジェクトの相関をグラフ化した他の例である。

この図１１ａ，ｂに示す例においては、複数の書籍に対する注目する情報オブジェクトの相関をグラフ化している。ここで、図１１ａは注目する情報オブジェクトｒａｓ３５に対する４冊の書籍３６ａ〜３６ｄのページ単位の相関を棒グラフ表示している。また、図１１ｂにおいては、注目する情報オブジェクトｒａｓと、図１１ａにおける書籍の１冊３６ｃに含まれる４つの章を構成するページとの相関を棒グラフ表示している。

図１２に示す例においては、本発明を使用したＷｅｂベースの利用者ユーザインターフェースの一例４１を示している。コントロールボックス４７において、注目する情報オブジェクトのタイプの選択４８、注目する情報オブジェクトに関連して表示を行う情報オブジェクトタイプの選択４９、注目する情報オブジェクトの入力５０、関連して表示を行う情報オブジェクトの表示条件（相関値の最小値と表示個数）５１、書籍、または、一連の書籍のセットと書籍要素の表示順の選択５２を行い、実行ボタン５３をクリックすると、５０で指定した注目した情報オブジェクト４２、及び、４９で指定したタイプの情報オブジェクトの内、注目した情報オブジェクトと高い相関を持つ情報オブジェクトに関して、５２で指定した書籍要素との相関が棒グラフ表示４５される。本利用者ユーザインターフェースでは、注目する情報オブジェクトがタームである場合、書籍要素のテキスト中にそれらが直接含まれる場合はグラフの要素を赤く表示し、また、そうした書籍要素に関する相関情報を纏めて表示４６することで、情報オブジェクトと書籍要素の関連を示している。

なお、この発明は、上記一実施形態に限定されるものではなく、発明の要旨を変更しない範囲で種々変形可能であることはいうまでもない。

本発明の一実施形態に係るシステム構成概略図。知識情報処理システムを示す概略構成図。本実施形態による処理工程を示すフローチャート。注目する情報オブジェクトに含まれるタームのＴＦ−ＩＤＦ値の例を示す表。一実施形態による処理・表示結果の例を示す図。一実施形態によるデータベース構成の例を示す図。情報オブジェクトと書籍要素間の関係の可視化の例を示すグラフ。情報オブジェクトと書籍要素間の関係の可視化の例を示すグラフ。情報オブジェクトと書籍要素間の関係の可視化の例を示すグラフ。情報オブジェクトと書籍要素間の関係の可視化の例を示すグラフ。情報オブジェクトと書籍要素間の関係の可視化の例を示す図。コンピュータソフトウエアによるインタフェースの例を示す図。

Claims

注目する情報について複数のタームを用いて記述されてなる文章テキストからなる情報オブジェクトをコンピュータで可視的に処理するためのシステムであって、
知識に関して記述された複数の文章が、それらの知識を体系化するための所定の構成で集積的に収納されてなる教科書・書籍の電子データであって、知識を体系化する構成（目次）の情報と各構成に属する知識情報テキストとからなる電子データ、を格納する知識集積物格納部と、
ユーザから当該ユーザが注目する情報オブジェクトを受け取る注目情報受取部と、
前記情報オブジェクトの文章テキストと前記教科書・書籍の電子データの各構成に属する知識情報テキストとをそれらに含まれるタームに基づいて比較し、テキスト同士の相関性を定量化して定量化値として出力する定量化処理部と、
上記定量化処理部によって出力された定量化値を前記教科書・書籍の電子データの構成の情報に関連付けて前記教科書・書籍全体として表示することで、前記情報オブジェクトが前記教科書・書籍中のどの知識に関連しているかを上記定量化値で可視的に表示する定量化値表示処理部と
を有することを特徴とするシステム。
請求項１記載のシステムにおいて、
前記教科書・書籍の電子データの各構成とこの各構成に属する知識情報テキストに含まれるタームの頻度を示す頻度マトリックスを生成する頻度マトリックス生成部と、
前記頻度マトリックスに基づき、前記各構成と前記タームの特異値座標系を求める特異値分解部と、
をさらに有し、
前記定量化処理部は、前記注目する情報オブジェクトに含まれるタームを、前記特異値座標系にマッピングすることで、前記注目する情報オブジェクトと前記教科書・書籍の電子データの各構成に属する知識情報テキストとの関係を定量化するものである
ことを特徴とするシステム。
請求項２記載のシステムにおいて、
前記定量化処理部は、前記注目する情報オブジェクトに含まれるタームをその重要度に応じて集計する注目ターム集計部を有するものである
ことを特徴とするシステム。
請求項３記載のシステムにおいて、
前記注目ターム集計部は、前記注目する情報オブジェクトが含まれる母データでの前記タームの使用頻度・要度に応じて前記タームを集計するものである
ことを特徴とするシステム。
請求項３記載のシステムにおいて、
前記定量化処理部は、前記タームを、前記特異値座標系中で前記重要度に応じた位置にマッピングするものである
ことを特徴とするシステム。
請求項２記載のシステムにおいて、
ターム辞書を保持する辞書保持部をさらに有し、
前記頻度マトリックス生成部は、前記各構成中に属する知識情報テキスト中前記ターム辞書に含まれるタームのみを抽出して前記頻度マトリックスを生成するものである
ことを特徴とするシステム。
請求項１記載のシステムにおいて、
前記知識を体系化する構成の情報は、各ページ、節、章等の書籍の目次情報であり、前記構成に属する知識情報テキストは前記各目次に含まれる知識コンテンツである
ことを特徴とするシステム。
請求項７記載のシステムにおいて、
定量化値表示処理部は、上記定量化処理部によって定量化された値を、前記教科書・書籍の電子データの目次情報のうち任意の目次に関連付けて表示するものであることを特徴とするシステム。
請求項１記載のシステムにおいて、
さらに、前記定量化値に基づき、注目する情報オブジェクトと最も関連する前記教科書・書籍の電子データの構成位置を検索する位置検索部を有することを特徴とするシステム。
請求項１記載のシステムにおいて、
さらに、注目する情報オブジェクトと複数の教科書・書籍の電子データとの関係を処理し、
注目する情報オブジェクトと最も関連する教科書・書籍の電子データとその構成位置を検索する知識集積物・位置検索部を有することを特徴とするシステム。
注目する情報について複数のタームを用いて記述されてなる文章テキストからなる情報オブジェクトをコンピュータで可視的に処理するためのコンピュータソフトウエアであって、コンピュータ上で実行される以下の構成：
前記コンピュータに、知識に関して記述された複数の文章がそれらの知識を体系化するための所定の構成で集積的に収納されてなる教科書・書籍の電子データであって知識を体系化する構成の情報と各構成に属する知識情報テキストとからなる電子データ、を格納させる知識集積物格納部と、
前記コンピュータに、ユーザから当該ユーザが注目する情報オブジェクトを受け取らせる注目情報受取部と、
前記コンピュータに、前記情報オブジェクトの文章テキストと前記教科書・書籍の電子データの各構成に属する知識情報テキストとをそれらに含まれるタームに基づいて比較し、テキスト同士の相関性を定量化して定量化値として出力させる定量化処理部と、
前記コンピュータに、上記定量化処理部によって出力された定量化値を前記教科書・書籍の電子データの構成の情報に関連付けて前記教科書・書籍全体として表示させることで、前記情報オブジェクトが前記教科書・書籍中のどの知識に関連しているかを上記定量化値で可視的に表示させる定量化値表示処理部と
を有する
ことを特徴とするコンピュータソフトウエア。