JP4202287B2 - 注目する情報について複数のタームを用いて記述されてなる文章テキストからなる情報オブジェクトをコンピュータで可視的に処理するためのシステム及びそのためのコンピュータソフトウエア - Google Patents

注目する情報について複数のタームを用いて記述されてなる文章テキストからなる情報オブジェクトをコンピュータで可視的に処理するためのシステム及びそのためのコンピュータソフトウエア Download PDF

Info

Publication number
JP4202287B2
JP4202287B2 JP2004073614A JP2004073614A JP4202287B2 JP 4202287 B2 JP4202287 B2 JP 4202287B2 JP 2004073614 A JP2004073614 A JP 2004073614A JP 2004073614 A JP2004073614 A JP 2004073614A JP 4202287 B2 JP4202287 B2 JP 4202287B2
Authority
JP
Japan
Prior art keywords
information
book
knowledge
term
textbook
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004073614A
Other languages
English (en)
Other versions
JP2005259088A (ja
Inventor
公策 大久保
卓郎 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BITS Co Ltd
Original Assignee
BITS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BITS Co Ltd filed Critical BITS Co Ltd
Priority to JP2004073614A priority Critical patent/JP4202287B2/ja
Priority to US11/039,176 priority patent/US7903884B2/en
Publication of JP2005259088A publication Critical patent/JP2005259088A/ja
Application granted granted Critical
Publication of JP4202287B2 publication Critical patent/JP4202287B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、書籍等の知識集積物に含まれる知識情報を可視化するための手法に関するものであり、さらに詳しくは、注目する情報と知識集積物との関係を可視的に処理・表示するためのシステム及びコンピュータソフトウエアプログラム製品に関する。
近年、パーソナルコンピュータの一般化による情報の電子化と、インターネットの普及による情報の流通による相乗効果により、処理しなければならない情報量が爆発的に増大している。バイオテクノロジー分野における測定技術の発明等、科学技術の発達により生み出される情報に関しても同様のことが言える。
従来、これらの情報を解釈し、有為な情報を抽出することを目的とした情報処理手段として、情報を構成する要素(情報オブジェクト)の間の関係を定量化することによる、関連情報オブジェクトの検索、情報オブジェクトの分類、情報オブジェクトの集合が持つ特徴の抽出、などが行われている。インターネット上の情報検索サービスである「google」(www.google.com)における情報検索や、バイオテクノロジー分野における遺伝子発現頻度情報のクラスタリングによる遺伝子の分類などが例としてあげられる。
一方、より古くから行われている情報解釈のための情報処理手段として、辞書を用いる方法がある。すなわち、あらかじめ、個々の情報オブジェクトに対応して用意された情報を利用する手段であり、コンピュータによる言語翻訳等がその応用例としてあげられる。
ところで、従来の情報処理方法においては、以下のような解決するべき課題がある。
すなわち、情報オブジェクト間の関係の定量化を利用する情報処理手段は、様々な分野に容易に応用可能である反面、得られる情報が曖昧である。すなわち、分析する情報を情報オブジェクトの集合と捉えて、その情報オブジェクトの集合が表す特徴等を抽出するものであるため、結果がその情報の質によって左右されてしまう。
一方、辞書を用いる方法においては、目的とする情報を確実に得ることが可能である反面、多様な目的に合った辞書を用意することが困難である。
この発明は、このような事情に鑑みてなされたものであり、本などの体系化知識集積物と注目する情報との関係を定量化し可視化して提示できるシステムを提供することを目的とする。
なお、本発明の新規性や進歩性を否定するものではないが、本発明に関連する特許文献として以下の文献1がある。
特開2003−330966
上記目的を達成するべく、この発明の主要な側面によれば、注目する情報を処理するためのシステムであって、知識を体系化してなる構成と各構成に属する知識情報とからなる知識集積物を格納する知識集積物格納部と、ユーザから、当該ユーザが注目する情報を受け取る注目情報受取部と、前記注目する情報と、前記知識集積物の各構成に属する知識情報との関係を定量化する定量化処理部と、上記定量化処理部によって定量化された値を、前記書籍の各構成に関連付けて表示する定量化値表示処理部とを有することを特徴とするシステムが提供される。
このような構成によれば、体系的に纏められた知識集積物として、例えば書籍を利用し、"書籍の一部"(書籍要素)を情報単位として、注目する情報との関連を定量化し、書籍の構成要素、例えば目次との関係での可視化により結果を提示することができる。ここで、知識集積物が例えば書籍の場合、前記構成とは、ページ、章、段落、年表、図や表の脚注、文字数・ワード数・時間など、書籍を構成する内容の一定区間を指す。すなわち、それらの構成と注目する情報との関連性を定量化して、例えば、この値を一方の軸とし、書籍要素の書籍における位置を他方の軸としてグラフ表示することにより、著者や編集者によって書籍としてまとめられた知識の構成を、情報の解釈のために利用することが可能となる。例えば、書籍として教科書を利用した場合、注目した情報オブジェクトが、教科書として編集された「該当する学問において体系的に纏められた知識」の、どの部分と関連する情報であるかを知ることが可能になる。このことにより、情報分析結果の可視化が可能となる。
この発明の1の実施形態によれば、前記システムにおいて、前記知識集積物の各構成とこの各構成に属する情報に含まれるタームの頻度を示す頻度マトリックスを生成する頻度マトリックス生成部と、前記頻度マトリックスに基づき、前記各構成と前記タームの特異値座標系を求める特異値分解部と、をさらに有し、前記定量化処理部は、前記注目する情報に含まれるタームを、前記特異値座標系にマッピングすることで、前記注目する情報と前記知識集積物の各構成に属する知識情報との関係を定量化するものであることを特徴とするシステムが提供される。ここで、前記定量化処理部は、前記注目する情報に含まれるタームをその重要度に応じて集計する注目ターム集計部を有するものであることが好ましい。さらにこの場合、前記注目ターム集計部は、前記注目する情報が含まれる母データでの前記タームの使用頻度・要度に応じて前記タームを集計するものであることがさらに望ましい。さらに、前記定量化処理部は、前記タームを、前記特異値座標系中で前記重要度に応じた位置にマッピングするものであることが好ましい。そして、このシステムは、ターム辞書を保持する辞書保持部をさらに有し、前記頻度マトリックス生成部は、前記各構成中に属する情報中前記ターム辞書に含まれるタームのみを抽出して前記頻度マトリックスを生成するものであっても良い。
この発明の別の1の実施形態によれば、前記知識集積物は教科書等の書籍であり、前記体系化してなる構成は各ページ、節、章等の書籍の目次単位であり、前記構成に含まれる情報は前記目次単位に含まれるコンテンツである。この場合、定量化値表示処理部は、上記定量化処理部によって定量化された値を、前記書籍の目次単位のうち任意の種類の目次単位に関連付けて表示するものであることが好ましい。
この発明の更なる別の1の実施形態によれば、前記知識集積物は、Webサイトであり、前記体系化してなる構成は各Webページ、構成に含まれる知識情報は各Webページのコンテンツである。ここで、前記定量化値表示処理部は、上記定量化処理部によって定量化された値を、前記Webサイトのページに関連付けて表示するものであることが好ましい。
この発明の更なる別の1の実施形態によれば、前記知識集積物は、自然言語によるスピーチ若しくは議論であり、前記体系化してなる構成は段落や時間であり、構成に含まれる情報は当該段落や時間に属するスピーチや議論内容である。ここで、前記定量化値表示処理部は、上記定量化処理部によって定量化された値を、前記段落や時間に関連付けて表示するものであることが好ましい。
この発明の更なる別の1の実施形態によれば、さらに、注目する情報と最も関連する前記知識集積物の構成位置を検索する位置検索部を有する。また、このシステムは、さらに、注目する情報と複数知識集積物との関係を処理し、注目する情報と最も関連する知識集積物とその構成位置を検索する知識集積物・位置検索部を有する。
この発明の第2の主要な観点によれば、知識を体系化してなる構成と各構成に属する知識情報とからなる知識集積物に基づいて注目する情報を可視的に処理するためのコンピュータソフトウエア製品であって、記憶媒体と、この記憶媒体から呼び出されコンピュータ上で実行される以下の構成:ユーザから、当該ユーザが注目する情報を受け取る注目情報受取部と、前記注目する情報と、前記知識集積物の各構成に属する知識情報との関係を定量化する定量化処理部と、上記定量化処理部によって定量化された値を、前記知識集積物の各構成に関連付けて表示する定量化値表示処理部と、を有する発明が提供される。
なお、この発明の更なる別の特徴と効果は、以下の発明の実施形態の説明を参照することで、当業者にとって明らかになる。
本発明を実施する場合の一実施形態を、図面を参照して具体的に説明する。
図1は、本実施例にかかるシステムの利用形態を示す全体構成図である。
この構成例では、本発明の実施形態にかかるシステムがインストールされたサーバ1と、このサーバ1にLANやインターネット等のネットワーク2を介して接続された管理者用クライアント3及び利用者用クライアント4とが設けられている。前記サーバ1には、電子化された書籍データ、書籍要素データ、用語(ターム)辞書を読み込んで、書籍要素×タームマトリックス、統計計算の結果等などを出力する知識情報処理システム5が設けられている。前記各クライアント3、4には、ネットワーク2経由で前記サーバ1と通信し、前記処理システム5を操作するためのユーザインタフェース(Webブラウザ)を提供するクライアントシステム6、ユーザインターフェースを表示する表示装置7、及び管理者用ユーザインターフェースを操作するキーボード・マウス等8が設けられている。
図2は、前記知識情報処理システム5を示す詳細構成図である。
このサーバは、CPU10、RAM11、I/Oインタフェース12等が接続されているバス13に、プログラム格納部14と、前記知識情報格納部15とが接続されてなる。
プログラム格納部14には、OS等のメインプログラム17他、この発明の要旨に関係するもののみ挙げると、書籍情報読込部18と、書籍要素×タームマトリックス生成部19と、特異値分解部20と、注目情報オブジェクト読込部21と、注目ターム集計部22と、注目タームマッピング部24と、相関計算部と、表示部25と、知識情報検索部32とが格納されている。
また、知識情報格納部15には、この発明の知識集積物としての書籍データ26と、ターム辞書29と、書籍要素×タームマトリックス30と、集積計算結果31が格納される。前記書籍データ26は、体系化情報としての書籍要素情報(ページ、章、節、図表の脚注等)27と、知識情報としての書籍要素内容(ページ、章、節、図表の脚注等の内容)28とを有する。この書籍要素内容は、ページに関連付けられた索引用語であっても良い。索引用語は、そのページに含まれるコンテンツであり、かつ精選された重要技術用語である。
上記各構成要素17〜31は、実際には、ハードディスク等の記憶媒体に確保された一定の領域及びその領域にインストールされたソフトウエアプログラムから構成されており、前記CPU10によって適宜RAM11上に呼び出され実行されることで、この発明の各構成要素として構成され機能するようになっている。
以下、上記各構成要素の詳細な構成及び機能を、図3に示すフローチャートに示す具体的な動作に沿って説明する。
この実施形態においては、情報オブジェクト間の関連を定量化する手段として、Latent Semantic Analysis(LSI:Landauer,T.K.et al.(1998)Introduction to Latent Semantic Analysis.Discourse Processes,25,259−284)に示される手法を用いた例を示す(この文献の記載はこの参照により本明細書に組み込まれたものとする)。すなわち、この実施形態では、情報オブジェクト間の関係の定量化に、情報オブジェクトの実体であるテキスト、もしくは情報オブジェクトに付随するテキストにおいて、共通して存在する用語(ターム)の統計量を利用する。
まず、前記書籍情報読込部18が、電子化された書籍データ26をRAM11に読み込んで展開し(ステップS1)、書籍要素内容を書籍要素であるページ、章、節、図表の脚注等の各要素に分解する(ステップS2)。そして、書籍要素×タームマトリックス生成部19が、当該書籍データを1つの情報オブジェクトと見做して、書籍要素内容に含まれるタームの種類と量を集計し、書籍要素×タームマトリックスを生成する(ステップS3)。この実施形態では、精度を向上させるために、前記タームを辞書的に保存してなるターム辞書29を用い、このターム辞書29に含まれるタームに基づいて前記書籍要素×タームマトリックス30を生成し、前記知識情報格納部15に格納する。
次に、特異値分解部20が、上記書籍要素とタームの特異値を見つけるべく、前記マトリックス30を特異値分解(SVD:Singular Value Decomposition)する。これにより、特異値とそれに関連した特異ベクトル(特異座標系)を計算する(ステップS4)。すなわち、書籍要素をm個の章(要素)から成るケース、タームをn個の語(要素)から成る変数とするとき、m行n列から成るケース×変数マトリックスをXとする。その階数をrとし、λ1、λ2、...λr(λ1≧λ2≧...≧λr≧0)を対角要素とする対角行列をS、正規直行ベクトルを行ベクトルとする行列をU、Vとすると、行列Xは、X=USVと分解できる。ここで、Sは、r行r列の対角行列、Uは、直行する列を持つm行r列の行列、Vは、直行する列を持つn行r列の行列である。ここで、行列USを求める。行列USにおける行は書籍要素に対応する。すなわち、行列USの列を説明変量として列間、書籍要素間の相関を計算することが可能となる。なお、情報オブジェクトに含まれるタームの種類と量の集計においては、前記したように、あらかじめ目的に応じて用意したターム辞書(controlled vocabulary)を利用することにより、目的に対して分解能の高い行列USを実現することが可能である。
ついで、前記注目情報オブジェクト読込部21が、ユーザから注目する情報オブジェクトの入力を受け付け、RAM11に読み込む(ステップS5)。この情報オブジェクトは、ユーザが注目したい情報であり、たとえば、「特定の遺伝子」である。ついで、注目ターム集計部22が、当該注目する情報オブジェクトを構成するテキストに含まれるタームの種類と量を集計する(ステップS6)。この集計の際は、前記ターム辞書29を使用しなくても良い。たとえば、すべての単語(動詞、名詞、形容詞)の種類と数を集計されたとしても、後のマッピング処理により、前記書籍要素×タームマトリックス生成部19で抽出された書籍要素のタームと一致するタームのみが用いられることになるからである。
ついで、前記注目ターム集計部22によって集計された結果を、注目タームマッピング部23が、Term Frequency−Inverse Document Frequency重み付け(TF−IDF:Gerard Salton et al.Term−weighting approaches in automatic text retrieval,Information Processing and Management:an International Journal,v.24 n.5,p.513−523,1988)に開示されている手法によって、行列USと同一の空間にマップする(ステップS7)。行列USと同一の空間にマップすることにより、相関計算部24において、注目する情報オブジェクトと書籍要素との間の相関が計算可能となる。相関の計算手段として、この実施例においては、cosine correlationを用いて相関関係を計算する(ステップS8)。
以上により、注目する情報オブジェクトと書籍要素との相関が求められると、前記表示部35が、相関値を一方の変数、書籍の構成における書籍要素の位置を他方の変数として、これをグラフ化してディスプレイ上に表示する(ステップS9)。なお、このとき、目次より、書籍要素が位置する書籍の構成に関する情報を取得し、これをグラフに利用することが有効である(ステップS10)。
以上のシステム及びその処理を、知識集積物/書籍として教科書「Anatomy and physiology,5th edition」、注目情報オブジェクトとして以下の情報を用いた場合を例にとって説明する。
「遺伝子データベース:NCBI(米国立バイオ情報技術研究所)のRefSeqデータベース(各エントリーが1ドキュメントに相当。総ドキュメント数約2万件)
遺伝子ID(遺伝子オブジェクト):NM_002597
遺伝子定義:Homo sapiens phosducin(PDC),transcript variant 1,mRNA.
遺伝子を解説したテキスト:
Summary:This gene encodes a phosphoprotein,which is located in the outer and inner segments of the rod cells in the retina.This protein may participate in the regulation of visual phototransduction or in the integration of photoreceptor metabolism.It modulates the phototransduction cascade by interacting with the beta and gamma subunits of the retinal G−protein transducin.This gene is a potential candidate gene for retinitis pigmentosa and Usher syndrome type II.Alternatively spliced transcript variants encoding different isoforms have been identified.」
前記教科書に対して、精度を向上させるために、この教科書の属する技術分野のターム辞書29を用い、このターム辞書29に含まれるタームに基づいて前記書籍要素×タームマトリックス30を生成する。一方、上記注目情報オブジェクトに含まれるテキストから注目ターム集計部22が、タームを抽出して集計するが、このタームのうち、後の相関関係の計算に用いられるのは、上記ターム辞書29に含まれるタームと一致するタームのみである。注目情報オブジェクトのうち、この一致するタームを下線を引いて示すと以下のようになる。
「Summary:This gene encodes a phosphoprotein,which is located in the outer and inner segments of the rod cells in the retina.This protein may participate in the regulation of visual phototransduction or in the integration of photoreceptor metabolism.It modulates the phototransduction cascade by interacting with the beta and gamma subunits of the retinal G−protein transducin.This gene is a potential candidate gene for retinitis pigmentosa and Usher syndrome type II.Alternatively spliced transcript variants encoding different isoforms have been identified.」
次に、上記相関計算部24が、上記情報オブジェクト中のタームのTF−IDF値を計算する。
TF−IDFは、上述したように、Term Frequency−Inverse Document Frequencyを意味する略語で、ドキュメントの要約や特徴付けを目的として計算されるドキュメントベクトルの一種である。ドキュメントに含まれるタームにスコアをアサインし、そのスコアを持ってベクトルとするが、これをドキュメント中のタームの頻度に比例して増加し、そのタームを持つドキュメントの割合によって減少するように計算する(下式参照)。
「対象ドキュメント中の対象タームの頻度×log(ドキュメント総数)/対象タームを含むドキュメントの数」
つまり、その単語が出てくるドキュメントが少ないターム(珍しいターム)はスコアが高く、さらに、ドキュメント中にあるそのタームの数により、スコアが増減する。この例では、IDFは、RefSeqデータベースの全エントリーに対して算出し、図4に示すようになる。
ついで、前記注目タームマッピング部23が、これを行列USと同一の空間にマップする。前述したように、特異値分解により求められる、行列USにおける行は書籍要素ベクトルを表すが、行列SVにおける行はUSと同一空間におけるタームのベクトルを現す。そこで、注目するオブジェクトにマッピングされた各タームのベクトルを、TF−IDF値で重み付けして加算したものを、注目するオブジェクトのベクトルとする。そして、注目するオブジェクトのベクトルと、書籍要素ベクトル間の相関値(コサイン)を求めることにより、注目するオブジェクトと書籍要素間の関連性を定量化する。
図5は、上記の注目するオブジェクトと、教科書「Anatomy and physiology, 5th edition」を構成するページ(書籍オブジェクト)との関連を定量化し、グラフ化したものである。注目するオブジェクト(遺伝子ID:NM_002597)が、Integration and Control systemに関連していることが、また、さらに詳細に見ると、Sensesに関連していることが分かる。
また、別の実施例として、医学・生物学分野の教科書のページを書籍要素として、それらの書籍のインデックスに含まれるタームをターム辞書として用いた場合、SVD(特異値分解)において、階数r=50においても、書籍要素×タームマトリックスの特徴が維持されていることが観測されている。また、階数r=200において、書籍要素×タームマトリックスの特徴がより良く維持されていることが観測されている。
特異値分解の結果より得られる行列VSにおける行はタームに対応しており、書籍要素とタームを同一空間上に置くことが可能であり、行列VSの列を説明変量として、ターム同士、ターム−書籍要素間の相関を計算することが可能となる。すなわち、注目する情報オブジェクトがタームそれ自体である場合は、TF−IDFを実行することなく、書籍要素との相関が計算可能であり、これをグラフ化することが可能である。
以上を用いると、対象である情報オブジェクトに相関の高いタームや書籍要素の検索、反対に、タームや書籍要素に相関の高い情報オブジェクトの検索も可能となる。なお、上記では、グラフを目視することにより関連性の高いタームや書籍を検索するようにしているが、これを機械的に行うことは当然に可能であり、例えば前記検索部32は、上記情報オブジェクトともっとも相関値合計が高い書籍要素を特定するようにしてもよい。また、関連性の高さを集計するのに上記グラフの面積を使用するようにしてもよい。また、複数の書籍について上記と同様の処理を行い、前記検索部32で、前記注目情報オブジェクトともっとも関連性の高い書籍及びその書籍内の位置を上記と同様の方法で検索するようにしてもよい。
図6に、本発明において利用される情報を、知識情報格納部に格納する際の一形態として、リレーショナルデータベースを利用する場合の概略スキーマを示す。これにより、本システムで扱うのに適した情報の特徴を説明する。
ここでは、書籍の「ページ」を書籍要素の単位として用いる。書籍情報テーブル21は、書籍情報に関するマスターIDであるブックID、書籍の題名、ページ数を含む。ページテーブル22は、書籍を構成するページ(体系化情報)に関する情報を格納し、ブックID、ページ情報のマスターIDであるページID、書籍の中でのページの順序を示すページ番号、ページに含まれるテキスト情報(知識情報)を含む。ページ番号は、各種マトリックスにおいて行または列番号として用いることを考慮し、システムにより付与された連続した整数を格納するものとする。また、テキスト情報は、ページ番号に関連付けられた索引用語の集合であっても良い。
代表タームテーブル23は、タームのマスターIDであるタームIDと代表タームを含む。このテーブルにおいては、タームIDはユニークIDである。タームIDに基づくターム情報の表示を行う際は、代表タームをそのタイトルとして用いる。
タームテーブル24には、シノニムを含むタームを、所属するタームIDと共に格納する。テキスト情報中のタームの集計を行う際は、タームテーブルに含まれるタームによるマッチングを行い、タームIDによって集計する。
辞書情報テーブル25には、辞書情報のマスターIDである辞書ID、辞書に所属するタームを示すタームID、辞書内でのタームのアドレスであるターム番号を格納する。ターム番号は、各種マトリックスにおいて行または列番号として用いることを考慮し、システムにより付与された連続した整数を格納するものとする。
ページ×タームマトリックステーブル26には、ブックIDと辞書IDを格納し、マトリックス計算の対象となった書籍とタームの集合である辞書を指定する。ページ×タームマトリックスは、行がページ番号に、列がターム番号に対応する。ページ×タームマトリックスは要素数が巨大となる。本システムにおけるページ×タームマトリックスの利用においては、広範囲な要素を対象とした処理が必要であるため、情報の正規化を行った場合、現状コンピュータとDBMSの組み合わせでは、現実的な処理が不可能となる。そのため、マトリックス全体を1つのデータとして、若しくはファイルシステムに格納したマトリックスデータへの参照をフィールドに格納することとする。また、通常、ページ×タームマトリックスにおいては、空間は巨大であるが、スパースであるため、マトリックス全体を1つのデータとしてデータベースに格納する場合は、スパース行列形式で格納することにより、データ容量の縮小と、入出力時の高速化を図ることが可能である。
USマトリックス27においては、ブックIDと辞書IDを格納し、マトリックス計算の対象となった書籍とタームの集合である辞書を指定する。USマトリックスは、行がページ番号に、列が特異ベクトルの階数に対応する。USマトリックスにおいても、マトリックスのサイズが巨大となるため、マトリックスデータの正規化によるデータベースへの格納は行わず、マトリックス全体を1つのデータとして、若しくはファイルシステムに格納したマトリックスデータへの参照をフィールドに格納することとする。
VSマトリックス28においては、ブックIDと辞書IDを格納し、マトリックス計算の対象となった書籍とタームの集合である辞書を指定する。VSマトリックスは、行がターム番号に、列が特異ベクトルの階数に対応する。VSマトリックスにおいても、マトリックスのサイズが巨大となるため、マトリックスデータの正規化によるデータベースへの格納は行わず、マトリックス全体を1つのデータとして、若しくはファイルシステムに格納したマトリックスデータへの参照をフィールドに格納することとする。
書籍の章テーブル29には、書籍におけるページ集合としての章の構成を、階層化して格納し、書籍の構成に基づくグラフ表示において、付加情報として利用可能とする。書籍の章テーブルには、ブックID若しくは章IDを格納してページ集合の上位のグループを指定する親ID。書籍の章データのマスターIDである章ID、章の題名、書籍における章の開始ページ、終了ページを格納する。開始ページ、終了ページには、ページ番号を格納する。書籍の章テーブルの利用方法としては、興味の対象となる章を複数の書籍から収集し、仮想書籍を作成して、情報の視覚化を行うことがある。
図7に、注目するオブジェクトと書籍要素との相関をグラフ表示する例を示す。この図は、注目するオブジェクトと書籍要素であるページとの相関を計算し、相関値を一方の軸30、書籍の構成に沿ったページを他方の軸31とした折れ線グラフである。書籍の構成として、目次から取得した書籍の構成に関する情報(章のタイトルなど)を表示32することが有効である。同様に、相関値を一方の軸、書籍の構成に沿った書籍要素を他方の軸とした棒グラフ(図8)、書籍要素を方位、相関値を中心からの距離としたレーダーグラフ(図9)、書籍要素毎の相関値を占有角度とした円グラフやドーナツグラフ(図10)などによるグラフ表示が可能である。
本発明において、注目情報オブジェクトとしては、用語、人名、記事、学術論文、グラントアプリケーション、生体分子、表現型など、テキストで構成された情報や、テキストによる情報が添付された任意の情報が、また、知識集積物としては、教科書、辞典などに限らず、地図、新聞、論文、グラントアプリケーション、Webサイト、討論会など、著者・編集者の意思によって執筆・編纂され、構成された、テキスト情報の集合が、対象となる。たとえば、書籍としての教科書の利用では、多くの教科書において、対象分野における知識の体系化、階層化、分類が行われており、その構成に従った情報の表示を行うことで、注目する情報に関連する知識階層・分類を得ることが可能となる。
図11a,bは、複数の書籍に対する注目する情報オブジェクトの相関をグラフ化した他の例である。
この図11a,bに示す例においては、複数の書籍に対する注目する情報オブジェクトの相関をグラフ化している。ここで、図11aは注目する情報オブジェクトras35に対する4冊の書籍36a〜36dのページ単位の相関を棒グラフ表示している。また、図11bにおいては、注目する情報オブジェクトrasと、図11aにおける書籍の1冊36cに含まれる4つの章を構成するページとの相関を棒グラフ表示している。
図12に示す例においては、本発明を使用したWebベースの利用者ユーザインターフェースの一例41を示している。コントロールボックス47において、注目する情報オブジェクトのタイプの選択48、注目する情報オブジェクトに関連して表示を行う情報オブジェクトタイプの選択49、注目する情報オブジェクトの入力50、関連して表示を行う情報オブジェクトの表示条件(相関値の最小値と表示個数)51、書籍、または、一連の書籍のセットと書籍要素の表示順の選択52を行い、実行ボタン53をクリックすると、50で指定した注目した情報オブジェクト42、及び、49で指定したタイプの情報オブジェクトの内、注目した情報オブジェクトと高い相関を持つ情報オブジェクトに関して、52で指定した書籍要素との相関が棒グラフ表示45される。本利用者ユーザインターフェースでは、注目する情報オブジェクトがタームである場合、書籍要素のテキスト中にそれらが直接含まれる場合はグラフの要素を赤く表示し、また、そうした書籍要素に関する相関情報を纏めて表示46することで、情報オブジェクトと書籍要素の関連を示している。
なお、この発明は、上記一実施形態に限定されるものではなく、発明の要旨を変更しない範囲で種々変形可能であることはいうまでもない。
本発明の一実施形態に係るシステム構成概略図。 知識情報処理システムを示す概略構成図。 本実施形態による処理工程を示すフローチャート。 注目する情報オブジェクトに含まれるタームのTF−IDF値の例を示す表。 一実施形態による処理・表示結果の例を示す図。 一実施形態によるデータベース構成の例を示す図。 情報オブジェクトと書籍要素間の関係の可視化の例を示すグラフ。 情報オブジェクトと書籍要素間の関係の可視化の例を示すグラフ。 情報オブジェクトと書籍要素間の関係の可視化の例を示すグラフ。 情報オブジェクトと書籍要素間の関係の可視化の例を示すグラフ。 情報オブジェクトと書籍要素間の関係の可視化の例を示す図。 コンピュータソフトウエアによるインタフェースの例を示す図。

Claims (11)

  1. 注目する情報について複数のタームを用いて記述されてなる文章テキストからなる情報オブジェクトをコンピュータで可視的に処理するためのシステムであって、
    知識に関して記述された複数の文章が、それらの知識を体系化するための所定の構成で集積的に収納されてなる教科書・書籍の電子データであって、知識を体系化する構成(目次)の情報と各構成に属する知識情報テキストとからなる電子データ、を格納する知識集積物格納部と、
    ユーザから当該ユーザが注目する情報オブジェクトを受け取る注目情報受取部と、
    前記情報オブジェクトの文章テキストと前記教科書・書籍の電子データの各構成に属する知識情報テキストとをそれらに含まれるタームに基づいて比較し、テキスト同士の相関性を定量化して定量化値として出力する定量化処理部と、
    上記定量化処理部によって出力された定量化値を前記教科書・書籍の電子データの構成の情報に関連付けて前記教科書・書籍全体として表示することで、前記情報オブジェクトが前記教科書・書籍中のどの知識に関連しているかを上記定量化値で可視的に表示する定量化値表示処理部と
    を有することを特徴とするシステム。
  2. 請求項1記載のシステムにおいて、
    前記教科書・書籍の電子データの各構成とこの各構成に属する知識情報テキストに含まれるタームの頻度を示す頻度マトリックスを生成する頻度マトリックス生成部と、
    前記頻度マトリックスに基づき、前記各構成と前記タームの特異値座標系を求める特異値分解部と、
    をさらに有し、
    前記定量化処理部は、前記注目する情報オブジェクトに含まれるタームを、前記特異値座標系にマッピングすることで、前記注目する情報オブジェクトと前記教科書・書籍の電子データの各構成に属する知識情報テキストとの関係を定量化するものである
    ことを特徴とするシステム。
  3. 請求項2記載のシステムにおいて、
    前記定量化処理部は、前記注目する情報オブジェクトに含まれるタームをその重要度に応じて集計する注目ターム集計部を有するものである
    ことを特徴とするシステム。
  4. 請求項3記載のシステムにおいて、
    前記注目ターム集計部は、前記注目する情報オブジェクトが含まれる母データでの前記タームの使用頻度・要度に応じて前記タームを集計するものである
    ことを特徴とするシステム。
  5. 請求項3記載のシステムにおいて、
    前記定量化処理部は、前記タームを、前記特異値座標系中で前記重要度に応じた位置にマッピングするものである
    ことを特徴とするシステム。
  6. 請求項2記載のシステムにおいて、
    ターム辞書を保持する辞書保持部をさらに有し、
    前記頻度マトリックス生成部は、前記各構成中に属する知識情報テキスト中前記ターム辞書に含まれるタームのみを抽出して前記頻度マトリックスを生成するものである
    ことを特徴とするシステム。
  7. 請求項1記載のシステムにおいて、
    前記知識を体系化する構成の情報は、各ページ、節、章等の書籍の目次情報であり、前記構成に属する知識情報テキストは前記各目次に含まれる知識コンテンツである
    ことを特徴とするシステム。
  8. 請求項7記載のシステムにおいて、
    定量化値表示処理部は、上記定量化処理部によって定量化された値を、前記教科書・書籍の電子データの目次情報のうち任意の目次に関連付けて表示するものであることを特徴とするシステム。
  9. 請求項1記載のシステムにおいて、
    さらに、前記定量化値に基づき、注目する情報オブジェクトと最も関連する前記教科書・書籍の電子データの構成位置を検索する位置検索部を有することを特徴とするシステム。
  10. 請求項1記載のシステムにおいて、
    さらに、注目する情報オブジェクトと複数の教科書・書籍の電子データとの関係を処理し、
    注目する情報オブジェクトと最も関連する教科書・書籍の電子データとその構成位置を検索する知識集積物・位置検索部を有することを特徴とするシステム。
  11. 注目する情報について複数のタームを用いて記述されてなる文章テキストからなる情報オブジェクトをコンピュータで可視的に処理するためのコンピュータソフトウエアであって、コンピュータ上で実行される以下の構成:
    前記コンピュータに、知識に関して記述された複数の文章がそれらの知識を体系化するための所定の構成で集積的に収納されてなる教科書・書籍の電子データであって知識を体系化する構成の情報と各構成に属する知識情報テキストとからなる電子データ、を格納させる知識集積物格納部と、
    前記コンピュータに、ユーザから当該ユーザが注目する情報オブジェクトを受け取らせる注目情報受取部と、
    前記コンピュータに、前記情報オブジェクトの文章テキストと前記教科書・書籍の電子データの各構成に属する知識情報テキストとをそれらに含まれるタームに基づいて比較し、テキスト同士の相関性を定量化して定量化値として出力させる定量化処理部と、
    前記コンピュータに、上記定量化処理部によって出力された定量化値を前記教科書・書籍の電子データの構成の情報に関連付けて前記教科書・書籍全体として表示させることで、前記情報オブジェクトが前記教科書・書籍中のどの知識に関連しているかを上記定量化値で可視的に表示させる定量化値表示処理部と
    を有する
    ことを特徴とするコンピュータソフトウエア。
JP2004073614A 2004-03-15 2004-03-15 注目する情報について複数のタームを用いて記述されてなる文章テキストからなる情報オブジェクトをコンピュータで可視的に処理するためのシステム及びそのためのコンピュータソフトウエア Expired - Lifetime JP4202287B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004073614A JP4202287B2 (ja) 2004-03-15 2004-03-15 注目する情報について複数のタームを用いて記述されてなる文章テキストからなる情報オブジェクトをコンピュータで可視的に処理するためのシステム及びそのためのコンピュータソフトウエア
US11/039,176 US7903884B2 (en) 2004-03-15 2005-01-20 System and computer software program for visibly processing an observed information's relationship with knowledge accumulations

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004073614A JP4202287B2 (ja) 2004-03-15 2004-03-15 注目する情報について複数のタームを用いて記述されてなる文章テキストからなる情報オブジェクトをコンピュータで可視的に処理するためのシステム及びそのためのコンピュータソフトウエア

Publications (2)

Publication Number Publication Date
JP2005259088A JP2005259088A (ja) 2005-09-22
JP4202287B2 true JP4202287B2 (ja) 2008-12-24

Family

ID=34918666

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004073614A Expired - Lifetime JP4202287B2 (ja) 2004-03-15 2004-03-15 注目する情報について複数のタームを用いて記述されてなる文章テキストからなる情報オブジェクトをコンピュータで可視的に処理するためのシステム及びそのためのコンピュータソフトウエア

Country Status (2)

Country Link
US (1) US7903884B2 (ja)
JP (1) JP4202287B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461073B2 (en) * 2006-02-14 2008-12-02 Microsoft Corporation Co-clustering objects of heterogeneous types
US7743058B2 (en) * 2007-01-10 2010-06-22 Microsoft Corporation Co-clustering objects of heterogeneous types
US8818979B2 (en) * 2007-05-17 2014-08-26 Valuenex Consulting Inc. Document retrieving apparatus and document retrieving method
US20110145714A1 (en) * 2009-12-15 2011-06-16 At&T Intellectual Property I, L.P. System and method for web-integrated statistical analysis
US20230153347A1 (en) * 2011-07-05 2023-05-18 Michael Stewart Shunock System and method for annotating images
US9639518B1 (en) 2011-09-23 2017-05-02 Amazon Technologies, Inc. Identifying entities in a digital work
US9613003B1 (en) 2011-09-23 2017-04-04 Amazon Technologies, Inc. Identifying topics in a digital work
US9471547B1 (en) 2011-09-23 2016-10-18 Amazon Technologies, Inc. Navigating supplemental information for a digital work
US9449526B1 (en) 2011-09-23 2016-09-20 Amazon Technologies, Inc. Generating a game related to a digital work
US9304584B2 (en) 2012-05-31 2016-04-05 Ca, Inc. System, apparatus, and method for identifying related content based on eye movements

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03246764A (ja) * 1990-02-26 1991-11-05 Nippon Telegr & Teleph Corp <Ntt> データベース検索システム
US5301109A (en) * 1990-06-11 1994-04-05 Bell Communications Research, Inc. Computerized cross-language document retrieval using latent semantic indexing
JPH11134363A (ja) * 1997-10-29 1999-05-21 Ip Support:Kk 特許情報処理方法及び特許情報処理システム
JP3829506B2 (ja) * 1998-11-27 2006-10-04 セイコーエプソン株式会社 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
JP3463010B2 (ja) * 1999-09-17 2003-11-05 Necエレクトロニクス株式会社 情報処理装置および情報処理方法
US7225180B2 (en) * 2000-08-08 2007-05-29 Aol Llc Filtering search results
JP2002358309A (ja) * 2001-06-04 2002-12-13 Hitachi Software Eng Co Ltd プロファイルデータベース及びプロファイル作成方法
JP2002366557A (ja) * 2001-06-11 2002-12-20 Japan China Industrial Communications Co Ltd 検索装置、コンピュータプログラム及び記録媒体
JP4495886B2 (ja) * 2001-08-09 2010-07-07 株式会社日立製作所 音声入力認識文例集の管理方法
US20030130994A1 (en) * 2001-09-26 2003-07-10 Contentscan, Inc. Method, system, and software for retrieving information based on front and back matter data
JP2003203091A (ja) * 2002-01-09 2003-07-18 Seiko Epson Corp 文書速読支援装置、文書速読支援方法、文書速読支援プログラムおよび記録媒体
US6907431B2 (en) * 2002-05-03 2005-06-14 Hewlett-Packard Development Company, L.P. Method for determining a logical structure of a document
JP2003330966A (ja) * 2002-05-13 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体
JP4116329B2 (ja) * 2002-05-27 2008-07-09 株式会社日立製作所 文書情報表示システム、文書情報表示方法及び文書検索方法
JP2004021445A (ja) * 2002-06-14 2004-01-22 Nri & Ncc Co Ltd テキストデータ分析システム、テキストデータ分析方法およびコンピュータプログラム
JP2004220111A (ja) * 2003-01-09 2004-08-05 Canon Inc 文書要約装置

Also Published As

Publication number Publication date
US20050203889A1 (en) 2005-09-15
JP2005259088A (ja) 2005-09-22
US7903884B2 (en) 2011-03-08

Similar Documents

Publication Publication Date Title
Rousseau Journal evaluation: Technical and practical issues
KR102158352B1 (ko) 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램
US7451124B2 (en) Method of analyzing documents
Shah et al. Information extraction from full text scientific articles: where are the keywords?
JP5662961B2 (ja) レビュー処理方法およびシステム
JP4066600B2 (ja) 多言語文書検索システム
US7903884B2 (en) System and computer software program for visibly processing an observed information&#39;s relationship with knowledge accumulations
Trappey et al. An R&D knowledge management method for patent document summarization
KR20130056207A (ko) 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램
Weisser et al. Pseudo-document simulation for comparing LDA, GSDMM and GPM topic models on short and sparse text using Twitter data
Wu et al. Evaluation of negation and uncertainty detection and its impact on precision and recall in search
KR101377447B1 (ko) 태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템
CN116308758B (zh) 一种基于大数据的金融风险分析方法及系统
CN111373386A (zh) 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
Alimova et al. Russia and post-Soviet countries compared: Coverage of papers by Scopus and Web of Science, languages, and productivity of researchers
Bartol et al. Nano language and distribution of article title terms according to power laws
Khan et al. Metadata for Efficient Management of Digital News Articles in Multilingual News Archives
WO2022130579A1 (ja) 類似度判定プログラム、類似度判定装置、及び、類似度判定方法
Kaptein et al. Word clouds of multiple search results
Ikeda et al. Automatically Linking News Articles to Blog Entries.
JP5284761B2 (ja) 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体
Jacsó The problems with the subject categories schema in the EigenFactor database from the perspective of ranking journals by their prestige and impact
Roy et al. Prioritization, clustering and functional annotation of MicroRNAs using latent semantic indexing of MEDLINE abstracts
Nitsche et al. Development of an end-to-end deep learning pipeline
SivaKumar et al. Indian languages IR using latent semantic indexing

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081007

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081008

R150 Certificate of patent or registration of utility model

Ref document number: 4202287

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111017

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121017

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131017

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term