JP2006099388A

JP2006099388A - テキストマイニングサーバ及びテキストマイニングシステム

Info

Publication number: JP2006099388A
Application number: JP2004284291A
Authority: JP
Inventors: Yuji Morikawa; 裕二森川; Sada Mizunuma; 貞水沼; So Tsunezuka; 創常塚; Ayako Fujisaki; 綾子藤崎; Eisuke Kurihara; 英輔栗原
Original assignee: Hitachi Software Engineering Co Ltd
Current assignee: Hitachi Software Engineering Co Ltd
Priority date: 2004-09-29
Filing date: 2004-09-29
Publication date: 2006-04-13
Also published as: US20060080296A1

Abstract

【課題】複数の遺伝子からなる遺伝子群全体の特徴を簡単に把握したい。
【解決手段】クライアントから複数の検索キーを受け付け（１０２Ａ）検索キーと文献群の対応関係が記録されているテーブルを参照し、受け付けた複数の検索キーにそれぞれ対応する文献群のセットを取得する（１０２Ｂ）。次に、検索キーのそれぞれについて相対重要度を持つ特徴語リストを作成し（１０２C）、それらを基に特徴一覧表を作成する（１０２D）。最終的に特徴一覧表をソートし（１０３Ｂ）、彩色を行い表示する（１０３Ｃ）。
【選択図】図１１

Description

本発明は、ライフサイエンス分野で実験結果の解析を行うテキストマイニングサーバ及びテキストマイニングシステムに関する。

ライフサイエンス分野においては情報の多くがテキスト形式の文書で保存され、その量の多さ故にユーザが本当に必要とする情報まで辿り着くことが困難になっている。近年、テキストマイニング技術が向上してきたことから、それらテキスト形式の文書に対しテキストマイニングを行い有益な情報を得る手段が広く使われるようになった。その応用として、マイクロアレイの実験結果の解析がある。マイクロアレイの実験結果の解析とは、数十から数百にも及ぶ遺伝子の特徴を何らかの形で把握することである。その実現のために遺伝子毎に関連する文献情報を取得し、得られた文献群全体に対してテキストマイニングを行うという手法がある。既知の遺伝子は公共のデータベースにユニークなIDが振られて登録されており、文献情報の取得には遺伝子毎に振られているこのKeyIDにより検索を行う。

従来のテキストマイニングは例えば、「クライアントコンピュータからサーバコンピュータにKeyIDを送信し、サーバコンピュータは受信したKeyIDをKeyID・文献リンクテーブルと比較してKeyIDに関連する文献のリストを取得する。次に、取得した文献リストに挙げられている文献のテキストから特徴語抽出プログラムを用いて特徴語リストを取得する。」といった方法１や「遺伝子・特徴語を縦軸・横軸として持ち、また要素としてその特徴語の重要度を計算し表として表示する」といった方法２があった。なお、テキストマイニングに関連する文献としては下記特許文献１がある。
特開２００３−０９９４２７号公報

テキストマイニングで望まれることは、入力した遺伝子（KeyID）群の「多く」に「強く」出てくる特徴を「簡単」に把握することである。

しかし、方法１では「多く」の（つまり複数の）遺伝子に出てくる特徴を一度に把握することが困難であるし、方法２では表の要素が数字であるため「簡単」に把握することが困難である（すなわち特徴を把握するために更に作業を行う必要がある）。また方法２において重要度に応じて色付けを行っている例もあるが、表全体の中で最も高い値を示すものが強調されるなど「多く」の遺伝子に共通して「強く」出ている特徴であるかどうかを判定することができない（すなわち値がKeyID毎の相対尺度ではなく、表全体で統一された絶対尺度で評価されていることが問題である）。

本発明は、入力された遺伝子群の多くに共通して強く出てくる特徴を簡単に把握する手段を提供することを目的とする。

上記目的を達成するため、本発明のテキストマイニングサーバは、複数の検索キーを受け付ける検索キー受付手段と、検索キーと文献群の対応関係が記録されているデータベースを検索し、受け付けた複数の検索キーにそれぞれ対応する文献群のセットを取得する手段と、受け付けた複数の検索キーのそれぞれについて、取得した文献群から特徴語を抽出し相対重要度を計算し特徴語リストを作成する特徴語リスト作成手段と、検索キー毎の特徴語リストをまとめて特徴一覧表を作成する特徴一覧表作成手段と、マイニング結果として前記特徴一覧表を出力する出力手段とを備える。またクライアントコンピュータはテキストマイニングサーバ上で作成された特徴一覧表を受信する特徴一覧表受信手段と受信した特徴一覧表をソート・色付けし表示する手段とを備える。

このテキストマイニングサーバ及びクライアントコンピュータの機能は、コンピュータプログラムによって実現される。

本発明によれば各遺伝子の特徴が相対重要度を使って表されるため、遺伝子毎に重要な特徴語が何であるかを把握でき、結果的に多くの遺伝子に共通して強く出てくる特徴を把握することができる。更にソート・色付けを行うことにより、多くの遺伝子に共通して強く出てくる特徴を視覚的に捉えることが可能となる。

以下、本発明を実施する場合の一形態を、図面を参照して具体的に説明する。
図１は、本発明によるテキストマイニングシステムの概念図である。ここに示すシステムは、KeyIDの入力・送信及び特徴一覧表の受信・彩色を行うクライアントコンピュータ（以下、単にクライアントという）１、テキストマイニングを行うテキストマイニングサーバコンピュータ（以下、単にサーバという）３、文献情報を保持する文献情報データベース４及びKeyIDと文献情報の関連テーブル（もしくはその作成元となる情報）を保持しているKeyIDデータベース５を備え、それぞれはネットワーク２によって接続されている。

クライアント１は、CPU２１１Ａ及びメモリ２１１Ｂを備えた端末装置２１１、KeyID送信プログラム２１２Ａ、特徴一覧表受信プログラム２１２Ｂ、特徴一覧表彩色プログラム２１２C及び特徴一覧表ソートプログラム２１２Ｄが格納されているハードディスク装置２１２、並びにネットワーク接続のための通信ポート２１３を備えている。サーバ３は、CPU２３１Ａ及びメモリ２３１Ｂを備えた端末装置２３１、クライアント１から送信されるKeyIDを受信するKeyID受信プログラム２３２Ａ、文献情報データベース４から後述の文献情報２３２Cを取得する文献情報取得プログラム２３２B、KeyIDデータベース５から後述のKeyID・文献リンクテーブル２３２Eを取得するKeyID・文献リンクテーブル取得プログラム２３２D、文献情報２３２Cから特徴語を抽出する特徴語リスト作成プログラム２３２Ｆ、KeyID群の特徴をまとめた特徴一覧表を作成する特徴一覧表作成プログラム２３２G、マイニング結果である特徴一覧表を送信する特徴一覧表送信プログラム２３２Hを格納したハードディスク装置２３２、並びにネットワーク接続のための通信ポート２３３を備えている。

なお、文献情報２３２Cは、文献情報データベース４の情報から必要な部分をサーバ内のハードディスク装置２３２に保持したもの、KeyID・文献リンクテーブル２３２Eは、KeyIDと文献情報の関連テーブル（もしくはその作成元となる情報）を保持しているKeyIDデータベース５から作成しサーバ内のハードディスク装置２３２に保持したものである。実際には、このようにネットワークに接続されたデータベースからテキストマイニングに使用する情報はローカルに持つようにする。

図２は、サーバ３上のハードディスク装置２３２に格納されているKeyID・文献リンクテーブル２３２Eの例である。KeyID３１と各KeyIDに関連する文献ID３２の組が格納されている。このテーブルでは例えば、KeyIDが「AA0000」の遺伝子については、これに関連する文献として「Text1」、「Text2」、「Text3」、「Text4」の４件の文献が登録されており、KeyIDが「AB1111」の遺伝子の関連文献としては「Text2」と「Text5」の２件の文献が登録されている。

図３は、サーバ３上のハードディスク装置２３２に格納されている文献情報２３２Cの一例を示した図である。文献情報２３２Cには文献ID４１と各文献IDに対する作者４２、題名４３、本文（テキスト）４４の組が格納されている。文献ID４１は図３の文献ID３２に対応している。この例では作者、題名、本文を文献情報として格納しているが、この他にアブストラクト、出版年などを文献情報として格納してもよい。

図４は、クライアント１上で稼動するKeyID送信プログラム２１２Ａの画面例である。画面上にはメニュー５１、KeyID入力フィールド５２、送信ボタン５４がある。KeyID入力フィールド５２にKeyIDを入力（例えば５３のように入力する。複数入力されてもかまわない。）し送信ボタン５４を押下することにより、入力されたKeyID５３がテキストマイニングサーバ３に送信される。

図５はサーバ３上で稼動する特徴語リスト作成プログラム２３２Fのフローチャートの一例である。特徴語リストの作成はまず、KeyID受信プログラム２３２Aが受信したKeyIDの１つを受け取り（ステップ６１A）KeyID・文献リンクテーブル２３２E（図２）と比較することにより関連文献を取得する（ステップ６１B）ことから始まる。次に取得した関連文献から語を抽出しその重要度を計算する（ステップ６１C）。重要度の計算方法は任意とするが、例としてはテキストマイニングの分野で広く使用されているtf (Term Frequency)・idf（Inverse Document Frequency）を使用する方法がある。tf・idfとは、T(W)：単語Wを含む文献の総数、N：全文献数、F(W, Q)：単語Wの文献Qでの出現頻度としたとき、単語Wの文献Qでの重要度を"F(W, Q)*Log[ N / T(W) ]"で定義する方法である。F(W, Q)がtfに相当し、Log[ N / T(W) ]がidfに相当する。なお、抽出する特徴語に関しては例えば重要度の高いものから１０個を抽出するものとする。次に、各特徴語の相対重要度を算出する（ステップ６１D）。

図６は、特徴語リスト作成プログラム２３２Fによって作成された特徴語リストの一例である。このリストにはKeyID７１とそのKeyIDの特徴語７２とその特徴語の相対重要度７３が格納されている。ここで相対重要度とは算出された各単語の重要度（tf・idf値等）を、最も高い重要度で割った値のことである。したがって各特徴語リストには相対重要度が１となる単語が必ず存在し、また相対重要度の値は1以下となる。特徴語リストは最終的に特徴一覧表作成プログラム２３２Gに渡される。

図７はサーバ３上で稼動する特徴一覧表作成プログラム２３２Gのフローチャートの一例である。特徴一覧表作成プログラム２３２GはKeyID受信プログラム２３２Aが受信したKeyIDの数だけ作成される特徴語リストから特徴一覧表を作成する。作成の手順はまず、特徴語リスト作成プログラム２３２Fにより作成された特徴語リスト群を受け取る（ステップ１１A）。次に各KeyIDの特徴語をマージしたリストXを取得し（ステップ１１B）、縦軸・横軸にそれぞれKeyID・リストXを持つ表Ｙを作成する（ステップ１１C）。そして各特徴語リストを基に作成した表Ｙの要素として相対重要度を挿入する（ステップ１１D）。

図８は特徴一覧表作成プログラム２３２Gにより作成された特徴一覧表の一例である。特徴一覧表は縦軸としてKeyID受信プログラム２３２Aが受信したKeyID８１、横軸として特徴語８２を持ち、要素として相対重要度８３を持つ。KeyID８１は図６の７１に、特徴語８２は図６の７２に、相対重要度８３は図６の７３に対応している。

図９は特徴一覧表ソートプログラム２１２Ｄによってソートされた特徴一覧表の一例である。縦軸にKeyID９１、横軸に特徴語９２を持ち、要素として相対重要度９３を持つ。ソートの対象は特徴一覧表受信プログラム２１２Ｂが受信した特徴一覧表の列であり、ソート基準は例えば次のとおりである。
(i) 各列ごとに相対重要度の合計を算出し合計値の高いものが表の左側に配置される列とする。
(ii) 上記(i)において合計値が同じ場合は各列の０より大きい重要度を持つKeyIDの個数を比較し個数が多い列が表の左側に配置されるものとする。
(iii) 上記(ii)においてKeyIDの個数が同じ場合は各列の最高値を比較し、値が高い列が表の左側に配置されるものとする。
(iv) 上記(i)〜(iii)の全てが同じであった場合はアルファベット順等とする。

このことにより、入力されたKeyID群に対し強い特徴を示す単語群が特徴一覧表の左側に集められ、特徴の把握を容易にする。

図１０は特徴一覧表彩色プログラム２１２Cによって彩色された特徴一覧表の一例である。縦軸にKeyID１１１、横軸に特徴語１１２を持ち、要素として色付けされたセル１１３を持つ。図１０は図９に対応しておりセル１１３は図９の相対重要度９３を基に色付けされている。色付けの方法は任意とするが、例えばマイクロアレイの発現解析の際に使用されるヒートマップなどを使う方法が考えられる。この色付けにより、特徴一覧表の列単位で特徴の強弱を視覚的に把握でき、また１つの列の中でも強く特徴を示しているKeyIDが何であるかを容易に把握することが可能となる。

図１１は本システムを用いたKeyIDを入力してから彩色された特徴一覧表を取得するまでの手順の例を示したフローチャートである。特徴一覧表の作成はまず、クライアント１において複数のKeyIDを入力し（ステップ１０１Ａ）、入力された複数のKeyIDをサーバ３に送信する（ステップ１０１Ｂ）ことにより開始される。サーバ３は送信されたKeyIDを受信し（ステップ１０２Ａ）、受信したKeyIDをKeyID・文献リンクテーブル２３２E（図２）と比較することによりKeyID毎に関連文献を取得する（ステップ１０２Ｂ）。続くステップ１０２Ｃでは、特徴語リスト作成プログラム２３２Fを各KeyIDの関連文献に対して実行し、KeyID毎に特徴語リスト（図６）を作成する。更に作成した特徴語リスト群から特徴一覧作成プログラム２３２Gを用いて特徴一覧表を作成（ステップ１０２D）し、特徴一覧表送信プログラム２３２Hによってクライアント１に送信する（ステップ１０２E）。クライアント１は送信された特徴一覧表を受信し（ステップ１０３A）、特徴一覧表ソートプログラム２１２Ｄを用いて彩色・表示を行い（ステップ１０３Ｂ）、特徴一覧表彩色プログラム２１２Cを用いて彩色・表示を行い（ステップ１０３Ｃ）、一連の流れが終了する。

本発明によるテキストマイニングシステムの概念図。 KeyID・文献リンクテーブルの例を示す図。文献情報の例を示す図。 KeyID送信プログラムの画面例を示す図。特徴語リスト作成プログラムのフローチャートの例を示す図。特徴語リストの例を示す図。特徴一覧表作成プログラムのフローチャートの例を示す図。特徴一覧表の例を示す図。ソートされた特徴一覧表の例を示す図。彩色された特徴一覧表の例を示す図。本発明によるテキストマイニングのフローチャートの例を示す図。

符号の説明

１…クライアントコンピュータ、２…ネットワーク、３…テキストマイニングサーバコンピュータ、４…文献情報データベース、５…KeyIDデータベース

Claims

複数の検索キーを受け付ける検索キー受付手段と、
検索キーと文献群の対応関係が記録されているデータベースを検索し、前記受け付けた複数の検索キーにそれぞれ対応する文献群のセットを取得する手段と、
前記受け付けた検索キー毎に、当該検索キーに対応する文献群のセットから特徴語と特徴語の相対重要度を抽出し特徴語リストを作成する特徴語リスト作成手段と、
前記検索キーの数だけ作成された特徴語リストから特徴語をマージした特徴一覧表を作成する特徴一覧表作成手段と、
マイニング結果として前記特徴一覧表を出力する出力手段と、
を備えることを特徴とするテキストマイニングサーバ。
請求項１記載のテキストマイニングサーバにおいて、前記検索キー受付手段はクライアントコンピュータから複数の検索キーを受信し、前記出力手段は前記マイニング結果を前記クライアントコンピュータに送信することを特徴とするテキストマイニングサーバ。
請求項１又は２記載のテキストマイニングサーバにおいて、前記検索キーは遺伝子を特定する識別記号であることを特徴とするテキストマイニングサーバ。
コンピュータを請求項１〜３のいずれか１項記載のテキストマイニングサーバとして動作させるためのプログラム。
請求項２記載のテキストマイニングサーバとクライアントコンピュータを含み、
前記クライアントコンピュータは、
前記テキストマイニングサーバへ複数の検索キーを送信する検索キー送信手段と、
前記テキストマイニングサーバから前記特徴一覧表を受信する特徴一覧表受信手段と、
前記受信した特徴一覧表をソートする特徴一覧ソート手段と
前記ソートした特徴一覧表を彩色する特徴一覧表彩色手段と、
を備えることを特徴とするテキストマイニングシステム。
請求項５記載のテキストマイニングシステムにおいて、前記検索キーは遺伝子を特定する識別記号であることを特徴とするテキストマイニングシステム。