JP2007157164A

JP2007157164A - 情報抽出群集化システム及びその方法

Info

Publication number: JP2007157164A
Application number: JP2006331889A
Authority: JP
Inventors: Sung Hee Park; スンヘパク; Dae Hee Kim; デヘキム; Chan Yong Park; チャンヨンパク; Seon Hee Park; ソンヘパク
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2005-12-08
Filing date: 2006-12-08
Publication date: 2007-06-21
Also published as: EP1796009A2; US7716169B2; EP1796009A3; US20070136277A1

Abstract

【課題】情報抽出群集化システム及びその方法を提供する。
【解決手段】本発明に係る情報抽出群集化システムは、複数の群集化基準を階層別に再構成するか、または群集化基準に加重値を付与して新たな群集化基準を設計する群集化基準設計部と、新たな群集化基準によって入力データから該当特徴を抽出する入力データ処理部と、抽出された特徴を群集化する群集化演算部とを備えることを特徴とする。これにより、ユーザが所望する基準によって多様な群集化を行うことができる。
【選択図】図１

Description

本発明は一般に、入力データから有用な情報を抽出して群集化するシステム及びその方法に関し、より詳細には、ユーザが所望する基準によって有用な情報の群集化を可能にするシステム及びその方法に関する。

多数のデータから情報を抽出する最も一般的な方法のうちの１つに、群集化がある。この方法は、監督者なしに入力されたデータから群集、すなわち、類似特性を有する集団を、「自然的に」形成せしめることである。自然的に群集を形成せしめる基準は、一般的に特定の群集化システム内であらかじめ定義されている。

しかしながら、従来の群集化は、一般的に群集化システムに定義された基準に依存し、ユーザが所望する基準によって群集化を実施することが制限されるという問題がある。

本発明は、このような問題を鑑みてなされたものであり、その目的とするところは、従来の多様な群集化基準をユーザが所望する基準によって再構成し、その再構成された基準によって入力データから有用な情報を抽出して群集化を行うシステム及びその方法を提供することである。

このような目的を達成するために、本発明による情報抽出群集化システムの一実施形態は、複数の群集化基準を階層別に再構成するか、または前記群集化基準に加重値を付与して新たな群集化基準を設計する群集化基準設計部と、前記新たな群集化基準によって入力データから該当特徴を抽出する入力データ処理部と、前記抽出された特徴を群集化する群集化演算部とを備えることを特徴とする。

また、本発明による情報抽出群集化方法の一実施形態は、複数の群集化基準を階層別に再構成するか、または前記群集化基準に加重値を付与して新たな群集化基準を設計するステップと、前記新たな群集化基準によって入力データから該当特徴を抽出するステップと、前記抽出された特徴を群集化するステップとを含むことを特徴とする。

本発明によれば、ユーザが所望する基準によって多様な群集化を行うことができ、一般的に群集化システム内にあらかじめ定義される一つまたはそれ以上の基準を再構成して、ユーザが群集化システムを効率的に使用することが可能となる。

以下、添付の図面を参照して、本発明をさらに詳細に説明する。
図１は、本発明による情報抽出群集化システムの一実施形態の構成を示す図面である。

図１を参照すれば、情報抽出群集化システムは、群集化基準記録／削除部１００、群集化基準データベース１１０、群集化基準設計部１２０、入力データ処理部１３０、群集化用の特徴データベース１４０及び群集化演算部１５０を備える。

群集化基準記録／削除部１００は、ユーザから群集化基準を入力されて群集化基準データベース１１０に記録するか、またはユーザの要請によって群集化基準データベース１１０に記録された群集化基準を削除する。
群集化基準データベース１１０は、群集化基準記録／削除部１００を通じて記録される群集化基準を記録する。

群集化基準設計部１２０は、群集化基準データベース１１０に記録された群集化基準を要請して伝送された後、群集化基準を階層別に再構成するか、または前記群集化基準に加重値を付与して新たな群集化基準を設計する。群集化基準設計部１２０が群集化基準データベース１１０から伝送された群集化基準を再構成する方法としては、階層構造形態（図４の４００、４１０）及び加重値適用形態（図４の４２０、４３０）の基準再構成方法がある。

加重値適用の基準再構成方法では、群集化基準をＣ１,Ｃ２,…,Ｃｎとし、各群集化基準に付与される加重値をｗ１,ｗ２,…,ｗｎとすれば、ｗ１＊Ｃ１＋ｗ２＊Ｃ２＋…＋ｗｎ＊Ｃｎのように群集化基準を設定する。
入力データ処理部１３０は、群集化基準設計部１２０によって設計された階層または加重値適用の基準式に定義された特徴抽出方法によって必要な特徴を抽出して、群集化用の特徴データベース１４０に伝送する。

群集化用の特徴データベース１４０は、群集化に使われる特徴を入力データ処理部１３０から伝送されて記録する。群集化演算部１５０が同じ特徴に対して他の群集化方法を利用して群集化を行う場合、群集化用の特徴データベース１４０に記録された特徴をそのまま利用することによって、入力データ処理部１３０の特徴抽出時間を短縮させうる。
群集化演算部１５０は、群集化用の特徴データベース１４０から特徴を伝送されて群集化を行う。群集化を行った結果は、出力装置を通じて出力される。

図２は、本発明による情報抽出群集化方法の一実施形態を示すフローチャートである。特に、図２は、図１の情報抽出群集化システムを蛋白質構造基盤の群集化システムとして使用する場合の一実施形態である。
図１及び図２を参照すれば、入力データ処理部１３０は、蛋白質３次元構造のデータベース（ＰＤＢ：ＰｒｏｔｅｉｎＤａｔａｂａｓｅ）の資料を入力データとして入力される（Ｓ２００）。図３は、蛋白質３次元構造のデータベース資料の一例を示す図である。図３を参照すれば、蛋白質３次元構造のデータベース資料には、蛋白質を構成する原子の位置情報（３次元のｘ、ｙ、ｚ座標値）が含まれている。

群集化基準設計部１２０は、群集化基準データベース１１０に記録された群集化基準を再構成して群集化基準を設計する（Ｓ２１０）。群集化基準データベース１１０に記録された群集化基準は、クラス形態で存在するので、子基準クラスは、親基準クラスを継承する。

図２で説明する蛋白質構造基盤の群集化の例で使われる群集化基準の種類としては、「２次構造の数」、「２次構造の分布」、「２次構造の順序」、「蛋白質の序列」、「３Ｄエッジヒストグラム」、「回帰分析」、「ラマチャンドランマップ基準」などがある。

例えば、新薬を開発しようとする研究者が、類似した活性部位別に群集化しようとする場合、ユーザは、「活性部位」群集化基準を、群集化基準記録／削除部１００を通じて群集化基準データベース１１０に記録する。それにより、群集化基準設計部１２０は、群集化基準データベース１１０に記録された既存の様々な群集化基準と「活性部位」群集化基準とを再構成して、群集化基準を新たに設計する。

また、他の例として、２次構造という特徴的な蛋白質構造に対して群集化を行った後、全体的に３次元構造が類似した蛋白質で群集化しようとする場合、「２次構造の数」または「２次構造分布」群集化基準でまず群集化を行った後、その結果を「３Ｄエッジヒストグラム」または「回帰分析」群集化基準で群集化を行えば、所望の構造的な群集化結果が得られる。

群集化基準設計を通じた階層的な設計の場合には、蛋白質の全体的な３次元構造でまず群集化を行った後、２次構造の数に対する群集化を行える。

また、加重値適用設計方法を利用する場合には、「２次構造の数」群集化基準には、０.３の加重値を付与し、「３Ｄエッジヒストグラム」群集化基準には、０.７の加重値を付与して群集化演算を利用しうる（図４参照）。ここで、「活性部位」群集化基準について検索したい場合には、活性部位群集化基準を追加して群集化を行える。

入力データ処理部１３０は、群集化基準設計部１２０によって設計された群集化基準によって、入力データから特徴を抽出して群集化用の特徴データベース１４０に記録する（Ｓ２２０）。すなわち、群集化に使われる様々な情報を抽出する。

例えば、蛋白質構造基盤の群集化のために抽出される特徴を参照すれば、「２次構造の数」群集化基準の場合には、まず各蛋白質の構成原子の座標が入力データとして入力され、その構成原子の座標間の距離と構成結合力とを参照して、２次構造がα−Ｈｅｌｉｘであるか、またはβ−Ｈｅｌｉｘであるかを区分して、その数を求める。すなわち、表１の通りである。

２次構造順序を群集化基準とする場合に抽出される特徴は、２次構造のＮターミナルでＣターミナル方向に形成された２次構造の順序である。この特徴を比較する場合には、一般的に序列分析に使われるストリングマッチング類似度が適用される。

３Ｄエッジヒストグラムを群集化基準とする場合に抽出される特徴は、蛋白質のバックボーンを構成する原子間の結合線の地域的な分布パターンである。

回帰分析を群集化基準とする場合、蛋白質構造の全体領域を６４個の副領域に分けて、各領域に含まれた回帰グラフを特徴とする。

ラマチャンドランマップを群集化基準とする場合に抽出される特徴は、ラマチャンドランマップの各領域に存在するφ及びχの数である。

群集化演算部１５０は、入力データ処理部によって抽出された特徴を利用して群集化を行う。群集化演算部１５０は、群集化を行うために、まず群集化方法を選択する（Ｓ２３０）。群集化方法は、従来の様々な方法を活用でき、距離基盤の群集化方法を例とすれば、Ｋ−ｍｅｎａｓ、ＩＳＯＤＡＴＡ（Iterative Self Organizing Data Techinique）、ＳＯＭ（Self Organizing Map）、階層的な群集化方法などが適用されうる。群集化に使われる様々な初期値及び群集化因子は、初期化設定過程で設定されうる。

群集化演算部１５０は、選択された群集化方法によって群集化を行い（Ｓ２４０）、群集化結果を受諾できる場合には（Ｓ２５０）、その結果を出力装置を通じて出力する（Ｓ２６０）。

例えば、蛋白質構造基盤の群集化システムで、群集化過程後に群集化された結果は、階層的な基準設計の場合に、全体的な群集化のツリー形状の階層であり、加重値基盤の基準設計の場合には、群集化階層ツリーにおけるルートからの第一の子ノードでのみ形成される階層ツリーである。群集化の結果、階層ツリーの各ノードを選択すると、ノードに含まれた群集の各資料を見ることができる。

本発明の情報抽出群集化方法はまた、コンピュータで読み取り可能な記録媒体に、コンピュータで読み取り可能なコードとして具現することが可能である。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取られるデータが記録される全ての種類の記録装置を含む。コンピュータで読み取り可能な記録媒体の例としては、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ記録装置などがあり、また搬送波（例えば、インターネットを通じた伝送）の形態で具現されるものも含む。また、コンピュータで読み取り可能な記録媒体は、ネットワークに連結されたコンピュータシステムに分散され、分散方式でコンピュータで読み取り可能なコードが記録され、かつ実行されうる。

以上、本発明についてその望ましい実施形態を中心に説明した。当業者は、本発明が、本発明の本質的な特性から逸脱しない範囲で変形された形態で具現されうるということが理解できるであろう。したがって、開示された実施形態は、限定的な観点ではなく、説明的な観点で考慮されねばならない。本発明の範囲は、前述した説明ではなく、特許請求の範囲に現れており、それと同等な範囲内にある全ての差異点は、本発明に含まれると解釈される。

本発明は、例えば、蛋白質についてのデータを群集化するシステムに適用可能である。

本発明による情報抽出群集化システムの一実施形態の構成を示す図である。本発明による情報抽出群集化方法の一実施形態を示すフローチャートである。蛋白質の３次元構造データベース資料の一例を示す図である。本発明による群集化基準設計の一例を示す図である。

符号の説明

１００群集化基準記録／削除部
１１０群集化基準データベース
１２０群集化基準設計部
１３０入力データ処理部
１４０群集化用の特徴データベース
１５０群集化演算部

Claims

複数の群集化基準を階層別に再構成するか、または前記群集化基準に加重値を付与して新たな群集化基準を設計する群集化基準設計部と、
前記新たな群集化基準によって入力データから該当特徴を抽出する入力データ処理部と、
前記抽出された特徴を群集化する群集化演算部と
を備えることを特徴とする情報抽出群集化システム。
前記複数の群集化基準を記録する群集化基準データベースをさらに備えることを特徴とする請求項１に記載の情報抽出群集化システム。
ユーザの要請によって新たな群集化基準を前記群集化基準データベースに追加するか、または前記群集化基準データベースに記録された群集化基準を削除する群集化基準記録／削除部をさらに備えることを特徴とする請求項２に記載の情報抽出群集化システム。
前記入力データ処理部によって抽出された特徴を記録する群集化用の特徴データベースをさらに備え、
前記群集化演算部は、前記群集化用の特徴データベースに記録された特徴に対して群集化を行うことを特徴とする請求項１に記載の情報抽出群集化システム。
前記複数の群集化基準は、２次構造の数、２次構造の分布、２次構造の順序、蛋白質序列、３Ｄエッジヒストグラム、回帰分析、ラマチャンドランマップを含む蛋白質構造に関する群集化基準を含み、
前記入力データは、蛋白質３次元構造データベースの資料であることを特徴とする請求項１に記載の情報抽出群集化システム。
前記群集化演算部は、Ｋ−ｍｅａｎｓ、ＩＳＯＤＡＴＡ、ＳＯＭ、階層的群集化を含む群集化方法のうち何れか一つの群集化方法に基づいて前記特徴を群集化することを特徴とする請求項１に記載の情報抽出群集化システム。
複数の群集化基準を階層別に再構成するか、または前記群集化基準に加重値を付与して新たな群集化基準を設計するステップと、
前記新たな群集化基準によって入力データから該当特徴を抽出するステップと、
前記抽出された特徴を群集化するステップと
を含むことを特徴とする情報抽出群集化方法。
前記複数の群集化基準は、２次構造の数、２次構造の分布、２次構造の順序、蛋白質序列、３Ｄエッジヒストグラム、回帰分析、ラマチャンドランマップを含む蛋白質構造に関する群集化基準を含み、
前記入力データは、蛋白質３次元構造データベースの資料であることを特徴とする請求項７に記載の情報抽出群集化方法。
前記群集化ステップは、Ｋ−ｍｅａｎｓ、ＩＳＯＤＡＴＡ、ＳＯＭ、階層的群集化を含む群集化方法のうち何れか一つの群集化方法に基づいて前記特徴を群集化するステップを含むことを特徴とする請求項７に記載の情報抽出群集化方法。