JP4576194B2 - 化合物構造推定装置、化合物構造推定方法及びそのプログラム - Google Patents

化合物構造推定装置、化合物構造推定方法及びそのプログラム Download PDF

Info

Publication number
JP4576194B2
JP4576194B2 JP2004296915A JP2004296915A JP4576194B2 JP 4576194 B2 JP4576194 B2 JP 4576194B2 JP 2004296915 A JP2004296915 A JP 2004296915A JP 2004296915 A JP2004296915 A JP 2004296915A JP 4576194 B2 JP4576194 B2 JP 4576194B2
Authority
JP
Japan
Prior art keywords
compound
information
group
compounds
partial path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004296915A
Other languages
English (en)
Other versions
JP2006107393A (ja
Inventor
大亮 西川
公徳 嶋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NS Solutions Corp
Original Assignee
NS Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NS Solutions Corp filed Critical NS Solutions Corp
Priority to JP2004296915A priority Critical patent/JP4576194B2/ja
Publication of JP2006107393A publication Critical patent/JP2006107393A/ja
Application granted granted Critical
Publication of JP4576194B2 publication Critical patent/JP4576194B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、複数の化合物に共通する特徴的な構造を推定する化合物構造推定装置、化合物構造推定方法及びそのプログラムに関するものである。
従来の創薬において、複数の化合物に共通する特徴を抽出して化合物の分類を行う手法について幾つか提案がなされている。例えば、複数の化合物の集合において各化合物内の1特徴の有る/無しで集合を分割して、その分割処理を再帰的に繰り返すことによって、二分木を作成して化合物を分類していく技術が開示されている(例えば、特許文献1を参照。)。
特表2001−523233号公報
ところで、近年では化合物の構造情報に関するデータベースも充実して来ており、大量の化合物の構造情報を基に、特定のグループに属する化合物に共通する構造的な特徴を簡便に把握することができる技術についても望まれるようになっている。
本発明は、上述した事情を考慮してなされたもので、特定のグループに属する化合物に共通する構造的な特徴を抽出することができる化合物構造推定装置、化合物構造推定方法及びそのプログラムを提供することを目的とする。
また、利用者に対して化合物の構造における特徴部分が視覚的にも把握しやすいよう化合物の構造図を表示することができる化合物構造推定装置、化合物構造推定方法及びそのプログラムを提供することを目的とする。
この発明は、上述した課題を解決すべくなされたもので、本発明による化合物構造推定装置においては、複数の化合物に関する情報として少なくとも化合物の構造に関する情報を含む化合物情報を格納する化合物情報データベースから前記化合物情報と、特定の細胞に対する薬理活性又は毒性があると推定される化合物のグループを特定するグループ情報とを参照可能な化合物構造推定装置であって、種々の化合物の構造における一部の元素のつながりを抽出した部分パスに関する情報を格納する部分パス情報データベースと、前記化合物情報データベースから参照する前記化合物情報と前記部分パス情報データベースから参照する前記部分パスに関する情報とを基に、各化合物に対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出手段と、前記部分パス情報データベースに格納されている各部分パスについて、前記算出手段が算出した各化合物の前記部分パス有無情報を基に、前記化合物情報データベースに前記化合物情報が格納されている化合物群であって母集団となる第1の化合物群における前記部分パスの出現確率と、前記第1の化合物群のうち、前記グループ情報に基づいて特定される第2の化合物群における前記部分パスの出現確率とのオッズ比を算出し、前記オッズ比が予め定められた閾値以上または以下となる部分パスを前記第2の化合物群における特徴部分パスとして特定する比較手段とを具備することを特徴とする。
これにより、本発明による化合物構造推定装置は、第2の化合物群に共通の構造的な特徴となる特徴部分パスを特定することができる。すなわち、特定のグループに属する化合物に共通する構造的な特徴を抽出することができる。ここで、部分パス有無情報とは、例えば部分パスの有無を数字の「1」、「0」の羅列で示した情報であり、各数字の並びは、例えば部分パスに付与された識別番号の順番となっている。
また、本発明による化合物構造推定装置の一態様例においては、上記比較手段が特定した特徴部分パスの一部又は全部を含む2次元的な化学構造を推定する構造推定手段を更に具備することを特徴とする。
これにより、第2の化合物群に共通の構造的な特徴となる特徴部分パスを有する化合物を特定することができる。
また、本発明による化合物構造推定装置の一態様例においては、表示手段と、構造推定手段が推定した2次元的な化学構造を表示手段に表示する処理を行う表示処理手段とを更に具備することを特徴とする。
これにより、第2の化合物群に共通の構造的な特徴となる特徴部分パスを有する化合物の2次元的な化学構造を利用者に示すことができ、利用者は、特定のグループに属する化合物(第2の化合物群)に共通する構造的な特徴を簡便に把握することが可能となる。
また、本発明による化合物構造推定装置の一態様例においては、上記表示処理手段は、2次元的な化学構造を表示する場合に、特徴部分パスに関する情報を合わせて表示手段に表示することを特徴とする。
これにより、第2の化合物群に共通の構造的な特徴となる特徴部分パスを、化合物の2次元的な化学構造と合わせて、利用者に示すことができ、利用者は、特定のグループに属する化合物(第2の化合物群)に共通する構造的な特徴である特徴部分パスを簡便に把握することが可能となる。
また、本発明による化合物構造推定装置の一態様例においては、前記グループ情報で特定される化合物群の化合物うち、前記部分パス有無情報の類似する化合物をまとめてクラスタとして分類し、分類されたクラスタのうちクラスタに含まれる化合物数が最大のクラスタを前記第2の化合物群として特定する分類処理手段を更に具備していることを特徴とする。
これにより、第2の化合物群における部分パス有無情報にバラツキがあっても、精度のよい特徴部分パスを特定することができる。
また、本発明による化合物構造推定方法においては、複数の化合物に関する情報として少なくとも化合物の構造に関する情報を含む化合物情報を格納する化合物情報データベースから前記化合物情報と、特定の細胞に対する薬理活性又は毒性があると推定される化合物のグループを特定するグループ情報とを参照可能であり、算出手段と、比較手段とを具備する化合物構造推定装置を用いた化合物構造推定方法であって、前記算出手段が、種々の化合物の構造における一部の元素のつながりを抽出した部分パスに関する情報を格納する部分パス情報データベースから参照する前記部分パスに関する情報と、前記化合物情報データベースから参照する前記化合物情報とを基に、各化合物に対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出ステップと、前記比較手段が、前記部分パス情報データベースに格納されている各部分パスについて、前記算出ステップで算出した各化合物の前記部分パス有無情報を基に、前記化合物情報データベースに前記化合物情報が格納されている化合物群であって母集団となる第1の化合物群における前記部分パスの出現確率と、前記第1の化合物群のうち、前記グループ情報に基づいて特定される第2の化合物群における前記部分パスの出現確率とのオッズ比を算出し、前記オッズ比が予め定められた閾値以上または以下となる部分パスを前記第2の化合物群における特徴部分パスとして特定する比較ステップとを有することを特徴とする。
また、本発明によるプログラムは、複数の化合物に関する情報として少なくとも化合物の構造に関する情報を含む化合物情報を格納する化合物情報データベースから前記化合物情報と、特定の細胞に対する薬理活性又は毒性があると推定される化合物のグループを特定するグループ情報とを参照可能なコンピュータを、種々の化合物の構造における一部の元素のつながりを抽出した部分パスに関する情報を格納する部分パス情報データベースから参照する前記部分パスに関する情報と、前記化合物情報データベースから参照する前記化合物情報とを基に、各化合物に対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出手段と、前記部分パス情報データベースに格納されている各部分パスについて、前記算出手段が算出した各化合物の前記部分パス有無情報を基に、前記化合物情報データベースに前記化合物情報が格納されている化合物群であって母集団となる第1の化合物群における前記部分パスの出現確率と、前記第1の化合物群のうち、前記グループ情報に基づいて特定される第2の化合物群における前記部分パスの出現確率とのオッズ比を算出し、前記オッズ比が予め定められた閾値以上または以下となる部分パスを前記第2の化合物群における特徴部分パスとして特定する比較手段して機能させるプログラムである。
本発明による化合物構造推定装置、化合物構造推定方法及びそのプログラムによれば、特定のグループに属する化合物に共通する構造的な特徴を簡便に把握することができる。
以下、本発明の実施の形態を説明する。
本発明の一実施形態における化合物構造推定装置は、特定のグループに属している化合物(例えば特定の疾患等に対する効き目がある化合物)に共通する構造的な特徴を推定する装置であり、以下にその概略構成について説明を行う。図1は、本実施形態における化合物構造推定装置の概略構成を示す図である。
図1において、1は、化合物構造推定装置であり、例えば癌細胞に対して薬理活性を有する複数の化合物において、共通する構造的な特徴を推定する処理を行う。2は、化合物構造推定装置1が備える表示装置であり、例えばCRT(Cathode Ray Tube)や液晶ディスプレイなどである。尚、化合物構造推定装置1は、図示していないが、マウスやキーボードなどの入力装置を具備する。
次に、化合物構造推定装置1の内部の機能構成について説明する。11は、制御部であり、化合物構造推定装置1内の各処理部の制御や、データの流れの制御を行う。12は、データベースであり、化合物情報データベース12a、グループ情報12b、及び部分パス情報データベース12cを備える。化合物情報データベース12aは、化合物の名称、構造情報(化学記号及びその接続関係の情報)、構造図(2次元又は3次元の分子構造図)など、化合物に関する種々の情報を格納する。
グループ情報12bは、例えば特定の疾患等に対する効き目がある化合物のグループを特定する情報(グループ名など)と、そのグループに属する化合物の名称とを関連付けた情報である。本実施形態では、化合物の薬理活性や毒性ついて未知の細胞情報に対して、薬理活性又は毒性を有する化合物として推定された複数の化合物のグループ(以下、グループAとする)に関する情報がグループ情報12bに格納されているとする。
部分バス情報データベース12cは、種々の化合物の一部のパス(元素のつながり)を抽出した部分パスにID(識別子)を付与した情報を格納する。図2は、図1に示した部分バス情報データベース12cの情報構成例を示す図である。図2に示すように、部分パスに対してIDが付与されている。尚、本実施形態において化合物情報データベース12aに格納されている化合物は約4000種類の化合物であり、部分パス情報データベース12cには、約1万個の部分パスに関する情報が格納されている。尚、本実施形態における部分パスは、例えば9パス以下の連結パスであり、実存する化合物の集団において、出現頻度1.0〜0.002までのパスを算出したものである。尚、この部分パスの算出時には水素原子についてのパスを除外している。
13は、FP算出処理部であり、化合物情報データベース12aに格納されている全化合物各々に対して、部分パス情報データベース12cから参照する各部分パスを含むか否かを「1」、「0」で示した数字の羅列であるFP(Finger Print)を算出する。具体的には、FP算出処理部13は、化合物δのFP(部分パス有無情報)として、構造特徴であるベクトル変数f(δ)(=FP)を以下に示す式1、2を計算することにより算出する。
Figure 0004576194
ここで、式1、2に示したθ、Θ、Π(δ)について説明する。本実施形態では、化合物を無向グラフと考え、原子を点、結合を辺とみなし、f(δ)の各要素を特定のパスθ(以下、部分パスθとする)を含むか否かの2値として扱う。図2に示したように、部分パスθは例えば「C−C=O」といった形で表現できる。ベクトル変数f(δ)の各要素に対応する部分パスθの集合Θを部分パス情報データベース12cに格納される全部分パスの集合とする。また、化合物δの全パスの内、集合Θに含まれるパス集合をΠ(δ)とすると、以下の式3、4が成り立つ。
Figure 0004576194
14は、FP格納部であり、FP算出処理部13が算出した全化合物のFPに関する情報を格納する。尚、本実施形態の部分パスθの個数(約1万個)と、FPであるベクトル変数f(δ)に含まれる「1」及び「0」の個数は同数となる。
15は、FP分類処理部であり、グループ情報12bで指定される特定のグループに属する化合物δ1、δ2間のFPの類似度を算出してクラスタリングを行うことで、グループに属する化合物のFPを分類する。この際、FP分類処理部15は、FP格納部14から化合物δ1及びδ2のFPを参照する。具体的には、まず、FP分類処理部15は、化合物δ1、δ2間の類似度t(δ1、δ2)を、以下の「Tanimoto measure」である式5に基づいて算出する。
Figure 0004576194
ここでFP分類処理部15が式5により求める類似度t(δ1、δ2)の値域は0≦t(δ1、δ2)≦1であり、二つの化合物がFP上で同一の構造特徴を持つ場合に類似度tの値は1となる。
次に、FP分類処理部15は、式5で求めた類似度tに基づくクラスタリングを行う。具体的には、FP分類処理部15は、類似度t(δ1、δ2)に基づいてグループ情報12bに格納される化合物の集合(以下、集合Ψとする)をクラスタリングする。本実施形態のFP分類処理部15が、クラスタリングに用いるアルゴリズムは例えば「Hieratical nearest neighborロジック」である。このロジックでは、集合Ψの要素間における類似度tの最大値である最大距離Tの半分以下の類似度となる要素群を一つのクラスタとして扱う。
図4は、図1に示したFP分類処理部15によるクラスタリングの結果例及びクラスタ別の骨格構造分布表示例を示す図である。図4において、41は、FP分類処理部15が分類したクラスタの中で含まれる化合物数が最大のクラスタ(以下、最大クラスタとする)である。42は、最大クラスタ41の骨格構造分布図であり、利用者が骨格構造の有無を把握しやすい表示形式で表示したものである。尚、以下の説明において、化合物情報データベース12aに格納されている全ての化合物δの集合を母集団Δとする。
具体的には、骨格構造分布図42には、最大クラスタ41と母集団Δとの各部分パスの出現確率の違いを、色の違いで示した縦縞として表示している。すなわち、骨格構造分布図42において、縦縞が多いほど最大クラスタ41は、母集団Δと異なる骨格構造を有すると言える。
尚、本実施形態において「骨格構造」とは、特定集団において、特定の部分パスθが母集団Δよりも極端に高い又は低い出現頻度を持つ場合(=オッズ比οの値が閾値(KU又はKL)より高い又は低い場合)に、その特定集団は部分パスθという「骨格構造」を有すると定義する。
次に、FP比較処理部16は、FP分類処理部15が分類したクラスタにおいて、クラスタに含まれる化合物数が最大の最大クラスタ41のFPと、FP格納部14から参照する母集団Δとなる全化合物のFPと比較することで、最大クラスタ41の特徴的な骨格構造を求める。尚、本実施形態において、各部分パスθにおける特定集団(ここでは最大クラスタ41のFP)と母集団Δ(ここでは全化合物のFP)間の出現確率の比を、オッズ比οとして定義する。すなわち、FP比較処理部16は、最大クラスタ41のFPと母集団ΔのFPを比較することで、最大クラスタ41において出現頻度の高い(又は低い)部分パス(特徴部分パス)θを特定して、骨格構造として出力する。
具体的には、FP比較処理部16は、最大クラスタ41(以下、特定集団Ψとする)と化合物の母集団Δに基づく骨格構造bを、オッズ比οを用いた以下の式6〜8を計算することで求める。
Figure 0004576194
式6〜8を見れば分かるように、骨格構造bにおいて、ιが1又は0となっている箇所に対応する部分パスθが、骨格構造となる。また、式8のKUとKLは、パラメータであり、それぞれ部分パスθの存在を骨格構造とみなすための閾値と、部分パスθの不在を骨格構造とみなすための閾値とを示す。
また、FP比較処理部16は、上述したオッズ比οを、以下の式9により算出する。
Figure 0004576194
この式9においては、特定集団Ψ内と母集団Δ内に部分パスθが存在する確率をそれぞれy1、g1として、オッズ比ο(y1,g1)を求めている。式9において、上から7つ目までの場合分けは例外ケースを記述しているものであり、通常は、8つ目のο(y1,g1)=(y1/(1−y1))/(g1/(1−g1))を求める。尚、y1=1∨y1=0の場合(式9の上から6、7番目のケース)には、上述した式8の評価式の代わりに、以下の式10を用いる。
Figure 0004576194
図5は、図1に示したFP比較処理部16が、求めた部分パス別のオッズ比の例を示す図である。尚、図5の例においては、例えば上述した閾値KU=100、KL=0.01とした場合に、閾値KU=100を超えた部分パスの内上位15個を降順に示している。図5において、部分パス51、52は、オッズ比οが1番、2番目に高いパスである。FP比較処理部16は、図5に示した部分パスを含む閾値KU=100を超えた部分パスに対応する部分を「1」とする骨格構造bを出力する。
17は、構造推定処理部であり、FP比較処理部16が求めた骨格構造bを最も多く含む化合物の2次元的な構造を推定する。具体的には、構造推定処理部17は、化合物情報データベース12aから既存の化合物の構造を参照することで、FP比較処理部16が求めた骨格構造bで指定される部分パスを含む化合物を推定して、その化合物名や化合物の2次元的な構造図を特定する。
18は、表示処理部であり、構造推定処理部17が推定した化合物の2次元的な構造図を表示装置2に表示する。図6は、表示処理部18が表示装置2に表示する化合物の2次元的な構造図の例を示す図である。図6に示すように、表示処理部18は、化合物61の構造図上に、オッズ比οが1、2番目に高かった部分パス51、52をそれぞれ異なる点線で示している。尚、図6に示した化合物61は、Benzothiophenedione構造体を含む化合物(以下、化合物Bとする)である。
次に、図1に示した化合物構造推定装置1における化合物の構造の推定処理について、具体例を示して説明する。図3は、図1に示した化合物構造推定装置1における化合物の構造の推定処理を示すフロー図である。
尚、図3の処理を説明するに当たり、具体例として、癌細胞の一種であるMEL−UACC−257に対して薬理活性のあると推定された50個の化合物のグループがグループ情報12bに格納されている場合の処理結果例も合わせて説明する。癌細胞「MEL−UACC−257」に対しては上記化合物Bが薬理活性を有することが分かっており、グループ情報12bに格納された化合物には、化合物Bが母集団よりも高確率で含まれている。具体的には、例えば母集団(例えば4444個の化合物)における化合物Bの割合は約0.5%であるが、グループ情報12bに格納されている化合物において化合物Bが含まれる割合は20%(10個)であるとする。このようなグループ情報12bと母集団を比較することで、化合物Bを特定できるような骨格構造を推定することができれば、本実施形態の化合物構造推定装置1における化合物の構造推定処理は有効なものであるといえる。
まず、ステップS1において、FP算出処理部13は、化合物情報データベース12aに格納されている全化合物各々に対して、部分パス情報データベース12cから参照する各部分パスを含むか否かを「1」、「0」で示した数字の羅列であるFPを算出する。これにより、FP格納部14にFP算出処理部13が算出した各化合物別のFPが格納される。具体例では、FP算出処理部13は、化合物情報データベース12aに格納されている4444個の化合物各々に対して、部分パス情報データベース12cから参照する約1万個の部分パスの各々が含まれているか否かを判断してFPを算出した。
次に、ステップS2において、FP分類処理部15は、グループ情報12bに格納されている薬理活性が有ると推定された化合物間のFPの類似度を算出してクラスタリングを行う。具体例では、グループ情報12bに含まれる50個の化合物をクラスタリング処理することで、上述した化合物Bを含む構造の10個の化合物が同じクラスタに分類され、例えば図4に示した最大クラスタ41を得た。
このように、クラスタリングする理由としては、精度良く共通する構造である部分パスを抽出するためである。すなわち、構成が類似していない化合物の集団からは精度よく共通の部分パスを抽出することが困難だからである。以上の理由により、例えば、グループ情報12bに格納されている薬理活性が有ると推定された全ての化合物の構造が類似している場合には、クラスタリングの必要はない。
次に、ステップS3、S4において、FP比較処理部16は、FP分類処理部15が分類したクラスタにおいて、クラスタに含まれる化合物数が最大の最大クラスタ41のFPと、FP格納部14から参照する母集団Δとなる全化合物のFPと比較して、図5に示したように部分パス毎のオッズ比を算出して、所定の閾値以上(又は所定の閾値以下)のオッズ比となった部分パスを特定する情報を、最大クラスタ41の骨格構造として出力する。具体例では、図5に示したように、FP比較処理部16は、15個以上の部分パスをオッズ比が閾値以上と判断して、最大クラスタ41の骨格構造bとして推定している。
尚、本実施形態において最大クラスタ41を母集団Δとの比較対照とした理由は、特定の癌細胞に対する薬理活性があると推定されるグループ情報12bに含まれる50個の化合物の中で、類似する構造を有する(=同一クラスタに分類される)化合物の最大グループに共通の特徴的な構造が、特定の癌細胞に対する薬理活性に関係しているのではないかと推測したためである。もちろん、FP比較処理部16は、FP分類処理部15が分類した最大クラスタではない他のクラスタについても、母集団Δと上記と同様の比較処理を行っても良い。
次に、ステップS5において、構造推定処理部17は、FP比較処理部16が求めた骨格構造を最も多く含む化合物の2次元的な構造を推定する。具体例では、構造推定処理部17は、図6の化合物61に示すような2次元的な構造を推定している。
次に、ステップS6において、表示処理部18は、構造推定処理部17が推定した化合物の2次元的な構造図を表示装置2に表示すると共に、その構造図上に最大クラスタ41の骨格構造を構成する部分パスの一部を明示する。具体例では、表示処理部18は、図6に示すように、化合物61の2次元的な構造図を示すと共に、最大クラスタ41の骨格構造を構成する部分パスの内、オッズ比が1、2番目に高い部分パス51、52をそれぞれ異なる種類の点線で示している。これにより、化合物61の2次元的な構造の中で、どの部分パスが特徴的なパスとして認識されているかを示すことができる。
以上に説明したように、本実施形態における化合物構造推定装置1においては、特定のグループに属する化合物に共通する構造的な特徴として、母集団と比較して出現頻度の高い部分パスを特定することができる。すなわち、特定のグループに属する化合物に共通する特定の部分パスを有するという構造的な特徴を抽出することができる。更に、本実施形態における化合物構造推定装置1は、特定した部分パスを有する化合物を推定し、推定した化合物の構造情報を表示することができる。これにより、利用者は、特定のグループに属する化合物に共通する構造的な特徴を簡便に把握することができる。
尚、上述した実施形態においては、図1に示したように、化合物構造推定装置1内に化合物情報データベース12aや部分パス情報データベース12cを設けたが、この構成に限定されるものではなく、例えば、化合物構造推定装置1がネットワーク接続機能を備えることで、それらのデータベースを外部に設けて、ネットワークを介してデータベースにアクセスする構成であってもよい。
また、上述した実施形態において、図1に示した化合物構造推定装置1の各処理部は、ハードウェアとしてはメモリ及びCPU(中央演算装置)により構成され、各処理部の機能を実現する為のプログラムをメモリに読み込んでCPUが実行することによりその機能を実現するものである。また、そのような構成に限定されるものではなく、化合物構造推定装置1の各処理部における一部の処理又は全部の処理を専用のハードウェアにより実現してもよい。
また、上記メモリは、ハードディスク装置や光磁気ディスク装置、フラッシュメモリ等の不揮発性のメモリや、CD−ROM等の読み出しのみが可能な記録媒体、RAM(Random Access Memory)のような揮発性のメモリ、あるいはこれらの組合せによるコンピュータ読み取り、書き込み可能な記録媒体より構成されるものとする。
また、図1に示した化合物構造推定装置1の各処理部は、上述したようにコンピュータがプログラムを実行することによって実現しているが、そのプログラムをコンピュータに供給するための手段、例えばかかるプログラムを記録したコンピュータ読み取り可能な記録媒体又はかかるプログラムを伝送する伝送媒体も本発明の実施形態として適用することができる。また、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体等のプログラムプロダクトも本発明の実施形態として適用することができる。上記のプログラム、記録媒体、伝送媒体及びプログラムプロダクトは、本発明の範疇に含まれる。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現する為のものであっても良い。さらに、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本実施形態における化合物構造推定装置の概略構成を示す図である。 図1に示した部分バス情報データベース12cの情報構成例を示す図である。 図1に示した化合物構造推定装置1における化合物の構造の推定処理を示すフロー図である。 図1に示したFP分類処理部15によるクラスタリングの結果例及びクラスタ別の骨格構造分布表示例を示す図である。 図1に示したFP比較処理部16が、求めた部分パス別のオッズ比の例を示す図である。 表示処理部18が表示装置2に表示する化合物の2次元的な構造図の例を示す図である。
符号の説明
1 化合物構造推定装置
2 表示装置
11 制御部
12 データベース
12a 化合物情報データベース
12b グループ情報
12c 部分パス情報データベース
13 FP算出処理部
14 FP格納部
15 FP分類処理部
16 FP比較処理部
17 構造推定処理部
18 表示処理部

Claims (7)

  1. 複数の化合物に関する情報として少なくとも化合物の構造に関する情報を含む化合物情報を格納する化合物情報データベースから前記化合物情報と、特定の細胞に対する薬理活性又は毒性があると推定される化合物のグループを特定するグループ情報とを参照可能な化合物構造推定装置であって、
    種々の化合物の構造における一部の元素のつながりを抽出した部分パスに関する情報を格納する部分パス情報データベースと、
    前記化合物情報データベースから参照する前記化合物情報と前記部分パス情報データベースから参照する前記部分パスに関する情報とを基に、各化合物に対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出手段と、
    前記部分パス情報データベースに格納されている各部分パスについて、前記算出手段が算出した各化合物の前記部分パス有無情報を基に、前記化合物情報データベースに前記化合物情報が格納されている化合物群であって母集団となる第1の化合物群における前記部分パスの出現確率と、前記第1の化合物群のうち、前記グループ情報に基づいて特定される第2の化合物群における前記部分パスの出現確率とのオッズ比を算出し、前記オッズ比が予め定められた閾値以上または以下となる部分パスを前記第2の化合物群における特徴部分パスとして特定する比較手段と
    を具備することを特徴とする化合物構造推定装置。
  2. 前記比較手段が特定した前記特徴部分パスの一部又は全部を含む2次元的な化学構造を推定する構造推定手段を更に具備することを特徴とする請求項1に記載の化合物構造推定装置。
  3. 表示手段と、
    前記構造推定手段が推定した2次元的な化学構造を前記表示手段に表示する処理を行う表示処理手段と
    を更に具備することを特徴とする請求項に記載の化合物構造推定装置。
  4. 前記表示処理手段は、前記2次元的な化学構造を表示する場合に、前記特徴部分パスに関する情報を合わせて前記表示手段に表示することを特徴とする請求項に記載の化合物構造推定装置。
  5. 前記グループ情報で特定される化合物群の化合物うち、前記部分パス有無情報の類似する化合物をまとめてクラスタとして分類し、分類されたクラスタのうちクラスタに含まれる化合物数が最大のクラスタを前記第2の化合物群として特定する分類処理手段を更に具備していることを特徴とする請求項1から4のいずれか1項に記載の化合物構造推定装置。
  6. 複数の化合物に関する情報として少なくとも化合物の構造に関する情報を含む化合物情報を格納する化合物情報データベースから前記化合物情報と、特定の細胞に対する薬理活性又は毒性があると推定される化合物のグループを特定するグループ情報とを参照可能であり、算出手段と、比較手段とを具備する化合物構造推定装置を用いた化合物構造推定方法であって、
    前記算出手段が、種々の化合物の構造における一部の元素のつながりを抽出した部分パスに関する情報を格納する部分パス情報データベースから参照する前記部分パスに関する情報と、前記化合物情報データベースから参照する前記化合物情報とを基に、各化合物に対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出ステップと、
    前記比較手段が、前記部分パス情報データベースに格納されている各部分パスについて、前記算出ステップで算出した各化合物の前記部分パス有無情報を基に、前記化合物情報データベースに前記化合物情報が格納されている化合物群であって母集団となる第1の化合物群における前記部分パスの出現確率と、前記第1の化合物群のうち、前記グループ情報に基づいて特定される第2の化合物群における前記部分パスの出現確率とのオッズ比を算出し、前記オッズ比が予め定められた閾値以上または以下となる部分パスを前記第2の化合物群における特徴部分パスとして特定する比較ステップと
    を有することを特徴とする化合物構造推定方法。
  7. 複数の化合物に関する情報として少なくとも化合物の構造に関する情報を含む化合物情報を格納する化合物情報データベースから前記化合物情報と、特定の細胞に対する薬理活性又は毒性があると推定される化合物のグループを特定するグループ情報とを参照可能なコンピュータを、
    種々の化合物の構造における一部の元素のつながりを抽出した部分パスに関する情報を格納する部分パス情報データベースから参照する前記部分パスに関する情報と、前記化合物情報データベースから参照する前記化合物情報とを基に、各化合物に対して前記部分パスを含むか否かを示す部分パス有無情報を算出する算出手段と、
    前記部分パス情報データベースに格納されている各部分パスについて、前記算出手段が算出した各化合物の前記部分パス有無情報を基に、前記化合物情報データベースに前記化合物情報が格納されている化合物群であって母集団となる第1の化合物群における前記部分パスの出現確率と、前記第1の化合物群のうち、前記グループ情報に基づいて特定される第2の化合物群における前記部分パスの出現確率とのオッズ比を算出し、前記オッズ比が予め定められた閾値以上または以下となる部分パスを前記第2の化合物群における特徴部分パスとして特定する比較手段
    して機能させるプログラム。
JP2004296915A 2004-10-08 2004-10-08 化合物構造推定装置、化合物構造推定方法及びそのプログラム Expired - Lifetime JP4576194B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004296915A JP4576194B2 (ja) 2004-10-08 2004-10-08 化合物構造推定装置、化合物構造推定方法及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004296915A JP4576194B2 (ja) 2004-10-08 2004-10-08 化合物構造推定装置、化合物構造推定方法及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2006107393A JP2006107393A (ja) 2006-04-20
JP4576194B2 true JP4576194B2 (ja) 2010-11-04

Family

ID=36377024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004296915A Expired - Lifetime JP4576194B2 (ja) 2004-10-08 2004-10-08 化合物構造推定装置、化合物構造推定方法及びそのプログラム

Country Status (1)

Country Link
JP (1) JP4576194B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008100918A (ja) * 2006-10-17 2008-05-01 Nec Corp 類似度計算処理システム、その処理方法及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001523233A (ja) * 1997-04-17 2001-11-20 グラクソ、グループ、リミテッド 混合物の統計的デコンボルーション

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001523233A (ja) * 1997-04-17 2001-11-20 グラクソ、グループ、リミテッド 混合物の統計的デコンボルーション

Also Published As

Publication number Publication date
JP2006107393A (ja) 2006-04-20

Similar Documents

Publication Publication Date Title
US9940433B2 (en) Discovering population structure from patterns of identity-by-descent
Hindman Building better models: Prediction, replication, and machine learning in the social sciences
Beaumont Detecting population expansion and decline using microsatellites
Hanczar et al. Small-sample precision of ROC-related estimates
Corduas et al. Time series clustering and classification by the autoregressive metric
US20220076789A1 (en) Filtering genetic networks to discover populations of interest
JP5092165B2 (ja) データ構築方法とシステム
JPH11328229A (ja) 情報の分析方法および製造物
Iorio et al. Parsimonious time series clustering using p-splines
JP2002543538A (ja) 実験データの分布状階層的発展型モデリングと可視化の方法
CN113555062B (zh) 一种用于基因组碱基变异检测的数据分析系统及分析方法
Rajala et al. Detecting multivariate interactions in spatial point patterns with Gibbs models and variable selection
Hahsler et al. remm: Extensible markov model for data stream clustering in r
JP2018180712A (ja) モデル変数候補生成装置および方法
CN114154557A (zh) 癌症组织分类方法、装置、电子设备及存储介质
CN115565610B (zh) 基于多组学数据的复发转移分析模型建立方法及系统
Ghassany et al. Collaborative generative topographic mapping
JP4576194B2 (ja) 化合物構造推定装置、化合物構造推定方法及びそのプログラム
Vedavathi et al. Unsupervised learning algorithm for time series using bivariate AR (1) model
CN110476215A (zh) 用于多序列文件的签名-散列
CN113221966A (zh) 基于F_Max属性度量的差分隐私决策树构建方法
CN113792749A (zh) 时间序列数据异常检测方法、装置、设备及存储介质
Finch A Comparison of Clustering Methods when Group Sizes are Unequal, Outliers are Present, and in the Presence of Noise Variables
He et al. Comparing time series segmentation methods for the analysis of transportation patterns with smart card data
CN113205117B (zh) 社区划分方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100810

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100823

R150 Certificate of patent or registration of utility model

Ref document number: 4576194

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250