JP2004295606A - 遺伝子機能推定装置、遺伝子機能推定方法、および、プログラム - Google Patents

遺伝子機能推定装置、遺伝子機能推定方法、および、プログラム Download PDF

Info

Publication number
JP2004295606A
JP2004295606A JP2003088382A JP2003088382A JP2004295606A JP 2004295606 A JP2004295606 A JP 2004295606A JP 2003088382 A JP2003088382 A JP 2003088382A JP 2003088382 A JP2003088382 A JP 2003088382A JP 2004295606 A JP2004295606 A JP 2004295606A
Authority
JP
Japan
Prior art keywords
information
document
document vector
eigenvalue
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003088382A
Other languages
English (en)
Inventor
Tsutomu Matsunaga
務 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2003088382A priority Critical patent/JP2004295606A/ja
Publication of JP2004295606A publication Critical patent/JP2004295606A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】広範囲で膨大な量の文書情報に対し疾患関連遺伝子などの抽出を実現し、新しい薬剤や治療法の開発でのコスト削減につなげる。
【解決手段】本発明にかかる装置等は、文書情報集合を取得し、取得された文書情報集合の文書情報をベクトルで表現した文書ベクトル情報を、各単語情報の出現頻度情報および重み情報に基づいて作成し、作成された文書ベクトル情報に基づいて、自己相関行列のKL展開から固有値情報を算出し、算出された固有値情報に対応する固有ベクトル情報に基づいてオブジェクトを生成し、生成されたオブジェクトの固有値情報および固有ベクトル情報に基づいてオブジェクト間の類似度情報を算出し、特定の遺伝子に対応するオブジェクトと任意のオブジェクトとの間の類似度情報を算出し当該類似度情報に基づいて当該特定の遺伝子の機能を推定する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムに関し、特に、広範囲で膨大な量の文書情報に対し疾患関連遺伝子などの抽出を実現し、新しい薬剤や治療法の開発でのコスト削減につなげることができる遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムに関する。
【0002】
【従来の技術】
これまで、多種多様な知識が言語を通して記述され文書の形で蓄積されてきており、これら文書に対する昨今の急速な電子化の流れにより知識をコンピュータ環境で計算処理する知識ベース構築が求められてきている。
【0003】
ここで、蓄積された知識が広範囲かつ膨大な量となったために人が扱いきれなくなった状況においては、網羅的な自動処理が要求されているといえる。
【0004】
また、特に複数の知識を結合させると新たな知識が見出され(例えば、非特許文献1参照。)、知識ベース活用による知識発見への期待もますます大きくなっている。
【0005】
一方、これまでの遺伝子の解析は、疾患との関係や臓器との関係などの或る特定の機能に対する検証に基づいて行われてきており、得られる結果が断片的であるという限界がある。
【0006】
この状況の下で、遺伝子などの活用語彙を役割や作用により階層的に分類することで、得られている知見を系統的に記述し、対象世界の知識の構造化を図るオントロジーの研究が進められている(例えば、非特許文献2、非特許文献3、非特許文献4、非特許文献6参照。)。
【0007】
具体的には、ライフサイエンス分野(例えば、非特許文献5、非特許文献6参照。)は生物学や医学をはじめとした幅広い分野であるため、オントロジー構築(例えば、非特許文献4参照。)を通して学際間を融合した知識構造化が積極的に進められている。
【0008】
また、昨今のゲノムの解読をきっかけにして、横断的な知識ベースの構築が急務となっている(例えば、非特許文献7参照。)。
【0009】
そして、遺伝子、疾患、臓器、化合物、更には生物種など様々な面で相互の関係理解が求められている一方で、全体をみないと構造が理解できない課題に直面しているといえる。
【0010】
【非特許文献1】
野中郁次郎、竹内弘高、「知識創造企業」、東洋経済新報社、1996年
【非特許文献2】
溝口理一郎、「オントロジー研究の基礎と応用」、人工知能学会誌、Vol.14、No.6、p.977−988、1999年
【非特許文献3】
Miller,G.A.、「WordNet: A lexicaldatabases for English」、Comm. of the ACM、38、11、p.39−41、1995年
【非特許文献4】
M.Ashburner et al.、「Gene ontology:tool for the unification of biology」、Nat. Genet.、vol.25、No.1、p.25−29、2000年
【非特許文献5】
「21世紀の医療・福祉を支える科学技術特集/5.ゲノム情報とその利用」、信学誌、Vol.84、No.5、p.341−367、2001年
【非特許文献6】
森下真一、久光徹、高木利久、「特集ゲノム情報科学」、情報処理、Vol.43、No.1、p.1−41、2002年
【非特許文献7】
村松正実、「解読されたゲノム情報をどう活かすか」、東京化学同人、12.遺伝子カスケードと新しい創薬プラン、p.103−111、2001年
【0011】
【発明が解決しようとする課題】
しかしながら、オントロジーの研究において、因果関係などの動作が不明な場合をはじめ、新たな知見に伴う更新が頻繁な場合などで、人手による分類のために多大な労力を要するということから、適用対象が制約されるという問題点がある。
【0012】
従って、対象が広範囲で膨大な情報量になるにつれて全体をふかんした知識の構造化は実現困難とされている(例えば、「土橋喜,“情報視覚化と問題発見支援”,あるむ,2000.」参照。)という問題点がある。
【0013】
また、遺伝子名の論文中の共起頻度に基づく網羅的な検討(例えば、「T.Jenssen et al.,“Aliterature network of human genes for high−throughput analysis of gene expression”,Nat.Genet.,vol.28,No.5,pp21−28,2001.」参照。)が報告され、広く活用されているが、疾患や臓器などとのつながりが直接わからないことから機能の推定までに至らないという問題点がある。
【0014】
このように、従来のシステム等は数々の問題点を有しており、その結果、システムの利用者および管理者のいずれにとっても、利便性が悪く、また、利用効率が悪いものであった。
【0015】
本発明は上記問題点に鑑みてなされたもので、広範囲で膨大な量の文書情報に対し疾患関連遺伝子などの抽出を実現し、新しい薬剤や治療法の開発でのコスト削減につなげることができる遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムを提供することを目的としている。
【0016】
【課題を解決するための手段】
このような目的を達成するため、請求項1に記載の遺伝子機能推定装置は、概念を共有するオブジェクトの生成に用いる文書情報の集合である文書情報集合を取得する文書情報集合取得手段と、上記文書情報集合取得手段により取得された上記文書情報集合に含まれる各上記文書情報をベクトルで表現した文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成する文書ベクトル情報作成手段と、上記文書ベクトル情報作成手段により作成された上記文書ベクトル情報に基づいて、上記文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出する固有値情報算出手段と、上記固有値情報算出手段により算出された上記固有値情報に対応する固有ベクトル情報に基づいて、上記固有ベクトル情報を基底とする空間により導出される上記オブジェクトを生成するオブジェクト生成手段と、上記オブジェクト生成手段により生成された上記オブジェクトの上記固有値情報および当該固有値情報に対応する上記固有ベクトル情報に基づいて、上記オブジェクト間の類似度情報を算出するオブジェクト間類似度情報算出手段と、上記オブジェクト間類似度情報算出手段により特定の遺伝子に対応する上記オブジェクトと、任意のオブジェクトとの間の上記類似度情報を算出し、当該類似度情報に基づいて、当該特定の遺伝子の機能を推定する遺伝子機能推定手段とを備えたことを特徴とする。
【0017】
この装置によれば、概念を共有するオブジェクトの生成に用いる文書情報の集合である文書情報集合を取得し、取得された文書情報集合に含まれる各文書情報をベクトルで表現した文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成し、作成された文書ベクトル情報に基づいて、文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出し、算出された固有値情報に対応する固有ベクトル情報に基づいて、固有ベクトル情報を基底とする空間により導出されるオブジェクトを生成し、生成されたオブジェクトの固有値情報および当該固有値情報に対応する固有ベクトル情報に基づいて、オブジェクト間の類似度情報を算出し、特定の遺伝子に対応するオブジェクトと、任意のオブジェクトとの間の類似度情報を算出し、当該類似度情報に基づいて、当該特定の遺伝子の機能を推定するので、広範囲で膨大な量の文書情報に対する計算機による自動処理を通して、例えば、疾患関連遺伝子の抽出を実現し、新しい薬剤や治療法の開発でのコストを削減することにつなげることができる。
【0018】
また、この装置によれば、具体的には、医学生物学的な語の集合における各語の出現パターンの統計的な機械学習によりオブジェクトを生成し、その出現パターンのマッチングによりオブジェクト間の相対関係を算出することができる。
【0019】
また、この装置によれば、具体的には、例えば、遺伝子、疾患、臓器、化合物などの要素概念をオブジェクトとして扱い、論文をはじめとした文書情報を基に、類似度の尺度で当該オブジェクト群の相互の関連を定量化し、例えば、遺伝子と疾患の間を関連付けて疾患関連遺伝子を抽出(機能推定)するなど知識構造化を図ることができる。
【0020】
また、この装置によれば、疾患の他、臓器や化合物、免疫などの作用や肥満、喫煙などと遺伝子との関連を統合的に把握することを可能にすることができる。
【0021】
また、この装置によれば、手元の文書群(例えば、新規遺伝子、薬剤やタンパク質に関して記述されたもの)からオブジェクト生成することで、既存の概念との関連が推測でき、薬剤開発などでの工数を削減することができる。
【0022】
また、請求項2に記載の遺伝子機能推定装置は、請求項1に記載の遺伝子機能推定装置において、上記文書ベクトル情報作成手段は、上記文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報の積に基づいて作成することを特徴とする。
【0023】
これは文書ベクトル情報作成手段の一例を一層具体的に示すものである。この装置によれば、文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報の積に基づいて作成するので、簡単に文書ベクトル情報を作成することができる。
【0024】
また、請求項3に記載の遺伝子機能推定装置は、請求項1または2に記載の遺伝子機能推定装置において、上記重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式1から算出される「IDF(k)」であることを特徴とする。
【数19】
Figure 2004295606
(ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
【0025】
これは重み情報の一例を一層具体的に示すものである。この装置によれば、重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式1から算出される「IDF(k)」であるので、語の意味合いの深さを文書ベクトル情報に反映させることができる。
【数20】
Figure 2004295606
(ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
【0026】
また、請求項4に記載の遺伝子機能推定装置は、請求項1から3のいずれか一つに記載の遺伝子機能推定装置において、上記固有値情報算出手段は、上記文書ベクトル情報に基づいて、数式2に示す上記文書ベクトル情報の上記自己相関行列の上記KL展開から上記固有値情報を算出することを特徴とする。
【数21】
Figure 2004295606
(ここで、「R」はオブジェクト「w」に関する自己相関行列であり、「M」は文書ベクトル情報集合の要素数(但し、「M≧1」、「M」は整数。)であり、「m」は1からMの値をとる整数であり、「uw(m)」はオブジェクト「w」に関するM個の文書ベクトル情報集合における文書ベクトル情報識別番号「m」に対応する文書ベクトル情報であり、当該文書ベクトル情報は「(u,u,・・・,u,・・・,u)」で表現され、当該文書ベクトル情報のベクトル成分「u」は「TF(u,k)×IDF(k)」であり、「TF(u,k)」は単語情報識別番号「k」に対応する単語情報の頻度である。)
【0027】
これは固有値情報算出手段の一例を一層具体的に示すものである。この装置によれば、文書ベクトル情報に基づいて、数式2に示す文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出するので、簡単に固有値を算出することができる。
【数22】
Figure 2004295606
(ここで、「R」はオブジェクト「w」に関する自己相関行列であり、「M」は文書ベクトル情報集合の要素数(但し、「M≧1」、「M」は整数。)であり、「m」は1からMの値をとる整数であり、「uw(m)」はオブジェクト「w」に関するM個の文書ベクトル情報集合における文書ベクトル情報識別番号「m」に対応する文書ベクトル情報であり、当該文書ベクトル情報は「(u,u,・・・,u,・・・,u)」で表現され、当該文書ベクトル情報のベクトル成分「u」は「TF(u,k)×IDF(k)」であり、「TF(u,k)」は単語情報識別番号「k」に対応する単語情報の頻度である。)
【0028】
また、請求項5に記載の遺伝子機能推定装置は、請求項1から4のいずれか一つに記載の遺伝子機能推定装置において、上記オブジェクト生成手段は、上記固有値情報に対応する上記固有ベクトル情報に基づいて、数式3より定められる上記固有ベクトル情報を基底とする空間により導出される上記オブジェクトを生成することを特徴とする。
【数23】
Figure 2004295606
(ここで、「N」および「κ」は対象とする文書情報集合により実験的に定められるパラメータ(但し、「N」は1以上の整数、「0<κ≦1」)であり、「j」は1以上の整数であり、「λ 」はオブジェクト「w」のベクトル成分「j」に対応する固有値であり、「n」はオブジェクト「w」の次元数である。)
【0029】
これはオブジェクト生成手段の一例を一層具体的に示すものである。この装置によれば、固有値情報に対応する固有ベクトル情報に基づいて、数式3より定められる固有ベクトル情報を基底とする空間により導出されるオブジェクトを生成するので、オブジェクトの空間の次元数がパターン分布に反映される概念の広がりに対応するように、オブジェクトを生成することができる。
【数24】
Figure 2004295606
(ここで、「N」および「κ」は対象とする文書情報集合により実験的に定められるパラメータ(但し、「N」は1以上の整数、「0<κ≦1」)であり、「j」は1以上の整数であり、「λ 」はオブジェクト「w」のベクトル成分「j」に対応する固有値であり、「n」はオブジェクト「w」の次元数である。)
【0030】
また、請求項6に記載の遺伝子機能推定装置は、請求項1から5のいずれか一つに記載の遺伝子機能推定装置において、上記オブジェクト間類似度情報算出手段は、上記オブジェクトの上記固有値情報および当該固有値情報に対応する上記固有ベクトル情報に基づいて、数式4で定義された上記オブジェクト間の類似度情報を算出することを特徴とする。
【数25】
Figure 2004295606
(数式4において、「Lw(A,B)」はオブジェクト「w(A)」とオブジェクト「w(B)」との間の類似度であり、「λmax w(A,B)」は数式6に示す行列成分をもつ数式5に示す行列「X」の固有値問題を解いて得られる最大固有値であり、数式6において、「φ w(A)」、「φ w(B)」はそれぞれ、オブジェクト「w(A)」、オブジェクト「w(B)」の固有ベクトル情報であり、「nw(B)」は、オブジェクト「w(B)」の次元数である。)
【0031】
これはオブジェクト間類似度情報算出手段の一例を一層具体的に示すものである。この装置によれば、オブジェクトの固有値情報および当該固有値情報に対応する固有ベクトル情報に基づいて、数式4で定義されたオブジェクト間の類似度情報を算出するので、2つのオブジェクト間の類似度を2つの空間がなす角度に基づいて算出することができ、当該類似度の尺度でオブジェクト間の相対関係を定量化し、知識構造化を図ることができる。
【数26】
Figure 2004295606
(数式4において、「Lw(A,B)」はオブジェクト「w(A)」とオブジェクト「w(B)」との間の類似度であり、「λmax w(A,B)」は数式6に示す行列成分をもつ数式5に示す行列「X」の固有値問題を解いて得られる最大固有値であり、数式6において、「φ w(A)」、「φ w(B)」はそれぞれ、オブジェクト「w(A)」、オブジェクト「w(B)」の固有ベクトル情報であり、「nw(B)」は、オブジェクト「w(B)」の次元数である。)
【0032】
また、請求項7に記載の遺伝子機能推定装置は、請求項1から6のいずれか一つに記載の遺伝子機能推定装置において、正規直交変換に用いる学習文書情報の集合である学習文書情報集合を取得する学習文書情報集合取得手段と、上記学習文書情報集合取得手段により取得された上記学習文書情報集合の上記学習文書情報をベクトルで表現した学習文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報に基づいて作成する学習文書ベクトル情報作成手段と、上記学習文書ベクトル情報作成手段により作成された上記学習文書ベクトル情報を用いて上記正規直交変換を行うための正規直交行列を取得する正規直交行列取得手段と、上記正規直交行列取得手段により取得された正規直交行列にて上記文書ベクトル情報を上記正規直交変換し、上記固有値の累積寄与率を基準に次元圧縮した空間に変換する正規直交変換手段とをさらに備え、上記固有値情報算出手段は、上記正規直交変換手段にて変換された上記文書ベクトル情報に基づいて、上記自己相関行列の上記KL展開から上記固有値情報を算出することを特徴とする。
【0033】
この装置によれば、正規直交変換に用いる学習文書情報の集合である学習文書情報集合を取得し、取得された学習文書情報集合の学習文書情報をベクトルで表現した学習文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成し、作成された学習文書ベクトル情報を用いて正規直交変換を行うための正規直交行列を取得し、取得された正規直交行列にて文書ベクトル情報を正規直交変換し、固有値の累積寄与率を基準に次元圧縮した空間に変換し、変換された文書ベクトル情報に基づいて、上記文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出するので、単語情報集合の冗長性を除いて処理量を効果的に削減することができる。
【0034】
また、請求項8に記載の遺伝子機能推定装置は、請求項7に記載の遺伝子機能推定装置において、上記学習文書ベクトル情報作成手段は、上記学習文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報の積に基づいて作成することを特徴とする。
【0035】
これは学習文書ベクトル情報作成手段の一例を一層具体的に示すものである。この装置によれば、学習文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報の積に基づいて作成するので、簡単に学習文書ベクトル情報を作成することができる。
【0036】
また、請求項9に記載の遺伝子機能推定装置は、請求項7または8に記載の遺伝子機能推定装置において、上記重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式7から算出される「IDF(k)」であることを特徴とする。
【数27】
Figure 2004295606
(ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
【0037】
これは重み情報の一例を一層具体的に示すものである。この装置によれば、重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式7から算出される「IDF(k)」であるので、語の意味合いの深さを学習文書ベクトル情報に反映させることができる。
【数28】
Figure 2004295606
(ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
【0038】
また、請求項10に記載の遺伝子機能推定装置は、請求項7から9のいずれか一つに記載の遺伝子機能推定装置において、上記正規直交変換手段は、上記文書ベクトル情報を正規直交変換し、数式8で定義される上記固有値の累積寄与率を基準に次元圧縮した空間に変換することを特徴とする。
【数29】
Figure 2004295606
(ここで、「N」は、次元圧縮する前の文書ベクトル情報の次元数であり、「N’」は、次元圧縮した後の文書ベクトル情報の次元数であり、「u」は、正規直交変換における文書ベクトル情報の第「k」成分の固有値である(但し、「1≦k≦N」。)。)
【0039】
これは正規直交変換手段の一例を一層具体的に示すものである。この装置によれば、文書ベクトル情報を正規直交変換し、数式8で定義される固有値の累積寄与率を基準に次元圧縮した空間に変換するので、効果的に次元圧縮することができる。
【数30】
Figure 2004295606
(ここで、「N」は、次元圧縮する前の文書ベクトル情報の次元数であり、「N’」は、次元圧縮した後の文書ベクトル情報の次元数であり、「u」は、正規直交変換における文書ベクトル情報の第「k」成分の固有値である(但し、「1≦k≦N」。)。)
【0040】
また、本発明は遺伝子機能推定方法に関するものであり、請求項11に記載の遺伝子機能推定方法は、概念を共有するオブジェクトの生成に用いる文書情報の集合である文書情報集合を取得する文書情報集合取得ステップと、上記文書情報集合取得ステップにより取得された上記文書情報集合に含まれる各上記文書情報をベクトルで表現した文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成する文書ベクトル情報作成ステップと、上記文書ベクトル情報作成ステップにより作成された上記文書ベクトル情報に基づいて、上記文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出する固有値情報算出ステップと、上記固有値情報算出ステップにより算出された上記固有値情報に対応する固有ベクトル情報に基づいて、上記固有ベクトル情報を基底とする空間により導出される上記オブジェクトを生成するオブジェクト生成ステップと、上記オブジェクト生成ステップにより生成された上記オブジェクトの上記固有値情報および当該固有値情報に対応する上記固有ベクトル情報に基づいて、上記オブジェクト間の類似度情報を算出するオブジェクト間類似度情報算出ステップと、上記オブジェクト間類似度情報算出ステップにより特定の遺伝子に対応する上記オブジェクトと、任意のオブジェクトとの間の上記類似度情報を算出し、当該類似度情報に基づいて、当該特定の遺伝子の機能を推定する遺伝子機能推定ステップとを含むことを特徴とする。
【0041】
この方法によれば、概念を共有するオブジェクトの生成に用いる文書情報の集合である文書情報集合を取得し、取得された文書情報集合に含まれる各文書情報をベクトルで表現した文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成し、作成された文書ベクトル情報に基づいて、文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出し、算出された固有値情報に対応する固有ベクトル情報に基づいて、固有ベクトル情報を基底とする空間により導出されるオブジェクトを生成し、生成されたオブジェクトの固有値情報および当該固有値情報に対応する固有ベクトル情報に基づいて、オブジェクト間の類似度情報を算出し、特定の遺伝子に対応するオブジェクトと、任意のオブジェクトとの間の類似度情報を算出し、当該類似度情報に基づいて、当該特定の遺伝子の機能を推定するので、広範囲で膨大な量の文書情報に対する計算機による自動処理を通して、例えば、疾患関連遺伝子の抽出を実現し、新しい薬剤や治療法の開発でのコストを削減することにつなげることができる。
【0042】
また、この方法によれば、具体的には、医学生物学的な語の集合における各語の出現パターンの統計的な機械学習によりオブジェクトを生成し、その出現パターンのマッチングによりオブジェクト間の相対関係を算出することができる。
【0043】
また、この方法によれば、具体的には、例えば、遺伝子、疾患、臓器、化合物などの要素概念をオブジェクトとして扱い、論文をはじめとした文書情報を基に、類似度の尺度で当該オブジェクト群の相互の関連を定量化し、例えば、遺伝子と疾患の間を関連付けて疾患関連遺伝子を抽出(機能推定)するなど知識構造化を図ることができる。
【0044】
また、この方法によれば、疾患の他、臓器や化合物、免疫などの作用や肥満、喫煙などと遺伝子との関連を統合的に把握することを可能にすることができる。
【0045】
また、この方法によれば、手元の文書群(例えば、新規遺伝子、薬剤やタンパク質に関して記述されたもの)からオブジェクト生成することで、既存の概念との関連が推測でき、薬剤開発などでの工数を削減することができる。
【0046】
また、請求項12に記載の遺伝子機能推定方法は、請求項11に記載の遺伝子機能推定方法において、上記文書ベクトル情報作成ステップは、上記文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報の積に基づいて作成することを特徴とする。
【0047】
これは文書ベクトル情報作成ステップの一例を一層具体的に示すものである。この方法によれば、文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報の積に基づいて作成するので、簡単に文書ベクトル情報を作成することができる。
【0048】
また、請求項13に記載の遺伝子機能推定方法は、請求項11または12に記載の遺伝子機能推定方法において、上記重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式1から算出される「IDF(k)」であることを特徴とする。
【数31】
Figure 2004295606
(ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
【0049】
これは重み情報の一例を一層具体的に示すものである。この方法によれば、重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式1から算出される「IDF(k)」であるので、語の意味合いの深さを文書ベクトル情報に反映させることができる。
【数32】
Figure 2004295606
(ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
【0050】
また、請求項14に記載の遺伝子機能推定方法は、請求項11から13のいずれか一つに記載の遺伝子機能推定方法において、上記固有値情報算出ステップは、上記文書ベクトル情報に基づいて、数式2に示す上記文書ベクトル情報の上記自己相関行列の上記KL展開から上記固有値情報を算出することを特徴とする。
【数33】
Figure 2004295606
(ここで、「R」はオブジェクト「w」に関する自己相関行列であり、「M」は文書ベクトル情報集合の要素数(但し、「M≧1」、「M」は整数。)であり、「m」は1からMの値をとる整数であり、「uw(m)」はオブジェクト「w」に関するM個の文書ベクトル情報集合における文書ベクトル情報識別番号「m」に対応する文書ベクトル情報であり、当該文書ベクトル情報は「(u,u,・・・,u,・・・,u)」で表現され、当該文書ベクトル情報のベクトル成分「u」は「TF(u,k)×IDF(k)」であり、「TF(u,k)」は単語情報識別番号「k」に対応する単語情報の頻度である。)
【0051】
これは固有値情報算出ステップの一例を一層具体的に示すものである。この方法によれば、文書ベクトル情報に基づいて、数式2に示す文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出するので、簡単に固有値を算出することができる。
【数34】
Figure 2004295606
(ここで、「R」はオブジェクト「w」に関する自己相関行列であり、「M」は文書ベクトル情報集合の要素数(但し、「M≧1」、「M」は整数。)であり、「m」は1からMの値をとる整数であり、「uw(m)」はオブジェクト「w」に関するM個の文書ベクトル情報集合における文書ベクトル情報識別番号「m」に対応する文書ベクトル情報であり、当該文書ベクトル情報は「(u,u,・・・,u,・・・,u)」で表現され、当該文書ベクトル情報のベクトル成分「u」は「TF(u,k)×IDF(k)」であり、「TF(u,k)」は単語情報識別番号「k」に対応する単語情報の頻度である。)
【0052】
また、請求項15に記載の遺伝子機能推定方法は、請求項11から14のいずれか一つに記載の遺伝子機能推定方法において、上記オブジェクト生成ステップは、上記固有値情報に対応する上記固有ベクトル情報に基づいて、数式3より定められる上記固有ベクトル情報を基底とする空間により導出される上記オブジェクトを生成することを特徴とする。
【数35】
Figure 2004295606
(ここで、「N」および「κ」は対象とする文書情報集合により実験的に定められるパラメータ(但し、「N」は1以上の整数、「0<κ≦1」)であり、「j」は1以上の整数であり、「λ 」はオブジェクト「w」のベクトル成分「j」に対応する固有値であり、「n」はオブジェクト「w」の次元数である。)
【0053】
これはオブジェクト生成ステップの一例を一層具体的に示すものである。この方法によれば、固有値情報に対応する固有ベクトル情報に基づいて、数式3より定められる固有ベクトル情報を基底とする空間により導出されるオブジェクトを生成するので、オブジェクトの空間の次元数がパターン分布に反映される概念の広がりに対応するように、オブジェクトを生成することができる。
【数36】
Figure 2004295606
(ここで、「N」および「κ」は対象とする文書情報集合により実験的に定められるパラメータ(但し、「N」は1以上の整数、「0<κ≦1」)であり、「j」は1以上の整数であり、「λ 」はオブジェクト「w」のベクトル成分「j」に対応する固有値であり、「n」はオブジェクト「w」の次元数である。)
【0054】
また、請求項16に記載の遺伝子機能推定方法は、請求項11から15のいずれか一つに記載の遺伝子機能推定方法において、上記オブジェクト間類似度情報算出ステップは、上記オブジェクトの上記固有値情報および当該固有値情報に対応する上記固有ベクトル情報に基づいて、数式4で定義された上記オブジェクト間の類似度情報を算出することを特徴とする。
【数37】
Figure 2004295606
(数式4において、「Lw(A,B)」はオブジェクト「w(A)」とオブジェクト「w(B)」との間の類似度であり、「λmax w(A,B)」は数式6に示す行列成分をもつ数式5に示す行列「X」の固有値問題を解いて得られる最大固有値であり、数式6において、「φ w(A)」、「φ w(B)」はそれぞれ、オブジェクト「w(A)」、オブジェクト「w(B)」の固有ベクトル情報であり、「nw(B)」は、オブジェクト「w(B)」の次元数である。)
【0055】
これはオブジェクト間類似度情報算出ステップの一例を一層具体的に示すものである。この方法によれば、オブジェクトの固有値情報および当該固有値情報に対応する固有ベクトル情報に基づいて、数式4で定義されたオブジェクト間の類似度情報を算出するので、2つのオブジェクト間の類似度を2つの空間がなす角度に基づいて算出することができ、当該類似度の尺度でオブジェクト間の相対関係を定量化し、知識構造化を図ることができる。
【数38】
Figure 2004295606
(数式4において、「Lw(A,B)」はオブジェクト「w(A)」とオブジェクト「w(B)」との間の類似度であり、「λmax w(A,B)」は数式6に示す行列成分をもつ数式5に示す行列「X」の固有値問題を解いて得られる最大固有値であり、数式6において、「φ w(A)」、「φ w(B)」はそれぞれ、オブジェクト「w(A)」、オブジェクト「w(B)」の固有ベクトル情報であり、「nw(B)」は、オブジェクト「w(B)」の次元数である。)
【0056】
また、請求項17に記載の遺伝子機能推定方法は、請求項11から16のいずれか一つに記載の遺伝子機能推定方法において、正規直交変換に用いる学習文書情報の集合である学習文書情報集合を取得する学習文書情報集合取得ステップと、上記学習文書情報集合取得ステップにより取得された上記学習文書情報集合の上記学習文書情報をベクトルで表現した学習文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報に基づいて作成する学習文書ベクトル情報作成ステップと、上記学習文書ベクトル情報作成ステップにより作成された上記学習文書ベクトル情報を用いて上記正規直交変換を行うための正規直交行列を取得する正規直交行列取得ステップと、上記正規直交行列取得ステップにより取得された正規直交行列にて上記文書ベクトル情報を上記正規直交変換し、上記固有値の累積寄与率を基準に次元圧縮した空間に変換する正規直交変換ステップとをさらに含み、上記固有値情報算出ステップは、上記正規直交変換ステップにて変換された上記文書ベクトル情報に基づいて、上記自己相関行列の上記KL展開から上記固有値情報を算出することを特徴とする。
【0057】
この方法によれば、正規直交変換に用いる学習文書情報の集合である学習文書情報集合を取得し、取得された学習文書情報集合の学習文書情報をベクトルで表現した学習文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成し、作成された学習文書ベクトル情報を用いて正規直交変換を行うための正規直交行列を取得し、取得された正規直交行列にて文書ベクトル情報を正規直交変換し、固有値の累積寄与率を基準に次元圧縮した空間に変換し、変換された文書ベクトル情報に基づいて、上記文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出するので、単語情報集合の冗長性を除いて処理量を効果的に削減することができる。
【0058】
また、請求項18に記載の遺伝子機能推定方法は、請求項17に記載の遺伝子機能推定方法において、上記学習文書ベクトル情報作成ステップは、上記学習文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報の積に基づいて作成することを特徴とする。
【0059】
これは学習文書ベクトル情報作成ステップの一例を一層具体的に示すものである。この方法によれば、学習文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報の積に基づいて作成するので、簡単に学習文書ベクトル情報を作成することができる。
【0060】
また、請求項19に記載の遺伝子機能推定方法は、請求項17または18に記載の遺伝子機能推定方法において、上記重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式7から算出される「IDF(k)」であることを特徴とする。
【数39】
Figure 2004295606
(ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
【0061】
これは重み情報の一例を一層具体的に示すものである。この方法によれば、重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式7から算出される「IDF(k)」であるので、語の意味合いの深さを学習文書ベクトル情報に反映させることができる。
【数40】
Figure 2004295606
(ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
【0062】
また、請求項20に記載の遺伝子機能推定方法は、請求項17から19のいずれか一つに記載の遺伝子機能推定方法において、上記正規直交変換ステップは、上記文書ベクトル情報を正規直交変換し、数式8で定義される上記固有値の累積寄与率を基準に次元圧縮した空間に変換することを特徴とする。
【数41】
Figure 2004295606
(ここで、「N」は、次元圧縮する前の文書ベクトル情報の次元数であり、「N’」は、次元圧縮した後の文書ベクトル情報の次元数であり、「u」は、正規直交変換における文書ベクトル情報の第「k」成分の固有値である(但し、「1≦k≦N」。)。)
【0063】
これは正規直交変換ステップの一例を一層具体的に示すものである。この方法によれば、文書ベクトル情報を正規直交変換し、数式8で定義される固有値の累積寄与率を基準に次元圧縮した空間に変換するので、効果的に次元圧縮することができる。
【数42】
Figure 2004295606
(ここで、「N」は、次元圧縮する前の文書ベクトル情報の次元数であり、「N’」は、次元圧縮した後の文書ベクトル情報の次元数であり、「u」は、正規直交変換における文書ベクトル情報の第「k」成分の固有値である(但し、「1≦k≦N」。)。)
【0064】
また、本発明はプログラムに関するものであり、請求項21に記載の遺伝子機能推定方法をコンピュータに実行させることを特徴とするプログラムは、概念を共有するオブジェクトの生成に用いる文書情報の集合である文書情報集合を取得する文書情報集合取得ステップと、上記文書情報集合取得ステップにより取得された上記文書情報集合に含まれる各上記文書情報をベクトルで表現した文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成する文書ベクトル情報作成ステップと、上記文書ベクトル情報作成ステップにより作成された上記文書ベクトル情報に基づいて、上記文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出する固有値情報算出ステップと、上記固有値情報算出ステップにより算出された上記固有値情報に対応する固有ベクトル情報に基づいて、上記固有ベクトル情報を基底とする空間により導出される上記オブジェクトを生成するオブジェクト生成ステップと、上記オブジェクト生成ステップにより生成された上記オブジェクトの上記固有値情報および当該固有値情報に対応する上記固有ベクトル情報に基づいて、上記オブジェクト間の類似度情報を算出するオブジェクト間類似度情報算出ステップと、上記オブジェクト間類似度情報算出ステップにより特定の遺伝子に対応する上記オブジェクトと、任意のオブジェクトとの間の上記類似度情報を算出し、当該類似度情報に基づいて、当該特定の遺伝子の機能を推定する遺伝子機能推定ステップとを含むことを特徴とする。
【0065】
このプログラムによれば、概念を共有するオブジェクトの生成に用いる文書情報の集合である文書情報集合を取得し、取得された文書情報集合に含まれる各文書情報をベクトルで表現した文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成し、作成された文書ベクトル情報に基づいて、文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出し、算出された固有値情報に対応する固有ベクトル情報に基づいて、固有ベクトル情報を基底とする空間により導出されるオブジェクトを生成し、生成されたオブジェクトの固有値情報および当該固有値情報に対応する固有ベクトル情報に基づいて、オブジェクト間の類似度情報を算出し、特定の遺伝子に対応するオブジェクトと、任意のオブジェクトとの間の類似度情報を算出し、当該類似度情報に基づいて、当該特定の遺伝子の機能を推定するので、広範囲で膨大な量の文書情報に対する計算機による自動処理を通して、例えば、疾患関連遺伝子の抽出を実現し、新しい薬剤や治療法の開発でのコストを削減することにつなげることができる。
【0066】
また、このプログラムによれば、具体的には、医学生物学的な語の集合における各語の出現パターンの統計的な機械学習によりオブジェクトを生成し、その出現パターンのマッチングによりオブジェクト間の相対関係を算出することができる。
【0067】
また、このプログラムによれば、具体的には、例えば、遺伝子、疾患、臓器、化合物などの要素概念をオブジェクトとして扱い、論文をはじめとした文書情報を基に、類似度の尺度で当該オブジェクト群の相互の関連を定量化し、例えば、遺伝子と疾患の間を関連付けて疾患関連遺伝子を抽出(機能推定)するなど知識構造化を図ることができる。
【0068】
また、このプログラムによれば、疾患の他、臓器や化合物、免疫などの作用や肥満、喫煙などと遺伝子との関連を統合的に把握することを可能にすることができる。
【0069】
また、このプログラムによれば、手元の文書群(例えば、新規遺伝子、薬剤やタンパク質に関して記述されたもの)からオブジェクト生成することで、既存の概念との関連が推測でき、薬剤開発などでの工数を削減することができる。
【0070】
また、請求項22に記載のプログラムは、請求項21に記載のプログラムにおいて、上記文書ベクトル情報作成ステップは、上記文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報の積に基づいて作成することを特徴とする。
【0071】
これは文書ベクトル情報作成ステップの一例を一層具体的に示すものである。このプログラムによれば、文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報の積に基づいて作成するので、簡単に文書ベクトル情報を作成することができる。
【0072】
また、請求項23に記載のプログラムは、請求項21または22に記載のプログラムにおいて、上記重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式1から算出される「IDF(k)」であることを特徴とする。
【数43】
Figure 2004295606
(ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
【0073】
これは重み情報の一例を一層具体的に示すものである。このプログラムによれば、重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式1から算出される「IDF(k)」であるので、語の意味合いの深さを文書ベクトル情報に反映させることができる。
【数44】
Figure 2004295606
(ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
【0074】
また、請求項24に記載のプログラムは、請求項21から23のいずれか一つに記載のプログラムにおいて、上記固有値情報算出ステップは、上記文書ベクトル情報に基づいて、数式2に示す上記文書ベクトル情報の上記自己相関行列の上記KL展開から上記固有値情報を算出することを特徴とする。
【数45】
Figure 2004295606
(ここで、「R」はオブジェクト「w」に関する自己相関行列であり、「M」は文書ベクトル情報集合の要素数(但し、「M≧1」、「M」は整数。)であり、「m」は1からMの値をとる整数であり、「uw(m)」はオブジェクト「w」に関するM個の文書ベクトル情報集合における文書ベクトル情報識別番号「m」に対応する文書ベクトル情報であり、当該文書ベクトル情報は「(u,u,・・・,u,・・・,u)」で表現され、当該文書ベクトル情報のベクトル成分「u」は「TF(u,k)×IDF(k)」であり、「TF(u,k)」は単語情報識別番号「k」に対応する単語情報の頻度である。)
【0075】
これは固有値情報算出ステップの一例を一層具体的に示すものである。このプログラムによれば、文書ベクトル情報に基づいて、数式2に示す文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出するので、簡単に固有値を算出することができる。
【数46】
Figure 2004295606
(ここで、「R」はオブジェクト「w」に関する自己相関行列であり、「M」は文書ベクトル情報集合の要素数(但し、「M≧1」、「M」は整数。)であり、「m」は1からMの値をとる整数であり、「uw(m)」はオブジェクト「w」に関するM個の文書ベクトル情報集合における文書ベクトル情報識別番号「m」に対応する文書ベクトル情報であり、当該文書ベクトル情報は「(u,u,・・・,u,・・・,u)」で表現され、当該文書ベクトル情報のベクトル成分「u」は「TF(u,k)×IDF(k)」であり、「TF(u,k)」は単語情報識別番号「k」に対応する単語情報の頻度である。)
【0076】
また、請求項25に記載のプログラムは、請求項21から24のいずれか一つに記載のプログラムにおいて、上記オブジェクト生成ステップは、上記固有値情報に対応する上記固有ベクトル情報に基づいて、数式3より定められる上記固有ベクトル情報を基底とする空間により導出される上記オブジェクトを生成することを特徴とする。
【数47】
Figure 2004295606
(ここで、「N」および「κ」は対象とする文書情報集合により実験的に定められるパラメータ(但し、「N」は1以上の整数、「0<κ≦1」)であり、「j」は1以上の整数であり、「λ 」はオブジェクト「w」のベクトル成分「j」に対応する固有値であり、「n」はオブジェクト「w」の次元数である。)
【0077】
これはオブジェクト生成ステップの一例を一層具体的に示すものである。このプログラムによれば、固有値情報に対応する固有ベクトル情報に基づいて、数式3より定められる固有ベクトル情報からなるオブジェクトを生成するので、オブジェクトの空間の次元数がパターン分布に反映される概念の広がりに対応するように、オブジェクトを生成することができる。
【数48】
Figure 2004295606
(ここで、「N」および「κ」は対象とする文書情報集合により実験的に定められるパラメータ(但し、「N」は1以上の整数、「0<κ≦1」)であり、「j」は1以上の整数であり、「λ 」はオブジェクト「w」のベクトル成分「j」に対応する固有値であり、「n」はオブジェクト「w」の次元数である。)
【0078】
また、請求項26に記載のプログラムは、請求項21から25のいずれか一つに記載のプログラムにおいて、上記オブジェクト間類似度情報算出ステップは、上記オブジェクトの上記固有値情報および当該固有値情報に対応する上記固有ベクトル情報に基づいて、数式4で定義された上記オブジェクト間の類似度情報を算出することを特徴とする。
【数49】
Figure 2004295606
(数式4において、「Lw(A,B)」はオブジェクト「w(A)」とオブジェクト「w(B)」との間の類似度であり、「λmax w(A,B)」は数式6に示す行列成分をもつ数式5に示す行列「X」の固有値問題を解いて得られる最大固有値であり、数式6において、「φ w(A)」、「φ w(B)」はそれぞれ、オブジェクト「w(A)」、オブジェクト「w(B)」の固有ベクトル情報であり、「nw(B)」は、オブジェクト「w(B)」の次元数である。)
【0079】
これはオブジェクト間類似度情報算出ステップの一例を一層具体的に示すものである。このプログラムによれば、オブジェクトの固有値情報および当該固有値情報に対応する固有ベクトル情報に基づいて、数式4で定義されたオブジェクト間の類似度情報を算出するので、2つのオブジェクト間の類似度を2つの空間がなす角度に基づいて算出することができ、当該類似度の尺度でオブジェクト間の相対関係を定量化し、知識構造化を図ることができる。
【数50】
Figure 2004295606
(数式4において、「Lw(A,B)」はオブジェクト「w(A)」とオブジェクト「w(B)」との間の類似度であり、「λmax w(A,B)」は数式6に示す行列成分をもつ数式5に示す行列「X」の固有値問題を解いて得られる最大固有値であり、数式6において、「φ w(A)」、「φ w(B)」はそれぞれ、オブジェクト「w(A)」、オブジェクト「w(B)」の固有ベクトル情報であり、「nw(B)」は、オブジェクト「w(B)」の次元数である。)
【0080】
また、請求項27に記載のプログラムは、請求項21から26のいずれか一つに記載のプログラムにおいて、正規直交変換に用いる学習文書情報の集合である学習文書情報集合を取得する学習文書情報集合取得ステップと、上記学習文書情報集合取得ステップにより取得された上記学習文書情報集合の上記学習文書情報をベクトルで表現した学習文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報に基づいて作成する学習文書ベクトル情報作成ステップと、上記学習文書ベクトル情報作成ステップにより作成された上記学習文書ベクトル情報を用いて上記正規直交変換を行うための正規直交行列を取得する正規直交行列取得ステップと、上記正規直交行列取得ステップにより取得された正規直交行列にて上記文書ベクトル情報を上記正規直交変換し、上記固有値の累積寄与率を基準に次元圧縮した空間に変換する正規直交変換ステップとをさらに含み、上記固有値情報算出ステップは、上記正規直交変換ステップにて変換された上記文書ベクトル情報に基づいて、上記自己相関行列の上記KL展開から上記固有値情報を算出することを特徴とする。
【0081】
このプログラムによれば、正規直交変換に用いる学習文書情報の集合である学習文書情報集合を取得し、取得された学習文書情報集合の学習文書情報をベクトルで表現した学習文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成し、作成された学習文書ベクトル情報を用いて正規直交変換を行うための正規直交行列を取得し、取得された正規直交行列にて文書ベクトル情報を正規直交変換し、固有値の累積寄与率を基準に次元圧縮した空間に変換し、変換された文書ベクトル情報に基づいて、上記文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出するので、単語情報集合の冗長性を除いて処理量を効果的に削減することができる。
【0082】
また、請求項28に記載のプログラムは、請求項27に記載のプログラムにおいて、上記学習文書ベクトル情報作成ステップは、上記学習文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報の積に基づいて作成することを特徴とする。
【0083】
これは学習文書ベクトル情報作成ステップの一例を一層具体的に示すものである。このプログラムによれば、学習文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報の積に基づいて作成するので、簡単に学習文書ベクトル情報を作成することができる。
【0084】
また、請求項29に記載のプログラムは、請求項27または28に記載のプログラムにおいて、上記重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式7から算出される「IDF(k)」であることを特徴とする。
【数51】
Figure 2004295606
(ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
【0085】
これは重み情報の一例を一層具体的に示すものである。このプログラムによれば、重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式7から算出される「IDF(k)」であるので、語の意味合いの深さを学習文書ベクトル情報に反映させることができる。
【数52】
Figure 2004295606
(ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
【0086】
また、請求項30に記載のプログラムは、請求項27から29のいずれか一つに記載のプログラムにおいて、上記正規直交変換ステップは、上記文書ベクトル情報を正規直交変換し、数式8で定義される上記固有値の累積寄与率を基準に次元圧縮した空間に変換することを特徴とする。
【数53】
Figure 2004295606
(ここで、「N」は、次元圧縮する前の文書ベクトル情報の次元数であり、「N’」は、次元圧縮した後の文書ベクトル情報の次元数であり、「u」は、正規直交変換における文書ベクトル情報の第「k」成分の固有値である(但し、「1≦k≦N」。)。)
【0087】
これは正規直交変換ステップの一例を一層具体的に示すものである。このプログラムによれば、文書ベクトル情報を正規直交変換し、数式8で定義される固有値の累積寄与率を基準に次元圧縮した空間に変換するので、効果的に次元圧縮することができる。
【数54】
Figure 2004295606
(ここで、「N」は、次元圧縮する前の文書ベクトル情報の次元数であり、「N’」は、次元圧縮した後の文書ベクトル情報の次元数であり、「u」は、正規直交変換における文書ベクトル情報の第「k」成分の固有値である(但し、「1≦k≦N」。)。)
【0088】
【発明の実施の形態】
以下に、本発明にかかる遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
【0089】
本発明では、文書を対象にした大規模知識構造化を提案する。そこで、情報検索時の入力に代表されるような要素概念をオブジェクトとして扱うとき、一般にオブジェクト群には相互の関連からもたらされる構造がみられる。
【0090】
具体的には、情報検索時の入力に代表されるような要素概念をオブジェクトとしてみると、知識はオブジェクト間に存在する類似、相反や因果関係などの相互の関連からなるといえ、一般にオブジェクト群にはその関連からもたらされる構造がみられる。
【0091】
そして、文書中に共通の概念が記述されている場合、それらの文書を構成する用語群には論理的結合からもたらされる固有の出現パターンがあり、上記概念間の関連は語の出現パターンのマッチングを意味するとみることができる。
【0092】
そして、本発明では、語の集合における各語の出現パターンの統計的な機械学習によりオブジェクトを生成し、その出現パターンのマッチング(例えば、「前田賢一,渡辺貞一,“局所的構造を導入したパターン・マッチング法”,信学論,Vol.J68−D,No.3,pp.345−352,1985」参照。)によりオブジェクト間の相対関係が定量化される。
【0093】
つまり、既存の知識を互いに関連付けることで体系的理解をねらいとする知識の構造化に対し、要素概念であるオブジェクト間の相対関係の定量化により捉える考え方に基づいている。
【0094】
また、同一オブジェクトに属する文書には、それらを構成する用語群における論理的結合からもたらされる固有の出現パターンがあるという考え方に着目している。
【0095】
本発明は、「例からの学習」と呼ばれる統計的な機械学習から生成されたオブジェクトに対するパターンマッチングによるものであり、全体のふかんが求められる大規模な知識構造化に効果的なアプローチである。
【0096】
そして、後述する実施例では、本発明に基づいて、一例として遺伝子、疾患、臓器をオブジェクトとして扱い、全体をふかんした知識の構造化が知識発見に向けて有効であることを、遺伝子機能推定への応用を通して述べる。
【0097】
[本発明の概要]
以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。図1は本発明の基本原理を示す概念図である。
【0098】
本発明は、概略的に、以下の基本的特徴を有する。すなわち、本発明は、まず、概念を共有するオブジェクトの生成に用いる文書情報の集合である文書情報集合を取得し、文書情報集合ファイルの所定の領域に格納する(ステップS−1)。
【0099】
ついで、ステップS−1にて取得された文書情報集合に含まれる各文書情報をベクトルで表現した文書ベクトル情報を、予め単語情報集合ファイルに格納された、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成し、文書ベクトル情報ファイルの所定の領域に格納する(ステップS−2)。
【0100】
ここで、文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報の積に基づいて作成してもよい。
【0101】
また、重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式1から算出される「IDF(k)」であってもよい(例えば、「西尾章治郎,田中克己,上原邦昭,有木康雄,加藤俊一,河野浩之,“情報の構造化と検索”,岩波書店,2000.」参照。)。
【数55】
Figure 2004295606
(ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
【0102】
ついで、ステップS−2にて作成された文書ベクトル情報に基づいて、文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出し、固有値情報ファイルの所定の領域に格納する(ステップS−3)。
【0103】
ここで、ステップS−2にて作成された文書ベクトル情報に基づいて、数式2に示す文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出してもよい。
【数56】
Figure 2004295606
(ここで、「R」はオブジェクト「w」に関する自己相関行列であり、「M」は文書ベクトル情報集合の要素数(但し、「M≧1」、「M」は整数。)であり、「m」は1からMの値をとる整数であり、「uw(m)」はオブジェクト「w」に関するM個の文書ベクトル情報集合における文書ベクトル情報識別番号「m」に対応する文書ベクトル情報であり、当該文書ベクトル情報は「(u,u,・・・,u,・・・,u)」で表現され、当該文書ベクトル情報のベクトル成分「u」は「TF(u,k)×IDF(k)」であり、「TF(u,k)」は単語情報識別番号「k」に対応する単語情報の頻度である。)
【0104】
ついで、ステップS−3にて算出された固有値情報に対応する固有ベクトル情報に基づいて、固有ベクトル情報を基底とする空間により導出されるオブジェクトを生成し、オブジェクトファイルの所定の領域に格納する(ステップS−4)。
【0105】
ここで、ステップS−3にて算出された固有値情報に対応する固有ベクトル情報に基づいて、数式3より定められる固有ベクトル情報を基底とする空間により導出されるオブジェクトを生成してもよい。
【数57】
Figure 2004295606
(ここで、「N」および「κ」は対象とする文書情報集合により実験的に定められるパラメータ(但し、「N」は1以上の整数、「0<κ≦1」)であり、「j」は1以上の整数であり、「λ 」はオブジェクト「w」のベクトル成分「j」に対応する固有値であり、「n」はオブジェクト「w」の次元数である。)
【0106】
ついで、ステップS−4にて生成されたオブジェクトの固有値情報および当該固有値情報に対応する固有ベクトル情報に基づいて、オブジェクト間の類似度情報を算出し、オブジェクト間類似度情報ファイルの所定の領域に格納してもよい(ステップS−5)。
【0107】
ここで、ステップS−4にて生成されたオブジェクトの固有値情報および当該固有値情報に対応する固有ベクトル情報に基づいて、数式4で定義されたオブジェクト間の類似度情報を算出してもよい(例えば、「前田賢一,渡辺貞一,“局所的構造を導入したパターン・マッチング法”,信学論,Vol.J68−D,No.3,pp.345−352,1985.」参照。)。
【数58】
Figure 2004295606
(数式4において、「Lw(A,B)」はオブジェクト「w(A)」とオブジェクト「w(B)」との間の類似度であり、「λmax w(A,B)」は数式6に示す行列成分をもつ数式5に示す行列「X」の固有値問題を解いて得られる最大固有値であり、数式6において、「φ w(A)」、「φ w(B)」はそれぞれ、オブジェクト「w(A)」、オブジェクト「w(B)」の固有ベクトル情報であり、「nw(B)」は、オブジェクト「w(B)」の次元数である。)
【0108】
これにより、数式4で定義される類似度の尺度でオブジェクト間の相対関係が定量化され、知識構造化を図ることができる。
【0109】
ここで、当該定量化において、事前に、カテゴリが定義されている場合において、固有ベクトルからの部分空間を用いて入力パターンの属するカテゴリを判定するパターン認識手法は部分空間類別法(例えば、「エルッキ・オヤ,“パターン認識と部分空間法”,産業図書,1986.」参照。)と呼ばれ、音声や文字の認識をはじめ、文書の分類への適用例(例えば、「松永務,“部分空間類別法を適用した文書のフィルタリング手法の検討”,信学論,Vol.J81−D−II,No.1,pp.54−63,1998.」参照。)が知られている。
【0110】
また、入力パターンの変動も部分空間で記述し、カテゴリ判定の基準に2つの空間のなす角度から定義された類似度を用いる拡張された手法は相互部分空間法(例えば、「前田賢一,渡辺貞一,“局所的構造を導入したパターン・マッチング法”,信学論,Vol.J68−D,No.3,pp.345−352,1985.」参照。)と呼ばれ、複数の顔画像によるロバストな人物同定の応用例(例えば、「山田修,福井和広,前田賢一,“動画像を用いた顔認識システム”,信学技報,PRMU97−50,1997.」参照。)が知られている。
【0111】
さらに、ステップS−5により特定の遺伝子に対応するオブジェクトと、任意のオブジェクトとの間の類似度情報を算出し、当該類似度情報に基づいて、当該特定の遺伝子の機能を推定し、推定結果を推定結果ファイルに格納する(ステップS−6)。
【0112】
ここで、単語情報集合の冗長性を除いて処理量を削減する目的から学習文書情報集合を用いた正規直交変換を施し、固有値情報の累積寄与率を基準に次元圧縮した空間に変換してもよい。
【0113】
具体的には、例えば、正規直交変換に用いる学習文書情報の集合である学習文書情報集合を取得し、取得された学習文書情報集合の学習文書情報をベクトルで表現した学習文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成し、作成された学習文書ベクトル情報を用いて正規直交変換を行うための正規直交行列を取得し、取得された正規直交行列にて文書ベクトル情報を正規直交変換し、固有値の累積寄与率を基準に次元圧縮した空間に変換してもよい。
【0114】
また、学習文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報の積に基づいて作成してもよい。
【0115】
また、重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式7から算出される「IDF(k)」であってもよい(例えば、「西尾章治郎,田中克己,上原邦昭,有木康雄,加藤俊一,河野浩之,“情報の構造化と検索”,岩波書店,2000.」参照。)。
【数59】
Figure 2004295606
(ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
【0116】
また、文書ベクトル情報を正規直交変換し、数式8で定義される固有値の累積寄与率を基準に次元圧縮した空間に変換してもよい。
【数60】
Figure 2004295606
(ここで、「N」は、次元圧縮する前の文書ベクトル情報の次元数であり、「N’」は、次元圧縮した後の文書ベクトル情報の次元数であり、「u」は、正規直交変換における文書ベクトル情報の第「k」成分の固有値である(但し、「1≦k≦N」。)。)
【0117】
[システム構成]
まず、本システムの構成について説明する。図2は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。
【0118】
本システムは、概略的に、遺伝子機能推定装置100と、遺伝子情報等に関する外部データベースや各種の外部プログラム等を提供する外部システム200とを、ネットワーク300を介して通信可能に接続して構成されている。
【0119】
図2において、ネットワーク300は、遺伝子機能推定装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネット等である。
【0120】
図2において、外部システム200は、ネットワーク300を介して、遺伝子機能推定装置100と相互に接続され、利用者に対して遺伝子情報等に関する外部データベースや各種の外部プログラムを実行するウェブサイトを提供する機能を有する。
【0121】
ここで、外部システム200は、WEBサーバやASPサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。
【0122】
図2において、遺伝子機能推定装置100は、概略的に、遺伝子機能推定装置100の全体を統括的に制御するCPU等の制御部102、通信回線等に接続されるルータ等の通信装置(図示せず)に接続される通信制御インターフェース部104、入力装置112や出力装置114に接続される入出力制御インターフェース部108、および、各種のデータベースやファイルなどを格納する記憶部106を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、この遺伝子機能推定装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク300に通信可能に接続されている。
【0123】
図2の記憶部106に格納される各種のデータベースやテーブルやファイル(文書情報集合ファイル106a〜推定結果ファイル106k)は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【0124】
これら記憶部106の各構成要素のうち、文書情報集合ファイル106aは、後述する文書情報集合取得部102aにより取得された、概念を共有するオブジェクトの生成に用いる文書情報の集合である文書情報集合を格納する文書情報集合格納手段である。
【0125】
この文書情報集合ファイル106aに格納される情報は、文書情報で構成されている。
【0126】
また、単語情報集合ファイル106bは、定められた単語情報集合を格納する単語情報集合格納手段である。
【0127】
この単語情報集合ファイル106bに格納される情報は、単語情報で構成されている。
【0128】
また、文書ベクトル情報ファイル106cは、後述する文書ベクトル情報作成部102bにより、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成された、文書情報集合の文書情報をベクトルで表現した文書ベクトル情報を格納する文書ベクトル情報格納手段である。
【0129】
この文書ベクトル情報ファイル106cに格納される情報は、文書ベクトル情報で構成されている。
【0130】
また、固有値情報ファイル106dは、後述する固有値情報算出部102cにより、文書ベクトル情報に基づいて文書ベクトル情報の自己相関行列のKL展開から算出された固有値情報を格納する固有値情報格納手段である。
【0131】
この固有値情報ファイル106dに格納される情報は、固有値情報で構成されている。
【0132】
また、オブジェクトファイル106eは、後述するオブジェクト生成部102dにより、算出された固有値情報に対応する固有ベクトル情報に基づいて生成された固有ベクトル情報を基底とする空間により導出されるオブジェクトを格納するオブジェクト格納手段である。
【0133】
このオブジェクトファイル106eに格納される情報は、オブジェクトの固有値情報と、当該固有値情報に対応する固有ベクトル情報と、オブジェクトの次元数と、対象とする文書情報集合により実験的に定められたパラメータ「κ」とを相互に関連付けて構成されている。
【0134】
また、オブジェクト間類似度情報ファイル106fは、後述するオブジェクト間類似度情報算出部102eにより、オブジェクトの固有値情報および当該固有値情報に対応する固有ベクトル情報に基づいて算出されたオブジェクト間の類似度情報を格納するオブジェクト間類似度情報格納手段である。
【0135】
このオブジェクト間類似度情報ファイル106fに格納される情報は、類似度情報算出の対象となるオブジェクトの識別情報と、類似度情報とを相互に関連付けて構成されている。
【0136】
また、学習文書集合ファイル106gは、後述する学習文書集合取得部102fにより取得された、正規直交変換に用いる学習文書情報の集合である学習文書情報集合を格納する学習文書集合格納手段である。
【0137】
この学習文書集合ファイル106gに格納される情報は、学習文書で構成されている。
【0138】
また、学習文書ベクトル情報ファイル106hは、後述する学習文書ベクトル情報作成部102gにより、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成された、学習文書情報集合の学習文書情報をベクトルで表現した学習文書ベクトル情報を格納する学習文書ベクトル情報格納手段である。
【0139】
この学習文書ベクトル情報ファイル106hに格納される情報は、学習文書ベクトル情報で構成されている。
【0140】
また、正規直交行列ファイル106iは、後述する正規直交行列取得部102hにより取得された、学習文書ベクトル情報を用いて正規直交変換を行うための正規直交行列を格納する正規直交行列格納手段である。
【0141】
この正規直交行列ファイル106iに格納される情報は、正規直交行列で構成されている。
【0142】
また、変換文書ベクトル情報ファイル106jは、後述する正規直交変換部102iにより、正規直交行列にて正規直交変換され、固有値の累積寄与率を基準に次元圧縮した空間に変換された文書ベクトル情報を格納する変換文書ベクトル情報格納手段である。
【0143】
この変換文書ベクトル情報ファイル106jに格納される情報は、変換された文書ベクトル情報で構成されている。
【0144】
また、推定結果ファイル106kは、後述する遺伝子機能推定部102jにより、後述するオブジェクト間類似度情報算出部102eにより特定の遺伝子に対応する上記オブジェクトと任意のオブジェクトとの間の上記類似度情報を算出し、当該類似度情報に基づいて、推定された当該特定の遺伝子の機能に関する推定結果情報を格納する推定結果格納手段である。
【0145】
この推定結果ファイル106kに格納される情報は、推定された当該特定の遺伝子の機能に関する推定結果情報で構成されている。
【0146】
また、図2において、通信制御インターフェース部104は、遺伝子機能推定装置100とネットワーク300(またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御インターフェース部104は、他の端末と通信回線を介してデータを通信する機能を有する。
【0147】
また、図2において、入出力制御インターフェース部108は、入力装置112や出力装置114の制御を行う。ここで、出力装置114としては、モニタ(家庭用テレビを含む)の他、スピーカ等を用いることができる(なお、以下においては出力装置114をモニタとして記載する場合がある)。また、入力装置112としては、キーボード、マウス、および、マイク等を用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現する。
【0148】
また、図2において、制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、文書情報集合取得部102a、文書ベクトル情報作成部102b、固有値情報算出部102c、オブジェクト生成部102d、オブジェクト間類似度情報算出部102e、学習文書集合取得部102f、学習文書ベクトル情報作成部102g、正規直交行列取得部102h、正規直交変換部102i、遺伝子機能推定部102jを含んで構成されている。
【0149】
このうち、文書情報集合取得部102aは、概念を共有するオブジェクトの生成に用いる文書情報の集合である文書情報集合を取得する文書情報集合取得手段である。
【0150】
また、文書ベクトル情報作成部102bは、文書情報集合の文書情報をベクトルで表現した文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成する文書ベクトル情報作成手段である。
【0151】
また、固有値情報算出部102cは、文書ベクトル情報に基づいて、文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出する固有値情報算出手段である。
【0152】
また、オブジェクト生成部102dは、固有値情報に対応する固有ベクトル情報に基づいて、固有ベクトル情報を基底とする空間により導出されるオブジェクトを生成するオブジェクト生成手段である。
【0153】
また、オブジェクト間類似度情報算出部102eは、オブジェクトの固有値情報および当該固有値情報に対応する固有ベクトル情報に基づいて、オブジェクト間の類似度情報を算出するオブジェクト間類似度情報算出手段である。
【0154】
また、学習文書集合取得部102fは、正規直交変換に用いる学習文書情報の集合である学習文書情報集合を取得する学習文書集合取得手段である。
【0155】
また、学習文書ベクトル情報作成部102gは、学習文書情報集合の学習文書情報をベクトルで表現した学習文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成する学習文書ベクトル情報作成手段である。
【0156】
また、正規直交行列取得部102hは、学習文書ベクトル情報を用いて正規直交変換を行うための正規直交行列を取得する正規直交行列取得手段である。
【0157】
また、正規直交変換部102iは、正規直交行列にて文書ベクトル情報を正規直交変換し、固有値の累積寄与率を基準に次元圧縮した空間に変換する正規直交変換手段である。
【0158】
また、遺伝子機能推定部102jは、オブジェクト間類似度情報算出部102eにより特定の遺伝子に対応するオブジェクトと任意のオブジェクトとの間の類似度情報を算出し、当該類似度情報に基づいて、当該特定の遺伝子の機能を推定する遺伝子機能推定手段である。
【0159】
なお、これら各部によって行われる処理の詳細については、後述する。
【0160】
[システムの処理]
次に、このように構成された本実施の形態における本システムの処理の一例について、以下に図3および図4等を参照して詳細に説明する。
【0161】
(メイン処理)
ここでは、遺伝子機能推定装置100にて行われるメイン処理について、図3等を参照して詳細に説明する。
【0162】
まず、遺伝子機能推定装置100は、文書情報集合取得部102aの処理により、概念を共有するオブジェクトの生成に用いる文書情報の集合である文書情報集合を取得し、文書情報集合ファイル106aの所定の領域に格納する(ステップSA−1)。
【0163】
ついで、遺伝子機能推定装置100は、文書ベクトル情報作成部102bの処理により、ステップSA−1にて取得された文書情報集合の文書情報をベクトルで表現した文書ベクトル情報を、予め単語情報集合ファイル106bに格納された、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成し、文書ベクトル情報ファイル106cの所定の領域に格納する(ステップSA−2)。
【0164】
ここで、文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報の積に基づいて作成してもよい。
【0165】
また、重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式1から算出される「IDF(k)」であってもよい(例えば、「西尾章治郎,田中克己,上原邦昭,有木康雄,加藤俊一,河野浩之,“情報の構造化と検索”,岩波書店,2000.」参照。)。
【数61】
Figure 2004295606
(ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
【0166】
ついで、遺伝子機能推定装置100は、固有値情報算出部102cの処理により、ステップSA−2にて作成された文書ベクトル情報に基づいて、文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出し、固有値情報ファイル106dの所定の領域に格納する(ステップSA−3)。
【0167】
ここで、ステップSA−2にて作成された文書ベクトル情報に基づいて、数式2に示す文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出してもよい。
【数62】
Figure 2004295606
(ここで、「R」はオブジェクト「w」に関する自己相関行列であり、「M」は文書ベクトル情報集合の要素数(但し、「M≧1」、「M」は整数。)であり、「m」は1からMの値をとる整数であり、「uw(m)」はオブジェクト「w」に関するM個の文書ベクトル情報集合における文書ベクトル情報識別番号「m」に対応する文書ベクトル情報であり、当該文書ベクトル情報は「(u,u,・・・,u,・・・,u)」で表現され、当該文書ベクトル情報のベクトル成分「u」は「TF(u,k)×IDF(k)」であり、「TF(u,k)」は単語情報識別番号「k」に対応する単語情報の頻度である。)
【0168】
ついで、遺伝子機能推定装置100は、オブジェクト生成部102dの処理により、ステップSA−3にて算出された固有値情報に対応する固有ベクトル情報に基づいて、固有ベクトル情報を基底とする空間により導出されるオブジェクトを生成し、オブジェクトファイル106eの所定の領域に格納する(ステップSA−4)。
【0169】
ここで、ステップSA−3にて算出された固有値情報に対応する固有ベクトル情報に基づいて、数式3より定められる固有ベクトル情報を基底とする空間により導出されるオブジェクトを生成してもよい。
【数63】
Figure 2004295606
(ここで、「N」および「κ」は対象とする文書情報集合により実験的に定められるパラメータ(但し、「N」は1以上の整数、「0<κ≦1」)であり、「j」は1以上の整数であり、「λ 」はオブジェクト「w」のベクトル成分「j」に対応する固有値であり、「n」はオブジェクト「w」の次元数である。)
【0170】
ついで、遺伝子機能推定装置100は、オブジェクト間類似度情報算出部102eの処理により、ステップSA−4にて生成されたオブジェクトの固有値情報および当該固有値情報に対応する固有ベクトル情報に基づいて、オブジェクト間の類似度情報を算出し、オブジェクト間類似度情報ファイル106fの所定の領域に格納する(ステップSA−5)。
【0171】
ここで、ステップSA−4にて生成されたオブジェクトの固有値情報および当該固有値情報に対応する固有ベクトル情報に基づいて、数式4で定義されたオブジェクト間の類似度情報を算出してもよい(例えば、「前田賢一,渡辺貞一,“局所的構造を導入したパターン・マッチング法”,信学論,Vol.J68−D,No.3,pp.345−352,1985.」参照。)。
【数64】
Figure 2004295606
(数式4において、「Lw(A,B)」はオブジェクト「w(A)」とオブジェクト「w(B)」との間の類似度であり、「λmax w(A,B)」は数式6に示す行列成分をもつ数式5に示す行列「X」の固有値問題を解いて得られる最大固有値であり、数式6において、「φ w(A)」、「φ w(B)」はそれぞれ、オブジェクト「w(A)」、オブジェクト「w(B)」の固有ベクトル情報であり、「nw(B)」は、オブジェクト「w(B)」の次元数である。)
【0172】
これにより、数式4で定義される類似度の尺度でオブジェクト間の相対関係が定量化され、知識構造化を図ることができる。
【0173】
さらに、遺伝子機能推定装置100は、遺伝子機能推定部102jの処理により、ステップSA−5により特定の遺伝子に対応するオブジェクトと、任意のオブジェクトとの間の類似度情報を算出し、当該類似度情報に基づいて、当該特定の遺伝子の機能を推定し、推定結果を推定結果ファイル106kの所定の領域に格納する(ステップSA−6)。
【0174】
ここで、単語情報集合の冗長性を除いて処理量を削減する目的から学習文書情報集合を用いた正規直交変換を施し、固有値情報の累積寄与率を基準に次元圧縮した空間に変換してもよい。
【0175】
具体的には、例えば、正規直交変換に用いる学習文書情報の集合である学習文書情報集合を取得し、取得された学習文書情報集合の学習文書情報をベクトルで表現した学習文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成し、作成された学習文書ベクトル情報を用いて正規直交変換を行うための正規直交行列を取得し、取得された正規直交行列にて文書ベクトル情報を正規直交変換し、固有値の累積寄与率を基準に次元圧縮した空間に変換してもよい。
【0176】
(次元圧縮処理)
ここで、学習文書情報集合取得部102fから正規直交変換部102iにて行われる次元圧縮処理について、図4を参照して詳細に説明する。図4は、本実施形態における本システムの次元圧縮処理の一例を示すフローチャートである。
【0177】
まず、遺伝子機能推定装置100は、学習文書情報集合取得部102fの処理により、正規直交変換に用いる学習文書情報の集合である学習文書情報集合を取得し、学習文書情報ファイル106gの所定に領域に格納する(ステップSB−1)。
【0178】
ついで、遺伝子機能推定装置100は、学習文書ベクトル情報作成部102gの処理により、ステップSB−1にて取得された学習文書情報集合の学習文書情報をベクトルで表現した学習文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成し、学習文書ベクトル情報ファイル106hの所定に領域に格納する(ステップSB−2)。
【0179】
ここで、学習文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報の積に基づいて作成してもよい。
【0180】
また、重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式7から算出される「IDF(k)」であってもよい(例えば、「西尾章治郎,田中克己,上原邦昭,有木康雄,加藤俊一,河野浩之,“情報の構造化と検索”,岩波書店,2000.」参照。)。
【数65】
Figure 2004295606
(ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
【0181】
ついで、遺伝子機能推定装置100は、正規直交行列取得部102hの処理により、ステップSB−2にて作成された学習文書ベクトル情報を用いて正規直交変換を行うための正規直交行列を取得し、正規直交行列ファイル106iの所定の領域に格納する(ステップSB−3)。
【0182】
ついで、遺伝子機能推定装置100は、正規直交変換部102iの処理により、ステップSB−3にて取得された正規直交行列にて文書ベクトル情報を正規直交変換し、固有値の累積寄与率を基準に次元圧縮した空間に変換し、変換文書ベクトル情報ファイル106jの所定の領域に格納する(ステップSB−4)。
【0183】
ここで、文書ベクトル情報を正規直交変換し、数式8で定義される固有値の累積寄与率を基準に次元圧縮した空間に変換してもよい。
【数66】
Figure 2004295606
(ここで、「N」は、次元圧縮する前の文書ベクトル情報の次元数であり、「N’」は、次元圧縮した後の文書ベクトル情報の次元数であり、「u」は、正規直交変換における文書ベクトル情報の第「k」成分の固有値である(但し、「1≦k≦N」。)。)
【0184】
これにて、次元圧縮処理が終了する。
【0185】
以上、メイン処理が終了する。
【0186】
[実施例]
次に、本発明の実施例について、図5から図15等を参照して詳細に説明する。
【0187】
本実施例においては、全体をふかんした知識発見に対する顕著なニーズのあるライフサイエンス分野(例えば、「“21世紀の医療・福祉を支える科学技術特集/5.ゲノム情報とその利用”,信学誌,Vol.84,No.5,pp.341−367,2001.」、「森下真一,久光徹,高木利久,“特集ゲノム情報科学”,情報処理,Vol.43,No.1,pp.1−41,2002.」参照。)に本発明を適用し、遺伝子機能解析への応用について述べる。
【0188】
具体的には、遺伝子と疾患との関連に相当する疾患関連遺伝子抽出をはじめ、臓器に関する知識と融合させた遺伝子機能推定に関する実験結果から本発明の有効性を示す。
【0189】
また、本実施例のねらいは、これまで膨大で広範囲な情報量から困難とされていた遺伝子の知識の構造化が本発明の適用により実現され、遺伝子の機能推定につながる点を示すことにある。
【0190】
(1.実験に用いるデータ)
ヒトの遺伝病に関するデータベースとしてよく知られる「OMIM(Online MendelianInheritance in Man)(例えば、「A.Hamosh et al.,“Online Mendelian Inheritance in Man(OMIM)”,Hum.Mutat.,vol.15,No.1,pp57−61,2000.」参照。)」を本実験では用いる。
【0191】
ここで、「OMIM」は、疾患や遺伝子の単位で番号が付与され、文献データベース「PubMed(例えば、PubMedホームページ「http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed」参照。)」へリンクされた論文の引用と共に疾患や遺伝子について記述されたページからなっている。
【0192】
なお、遺伝子や疾患はその引用の論文を通して知られることから、「PubMed」の各論文を文書情報(本実施形態における文書情報集合ファイル106aに格納される文書情報に対応)と扱ってオブジェクトを生成した(本実施形態におけるオブジェクト生成部102dに対応)。また、遺伝子のオブジェクトは「OMIM」における全13722件(2001年12月時点)のうちの遺伝子名が得られる10001件を対象にした。
【0193】
本実験では上述のリンクの「PubMed」の論文の全77638件を学習文書情報集合(本実施形態における学習文書情報集合ファイル106gに格納される学習文書情報の集合に対応)にし、文書のベクトル表現のための単語情報集合(本実施形態における単語情報集合ファイル106bに格納される単語情報の集合に対応)にはライフサイエンス分野でよく用いられる4789語を用いた。
【0194】
ここで、単語情報集合の語の選択は類似度情報の精度、サイズは処理量、即ち速度に直接影響を与える。本発明は複数の語の間で形成される出現パターンに基づくものであり、当該分野でよく用いられる語から選択されるのが適当である。
【0195】
ここには、文書情報群における語の出現数順位が下がるほど急激に出現数が減少するという「ジップの法則」がある。本実験の4789語は、分子生物学をはじめ、病理学、生化学、遺伝学等において分野横断的に用いられている観点から収集した約6千語に対し、本文で述べられている「PubMed」の論文77638件に含まれる語を基準にして得た。
【0196】
ここでは、要素概念を記述するために必要最低限に語を対象とする考え方から遺伝子やタンパク質の名称は含まれていない。なお、当該遺伝子やタンパク質の名称を対象に取り入れてもよい。
【0197】
図5は、学習文書情報集合における頻度上位25による語の例を示す図である。
【0198】
ここで、図5において、論文のタイトル部では「10」、アブストラクト部では「5」の重み(本実施形態における「重み情報」に対応)で各語の出現頻度(本実施形態における「出現頻度情報」に対応)が計算されている。
【0199】
また、図5には各語の最大77638件のうちの出現件数とこれより算出される「IDF値(本実施形態における「重み情報」に対応)」もあわせて示されている。
【0200】
図6は、「PubMed」のIDが「8661019」の論文(論文タイトルは、「Genomic organization of the humanSCN5A gene encoding the cardiac godium channel.」)を用いた語の抽出例を示す図である。
【0201】
図6における頻度の欄の2つの数字は、左がタイトル、右がアブストラクトの中の頻度である。図の通り、「action potential」のように複数単語による語が抽出される他、「PCR」のような略語や単数/複数の語形変化についても考慮されたものとなっている。学習文書集合77638件における抽出語数の平均は「12.7」である。
【0202】
ここで、予備実験から圧縮次元数「N’」を「310(固有値の累積寄与率50%に相当)」に定めた。ここに、「κ=0.86」では遺伝子オブジェクトの次元数「n」の平均は「2.5」(遺伝子オブジェクトの次元数の最大は遺伝子名「FMR1(「OMIM」の番号「309550」)」において「29」)となる。
【0203】
(2.疾患関連遺伝子の抽出)
ここでは、高血圧を疾患の例に疾患関連遺伝子抽出の実験結果について述べ、本発明の適用の有効性を定量的に示す。疾患関連遺伝子の抽出は、疾患のオブジェクトと遺伝子のオブジェクトとの類似度を降順に序列化することで実現される。
【0204】
高血圧の疾患が記述される「OMIM」の番号「145500」のページの引用論文から高血圧のオブジェクトを生成した(本実施形態におけるオブジェクト生成部102dに対応)(例えば、「三木哲郎,“高血圧遺伝子解析プロジェクト”,遺伝子医学,Vol.5,No.4,pp.126−130,2001.」参照。)。ここに「κ=0.86」とし、高血圧のオブジェクトの次元数は「8」である。
【0205】
図7および図8はそれぞれ、「GeneCards(例えば、「M.Rebhan et al.,“GeneCards: a novel functional genomics compendium with automated data mining and query reformulation support”,Bioinformatics,14,pp656−664,1998.」参照。)」および「高血圧候補遺伝子リスト(例えば、「MK.Halushka et al.,“GIST: A web tool for collecting gene information”,Physiol.Genomics,vol.1,No.2,pp75−81,1999.」参照。)」による関連遺伝子に関する再現率、適合率の変動であり、10001遺伝子からの抽出精度を示している。
【0206】
ここで、「GeneCards」は、遺伝子情報ポータルとしてよく知られている。なお、「hypertention」の検索語で得られる52件(2001年12月時点)のうち、「OMIM」の番号のあるものは39件あり、関連遺伝子とした。
【0207】
また、「高血圧候補遺伝子リスト」の方は挙げられている150のうちの「OMIM」の番号のある147を関連遺伝子としている。なお、両者に重複する遺伝子に16件が含まれている。
【0208】
また、再現率(recall)および適合率(precision)は情報検索でよく用いられる評価尺度で次式でそれぞれ定義されている(例えば、「長尾真,“自然言語処理”,岩波書店,1996.」参照。)。
【0209】
具体的には、「再現率R=抽出された文書中の該当文書の数/全文書中の該当文書の数」、「適合率P=抽出された文書中の該当文書の数/抽出された文書の数」で定義される。
【0210】
図7と図8のいずれも上位に関連遺伝子が挙げられていることがわかる。ここで、抽出遺伝子数を増やしても再現率があまり伸びない傾向がみられるが、これは再現率100%になる最小の抽出遺伝子数が「GeneCards」および「高血圧候補遺伝子リスト」でそれぞれ、「7529」および「9249」であり、オブジェクト生成に用いた「OMIM」からの引用論文では必ずしも十分ではないことが一因に考えられる。
【0211】
しかし、高血圧の145500のページで引用される23遺伝子に関しては、抽出遺伝子数「10」、「20」、「50」、「100」、「1000」および「5000」に対して順に、「8」、「13」、「17」、「18」、「21」および「22」の該当遺伝子数となり、高いレベルの抽出精度が得られることから疾患や遺伝子はオブジェクトとして適切に表現されていると判断される。
【0212】
図9に上位20の抽出遺伝子を示す。図には各遺伝子の「OMIM」本文のページの中の「hypertension」の語の頻度、並びに「GeneCards」および「高血圧候補遺伝子リスト」で高血圧に関連するとされる遺伝子がそれぞれ、「H」および「h」の印によりあわせて示されている。
【0213】
図9をみると、「OMIM」本文中に「hypertension」の語の含まれた言及により関連が認められるものが上位に挙げられており,抽出結果の妥当性が確認できる。
【0214】
なお、図9において、(1.実験に用いるデータ)で述べたように引用の論文をオブジェクト生成に用いており、「OMIM」本文は用いられていない。
【0215】
ここで、例えば「hypertension」の語の含まれない第14位の遺伝子「SLC12A3」では「high blood pressure」の語で「OMIM」本文に高血圧関連遺伝子の記述がある。
【0216】
なお、「SLC12A3」は高血圧治療につながる利尿薬のターゲットとなる伝達物質に関する遺伝子であるとされている。
【0217】
また、「OMIM」本文中に「hypertension」の語がないだけでなく、「H」および「h」の印もない第18位の遺伝子「HOMG2」でも一般に高血圧との関連が知られている。
【0218】
なお、「HOMG2」は低マグネシウム血症に関する遺伝子であり、低マグネシウム血症は心筋梗塞症、高血圧、うっ血性心不全のような心臓血管の問題と関係があるとされている(例えば、「医学大辞典、南山堂、1998」参照。)。
【0219】
従って、図9の20遺伝子は全て、「OMIM」本文中の「hypertension」の語、「H」および「h」の印の3つの点のいずれかで関連が見込まれ、妥当性が認められる。本発明により有効な結果が得られることがわかる。
【0220】
(3.遺伝子知識の構造化)
ここでは、遺伝子オブジェクトを用い、遺伝子知識の構造化に関する実験について述べる。知識の関連付けにより全体像の体系的理解に伴う知識発見につながることを、実験結果を通して示す。
【0221】
まず、アルツハイマー病、糖尿病および高血圧に関連する遺伝子に着目し、「GeneCards」から関連するとされる遺伝子としてそれぞれ「56」、「94」、「39」の計185を対象の遺伝子とした。
【0222】
ここで、アルツハイマー病および糖尿病の関連遺伝子は、「GeneCards」においてそれぞれ、「Alzheimer」および「diabetes」の検索語から(2.疾患関連遺伝子の抽出)に述べた高血圧と同様にして得た。そして、3つの疾患で関連の重複する遺伝子が4つ含まれている。
【0223】
図10と図11は、「κ=0.51」としたときの全ての組合せの遺伝子間の類似度から遺伝子間の相対関係を2次元平面上に近似して示した図である。多次元尺度法(例えば、「林知己夫,飽戸弘,“多次元尺度解析法”,サイエンス社,1976.」参照。)により、遺伝子間の類似度の値が大きいほど2次元平面上で近く布置されている。
【0224】
図10ではアルツハイマー病、糖尿病および高血圧に関連する各遺伝子がそれぞれ、「A」、「D」および「H」のマーク(アルツハイマー病および糖尿病、糖尿病および高血圧に関連する遺伝子はそれぞれ、「A/D」、「D/H」のマークとした。)でプロットされている。
【0225】
図10をみるとアルツハイマー病関連遺伝子は図の右上、糖尿病は下、高血圧は左上を中心にした分布になっており、対象にした3つの疾患と結び付いた構造が認められる。
【0226】
このことから、対象としてアルツハイマー病、糖尿病および高血圧からのそれぞれの関連遺伝子を基準に選択したことを考えると、その疾患毎に計3つのまとまりをもつことは妥当と判断できる。
【0227】
また,肥満のオブジェクトを新たに生成し、上記3疾患の代わりに肥満との類似度の大小を「O」のマークの大小でプロットしたのが図11である。
【0228】
ここで、高血圧と同様、肥満が記述される「OMIM」の番号「601665」のページの引用論文から肥満のオブジェクトを生成した(本実施形態におけるオブジェクト生成部102dに対応)。また、「κ」を「0.86」にしたときの肥満のオブジェクトの次元数「5」による類似度(本実施形態におけるオブジェクト間類似度情報算出部102eにより算出された類似度情報に対応)を用いた。
【0229】
図11からわかるように、下からやや左にかけた位置の遺伝子に肥満との関連の構造が認められる。従って、同じ2次元平面上の遺伝子の分布が3疾患との関連と肥満との関連のそれぞれの構造の記述を果たしているということができる。
【0230】
そして、その両者の対比による知識発見として、糖尿病と高血圧の一部の関連遺伝子に肥満との結びつきが挙げられ、妥当性が認められる。
【0231】
なお、糖尿病や高血圧の肥満との関連は医学的に知られている(例えば、「佐々木博巳,“バイオ研究イラストマップ”,羊土社,2001.」参照)。
【0232】
ここに、「OMIM」には含まれない遺伝子についてもその遺伝子を記述した文書群を通してオブジェクトを生成し、図10や図11に付加する形でプロットすることで3疾患や肥満との関連を把握することが可能である。このように遺伝子知識の構造化は、機能が未知の遺伝子に対する推定へつながる。
【0233】
つまり、遺伝子間の関係についてはこれまで遺伝子名の論文中の共起頻度に基づく網羅的な検討(例えば、「T.Jenssen et al.,“Aliterature network of human genes for high−throughput analysis of gene expression”,Nat. Genet., vol.28,No.5,pp21−28,2001.」参照。)が報告され、その結果が広く活用されているが、本発明によれば、より高次の定量化を実現すると共に、肥満の例のような他の概念との関連と適宜あわせて示されることが特筆すべき点である。
【0234】
(4.遺伝子と臓器の知識の横断的融合)
ここでは、本発明の語で表現される概念への適用性を予備的に検証した上で、遺伝子と臓器を例に知識の横断的融合に関する実験について述べる。
【0235】
ここで、遺伝子の機能は遺伝子産物が担う機能、遺伝子産物のネットワークが担う機能、遺伝子の発現場所で定められるとされ(例えば、「M.Ashburner et al.,“Gene ontology:tool for the unification of biology”,Nat. Genet., vol.25,No.1,pp25−29,2000.」参照。)、臓器は第3点目に着目したものである。
【0236】
図12は予備実験で取り上げるオブジェクトで(3.遺伝子知識の構造化)のアルツハイマー病(Alzheimerdisease)、糖尿病(diabetes mellitus)および高血圧(hypertension)の3疾患に、糖尿病に医学的に関連(例えば、「佐々木博巳,“バイオ研究イラストマップ”,羊土社,2001.」参照。)が知られるインスリン(insulin)、グルコキナーゼ(glucokinase)と高血圧に関連の知られる副腎皮質刺激ホルモン(corticotropin)、アルドステロン(aldosterone)を加えた計7つを生成した。
【0237】
ただし、ここでの実験では、直接「PubMed」により各語を検索語にして得た論文を用いた。
【0238】
ここには、語を含むことを通して概念を共有しているとみる考え方に基づいている。検索時には「MeSH Major Topic」、「Engliuh」、「Human」のオプションを付与し、対象論文を得た。
【0239】
例えば、アルツハイマー病のオブジェクトは、「Alzheimer disease」を検索語に1999年1月から2001年12月(Publication Data)の3年間を対象にして得た3740件から生成され(本実施形態におけるオブジェクト生成部102dに対応)、「κ=0.51」としたときの次元数は「4」である。
【0240】
図13にこれらの7つのオブジェクトの間に得られた類似度を通して相対関係を示す。図13では高血圧に関する上記2つのオブジェクトと高血圧との関連はそれほど深く示されていないが、相対的には前述した医学的知見と整合する結果が得られている。
【0241】
特に、糖尿病に関する上記2つは糖尿病と間でどちらも1に近い大きな値が得られており、「OMIM」に含まれる疾患や遺伝子に限定されず、一般に相互の関係が定量化可能であることがわかる。
【0242】
図14は実験に用いる臓器に関連のある遺伝子である。実験に用いる臓器は腎臓(kidney)、下垂体(pituitary gland)、副腎(adrenal gland)、脂肪(adipose)組織の4つであり、本節で既に述べた方法で4つの臓器のオブジェクトを新たに生成した。
【0243】
ここで、高血圧に関係深い臓器を取り上げた。血圧の調節機構にレニン・アンジオテンシン・アルドステロン系が知られており、その中心的役割の1つのレニンが腎から分泌される酵素であることなどから腎臓は高血圧に関連深い臓器に位置付けられる。
【0244】
また、ホルモンはホメオスターシスと呼ばれる血圧などの恒常性維持の役割を担うもので(例えば、「医学大辞典、南山堂、1998」参照。)、ホルモンの代表的な生成器官である下垂体と副腎は上記血圧の調節機構との関係が知られている。
【0245】
また、血圧に影響を与える要因に肥満が知られ、脂肪組織と関係がある。
【0246】
また、腎臓、下垂体、副腎および脂肪組織のオブジェクトはそれぞれ、「kidney」、「pituitary gland」、「adrenal gland」、および、「adipose tissue」を検索語に2001年1月から12月の1年間を対象にして得た1084、240、115、および、419件から生成した(本実施形態におけるオブジェクト生成部102dに対応)。
【0247】
また、「κ」が「0.51」のときの次元数「n」はぞれぞれ、「16」、「3」、「4」、および、「2」であり、腎臓が他の3つに比べて広い概念をもち、多様な働きをすることが考えられる。
【0248】
図14はそれら4つの臓器と関連のある遺伝子を対象に選ばれており、図14に文献「MK.Halushka et al.,“GIST: A web tool for collecting gene information”,Physiol.Genomics,vol.1,No.2,pp75−81,1999.」による発現臓器と機能クラスをあわせて示す。
【0249】
ここで、「高血圧候補遺伝子リスト(例えば、「MK.Halushka et al.,“GIST: A web tool for collecting gene information”,Physiol.Genomics,vol.1,No.2,pp75−81,1999.」参照。)」の「Expressed in cDNA Library From Stated Organ」において、当該臓器で特異的に発現するとされる遺伝子により便宜的に選んだ。
【0250】
また、遺伝子発現とはタンパク質合成を通して機能が現れることで、臓器や時期などに依存して調節されることが知られている(例えば、「医学大辞典、南山堂、1998」参照。)。
【0251】
また、「高血圧候補遺伝子リスト」では、16の機能クラスのいずれかが各遺伝子に付与されている。
【0252】
そして、4つの臓器および図14の12の遺伝子に対し、(3.遺伝子知識の構造化)と同様に2次元平面上にマップしたのが図15であり、臓器および遺伝子がそれぞれ、「*」および「+」のマークで示されている。
【0253】
図15をみると脂肪組織と「LEP」、並びに下垂体と「TRHR」、「VPR1B」遺伝子は、関連に応じて近く布置されていることがわかる。副腎に関連する3つの遺伝子は図の上下に、「CYP11B2」遺伝子と「TH」、「DBH」遺伝子に分かれてしまっているが、図14の最右欄の機能クラスの違いが反映された結果とみることができる。
【0254】
ここには、「CYP11B2」遺伝子と最も近い位置にある「REN」遺伝子が共通の「Renin−Angiotensin pathway」の機能クラスに属すことから妥当性が確認できる。
【0255】
また、腎臓と関連する図の右上の「Channel & Transporter」の機能クラスに属す遺伝子4つから「REN」遺伝子が図の左へ離れているのも機能クラスの違いが示されていると判断できる。
【0256】
また、「PTGER3」遺伝子が同じく腎臓と関連がある遺伝子4つと離れて右下に位置にあるのも機能クラスの異なることによるものと判断される。
【0257】
このように、本発明を通して知識の融合と構造化が実現され、体系的理解が知識発見につながることがわかる.また,本発明によれば、手元にある関心対象の文書群に対しても同様にオブジェクトを生成することで既存知識の疾患や臓器、遺伝子との関係把握を可能とする。
【0258】
なお、数式2から分かる通り、新たな知見に伴う文書の追加や削除によるオブジェクトの再生成には最初から計算し直すことなく適応的に処理可能であり、本発明の特長に挙げられる。
【0259】
また、同様にあらためて計算することなく複数のオブジェクトの併合が可能であり、例えば遺伝子発現データクラスタリングから得られる遺伝子群を統合したオブジェクト生成により、共通の機能推定を図る適用が考えられる。
【0260】
また、遺伝子間の関係を示した図(図10および図11)および遺伝子との相対関係を示した図(図15)のような図を作成すること(全ての組み合わせの類似度があれば多次元尺度法(例えば、「林知己夫,飽戸弘,“多次元尺度解析法”,サイエンス社,1976.」参照。)により実現可)は、遺伝子の機能推定を可能にする視覚的手段の位置づけであり、他の方式(例えば、閾値より大きければ「機能あり」のような数理的な方式など)により遺伝子の機能推定をしてもよい。
【0261】
このように、本発明では語の出現パターンの統計的な学習によりオブジェクトを生成し、オブジェクト間の相対関係を定量化した。既存の知識の関連付けにより体系的理解をねらいとする知識構造化において、本発明によれば全体をふかんした大規模な知識構造化を実現することを述べ、実験結果を通して遺伝子機能推定への有効性を示した。
【0262】
また、高血圧や糖尿病などの生活習慣病は、環境や複数の遺伝子を要因に引き起こされるとされており(例えば、「堀内正嗣,福田恵一,森下竜一,“生活習慣と遺伝子疾患”,メディカルレビュー社,2002.」参照。)、本発明による全体のふかんは不可欠である。
【0263】
従来は、個別の遺伝子の塩基配列などに着目して機能が解析されたが、システムとして理解する必要性から全体の系の中から各遺伝子の働きの解析が求められてきている(例えば、「中村祐輔,“概論‐個の遺伝子研究からゲノムワイドの遺伝子研究へ”,実験医学,Vol.18,No.12,pp.18−20,2000.」参照。)。
【0264】
そして、本実施例の実験で例に取り上げた臓器をはじめ、時空間的なひろがりをもった相互の関連の理解が今後は重要となる。
【0265】
なお、対象とする遺伝子を人間の遺伝子数相当とされる数万規模において処理可能である。
【0266】
また、本発明は数値データも併せて扱うことができ、例えば「CRM(顧客関係管理)」分野において顧客や商品をオブジェクトに購買履歴などを学習し、相互の関連に基づいた商品推薦のリコメンデーションのアプリケーションへの展開も可能である。
【0267】
[他の実施の形態]
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
【0268】
例えば、遺伝子機能推定装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、遺伝子機能推定装置100とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。
【0269】
また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
【0270】
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
【0271】
また、遺伝子機能推定装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
【0272】
例えば、遺伝子機能推定装置100の各部または各装置が備える処理機能、特に制御部102にて行なわれる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じて遺伝子機能推定装置100に機械的に読み取られる。
【0273】
すなわち、ROMまたはHDなどの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAM等にロードされることによって実行され、CPUと協働して制御部102を構成する。また、このコンピュータプログラムは、遺伝子機能推定装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
【0274】
また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。
【0275】
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
【0276】
記憶部106に格納される各種のファイル等(文書情報集合ファイル106a〜推定結果ファイル106k)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【0277】
また、遺伝子機能推定装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
【0278】
さらに、遺伝子機能推定装置100の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をCGI(Common Gateway Interface)を用いて実現してもよい。
【0279】
また、ネットワーク300は、遺伝子機能推定装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、LAN(有線/無線の双方を含む)や、VANや、パソコン通信網や、公衆電話網(アナログ/デジタルの双方を含む)や、専用回線網(アナログ/デジタルの双方を含む)や、CATV網や、IMT2000方式、GSM方式またはPDC/PDC−P方式等の携帯回線交換網/携帯パケット交換網や、無線呼出網や、Bluetooth等の局所無線網や、PHS網や、CS、BSまたはISDB等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。
【0280】
【発明の効果】
以上詳細に説明したように、本発明によれば、概念を共有するオブジェクトの生成に用いる文書情報の集合である文書情報集合を取得し、取得された文書情報集合に含まれる各文書情報をベクトルで表現した文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成し、作成された文書ベクトル情報に基づいて、文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出し、算出された固有値情報に対応する固有ベクトル情報に基づいて、固有ベクトル情報を基底とする空間により導出されるオブジェクトを生成し、生成されたオブジェクトの固有値情報および当該固有値情報に対応する固有ベクトル情報に基づいて、オブジェクト間の類似度情報を算出し、特定の遺伝子に対応するオブジェクトと、任意のオブジェクトとの間の類似度情報を算出し、当該類似度情報に基づいて、当該特定の遺伝子の機能を推定するので、広範囲で膨大な量の文書情報に対する計算機による自動処理を通して、例えば、疾患関連遺伝子の抽出を実現し、新しい薬剤や治療法の開発でのコストを削減することにつなげることができる遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムを提供することができる。
【0281】
また、本発明によれば、具体的には、医学生物学的な語の集合における各語の出現パターンの統計的な機械学習によりオブジェクトを生成し、その出現パターンのマッチングによりオブジェクト間の相対関係を算出することができる遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムを提供することができる。
【0282】
また、本発明によれば、具体的には、例えば、遺伝子、疾患、臓器、化合物などの要素概念をオブジェクトとして扱い、論文をはじめとした文書情報を基に、類似度の尺度で当該オブジェクト群の相互の関連を定量化し、例えば、遺伝子と疾患の間を関連付けて疾患関連遺伝子を抽出(機能推定)するなど知識構造化を図ることができる遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムを提供することができる。
【0283】
また、本発明によれば、疾患の他、臓器や化合物、免疫などの作用や肥満、喫煙などと遺伝子との関連を統合的に把握することを可能にすることができる遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムを提供することができる。
【0284】
また、本発明によれば、手元の文書群(例えば、新規遺伝子、薬剤やタンパク質に関して記述されたもの)からオブジェクト生成することで、既存の概念との関連が推測でき、薬剤開発などでの工数を削減することができる遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムを提供することができる。
【0285】
また、本発明によれば、文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報の積に基づいて作成するので、簡単に文書ベクトル情報を作成することができる遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムを提供することができる。
【0286】
また、本発明によれば、重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式1から算出される「IDF(k)」であるので、語の意味合いの深さを文書ベクトル情報に反映させることができる遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムを提供することができる。
【0287】
また、本発明によれば、文書ベクトル情報に基づいて、数式2に示す文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出するので、簡単に固有値を算出することができる遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムを提供することができる。
【0288】
また、本発明によれば、固有値情報に対応する固有ベクトル情報に基づいて、数式3より定められる固有ベクトル情報を基底とする空間により導出されるオブジェクトを生成するので、オブジェクトの空間の次元数がパターン分布に反映される概念の広がりに対応するように、オブジェクトを生成することができる遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムを提供することができる。
【0289】
また、本発明によれば、オブジェクトの固有値情報および当該固有値情報に対応する固有ベクトル情報に基づいて、数式4で定義されたオブジェクト間の類似度情報を算出するので、2つのオブジェクト間の類似度を2つの空間がなす角度に基づいて算出することができ、当該類似度の尺度でオブジェクト間の相対関係を定量化し、知識構造化を図ることができる遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムを提供することができる。
【0290】
また、本発明によれば、正規直交変換に用いる学習文書情報の集合である学習文書情報集合を取得し、取得された学習文書情報集合の学習文書情報をベクトルで表現した学習文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成し、作成された学習文書ベクトル情報を用いて正規直交変換を行うための正規直交行列を取得し、取得された正規直交行列にて文書ベクトル情報を正規直交変換し、固有値の累積寄与率を基準に次元圧縮した空間に変換し、変換された文書ベクトル情報に基づいて、上記文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出するので、単語情報集合の冗長性を除いて処理量を効果的に削減することができる遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムを提供することができる。
【0291】
また、本発明によれば、学習文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報の積に基づいて作成するので、簡単に学習文書ベクトル情報を作成することができる遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムを提供することができる。
【0292】
また、本発明によれば、重み情報は、単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式7から算出される「IDF(k)」であるので、語の意味合いの深さを学習文書ベクトル情報に反映させることができる遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムを提供することができる。
【0293】
さらに、本発明によれば、文書ベクトル情報を正規直交変換し、数式8で定義される固有値の累積寄与率を基準に次元圧縮した空間に変換するので、効果的に次元圧縮することができる遺伝子機能推定装置、遺伝子機能推定方法、および、プログラムを提供することができる。
【図面の簡単な説明】
【図1】本発明の基本原理を示す原理構成図である。
【図2】本発明が適用される本システムの構成の一例を示すブロック図である。
【図3】本実施形態における本システムのメイン処理の一例を示すフローチャートである。
【図4】本実施形態における本システムの次元圧縮処理の一例を示すフローチャートである。
【図5】頻度上位25による実験に用いる語の例を示す図である。
【図6】「PubMed」のIDが「8661019」の論文を用いた語の抽出例を示す図である。
【図7】抽出された遺伝子と「GeneCards」による遺伝子との関係の一例を示す図である。
【図8】抽出された遺伝子と「高血圧候補遺伝子リスト」による遺伝子との関係の一例を示す図である。
【図9】高血圧に関する上位20の抽出遺伝子を示す図である。
【図10】疾患と関連付けた遺伝子間の関係を示す図である。
【図11】肥満との関連をみた遺伝子間の関係を示す図である。
【図12】疾患関連語によるオブジェクトの一例を示す図である。
【図13】疾患関連語によるオブジェクト間の相対関係の一例を示す図である。
【図14】実験に用いる臓器に関連のある遺伝子の一例を示す図である。
【図15】臓器と遺伝子との相対関係の一例を示す図である。
【符号の説明】
100 遺伝子機能推定装置
102 制御部
102a 文書情報集合取得部
102b 文書ベクトル情報作成部
102c 固有値情報算出部
102d オブジェクト生成部
102e オブジェクト間類似度情報算出部
102f 学習文書情報集合取得部
102g 学習文書ベクトル情報作成部
102h 正規直交行列取得部
102i 正規直交変換部
102j 遺伝子機能推定部
104 通信制御インターフェース部
106 記憶部
106a 文書情報集合ファイル
106b 単語情報集合ファイル
106c 文書ベクトル情報ファイル
106d 固有値情報ファイル
106e オブジェクトファイル
106f オブジェクト間類似度情報ファイル
106g 学習文書情報集合ファイル
106h 学習文書ベクトル情報ファイル
106i 正規直交行列ファイル
106j 変換文書ベクトル情報ファイル
106k 推定結果ファイル
108 入出力制御インターフェース部
112 入力装置
114 出力装置
200 外部システム
300 ネットワーク

Claims (30)

  1. 概念を共有するオブジェクトの生成に用いる文書情報の集合である文書情報集合を取得する文書情報集合取得手段と、
    上記文書情報集合取得手段により取得された上記文書情報集合に含まれる各上記文書情報をベクトルで表現した文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成する文書ベクトル情報作成手段と、
    上記文書ベクトル情報作成手段により作成された上記文書ベクトル情報に基づいて、上記文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出する固有値情報算出手段と、
    上記固有値情報算出手段により算出された上記固有値情報に対応する固有ベクトル情報に基づいて、上記固有ベクトル情報を基底とする空間により導出される上記オブジェクトを生成するオブジェクト生成手段と、
    上記オブジェクト生成手段により生成された上記オブジェクトの上記固有値情報および当該固有値情報に対応する上記固有ベクトル情報に基づいて、上記オブジェクト間の類似度情報を算出するオブジェクト間類似度情報算出手段と、
    上記オブジェクト間類似度情報算出手段により特定の遺伝子に対応する上記オブジェクトと、任意のオブジェクトとの間の上記類似度情報を算出し、当該類似度情報に基づいて、当該特定の遺伝子の機能を推定する遺伝子機能推定手段と、
    を備えたことを特徴とする遺伝子機能推定装置。
  2. 上記文書ベクトル情報作成手段は、
    上記文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報の積に基づいて作成すること、
    を特徴とする請求項1に記載の遺伝子機能推定装置。
  3. 上記重み情報は、
    単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式1から算出される「IDF(k)」であること、
    Figure 2004295606
    (ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
    を特徴とする請求項1または2に記載の遺伝子機能推定装置。
  4. 上記固有値情報算出手段は、
    上記文書ベクトル情報に基づいて、数式2に示す上記文書ベクトル情報の上記自己相関行列の上記KL展開から上記固有値情報を算出すること、
    Figure 2004295606
    (ここで、「R」はオブジェクト「w」に関する自己相関行列であり、「M」は文書ベクトル情報集合の要素数(但し、「M≧1」、「M」は整数。)であり、「m」は1からMの値をとる整数であり、「uw(m)」はオブジェクト「w」に関するM個の文書ベクトル情報集合における文書ベクトル情報識別番号「m」に対応する文書ベクトル情報であり、当該文書ベクトル情報は「(u,u,・・・,u,・・・,u)」で表現され、当該文書ベクトル情報のベクトル成分「u」は「TF(u,k)×IDF(k)」であり、「TF(u,k)」は単語情報識別番号「k」に対応する単語情報の頻度である。)
    を特徴とする請求項1から3のいずれか一つに記載の遺伝子機能推定装置。
  5. 上記オブジェクト生成手段は、
    上記固有値情報に対応する上記固有ベクトル情報に基づいて、数式3より定められる上記固有ベクトル情報を基底とする空間により導出される上記オブジェクトを生成すること、
    Figure 2004295606
    (ここで、「N」および「κ」は対象とする文書情報集合により実験的に定められるパラメータ(但し、「N」は1以上の整数、「0<κ≦1」)であり、「j」は1以上の整数であり、「λ 」はオブジェクト「w」のベクトル成分「j」に対応する固有値であり、「n」はオブジェクト「w」の次元数である。)
    を特徴とする請求項1から4のいずれか一つに記載の遺伝子機能推定装置。
  6. 上記オブジェクト間類似度情報算出手段は、
    上記オブジェクトの上記固有値情報および当該固有値情報に対応する上記固有ベクトル情報に基づいて、数式4で定義された上記オブジェクト間の類似度情報を算出すること、
    Figure 2004295606
    (数式4において、「Lw(A,B)」はオブジェクト「w(A)」とオブジェクト「w(B)」との間の類似度であり、「λmax w(A,B)」は数式6に示す行列成分をもつ数式5に示す行列「X」の固有値問題を解いて得られる最大固有値であり、数式6において、「φ w(A)」、「φ w(B)」はそれぞれ、オブジェクト「w(A)」、オブジェクト「w(B)」の固有ベクトル情報であり、「nw(B)」は、オブジェクト「w(B)」の次元数である。)
    を特徴とする請求項1から5のいずれか一つに記載の遺伝子機能推定装置。
  7. 正規直交変換に用いる学習文書情報の集合である学習文書情報集合を取得する学習文書情報集合取得手段と、
    上記学習文書情報集合取得手段により取得された上記学習文書情報集合の上記学習文書情報をベクトルで表現した学習文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報に基づいて作成する学習文書ベクトル情報作成手段と、
    上記学習文書ベクトル情報作成手段により作成された上記学習文書ベクトル情報を用いて上記正規直交変換を行うための正規直交行列を取得する正規直交行列取得手段と、
    上記正規直交行列取得手段により取得された正規直交行列にて上記文書ベクトル情報を上記正規直交変換し、上記固有値の累積寄与率を基準に次元圧縮した空間に変換する正規直交変換手段と、
    をさらに備え、
    上記固有値情報算出手段は、上記正規直交変換手段にて変換された上記文書ベクトル情報に基づいて、上記自己相関行列の上記KL展開から上記固有値情報を算出すること、
    を特徴とする請求項1から6のいずれか一つに記載の遺伝子機能推定装置。
  8. 上記学習文書ベクトル情報作成手段は、
    上記学習文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報の積に基づいて作成すること、
    を特徴とする請求項7に記載の遺伝子機能推定装置。
  9. 上記重み情報は、
    単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式7から算出される「IDF(k)」であること、
    Figure 2004295606
    (ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
    を特徴とする請求項7または8に記載の遺伝子機能推定装置。
  10. 上記正規直交変換手段は、
    上記文書ベクトル情報を正規直交変換し、数式8で定義される上記固有値の累積寄与率を基準に次元圧縮した空間に変換すること、
    Figure 2004295606
    (ここで、「N」は、次元圧縮する前の文書ベクトル情報の次元数であり、「N’」は、次元圧縮した後の文書ベクトル情報の次元数であり、「u」は、正規直交変換における文書ベクトル情報の第「k」成分の固有値である(但し、「1≦k≦N」。)。)
    を特徴とする請求項7から9のいずれか一つに記載の遺伝子機能推定装置。
  11. 概念を共有するオブジェクトの生成に用いる文書情報の集合である文書情報集合を取得する文書情報集合取得ステップと、
    上記文書情報集合取得ステップにより取得された上記文書情報集合に含まれる各上記文書情報をベクトルで表現した文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成する文書ベクトル情報作成ステップと、
    上記文書ベクトル情報作成ステップにより作成された上記文書ベクトル情報に基づいて、上記文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出する固有値情報算出ステップと、
    上記固有値情報算出ステップにより算出された上記固有値情報に対応する固有ベクトル情報に基づいて、上記固有ベクトル情報を基底とする空間により導出される上記オブジェクトを生成するオブジェクト生成ステップと、
    上記オブジェクト生成ステップにより生成された上記オブジェクトの上記固有値情報および当該固有値情報に対応する上記固有ベクトル情報に基づいて、上記オブジェクト間の類似度情報を算出するオブジェクト間類似度情報算出ステップと、
    上記オブジェクト間類似度情報算出ステップにより特定の遺伝子に対応する上記オブジェクトと、任意のオブジェクトとの間の上記類似度情報を算出し、当該類似度情報に基づいて、当該特定の遺伝子の機能を推定する遺伝子機能推定ステップと、
    を含むことを特徴とする遺伝子機能推定方法。
  12. 上記文書ベクトル情報作成ステップは、
    上記文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報の積に基づいて作成すること、
    を特徴とする請求項11に記載の遺伝子機能推定方法。
  13. 上記重み情報は、
    単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式1から算出される「IDF(k)」であること、
    Figure 2004295606
    (ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
    を特徴とする請求項11または12に記載の遺伝子機能推定方法。
  14. 上記固有値情報算出ステップは、
    上記文書ベクトル情報に基づいて、数式2に示す上記文書ベクトル情報の上記自己相関行列の上記KL展開から上記固有値情報を算出すること、
    Figure 2004295606
    (ここで、「R」はオブジェクト「w」に関する自己相関行列であり、「M」は文書ベクトル情報集合の要素数(但し、「M≧1」、「M」は整数。)であり、「m」は1からMの値をとる整数であり、「uw(m)」はオブジェクト「w」に関するM個の文書ベクトル情報集合における文書ベクトル情報識別番号「m」に対応する文書ベクトル情報であり、当該文書ベクトル情報は「(u,u,・・・,u,・・・,u)」で表現され、当該文書ベクトル情報のベクトル成分「u」は「TF(u,k)×IDF(k)」であり、「TF(u,k)」は単語情報識別番号「k」に対応する単語情報の頻度である。)
    を特徴とする請求項11から13のいずれか一つに記載の遺伝子機能推定方法。
  15. 上記オブジェクト生成ステップは、
    上記固有値情報に対応する上記固有ベクトル情報に基づいて、数式3より定められる上記固有ベクトル情報を基底とする空間により導出される上記オブジェクトを生成すること、
    Figure 2004295606
    (ここで、「N」および「κ」は対象とする文書情報集合により実験的に定められるパラメータ(但し、「N」は1以上の整数、「0<κ≦1」)であり、「j」は1以上の整数であり、「λ 」はオブジェクト「w」のベクトル成分「j」に対応する固有値であり、「n」はオブジェクト「w」の次元数である。)
    を特徴とする請求項11から14のいずれか一つに記載の遺伝子機能推定方法。
  16. 上記オブジェクト間類似度情報算出ステップは、
    上記オブジェクトの上記固有値情報および当該固有値情報に対応する上記固有ベクトル情報に基づいて、数式4で定義された上記オブジェクト間の類似度情報を算出すること、
    Figure 2004295606
    (数式4において、「Lw(A,B)」はオブジェクト「w(A)」とオブジェクト「w(B)」との間の類似度であり、「λmax w(A,B)」は数式6に示す行列成分をもつ数式5に示す行列「X」の固有値問題を解いて得られる最大固有値であり、数式6において、「φ w(A)」、「φ w(B)」はそれぞれ、オブジェクト「w(A)」、オブジェクト「w(B)」の固有ベクトル情報であり、「nw(B)」は、オブジェクト「w(B)」の次元数である。)
    を特徴とする請求項11から15のいずれか一つに記載の遺伝子機能推定方法。
  17. 正規直交変換に用いる学習文書情報の集合である学習文書情報集合を取得する学習文書情報集合取得ステップと、
    上記学習文書情報集合取得ステップにより取得された上記学習文書情報集合の上記学習文書情報をベクトルで表現した学習文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報に基づいて作成する学習文書ベクトル情報作成ステップと、
    上記学習文書ベクトル情報作成ステップにより作成された上記学習文書ベクトル情報を用いて上記正規直交変換を行うための正規直交行列を取得する正規直交行列取得ステップと、
    上記正規直交行列取得ステップにより取得された正規直交行列にて上記文書ベクトル情報を上記正規直交変換し、上記固有値の累積寄与率を基準に次元圧縮した空間に変換する正規直交変換ステップと、
    をさらに含み、
    上記固有値情報算出ステップは、上記正規直交変換ステップにて変換された上記文書ベクトル情報に基づいて、上記自己相関行列の上記KL展開から上記固有値情報を算出すること、
    を特徴とする請求項11から16のいずれか一つに記載の遺伝子機能推定方法。
  18. 上記学習文書ベクトル情報作成ステップは、
    上記学習文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報の積に基づいて作成すること、
    を特徴とする請求項17に記載の遺伝子機能推定方法。
  19. 上記重み情報は、
    単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式7から算出される「IDF(k)」であること、
    Figure 2004295606
    (ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
    を特徴とする請求項17または18に記載の遺伝子機能推定方法。
  20. 上記正規直交変換ステップは、
    上記文書ベクトル情報を正規直交変換し、数式8で定義される上記固有値の累積寄与率を基準に次元圧縮した空間に変換すること、
    Figure 2004295606
    (ここで、「N」は、次元圧縮する前の文書ベクトル情報の次元数であり、「N’」は、次元圧縮した後の文書ベクトル情報の次元数であり、「u」は、正規直交変換における文書ベクトル情報の第「k」成分の固有値である(但し、「1≦k≦N」。)。)
    を特徴とする請求項17から19のいずれか一つに記載の遺伝子機能推定方法。
  21. 概念を共有するオブジェクトの生成に用いる文書情報の集合である文書情報集合を取得する文書情報集合取得ステップと、
    上記文書情報集合取得ステップにより取得された上記文書情報集合に含まれる各上記文書情報をベクトルで表現した文書ベクトル情報を、定められた単語情報集合における各単語情報の出現頻度情報および重み情報に基づいて作成する文書ベクトル情報作成ステップと、
    上記文書ベクトル情報作成ステップにより作成された上記文書ベクトル情報に基づいて、上記文書ベクトル情報の自己相関行列のKL展開から固有値情報を算出する固有値情報算出ステップと、
    上記固有値情報算出ステップにより算出された上記固有値情報に対応する固有ベクトル情報に基づいて、上記固有ベクトル情報を基底とする空間により導出される上記オブジェクトを生成するオブジェクト生成ステップと、
    上記オブジェクト生成ステップにより生成された上記オブジェクトの上記固有値情報および当該固有値情報に対応する上記固有ベクトル情報に基づいて、上記オブジェクト間の類似度情報を算出するオブジェクト間類似度情報算出ステップと、
    上記オブジェクト間類似度情報算出ステップにより特定の遺伝子に対応する上記オブジェクトと、任意のオブジェクトとの間の上記類似度情報を算出し、当該類似度情報に基づいて、当該特定の遺伝子の機能を推定する遺伝子機能推定ステップと、
    を含む遺伝子機能推定方法をコンピュータに実行させることを特徴とするプログラム。
  22. 上記文書ベクトル情報作成ステップは、
    上記文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報の積に基づいて作成すること、
    を特徴とする請求項21に記載のプログラム。
  23. 上記重み情報は、
    単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式1から算出される「IDF(k)」であること、
    Figure 2004295606
    (ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
    を特徴とする請求項21または22に記載のプログラム。
  24. 上記固有値情報算出ステップは、
    上記文書ベクトル情報に基づいて、数式2に示す上記文書ベクトル情報の上記自己相関行列の上記KL展開から上記固有値情報を算出すること、
    Figure 2004295606
    (ここで、「R」はオブジェクト「w」に関する自己相関行列であり、「M」は文書ベクトル情報集合の要素数(但し、「M≧1」、「M」は整数。)であり、「m」は1からMの値をとる整数であり、「uw(m)」はオブジェクト「w」に関するM個の文書ベクトル情報集合における文書ベクトル情報識別番号「m」に対応する文書ベクトル情報であり、当該文書ベクトル情報は「(u,u,・・・,u,・・・,u)」で表現され、当該文書ベクトル情報のベクトル成分「u」は「TF(u,k)×IDF(k)」であり、「TF(u,k)」は単語情報識別番号「k」に対応する単語情報の頻度である。)
    を特徴とする請求項21から23のいずれか一つに記載のプログラム。
  25. 上記オブジェクト生成ステップは、
    上記固有値情報に対応する上記固有ベクトル情報に基づいて、数式3より定められる上記固有ベクトル情報を基底とする空間により導出される上記オブジェクトを生成すること、
    Figure 2004295606
    (ここで、「N」および「κ」は対象とする文書情報集合により実験的に定められるパラメータ(但し、「N」は1以上の整数、「0<κ≦1」)であり、「j」は1以上の整数であり、「λ 」はオブジェクト「w」のベクトル成分「j」に対応する固有値であり、「n」はオブジェクト「w」の次元数である。)
    を特徴とする請求項21から24のいずれか一つに記載のプログラム。
  26. 上記オブジェクト間類似度情報算出ステップは、
    上記オブジェクトの上記固有値情報および当該固有値情報に対応する上記固有ベクトル情報に基づいて、数式4で定義された上記オブジェクト間の類似度情報を算出すること、
    Figure 2004295606
    (数式4において、「Lw(A,B)」はオブジェクト「w(A)」とオブジェクト「w(B)」との間の類似度であり、「λmax w(A,B)」は数式6に示す行列成分をもつ数式5に示す行列「X」の固有値問題を解いて得られる最大固有値であり、数式6において、「φ w(A)」、「φ w(B)」はそれぞれ、オブジェクト「w(A)」、オブジェクト「w(B)」の固有ベクトル情報であり、「nw(B)」は、オブジェクト「w(B)」の次元数である。)
    を特徴とする請求項21から25のいずれか一つに記載のプログラム。
  27. 正規直交変換に用いる学習文書情報の集合である学習文書情報集合を取得する学習文書情報集合取得ステップと、
    上記学習文書情報集合取得ステップにより取得された上記学習文書情報集合の上記学習文書情報をベクトルで表現した学習文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報に基づいて作成する学習文書ベクトル情報作成ステップと、
    上記学習文書ベクトル情報作成ステップにより作成された上記学習文書ベクトル情報を用いて上記正規直交変換を行うための正規直交行列を取得する正規直交行列取得ステップと、
    上記正規直交行列取得ステップにより取得された正規直交行列にて上記文書ベクトル情報を上記正規直交変換し、上記固有値の累積寄与率を基準に次元圧縮した空間に変換する正規直交変換ステップと、
    をさらに含み、
    上記固有値情報算出ステップは、上記正規直交変換ステップにて変換された上記文書ベクトル情報に基づいて、上記自己相関行列の上記KL展開から上記固有値情報を算出すること、
    を特徴とする請求項21から26のいずれか一つに記載のプログラム。
  28. 上記学習文書ベクトル情報作成ステップは、
    上記学習文書ベクトル情報を、定められた上記単語情報集合における上記各単語情報の上記出現頻度情報および上記重み情報の積に基づいて作成すること、
    を特徴とする請求項27に記載のプログラム。
  29. 上記重み情報は、
    単語情報識別番号「k」に対応する単語情報に関する重みであって、語の意味合いの深さを表す量である、数式7から算出される「IDF(k)」であること、
    Figure 2004295606
    (ここで、「k」は1からNの値をとる整数であり、「N」は単語情報集合の要素数である(但し、「N≧1」、「N」は整数。)。)
    を特徴とする請求項27または28に記載のプログラム。
  30. 上記正規直交変換ステップは、
    上記文書ベクトル情報を正規直交変換し、数式8で定義される上記固有値の累積寄与率を基準に次元圧縮した空間に変換すること、
    Figure 2004295606
    (ここで、「N」は、次元圧縮する前の文書ベクトル情報の次元数であり、「N’」は、次元圧縮した後の文書ベクトル情報の次元数であり、「u」は、正規直交変換における文書ベクトル情報の第「k」成分の固有値である(但し、「1≦k≦N」。)。)
    を特徴とする請求項27から29のいずれか一つに記載のプログラム。
JP2003088382A 2003-03-27 2003-03-27 遺伝子機能推定装置、遺伝子機能推定方法、および、プログラム Pending JP2004295606A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003088382A JP2004295606A (ja) 2003-03-27 2003-03-27 遺伝子機能推定装置、遺伝子機能推定方法、および、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003088382A JP2004295606A (ja) 2003-03-27 2003-03-27 遺伝子機能推定装置、遺伝子機能推定方法、および、プログラム

Publications (1)

Publication Number Publication Date
JP2004295606A true JP2004295606A (ja) 2004-10-21

Family

ID=33402527

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003088382A Pending JP2004295606A (ja) 2003-03-27 2003-03-27 遺伝子機能推定装置、遺伝子機能推定方法、および、プログラム

Country Status (1)

Country Link
JP (1) JP2004295606A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209357A (ja) * 2005-01-26 2006-08-10 Ntt Data Corp 遺伝子探索装置、遺伝子探索方法、遺伝子探索プログラムおよび記録媒体
JP2007193693A (ja) * 2006-01-20 2007-08-02 Ntt Data Corp 関連概念抽出装置、関連概念抽出方法、プログラムおよび記録媒体
CN102955791A (zh) * 2011-08-23 2013-03-06 句容今太科技园有限公司 网络信息搜索与分类服务系统
CN111584007A (zh) * 2020-05-25 2020-08-25 北京理工大学 基因功能序列权利范围认定、检索及侵权判定方法与系统
KR20200121039A (ko) * 2019-04-15 2020-10-23 인천대학교 산학협력단 암에 따른 유전자 간의 상관관계에 기초하여 유전자 분산 표현을 위한 유전자 특징 벡터를 생성하는 전자 장치 및 그 동작 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209357A (ja) * 2005-01-26 2006-08-10 Ntt Data Corp 遺伝子探索装置、遺伝子探索方法、遺伝子探索プログラムおよび記録媒体
JP2007193693A (ja) * 2006-01-20 2007-08-02 Ntt Data Corp 関連概念抽出装置、関連概念抽出方法、プログラムおよび記録媒体
CN102955791A (zh) * 2011-08-23 2013-03-06 句容今太科技园有限公司 网络信息搜索与分类服务系统
KR20200121039A (ko) * 2019-04-15 2020-10-23 인천대학교 산학협력단 암에 따른 유전자 간의 상관관계에 기초하여 유전자 분산 표현을 위한 유전자 특징 벡터를 생성하는 전자 장치 및 그 동작 방법
KR102188118B1 (ko) 2019-04-15 2020-12-07 인천대학교 산학협력단 암에 따른 유전자 간의 상관관계에 기초하여 유전자 분산 표현을 위한 유전자 특징 벡터를 생성하는 전자 장치 및 그 동작 방법
CN111584007A (zh) * 2020-05-25 2020-08-25 北京理工大学 基因功能序列权利范围认定、检索及侵权判定方法与系统

Similar Documents

Publication Publication Date Title
You et al. GOLabeler: improving sequence-based large-scale protein function prediction by learning to rank
Wang et al. Protein–protein interaction sites prediction by ensemble random forests with synthetic minority oversampling technique
Li et al. Cumulus provides cloud-based data analysis for large-scale single-cell and single-nucleus RNA-seq
Yan et al. Protein fold recognition based on multi-view modeling
Siebert et al. MARNA: multiple alignment and consensus structure prediction of RNAs based on sequence structure comparisons
Liu et al. Application of learning to rank to protein remote homology detection
Wang et al. Improved detection of DNA-binding proteins via compression technology on PSSM information
Thalamuthu et al. Evaluation and comparison of gene clustering methods in microarray analysis
Zhou et al. SPEM: improving multiple sequence alignment with sequence profiles and predicted secondary structures
Dong et al. Application of latent semantic analysis to protein remote homology detection
Ji et al. Identifying time-lagged gene clusters using gene expression data
US20190130290A1 (en) Object oriented system and method having semantic substructures for machine learning
Newkirk et al. AREM: aligning short reads from ChIP-sequencing by expectation maximization
Barukab et al. DBP-CNN: Deep learning-based prediction of DNA-binding proteins by coupling discrete cosine transform with two-dimensional convolutional neural network
Nanni et al. Set of approaches based on 3D structure and position specific-scoring matrix for predicting DNA-binding proteins
Girgis et al. Identity: rapid alignment-free prediction of sequence alignment identity scores using self-supervised general linear models
Dong et al. BioMedR: an R/CRAN package for integrated data analysis pipeline in biomedical study
Wang et al. A steganalysis-based approach to comprehensive identification and characterization of functional regulatory elements
Ringwald et al. GXD: a Gene Expression Database for the laboratory mouse: current status and recent enhancements
Li et al. Cumulus: a cloud-based data analysis framework for large-scale single-cell and single-nucleus RNA-seq
Dziubiński et al. ResiCon: a method for the identification of dynamic domains, hinges and interfacial regions in proteins
Juan et al. Bioinformatics: microarray data clustering and functional classification
Atalay et al. Implicit motif distribution based hybrid computational kernel for sequence classification
JP2004295606A (ja) 遺伝子機能推定装置、遺伝子機能推定方法、および、プログラム
Simoncini et al. A structural homology approach for computational protein design with flexible backbone

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041207

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050920