JP3917625B2 - データ解析装置 - Google Patents
データ解析装置 Download PDFInfo
- Publication number
- JP3917625B2 JP3917625B2 JP2004568192A JP2004568192A JP3917625B2 JP 3917625 B2 JP3917625 B2 JP 3917625B2 JP 2004568192 A JP2004568192 A JP 2004568192A JP 2004568192 A JP2004568192 A JP 2004568192A JP 3917625 B2 JP3917625 B2 JP 3917625B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- analysis
- attribute
- factor
- analysis result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000007405 data analysis Methods 0.000 title claims description 68
- 238000004458 analytical method Methods 0.000 claims description 167
- 238000000034 method Methods 0.000 claims description 124
- 230000008569 process Effects 0.000 claims description 81
- 108090000623 proteins and genes Proteins 0.000 claims description 65
- 238000012545 processing Methods 0.000 claims description 46
- 238000002474 experimental method Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 18
- 238000000491 multivariate analysis Methods 0.000 claims description 14
- 239000002131 composite material Substances 0.000 claims description 13
- 238000011835 investigation Methods 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 27
- 238000000556 factor analysis Methods 0.000 description 27
- 239000011159 matrix material Substances 0.000 description 14
- 230000014509 gene expression Effects 0.000 description 13
- 102000004169 proteins and genes Human genes 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000013523 data management Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 150000001413 amino acids Chemical class 0.000 description 6
- 239000000126 substance Substances 0.000 description 6
- 238000013075 data extraction Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 125000003275 alpha amino acid group Chemical group 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013479 data entry Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 102000001398 Granzyme Human genes 0.000 description 1
- 108060005986 Granzyme Proteins 0.000 description 1
- 102100030386 Granzyme A Human genes 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Resources & Organizations (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
本発明は、実験や調査により得られたデータの分析を支援する技術に関する。
【背景技術】
【0002】
実験や調査により得られたデータの分析を支援する技術として、データを統計的に解析し、その解析結果に基づいて類似するデータを整理・体系化して提示する技術が知られている。代表的な技術としては、多変量解析の一種である因子分析を行ってデータ相互の関係を散布図として表示する技術や、データ相互の類似性によりデータをクラスタリング(自己組織化)して樹形図として表示する技術などが知られている。これらの技術により、利用者は、実験データの特性をパターンとして認識することができるようになるため、実験データの分析・解釈が容易になる。
【0003】
例えば、遺伝子発現データについて、遺伝子発現パターンと遺伝子のクラスタリング結果とを、図1のような形で提示する技術が知られている。図1において、遺伝子発現データ1は遺伝子発現パターンの表示例であり、実験条件と遺伝子の種類との組み合わせに対する遺伝子発現量が、横方向1xに実験条件をとり、縦方向1yに遺伝子の種類をとって配置されたセルの色(図1においては網かけ模様の濃さによって代替表示を行っている)として表現されている。樹形図2は、遺伝子発現データ1を、遺伝子発現パターンの類似性に基づき階層クラスタリングした結果の表示例である。
【0004】
後掲の特許文献1には、利用者の「識別誤差範囲」を考慮してクラスタリング結果を分析することで、大まかな分類と分類の粒度とが大きく変化するような代表的な分類を抽出し、それらの代表的な分類を表現する情報を樹形図2に併記して表示する技術も開示されている。
【0005】
また、後掲の特許文献2には、複数の属性を持つ分析対象データについて、属性値の分布による属性間の相関係数などを基にしてデータの特徴をカテゴライズして視覚化するのに適した属性を検出し、ユーザの分析に適した情報を提示する技術を示している。
【特許文献1】
特開2001−281244号公報
【特許文献2】
特開2000−99746号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、これらの技術は、利用者に提示する分析結果の選別を分析対象データ自体が持つ性質のみを手がかりにして行うことを基本としているため、選択されて提示される分析結果が必ずしも利用者にとって解釈しやすいとは限らないという問題がある。
【0007】
一般に、因子分析やクラスタ分析等のデータ解析手法は性質の類似性(相関性)に基づいてデータを分類することはできるが、その分類結果の解釈は利用者に委ねられている。
例えば、因子分析の結果において、ある機能を担う酵素を生成する遺伝子群に対して同じように高い得点(因子得点)が求まるような因子は、その機能の酵素を生成するという特徴を表していると解釈することはできる。しかし、このように解釈の簡単な結果が必ず得られるとは限らないのがむしろ一般的である。
【0008】
また、クラスタ分析であっても、階層的にデータを分類して例えば図1のような樹形図の形などでその結果を示すことはできるが、各階層に属したデータの集合が現実の何に対応するかは利用者の判断に委ねられてしまっている。
【0009】
この問題を改善する方法として、例えば、因子分析において因子軸を解釈しやすい方向に回転する方法(バリマックス法)などが知られているが、このような手法はその分析結果をできるだけ単純な構造に変換することが基本的な趣旨であり、利用者の有している知識は考慮されていない。
【0010】
上述した特許文献1に開示されている技術は、利用者の指定した「識別誤差範囲」を考慮してその識別誤差範囲内に収まる類似の分類結果を併合することによって適切な分類結果を利用者が見出し易くなるようにしてはいるものの、利用者の有している知識までの考慮はされていない。
【0011】
また、上述した特許文献2に開示されている技術は、分析の目的属性の指定など、利用者の指定を分類結果に反映させる機構を設けてはいるが、事前に指定することが困難な利用者の背景的知識を柔軟に反映できるような構成とはなっていない。
【0012】
以上の事情を鑑み、本発明は、利用者による実験・調査データの分析を効率的
に行えるようにすることをその目的とする。
【課題を解決するための手段】
【0013】
本発明の態様のひとつであるデータ解析装置は、分析対象に対して行われた実験若しくは調査の結果として得られたデータの分析を支援する装置であって、データの分析の背景となる知識が表現されている知識情報が蓄積されている知識蓄積部と、各データ間の類似性に基づいて該データを異なる観点に基づいて整理して体系化することによって該データの解析結果を複数得るデータ解析部と、該データの解析結果を該知識情報に基づいて評価し、該解析結果のうち該知識情報との整合性がより高いものの選別を行う解析結果選別部と、を有するように構成することによって前述した目的を達成する。
【0014】
ここで、例えば、データ解析部は、前述したデータの解析結果に対して多変量解析を施すことによって複数の説明因子の抽出を行う。解析結果選別部は、まず、該知識情報から該分析対象に関する属性情報を抽出する。そして、該説明因子と該属性情報とを多変量解析することで該説明因子と該知識情報との整合性の程度を示す値を求め、該値に基づいて前記選別を行うようにすることができる。
【0015】
この構成によれば、データ解析部によって分析データに対して複数の観点からの解析が行われ、その解析結果のうち知識蓄積部に蓄積されている知識情報と整合性の高いものが解析結果選別部によって選別されて利用者に提示される。これにより、解析結果のうち利用者にとって解釈しやすいものが優先的に提示されるので、利用者は実験・調査データの分析を効率的に進めることができる。
【0016】
なお、上述した構成において、知識情報が分析対象に関して記述しているテキストデータであるときには、解析結果選別手段が、該テキストデータから該分析対象と関連付けられているキーワードを該属性情報として抽出して前述した選別を行うようにすることができる。
【0017】
この構成によれば、知識情報がテキストデータで与えられていても、解析結果のうち利用者にとって解釈しやすいものを優先的に提示することができる。
また、前述した構成において、解析結果選別手段が、前述した知識情報に含まれている属性情報のうち所定数以上の分析対象に対して取得できる該属性情報を用いて選別を行うようにすることができる。
【0018】
この構成によれば、分析対象に対して網羅的に取得し得る属性情報が利用されて上述した選別が行われるので、解析結果のうち利用者にとって解釈しやすいものを優先的な提示がより適切に行われる。
【0019】
また、前述した構成において、解析結果選別手段が、前述した整合性の程度を示す値の大きい説明因子を選択し、該選択に係る説明因子によって表現される解析結果を選別の結果とするようにすることができる。
【0020】
この構成は選別された解析結果の提示の手法のひとつを特定するものであり、後述する本発明の実施の形態における、合成因子得点に基づいて基本因子を選択し、選択された基本因子をグラフの表示軸として用いて解析結果をグラフ表現することを示している。
【0021】
また、前述した構成において、解析結果選別手段が、知識情報との整合性の高い合成説明因子を前記値に基づいて求め、該合成説明因子によって表現される解析結果を前記選別の結果とするようにすることができる。
【0022】
この構成は選別された解析結果の提示の他の手法のひとつを特定するものであり、後述する本発明の実施の形態における、因子分析の結果として得られた合成分子のうち説明力の高い(分析対象の情報に対する寄与率が大きい)合成因子をグラフの表示軸として用いて解析結果をグラフ表現することを示している。
【0023】
また、前述した構成において、解析結果選別手段は、選別の結果である解析結果と前述した説明因子とを、該説明因子と前述した知識情報との整合性の程度を示す値、及び前述した属性情報と共に出力するように構成することができる。
【0024】
この構成によれば、このデータ解析装置の利用者による解析結果の把握が容易になる。
また、このときに、前述した説明因子のうちから選択が指示されたものによって表現される解析結果を更に出力するように構成することができる。
【0025】
こうすることにより、利用者によって指示された説明因子によって表現される解析結果を利用者に提示することができる。
【発明を実施するための最良の形態】
【0026】
まず、本発明の原理について説明する。
図2は本発明の原理構成を示しており、本発明に係るデータ解析装置は、同図におけるデータ解析部11、知識蓄積部12、及び解析結果選別部13を有している。
【0027】
データ解析部11は、解析対象データ21を解析し、類似するデータを整理・体系化した解析結果22を出力する。データ解析部11は分析の観点や整理・体系化する際の粒度などを違えた様々な解析を同一の解析対象データ21に対して行うようにする。従って、通常は複数の解析結果22がデータ解析部11から出力される。
【0028】
知識蓄積部12には、利用者が利用可能な背景知識、例えばデータの収集対象とした個体(遺伝子等)に関し事前にわかっている性質等が予め蓄積されている。
解析結果選別部13は、知識蓄積部12に蓄積されている情報を手がかりにして、データ解析部11より出力された複数の解析結果22の中から利用者の利用可能な背景知識との整合性が高いものを選別し、選別解析結果23として利用者に提示する。
【0029】
この図2に示す構成では、まず、データ解析部21によって解析対象データ21に対して複数の観点からの分析が行われ、その分析結果に相当する解析結果22が作成される。続いて、その解析結果22のうち知識蓄積部12に蓄積された知識データと整合性の高いものが解析結果選別部13によって選択されて選別解析結果23として利用者に提示される。これにより、解析結果22のうち利用者にとって解釈しやすいものが優先的に提示されるので、利用者は実験・調査データの分析を効率的に進めることができる。
【0030】
以下、本発明の実施の形態を図面に基づいて説明する。
まず、図3に示す本発明を実施するデータ解析装置の機能構成について説明する。
データ解析部31は図2のデータ解析部11に相当するものであり、実験データ30の解析を行い、類似するデータを整理・体系化した解析結果を解析結果選別部33へと出力する。
【0031】
知識データ管理部32は、利用者の利用可能な背景知識が予め蓄積されている知識源DB(Data Base )35の管理を行う。図2における利用者知識蓄積部12は知識データ管理部32及び知識源DB35に相当する。
【0032】
解析結果選別部33は図2の解析結果選別部13に相当するものであり、知識源35に蓄積されている情報を手がかりにして、データ解析部31より出力された解析結果の中から利用者の利用可能な背景知識との整合性が高いものを選別し、その選別の結果を解析結果表示部34へと出力する。
【0033】
解析結果表示部34は、解析結果選別部33から送られてくる、選別された解析結果を表示して利用者に提供する。
知識源DB35は、アミノ酸配列の属性情報等が蓄積されているタンパク質DB35−1、DNA配列の属性情報等が蓄積されている遺伝子DB35−2、論文等の情報が蓄積されている文献DB35−3を有している。
【0034】
図3において、データ解析部31は、実験データ30が入力されると、複数の解析結果を作成して解析結果選別部33へ送る。解析結果選別部33は、まず、データ解析部31から送られた解析結果に関連する情報(知識データ)を、知識データ管理部32を通じて取得する。そして、取得した知識データに基づいてデータ解析部31から送られた各解析結果を評価し、その中から知識データとの整合性が高い解析結果を選別して解析結果表示部34へ送る。
【0035】
ここで、解析結果表示部34へ送る解析結果は1種類のみでもよいが、本発明に係るデータ解析装置の機能をより効果的に発揮させるためには、知識データとの整合度を各々に付与した複数の解析結果を送り、利用者に提示することが望ましい。
【0036】
解析結果表示部34は、解析結果選別部33から送られてきた解析結果を、グラフ表現などの視覚的な形態で利用者に提示する。なお、複数の解析結果が知識データとの整合度付きで与えられた場合には、整合度の高い解析結果をまず提示するようにし、その後の利用者からの指示に応じて解析結果の次候補を提示する
、あるいは利用者からの指示を解析結果選別部33にフィードバックさせて再選別処理を行わせるようにすることも可能である。ここで、再選別処理は、例えば
、利用者によるキーワード指定を受け付け、そのキーワードに関連する知識データに重みを付加した上で知識データと解析結果の整合度を再計算することで実現可能である。
【0037】
次に図4について説明する。同図は図3に示したデータ解析装置のハードウェア構成図である。
図3において、CPU41、ROM42、RAM43、HDD44、入力部45、及び表示部46はバス47を介して相互に接続されており、CPU41による管理の下で相互にデータ授受を行うことができる。
【0038】
CPU(Central Processing Unit )41はこのデータ解析装置全体の動作制御を司る中央処理装置である。
ROM(Read Only Memory)42は、CPU41によって実行される基本制御プログラムが予め格納されているメモリであり、このデータ解析装置の起動時にCPU41がこの基本制御プログラムを実行することによってこのデータ解析装置全体の動作の基本的な制御がCPU41によって行なわれるようになる。
【0039】
RAM(Random Access Memory)43は、各種の制御プログラムをCPU41が実行するときにワークメモリとして使用され、また各種のデータの一時的な格納領域として必要に応じて用いられるメインメモリとしても使用されるメモリである。
【0040】
HDD(Hard Disk Drive )44は、図3に示した知識源DB35として機能するハードディスク装置であり、利用者の利用可能な背景知識が予め蓄積されている記憶装置である。また、図3に示したデータ解析部31、知識データ管理部32、及び解析結果選別部33としてCPU41を機能させるための各種の制御プログラムが予め格納されている。これらの制御プログラムはCPU41が前述した基本制御プログラムを実行した後にCPU41によって読み出されて実行される。
【0041】
入力部45は利用者からの各種の指示に対応する入力や実験データ30の入力の取得を行うものであり、例えばキーボードやマウスなどの各種入力装置、及びFD(Flexible Disk)、CD−ROM(Compact Disc-ROM)、DVD− ROM(Digital Versatile Disc-ROM)、MO(Magneto-Optics)ディスクなどといった可搬型の記録媒体の読出装置、あるいは他の機器との間でのデータ授受を可能とするインタフェース装置などを有している。
【0042】
表示部46はCPU41からの指示に応じた各種の情報の表示を行うものであり、例えばCRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)を備えて構成される。
【0043】
図4に示したデータ解析装置は以上の各構成要素を備えて構成される。なお、この図4に示した構成は標準的なコンピュータであればその多くが有しているものであるので、このようなコンピュータで本発明を実施することもできる。
【0044】
次に図4のCPU41によって行われる制御処理の詳細について説明する。なお、以下の説明では、複数の遺伝子について、実験条件(細胞の種類や、時間経過に伴い変化した細胞の状態など)を変えて測定した発現量を解析する場合を例にとって説明する。
【0045】
図5は、CPU41によって行われる制御処理の処理内容を示すフローチャートである。同図に示す制御処理をCPU41が実行することによって図4に示した構成で図3に示したデータ解析装置の各構成の機能が実現される。
【0046】
図5に示す処理は、図4に示したデータ解析装置が起動されてROM42に格納されている基本制御プログラムがCPU41によって読み出されて実行され、所定の初期化処理が実行された後に開始される。
【0047】
図5において、まずS101では、実験データ30の取得処理、すなわち入力部45に入力される実験データ30を取得する処理が行われる。
S102では、図3のデータ解析部31の機能である、実験データ30の解析処理が行われる。通常、データの解析においては複数の分析の観点があり得るので、このデータ解析処理ではこの分析の観点毎に複数の解析結果を求めることになる。なお、本実施形態においては、多変量解析のうちの一方式である因子分析により実験データ30の解析を行うこととする。
【0048】
ここで、因子分析による実験データ30の解析について、図6を用いて説明する。
図6において、(a)は、実験データ30である解析対象データの例を示した表である。この表は、種類の異なる遺伝子gene-1、gene-2、...を対象に、 条件1、条件2、…、条件nにおける発現量を集計したものである。例えば、d(1,2)は、gene-1の条件2における発現量(数値)を示している。
【0049】
図6の(b)は、(a)に示した解析対象データを因子分析した結果を示している表である。因子分析とはいくつかの変数の相関関係を説明するための因子を
(なるべく少なく)求める多変量解析の手法である。
【0050】
因子分析では、分析データ間の相関性を説明する因子を説明力の高い順に求めることができる。表の各縦列はこの因子に対応している。また、表内の値v は因子得点を示している。因子得点とは、因子(軸)に関する各遺伝子の特性を示す値である。例えば、遺伝子gene-1の第2因子の因子得点はv(1,2)である。
【0051】
なお、本実施形態においては因子分析によるデータ解析を行うこととしたが、例えば主成分分析などの他の多変量解析手法を用いても同様の結果を得ることが可能である。
図6の(c)は因子分析結果の一般的な表示方法のひとつである散布図による表示例を示したものである。この例のように、因子分析結果は、説明力の高い2軸(第1因子と第2因子)を選択してグラフ形式で表現されることが多いが、利用者による指定に応じて軸を別の因子と入れ換えて表示できるようにすることで、利用者の解釈を支援することなどもよく行われている。また、この表示例においては、前述した因子回転法(バリマックス法)を、説明力の高い因子を軸として張られた空間における解釈の容易な投影面(表示平面)を自動的に選択する手法と捉えることができる。
【0052】
図5の説明へ戻る。
S103では、実験データ30に関連する知識データの取得処理、すなわち、HDD44に予め蓄積されている知識源DB35から実験データ30に関連する知識データを取得する処理が行われる。この処理は図3においては知識データ管理部32で行われる処理である。この処理の詳細について説明する。
【0053】
前述したように、本実施形態においては、知識源DB35はタンパク質DB35−1、遺伝子DB35−2、及び文献DB35−3を有している。知識データ管理部32はこれらの情報源DB35から各遺伝子に関する属性と属性値とを対応付けた形式で知識データを以下の手順により抽出して、解析結果選別部33へ提供する。
[1]タンパク質DB35−1からの知識データ抽出
遺伝子に関連するタンパク質エントリを検索し、そこに記述された特徴量を関連遺伝子の属性値とする。特徴量を属性名−属性値の形に正規化する方法は、次に説明する遺伝子DBからの属性抽出と同様である。
[2]遺伝子DB35−2からの知識データ抽出
遺伝子に対応するエントリを検索し、そこに記述された特徴量をそのまま、あるいは正規化して属性値とする。遺伝子の特徴が自然言語で記述されている場合には、後述する文献DB35−3からのデータ抽出と同様の手続きを行って属性と属性値との組からなるその遺伝子についての知識データを取得する。
[3]文献DB35−3からの知識データ抽出
遺伝子に関連する文献エントリを検索し、その文献に含まれる主要なキーワードを属性とし、キーワードの出現の有無、あるいは、出現度数、出現度数を正規化した値などを属性値とする。それぞれの文献にキーワードが付与されている場合は、そのキーワードを属性とし、同様の手順で属性値を求める。また、文献に特徴量が記述されている場合には、遺伝子DB35−2からの属性抽出と同様の手順で、属性名−属性値の組を求める。
【0054】
なお、これらの知識データが全ての遺伝子に対して常に網羅的に取得できることが期待できない場合には、分析対象遺伝子群に対して網羅的に取得し得る属性(網羅性の高い属性)を選別して知識データとして利用するようにすることが望ましい。また、取得可能な属性の数が多い場合には、属性の重要性の評価を行い、重要性が高いと評価された属性を知識データとして利用する属性として選別す
ることが望ましい。これらのための属性選別は例えば以下のように行う。なお、利用者の指定に従い、属性を選別するようにしてもよい(前述の利用者からの指示が与えられた場合にはこの選別法を実施する)。
[1]網羅性の高い属性の選択
対象遺伝子群に含まれる遺伝子のうちその属性が取得できたものが所定の閾値以上の数の場合にのみ、その属性を網羅性の高い属性として選択する。このときに使用する閾値は、予め比率の形で定義しておくようにしてもよく、また利用者の指定した比率を用いるようにしてもよい。
[2]重要性の高い属性の選択
データベースエントリに記述された特徴量に対し、属性として採用する上での重要度を予め定義しておく。キーワード属性に対しては、情報検索の分野で広く知られているキーワードの重み付け手法を援用する。例えば、以下の計算式による値(逆文書頻度:invert document frequency )をキーワード属性の重要性の評価基準として用いる。
【0055】
df=log{(文書総数)/(キーワードが出現する文書数)}
次に、知識データの取得の具体的な手順を、タンパク質DB35−1を例にとって説明する。
【0056】
まず図7について説明する。同図はタンパク質DB35−1のエントリの一例を示している。なお、この例は下記の文献において例示されているSWISS−PROTDBエントリを簡略化し、説明に必要な部分のみを示したものである。
Amos Bairoch and Rolf Apweiler, “SWISS-PROT Protein User Manual” (Release 40), 2001 (http://www.genome.ad.jp/dbget-bin/show_man?swissprot)
図7に示すように、このエントリは、フィールドの名称である「フィールド名」(field name)データ、実体データのデータ型を示す「型」(type)データ、及びデータの実体である「値」(value )データをフィールド毎に有している。
【0057】
次に図8について説明する。同図は図5のS103の処理である、知識データの取得処理の処理内容を示すフローチャートである。
まず、S201では知識データの検索処理、すなわち、知識源DB35から実験データ30に係る遺伝子に関する知識データを検索して抽出する処理が行われる。
【0058】
S202では、属性名−属性値リストの生成処理、すなわち前ステップの処理によって抽出された知識データを属性名−属性値の組からなるリストへと変換する処理が行われる。
【0059】
S203では、属性の選別処理、すなわち、前ステップの処理によって得られた属性名−属性値の各組に対し、前述したような網羅性あるいは重要性の観点に基づいた評価を行い、その評価結果に基づいてデータ解析の上で有効であると推定される組を選別する処理が行われる。
【0060】
以上の処理が終了するとこの知識データの取得処理が終了する。
この図8に示した知識データの取得処理が図7に示したエントリを格納しているタンパク質DB35−1を対象として行われた場合、知識データ管理部32は、まず、図7における関連遺伝子フィールドを検索対象とし、実験データ30に係る遺伝子名をキーワードとするキーワード検索が行われ、その結果として関連タンパク質エントリが取得される(S201)。続いて、取得された各エントリのフィールドより属性名−属性値のリストが生成される(S202)。その後、前述したような網羅性あるいは重要性の観点に基づいた評価が行われ、その評価結果に基づいてデータ解析の上で有効であると推定される組の選別が行われる(S203)。
【0061】
次に図9、図10、及び図11について説明する。これらはいずれも図8のS202の処理である、属性名−属性値リストの生成処理の処理内容をフローチャートで示した図である。
【0062】
図9は属性抽出の対象とするフィールドのデータ型が「数値」型(numeric value)であるときにおける処理内容を示している。
図9において、まず、S211ではフィールド抽出処理、すなわちデータエントリから対象フィールドを抽出する処理が行われる。
【0063】
続くS212ではフィールド名に基づいた属性名生成処理、すなわち前ステップの処理によって抽出された対象フィールドに示されている「フィールド名」を属性名とする処理が行われる。
【0064】
S213では、数値データに基づいた属性値作成処理、すなわちS211の処理によって抽出された対象フィールドに示されている「数値」型のデータの実体を属性値とする処理が行われる。
【0065】
以上の処理が終了するとこの図9に示した処理が終了する。
この図9に示した処理が、例えばデータ型が「数値」型である図7に示したエントリの「分子量」(molecular weight )フィールドを対象として行われ た場合、まず、この「分子量」フィールドが抽出され(S211)、続いてこの抽出されたフィールドのフィールド名である「分子量」が属性名とされ(S212)、その後、この「分子量」フィールドのデータの実体である値「28968」が属性値とされ(S213)、属性名−属性値の組の抽出が完了する。
【0066】
図10は属性抽出の対象とするフィールドのデータ型が「テキスト」(text)(自然言語)型であるときにおける属性名−属性値リストの生成処理の処理内容を示している。
図10において、まず、S221ではフィールド抽出処理、すなわちデータエントリから対象フィールドを抽出する処理が行われる。
【0067】
続くS222ではフィールド名及びキーワード表記に基づいた属性名生成処理、すなわち前ステップの処理によって抽出された対象フィールドに示されている「フィールド名」と、そのフィールド中のキーワードの表記とを結合させた文字列を属性名とする処理が行われる。
【0068】
S223では、キーワードの出現頻度に基づいた属性値作成処理、すなわちS221の処理によって抽出された対象フィールドに示されている「テキスト」型のデータの実体におけるキーワードの出現頻度を属性値とする処理が行われる。
【0069】
以上の処理が終了するとこの図10に示した処理が終了する。
この図10に示した処理が、例えばデータ型が「テキスト」型である図7に示したエントリの「説明」(description )フィールドを対象として行われた場合、まず、この「説明」フィールドが抽出され(S221)、続いてこの抽出されたフィールドのフィールド名である「説明」とそのフィールド中のキーワードの表記とを結合させた文字列が属性名とされ(S222)、その後、この「説明」フィールドのデータの実体である値「Granzyme A precursor(EC 3.4.21.78)」におけるキーワードの出現頻度が属性値とされ(S223)、属性名−属性値の組の抽出が完了する。
【0070】
図11は、属性抽出の対象とするフィールドのデータ型が「配列データ」 (sequence)型であるときにおける属性名−属性値リストの生成処理の処理内容を示している。ここで、「配列データ」型とは、アミノ酸や塩基の並びを記号列の形式で表現したデータのことである。本実施形態では遺伝子の機能に関する属性を知識データとして利用することを想定しているので、配列データ型のフィールドは遺伝子の機能に関する属性を求めるための手掛かりとして用いられる。
【0071】
図11において、まず、S231ではフィールド抽出処理、すなわちデータエントリから対象フィールドを抽出する処理が行われる。
続くS232ではモチーフ(Motif)DBの検索処理、すなわち対象フィー ルドに示されている「配列データ」型であるデータの実体に基づいてモチーフDBを検索して関連するモチーフを抽出する処理が行われる。モチーフDBは図3のタンパク質DB35−1の一部であり、ある機能を有しているタンパク質に共通して見られるアミノ酸の部分配列(コンセンサス配列:consensus sequence)が蓄積されているデータベースである。
【0072】
S233では、モチーフ名に基づいた属性名生成処理、すなわち前ステップの処理によって抽出されたモチーフに与えられているモチーフ名を属性名とする処理が行われる。
S234では、関連があることを示す値(例えば「1」)を属性値として設定する属性値設定処理が行われる。なお、アミノ酸配列とモチーフとの対応関係の確信度を示す値を属性値として設定する処理をこの属性値設定処理の処理内容とすることもできる。
【0073】
以上の処理が終了するとこの図11に示した処理が終了する。
この図11に示した処理が、例えばデータ型が「配列データ」型である図7に示したエントリの「アミノ酸配列」(amino acid sequence )フィールドを対象として行われた場合、まず、この「アミノ酸配列」フィールドが抽出され(S231)、次にこの抽出された「アミノ酸配列」フィールドのデータの実体である値「MRNSYRFLASSLSVVVSLLL…」基づいてモチーフDBを検
索して関連するモチーフの抽出が行われ(S232)、続いてこの抽出されたモチーフのモチーフ名が属性名とされ(S233)、その後、関連があることを示す値、若しくは「アミノ酸配列」フィールドのデータの実体である値「MRNSYRFLASSLSVVVSLLL…」とモチーフとの対応関係の確信度を示す値が属性値として設定され(S234)、属性名−属性値の組の抽出が完了する。
【0074】
なお、属性抽出の対象とするフィールドのデータ型が「配列データ」型であるときにおける属性名−属性値リストの生成処理に関し、図11に示した処理においては、モチーフエントリから属性名−属性値の組を抽出する簡便な方法として、関連があることを示す値、若しくはアミノ酸配列とモチーフとの対応関係の確信度を示す値が属性値として設定するようにしていたが、別法として、モチーフエントリに記述されたモチーフの機能特性を対象にして図10に示した処理を行うようにして属性名−属性値の組の抽出を行うようにしてもよい。
【0075】
図5の説明へ戻る。
S104では、解析結果と知識データとの照合処理、すなわち前述したS102の解析処理の結果と、上述したS103の処理によって取得された知識データとを照合する処理が行なわれる。そして、続くS105において、解析結果の選択処理、すなわち利用者に提示する解析結果をS104の照合処理の結果に基づいて選択する処理が行われる。このS104及びS105の処理は図3において
は解析結果選別部33で行われる処理である。
【0076】
ここで図12について説明する。同図は、解析結果選別部33によって行われる知識データの処理例を示している。
図12において、(a)は、実験データ30である解析対象データを因子分析した結果を示している表であり、先に示した図6の(b)と同一の表である。
【0077】
解析結果選別部33は、図8に示した処理を行うことにより、図12(a)に示した表の各行に示されている分析対象遺伝子に関連する知識データを、知識データ管理部32を通じて取得し、取得された知識データを各遺伝子に関する属性と属性値の形に整理して図12(b)に示す表を作成する。
【0078】
この図12(b)に示す知識データを示す表では、例えば、gene-2は、属性1なる属性名に関し、f(2,1)という属性値を持つことが表現されている。
次に、解析結果選別部13は、図12(a)に示した解析結果(因子分析結果)を示す表に対応する行列と図12(b)に示した知識データを示す表に対応する行列とを掛け合わせることによって、図12(c)に示す合成行列に対応する表を作成する。この図12(c)の表において、各行は因子を示し、各列は属性を示している。この(c)の表に対応する行列を算出するためには、(a)の表に対応する行列の転置行列と(b)の表に対応する行列とを乗算すればよい。
【0079】
この図12(a)及び(b)に示した表の各欄に具体的な数値を与えて図12
(c)に示す合成行列を算出したときの計算例を図13に示す。各欄に数値が与えられている図13の(a)、(b)、(c)の各表が各々図12の(a)、(b)、(c)の各表に対応している。
【0080】
次に、解析結果選別部13は、因子と属性との関係を表現している図12 (c)の合成行列の表に対し、属性を変数とした因子分析を行う。この様子を図1
4に示す。
【0081】
図14において、(a)は因子と属性との関係を表現している合成行列の表であり、図12(c)の表と同一のものである。また、図14(b)は、図14(a)の表に対して属性を変数とした因子分析を行った結果を示している表である。この表内の値w は、実験データ30の因子分析によって得られた各因子e-1 〜e-n (以降、この因子を「基本因子」と称することとする)に対して、上述した合成行列を因子分析することで得られる因子得点(以降、合成因子得点と称することとする)である。表では、この合成因子得点を、合成行列の因子分析により得られた因子c-1 〜c-m (以降、「合成因子」と称することとする)毎に示してある。例えば、基本因子e-1 に対する合成因子c-2 についての合成因子得点は、w(1,2)である。
【0082】
以上までの処理が図5のS104の照合処理である。
次に、解析結果選別部13は、合成因子得点に基づいて、分析結果の提示に用いられる因子を選択する。この選択はS105の解析結果の選択処理によって行われるものである。ここで選択された因子はグラフ表現による分析結果の提示のための軸として採用される。
【0083】
この因子の選択には様々な手法を用いることが可能であるが、ここでは代表的な選択手法の2つの例を示す。
この第一の手法は、合成因子得点に基づいて基本因子を選択してグラフの表示軸として用いる場合の手法である。
【0084】
この手法では、まず、因子分析の結果として得られた合成分子から説明力の高い(分析対象の情報に対する寄与率が大きい)ものをいくつか選び、次に、この選択された合成因子についての合成因子得点の和を評点として基本因子毎に求め、このうち評点が高かった2つの基本因子をグラフの表示軸として選択する。
【0085】
この第一の手法を、図15を用いて説明する。
図15(a)の表は、図14(b)に示した因子分析の結果のうち、説明力の高い合成因子をk個選択し、このk個の合成因子についての合成因子得点の和を評点として基本因子毎に求めることを示している。
【0086】
なお、合成因子の選択においては、図15(a)のように選択数を予め設定しておいてもよいが、各合成因子について得られる因子分析において「共通性」(communality )と称されている値を算出し、この値に基づき、例えば、予め設定していた値よりも共通性の値が大きい合成因子を全て選択するようにしてもよい。
【0087】
図15(b)は、図15(a)の表において2つの基本因子e-2 及びe-4 の評点が高かった場合に、これらを表示軸として、各種のデータを散布図でグラフ表
現した例である。
【0088】
ここで、図6(b)に示した遺伝子と基本因子との関係を示す表と図12 (c)に示した基本因子と属性との関係を示す表とを、上述したようにして選択された2つの基本因子を表示軸とする散布図で各々グラフ表現することにより、データ解析装置の利用者は、遺伝子同士の性質の類似性や、性質の類似している遺伝子と軸として選択された基本因子と属性(すなわち利用者の背景的知識)との相互関係などを容易に認識することができる。更に、図14(b)に示した基本因子と合成因子との関係を示す表を、上述した2つの基本因子を表示軸とする散布図でグラフ表現することにより、その利用者は合成因子と遺伝子や属性との関係を容易に認識することもできる。
【0089】
次に、分析結果の提示に用いられる因子を選択する第二の手法について説明する。この手法は、因子分析の結果として得られた合成分子のうち説明力の高い(分析対象の情報に対する寄与率が大きい)合成因子を表示軸として分析結果を提示するというものである。
【0090】
この手法では、まず、説明力の高い合成因子を、表示させるグラフの次元数に相当する個数(例えば二次元のグラフを表示させるのであれば2個)だけ選択し、次に、選択された合成因子の各々について、各基本因子の合成因子得点を成分とするベクトルを求める。そして、遺伝子及び属性と基本因子との関係、及び求められたベクトルと基本因子との関係に基づいて、基本因子を軸とするグラフにプロットされる各遺伝子及び各属性を、先に求められたベクトルによって張られる平面に投影する。そして、この平面に投影された点からなる散布図を分析結果として提示する。
【0091】
この第二の手法を、図16を用いて説明する。
図16(a)の表は、図14(b)に示した因子分析の結果から、説明力の高いc-1 及びc-2 の計2個の合成因子を選択した様子を示している。
【0092】
また、図16(b)は、選択された合成因子の各々について、各基本因子の合成因子得点を成分とするc-1 ベクトル及びc-2 ベクトルを求め、基本因子を軸とする平面Pにプロットされる各遺伝子及び各属性を、c-1 ベクトルとc-2 ベクトルとで張られる平面P’に投影する様子を示している。この後、この平面P’に投影された点からなる散布図が分析結果として利用者に提示される。従って、データ解析装置の利用者は、遺伝子同士の性質の類似性や、性質の類似している遺伝子と軸として選択された基本因子と属性(すなわち利用者の背景的知識)との相互関係などを、この平面P’に投影された点からなりc-1 ベクトルとc-2 ベクトルとを軸とする散布図から容易に認識することができる。
【0093】
図5の説明へ戻ると、S106では、解析結果及び関係表の提示処理、すなわち、図15(b)に示した散布図や図16(b)の平面P’に表されている散布図と共に、図6(b)に示した遺伝子と基本因子との関係を示す表、図12(c)に示した基本因子と属性との関係を示す表、あるいは図14(b)に示した基本因子と合成因子との関係を示す表を表示部46に表示させる処理が行われる。この処理は図3の解析結果表示部34において行われる処理である。
【0094】
その後、S107において、前ステップの処理によって表示部46に表示された散布図と表とを参照した利用者によって行われる、新たな分析の観点に関連する属性の指定を入力部45で取得したか否かの判定処理が行われる。そして、この判定結果がYesのときには、S104へ処理を戻し、利用者によって指定された属性についての因子得点の高い因子を表示軸とする解析結果を表示させるための処理を行う。一方、このS107の判定処理の結果がNoならば図5の処理が終了する。このS107の処理は、図3の解析結果表示部34において行われる。
【0095】
以上までに説明した図5の処理がCPU41によって行われることによって、利用者が実験・調査データの分析を効率的に進めることのできるデータ解析装置が実現される。
なお、以上までに説明した、図5、図8、図9、図10、及び図11に示した各種の処理をコンピュータに行わせる制御プログラムをコンピュータで読み取り可能な記録媒体に記録させ、そのプログラムを記録媒体からコンピュータに読み出させて実行させることによって本発明をコンピュータで実施することも可能である。
【0096】
記録させた制御プログラムをコンピュータで読み取ることの可能な記録媒体の例を図17に示す。同図に示すように、記録媒体としては、例えば、コンピュータ51に内蔵若しくは外付けの付属装置として備えられるRAM若しくはROM又はハードディスク装置などのメモリ52、あるいはフレキシブルディスク、MO(光磁気ディスク)、CD−ROM、DVD−ROMなどといった可搬型記録媒体53等が利用できる。また、記録媒体は通信回線54を介してコンピュータ51と接続される、プログラムサーバ55として機能するコンピュータが備えている記憶装置56であってもよい。この場合には、制御プログラムを表現するデータ信号で搬送波を変調して得られる伝送信号を、プログラムサーバ55から伝送媒体である通信回線54を通じて伝送するようにし、コンピュータ51では受信した伝送信号を復調して制御プログラムを再生することで当該制御プログラムを実行できるようになる。
【発明の効果】
【0097】
以上詳細に説明したように、本発明によれば、データ解析を行って求められた複数の解析結果のうち、知識源DBに蓄積された利用者の背景的知識と整合性の高い解析結果を選別して利用者に優先的に提示するので、利用者にとって理解しやすい解析結果を提示することができる。
【0098】
なお、本発明は、上述した実施形態に限定されることなく、種々の改良・変更が可能である。
【産業上の利用可能性】
【0099】
本発明は、各種のデータの分析の支援に用いることが可能であり、とりわけ遺伝子の機能や遺伝子産物間の相互作用を発見するための遺伝子発現パターンの分析の支援に用いると好適である。
【図面の簡単な説明】
【0100】
【図1】 従来技術の説明に用いる図である。
【図2】 本発明の原理構成を示す図である。
【図3】 本発明を実施するデータ解析装置の機能構成を示す図である。
【図4】 図3に示したデータ解析装置のハードウェア構成を示す図である。
【図5】 CPUによって行われる制御処理の処理内容を示すフローチャートである。
【図6】 因子分析によるデータ解析の説明に用いる図である。
【図7】 タンパク質DBに蓄積されている知識データの例を示す図である。
【図8】 知識データの取得処理の処理内容を示すフローチャートである。
【図9】 属性抽出の対象とするフィールドのデータ型が「数値」型であるときにおける属性名−属性値リストの生成処理の処理内容を示すフローチャートである。
【図10】 属性抽出の対象とするフィールドのデータ型が「テキスト」型であるときにおける属性名−属性値リストの生成処理の処理内容を示すフローチャートである。
【図11】 属性抽出の対象とするフィールドのデータ型が「配列データ」型であるときにおける属性名−属性値リストの生成処理の処理内容を示すフローチャートである。
【図12】 知識データの処理例を示す図である。
【図13】 合成行列の数値計算例を示す図である。
【図14】 合成行列の因子分析の様子を示す図である。
【図15】 表示軸の選択手法の第一の例を示す図である。
【図16】 表示軸の選択手法の第二の例を示す図である。
【図17】 記録されたプログラムをコンピュータで読み取り可能な記録媒体の例を示す図である。
Claims (10)
- 複数の個体からなる分析対象に対して行われた実験若しくは調査の結果として得られたデータの分析を支援するデータ解析装置であって、
各分析対象個体の性質に関するテキストデータ若しくは数値データを含んだ知識情報が蓄積されている知識情報蓄積手段と、
前記知識情報蓄積手段から前記知識情報を取得して、当該知識情報より、分析対象個体に関する属性の名前である属性名と当該属性における当該個体の特徴を示している数値である属性値とからなる属性情報を分析対象個体毎に抽出する抽出手段と、
各実験条件あるいは調査項目に関する各分析対象個体の特徴を示す数値データを要素とする、分析対象個体と実験条件あるいは調査項目との関係データの形で与えられた実験・調査の結果に対して、実験条件あるいは調査項目を変数とする多変量解析処理を行うことで、前記実験・調査結果を説明する複数の説明因子を抽出するデータ解析手段と、
前記データ解析手段により抽出した説明因子と前記抽出手段により抽出した属性情報とを分析対象個体を介して結びつけて集計することで、説明因子と属性との関係データを作成する第一のステップと、該第一のステップで作成した説明因子と属性との関係データに対して、属性を変数とする多変量解析処理を行うことで、各説明因子と属性情報との整合性の程度を示す数値を求める第二のステップと、該第二のステップで求めた数値に基づき、解析結果の出力に用いる説明因子を決定する第三のステップとを実行することで、出力する解析結果を選択する解析結果選別手段と、
を有することを特徴とするデータ解析装置。 - 前記解析結果選別手段は、出力する解析結果の選択のために、前記知識情報に含まれているテキストデータで表現されている記述において前記分析対象個体と関連付けられているキーワードを前記属性情報として用いることを特徴とする請求項1に記載のデータ解析装置。
- 前記解析結果選別手段は、出力する解析結果の選択のために、前記知識情報に含まれている前記属性情報のうち所定数以上の前記分析対象に対して取得できる該属性情報を用いることを特徴とする請求項1に記載のデータ解析装置。
- 前記解析結果選別手段は、前記第三のステップにおいて、前記整合性の高いことを示している前記数値に対応する説明因子の選択を行い、該選択に係る説明因子によって表現される解析結果を前記選択の結果とすることを特徴とする請求項1に記載のデータ解析装置。
- 前記解析結果選別手段は、前記第三のステップにおいて、前記知識情報との整合性が高い合成説明因子を前記数値に基づいて求め、当該合成説明因子によって表現される解析結果を前記選択の結果とすることを特徴とする請求項1に記載のデータ解析装置。
- 前記解析結果選別手段は、前記選択の結果である前記解析結果と前記説明因子とを、当該説明因子と前記属性情報との整合性の程度を示す値、及び前記属性情報と共に出力することを特徴とする請求項1に記載のデータ解析装置。
- 前記解析結果選別手段は、前記説明因子のうちから選択が指示されたものによって表現される解析結果を更に出力することを特徴とする請求項6に記載のデータ解析装置。
- 複数の個体からなる分析対象に対して行われた実験若しくは調査の結果として得られたデータの分析を支援するデータ解析装置によって行われるデータ解析方法であって、
各分析対象個体の性質に関するテキストデータ若しくは数値データを含んだ知識情報を前記データ解析装置が有している知識情報蓄積部に蓄積させる蓄積処理を前記データ解析装置が行い、
前記知識情報蓄積部から前記知識情報を取得して、当該知識情報より、分析対象個体に関する属性の名前である属性名と当該属性における当該個体の特徴を示している数値である属性値とからなる属性情報を分析対象個体毎に抽出する抽出処理を前記データ解析装置 が行い、
各実験条件あるいは調査項目に関する各分析対象個体の特徴を示す数値データを要素とする、分析対象個体と実験条件あるいは調査項目との関係データの形で与えられた実験・調査の結果に対して、実験条件あるいは調査項目を変数とする多変量解析処理を行うことで、前記実験・調査結果を説明する複数の説明因子を抽出するデータ解析処理を前記データ解析装置が行い、
前記データ解析処理により抽出した説明因子と前記抽出処理により抽出した属性情報とを分析対象個体を介して結びつけて集計することで、説明因子と属性との関係データを作成する第一のステップと、該第一のステップで作成した説明因子と属性との関係データに対して、属性を変数とする多変量解析処理を行うことで、各説明因子と属性情報との整合性の程度を示す数値を求める第二のステップと、該第二のステップで求めた数値に基づき、解析結果の出力に用いる説明因子を決定する第三のステップとを実行することで、出力する解析結果を選択する解析結果選別処理を前記データ解析装置が行う、
ことを特徴とするデータ解析方法。 - 複数の個体からなる分析対象に対して行われた実験若しくは調査の結果として得られたデータの分析の支援をコンピュータに行わせるためのプログラムであって、
各分析対象個体の性質に関するテキストデータ若しくは数値データを含んだ知識情報をコンピュータが有している記憶部に蓄積させる蓄積処理と、
前記記憶部から前記知識情報を取得して、当該知識情報より、分析対象個体に関する属性の名前である属性名と当該属性における当該個体の特徴を示している数値である属性値とからなる属性情報を分析対象個体毎に抽出する抽出処理と、
各実験条件あるいは調査項目に関する各分析対象個体の特徴を示す数値データを要素とする、分析対象個体と実験条件あるいは調査項目との関係データの形で与えられた実験・調査の結果に対して、実験条件あるいは調査項目を変数とする多変量解析処理を行うことで、前記実験・調査結果を説明する複数の説明因子を抽出するデータ解析処理と、
前記データ解析処理により抽出した説明因子と前記抽出処理により抽出した属性情報とを分析対象個体を介して結びつけて集計することで、説明因子と属性との関係データを作成する第一のステップと、該第一のステップで作成した説明因子と属性との関係データに対して、属性を変数とする多変量解析処理を行うことで、各説明因子と属性情報との整合性の程度を示す数値を求める第二のステップと、該第二のステップで求めた数値に基づき、解析結果の出力に用いる説明因子を決定する第三のステップとを実行することで、出力する解析結果を選択する処理と、
をコンピュータに行わせるためのプログラム。 - 種類の異なる遺伝子に対して行われた実験若しくは調査の結果として得られたデータの分析を支援するデータ解析装置であって、
各遺伝子の性質に関するテキストデータ若しくは数値データを含んだ知識情報が蓄積されている知識情報蓄積手段と、
前記知識情報蓄積手段から前記知識情報を取得して、当該知識情報より、遺伝子に関する属性の名前である属性名と当該属性における当該遺伝子の特徴を示している数値である属性値とからなる属性情報を遺伝子毎に抽出する抽出手段と、
各実験条件あるいは調査項目に関する各遺伝子の特徴を示す数値データを要素とする、遺伝子と実験条件あるいは調査項目との関係データの形で与えられた実験・調査の結果に対して、実験条件あるいは調査項目を変数とする多変量解析処理を行うことで、前記実験・調査結果を説明する複数の説明因子を抽出するデータ解析手段と、
前記データ解析手段により抽出した説明因子と前記抽出手段により抽出した属性情報とを遺伝子を介して結びつけて集計することで、説明因子と属性との関係データを作成する第一のステップと、該第一のステップで作成した説明因子と属性との関係データに対して、属性を変数とする多変量解析処理を行うことで、各説明因子と属性情報との整合性の程度を示す数値を求める第二のステップと、該第二のステップで求めた数値に基づき、解析結果の出力に用いる説明因子を決定する第三のステップとを実行することで、出力する解析結果を選択する解析結果選別手段と、
を有することを特徴とするデータ解析装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2003/001576 WO2004072866A1 (ja) | 2003-02-14 | 2003-02-14 | データ解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2004072866A1 JPWO2004072866A1 (ja) | 2006-06-01 |
JP3917625B2 true JP3917625B2 (ja) | 2007-05-23 |
Family
ID=32866122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004568192A Expired - Fee Related JP3917625B2 (ja) | 2003-02-14 | 2003-02-14 | データ解析装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7346600B2 (ja) |
JP (1) | JP3917625B2 (ja) |
WO (1) | WO2004072866A1 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8010508B2 (en) | 2001-10-15 | 2011-08-30 | Maya-Systems Inc. | Information elements locating system and method |
US8316306B2 (en) | 2001-10-15 | 2012-11-20 | Maya-Systems Inc. | Method and system for sequentially navigating axes of elements |
US7606819B2 (en) * | 2001-10-15 | 2009-10-20 | Maya-Systems Inc. | Multi-dimensional locating system and method |
US20080058106A1 (en) | 2002-10-07 | 2008-03-06 | Maya-Systems Inc. | Multi-dimensional locating game system and method |
CA2617688C (en) * | 2007-02-22 | 2015-08-18 | Alpex Pharma S.A. | Solid dosage formulations containing weight-loss drugs |
US8826123B2 (en) * | 2007-05-25 | 2014-09-02 | 9224-5489 Quebec Inc. | Timescale for presenting information |
CA2601154C (en) | 2007-07-07 | 2016-09-13 | Mathieu Audet | Method and system for distinguising elements of information along a plurality of axes on a basis of a commonality |
US8601392B2 (en) | 2007-08-22 | 2013-12-03 | 9224-5489 Quebec Inc. | Timeline for presenting information |
US8739050B2 (en) | 2008-03-07 | 2014-05-27 | 9224-5489 Quebec Inc. | Documents discrimination system and method thereof |
JP5146084B2 (ja) * | 2008-04-30 | 2013-02-20 | 富士通株式会社 | モデル作成支援システム、モデル作成支援方法、モデル作成支援プログラム |
CA2666016C (en) | 2008-05-15 | 2014-07-22 | Mathieu Audet | Method for building a search algorithm and method for linking documents with an object |
CA2677921C (en) | 2008-09-12 | 2017-06-13 | Mathieu Ma Audet | Method of managing groups of arrays of documents |
US10096064B2 (en) * | 2008-11-06 | 2018-10-09 | Thomson Reuters Global Resources Unlimited Company | Method and system for source document data entry and form association |
US9189129B2 (en) | 2011-02-01 | 2015-11-17 | 9224-5489 Quebec Inc. | Non-homogeneous objects magnification and reduction |
CA2790799C (en) | 2011-09-25 | 2023-03-21 | Mathieu Audet | Method and apparatus of navigating information element axes |
US9519693B2 (en) | 2012-06-11 | 2016-12-13 | 9224-5489 Quebec Inc. | Method and apparatus for displaying data element axes |
US9646080B2 (en) | 2012-06-12 | 2017-05-09 | 9224-5489 Quebec Inc. | Multi-functions axis-based interface |
US20140244528A1 (en) * | 2013-02-22 | 2014-08-28 | Palo Alto Research Center Incorporated | Method and apparatus for combining multi-dimensional fraud measurements for anomaly detection |
US11475030B2 (en) | 2016-11-10 | 2022-10-18 | Ronald Scott Visscher | System with a unique and versatile evaluation method |
US20180165414A1 (en) * | 2016-12-14 | 2018-06-14 | FlowJo, LLC | Applied Computer Technology for Management, Synthesis, Visualization, and Exploration of Parameters in Large Multi-Parameter Data Sets |
EP3631417B1 (en) | 2017-05-25 | 2024-02-14 | Flowjo, LLC | Visualization, comparative analysis, and automated difference detection for large multi-parameter data sets |
CA3007166C (en) | 2017-06-05 | 2024-04-30 | 9224-5489 Quebec Inc. | Method and apparatus of aligning information element axes |
CN112257015B (zh) * | 2020-10-28 | 2023-08-15 | 华润电力技术研究院有限公司 | 一种火电机组数据获取方法、系统及数据处理方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3708724B2 (ja) | 1998-09-25 | 2005-10-19 | 日本電信電話株式会社 | カテゴライズ利用特徴抽出装置 |
EP1089211B1 (en) | 1999-09-30 | 2005-11-16 | Hitachi Software Engineering Co., Ltd. | Method and apparatus for displaying gene expression patterns |
JP3773092B2 (ja) | 2000-03-28 | 2006-05-10 | 日立ソフトウエアエンジニアリング株式会社 | 遺伝子発現パターン表示方法および装置並びに記録媒体 |
WO2003006951A2 (en) * | 2001-07-13 | 2003-01-23 | Syngenta Participations Ag | System and method of determining proteomic differences |
-
2003
- 2003-02-14 WO PCT/JP2003/001576 patent/WO2004072866A1/ja active Application Filing
- 2003-02-14 JP JP2004568192A patent/JP3917625B2/ja not_active Expired - Fee Related
-
2005
- 2005-01-21 US US11/038,541 patent/US7346600B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7346600B2 (en) | 2008-03-18 |
WO2004072866A1 (ja) | 2004-08-26 |
JPWO2004072866A1 (ja) | 2006-06-01 |
US20050125201A1 (en) | 2005-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3917625B2 (ja) | データ解析装置 | |
Dou et al. | Hierarchicaltopics: Visually exploring large text collections using topic hierarchies | |
EP1304627B1 (en) | Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects | |
JP4874413B2 (ja) | オブジェクト間類似度計算方法 | |
JP4378646B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
McFee et al. | Learning Multi-modal Similarity. | |
US20060155684A1 (en) | Systems and methods to present web image search results for effective image browsing | |
JP3870043B2 (ja) | 大規模データベースにおける主要クラスタおよびアウトライア・クラスタの検索、検出および同定のためのシステム、コンピュータ・プログラム、およびサーバ | |
US20060179051A1 (en) | Methods and apparatus for steering the analyses of collections of documents | |
de Castro et al. | Applying biclustering to text mining: an immune-inspired approach | |
JP2009517750A (ja) | 情報検索 | |
US20090083248A1 (en) | Multi-Ranker For Search | |
JPWO2019102533A1 (ja) | 文献分類装置 | |
Schedl et al. | Exploring the music similarity space on the web | |
Weiss | Mining with rare cases | |
Goel et al. | DataCan: robust approach for genome cancer data analysis | |
Sen et al. | Learning to recognize valuable tags | |
JP2005044163A (ja) | 分類因子検出装置、分類因子検出方法、プログラム、及び記録媒体 | |
CN111143400A (zh) | 一种全栈式检索方法、系统、引擎及电子设备 | |
Zamora et al. | Query Intent Detection Based on Query Log Mining. | |
JP2004240887A (ja) | 検索情報表示システム及び検索キーワード情報表示方法及び検索キーワード情報表示プログラム | |
JP4305836B2 (ja) | コンテンツ検索表示装置およびコンテンツ検索表示方法 | |
Bascur et al. | Browsing Citation Clusters for Academic Literature Search: A Simulation Study with Systematic Reviews. | |
Ménard et al. | Faceted classification for museum artefacts: A methodology to support web site development of large cultural organizations | |
JP4151980B2 (ja) | システム、検出方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060508 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070208 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110216 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |