JP2004234105A - Analysis set data creation device and program for causing computer to implement method for creating analysis set data - Google Patents

Analysis set data creation device and program for causing computer to implement method for creating analysis set data Download PDF

Info

Publication number
JP2004234105A
JP2004234105A JP2003018994A JP2003018994A JP2004234105A JP 2004234105 A JP2004234105 A JP 2004234105A JP 2003018994 A JP2003018994 A JP 2003018994A JP 2003018994 A JP2003018994 A JP 2003018994A JP 2004234105 A JP2004234105 A JP 2004234105A
Authority
JP
Japan
Prior art keywords
data
analysis set
set data
analysis
temporary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003018994A
Other languages
Japanese (ja)
Inventor
Hirotaka Higuchi
裕高 樋口
Yoko Azuma
陽子 東
Toshihiko Morimoto
俊彦 森本
Takashi Kido
隆 城戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubit Genomix Inc
NTT Data Group Corp
Original Assignee
NTT Data Corp
Hubit Genomix Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp, Hubit Genomix Inc filed Critical NTT Data Corp
Priority to JP2003018994A priority Critical patent/JP2004234105A/en
Publication of JP2004234105A publication Critical patent/JP2004234105A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an analysis set data creation device capable of automatically creating analysis set data as a data assembly for analysis such as linkage disequilibrium analysis and disease-related analysis from an assembly of SNP sample data with a variety of attribute values and to provide a program for causing a computer to implement a method for creating analysis set data. <P>SOLUTION: The device and the program designate the range of sample IDs and/or SNPID from within an assembly of SNP sample data, thereby extracting SNP sample data which correspond to the range and creating temporary analysis set data. From the temporary analysis set data created, defect data which are SNP sample data with attribute values showing defects are eliminated. The temporary analysis data set from which the defect data are eliminated are registered as analysis set data. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、アナリシスセットデータ作成装置、および、アナリシスセットデータ作成方法をコンピュータに実行させるプログラムに関し、特に、各種の属性値を持つSNP(single nucleotide polymorphism:単一塩基多型)サンプルデータの集合から連鎖不平衡解析や疾患関連解析などの解析対象となるデータ集合であるアナリシスセットデータを自動的に作成することのできる、アナリシスセットデータ作成装置、および、アナリシスセットデータ作成方法をコンピュータに実行させるプログラムに関する。
【0002】
【従来の技術】
従来、連鎖不平衡解析や疾患関連解析を行う際は、利用者が全SNPサンプルデータのうち解析したい部分を手動で選択し、選択された部分を連鎖不平衡解析や疾患関連解析における解析する単位(テンポラリアナリシスセットデータ)として用いていた。
【0003】
すなわち、SNPIDとサンプルIDを個別に手動で選択し、テンポラリアナリシスセットデータを作成していた。
【0004】
具体的には、例えば、連鎖不平衡解析や疾患関連解析を行う際は、データ解析ツールやOLAPツール等で作成されているデータのサブセットをテンポラリアナリシスセットデータとして用いていた(例えば、非特許文献1参照)。
【0005】
しかし、テンポラリアナリシスセットデータとして取り出したデータには、欠損データが多く含まれており、欠損データが多く含まれている状態で連鎖不平衡解析や疾患関連解析を行うと、解析精度が悪くなり、解析結果に悪影響が出る可能性がある(例えば、非特許文献2、非特許文献3参照)。
【0006】
このため、テンポラリアナリシスセットデータ中に多く含まれている欠損データは、解析する前に手動で取り除き、欠損データを取り除いたテンポラリアナリシスセットデータを最終的な解析する単位であるアナリシスセットデータとしている。
【0007】
また、アナリシスセットデータがどのようなデータから作成されているか等の情報も、アナリシスセットデータの作成とは別に手動で管理されている。
【0008】
さらに、連鎖不平衡解析や疾患関連解析を行う際のパラメータ等も、手動で管理されている。
【0009】
【非特許文献1】
インターネット<URL:http://www.sas.com/offices/asiapacific/japan/software/base.html>
【非特許文献2】
インターネット<URL:http://www.spss.co.jp/product/ALL/analysis/>
【非特許文献3】
インターネット<URL:http://www.spss.co.jp/product/DOWN/download/Missing.pdf>
【0010】
【発明が解決しようとする課題】
このように、従来においては、解析したい部分であるテンポラリアナリシスセットデータを手動で選択していたため、非常に煩雑で時間がかかってしまい、非効率的であるという問題点がある。
【0011】
また、従来においては、テンポラリアナリシスセットデータを手動で選択していたため、人為的な作成ミスも発生しやすく、ミスが発生した場合、解析段階において手戻り作業を行わなければならないという問題点がある。
【0012】
また、従来においては、テンポラリアナリシスセットデータ中に含まれる欠損データの除去作業も、手動で行っていたため、煩雑で時間がかかり、人為的ミスも発生しやすいという問題点がある。
【0013】
また、従来においては、アナリシスセットデータがどのようなデータから作成されているか等の情報は、アナリシスセットデータ作成とは別に手動で管理されているため、煩雑で時間がかかり、人為的ミスも発生しやすいという問題点がある。
【0014】
また、従来においては、既に作成したアナリシスセットデータを効率良く検索・確認することができないという問題点がある。
【0015】
また、従来においては、テンポラリアナリシスセットデータ中に含まれる欠損データの除去作業において、テンポラリアナリシスセットデータを表示しながら欠損データの除去作業を行うことができないという問題点がある。
【0016】
また、従来においては、新たにアナリシスセットデータを作成する際、既に作成したアナリシスセットデータを一覧表示させることができなかったため、効率良くアナリシスセットデータを作成することができないという問題がある。
【0017】
本発明は上記問題点に鑑みてなされたもので、各種の属性値を持つSNPサンプルデータの集合から連鎖不平衡解析や疾患関連解析などの解析対象となるデータ集合であるアナリシスセットデータを自動的に作成することのできる、アナリシスセットデータ作成装置、および、アナリシスセットデータ作成方法をコンピュータに実行させることを特徴とするプログラムを提供することを目的としている。
【0018】
【課題を解決するための手段】
このような目的を達成するため、請求項1に記載のアナリシスセットデータ作成装置は、各種の属性値を持つSNPサンプルデータの集合から連鎖不平衡解析や疾患関連解析などの解析対象となるデータ集合であるアナリシスセットデータを作成するアナリシスセットデータ作成装置であって、上記SNPサンプルデータの集合の中からサンプルIDおよび/またはSNPIDを指定することにより、上記指定された上記サンプルIDおよび/または上記SNPIDに対応する上記SNPサンプルデータを抽出してテンポラリアナリシスセットデータを作成するテンポラリアナリシスセットデータ作成手段と、上記テンポラリアナリシスセットデータ作成手段により作成された上記テンポラリアナリシスセットデータから、欠損を示す属性値を持つ上記SNPサンプルデータである欠損データを除去する欠損データ除去手段と、上記欠損データ除去手段により上記欠損データが除去された上記テンポラリアナリシスセットデータを上記アナリシスセットデータとして登録するアナリシスセットデータ登録手段とを備えたことを特徴とする。
【0019】
この装置によれば、SNPサンプルデータの集合の中からサンプルIDおよび/またはSNPIDを指定することにより、指定されたサンプルIDおよび/またはSNPIDに対応するSNPサンプルデータを抽出してテンポラリアナリシスセットデータを作成し、作成されたテンポラリアナリシスセットデータから、欠損を示す属性値を持つSNPサンプルデータである欠損データを除去し、欠損データが除去されたテンポラリアナリシスセットデータをアナリシスセットデータとして登録するので、テンポラリアナリシスセットデータの作成を自動で行うことができ、人為的なミスも少なく、ミスが発生した場合でも容易にテンポラリアナリシスセットデータの作成に戻ることができる。
【0020】
また、テンポラリアナリシスセットデータ中に含まれる欠損データの除去を自動で行うことができ、欠損データの除去の時間を短縮でき、人為的なミスも少なくすることができる。
【0021】
また、アナリシスセットデータの登録を自動で行うことができ、作業を効率的に進めることができる。
【0022】
また、請求項2に記載のアナリシスセットデータ作成装置は、請求項1に記載のアナリシスセットデータ作成装置において、上記アナリシスセットデータ登録手段は、上記アナリシスセットデータを一意に識別するためのアナリシスID、上記サンプルIDおよび/または上記SNPID、上記アナリシスセットデータの作成元となる上記SNPサンプルデータの集合を一意に識別するためのプロジェクトID、および、利用者のコメントデータのうち少なくとも一つを含むアナリシスセットデータ作成情報を登録するアナリシスセットデータ作成情報登録手段をさらに備えたことを特徴とする。
【0023】
これはアナリシスセットデータ登録手段の一例を一層具体的に示すものである。この装置によれば、アナリシスセットデータを一意に識別するためのアナリシスID、サンプルIDおよび/またはSNPID、アナリシスセットデータの作成元となるSNPサンプルデータの集合を一意に識別するためのプロジェクトID、および、利用者のコメントデータのうち少なくとも一つを含むアナリシスセットデータ作成情報を登録するので、アナリシスセットデータ作成情報を自動で管理することができ、作業を効率的に進めることができる。
【0024】
また、アナリシスセットデータ作成情報の登録をアナリシスセットデータの登録と同時に行うことができる。
【0025】
また、請求項3に記載のアナリシスセットデータ作成装置は、請求項1または2に記載のアナリシスセットデータ作成装置において、上記欠損データ除去手段は、上記テンポラリアナリシスセットデータ作成手段により作成された上記テンポラリアナリシスセットデータから、上記欠損を示す属性値に基づいて、上記サンプルID、および/または、上記SNPID毎に上記欠損データを除去する欠損属性値除去手段、および/または、上記テンポラリアナリシスセットデータ作成手段により作成された上記テンポラリアナリシスセットデータから、上記欠損を示す属性値を持つ欠損データが含まれていない率を示す欠損データ非含有率に基づいて、上記サンプルID、および/または、上記SNPID毎に上記欠損データを除去する欠損非含有率除去手段をさらに備えたことを特徴とする。
【0026】
これは欠損データ除去手段の一例を一層具体的に示すものである。この装置によれば、作成されたテンポラリアナリシスセットデータから、欠損を示す属性値に基づいて、サンプルID、および/または、SNPID毎に欠損データを除去し、および/または、作成されたテンポラリアナリシスセットデータから、欠損を示す属性値を持つ欠損データが含まれていない率を示す欠損データ非含有率に基づいて、サンプルID、および/または、SNPID毎に欠損データを除去するので、欠損データの除去を自動で行うことができ、人為的なミスも少なく、効率的に欠損データの除去を進めることができる。
【0027】
また、請求項4に記載のアナリシスセットデータ作成装置は、請求項1から3のいずれか一つに記載のアナリシスセットデータ作成装置において、上記テンポラリアナリシスセットデータ中の各データの上記属性値に基づいて、区別して表示するテンポラリアナリシスセットデータ表示手段をさらに備えたことを特徴とする。
【0028】
この装置によれば、テンポラリアナリシスセットデータ中の各データの属性値に基づいて、色彩や模様などで区別して表示するので、各データの属性値を容易に確認することができる。
【0029】
また、請求項5に記載のアナリシスセットデータ作成装置は、請求項4に記載のアナリシスセットデータ作成装置において、上記テンポラリアナリシスセットデータ表示手段は、上記属性値がカテゴリカルな値の場合には上記属性値に基づいて、上記テンポラリアナリシスセットデータ中の各データを区別して表示する第1データ表示手段、上記属性値が数値の場合には上記数値をいくつかの閾値でカテゴリカルな値に変換し、変換された上記属性値に基づいて、上記テンポラリアナリシスセットデータ中の各データを区別して表示する第2データ表示手段、および、上記属性値が時系列な数値の場合には前後する上記時系列な数値の差をいくつかの閾値でカテゴリカルな値に変換し、変換された上記属性値に基づいて、上記テンポラリアナリシスセットデータ中の各データを区別して表示する第3データ表示手段のうち少なくとも一つの手段をさらに備えたことを特徴とする。
【0030】
これはテンポラリアナリシスセットデータ表示手段の一例を一層具体的に示すものである。この装置によれば、属性値がカテゴリカルな値の場合には属性値に基づいて、テンポラリアナリシスセットデータ中の各データを色彩や模様などで区別して表示する第1データ表示手段、属性値が数値の場合には数値をいくつかの閾値でカテゴリカルな値に変換し、変換された属性値に基づいて、テンポラリアナリシスセットデータ中の各データを色彩や模様などで区別して表示する第2データ表示手段、および、属性値が時系列な数値の場合には前後する時系列な数値の差をいくつかの閾値でカテゴリカルな値に変換し、変換された属性値に基づいて、テンポラリアナリシスセットデータ中の各データを色彩や模様などで区別して表示する第3データ表示手段のうち少なくとも一つの手段をさらに備えているので、カテゴリカルな値の属性値について各データの属性値を容易に確認することができる。
【0031】
また、時系列な数値の属性値の場合にも、時系列データの値の推移を容易に確認することができる。
【0032】
また、請求項6に記載のアナリシスセットデータ作成装置は、請求項1から5のいずれか一つに記載のアナリシスセットデータ作成装置において、上記SNPサンプルデータの集合を、上記サンプルIDと上記SNPIDとを2軸とする平面上に表示し、上記アナリシスセットデータ毎に指定された上記サンプルIDと上記SNPIDの範囲を区別して上記平面上に重畳して表示するアナリシスセットデータ登録状況一覧表示手段をさらに備えたことを特徴とする。
【0033】
この装置によれば、SNPサンプルデータの集合を、サンプルIDとSNPIDとを2軸とする平面上に表示し、アナリシスセットデータ毎に指定されたサンプルIDとSNPIDの範囲を区別して平面上に重畳して表示するので、SNPサンプルデータの集合に含まれる既存のアナリシスセットデータを一覧表示することができ、新たなアナリシスセットデータの作成を効率的に行うことができる。
【0034】
また、SNPサンプルデータの集合に対する既存のアナリシスセットデータの位置や範囲を容易に確認することができ、新たなアナリシスセットデータの作成を効率的に行うことができる。
【0035】
また、請求項7に記載のアナリシスセットデータ作成装置は、請求項1から6のいずれか一つに記載のアナリシスセットデータ作成装置において、上記プロジェクトID、上記アナリシスID、上記サンプルIDの範囲、上記SNPIDの範囲、上記利用者のコメントデータのうち少なくとも一つに基づいて、既に登録されている上記アナリシスセットデータを検索するアナリシスセットデータ検索手段をさらに備えたことを特徴とする。
【0036】
この装置によれば、プロジェクトID、アナリシスID、サンプルIDの範囲、SNPIDの範囲、利用者のコメントデータのうち少なくとも一つに基づいて、既に登録されているアナリシスセットデータを検索するので、既存のアナリシスセットデータを容易に確認することができる。
【0037】
また、本発明はプログラムに関するものであり、請求項8に記載のプログラムは、各種の属性値を持つSNPサンプルデータの集合から連鎖不平衡解析や疾患関連解析などの解析対象となるデータ集合であるアナリシスセットデータを作成するアナリシスセットデータ作成方法をコンピュータに実行させるプログラムであって、上記SNPサンプルデータの集合の中からサンプルIDおよび/またはSNPIDを指定することにより、上記指定された上記サンプルIDおよび/または上記SNPIDに対応する上記SNPサンプルデータを抽出してテンポラリアナリシスセットデータを作成するテンポラリアナリシスセットデータ作成ステップと、上記テンポラリアナリシスセットデータ作成ステップにより作成された上記テンポラリアナリシスセットデータから、欠損を示す属性値を持つ上記SNPサンプルデータである欠損データを除去する欠損データ除去ステップと、上記欠損データ除去ステップにより上記欠損データが除去された上記テンポラリアナリシスセットデータを上記アナリシスセットデータとして登録するアナリシスセットデータ登録ステップとを含むことを特徴とする。
【0038】
このプログラムによれば、SNPサンプルデータの集合の中からサンプルIDおよび/またはSNPIDを指定することにより、指定されたサンプルIDおよび/またはSNPIDに対応するSNPサンプルデータを抽出してテンポラリアナリシスセットデータを作成し、作成されたテンポラリアナリシスセットデータから、欠損を示す属性値を持つSNPサンプルデータである欠損データを除去し、欠損データが除去されたテンポラリアナリシスセットデータをアナリシスセットデータとして登録するので、テンポラリアナリシスセットデータの作成を自動で行うことができ、人為的なミスも少なく、ミスが発生した場合でも容易にテンポラリアナリシスセットデータの作成に戻ることができる。
【0039】
また、請求項9に記載のプログラムは、請求項8に記載のプログラムにおいて、上記アナリシスセットデータ登録ステップは、上記アナリシスセットデータを一意に識別するためのアナリシスID、上記サンプルIDおよび/または上記SNPID、上記アナリシスセットデータの作成元となる上記SNPサンプルデータの集合を一意に識別するためのプロジェクトID、および、利用者のコメントデータのうち少なくとも一つを含むアナリシスセットデータ作成情報を登録するアナリシスセットデータ作成情報登録ステップをさらに含むことを特徴とする。
【0040】
これはアナリシスセットデータ登録ステップの一例を一層具体的に示すものである。このプログラムによれば、アナリシスセットデータを一意に識別するためのアナリシスID、サンプルIDおよび/またはSNPID、アナリシスセットデータの作成元となるSNPサンプルデータの集合を一意に識別するためのプロジェクトID、および、利用者のコメントデータのうち少なくとも一つを含むアナリシスセットデータ作成情報を登録するので、アナリシスセットデータ作成情報を自動で管理することができ、作業を効率的に進めることができる。
【0041】
また、アナリシスセットデータ作成情報の登録をアナリシスセットデータの登録と同時に行うことができる。
【0042】
また、請求項10に記載のプログラムは、請求項8または9に記載のプログラムにおいて、上記欠損データ除去ステップは、上記テンポラリアナリシスセットデータ作成ステップにより作成された上記テンポラリアナリシスセットデータから、上記欠損を示す属性値に基づいて、上記サンプルID、および/または、上記SNPID毎に上記欠損データを除去する欠損属性値除去ステップ、および/または、上記テンポラリアナリシスセットデータ作成ステップにより作成された上記テンポラリアナリシスセットデータから、上記欠損を示す属性値を持つ欠損データが含まれていない率を示す欠損データ非含有率に基づいて、上記サンプルID、および/または、上記SNPID毎に上記欠損データを除去する欠損非含有率除去ステップをさらに含むことを特徴とする。
【0043】
これは欠損データ除去ステップの一例を一層具体的に示すものである。このプログラムによれば、作成されたテンポラリアナリシスセットデータから、欠損を示す属性値に基づいて、サンプルID、および/または、SNPID毎に欠損データを除去し、および/または、作成されたテンポラリアナリシスセットデータから、欠損を示す属性値を持つ欠損データが含まれていない率を示す欠損データ非含有率に基づいて、サンプルID、および/または、SNPID毎に欠損データを除去するので、欠損データの除去を自動で行うことができ、人為的なミスも少なく、効率的に欠損データの除去を進めることができる。
【0044】
また、請求項11に記載のプログラムは、請求項8から10のいずれか一つに記載のプログラムにおいて、上記テンポラリアナリシスセットデータ中の各データの上記属性値に基づいて、区別して表示するテンポラリアナリシスセットデータ表示ステップをさらに含むことを特徴とする。
【0045】
このプログラムによれば、テンポラリアナリシスセットデータ中の各データの属性値に基づいて、色彩や模様などで区別して表示するので、各データの属性値を容易に確認することができる。
【0046】
また、請求項12に記載のプログラムは、請求項11に記載のプログラムにおいて、上記テンポラリアナリシスセットデータ表示ステップは、上記属性値がカテゴリカルな値の場合には上記属性値に基づいて、上記テンポラリアナリシスセットデータ中の各データを区別して表示する第1データ表示ステップ、上記属性値が数値の場合には上記数値をいくつかの閾値でカテゴリカルな値に変換し、変換された上記属性値に基づいて、上記テンポラリアナリシスセットデータ中の各データを区別して表示する第2データ表示ステップ、および、上記属性値が時系列な数値の場合には前後する上記時系列な数値の差をいくつかの閾値でカテゴリカルな値に変換し、変換された上記属性値に基づいて、上記テンポラリアナリシスセットデータ中の各データを区別して表示する第3データ表示ステップのうち少なくとも一つのステップをさらに含むことを特徴とする。
【0047】
これはテンポラリアナリシスセットデータ表示ステップの一例を一層具体的に示すものである。このプログラムによれば、属性値がカテゴリカルな値の場合には属性値に基づいて、テンポラリアナリシスセットデータ中の各データを色彩や模様などで区別して表示する第1データ表示ステップ、属性値が数値の場合には数値をいくつかの閾値でカテゴリカルな値に変換し、変換された属性値に基づいて、テンポラリアナリシスセットデータ中の各データを色彩や模様などで区別して表示する第2データ表示ステップ、および、属性値が時系列な数値の場合には前後する時系列な数値の差をいくつかの閾値でカテゴリカルな値に変換し、変換された属性値に基づいて、テンポラリアナリシスセットデータ中の各データを色彩や模様などで区別して表示する第3データ表示ステップのうち少なくとも一つのステップをさらに含むので、カテゴリカルな値の属性値について各データの属性値を容易に確認することができる。
【0048】
また、時系列な数値の属性値の場合にも、時系列データの値の推移を容易に確認することができる。
【0049】
また、請求項13に記載のプログラムは、請求項8から12のいずれか一つに記載のプログラムにおいて、上記SNPサンプルデータの集合を、上記サンプルIDと上記SNPIDとを2軸とする平面上に表示し、上記アナリシスセットデータ毎に指定された上記サンプルIDと上記SNPIDの範囲を区別して上記平面上に重畳して表示するアナリシスセットデータ登録状況一覧表示ステップをさらに含むことを特徴とする。
【0050】
このプログラムによれば、SNPサンプルデータの集合を、サンプルIDとSNPIDとを2軸とする平面上に表示し、アナリシスセットデータ毎に指定されたサンプルIDとSNPIDの範囲を区別して平面上に重畳して表示するので、SNPサンプルデータの集合に含まれる既存のアナリシスセットデータを一覧表示することができ、新たなアナリシスセットデータの作成を効率的に行うことができる。
【0051】
また、SNPサンプルデータの集合に対する既存のアナリシスセットデータの位置や範囲を容易に確認することができ、新たなアナリシスセットデータの作成を効率的に行うことができる。
【0052】
また、請求項14に記載のプログラムは、請求項8から13のいずれか一つに記載のプログラムにおいて、上記プロジェクトID、上記アナリシスID、上記サンプルIDの範囲、上記SNPIDの範囲、上記利用者のコメントデータのうち少なくとも一つに基づいて、既に登録されている上記アナリシスセットデータを検索するアナリシスセットデータ検索ステップをさらに含むことを特徴とする。
【0053】
このプログラムによれば、プロジェクトID、アナリシスID、サンプルIDの範囲、SNPIDの範囲、利用者のコメントデータのうち少なくとも一つに基づいて、既に登録されているアナリシスセットデータを検索するので、既存のアナリシスセットデータを容易に確認することができる。
【0054】
また、テンポラリアナリシスセットデータ中に含まれる欠損データの除去を自動で行うことができ、欠損データの除去の時間を短縮でき、人為的なミスも少なくすることができる。
【0055】
また、アナリシスセットデータの登録を自動で行うことができ、作業を効率的に進めることができる。
【0056】
また、本発明は記録媒体に関するものであり、本発明の記録媒体は、上記請求項8から14のいずれか一つに記載されたプログラムを記録したことを特徴とする。
【0057】
この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、請求項8から14のいずれか一つに記載されたプログラムをコンピュータを利用して実現することができ、これら各方法と同様の効果を得ることができる。
【0058】
【発明の実施の形態】
以下に、本発明にかかるアナリシスセットデータ作成装置、および、アナリシスセットデータ作成方法をコンピュータに実行させるプログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
【0059】
[本発明の概要]
以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。図1は本発明の基本原理を示す原理構成図である。
本発明は、概略的に、以下の基本的特徴を有する。すなわち、本発明は、まず、利用者に、SNPサンプルデータの集合に対して、サンプルIDおよび/またはSNPIDを指定させることにより、当該指定されたSNPサンプルデータを抽出して、テンポラリアナリシスセットデータを作成する(ステップS−1)。
【0060】
ここで、テンポラリアナリシスセットデータの抽出について、図21を参照して説明する。
【0061】
図21は、テンポラリアナリシスセットデータの抽出の一例を示す図である。
【0062】
この図に示すように、SNPサンプルデータの集合に対して、選択されたSNPサンプルデータが、テンポラリアナリシスセットデータとして抽出され、格納される。
【0063】
再び図1に戻り、テンポラリアナリシスセットデータ中の各データの属性値に基づいて、当該各データを色彩や模様などで区別して表示する(ステップS−2)。
【0064】
なお、属性値がカテゴリカルな値の場合には、当該属性値に基づいて、テンポラリアナリシスセットデータ中の各データを、色彩や模様などで区別して表示してもよい。
【0065】
また、属性値が数値の場合には、当該数値をいくつかの閾値でカテゴリカルな値に変換し、変換された属性値に基づいて、テンポラリアナリシスセットデータ中の各データを、色彩や模様などで区別して表示してもよい。
【0066】
さらに、属性値が時系列な数値の場合には、前後する当該時系列な数値の差をいくつかの閾値でカテゴリカルな値に変換し、変換された属性値に基づいて、テンポラリアナリシスセットデータ中の各データを、色彩や模様などで区別して表示してもよい。
【0067】
次に、テンポラリアナリシスセットデータから、欠損を示す属性値を持つSNPサンプルデータである欠損データを除去する(ステップS−3)。
【0068】
なお、テンポラリアナリシスセットデータから、欠損を示す属性値に基づいて、サンプルIDおよび/またはSNPIDごとに欠損データを除去してもよい。
【0069】
また、テンポラリアナリシスセットデータから、欠損を示す属性値が含まれていない率を示す欠損データ非含有率に基づいて、サンプルIDおよび/またはSNPIDごとに欠損データを除去してもよい。
【0070】
なお、欠損データを除去した後に、例えば、当該欠損データが除去されたテンポラリアナリシスセットデータをファイル出力し、WEBサーバに保存するなどしてもよい。
【0071】
次に、欠損データが除去されたテンポラリアナリシスセットデータをアナリシスセットデータとしてアナリシスIDを付して登録する(ステップS−4)。
【0072】
なお、アナリシスセットデータの登録とともに、アナリシスセットデータのアナリシスID、アナリシスセットデータのサンプルIDおよび/またはSNPID、作成元となるSNPサンプルデータの集合のプロジェクトID、および、利用者のコメントデータのうち少なくとも一つを含むアナリシスセットデータ作成情報(当該アナリシスセットデータを1対1でリンクさせてもよい。)を登録してもよい(ステップS−5)。
【0073】
また、利用者のコメントデータは、例えば、文字データや音声データや画像データなどでもよい。
【0074】
ここで、プロジェクトID、アナリシスID、サンプルIDの範囲、SNPIDの範囲、利用者のコメントデータのうち少なくとも一つに基づいて、既に登録されているアナリシスセットデータを検索することができる。
【0075】
また、検索されたアナリシスセットデータの作成元となるSNPサンプルデータの集合をサンプルIDとSNPIDとを2軸とする平面上に表示し、当該SNPサンプルデータの集合に含まれる各アナリシスセットデータを、指定されたサンプルIDとSNPIDの範囲に基づいて、色彩や模様などで区別して当該平面上に重畳して一覧表示することもできる。
【0076】
また、予めアナリシスセットデータが既に登録されている場合は、アナリシスセットデータの作成とは独立して、既に登録されているアナリシスセットデータの、検索および/または一覧表示を行うこともできる。これにより、既存のアナリシスセットデータのサンプルIDおよび/またはSNPIDの範囲を確認することなどができ、新規にアナリシスセットデータを作成する際の参考にすることもできる。
【0077】
さらに、登録したアナリシスセットデータに対して、連鎖不平衡解析・疾患関連解析などのためのパラメータ(解析パラメータ)を登録することもできる(ステップS−6)。
【0078】
なお、当該アナリシスセットデータと当該解析パラメータとを1対多でリンクさせてもよい。
【0079】
[システム構成]
まず、本システムの構成について説明する。図2は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。
【0080】
本システムは、概略的に、各種の属性値を持つSNPサンプルデータの集合から連鎖不平衡解析や疾患関連解析などの解析対象となるデータ集合であるアナリシスセットデータを作成するアナリシスセットデータ作成装置100と、SNP情報等に関する外部データベースや各種の外部プログラム等を提供する外部システム200とを、ネットワーク300を介して通信可能に接続して構成されている。
【0081】
図2において、ネットワーク300は、アナリシスセットデータ作成装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネット等である。
【0082】
図2において、外部システム200は、ネットワーク300を介して、アナリシスセットデータ作成装置100と相互に接続され、利用者に対してSNP情報等に関する外部データベースや各種の外部プログラムを実行するウェブサイトを提供する機能を有する。
【0083】
ここで、外部システム200は、WEBサーバやASPサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。
【0084】
図2において、アナリシスセットデータ作成装置100は、概略的に、アナリシスセットデータ作成装置100の全体を統括的に制御するCPU等の制御部102、通信回線等に接続されるルータ等の通信装置(図示せず)に接続される通信制御インターフェース部104、入力装置112や出力装置114に接続される入出力制御インターフェース部108、および、各種のデータベースやファイルなどを格納する記憶部106を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、このアナリシスセットデータ作成装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク300に通信可能に接続されている。
【0085】
図2の記憶部106に格納される各種のデータベースやテーブルやファイル(SNPサンプルデータ集合データベース106a〜アナリシスセットデータ作成情報ファイル106e)は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【0086】
これら記憶部106の各構成要素のうち、SNPサンプルデータ集合データベース106aは、SNPサンプルデータの集合を格納するSNPサンプルデータ集合格納手段である。ここで、SNPサンプルデータ集合データベース106aは、インターネットを経由してアクセスする外部のSNPサンプルデータ集合データベース等でもよく、また、これらのデータベースをコピーしたり、オリジナルのSNP情報を格納したりして作成したインハウスデータベース等でもよい。
【0087】
図6は、SNPサンプルデータ集合データベース106aに格納される情報の一例を示す図である。このSNPサンプルデータ集合データベース106aに格納される情報は、図6に示すように、各SNPサンプルデータの集合を一意に識別するためのプロジェクトIDと、各サンプルを一意に識別するためのサンプルIDと、各SNPを一意に識別するためのSNPIDと、各SNPの属性値(例えば、欠損、遺伝子型、表現型など)とを相互に関連付けて構成されている。
【0088】
また、テンポラリアナリシスセットデータファイル106bは、テンポラリアナリシスセットデータを格納するテンポラリアナリシスセットデータ格納手段である。
【0089】
図7は、テンポラリアナリシスセットデータファイル106bに格納される情報の一例を示す図である。このテンポラリアナリシスセットデータファイル106bに格納される情報は、図7に示すように、テンポラリアナリシスセットデータ作成元のSNPサンプルデータの集合のプロジェクトIDと、各サンプルを一意に識別するためのサンプルIDと、各SNPを一意に識別するためのSNPIDと、各SNPの属性値(例えば、欠損、遺伝子型、表現型など)とを相互に関連付けて構成されている。
【0090】
また、欠損データファイル106cは、テンポラリアナリシスセットデータから除去するための欠損データを格納する欠損データ格納手段である。
【0091】
図8は、欠損データファイル106cに格納される情報の一例を示す図である。この欠損データファイル106cに格納される情報は、図8に示すように、テンポラリアナリシスセットデータの作成元のSNPサンプルデータの集合のプロジェクトIDと、各サンプルを一意に識別するためのサンプルIDと、各欠損データのSNPIDとを相互に関連付けて構成されている。
【0092】
また、アナリシスセットデータベース106dは、テンポラリアナリシスセットデータから欠損データを除去したテンポラリアナリシスセットデータをアナリシスセットデータとして格納するアナリシスセットデータ格納手段である。
【0093】
図9は、アナリシスセットデータベース106dに格納される情報の一例を示す図である。このアナリシスセットデータベース106dに格納される情報は、図9に示すように、アナリシスセットデータ対応するテンポラリアナリシスセットデータの作成元のSNPサンプルデータの集合のプロジェクトIDと、各アナリシスセットデータを一意に識別するためのアナリシスIDと、各サンプルを一意に識別するためのサンプルIDと、各SNPを一意に識別するためのSNPIDと、各SNPの属性値(例えば、欠損、遺伝子型、表現型など)とを相互に関連付けて構成されている。
【0094】
また、アナリシスセットデータ作成情報ファイル106eは、アナリシスセットデータに対応するアナリシスセットデータ作成に関する情報を格納するアナリシスセットデータ作成情報格納手段である。
【0095】
図10は、アナリシスセットデータ作成情報ファイル106eに格納される情報の一例を示す図である。このアナリシスセットデータ作成情報ファイル106eに格納される情報は、図10に示すように、アナリシスセットデータ作成情報に対応するアナリシスセットデータの作成元のSNPサンプルデータの集合のプロジェクトIDと、アナリシスセットデータ作成情報に対応するアナリシスセットデータのアナリシスIDと、アナリシスセットデータ作成情報に対応するアナリシスセットデータのサンプルIDと、アナリシスセットデータ作成情報に対応するアナリシスセットデータのSNPIDと、利用者のコメントデータとを相互に関連付けて構成されている。
【0096】
また、図2において、通信制御インターフェース部104は、アナリシスセットデータ作成装置100とネットワーク300(またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御インターフェース部104は、他の端末と通信回線を介してデータを通信する機能を有する。
【0097】
また、図2において、入出力制御インターフェース部108は、入力装置112や出力装置114の制御を行う。ここで、出力装置114としては、モニタ(家庭用テレビを含む)の他、スピーカを用いることができる(なお、以下においては出力装置114をモニタとして記載する場合がある)。また、入力装置112としては、キーボード、マウス、および、マイク等を用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現する。
【0098】
また、図2において、制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、テンポラリアナリシスセットデータ作成部102a、テンポラリアナリシスセットデータ表示部102b、欠損データ除去部102c、アナリシスセットデータ登録部102d、アナリシスセットデータ検索部102e、アナリシスセットデータ登録状況一覧表示部102fを含んで構成されている。
【0099】
このうち、テンポラリアナリシスセットデータ作成部102aは、SNPサンプルデータの集合から、指定されたサンプルIDおよび/またはSNPIDに基づいて、テンポラリアナリシスセットデータを作成するテンポラリアナリシスセットデータ作成手段である。
【0100】
また、テンポラリアナリシスセットデータ表示部102bは、テンポラリアナリシスセットデータ中の各データの属性値に基づいて、当該テンポラリアナリシスセットデータ中の各データを、色彩や模様などで区別し、表示するテンポラリアナリシスセットデータ表示手段である。ここで、テンポラリアナリシスセットデータ表示部102bは、図3に示すように、第1データ表示部102g、第2データ表示部102h、および、第3データ表示部102iをさらに含んで構成される。
【0101】
図3は、本発明が適用される本システムのテンポラリアナリシスセットデータ表示部102bの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。
【0102】
図3において、第1データ表示部102gは、テンポラリアナリシスセットデータ中の各データの属性値がカテゴリカルな値の場合には、当該属性値に基づいて、当該テンポラリアナリシスセットデータ中の各データを、色彩や模様などで区別し、表示する第1データ表示手段である。
【0103】
また、第2データ表示部102hは、テンポラリアナリシスセットデータ中の各データの属性値が数値の場合には、当該数値をいくつかの閾値でカテゴリカルな値に変換し、変換された属性値に基づいて、当該テンポラリアナリシスセットデータ中の各データを、色彩や模様などで区別し、表示する第2データ表示手段である。
【0104】
また、第3データ表示部102iは、テンポラリアナリシスセットデータ中の各データの属性値が時系列な数値の場合には、前後する当該時系列な数値の差をいくつかの閾値でカテゴリカルな値に変換し、変換された属性値に基づいて、当該テンポラリアナリシスセットデータ中の各データを、色彩や模様などで区別し、表示する第3データ表示手段である。
【0105】
再び図2に戻り、欠損データ除去部102cは、テンポラリアナリシスセットデータから欠損を示す属性値を持つ欠損データを除去する欠損データ除去手段である。ここで、欠損データ除去部102cは、図4に示すように、欠損属性値除去部102j、欠損非含有率除去部102kをさらに含んで構成される。
【0106】
図4は、本発明が適用される本システムの欠損データ除去部102cの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。
【0107】
図4において、欠損属性値除去部102jは、サンプルIDおよび/またはSNPIDごとに、欠損を示す属性値に基づいて、テンポラリアナリシスセットデータ中の欠損データを除去する欠損属性値除去手段である。
【0108】
また、欠損非含有率除去部102kは、サンプルIDおよび/またはSNPIDごとに、欠損を示す属性値が含まれていない率を示す欠損データ非含有率に基づいて、テンポラリアナリシスセットデータ中の欠損データを除去する欠損非含有率除去手段である。
【0109】
再び図2に戻り、アナリシスセットデータ登録部102dは、欠損データが除去されたテンポラリアナリシスセットデータをアナリシスセットデータとして、アナリシスセットデータを一意に識別するためのアナリシスIDを付して、登録するアナリシスセットデータ登録手段である。ここで、アナリシスセットデータ登録部102dは、図5に示すように、アナリシスセットデータ作成情報登録部102mをさらに含んで構成される。
【0110】
図5は、本発明が適用される本システムのアナリシスセットデータ登録部102dの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。
【0111】
図5において、アナリシスセットデータ作成情報登録部102mは、アナリシスセットデータ登録部102dの処理にて登録されたアナリシスセットデータの作成元となるSNPサンプルデータの集合のプロジェクトID、当該アナリシスセットデータのアナリシスID、当該アナリシスセットデータのサンプルIDおよび/またはSNPID、および、利用者のコメントデータのうち少なくとも一つを含むアナリシスセットデータ作成情報を登録するアナリシスセットデータ作成情報登録手段である。
【0112】
再び図2に戻り、アナリシスセットデータ検索部102eは、プロジェクトID,アナリシスID、サンプルIDの範囲、SNPIDの範囲、利用者のコメントデータのうち少なくとも一つに基づいて、既にアナリシスセットデータベース106dに格納されたアナリシスセットデータを検索するアナリシスセットデータ検索手段である。
【0113】
さらに、アナリシスセットデータ登録状況一覧表示部102fは、サンプルIDとSNPIDとを2軸とする平面上に対して、サンプルIDおよび/またはSNPIDの範囲に基づいて、アナリシスセットデータの作成元となるSNPサンプルデータの集合を、色彩や模様などで区別して表示し、当該SNPサンプルデータの集合に含まれる登録済みの各アナリシスセットデータを、指定されたサンプルIDとSNPIDの範囲に基づいて、色彩や模様などで区別し、当該SNPサンプルデータの集合が表示された平面上に対して、重畳して表示するアナリシスセットデータ登録状況一覧表示手段である。
なお、これら各部によって行われる処理の詳細については、後述する。
【0114】
[システムの処理]
次に、このように構成された本実施の形態における本システムの処理の一例について、以下に図11から図34等を参照して詳細に説明する。
【0115】
(1.メイン処理)
まず、メイン処理の詳細について、図11等を参照して説明する。図11は、本実施形態における本システムのメイン処理の一例を示すフローチャートである。
【0116】
まず、アナリシスセットデータ作成装置100は、テンポラリアナリシスセットデータ作成部102aの処理により、SNPサンプルデータ集合データベース106aに対し、サンプルID、および/または、SNPIDとプロジェクトIDを指定して、当該プロジェクトIDに対応するSNPサンプルデータの集合から、指定された当該サンプルID、および/または、当該SNPIDに基づいて、テンポラリアナリシスセットデータを抽出し、テンポラリアナリシスセットデータファイル106bの所定の領域に格納する(ステップSA−1)。
【0117】
以下、テンポラリアナリシスセットデータ作成について、図16等を参照して詳細に説明する。
【0118】
(1−1.テンポラリアナリシスセットデータ作成)
図16は、モニタに表示されるテンポラリアナリシスセットデータ作成画面の一例を示す図である。この図に示すように、テンポラリアナリシスセットデータ作成画面は、例えば、テンポラリアナリシスセットデータ作成画面に切り替えるための選択領域MA−1と、アナリシスIDを登録するための画面に切り替えるための選択領域MA−2と、連鎖不平衡解析や疾患関連解析などに使用する各種パラメータを設定するための画面に切り替えるための選択領域MA−3と、既に登録されたアナリシスセットデータを検索し、作成元のSNPサンプルデータの集合とともに一覧表示するための画面に切り替えるための選択領域MA−4と、プロジェクトIDの入力領域MA−5と、入力領域MA−5に入力されたプロジェクトIDに対応するSNPサンプルデータの集合の全範囲をテンポラリアナリシスセットデータにすることを指示するためのチェック領域MA−6と、SNPIDを入力するための入力領域MA−7−1と、入力領域MA−7−1に入力されたSNPIDを消去するための消去ボタンMA−7−2と、入力領域MA−7−1に入力するSNPIDをリターンキーで区切るか、または、タブキーで区切るかを選択するための選択ボタン群MA−7−3と、サンプルIDを入力するための入力領域MA−8−1と、入力領域MA−8−1に入力されたサンプルIDを消去するための消去ボタンMA−8−2と、入力領域MA−8−1に入力するサンプルIDをリターンキーで区切るか、または、タブキーで区切るかを選択するための選択ボタン群MA−8−3と、テンポラリアナリシスセットデータ作成の前に、入力データの誤りを確認してからテンポラリアナリシスセットデータを作成するか、または、入力データの誤りを確認せずにテンポラリアナリシスセットデータを作成するかを選択するための選択ボタン群MA−9と、および、テンポラリアナリシスセットデータの作成実行を指示するための実行ボタンMA−10を含んで構成されている。
【0119】
ここで、図16等を参照して、テンポラリアナリシスセットデータ作成画面へのデータ入力からテンポラリアナリシスセットデータの作成開始の指示までの操作を具体的に説明する。
【0120】
(1−1−1.データ入力およびテンポラリアナリシスセットデータの作成開始の指示)
まず、利用者は、予め出力装置114に出力されたテンポラリアナリシスセットデータ作成画面(図16参照)に対し、テンポラリアナリシスセットデータの作成元となる、SNPサンプルデータ集合データベース106aに予め格納されているSNPサンプルデータの集合のプロジェクトIDを、入力装置112を介して、入力領域MA−5に入力する。
【0121】
ついで、入力領域MA−5に入力されたプロジェクトIDに対応するSNPサンプルデータの集合の全範囲をテンポラリアナリシスセットデータにしたい場合、利用者は、図17に示すように、入力装置112を介して、チェック領域MA−6にチェックを入れ、選択ボタン群MA−9のいずれか一つを選択し、そして、実行ボタンMA−10を押す。
【0122】
また、当該プロジェクトIDに対応するSNPサンプルデータの集合に対して、SNPIDおよび/またはサンプルIDを指定して、テンポラリアナリシスセットデータにしたい場合、利用者は、図18に示すように、入力装置112を介して、選択ボタン群MA−7−3のいずれか一つを選択し入力領域MA−7−1にSNPIDを入力、および/または、選択ボタン群MA−8−3のいずれか一つを選択し入力領域MA−8−1にサンプルIDを入力し、選択ボタン群MA−9のいずれか一つを選択し、そして、実行ボタンMA−10を押す。
【0123】
(1−1−2.入力データのチェック)
ついで、利用者により実行ボタンMA−10が押されると、アナリシスセットデータ作成装置100は、テンポラリアナリシスセットデータ作成部102aの処理により、SNPサンプルデータ集合データベース106aに対して、入力領域MA−5に入力されたプロジェクトIDに対応するSNPサンプルデータの集合を検索する。
【0124】
ついで、入力領域MA−5に入力されたプロジェクトIDに対応するSNPサンプルデータの集合が検索された場合、アナリシスセットデータ作成装置100は、テンポラリアナリシスセットデータ作成部102aの処理により、チェック領域MA−6にチェックがなければ、入力領域MA−8−1に入力されたサンプルIDおよび/または入力領域MA−7−1に入力されたSNPIDにエラーがあるかをチェックする。
【0125】
また、入力領域MA−5に入力されたプロジェクトIDに対応するSNPサンプルデータの集合が検索されなかった場合、または、チェック領域MA−6にチェックがなく、入力領域MA−8−1に入力されたサンプルIDおよび/または入力領域MA−7−1に入力されたSNPIDにエラーがあるとチェックされた場合、アナリシスセットデータ作成装置100は、テンポラリアナリシスセットデータ作成部102aの処理により、利用者にエラーを通知する画面であるエラー通知画面を作成し、出力装置114に出力する。ここで、エラー通知画面の一例を、図19等を参照して説明する。
【0126】
図19は、モニタに表示されるエラー通知画面の一例を示す図である。この図に示すように、エラー通知画面は、例えば、チェック結果を表示するための表示領域MB−1と、エラー内容を詳細に表示するための表示領域MB−2と、テンポラリアナリシスセットデータ作成画面に戻るための戻るボタンMB−3を含んで構成されている。なお、本図は、無効なプロジェクトIDが入力されたというエラーを通知する際のエラー通知画面の一例である。
【0127】
(1−1−3.テンポラリアナリシスセットデータ作成処理)
再び図16に戻り、入力情報にエラーがなかった場合、アナリシスセットデータ作成装置100は、テンポラリアナリシスセットデータ作成部102aの処理により、チェック領域MA−6のチェック状態、入力領域MA−5に入力されたプロジェクトID、入力領域MA−8−1に入力されたサンプルID、および/または、入力領域MA−7−1に入力されたSNPIDに基づいて、SNPサンプルデータ集合データベース106aから当該プロジェクトIDに対応するSNPサンプルデータの集合を参照する。
【0128】
ついで、チェック領域MA−6のチェックがない場合、アナリシスセットデータ作成装置100は、テンポラリアナリシスセットデータ作成部102aの処理により、当該SNPサンプルデータの集合から、入力領域MA−8−1に入力されたサンプルID、および/または、入力領域MA−7−1に入力されたSNPIDに対応するSNPサンプルデータの集合をコピーする。
【0129】
また、チェック領域MA−6のチェックがある場合、アナリシスセットデータ作成装置100は、テンポラリアナリシスセットデータ作成部102aの処理により、当該SNPサンプルデータの集合の全範囲をコピーする。
【0130】
ついで、アナリシスセットデータ作成装置100は、テンポラリアナリシスセットデータ作成部102aの処理により、当該コピーされたSNPサンプルデータの集合をテンポラリアナリシスセットデータとして、テンポラリアナリシスセットデータファイル106bの所定の領域に格納する。
【0131】
これにて、「1−1.テンポラリアナリシスセットデータ作成」の説明を終了する。
【0132】
再び図11に戻り、アナリシスセットデータ作成装置100は、テンポラリアナリシスセットデータ表示部102bの処理により、ステップSA−1にて抽出されたテンポラリアナリシスセットデータ中の各データの属性値に基づいて、当該各データを色彩や模様などで区別して表示する(ステップSA−2)。
【0133】
以下、テンポラリアナリシスセットデータ表示について詳細に説明する。
【0134】
(1−2.テンポラリアナリシスセットデータ表示)
【0135】
(1−2−1.テンポラリアナリシスセットデータ表示処理)
まず、アナリシスセットデータ作成装置100は、テンポラリアナリシスセットデータ表示部102bの処理により、当該テンポラリアナリシスセットデータ中の各データの属性値に基づいて、当該テンポラリアナリシスセットデータにおける属性値ごとの頻度(属性値ごとの存在割合)を算出する。
【0136】
ついで、アナリシスセットデータ作成装置100は、テンポラリアナリシスセットデータ表示部102bの処理により、当該算出された属性値ごとの頻度を、後述する欠損データ除去画面(図20参照)の領域MC−2−4の頻度表示領域に表示する。
【0137】
ついで、アナリシスセットデータ作成装置100は、テンポラリアナリシスセットデータ表示部102bの処理により、ステップSA−1にて抽出されたテンポラリアナリシスセットデータ中の各データの属性値に基づいて、当該各データを色彩や模様などで区別して、サンプルIDとSNPIDを2軸とする平面上にテンポラリアナリシスセットデータを、後述する欠損データ除去画面(図20参照)の表示領域MC−1に表示する。
【0138】
ここで、テンポラリアナリシスセットデータ表示部102bにおいて行われるテンポラリアナリシスセットデータ表示処理の詳細について、図12等を参照して説明する。
【0139】
(2.テンポラリアナリシスセットデータ表示処理の詳細)
ここでは、テンポラリアナリシスセットデータ表示処理の詳細について図12等を参照して説明する。図12は、本実施形態における本システムのテンポラリアナリシスセットデータ表示処理の一例を示すフローチャートである。
【0140】
まず、ステップSA−2における属性値がカテゴリカルな値の場合、テンポラリアナリシスセットデータ表示部102bは、第1データ表示部102gの処理により、当該属性値に基づいて、ステップSA−2におけるテンポラリアナリシスセットデータ中の各データを、色彩や模様などで区別して、後述する欠損データ除去画面(図20参照)の表示領域MC−1に表示する(ステップSB−1)。
【0141】
ついで、ステップSA−2における属性値が数値の場合、テンポラリアナリシスセットデータ表示部102bは、第2データ表示部102hの処理により、当該数値をいくつかの閾値でカテゴリカルな値に変換し、変換された属性値に基づいて、ステップSA−2におけるテンポラリアナリシスセットデータ中の各データを、色彩や模様などで区別して、後述する欠損データ除去画面(図20参照)の表示領域MC−1に表示する(ステップSB−2)。
【0142】
さらに、ステップSA−2における属性値が時系列な数値の場合、テンポラリアナリシスセットデータ表示部102bは、第3データ表示部102iの処理により、前後する当該時系列な数値の差をいくつかの閾値でカテゴリカルな値に変換し、変換された属性値に基づいて、ステップSA−2におけるテンポラリアナリシスセットデータ中の各データを、色彩や模様などで区別して、後述する欠損データ除去画面(図20参照)の表示領域MC−1に表示する(ステップSB−3)。
【0143】
具体的には、例えば、図22に示すように、属性値が時系列な数値のデータ(例えば、血圧の時系列のデータなど)に対して、テンポラリアナリシスセットデータ表示部102bは、第3データ表示部102iの処理により、いくつかの閾値を定義し(例えば、血圧90と120を閾値に定義するなど)、定義した閾値を境界値としてカテゴリカルな値を定義し(例えば、血圧90未満を低血圧域、血圧90以上120未満を中血圧域、血圧120以上を高血圧域に定義するなど)、そして、定義したカテゴリカルな値を表示するにあたり、当該定義したカテゴリカルな値ごとに視覚的に識別可能にするための、例えば、色彩や模様などを定義して(例えば、低血圧域を青色、中血圧域を黄色、高血圧域を赤色に定義するなど)、当該時系列な数値データをカテゴリカルな値に変換し、後述する欠損データ除去画面(図20参照)の表示領域MC−1に表示する。
【0144】
なお、本実施形態においては、テンポラリアナリシスセットデータ表示処理は、テンポラリアナリシスセットデータを表示させるために用いているが、かかる場合に限定されることなく、SNPサンプルデータ(具体的には、SNPID、サンプルID、各種の属性値で構成されたデータ)と同質なデータ、具体的には、例えば、変数X、変数Y、および、当該変数Xと当該変数Yを2変数とする2変数関数F(X、Y)の値で構成されたデータなどを表示させるために用いてもよい。
【0145】
また、本実施形態においては、テンポラリアナリシスセットデータ表示処理は、テンポラリアナリシスセットデータ作成処理に続けて用いているが、かかる場合に限定されることなく、テンポラリアナリシスセットデータ表示処理を独立して用いてもよい。
【0146】
また、本実施形態においては、データの属性値の区別の手法は、データの属性値がカテゴリカルな値の場合はデータの属性値そのもので区別する手法を、また、データの属性値がカテゴリカルな値でない場合はいくつかの閾値でデータの属性値をカテゴリカルな値に変換し、変換されたデータの属性値で区別する手法を用いているが、かかる場合に限定されることなく、他のデータ属性値の区別の手法を用いてもよい。
【0147】
また、本実施形態においては、表示上のデータの属性値の区別の手法は、データの持つ属性値を、表示上において視覚的に一意に識別できる、具体的には、例えば、色彩や模様などと対応させて区別して、表示する手法を用いているが、かかる場合に限定されることなく、他の表示上のデータの属性値の区別の手法を用いてもよい。
【0148】
また、例えば、図23に示すように、テンポラリアナリシスセットデータ表示処理は、複数の属性で内容が似ているデータを、サンプルの順番を並べ替えて整理し、整理されたデータを表示して確認するなどのために用いてもよい。
【0149】
さらに、例えば、テンポラリアナリシスセットデータ表示処理は、数量化理論3類(例えば、「http://www.bb.wakwak.com/〜bird/statistics/analysis/hayashi.3.html」、「http://aoki2.si.gunma−u.ac.jp/lecture/Qt/qt3.html」などを参照)を適用して処理されたデータを、表示して確認するなどのために用いてもよい。
【0150】
これにて、「2.テンポラリアナリシスセットデータ表示処理の詳細」の説明を終了する。
【0151】
以上、「1−2.テンポラリアナリシスセットデータ表示」の説明を終了する。
【0152】
再び図11に戻り、アナリシスセットデータ作成装置100は、欠損データ除去部102cの処理により、ステップSA−1にて抽出されたテンポラリアナリシスセットデータから欠損データを除去し、除去された欠損データを欠損データファイル106cの所定の領域に格納する(ステップSA−3)。
【0153】
以下、テンポラリアナリシスセットデータからの欠損データ除去について、図20等を参照して詳細に説明する。
【0154】
(1−3.テンポラリアナリシスセットデータからの欠損データ除去)
まず、欠損データを除去するための欠損データ除去画面について、図20等を参照して説明する。図20は、モニタに表示される欠損データ除去画面の一例を示す図である。この図に示すように、欠損データ除去画面は、例えば、テンポラリアナリシスセットデータを平面表示するための表示領域MC−1と、サンプルIDおよび/またはSNPIDごとに、欠損を示す属性値に基づいてSNPサンプルデータを除去する「プロットモード」を選択するための選択ボタンMC−2−1と、サンプルIDおよび/またはSNPIDをリスト表示し、選択するためのリスト表示選択領域MC−2−2と、除去したいサンプルIDおよび/またはSNPIDを入力するための入力領域MC−2−3と、属性値ごとの頻度を表示するための頻度表示領域と、属性値を表示するための表示領域と、除去対象とする属性値をチェックするためのチェック領域から構成される領域MC−2−4と、リスト表示選択領域MC−2−2と領域MC−2−4に選択表示されている情報に基づいて、テンポラリアナリシスセットデータからSNPサンプルデータの除去実行を指示するための除去ボタンMC−2−5を含んで構成されている。
【0155】
つづいて、SNPIDごとの欠損データ非含有率に基づいて、SNPサンプルデータを除去する「パーセンテージモード(SNPID)」を選択するための選択ボタンMC−3−1と、閾値を入力するための入力領域MC−3−2と、入力領域MC−3−2に入力された閾値に基づいて、テンポラリアナリシスセットデータを表示領域MC−1に表示させるための表示ボタンMC−3−3と、欠損データ除去の実行を指示するための除去ボタンMC−3−4を含んで構成されている。
【0156】
つづいで、サンプルIDごとの欠損データ非含有率に基づいて、SNPサンプルデータを除去する「パーセンテージモード(サンプルID)」を選択するための選択ボタンMC−4−1と、閾値を入力するための入力領域MC−4−2と、入力領域MC−4−2に入力された閾値に基づいて、テンポラリアナリシスセットデータを表示領域MC−1に表示させるための表示ボタンMC−4−3と、欠損データ除去の実行を指示するための除去ボタンMC−4−4を含んで構成されている。
【0157】
さらに、欠損データ除去後のテンポラリアナリシスセットデータをファイル出力させるための出力ボタンMC−5と、欠損データ除去前のテンポラリアナリシスセットデータにリセットさせるためのリセットボタンMC−6を含んで構成されている。
【0158】
(1−3−1.モード選択)
まず、利用者は、出力装置114に出力された欠損データ除去画面(図20参照)にて、入力装置112を介して、選択領域MC−2−1、選択領域MC−3−1、選択領域MC−4−1のいずれか一つの選択ボタンを押す。
【0159】
(1−3−1−1.「プロットモード」の場合)
ここでは、利用者が、入力装置112を介して、選択領域MC−2−1の選択ボタンを押して「プロットモード」を選択した場合の、欠損を示す属性値に基づく欠損データ除去について、図24から図26等を参照して説明する。
【0160】
まず、利用者は、除去対象とする属性値のみを表示領域MC−1に表示するために、入力装置112を介して、領域MC−2−4のチェック領域に、除去対象とする属性値をチェックする(図24参照)。
【0161】
ついで、アナリシスセットデータ作成装置100は、テンポラリアナリシスセットデータ表示部102bの処理により、選択表示領域MC−2−4のチェック状態に基づいて、上述したテンポラリアナリシスセットデータ表示処理(「2.テンポラリアナリシスセットデータ表示処理の詳細」)を行い、テンポラリアナリシスセットデータを、表示領域MC−1に再表示する(図24参照)。
【0162】
ついで、利用者は、入力装置112を介して、表示領域MC−1上で、詳細に確認したいSNPサンプルデータをクリックする(図25参照)。
【0163】
ついで、アナリシスセットデータ作成装置100は、テンポラリアナリシスセットデータ表示部102bの処理により、当該クリックされたSNPサンプルデータを含む一定範囲のSNPサンプルデータを、出力装置114に拡大表示する(図25参照)。
【0164】
ここで、図25等を参照して、欠損を示す属性値に基づく欠損データ除去の一例を説明する。図25は、欠損を示す属性値に基づく欠損データ除去(その2)の一例を示す図である。この図に示すように、SNPサンプルデータの拡大表示画面(MD−1)は、例えば、クリックされたSNPサンプルデータを含む一定範囲のSNPサンプルデータを拡大して表示するための表示領域MD−2と、クリックされたSNPサンプルデータのSNPIDを表示するための表示領域MD−3と、クリックされたSNPサンプルデータのサンプルIDを表示するための表示領域MD−4を含んで構成されている。
【0165】
ついで、利用者は、入力装置112を介して、表示領域MD−2上で、除去対象とするSNPサンプルデータをクリックする(図25参照)。
【0166】
ついで、アナリシスセットデータ作成装置100は、テンポラリアナリシスセットデータ表示部102bの処理により、クリックされたSNPサンプルデータのSNPIDとサンプルIDを表示領域MD−3と表示領域MD−4にそれぞれ表示する(図25参照)。
【0167】
ついで、利用者は、入力装置112を介して、表示領域MD−3に表示されたSNPID、および/または、表示領域MD−4に表示されたサンプルIDをコピーし、入力領域MC−2−3に入力する(図26参照)。
【0168】
ついで、利用者は、入力装置112を介して、SNPIDおよび/またはサンプルIDごとに除去するかを、リスト表示選択領域MC−2−2から選択する(図26参照)。なお、図26においては、SNPIDを選択した場合を一例に示している。
【0169】
(1−3−1−2.「パーセンテージモード(SNPID)」の場合)
ここでは、利用者が、入力装置112を介して、選択領域MC−3−1の選択ボタンを押して「パーセンテージモード(SNPID)」を選択した場合の、欠損データ非含有率に基づく欠損データ除去について、図27等を参照して説明する。
【0170】
まず、利用者は、入力装置112を介して、入力領域MC−3−2に対し欠損データ非含有率の閾値を入力する(図27参照)。
【0171】
ついで、利用者は、入力領域MC−3−2に対して入力された欠損データ非含有率の閾値に基づいてテンポラリアナリシスセットデータを表示させるために、入力装置112を介して、表示ボタンMC−3−3を押してデータの表示を指示する(図27参照)。
【0172】
ついで、アナリシスセットデータ作成装置100は、テンポラリアナリシスセットデータ表示部102bの処理により、入力領域MC−3−2に入力された欠損データ非含有率の閾値に基づいて、上述したテンポラリアナリシスセットデータ表示処理(「2.テンポラリアナリシスセットデータ表示処理の詳細」)を行い、テンポラリアナリシスセットデータを表示領域MC−1に表示する(図27参照)。
【0173】
(1−3−1−3.「パーセンテージモード(サンプルID)」の場合)
ここでは、利用者が、入力装置112を介して、選択領域MC−4−1の選択ボタンを押して「パーセンテージモード(サンプルID)」を選択した場合の、欠損データ非含有率に基づく欠損データ除去について説明する。
【0174】
まず、利用者は、入力装置112を介して、入力領域MC−4−2に対し欠損データ非含有率の閾値を入力する。
【0175】
ついで、利用者は、入力領域MC−4−2に対して入力した欠損データ非含有率の閾値に基づいてテンポラリアナリシスセットデータを表示させるために、入力装置112を介して、表示ボタンMC−4−3を押してデータの表示を指示する。
【0176】
ついで、アナリシスセットデータ作成装置100は、テンポラリアナリシスセットデータ表示部102bの処理により、入力領域MC−4−2に入力された欠損データ非含有率の閾値に基づいて、上述したテンポラリアナリシスセットデータ表示処理(「2.テンポラリアナリシスセットデータ表示処理の詳細」)を行い、テンポラリアナリシスセットデータを表示領域MC−1に表示する。
【0177】
(1−3−2.欠損データ除去指示)
ついで、「1−3−1.モード選択」の処理により、除去対象とするSNPサンプルデータが決まると、利用者は、入力装置112を介して、欠損データ除去の実行指示を、「プロットモード」の場合は削除ボタンMC−2−5を、「パーセンテージモード(SNPID)」の場合は削除ボタンMC−3−4を(図28参照)、「パーセンテージモード(サンプルID)」の場合は削除ボタンMC−4−4を押し、欠損データ除去処理の実行をアナリシスセットデータ作成装置100に対して指示する。
【0178】
(1−3−3.欠損データ除去処理)
ついで、アナリシスセットデータ作成装置100は、欠損データ除去部102cの処理により、後述する欠損データ除去処理を実行して、SA−1にて抽出されたテンポラリアナリシスセットデータから欠損データを除去し、除去された欠損データを欠損データファイル106cの所定の領域に格納する。ここで、欠損データ除去部102cにおいて行われる欠損データ除去処理の詳細について、図13等を参照して説明する。
【0179】
(3.欠損データ除去処理の詳細)
ここでは、欠損データ除去処理の詳細について図13等を参照して説明する。
図13は、本実施形態における本システムの欠損データ除去処理の一例を示すフローチャートである。
【0180】
まず、選択されたモードが「プロットモード」の場合、欠損データ除去部102cは、欠損属性値除去部102jの処理により、SA−3におけるテンポラリアナリシスセットデータから、欠損を示す属性値に基づいて、入力領域MC−2−3に入力されたサンプルIDおよび/またはSNPIDごとに欠損データを除去し、当該欠損データを欠損データファイル106cの所定の領域に格納する(ステップSC−1)。
【0181】
ついで、選択されたモードが「パーセンテージモード(SNPID)」または「パーセンテージモード(サンプルID)」の場合、欠損データ除去部102cは、欠損非含有率除去部102kの処理により、SA−3におけるテンポラリアナリシスセットデータから、欠損データ非含有率に基づいて、「パーセンテージモード(SNPID)」の場合はSNPIDごとに、「パーセンテージモード(サンプルID)」の場合はサンプルIDごとに、欠損データを除去し、当該欠損データを欠損データファイル106cの所定の領域に格納する(ステップSC−2)。
【0182】
これにて、「3.欠損データ除去処理の詳細」の説明を終了する。
【0183】
なお、本実施形態において、欠損データ除去処理の後に、欠損データが除去されたテンポラリアナリシスセットデータをファイル出力し、WEBサーバなどに保存するなどしてもよい。
【0184】
ここで、図29等を参照して欠損データが除去されたテンポラリアナリシスセットデータのファイル出力について、以下に説明する。
【0185】
(1−3−4.欠損データが除去されたテンポラリアナリシスセットデータのファイル出力)
ここでは、欠損データが除去されたテンポラリアナリシスセットデータのファイル出力について、図29等を参照して説明する。図29は、欠損データが除去されたテンポラリアナリシスセットデータのファイル出力の一例を示す図である。
【0186】
まず、利用者は、入力装置112を介して、出力ボタンMC−5を押す。
【0187】
ついで、アナリシスセットデータ作成装置100は、制御部102のいずれかの処理により、後述するファイル出力をするためのダイアログ(ダイアログME−1)を作成し、出力装置114に表示する。
【0188】
ここで、欠損データが除去されたテンポラリアナリシスセットデータのファイル出力をするためのダイアログについて説明する。欠損データが除去されたテンポラリアナリシスセットデータのファイル出力をするためのダイアログ(ダイアログME−1)は、例えば、ファイル名を入力するための入力領域ME−2と、入力領域ME−2に入力されたファイル名でファイル出力することを指示するためのOKボタンME−3と、ファイル出力をキャンセルするためのキャンセルボタンME−4を含んで構成されている。
【0189】
ついで、利用者は、入力装置112を介して、出力装置114に出力されたダイアログME−1の入力領域ME−2に、ファイル名(出力先)を入力する。
【0190】
ついで、利用者は、入力装置112を介して、入力領域ME−2に入力されたファイル名(出力先)でファイル出力することを指示するためのOKボタンME−3を押す。
【0191】
ついで、アナリシスセットデータ作成装置100は、制御部102のいずれかの処理により、入力領域ME−2に入力されたファイル名(出力先)でファイル出力し、WEBサーバなどに保存する。
【0192】
これにて、「1−3.テンポラリアナリシスセットデータからの欠損データ除去」の説明を終了する。
【0193】
再び図11に戻り、アナリシスセットデータ作成装置100は、アナリシスセットデータ登録部102dの処理により、ステップSA−3にて欠損データが除去されたテンポラリアナリシスセットデータをアナリシスセットデータとして、アナリシスIDと共に、アナリシスセットデータベース106dの所定の領域に格納する(ステップSA−4)。
【0194】
以下、アナリシスセットデータ登録について、図30等を参照して詳細に説明する。
【0195】
(1−4.アナリシスセットデータ登録)
図30は、アナリシスセットデータ登録画面の一例を示す図である。この図に示すように、例えば、アナリシスセットデータ登録画面は、アナリシスセットデータを一意に識別するためのアナリシスIDを入力するための入力領域MF−1と、アナリシスセットデータのファイル名(出力先)を入力するための入力領域MF−2と、アナリシスセットデータを入力領域MF−1に入力されたアナリシスIDと共に登録することを指示するための登録ボタンMF−3を含んで構成されている。
【0196】
(1−4−1.データ入力)
まず、ステップSA−3にて欠損データが除去されたテンポラリアナリシスセットデータをアナリシスセットデータとして登録するために、利用者は、入力装置112を介して、アナリシスセットデータを一意に識別するためのアナリシスIDを、入力領域MF−1の入力領域に入力する(図30参照)。
【0197】
ついで、利用者は、入力装置112を介して、入力領域MF−2にアナリシスセットデータのファイル名(出力先)を入力する(図30参照)。
【0198】
なお、アナリシスセットデータ登録の前に、「1−3−4.欠損データが除去されたテンポラリアナリシスセットデータのファイル出力」の処理を行っている場合は、アナリシスセットデータ作成装置100は、制御部102のいずれかの処理により、ファイル出力した際のファイル名(出力先)を自動的に入力領域MF−2に表示してもよい。
【0199】
ついで、入力領域MF−1に入力されたアナリシスIDで、欠損データが除去されたテンポラリアナリシスセットデータをアナリシスセットデータとして登録するために、利用者は、入力装置112を介して、登録ボタンMF−3を押し、後述するアナリシスセットデータ登録処理の実行をアナリシスセットデータ作成装置100に対し指示する(図30参照)。
【0200】
(1−4−2.アナリシスセットデータ登録処理)
ついで、アナリシスセットデータ作成装置100は、アナリシスセットデータ登録部102dの処理により、ステップSA−3にて欠損データが除去されたテンポラリアナリシスセットデータをアナリシスセットデータとして、入力領域MF−1に入力されたアナリシスIDと共に、アナリシスセットデータベース106dの所定の領域に格納する。
【0201】
ついで、アナリシスセットデータ作成装置100は、アナリシスセットデータ登録部102dの処理により、アナリシスセットデータ作成情報を登録するための画面であるアナリシスセットデータ作成情報画面を作成し、出力装置114に表示する。
【0202】
これにて、「1−4.アナリシスセットデータ登録」の説明を終了する。
【0203】
再び図11に戻り、アナリシスセットデータ登録部102dは、アナリシスセットデータ作成情報登録部102mの処理により、プロジェクトID、アナリシスID、当該アナリシスIDに対応するアナリシスセットデータのサンプルIDおよび/またはSNPID、利用者のコメントデータのうち少なくとも一つを含むアナリシスセットデータ作成情報を作成し、アナリシスセットデータ作成情報ファイル106eの所定の領域に格納する(ステップSA−5)。
【0204】
以下、アナリシスセットデータ作成情報登録について図31等を参照して詳細に説明する。
【0205】
(1−5.アナリシスセットデータ作成情報登録)
図31は、アナリシスセットデータ作成情報登録画面の一例を示す図である。この図に示すように、アナリシスセットデータ作成情報登録画面は、例えば、アナリシスIDをリスト表示し、選択するためのリスト表示選択領域MG−1と、リスト表示選択領域MG−1に表示されたアナリシスIDに対応するアナリシスセットデータをアナリシスセットデータ作成情報登録のためのアナリシスセットデータとして選択するための選択ボタンMG−2と、リスト表示選択領域MG−1に表示されたアナリシスIDに対応するアナリシスセットデータのプロジェクトIDを表示するための表示領域MG−3と、リスト表示選択領域MG−1に表示されたアナリシスIDを表示するための表示領域MG−4と、ファイル名(出力先)を表示するための表示領域MG−5と、利用者のコメントデータを入力するための入力領域MG−6と、表示領域MG−4に表示されたアナリシスIDに対応するアナリシスセットデータのサンプルIDおよび/またはSNPID、表示領域MG−3に表示されたプロジェクトID、表示領域MG−4に表示されたアナリシスID、入力領域MG−6に入力された利用者のコメントデータのうち少なくとも一つをアナリシスセットデータ作成情報として登録するための登録ボタンMG−7を含んで構成されている。
【0206】
(1−5−1.アナリシスIDの選択)
まず、アナリシスセットデータ作成情報登録画面のリスト表示選択領域MG−1に予め表示されたアナリシスIDがアナリシスセットデータ作成情報登録の対象となるアナリシスセットデータのアナリシスIDである場合、利用者は、入力装置112を介して、選択ボタンMG−2を押す。
【0207】
また、アナリシスセットデータ作成情報画面のリスト表示選択領域MG−1に予め表示されたアナリシスIDがアナリシスセットデータ作成情報登録の対象となるアナリシスセットデータのアナリシスIDでない場合、利用者は、入力装置112を介して、リスト表示選択領域MG−1のリストからアナリシスセットデータ作成情報登録の対象にしたいアナリシスセットデータのアナリシスIDを選択し、選択ボタンMG−2を押す。
【0208】
ついで、アナリシスセットデータ作成装置100は、アナリシスセットデータ登録部102dの処理により、リスト表示選択領域MG−1に表示されたアナリシスIDに対応するアナリシスセットデータの作成元となるSNPサンプルデータの集合のプロジェクトIDを表示領域MG−3に、リスト表示選択領域MG−1に表示されたアナリシスIDを表示領域MG−4に、リスト表示選択領域MG−1に表示されたアナリシスIDに対応するアナリシスセットデータのファイル名(出力先)を表示領域MG−5に表示する。
【0209】
(1−5−2.コメントデータの入力)
ついで、利用者は、入力装置112を介して、入力領域MG−6に利用者のコメントデータを入力する。
【0210】
(1−5−3.アナリシスセットデータ作成情報登録処理の実行指示)
ついで、利用者は、入力装置112を介して、登録ボタンMG−7を押し、後述するアナリシスセットデータ作成情報登録処理の実行をアナリシスセットデータ作成装置100に対して指示する。
【0211】
(1−5−4.アナリシスセットデータ作成情報登録処理)
ついで、アナリシスセットデータ登録部102dは、アナリシスセットデータ作成情報登録部102mの処理により、表示領域MG−3に表示されたプロジェクトID、表示領域MG−4に表示されたアナリシスID、当該アナリシスIDに対応するアナリシスセットデータのサンプルIDおよび/またはSNPID、入力領域MG−6に入力された利用者のコメントデータのうち少なくとも一つを含むアナリシスセットデータ作成情報を作成し、アナリシスセットデータ作成情報ファイル106eの所定の領域に格納する。
【0212】
なお、当該作成されたアナリシスセットデータ作成情報と当該アナリシスセットデータとを1対1でリンクさせてもよい。
【0213】
これにて、「1−5.アナリシスセットデータ作成情報登録」の説明を終了する。
【0214】
以上、「1.メイン処理」の説明を終了する。
【0215】
(4.アナリシスセットデータ検索)
次に、既に登録したアナリシスセットを検索するためのアナリシスセットデータ検索処理について、図14等を参照して説明する。
【0216】
図14は、本実施形態における本システムのアナリシスセットデータ検索処理の一例を示すフローチャートである。まず、アナリシスセットデータ作成装置100は、アナリシスセットデータ検索部102eの処理により、予め利用者により設定されたプロジェクトID、アナリシスID、サンプルIDの範囲、SNPIDの範囲、利用者のコメントデータのうち少なくとも一つに基づいて、アナリシスセットデータベース106eに対して、すでに登録されているアナリシスセットデータを検索する(ステップSD−1)。
【0217】
これにて、「4.アナリシスセットデータ検索」の説明を終了する。
【0218】
(5.アナリシスセットデータ登録状況一覧表示)
次に、検索された既に登録済みのアナリシスセットデータを、作成元となるSNPサンプルデータの集合とともに、一覧表示するためのアナリシスセットデータ登録状況一覧表示処理について、図15、図32等を参照して説明する。
【0219】
図15は、本実施形態における本システムのアナリシスセットデータ登録状況一覧表示処理の一例を示すフローチャートである。まず、アナリシスセットデータ作成装置100は、アナリシスセットデータ登録状況一覧表示部102fの処理により、ステップSD−1にて検索されたアナリシスセットデータの作成元となるSNPサンプルデータの集合を、サンプルIDとSNPIDを2軸とする平面上に表示し、当該SNPサンプルデータの集合に含まれる各アナリシスセットデータを、指定されたサンプルIDとSNPIDの範囲に基づいて、色彩や模様などで区別して、当該平面上に重畳して表示する(ステップSE−1)。
【0220】
ここで、アナリシスセットデータ作成状況の一覧表示の一例を、図32等を参照して説明する。図32は、アナリシスセットデータ作成状況の一覧表示の一例を示す図である。この図に示すように、アナリシスセットデータの作成元となるSNPサンプルデータの集合を、サンプルIDとSNPIDを2軸とする平面上に表示し、当該SNPサンプルデータの集合に含まれる各アナリシスセットデータを、指定されたサンプルIDとSNPIDに基づいて、色彩や模様などで区別して、当該平面上に重畳して表示する。
【0221】
これにて、「5.アナリシスセットデータ登録状況一覧表示」の説明を終了する。
【0222】
(6.連鎖不平衡解析・疾患関連解析などのためのパラメータ登録)
次に、登録したアナリシスセットデータに対して、連鎖不平衡解析・疾患関連解析などのためのパラメータを登録するためのパラメータ登録について、図33、図34等を参照して説明する。
【0223】
図33は、モニタに表示されるパラメータ登録画面(その1)の一例を示す図である。また、図34は、モニタに表示されるパラメータ登録画面(その2)の一例を示す図である。図33、図34に示すように、例えば、アナリシスセットデータベース106dに格納された登録済みのアナリシスセットデータに、連鎖不平衡解析・疾患関連解析などのためのパラメータ(解析パラメータ)を登録することができる。
【0224】
なお、当該登録済みのアナリシスセットデータと当該解析パラメータとを1対多でリンクさせてもよい。
【0225】
これにて、「6.連鎖不平衡解析・疾患関連解析などのためのパラメータ登録」の説明を終了する。
【0226】
[他の実施の形態]
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
【0227】
例えば、アナリシスセットデータ作成装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、アナリシスセットデータ作成装置100とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。
【0228】
また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
【0229】
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
【0230】
また、アナリシスセットデータ作成装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
【0231】
例えば、アナリシスセットデータ作成装置100の各部または各装置が備える処理機能、特に制御部102にて行なわれる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じてアナリシスセットデータ作成装置100に機械的に読み取られる。
【0232】
すなわち、ROMまたはHDなどの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAM等にロードされることによって実行され、CPUと協働して制御部102を構成する。また、このコンピュータプログラムは、アナリシスセットデータ作成装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
【0233】
また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。
【0234】
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
【0235】
記憶部106に格納される各種のファイル等(SNPサンプルデータ集合データベース106a〜アナリシスセットデータ作成情報ファイル106e)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【0236】
また、アナリシスセットデータ作成装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
【0237】
さらに、アナリシスセットデータ作成装置100の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をCGI(Common Gateway Interface)を用いて実現してもよい。
【0238】
また、ネットワーク300は、アナリシスセットデータ作成装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、LAN(有線/無線の双方を含む)や、VANや、パソコン通信網や、公衆電話網(アナログ/デジタルの双方を含む)や、専用回線網(アナログ/デジタルの双方を含む)や、CATV網や、IMT2000方式、GSM方式またはPDC/PDC―P方式等の携帯回線交換網/携帯パケット交換網や、無線呼出網や、Bluetooth等の局所無線網や、PHS網や、CS、BSまたはISDB等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。
【0239】
【発明の効果】
以上詳細に説明したように、本発明によれば、SNPサンプルデータの集合の中からサンプルIDおよび/またはSNPIDを指定することにより、指定されたサンプルIDおよび/またはSNPIDに対応するSNPサンプルデータを抽出してテンポラリアナリシスセットデータを作成し、作成されたテンポラリアナリシスセットデータから、欠損を示す属性値を持つSNPサンプルデータである欠損データを除去し、欠損データが除去されたテンポラリアナリシスセットデータをアナリシスセットデータとして登録するので、テンポラリアナリシスセットデータの作成を自動で行うことができ、人為的なミスも少なく、ミスが発生した場合でも容易にテンポラリアナリシスセットデータの作成に戻ることができるアナリシスセットデータ作成装置、および、アナリシスセットデータ作成方法をコンピュータに実行させるプログラムを提供することができる。
【0240】
また、本発明によれば、テンポラリアナリシスセットデータ中に含まれる欠損データの除去を自動で行うことができ、欠損データの除去の時間を短縮でき、人為的なミスも少なくなくすることができるアナリシスセットデータ作成装置、および、アナリシスセットデータ作成方法をコンピュータに実行させるプログラムを提供することができる。
【0241】
また、本発明によれば、アナリシスセットデータの登録を自動で行うことができ、作業を効率的に進めることができるアナリシスセットデータ作成装置、および、アナリシスセットデータ作成方法をコンピュータに実行させるプログラムを提供することができる。
【0242】
また、本発明によれば、アナリシスセットデータを一意に識別するためのアナリシスID、サンプルIDおよび/またはSNPID、アナリシスセットデータの作成元となるSNPサンプルデータの集合を一意に識別するためのプロジェクトID、および、利用者のコメントデータのうち少なくとも一つを含むアナリシスセットデータ作成情報を登録するので、アナリシスセットデータ作成情報を自動で管理することができ、作業を効率的に進めることができるアナリシスセットデータ作成装置、および、アナリシスセットデータ作成方法をコンピュータに実行させるプログラムを提供することができる。
【0243】
また、本発明によれば、アナリシスセットデータ作成情報の登録をアナリシスセットデータの登録と同時に行うことができるアナリシスセットデータ作成装置、および、アナリシスセットデータ作成方法をコンピュータに実行させるプログラムを提供することができる。
【0244】
また、本発明によれば、作成されたテンポラリアナリシスセットデータから、欠損を示す属性値に基づいて、サンプルID、および/または、SNPID毎に欠損データを除去し、および/または、作成されたテンポラリアナリシスセットデータから、欠損を示す属性値を持つ欠損データが含まれていない率を示す欠損データ非含有率に基づいて、サンプルID、および/または、SNPID毎に欠損データを除去するので、欠損データの除去を自動で行うことができ、人為的なミスも少なく、効率的に欠損データの除去を進めることができるアナリシスセットデータ作成装置、および、アナリシスセットデータ作成方法をコンピュータに実行させるプログラムを提供することができる。
【0245】
また、本発明によれば、テンポラリアナリシスセットデータ中の各データの属性値に基づいて、色彩や模様などで区別して表示するので、各データの属性値を容易に確認することができるアナリシスセットデータ作成装置、および、アナリシスセットデータ作成方法をコンピュータに実行させるプログラムを提供することができる。
【0246】
また、本発明によれば、属性値がカテゴリカルな値の場合には属性値に基づいて、テンポラリアナリシスセットデータ中の各データを色彩や模様などで区別して表示する第1データ表示手段、属性値が数値の場合には数値をいくつかの閾値でカテゴリカルな値に変換し、変換された属性値に基づいて、テンポラリアナリシスセットデータ中の各データを色彩や模様などで区別して表示する第2データ表示手段、および、属性値が時系列な数値の場合には前後する時系列な数値の差をいくつかの閾値でカテゴリカルな値に変換し、変換された属性値に基づいて、テンポラリアナリシスセットデータ中の各データを色彩や模様などで区別して表示する第3データ表示手段のうち少なくとも一つの手段をさらに備えているので、カテゴリカルな値の属性値について各データの属性値を容易に確認することができるアナリシスセットデータ作成装置、および、アナリシスセットデータ作成方法をコンピュータに実行させるプログラムを提供することができる。
【0247】
また、本発明によれば、時系列な数値の属性値の場合にも、時系列データの値の推移を容易に確認することができるアナリシスセットデータ作成装置、および、アナリシスセットデータ作成方法をコンピュータに実行させるプログラムを提供することができる。
【0248】
また、本発明によれば、SNPサンプルデータの集合を、サンプルIDとSNPIDとを2軸とする平面上に表示し、アナリシスセットデータ毎に指定されたサンプルIDとSNPIDの範囲を区別して平面上に重畳して表示するので、SNPサンプルデータの集合に含まれる既存のアナリシスセットデータを一覧表示することができ、新たなアナリシスセットデータの作成を効率的に行うことができるアナリシスセットデータ作成装置、および、アナリシスセットデータ作成方法をコンピュータに実行させるプログラムを提供することができる。
【0249】
また、本発明によれば、SNPサンプルデータの集合に対する既存のアナリシスセットデータの位置や範囲を容易に確認することができ、新たなアナリシスセットデータの作成を効率的に行うことができるアナリシスセットデータ作成装置、および、アナリシスセットデータ作成方法をコンピュータに実行させるプログラムを提供することができる。
【0250】
さらに、本発明によれば、プロジェクトID、アナリシスID、サンプルIDの範囲、SNPIDの範囲、利用者のコメントデータのうち少なくとも一つに基づいて、既に登録されているアナリシスセットデータを検索するので、既存のアナリシスセットデータを容易に確認することができるアナリシスセットデータ作成装置、および、アナリシスセットデータ作成方法をコンピュータに実行させるプログラムを提供することができる。
【図面の簡単な説明】
【図1】本発明の基本原理を示す原理構成図である。
【図2】本発明が適用される本システムの構成の一例を示すブロック図である。
【図3】本発明が適用される本システムのテンポラリアナリシスセットデータ表示部102bの構成の一例を示すブロック図である。
【図4】本発明が適用される本システムの欠損データ除去部102cの構成の一例を示すブロック図である。
【図5】本発明が適用される本システムのアナリシスセットデータ登録部102dの構成の一例を示すブロック図である。
【図6】SNPサンプルデータ集合データベース106aに格納される情報の一例を示す図である。
【図7】テンポラリアナリシスセットデータファイル106bに格納される情報の一例を示す図である。
【図8】欠損データファイル106cに格納される情報の一例を示す図である。
【図9】アナリシスセットデータベース106dに格納される情報の一例を示す図である。
【図10】アナリシスセットデータ作成情報ファイル106eに格納される情報の一例を示す図である。
【図11】本実施形態における本システムのメイン処理の一例を示すフローチャートである。
【図12】本実施形態における本システムのテンポラリアナリシスセットデータ表示処理の一例を示すフローチャートである。
【図13】本実施形態における本システムの欠損データ除去処理の一例を示すフローチャートである。
【図14】本実施形態における本システムのアナリシスセットデータ検索処理の一例を示すフローチャートである。
【図15】本実施形態における本システムのアナリシスセットデータ登録状況一覧表示処理の一例を示すフローチャートである。
【図16】モニタに表示されるテンポラリアナリシスセットデータ作成画面の一例を示す図である。
【図17】SNPサンプルデータの集合の全範囲指定によるテンポラリアナリシスセットデータの作成の一例を示す図である。
【図18】SNPIDおよび/またはサンプルIDの指定によるテンポラリアナリシスセットデータの作成の一例を示す図である。
【図19】モニタに表示されるエラー通知画面の一例を示す図である。
【図20】モニタに表示される欠損データ除去画面の一例を示す図である。
【図21】テンポラリアナリシスセットデータの抽出の一例を示す図である。
【図22】属性値が時系列な数値の場合のテンポラリアナリシスセットデータ表示の一例を示す図である。
【図23】他の属性値の場合のテンポラリアナリシスセットデータ表示の一例を示す図である
【図24】欠損を示す属性値に基づく欠損データ除去(その1)の一例を示す図である。
【図25】欠損を示す属性値に基づく欠損データ除去(その2)の一例を示す図である。
【図26】欠損を示す属性値に基づく欠損データ除去(その3)の一例を示す図である。
【図27】欠損データ非含有率に基づく欠損データ除去(その1)の一例を示す図である。
【図28】欠損データ非含有率に基づく欠損データ除去(その2)の一例を示す図である。
【図29】欠損データが除去されたテンポラリアナリシスセットデータのファイル出力の一例を示す図である。
【図30】モニタに表示されるアナリシスセットデータ登録画面の一例を示す図である。
【図31】モニタに表示されるアナリシスセットデータ作成情報登録画面の一例を示す図である。
【図32】アナリシスセットデータ作成状況の一覧表示の一例を示す図である。
【図33】モニタに表示されるパラメータ登録画面(その1)の一例を示す図である。
【図34】モニタに表示されるパラメータ登録画面(その2)の一例を示す図である。
【符号の説明】
100 アナリシスセットデータ作成装置
102 制御部
102a テンポラリアナリシスセットデータ作成部
102b テンポラリアナリシスセットデータ表示部
102c 欠損データ除去部
102d アナリシスセットデータ登録部
102e アナリシスセットデータ検索部
102f アナリシスセットデータ登録状況一覧表示部
102g 第1データ表示部
102h 第2データ表示部
102i 第3データ表示部
102j 欠損属性値除去部
102k 欠損非含有率除去部
102m アナリシスセットデータ作成情報登録部
104 通信制御インターフェース部
106 記憶部
106a SNPサンプルデータ集合データベース
106b テンポラリアナリシスセットデータファイル
106c 欠損データファイル
106d アナリシスセットデータベース
106e アナリシスセットデータ作成情報ファイル
108 入出力制御インターフェース部
112 入力装置
114 出力装置
200 外部システム
300 ネットワーク
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an analysis set data creation apparatus and a program for causing a computer to execute an analysis set data creation method, and more particularly, to a set of SNP (single nucleotide polymorphism) sample data having various attribute values. An analysis set data creation device and a program for causing a computer to execute an analysis set data creation method capable of automatically creating analysis set data as a data set to be analyzed such as linkage disequilibrium analysis and disease-related analysis About.
[0002]
[Prior art]
Conventionally, when performing linkage disequilibrium analysis or disease-related analysis, a user manually selects a part to be analyzed from all SNP sample data, and analyzes the selected part in linkage disequilibrium analysis or disease-related analysis. (Temporary analysis set data).
[0003]
That is, the SNP ID and the sample ID are manually selected individually to create the temporary analysis set data.
[0004]
Specifically, for example, when performing linkage disequilibrium analysis or disease-related analysis, a subset of data created by a data analysis tool, an OLAP tool, or the like has been used as temporary analysis set data (for example, see Non-Patent Documents). 1).
[0005]
However, data extracted as temporary analysis set data contains a lot of missing data, and if linkage disequilibrium analysis or disease-related analysis is performed in a state where a lot of missing data is included, the analysis accuracy will deteriorate, The analysis result may be adversely affected (for example, see Non-Patent Documents 2 and 3).
[0006]
For this reason, missing data that is frequently included in the temporary analysis set data is manually removed before analysis, and the temporary analysis set data from which the missing data has been removed is set as analysis set data that is a unit for final analysis.
[0007]
Information such as what data the analysis set data is created from is also manually managed separately from the creation of the analysis set data.
[0008]
Furthermore, parameters for performing linkage disequilibrium analysis and disease-related analysis are also managed manually.
[0009]
[Non-patent document 1]
Internet <URL: http: // www. sas. com / offices / asiapacific / japan / software / base. html>
[Non-patent document 2]
Internet <URL: http: // www. spss. co. jp / product / ALL / analysis / >>
[Non-Patent Document 3]
Internet <URL: http: // www. spss. co. jp / product / DOWN / download / Missing. pdf>
[0010]
[Problems to be solved by the invention]
As described above, in the related art, since the temporary analysis set data, which is a part to be analyzed, is manually selected, there is a problem in that it is very complicated, takes time, and is inefficient.
[0011]
In addition, in the past, since the temporary analysis set data was manually selected, there was a problem that an artificial creation error was apt to occur, and if an error occurred, a rework operation had to be performed in the analysis stage. .
[0012]
Further, in the related art, since the operation of removing missing data included in the temporary analysis set data is also performed manually, there is a problem that the operation is complicated and time-consuming, and human error is likely to occur.
[0013]
In the past, information such as what data the analysis set data was created from was manually managed separately from the analysis set data creation, which was cumbersome, time-consuming, and caused human error. There is a problem that it is easy to do.
[0014]
Further, conventionally, there is a problem that the analysis set data already created cannot be efficiently searched and confirmed.
[0015]
Further, in the related art, there is a problem that, in the operation of removing missing data included in the temporary analysis set data, the operation of removing the missing data cannot be performed while displaying the temporary analysis set data.
[0016]
In addition, conventionally, when newly creating analysis set data, a list of already created analysis set data could not be displayed, so that there is a problem that the analysis set data cannot be efficiently created.
[0017]
The present invention has been made in view of the above problems, and automatically sets an analysis set data, which is a data set to be analyzed such as linkage disequilibrium analysis or disease-related analysis, from a set of SNP sample data having various attribute values. It is an object of the present invention to provide an analysis set data creation apparatus and a program that allows a computer to execute an analysis set data creation method.
[0018]
[Means for Solving the Problems]
In order to achieve such an object, the analysis set data generating apparatus according to claim 1 is a data set to be analyzed such as linkage disequilibrium analysis or disease-related analysis from a set of SNP sample data having various attribute values. An analysis set data creating apparatus for creating the analysis set data, wherein the sample ID and / or the SNP ID are designated by designating a sample ID and / or SNP ID from the set of SNP sample data. A temporary analysis set data creating means for extracting the SNP sample data corresponding to the temporary analysis set data, and an attribute value indicating a defect from the temporary analysis set data created by the temporary analysis set data creating means. Missing data removing means for removing missing data, which is the SNP sample data, and analysis set data registering means for registering the temporary analysis set data from which the missing data has been removed by the missing data removing means as the analysis set data. It is characterized by having.
[0019]
According to this device, by designating the sample ID and / or SNPID from the set of SNP sample data, the SNP sample data corresponding to the designated sample ID and / or SNPID is extracted and the temporary analysis set data is extracted. Since the missing data, which is the SNP sample data having the attribute value indicating the missing data, is deleted from the created temporary analysis set data, and the temporary data with the missing data removed is registered as the analysis set data, the temporary data is registered as the analysis set data. The generation of the analysis set data can be performed automatically, there are few human errors, and even if an error occurs, the process can easily return to the generation of the temporary analysis set data.
[0020]
In addition, it is possible to automatically remove the missing data included in the temporary analysis set data, so that the time for removing the missing data can be reduced, and human errors can be reduced.
[0021]
Further, the registration of the analysis set data can be automatically performed, and the work can proceed efficiently.
[0022]
The analysis set data creating device according to claim 2 is the analysis set data creating device according to claim 1, wherein the analysis set data registering means includes an analysis ID for uniquely identifying the analysis set data; An analysis set including at least one of the sample ID and / or the SNP ID, a project ID for uniquely identifying a set of the SNP sample data from which the analysis set data is created, and user comment data Analysis set data creation information registration means for registering data creation information is further provided.
[0023]
This shows an example of the analysis set data registration means more specifically. According to this apparatus, an analysis ID, a sample ID and / or a SNP ID for uniquely identifying the analysis set data, a project ID for uniquely identifying a set of SNP sample data from which the analysis set data is created, and Since the analysis set data creation information including at least one of the user's comment data is registered, the analysis set data creation information can be automatically managed, and the work can proceed efficiently.
[0024]
Further, the registration of the analysis set data creation information can be performed simultaneously with the registration of the analysis set data.
[0025]
According to a third aspect of the present invention, there is provided the analysis set data creating apparatus according to the first or second aspect, wherein the missing data removing unit is configured to store the temporary data created by the temporary analysis set data creating unit. A missing attribute value removing unit that removes the missing data for each of the sample ID and / or the SNPID based on the attribute value indicating the missing from the analysis set data, and / or a temporary analysis set data creating unit Based on the missing data non-content rate indicating the rate at which missing data having the attribute value indicating the missing is not included, from the temporary analysis set data created by the above, for each of the sample ID and / or the SNP ID, The missing data to remove the above missing data And further comprising a Yuritsu removal means.
[0026]
This shows one example of the missing data removing means more specifically. According to this apparatus, the missing data is removed from the created temporary analytic set data for each sample ID and / or SNPID based on the attribute value indicating the missing, and / or the created temporary analytic set is created. Since missing data is removed for each sample ID and / or SNPID based on the missing data non-content rate indicating the rate at which missing data having an attribute value indicating missing is not included in the data, the removal of the missing data Can be performed automatically, there are few human errors, and the removal of missing data can be advanced efficiently.
[0027]
According to a fourth aspect of the present invention, there is provided the analysis set data creating apparatus according to any one of the first to third aspects, wherein the analysis set data creating apparatus is based on the attribute value of each data in the temporary analysis set data. And a temporary analysis set data display means for displaying the data separately.
[0028]
According to this device, the attribute values of each data in the temporary analysis set data are distinguished and displayed by colors and patterns, so that the attribute values of each data can be easily confirmed.
[0029]
According to a fifth aspect of the present invention, in the analysis set data creating apparatus according to the fourth aspect, the temporary analysis set data display means is configured to execute the analysis set data when the attribute value is a categorical value. First data display means for distinguishing and displaying each data in the temporary analysis set data based on the attribute value, and when the attribute value is a numerical value, converting the numerical value into a categorical value by some threshold value Second data display means for displaying each data in the temporary analysis set data based on the converted attribute value, and when the attribute value is a time-series numerical value, Is converted to a categorical value with some thresholds, and based on the converted attribute values, the temporary Characterized in that it further comprises at least one means of the third data display means for displaying to distinguish each data in the cis set data.
[0030]
This more specifically shows an example of the temporary analysis set data display means. According to this device, when the attribute value is a categorical value, the first data display means for displaying each data in the temporary analysis set data in a color, a pattern, or the like based on the attribute value, wherein the attribute value is In the case of a numerical value, the numerical value is converted into a categorical value with some threshold values, and based on the converted attribute value, the second data for displaying each data in the temporary analysis set data in a color, a pattern, and the like. Display means, and, if the attribute value is a time-series numerical value, convert the difference between the preceding and following time-series numerical values into a categorical value with some thresholds, and based on the converted attribute value, a temporary analysis set. Since it further includes at least one of the third data display means for displaying each data in the data by distinguishing them by color, pattern, etc., the attribute of the categorical value is provided. The attribute value of each data can be easily checked for.
[0031]
Further, even in the case of a time-series numeric attribute value, the transition of the value of the time-series data can be easily confirmed.
[0032]
The analysis set data creating device according to claim 6 is the analysis set data creating device according to any one of claims 1 to 5, wherein the set of the SNP sample data is obtained by combining the sample ID and the SNP ID with each other. Is displayed on a plane having two axes, and the range of the sample ID and the SNP ID specified for each of the analysis set data is distinguished from each other, and the analysis set data registration status list display means is displayed in a superimposed manner on the plane. It is characterized by having.
[0033]
According to this device, a set of SNP sample data is displayed on a plane having two axes of the sample ID and the SNPID, and the range of the sample ID and the SNPID designated for each analysis set data is distinguished and superimposed on the plane. Thus, the existing analysis set data included in the set of SNP sample data can be displayed in a list, and new analysis set data can be efficiently created.
[0034]
Further, the position and range of the existing analysis set data with respect to the set of SNP sample data can be easily confirmed, and new analysis set data can be efficiently created.
[0035]
According to a seventh aspect of the present invention, there is provided the analysis set data creating apparatus according to any one of the first to sixth aspects, wherein the project ID, the analysis ID, the range of the sample ID, An analysis set data search means for searching the registered analysis set data based on at least one of the SNPID range and the user comment data is further provided.
[0036]
According to this device, the already registered analysis set data is searched based on at least one of the project ID, the analysis ID, the range of the sample ID, the range of the SNP ID, and the comment data of the user. Analysis set data can be easily confirmed.
[0037]
Further, the present invention relates to a program, and the program according to claim 8 is a data set to be analyzed such as linkage disequilibrium analysis or disease-related analysis from a set of SNP sample data having various attribute values. A program for causing a computer to execute an analysis set data creating method for creating analysis set data, wherein the sample ID and / or the SNP ID is designated from a set of the SNP sample data, whereby the designated sample ID and And / or extracting the SNP sample data corresponding to the SNPID to create temporary analytic set data, and the temporary analytic set data creating step created by the temporary analytic set data creating step. A missing data removing step of removing missing data, which is the SNP sample data having an attribute value indicating a missing value, from the set data, and analyzing the temporary analysis set data from which the missing data has been removed by the missing data removing step. Analysis set data registration step of registering as set data.
[0038]
According to this program, by specifying a sample ID and / or SNPID from a set of SNP sample data, the SNP sample data corresponding to the specified sample ID and / or SNPID is extracted, and the temporary analysis set data is extracted. Since the missing data, which is the SNP sample data having the attribute value indicating the missing data, is deleted from the created temporary analysis set data, and the temporary data with the missing data removed is registered as the analysis set data, the temporary data is registered as the analysis set data. The generation of the analysis set data can be performed automatically, there are few human errors, and even if an error occurs, the process can easily return to the generation of the temporary analysis set data.
[0039]
According to a ninth aspect of the present invention, in the program according to the eighth aspect, the step of registering the analysis set data includes the analysis ID, the sample ID, and / or the SNP ID for uniquely identifying the analysis set data. An analysis set for registering analysis set data creation information including at least one of a project ID for uniquely identifying a set of the SNP sample data from which the analysis set data is created, and user comment data It is characterized by further including a data creation information registration step.
[0040]
This shows one example of the analysis set data registration step more specifically. According to this program, an analysis ID, a sample ID and / or a SNP ID for uniquely identifying the analysis set data, a project ID for uniquely identifying a set of SNP sample data from which the analysis set data is created, and Since the analysis set data creation information including at least one of the user's comment data is registered, the analysis set data creation information can be automatically managed, and the work can proceed efficiently.
[0041]
Further, the registration of the analysis set data creation information can be performed simultaneously with the registration of the analysis set data.
[0042]
A program according to a tenth aspect of the present invention is the program according to the eighth or ninth aspect, wherein the step of removing missing data includes the step of removing the missing from the temporary analysis set data created by the temporary analysis set creating step. The missing attribute value removing step of removing the missing data for each of the sample ID and / or the SNPID based on the attribute value indicated, and / or the temporary analysis set created by the temporary analysis set data creating step From the data, based on the missing data non-content rate indicating a rate at which missing data having the attribute value indicating the missing is not included, the missing data for removing the missing data for each of the sample ID and / or the SNP ID is used. A content removal step. Characterized in that it comprises in.
[0043]
This shows one example of the missing data removing step more specifically. According to this program, missing data is removed for each sample ID and / or SNPID from the created temporary analytic set data based on the attribute value indicating the missing, and / or the created temporary analytic set is created. Since missing data is removed for each sample ID and / or SNPID based on the missing data non-content rate indicating the rate at which missing data having an attribute value indicating missing is not included in the data, the removal of the missing data Can be performed automatically, there are few human errors, and the removal of missing data can be advanced efficiently.
[0044]
The program according to claim 11 is the program according to any one of claims 8 to 10, wherein the temporary analysis is performed based on the attribute value of each data in the temporary analysis set data. The method further includes a set data display step.
[0045]
According to this program, the attribute values of each data in the temporary analysis set data are displayed by being distinguished by colors, patterns, and the like, so that the attribute values of each data can be easily confirmed.
[0046]
In a twelfth aspect of the present invention, in the program according to the eleventh aspect, when the attribute value is a categorical value, the step of displaying the temporary analytic set data is performed based on the temporary value based on the attribute value. A first data display step of displaying each data in the analysis set data in a distinguished manner, wherein when the attribute value is a numerical value, the numerical value is converted into a categorical value by some threshold value, and the converted attribute value is converted to a categorical value. A second data display step of distinguishing and displaying each data in the temporary analysis set data on the basis of the data, and when the attribute value is a time-series numerical value, a difference between the preceding and following time-series numerical values is determined by some number. Converted to a categorical value with a threshold, and based on the converted attribute value, each of the temporary analysis set data Further characterized in that it comprises at least one step of the third data display step of displaying to distinguish over data.
[0047]
This more specifically shows one example of the temporary analysis set data display step. According to this program, when the attribute value is a categorical value, the first data display step of displaying each data in the temporary analysis set data by color or pattern based on the attribute value, In the case of a numerical value, the numerical value is converted into a categorical value with some threshold values, and based on the converted attribute value, the second data for displaying each data in the temporary analysis set data in a color, a pattern, and the like. The display step, and when the attribute value is a time-series numerical value, converts a difference between the preceding and following time-series numerical values into a categorical value with some threshold values, and based on the converted attribute value, a temporary analysis set. Since the method further includes at least one of the third data display steps of displaying each data in the data by distinguishing them by color, pattern, or the like, the category Can be the attribute values of the local values confirm the attribute values of each data easily.
[0048]
Further, even in the case of a time-series numeric attribute value, the transition of the value of the time-series data can be easily confirmed.
[0049]
A program according to claim 13 is the program according to any one of claims 8 to 12, wherein the set of SNP sample data is placed on a plane having the sample ID and the SNPID as two axes. An analysis set data registration status list display step of displaying and analyzing the set of the sample ID and the SNP ID specified for each of the analysis set data and superimposing the sample ID and the SNP ID on the plane is also provided.
[0050]
According to this program, a set of SNP sample data is displayed on a plane having two axes of the sample ID and the SNPID, and the range of the sample ID and the SNPID designated for each analysis set data is distinguished and superimposed on the plane. Thus, the existing analysis set data included in the set of SNP sample data can be displayed in a list, and new analysis set data can be efficiently created.
[0051]
Further, the position and range of the existing analysis set data with respect to the set of SNP sample data can be easily confirmed, and new analysis set data can be efficiently created.
[0052]
A program according to claim 14 is the program according to any one of claims 8 to 13, wherein the project ID, the analysis ID, the sample ID range, the SNP ID range, and the user The method further includes an analysis set data search step of searching for the analysis set data already registered based on at least one of the comment data.
[0053]
According to this program, the already registered analysis set data is searched based on at least one of the project ID, the analysis ID, the range of the sample ID, the range of the SNP ID, and the comment data of the user. Analysis set data can be easily confirmed.
[0054]
In addition, it is possible to automatically remove the missing data included in the temporary analysis set data, so that the time for removing the missing data can be reduced, and human errors can be reduced.
[0055]
Further, the registration of the analysis set data can be automatically performed, and the work can proceed efficiently.
[0056]
Further, the present invention relates to a recording medium, and the recording medium of the present invention is characterized by recording the program according to any one of claims 8 to 14.
[0057]
According to this recording medium, a program recorded in the recording medium is read by a computer and executed, thereby realizing the program described in any one of claims 8 to 14 using a computer. And the same effect as each of these methods can be obtained.
[0058]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, an embodiment of a program for causing a computer to execute an analysis set data creation apparatus and an analysis set data creation method according to the present invention will be described in detail with reference to the drawings. It should be noted that the present invention is not limited by the embodiment.
[0059]
[Summary of the present invention]
Hereinafter, the outline of the present invention will be described, and then the configuration, processing, and the like of the present invention will be described in detail. FIG. 1 is a principle configuration diagram showing the basic principle of the present invention.
The present invention generally has the following basic features. That is, the present invention first allows the user to specify a sample ID and / or SNPID for a set of SNP sample data, thereby extracting the specified SNP sample data and converting the temporary analysis set data into a set. It is created (step S-1).
[0060]
Here, the extraction of the temporary analysis set data will be described with reference to FIG.
[0061]
FIG. 21 is a diagram illustrating an example of extraction of temporary analysis set data.
[0062]
As shown in this figure, for a set of SNP sample data, selected SNP sample data is extracted and stored as temporary analysis set data.
[0063]
Returning to FIG. 1 again, based on the attribute value of each data in the temporary analysis set data, each data is distinguished and displayed by a color or a pattern (step S-2).
[0064]
If the attribute value is a categorical value, each data in the temporary analysis set data may be displayed in a different color or pattern based on the attribute value.
[0065]
If the attribute value is a numerical value, the numerical value is converted into a categorical value by some threshold value, and each data in the temporary analysis set data is converted into a color, a pattern, or the like based on the converted attribute value. May be displayed separately.
[0066]
Further, when the attribute value is a time-series numerical value, the difference between the preceding and following time-series numerical values is converted into a categorical value with some thresholds, and the temporary analysis set data is converted based on the converted attribute value. Each of the data inside may be displayed with a distinction in color, pattern, or the like.
[0067]
Next, the missing data, which is the SNP sample data having the attribute value indicating the missing, is removed from the temporary analysis set data (step S-3).
[0068]
Note that the missing data may be removed from the temporary analysis set data for each sample ID and / or SNPID based on the attribute value indicating the missing.
[0069]
Further, from the temporary analysis set data, the missing data may be removed for each sample ID and / or SNPID based on the missing data non-content rate indicating the rate at which the attribute value indicating the missing is not included.
[0070]
After removing the missing data, for example, the temporary analysis set data from which the missing data has been removed may be output to a file and stored in a web server.
[0071]
Next, the temporary analysis set data from which the missing data has been removed is registered as an analysis set data with an analysis ID (step S-4).
[0072]
At the same time as the registration of the analysis set data, at least one of the analysis ID of the analysis set data, the sample ID and / or SNP ID of the analysis set data, the project ID of the set of SNP sample data to be created, and the comment data of the user Analysis set data creation information including one (the analysis set data may be linked one-to-one) may be registered (step S-5).
[0073]
Further, the comment data of the user may be, for example, character data, audio data, image data, or the like.
[0074]
Here, based on at least one of the project ID, the analysis ID, the range of the sample ID, the range of the SNP ID, and the comment data of the user, the analysis set data that has already been registered can be searched.
[0075]
Further, a set of SNP sample data from which the searched analysis set data is created is displayed on a plane having two axes of the sample ID and the SNPID, and each analysis set data included in the set of the SNP sample data is displayed. Based on the range of the designated sample ID and SNPID, the list can be displayed by being superimposed on the plane while being distinguished by color or pattern.
[0076]
If the analysis set data has already been registered, the search and / or list display of the already registered analysis set data can be performed independently of the creation of the analysis set data. As a result, the range of the sample ID and / or SNPID of the existing analysis set data can be confirmed, and can be used as a reference when newly creating the analysis set data.
[0077]
Further, parameters (analysis parameters) for linkage disequilibrium analysis, disease-related analysis, and the like can be registered in the registered analysis set data (step S-6).
[0078]
Note that the analysis set data and the analysis parameters may be linked one-to-many.
[0079]
[System configuration]
First, the configuration of the present system will be described. FIG. 2 is a block diagram showing an example of the configuration of the present system to which the present invention is applied, and conceptually shows only those parts of the configuration related to the present invention.
[0080]
This system is an analysis set data creating apparatus 100 that creates analysis set data, which is a data set to be analyzed such as linkage disequilibrium analysis or disease-related analysis, from a set of SNP sample data having various attribute values. And an external system 200 that provides an external database and various external programs for SNP information and the like, and is communicably connected via a network 300.
[0081]
2, a network 300 has a function of interconnecting the analysis set data creating apparatus 100 and the external system 200, and is, for example, the Internet.
[0082]
In FIG. 2, an external system 200 is mutually connected to an analysis set data creating apparatus 100 via a network 300, and provides a user with an external database relating to SNP information and the like and a website for executing various external programs. It has a function to do.
[0083]
Here, the external system 200 may be configured as a WEB server, an ASP server, or the like, and its hardware configuration may be configured by an information processing device such as a generally-available workstation, a personal computer, and its accompanying devices. Good. Each function of the external system 200 is realized by a CPU, a disk device, a memory device, an input device, an output device, a communication control device, and the like in a hardware configuration of the external system 200, a program for controlling them, and the like.
[0084]
In FIG. 2, the analysis set data creation device 100 schematically includes a control unit 102 such as a CPU that comprehensively controls the entire analysis set data creation device 100 and a communication device such as a router connected to a communication line or the like. (Not shown), an input / output control interface unit 108 connected to the input device 112 and the output device 114, and a storage unit 106 for storing various databases and files. These units are communicably connected via an arbitrary communication path. Further, the analysis set data creating apparatus 100 is communicably connected to the network 300 via a communication device such as a router and a wired or wireless communication line such as a dedicated line.
[0085]
Various databases, tables, and files (SNP sample data collection database 106a to analysis set data creation information file 106e) stored in the storage unit 106 in FIG. 2 are storage means such as a fixed disk device, and are used for various processes. It stores programs, tables, files, databases, files for web pages, and the like.
[0086]
Among the components of the storage unit 106, the SNP sample data set database 106a is a SNP sample data set storage unit that stores a set of SNP sample data. Here, the SNP sample data set database 106a may be an external SNP sample data set database or the like accessed via the Internet, or may be created by copying these databases or storing original SNP information. An in-house database or the like may be used.
[0087]
FIG. 6 is a diagram illustrating an example of information stored in the SNP sample data set database 106a. As shown in FIG. 6, the information stored in the SNP sample data set database 106a includes a project ID for uniquely identifying each set of SNP sample data, and a sample ID for uniquely identifying each sample. The SNP ID for uniquely identifying each SNP and the attribute value (for example, deletion, genotype, phenotype, etc.) of each SNP are associated with each other.
[0088]
In addition, the temporary analysis set data file 106b is a temporary analysis set data storage unit that stores the temporary analysis set data.
[0089]
FIG. 7 is a diagram illustrating an example of information stored in the temporary analysis set data file 106b. As shown in FIG. 7, the information stored in the temporary analysis set data file 106b includes the project ID of the set of SNP sample data from which the temporary analysis set data was created, and the sample ID for uniquely identifying each sample. The SNP ID for uniquely identifying each SNP and the attribute value (for example, deletion, genotype, phenotype, etc.) of each SNP are associated with each other.
[0090]
The missing data file 106c is a missing data storage unit that stores missing data to be removed from the temporary analysis set data.
[0091]
FIG. 8 is a diagram illustrating an example of information stored in the missing data file 106c. As shown in FIG. 8, information stored in the missing data file 106c includes a project ID of a set of SNP sample data from which the temporary analysis set data is created, a sample ID for uniquely identifying each sample, and The SNPID of each missing data is associated with each other.
[0092]
The analysis set database 106d is an analysis set data storage unit that stores temporary analysis set data obtained by removing missing data from the temporary analysis set data as analysis set data.
[0093]
FIG. 9 is a diagram illustrating an example of information stored in the analysis set database 106d. As shown in FIG. 9, the information stored in the analysis set database 106d includes a project ID of a set of SNP sample data from which temporary analysis set data corresponding to the analysis set data is created, and uniquely identifies each analysis set data. Analysis ID, sample ID for uniquely identifying each sample, SNPID for uniquely identifying each SNP, and attribute values of each SNP (eg, deletion, genotype, phenotype, etc.) Are associated with each other.
[0094]
The analysis set data creation information file 106e is an analysis set data creation information storage unit that stores information related to the analysis set data creation corresponding to the analysis set data.
[0095]
FIG. 10 is a diagram illustrating an example of information stored in the analysis set data creation information file 106e. As shown in FIG. 10, the information stored in the analysis set data creation information file 106e includes the project ID of the set of SNP sample data from which the analysis set data was created corresponding to the analysis set data creation information, and the analysis set data. The analysis ID of the analysis set data corresponding to the creation information, the sample ID of the analysis set data corresponding to the analysis set data creation information, the SNP ID of the analysis set data corresponding to the analysis set data creation information, and the comment data of the user. Are associated with each other.
[0096]
In FIG. 2, the communication control interface unit 104 controls communication between the analysis set data creating device 100 and the network 300 (or a communication device such as a router). That is, the communication control interface unit 104 has a function of communicating data with another terminal via a communication line.
[0097]
2, the input / output control interface unit 108 controls the input device 112 and the output device 114. Here, as the output device 114, in addition to a monitor (including a home television), a speaker can be used (in the following, the output device 114 may be described as a monitor). As the input device 112, a keyboard, a mouse, a microphone, and the like can be used. The monitor also realizes a pointing device function in cooperation with the mouse.
[0098]
2, the control unit 102 has a control program such as an OS (Operating System), a program defining various processing procedures and the like, and an internal memory for storing required data. And information processing for executing various processes. The control unit 102 conceptually includes a temporary analysis set data creation unit 102a, a temporary analysis set data display unit 102b, a missing data removal unit 102c, an analysis set data registration unit 102d, an analysis set data search unit 102e, and an analysis set data registration. It is configured to include a status list display section 102f.
[0099]
The temporary analysis set data creation unit 102a is a temporary analysis set data creation unit that creates temporary analysis set data from a set of SNP sample data based on a specified sample ID and / or SNPID.
[0100]
Further, the temporary analysis set data display unit 102b distinguishes each data in the temporary analysis set data by a color, a pattern, or the like based on an attribute value of each data in the temporary analysis set data, and displays the temporary analysis set data. It is a data display means. Here, as shown in FIG. 3, the temporary analysis set data display unit 102b further includes a first data display unit 102g, a second data display unit 102h, and a third data display unit 102i.
[0101]
FIG. 3 is a block diagram illustrating an example of a configuration of the temporary analysis set data display unit 102b of the present system to which the present invention is applied, and conceptually illustrates only a part related to the present invention in the configuration.
[0102]
In FIG. 3, if the attribute value of each data in the temporary analysis set data is a categorical value, the first data display unit 102g displays each data in the temporary analysis set data based on the attribute value. , And is a first data display means for distinguishing and displaying by color, pattern, or the like.
[0103]
When the attribute value of each data in the temporary analysis set data is a numerical value, the second data display unit 102h converts the numerical value into a categorical value with some thresholds, and converts the attribute value into the converted attribute value. This is a second data display means for distinguishing and displaying each data in the temporary analysis set data based on colors, patterns, and the like.
[0104]
Further, when the attribute value of each data in the temporary analysis set data is a time-series numerical value, the third data display unit 102i calculates the difference between the preceding and following time-series numerical values as a categorical value using some thresholds. The third data display means converts the data in the temporary analysis set data into colors and patterns based on the converted attribute values and displays the data.
[0105]
Returning to FIG. 2 again, the missing data removing unit 102c is a missing data removing unit that removes missing data having an attribute value indicating a missing from the temporary analysis set data. Here, as shown in FIG. 4, the missing data removing unit 102c further includes a missing attribute value removing unit 102j and a missing non-content rate removing unit 102k.
[0106]
FIG. 4 is a block diagram illustrating an example of the configuration of the missing data removing unit 102c of the present system to which the present invention is applied, and conceptually illustrates only a part related to the present invention in the configuration.
[0107]
In FIG. 4, the missing attribute value removing unit 102j is a missing attribute value removing unit that removes missing data in the temporary analysis set data based on an attribute value indicating a missing for each sample ID and / or SNPID.
[0108]
In addition, the defect non-content rate removing unit 102k performs, for each sample ID and / or SNP ID, the defect data in the temporary analysis set data based on the defect data non-content rate indicating the rate at which the attribute value indicating the defect is not included. Means for removing the defect-free ratio.
[0109]
Returning to FIG. 2 again, the analysis set data registration unit 102d registers the temporary analysis set data from which the missing data has been removed as an analysis set data with an analysis ID for uniquely identifying the analysis set data, and registers the analysis set data. This is set data registration means. Here, the analysis set data registration unit 102d further includes an analysis set data creation information registration unit 102m as shown in FIG.
[0110]
FIG. 5 is a block diagram illustrating an example of a configuration of the analysis set data registration unit 102d of the present system to which the present invention is applied, and conceptually illustrates only a part related to the present invention in the configuration.
[0111]
In FIG. 5, an analysis set data creation information registration unit 102m includes a project ID of a set of SNP sample data from which the analysis set data created in the processing of the analysis set data registration unit 102d is created, and an analysis of the analysis set data. An analysis set data creation information registration unit that registers analysis set data creation information including at least one of an ID, a sample ID and / or SNP ID of the analysis set data, and user comment data.
[0112]
Returning to FIG. 2 again, the analysis set data search unit 102e has already stored in the analysis set database 106d based on at least one of the project ID, the analysis ID, the range of the sample ID, the range of the SNP ID, and the comment data of the user. Analysis set data searching means for searching the analyzed analysis set data.
[0113]
Further, the analysis set data registration status list display unit 102f displays the SNP as the source of the analysis set data on a plane having the sample ID and the SNPID as two axes based on the range of the sample ID and / or the SNPID. A set of sample data is displayed by being distinguished by a color, a pattern, or the like, and each registered analysis set data included in the set of the SNP sample data is classified into a color and a pattern based on a designated sample ID and a range of the SNP ID. This is an analysis set data registration status list display unit that is displayed by being superimposed on a plane on which the set of SNP sample data is displayed.
The details of the processing performed by these units will be described later.
[0114]
[System processing]
Next, an example of the processing of the present system configured as described above according to the present embodiment will be described in detail below with reference to FIGS.
[0115]
(1. Main processing)
First, details of the main processing will be described with reference to FIG. FIG. 11 is a flowchart illustrating an example of main processing of the present system in the present embodiment.
[0116]
First, the analysis set data creating apparatus 100 specifies the sample ID and / or the SNP ID and the project ID for the SNP sample data set database 106a by the processing of the temporary analysis set data creating unit 102a, and Temporary analysis set data is extracted from a set of corresponding SNP sample data based on the specified sample ID and / or the SNP ID and stored in a predetermined area of the temporary analysis set data file 106b (step SA). -1).
[0117]
Hereinafter, the creation of the temporary analysis set data will be described in detail with reference to FIG.
[0118]
(1-1. Creation of temporary analysis set data)
FIG. 16 is a diagram illustrating an example of a temporary analysis set data creation screen displayed on the monitor. As shown in this drawing, the temporary analysis set data creation screen includes, for example, a selection area MA-1 for switching to a temporary analysis set data creation screen and a selection area MA- for switching to a screen for registering an analysis ID. 2, a selection area MA-3 for switching to a screen for setting various parameters used for linkage disequilibrium analysis, disease-related analysis, and the like, and a search for already registered analysis set data, and a creation source SNP sample A selection area MA-4 for switching to a screen for displaying a list together with a set of data, an input area MA-5 for a project ID, and a set of SNP sample data corresponding to the project ID input to the input area MA-5 Instructs the entire range to be temporary analysis set data. Check area MA-6, an input area MA-7-1 for inputting the SNPID, an erase button MA-7-2 for deleting the SNPID input to the input area MA-7-1, and an input. A selection button group MA-7-3 for selecting whether the SNP ID to be input to the area MA-7-1 is separated by a return key or a tab key, and an input area MA-8 for inputting a sample ID. -1; a delete button MA-8-2 for deleting the sample ID input to the input area MA-8-1; and a sample ID input to the input area MA-8-1 separated by a return key. Alternatively, a selection button group MA-8-3 for selecting whether to delimit with the tab key, and confirming an error in the input data before creating the temporary analytics set data, and then checking the temporary analytics data. A selection button group MA-9 for selecting whether to create the set data or to create the temporary analysis set data without confirming an error in the input data, and instruct the execution of the creation of the temporary analysis set data And an execution button MA-10 for performing the operation.
[0119]
Here, with reference to FIG. 16 and the like, operations from data input to the temporary analytic set data creation screen to an instruction to start the creation of temporary analytic set data will be specifically described.
[0120]
(1-1-1. Instruction to start data input and creation of temporary analysis set data)
First, the user pre-stores the temporary analytic set data creation screen (see FIG. 16) previously output to the output device 114 in the SNP sample data set database 106a which is the source of the temporary analytic set data. The project ID of the set of SNP sample data is input to the input area MA-5 via the input device 112.
[0121]
Next, when the entire range of the set of the SNP sample data corresponding to the project ID input to the input area MA-5 is to be set as the temporary analysis set data, the user needs to input the data through the input device 112 as shown in FIG. Then, the user checks the check area MA-6, selects one of the selection button groups MA-9, and presses the execution button MA-10.
[0122]
In addition, when the SNP ID and / or the sample ID is specified for the set of the SNP sample data corresponding to the project ID and the temporary analysis set data is desired, the user needs to enter the input device 112 as shown in FIG. , Select one of the selection button groups MA-7-3, input an SNPID in the input area MA-7-1, and / or press one of the selection button groups MA-8-3. Select and input the sample ID in the input area MA-8-1, select one of the selection button groups MA-9, and press the execution button MA-10.
[0123]
(1-1-2. Check of input data)
Next, when the execution button MA-10 is pressed by the user, the analysis set data creating apparatus 100 causes the temporary analysis set data creating unit 102a to process the SNP sample data set database 106a into the input area MA-5. A set of SNP sample data corresponding to the input project ID is searched.
[0124]
Next, when a set of SNP sample data corresponding to the project ID input to the input area MA-5 is searched, the analysis set data creating apparatus 100 performs processing of the temporary analysis set data creating unit 102a to check the check area MA-data. If there is no check in 6, it is checked whether there is an error in the sample ID input to the input area MA-8-1 and / or the SNPID input in the input area MA-7-1.
[0125]
If a set of SNP sample data corresponding to the project ID input to the input area MA-5 is not found, or the check area MA-6 is not checked and the set is input to the input area MA-8-1, When it is checked that there is an error in the sample ID and / or the SNPID input to the input area MA-7-1, the analysis set data creating apparatus 100 provides the user with the processing of the temporary analysis set data creating unit 102a. An error notification screen, which is a screen for notifying an error, is created and output to the output device 114. Here, an example of the error notification screen will be described with reference to FIG.
[0126]
FIG. 19 is a diagram illustrating an example of an error notification screen displayed on the monitor. As shown in this figure, the error notification screen includes, for example, a display area MB-1 for displaying a check result, a display area MB-2 for displaying error details in detail, and a temporary analysis set data creation screen. And a return button MB-3 for returning to. Note that this figure is an example of an error notification screen when notifying an error that an invalid project ID has been input.
[0127]
(1-1-3. Temporary analysis set data creation processing)
Returning to FIG. 16 again, when there is no error in the input information, the analysis set data creating apparatus 100 performs the processing of the temporary analysis set data creating unit 102a to input the check state of the check area MA-6 and the input area MA-5. From the SNP sample data set database 106a to the project ID based on the input project ID, the sample ID input to the input area MA-8-1, and / or the SNP ID input to the input area MA-7-1. Reference the corresponding set of SNP sample data.
[0128]
Next, when there is no check in the check area MA-6, the analysis set data creating apparatus 100 is input to the input area MA-8-1 from the set of the SNP sample data by the processing of the temporary analysis set data creating unit 102a. A set of sample IDs and / or a set of SNP sample data corresponding to the SNP ID input to the input area MA-7-1 is copied.
[0129]
When the check area MA-6 is checked, the analysis set data creating apparatus 100 copies the entire range of the set of the SNP sample data by the processing of the temporary analysis set data creating unit 102a.
[0130]
Next, the analysis set data creating apparatus 100 stores the set of the copied SNP sample data as temporary analysis set data in a predetermined area of the temporary analysis set data file 106b by the processing of the temporary analysis set data creating unit 102a. .
[0131]
This concludes the description of “1-1. Creating Temporary Analysis Set Data”.
[0132]
Returning to FIG. 11 again, the analysis set data creating apparatus 100 performs the processing of the temporary analysis set data display unit 102b based on the attribute values of each data in the temporary analysis set data extracted in step SA-1. Each data is displayed by being distinguished by color or pattern (step SA-2).
[0133]
Hereinafter, the display of the temporary analysis set data will be described in detail.
[0134]
(1-2. Temporary analysis set data display)
[0135]
(1-2-1. Temporary analysis set data display processing)
First, the analysis set data creating apparatus 100 performs the processing (frequency) for each attribute value in the temporary analysis set data based on the attribute value of each data in the temporary analysis set data by the processing of the temporary analysis set data display unit 102b. Is calculated for each value).
[0136]
Next, the analysis set data creating apparatus 100 displays the calculated frequency for each attribute value by the processing of the temporary analysis set data display unit 102b in the area MC-2-4 of the missing data removal screen (see FIG. 20) described later. In the frequency display area.
[0137]
Next, the analysis set data creating apparatus 100 colors the respective data based on the attribute values of the respective data in the temporary analysis set data extracted in step SA-1 by the processing of the temporary analysis set data display unit 102b. The temporary analysis set data is displayed in a display area MC-1 of a missing data removal screen (see FIG. 20) described later on a plane having the sample ID and the SNPID as two axes, distinguished by a pattern or a pattern.
[0138]
Here, the details of the temporary analytic set data display processing performed in the temporary analytic set data display section 102b will be described with reference to FIG.
[0139]
(2. Details of Temporary Analysis Set Data Display Processing)
Here, the details of the temporary analysis set data display processing will be described with reference to FIG. FIG. 12 is a flowchart illustrating an example of a temporary analysis set data display process of the present system in the present embodiment.
[0140]
First, when the attribute value in step SA-2 is a categorical value, the temporary data set display unit 102b performs the temporary analysis in step SA-2 based on the attribute value by the processing of the first data display unit 102g. Each data in the set data is displayed in a display area MC-1 of a lost data removal screen (see FIG. 20) described later, distinguished by colors, patterns, and the like (step SB-1).
[0141]
Next, when the attribute value in step SA-2 is a numerical value, the temporary analysis set data display unit 102b converts the numerical value into a categorical value with some thresholds by the processing of the second data display unit 102h, and performs the conversion. Based on the attribute values obtained, each data in the temporary analysis set data in step SA-2 is displayed in a display area MC-1 of a missing data removal screen (see FIG. 20) described later by distinguishing the data by colors, patterns, and the like. (Step SB-2).
[0142]
Further, when the attribute value in step SA-2 is a time-series numerical value, the temporary analysis set data display unit 102b, by the processing of the third data display unit 102i, determines the difference between the preceding and following time-series numerical values by some threshold value. Is converted into categorical values, and based on the converted attribute values, each data in the temporary analysis set data in step SA-2 is distinguished by a color, a pattern, or the like, and a lost data removal screen (FIG. 20) (Refer to step SB-3).
[0143]
Specifically, for example, as shown in FIG. 22, for the temporal data of attribute values (for example, blood pressure time-series data), the temporary analysis set data display unit 102b displays the third data Through the processing of the display unit 102i, some thresholds are defined (for example, blood pressures 90 and 120 are defined as thresholds), and categorical values are defined using the defined thresholds as boundary values (for example, blood pressures below 90 are defined as thresholds). For example, a low blood pressure range, a blood pressure of 90 or more and less than 120 are defined as a medium blood pressure range, and a blood pressure of 120 or more is defined as a high blood pressure range.) And, when displaying the defined categorical values, a visual For example, a color, a pattern, and the like for defining the time series are defined (for example, a low blood pressure range is defined as blue, a middle blood pressure range is defined as yellow, and a high blood pressure range is defined as red). To convert numeric data to categorical values, displayed in the display area MC-1 described later missing data removing screen (see Figure 20).
[0144]
In the present embodiment, the temporary analytic set data display processing is used to display the temporary analytic set data. However, the present invention is not limited to such a case, and the SNP sample data (specifically, SNP ID, Data having the same quality as the sample ID and data composed of various attribute values), specifically, for example, a variable X, a variable Y, and a two-variable function F (two variables, the variable X and the variable Y). (X, Y) may be used to display data or the like.
[0145]
Further, in the present embodiment, the temporary analytic set data display processing is used following the temporary analytic set data creation processing.However, the present invention is not limited to such a case, and the temporary analytic set data display processing is used independently. You may.
[0146]
In the present embodiment, the method of distinguishing the attribute value of data is a method of distinguishing by the attribute value of the data itself when the attribute value of the data is categorical, and the method of distinguishing the attribute value of the data is categorical. If the value is not an appropriate value, a method is used in which the attribute value of the data is converted to a categorical value at some threshold value and distinguished by the attribute value of the converted data. May be used.
[0147]
Further, in the present embodiment, the method of distinguishing the attribute value of the data on the display is such that the attribute value of the data can be visually and uniquely identified on the display. Although a method of displaying the data in a manner corresponding to the above is used, the present invention is not limited to such a case, and a method of distinguishing the attribute values of the data on the display may be used.
[0148]
Further, for example, as shown in FIG. 23, in the temporary analysis set data display processing, data having similar contents in a plurality of attributes is rearranged by rearranging the order of samples, and the rearranged data is displayed and confirmed. It may be used for the purpose.
[0149]
Further, for example, the temporary-analysis set data display processing is based on the quantification theory 3 (for example, “http://www.bb.wakwak.com/bbird/statistics/analysis/hayashi.3. //Aoki2.si.gunma-u.ac.jp/lecture/Qt/qt3.html ”) may be used to display and confirm data.
[0150]
This concludes the description of “2. Details of Temporary Analysis Set Data Display Processing”.
[0151]
This is the end of the description of “1-2. Temporary analysis set data display”.
[0152]
Returning to FIG. 11 again, the analysis set data creating apparatus 100 removes missing data from the temporary analysis set data extracted in step SA-1 by the processing of the missing data removing unit 102c, and deletes the removed missing data. It is stored in a predetermined area of the data file 106c (step SA-3).
[0153]
Hereinafter, the removal of missing data from the temporary analysis set data will be described in detail with reference to FIG.
[0154]
(1-3. Removal of missing data from temporary analysis set data)
First, a missing data removal screen for removing missing data will be described with reference to FIG. FIG. 20 is a diagram illustrating an example of the missing data removal screen displayed on the monitor. As shown in this drawing, the missing data removal screen includes, for example, a display area MC-1 for displaying temporary analysis set data in a plane, and an SNP based on an attribute value indicating loss for each sample ID and / or SNP ID. A selection button MC-2-1 for selecting a “plot mode” for removing sample data, a list display selection area MC-2-2 for displaying a list of sample IDs and / or SNPIDs, and selecting the same; An input area MC-2-3 for inputting a sample ID and / or SNP ID to be performed, a frequency display area for displaying a frequency for each attribute value, a display area for displaying an attribute value, and a removal target. Area MC-2-4 composed of a check area for checking attribute values to be displayed, and list display selection area MC-2-2 Based on the information that is selected and displayed in the region MC-2-4, is configured to include a removal button MC-2-5 for instructing removal execution of SNP samples data from the temporary analysis set data.
[0155]
Subsequently, a selection button MC-3-1 for selecting a “percentage mode (SNPID)” for removing SNP sample data based on the missing data non-content rate for each SNPID, and an input area for inputting a threshold value MC-3-2, a display button MC-3-3 for displaying the temporary analysis set data in the display area MC-1 based on the threshold value input to the input area MC-3-2, and deletion of missing data Is performed, and a remove button MC-3-4 for instructing the execution of is performed.
[0156]
Subsequently, a selection button MC-4-1 for selecting “percentage mode (sample ID)” for removing SNP sample data based on the missing data non-content rate for each sample ID, and a threshold for inputting a threshold value An input area MC-4-2, a display button MC-4-3 for displaying the temporary analysis set data in the display area MC-1 based on the threshold value input to the input area MC-4-2, and a missing button It is configured to include a removal button MC-4-4 for instructing execution of data removal.
[0157]
Further, it is configured to include an output button MC-5 for outputting the temporary analytic set data from which the missing data has been removed to a file, and a reset button MC-6 for resetting the temporary analytic set data before removing the missing data. .
[0158]
(1-3-1. Mode selection)
First, the user selects the selected area MC-2-1, the selected area MC-3-1, and the selected area via the input device 112 on the missing data removal screen (see FIG. 20) output to the output device 114. Press any one selection button of MC-4-1.
[0159]
(1-3-1-1. "Plot mode")
FIG. 24 shows the removal of missing data based on the attribute value indicating the loss when the user selects the “plot mode” by pressing the selection button of the selection area MC-2-1 via the input device 112. Will be described with reference to FIG.
[0160]
First, in order to display only the attribute value to be removed in the display area MC-1, the user sets the attribute value to be removed in the check area of the area MC-2-4 via the input device 112. Check (see FIG. 24).
[0161]
Next, the analysis set data creating apparatus 100 performs the above-described temporary analysis set data display processing (“2. Temporary analysis”) based on the check state of the selection display area MC-2-4 by the processing of the temporary analysis set data display unit 102b. Details of the set data display process ”), and the temporary analysis set data is displayed again in the display area MC-1 (see FIG. 24).
[0162]
Next, the user clicks the SNP sample data to be confirmed in detail on the display area MC-1 via the input device 112 (see FIG. 25).
[0163]
Next, the analysis set data creating apparatus 100 enlarges and displays a certain range of SNP sample data including the clicked SNP sample data on the output device 114 by the processing of the temporary analysis set data display unit 102b (see FIG. 25). .
[0164]
Here, an example of loss data removal based on an attribute value indicating loss will be described with reference to FIG. 25 and the like. FIG. 25 is a diagram illustrating an example of loss data removal (part 2) based on an attribute value indicating a loss. As shown in this figure, the enlarged display screen (MD-1) of the SNP sample data includes, for example, a display area MD-2 for enlarging and displaying a certain range of SNP sample data including the clicked SNP sample data. And a display area MD-3 for displaying the SNP ID of the clicked SNP sample data and a display area MD-4 for displaying the sample ID of the clicked SNP sample data.
[0165]
Next, the user clicks the SNP sample data to be removed on the display area MD-2 via the input device 112 (see FIG. 25).
[0166]
Next, the analysis set data creating apparatus 100 displays the SNP ID and the sample ID of the clicked SNP sample data in the display area MD-3 and the display area MD-4 by the processing of the temporary analysis set data display unit 102b (FIG. 25).
[0167]
Next, the user copies the SNP ID displayed in the display area MD-3 and / or the sample ID displayed in the display area MD-4 via the input device 112, and inputs the copied data into the input area MC-2-3. (See FIG. 26).
[0168]
Next, the user selects from the list display selection area MC-2-2 whether to remove each SNP ID and / or sample ID via the input device 112 (see FIG. 26). FIG. 26 shows an example in which SNPID is selected.
[0169]
(In the case of 1-3-1-2. "Percentage mode (SNPID)")
Here, the loss data removal based on the loss data non-content rate when the user selects the “percentage mode (SNPID)” by pressing the selection button of the selection area MC-3-1 via the input device 112 , FIG. 27 and the like.
[0170]
First, the user inputs a threshold value of the missing data non-content rate to the input area MC-3-2 via the input device 112 (see FIG. 27).
[0171]
Next, the user operates the display button MC- via the input device 112 to display the temporary analysis set data based on the threshold value of the missing data non-content rate input to the input area MC-3-2. Press 3-3 to instruct data display (see FIG. 27).
[0172]
Next, the analysis set data creating apparatus 100 displays the temporary analysis set data based on the threshold of the missing data non-content rate input to the input area MC-3-2 by the processing of the temporary analysis set data display unit 102b. The processing (“2. Details of temporary analysis set data display processing”) is performed, and the temporary analysis set data is displayed in the display area MC-1 (see FIG. 27).
[0173]
(In the case of "1-3-1-3. Percentage mode (sample ID)")
Here, when the user selects the “percentage mode (sample ID)” by pressing the selection button of the selection area MC-4-1 via the input device 112, the missing data removal based on the missing data non-content rate is performed. Will be described.
[0174]
First, the user inputs a threshold value of the missing data non-content rate to the input area MC-4-2 via the input device 112.
[0175]
Next, the user operates the display button MC-4 via the input device 112 to display the temporary analysis set data based on the threshold value of the missing data non-content rate input to the input area MC-4-2. Press -3 to indicate data display.
[0176]
Next, the analysis set data creating apparatus 100 performs the processing of the temporary analysis set data display unit 102b, based on the threshold of the missing data non-content ratio input to the input area MC-4-2, to display the temporary analysis set data described above. The processing (“2. Details of the temporary analysis set data display processing”) is performed, and the temporary analysis set data is displayed in the display area MC-1.
[0177]
(1-3-2. Instruction to remove missing data)
Next, when the SNP sample data to be removed is determined by the process of “1-3-1. Mode selection”, the user issues an instruction to execute the missing data removal via the input device 112 to the “plot mode”. , The delete button MC-3-4 for “percentage mode (SNPID)” (see FIG. 28), and the delete button MC for “percentage mode (sample ID)”. Press -4-4 to instruct the analysis set data creating apparatus 100 to execute the missing data removal processing.
[0178]
(1-3-3. Missing data removal processing)
Next, the analysis set data creating apparatus 100 executes a missing data removal process described later by the process of the missing data removal unit 102c to remove missing data from the temporary analysis set data extracted in SA-1, and remove the missing data. The lost data thus obtained is stored in a predetermined area of the lost data file 106c. Here, details of the lost data removal processing performed in the lost data removal unit 102c will be described with reference to FIG.
[0179]
(3. Details of missing data removal processing)
Here, the details of the missing data removal processing will be described with reference to FIG.
FIG. 13 is a flowchart illustrating an example of the missing data removal processing of the present system in the present embodiment.
[0180]
First, when the selected mode is the “plot mode”, the missing data removing unit 102c performs processing of the missing attribute value removing unit 102j on the basis of the attribute value indicating the missing from the temporary analysis set data in SA-3. The missing data is removed for each sample ID and / or SNPID input to the input area MC-2-3, and the missing data is stored in a predetermined area of the missing data file 106c (step SC-1).
[0181]
Next, when the selected mode is the “percentage mode (SNPID)” or the “percentage mode (sample ID)”, the missing data removing unit 102c performs the temporary analysis in SA-3 by the processing of the missing non-content rate removing unit 102k. From the set data, based on the missing data non-content rate, the missing data is removed for each SNPID in the case of “percentage mode (SNPID)” and for each sample ID in the case of “percentage mode (sample ID)”. The missing data is stored in a predetermined area of the missing data file 106c (step SC-2).
[0182]
This concludes the description of “3. Details of missing data removal processing”.
[0183]
In the present embodiment, after the missing data removal processing, the temporary analysis set data from which the missing data has been removed may be output to a file and stored in a web server or the like.
[0184]
Here, the file output of the temporary analysis set data from which the missing data has been removed will be described with reference to FIG. 29 and the like.
[0185]
(1-3-4. File output of temporary analysis set data with missing data removed)
Here, the file output of the temporary analysis set data from which the missing data has been removed will be described with reference to FIG. 29 and the like. FIG. 29 is a diagram illustrating an example of a file output of the temporary analysis set data from which the missing data has been removed.
[0186]
First, the user presses the output button MC-5 via the input device 112.
[0187]
Next, the analysis set data creating apparatus 100 creates a dialog (dialog ME-1) for outputting a file, which will be described later, by one of the processes of the control unit 102, and displays the dialog on the output device 114.
[0188]
Here, a dialog for outputting a file of the temporary analysis set data from which the missing data has been removed will be described. A dialog (dialog ME-1) for outputting a file of the temporary analysis set data from which the missing data has been removed is input to, for example, an input area ME-2 for inputting a file name and an input area ME-2. An OK button ME-3 for giving an instruction to output a file with the file name given, and a cancel button ME-4 for canceling the file output are provided.
[0189]
Next, the user inputs a file name (output destination) to the input area ME-2 of the dialog ME-1 output to the output device 114 via the input device 112.
[0190]
Next, the user presses the OK button ME-3 for instructing to output a file with the file name (output destination) input to the input area ME-2 via the input device 112.
[0191]
Then, the analysis set data creating apparatus 100 outputs a file with the file name (output destination) input to the input area ME-2 by one of the processes of the control unit 102, and stores the file in a web server or the like.
[0192]
This concludes the description of “1-3. Removal of Missing Data from Temporary Analysis Set Data”.
[0193]
Returning to FIG. 11 again, the analysis set data generating apparatus 100 uses the temporary ID set data from which the missing data has been removed in step SA-3 by the processing of the analysis set data registration unit 102d as the analysis set data, together with the analysis ID. It is stored in a predetermined area of the analysis set database 106d (step SA-4).
[0194]
Hereinafter, analysis set data registration will be described in detail with reference to FIG. 30 and the like.
[0195]
(1-4. Registration of analysis set data)
FIG. 30 is a diagram illustrating an example of the analysis set data registration screen. As shown in this figure, for example, the analysis set data registration screen includes an input area MF-1 for inputting an analysis ID for uniquely identifying the analysis set data, and a file name (output destination) of the analysis set data. , And a registration button MF-3 for instructing to register the analysis set data together with the analysis ID input to the input region MF-1.
[0196]
(1-4-1. Data input)
First, in order to register the temporary analysis set data from which the missing data has been removed in step SA-3 as analysis set data, the user inputs, via the input device 112, an analysis for uniquely identifying the analysis set data. The ID is input to the input area of the input area MF-1 (see FIG. 30).
[0197]
Next, the user inputs the file name (output destination) of the analysis set data into the input area MF-2 via the input device 112 (see FIG. 30).
[0198]
In addition, before the registration of the analysis set data, if the processing of “1-3-4. Output of the temporary analysis set data from which missing data has been removed to a file” is performed, the analysis set data creating apparatus 100 includes the control unit. The file name (output destination) at the time of outputting the file may be automatically displayed in the input area MF-2 by any of the processes of 102.
[0199]
Next, in order to register the temporary analysis set data from which the missing data has been removed with the analysis ID input to the input area MF-1 as the analysis set data, the user inputs a registration button MF- via the input device 112. Press 3 to instruct the analysis set data creating apparatus 100 to execute the analysis set data registration process described later (see FIG. 30).
[0200]
(1-4-2. Analysis set data registration processing)
Next, the analysis set data creating apparatus 100 inputs the temporary analysis set data from which the missing data has been removed in step SA-3 as analysis set data to the input area MF-1 by the processing of the analysis set data registration unit 102d. The data is stored in a predetermined area of the analysis set database 106d together with the analysis ID.
[0201]
Next, the analysis set data creation apparatus 100 creates an analysis set data creation information screen, which is a screen for registering the analysis set data creation information, by the processing of the analysis set data registration unit 102d, and displays the screen on the output device 114.
[0202]
This concludes the description of “1-4. Registration of analysis set data”.
[0203]
Returning to FIG. 11 again, the analysis set data registration unit 102d, by the processing of the analysis set data creation information registration unit 102m, uses the project ID, the analysis ID, and the sample ID and / or SNP ID of the analysis set data corresponding to the analysis ID. Analysis set data creation information including at least one of the comment data of the user is created and stored in a predetermined area of the analysis set data creation information file 106e (step SA-5).
[0204]
Hereinafter, the registration of the analysis set data creation information will be described in detail with reference to FIG.
[0205]
(1-5. Registration of analysis set data creation information)
FIG. 31 is a diagram illustrating an example of the analysis set data creation information registration screen. As shown in this figure, the analysis set data creation information registration screen displays, for example, a list of analysis IDs and a list display selection area MG-1 for selection, and an analysis ID displayed in the list display selection area MG-1. A selection button MG-2 for selecting the analysis set data corresponding to the ID as the analysis set data for registering the analysis set data creation information, and the analysis set corresponding to the analysis ID displayed in the list display selection area MG-1 A display area MG-3 for displaying the project ID of the data, a display area MG-4 for displaying the analysis ID displayed in the list display selection area MG-1, and a file name (output destination) are displayed. Area MG-5 for inputting comment data of a user -6, the sample ID and / or SNP ID of the analysis set data corresponding to the analysis ID displayed in the display area MG-4, the project ID displayed in the display area MG-3, and the display in the display area MG-4. A registration button MG-7 for registering at least one of the analysis ID and the comment data of the user input to the input area MG-6 as analysis set data creation information is included.
[0206]
(1-5-1. Selection of Analysis ID)
First, when the analysis ID displayed in advance in the list display selection area MG-1 of the analysis set data creation information registration screen is the analysis ID of the analysis set data to be registered in the analysis set data creation information, the user inputs the information. The selection button MG-2 is pressed via the device 112.
[0207]
If the analysis ID previously displayed in the list display selection area MG-1 of the analysis set data creation information screen is not the analysis ID of the analysis set data for which the analysis set data creation information is to be registered, the user needs to enter the input device 112. , Select the analysis ID of the analysis set data to be registered in the analysis set data creation information from the list in the list display selection area MG-1, and press the select button MG-2.
[0208]
Next, the analysis set data creating apparatus 100 performs processing of the analysis set data registration unit 102d to generate a set of SNP sample data from which analysis set data corresponding to the analysis ID displayed in the list display selection area MG-1 is created. The project ID is displayed in the display area MG-3, the analysis ID displayed in the list display selection area MG-1 is displayed in the display area MG-4, and the analysis set data corresponding to the analysis ID displayed in the list display selection area MG-1. Is displayed in the display area MG-5.
[0209]
(1-5-2. Input of comment data)
Next, the user inputs the comment data of the user into the input area MG-6 via the input device 112.
[0210]
(1-5-3. Execution instruction of analysis set data creation information registration processing)
Next, the user presses a registration button MG-7 via the input device 112 to instruct the analysis set data creation device 100 to execute an analysis set data creation information registration process described later.
[0211]
(1-5-4. Analysis set data creation information registration processing)
Then, the analysis set data registration unit 102d processes the project ID displayed in the display area MG-3, the analysis ID displayed in the display area MG-4, and the analysis ID by the processing of the analysis set data creation information registration unit 102m. Analysis set data creation information including at least one of the sample ID and / or SNP ID of the corresponding analysis set data and the user comment data input to the input area MG-6 is created, and the analysis set data creation information file 106e is created. In a predetermined area.
[0212]
The created analysis set data creation information and the analysis set data may be linked one-to-one.
[0213]
This concludes the description of “1-5. Registration of Analysis Set Data Creation Information”.
[0214]
This is the end of the description of “1. Main processing”.
[0215]
(4. Analysis set data search)
Next, an analysis set data search process for searching an already registered analysis set will be described with reference to FIG.
[0216]
FIG. 14 is a flowchart illustrating an example of an analysis set data search process of the present system in the present embodiment. First, the analysis set data creating apparatus 100 performs at least the project ID, the analysis ID, the sample ID range, the SNPID range, and the user comment data set by the user in advance by the processing of the analysis set data search unit 102e. Based on one, the analysis set database 106e is searched for analysis set data that has already been registered (step SD-1).
[0219]
This concludes the description of “4. Analysis Set Data Search”.
[0218]
(5. Analysis set data registration status list display)
Next, the analysis set data registration status list display processing for displaying a list of the retrieved analysis set data together with a set of SNP sample data as a creation source will be described with reference to FIGS. Will be explained.
[0219]
FIG. 15 is a flowchart illustrating an example of an analysis set data registration status list display process of the present system in the present embodiment. First, the analysis set data creating apparatus 100, by the processing of the analysis set data registration status list display unit 102f, sets a set of SNP sample data, which is a creation source of the analysis set data searched in step SD-1, with a sample ID. The analysis set data included in the set of SNP sample data is displayed on a plane having two axes of SNPID, and each analysis set data is distinguished by a color, a pattern, or the like based on a designated sample ID and a range of SNPID. It is superimposed and displayed on top (step SE-1).
[0220]
Here, an example of a list display of the analysis set data creation status will be described with reference to FIG. 32 and the like. FIG. 32 is a diagram illustrating an example of a list display of the analysis set data creation status. As shown in this figure, a set of SNP sample data from which the analysis set data is created is displayed on a plane having the sample ID and the SNPID as two axes, and each analysis set data included in the set of the SNP sample data is displayed. Are superimposed and displayed on the plane, distinguished by colors and patterns based on the designated sample ID and SNP ID.
[0221]
This concludes the description of “5. Display of Analysis Set Data Registration Status List”.
[0222]
(6. Parameter registration for linkage disequilibrium analysis, disease-related analysis, etc.)
Next, parameter registration for registering parameters for linkage disequilibrium analysis, disease-related analysis, and the like to the registered analysis set data will be described with reference to FIGS.
[0223]
FIG. 33 is a diagram illustrating an example of a parameter registration screen (part 1) displayed on the monitor. FIG. 34 is a diagram showing an example of a parameter registration screen (part 2) displayed on the monitor. As shown in FIGS. 33 and 34, for example, parameters (analysis parameters) for linkage disequilibrium analysis, disease-related analysis, and the like can be registered in registered analysis set data stored in the analysis set database 106d. it can.
[0224]
The registered analysis set data and the analysis parameters may be linked one-to-many.
[0225]
This concludes the description of “6. Parameter registration for linkage disequilibrium analysis, disease-related analysis, and the like”.
[0226]
[Other embodiments]
Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, but may be applied to various different embodiments within the scope of the technical idea described in the claims. It may be implemented.
[0227]
For example, the case where the analysis set data creating apparatus 100 performs the processing in a stand-alone form has been described as an example, but the processing is performed in response to a request from a client terminal configured in a separate housing from the analysis set data creating apparatus 100. Then, the processing result may be returned to the client terminal.
[0228]
Further, of the processes described in the embodiment, all or a part of the processes described as being performed automatically may be manually performed, or all of the processes described as being performed manually may be performed. Alternatively, a part thereof can be automatically performed by a known method.
[0229]
In addition, the processing procedures, control procedures, specific names, information including parameters such as various registration data and search conditions, screen examples, and database configurations shown in the above-described documents and drawings, except where otherwise noted, It can be changed arbitrarily.
[0230]
Also, regarding the analysis set data creating apparatus 100, the components illustrated in the drawings are functionally conceptual, and need not necessarily be physically configured as illustrated.
[0231]
For example, all or any part of the processing functions included in each unit or each device of the analysis set data creating apparatus 100, particularly, each processing function performed by the control unit 102, is replaced with a CPU (Central Processing Unit) and the CPU. And can be realized as hardware by wired logic. The program is recorded on a recording medium to be described later, and is mechanically read by the analysis set data creating apparatus 100 as necessary.
[0232]
That is, a computer program for giving instructions to the CPU in cooperation with an OS (Operating System) and performing various processes is recorded in the storage unit 106 such as a ROM or an HD. This computer program is executed by being loaded into a RAM or the like, and configures the control unit 102 in cooperation with the CPU. Further, this computer program may be recorded in an application program server connected to the analysis set data creating apparatus 100 via an arbitrary network 300, and all or a part of the computer program may be downloaded as necessary. It is possible.
[0233]
Further, the program according to the present invention can be stored in a computer-readable recording medium. Here, the “recording medium” refers to an arbitrary “portable physical medium” such as a flexible disk, a magneto-optical disk, a ROM, an EPROM, an EEPROM, a CD-ROM, an MO, a DVD, and the like, and a built-in various computer systems. A short-term program such as a communication line or a carrier wave when transmitting the program via an arbitrary "fixed physical medium" such as ROM, RAM, HD, or a network represented by LAN, WAN, or the Internet. "Communications medium" that holds.
[0234]
The “program” is a data processing method described in an arbitrary language or description method, and may be in any format such as a source code or a binary code. The “program” is not necessarily limited to a single program, but may be distributed in the form of a plurality of modules or libraries, or may operate in cooperation with a separate program represented by an OS (Operating System). Includes those that achieve functions. Note that a known configuration and procedure can be used for a specific configuration, a reading procedure, an installation procedure after reading, and the like in each apparatus described in the embodiments.
[0235]
Various files and the like (SNP sample data set database 106a to analysis set data creation information file 106e) stored in the storage unit 106 include a memory device such as a RAM and a ROM, a fixed disk device such as a hard disk, a flexible disk, and an optical disk. The storage unit stores various programs, tables, files, databases, web page files, and the like used for various processes and website provision.
[0236]
Further, the analysis set data creating apparatus 100 connects a peripheral device such as a printer, a monitor, and an image scanner to an information processing device such as a known personal computer and an information processing terminal such as a workstation, and connects the information processing device of the present invention to the information processing device. The method may be implemented by implementing software (including programs, data, and the like) for implementing the method.
[0237]
Further, the specific form of the distribution / integration of the analysis set data creating apparatus 100 is not limited to the illustrated one, and all or a part thereof may be distributed functionally or physically in arbitrary units corresponding to various loads and the like. -Can be integrated and configured. For example, each database may be independently configured as an independent database device, or a part of the processing may be realized using a CGI (Common Gateway Interface).
[0238]
The network 300 has a function of interconnecting the analysis set data creating apparatus 100 and the external system 200, and includes, for example, the Internet, an intranet, a LAN (including both wired / wireless), a VAN, Personal computer communication network, public telephone network (including both analog and digital), dedicated line network (including both analog and digital), CATV network, IMT2000 system, GSM system, PDC / PDC-P system, etc. Or a local radio network such as Bluetooth, a PHS network, or a satellite communication network such as CS, BS or ISDB. That is, the present system can transmit and receive various data via any network regardless of wired or wireless.
[0239]
【The invention's effect】
As described above in detail, according to the present invention, by designating a sample ID and / or SNPID from a set of SNP sample data, the SNP sample data corresponding to the designated sample ID and / or SNPID can be obtained. Extract and create temporary analysis set data, remove missing data that is SNP sample data having attribute values indicating missing from the created temporary analysis set data, and analyze the temporary analysis set data from which the missing data has been removed. Since it is registered as set data, the analysis set data can be automatically created, there are few human errors, and even if an error occurs, the analysis set data can easily return to the creation of the temporary analysis set data. Forming apparatus, and can provide a program for executing the analysis set data creation method in the computer.
[0240]
Further, according to the present invention, it is possible to automatically remove the missing data included in the temporary analysis set data, shorten the time for removing the missing data, and reduce the number of human errors. A set data creation device and a program for causing a computer to execute an analysis set data creation method can be provided.
[0241]
Further, according to the present invention, it is possible to automatically register analysis set data, and to perform an analysis set data creation device and a program for causing a computer to execute an analysis set data creation method capable of efficiently performing work. Can be provided.
[0242]
According to the present invention, an analysis ID, a sample ID and / or a SNP ID for uniquely identifying analysis set data, and a project ID for uniquely identifying a set of SNP sample data from which the analysis set data is created , And the analysis set data creation information including at least one of the user comment data is registered, so that the analysis set data creation information can be automatically managed, and the analysis set can efficiently proceed with the work. A data creation device and a program for causing a computer to execute an analysis set data creation method can be provided.
[0243]
Further, according to the present invention, it is possible to provide an analysis set data creation device capable of registering analysis set data creation information simultaneously with the registration of analysis set data, and a program for causing a computer to execute an analysis set data creation method. Can be.
[0244]
According to the present invention, missing data is removed from the created temporary analysis set data for each sample ID and / or SNPID based on the attribute value indicating the missing, and / or the created temporary analysis set data is deleted. Since missing data is removed from the analysis set data for each sample ID and / or SNPID based on the missing data non-content rate indicating the rate at which missing data having an attribute value indicating missing is not included. Analysis set data creation device that can automatically remove data, reduce human error, and efficiently remove missing data, and provide a program that causes a computer to execute an analysis set data creation method can do.
[0245]
Also, according to the present invention, based on the attribute value of each data in the temporary analysis set data, the data is distinguished and displayed by a color, a pattern, and the like, so that the analysis set data which can easily confirm the attribute value of each data is provided. A creation device and a program for causing a computer to execute an analysis set data creation method can be provided.
[0246]
Also, according to the present invention, when the attribute value is a categorical value, the first data display means for displaying each data in the temporary analysis set data by color or pattern based on the attribute value, When the value is a numerical value, the numerical value is converted into a categorical value by some threshold value, and based on the converted attribute value, each data in the temporary analysis set data is distinguished and displayed by a color, a pattern, or the like. (2) data display means, and, when the attribute value is a time-series numerical value, converts the difference between the preceding and following time-series numerical values into a categorical value with some thresholds, and temporarily stores the difference based on the converted attribute value. Since at least one of the third data display means for displaying each data in the analysis set data in a distinction by color or pattern is further provided, the categorical value Analysis set data generating apparatus can easily confirm the attribute values of the data about sex values, and can provide a program for executing the analysis set data creation method in the computer.
[0247]
Further, according to the present invention, even in the case of a time-series numerical attribute value, an analysis set data generating apparatus and an analysis set data generating method capable of easily confirming a transition of a time-series data value are provided. Can be provided.
[0248]
According to the present invention, a set of SNP sample data is displayed on a plane having two axes of sample ID and SNPID, and the range of sample ID and SNPID specified for each analysis set data is distinguished on a plane. Since the analysis set data is superimposed and displayed, the existing analysis set data included in the set of SNP sample data can be displayed in a list, and the analysis set data creation device capable of efficiently creating new analysis set data, Further, it is possible to provide a program for causing a computer to execute the analysis set data creating method.
[0249]
Further, according to the present invention, the position and range of the existing analysis set data with respect to the set of SNP sample data can be easily confirmed, and the analysis set data which can efficiently create new analysis set data A creation device and a program for causing a computer to execute an analysis set data creation method can be provided.
[0250]
Furthermore, according to the present invention, already registered analysis set data is searched based on at least one of the project ID, the analysis ID, the range of the sample ID, the range of the SNP ID, and the comment data of the user. It is possible to provide an analysis set data creation device capable of easily confirming existing analysis set data, and a program for causing a computer to execute an analysis set data creation method.
[Brief description of the drawings]
FIG. 1 is a principle configuration diagram showing a basic principle of the present invention.
FIG. 2 is a block diagram illustrating an example of a configuration of the present system to which the present invention is applied.
FIG. 3 is a block diagram showing an example of a configuration of a temporary analysis set data display unit 102b of the present system to which the present invention is applied.
FIG. 4 is a block diagram illustrating an example of a configuration of a missing data removing unit 102c of the present system to which the present invention is applied.
FIG. 5 is a block diagram illustrating an example of a configuration of an analysis set data registration unit 102d of the present system to which the present invention is applied.
FIG. 6 is a diagram illustrating an example of information stored in an SNP sample data set database 106a.
FIG. 7 is a diagram showing an example of information stored in a temporary analysis set data file 106b.
FIG. 8 is a diagram illustrating an example of information stored in a missing data file 106c.
FIG. 9 is a diagram showing an example of information stored in an analysis set database 106d.
FIG. 10 is a diagram showing an example of information stored in an analysis set data creation information file 106e.
FIG. 11 is a flowchart illustrating an example of main processing of the present system in the present embodiment.
FIG. 12 is a flowchart illustrating an example of a temporary analysis set data display process of the system according to the embodiment.
FIG. 13 is a flowchart illustrating an example of a missing data removal process of the present system in the present embodiment.
FIG. 14 is a flowchart illustrating an example of an analysis set data search process of the present system in the present embodiment.
FIG. 15 is a flowchart illustrating an example of an analysis set data registration status list display process of the present system in the present embodiment.
FIG. 16 is a diagram showing an example of a temporary analysis set data creation screen displayed on a monitor.
FIG. 17 is a diagram showing an example of creation of temporary analysis set data by designating the entire range of a set of SNP sample data.
FIG. 18 is a diagram illustrating an example of creation of temporary analysis set data by designating a SNPID and / or a sample ID.
FIG. 19 is a diagram illustrating an example of an error notification screen displayed on a monitor.
FIG. 20 is a diagram showing an example of a missing data removal screen displayed on a monitor.
FIG. 21 is a diagram illustrating an example of extraction of temporary analysis set data.
FIG. 22 is a diagram illustrating an example of a temporary analytic set data display when the attribute value is a time-series numerical value.
FIG. 23 is a diagram showing an example of a temporary analysis set data display in the case of another attribute value.
FIG. 24 is a diagram illustrating an example of loss data removal (part 1) based on an attribute value indicating a loss.
FIG. 25 is a diagram illustrating an example of loss data removal (part 2) based on an attribute value indicating a loss.
FIG. 26 is a diagram illustrating an example of loss data removal (part 3) based on an attribute value indicating a loss.
FIG. 27 is a diagram showing an example of missing data removal (part 1) based on the missing data non-content rate.
FIG. 28 is a diagram illustrating an example of missing data removal (part 2) based on the missing data non-content rate.
FIG. 29 is a diagram showing an example of a file output of temporary analysis set data from which missing data has been removed.
FIG. 30 is a diagram showing an example of an analysis set data registration screen displayed on a monitor.
FIG. 31 is a diagram showing an example of an analysis set data creation information registration screen displayed on a monitor.
FIG. 32 is a diagram showing an example of a list display of the analysis set data creation status.
FIG. 33 is a diagram showing an example of a parameter registration screen (1) displayed on a monitor.
FIG. 34 is a diagram showing an example of a parameter registration screen (part 2) displayed on the monitor.
[Explanation of symbols]
100 Analysis set data creation device
102 control unit
102a Temporary analysis set data creation unit
102b Temporary analysis set data display
102c Missing data removal unit
102d Analysis set data registration unit
102e Analysis set data search unit
102f Analysis set data registration status list display area
102g first data display section
102h second data display section
102i third data display section
102j Missing attribute value removing unit
102k Deletion non-content removal section
102m Analysis set data creation information registration section
104 Communication control interface unit
106 storage unit
106a SNP sample data set database
106b Temporary analysis set data file
106c Missing data file
106d Analysis set database
106e Analysis set data creation information file
108 I / O control interface
112 input device
114 Output device
200 External system
300 Network

Claims (14)

各種の属性値を持つSNPサンプルデータの集合から連鎖不平衡解析や疾患関連解析などの解析対象となるデータ集合であるアナリシスセットデータを作成するアナリシスセットデータ作成装置であって、
上記SNPサンプルデータの集合の中からサンプルIDおよび/またはSNPIDを指定することにより、上記指定された上記サンプルIDおよび/または上記SNPIDに対応する上記SNPサンプルデータを抽出してテンポラリアナリシスセットデータを作成するテンポラリアナリシスセットデータ作成手段と、
上記テンポラリアナリシスセットデータ作成手段により作成された上記テンポラリアナリシスセットデータから、欠損を示す属性値を持つ上記SNPサンプルデータである欠損データを除去する欠損データ除去手段と、
上記欠損データ除去手段により上記欠損データが除去された上記テンポラリアナリシスセットデータを上記アナリシスセットデータとして登録するアナリシスセットデータ登録手段と、
を備えたことを特徴とするアナリシスセットデータ作成装置。
An analysis set data creation device that creates analysis set data, which is a data set to be analyzed such as linkage disequilibrium analysis or disease-related analysis, from a set of SNP sample data having various attribute values,
By specifying a sample ID and / or SNPID from the set of the SNP sample data, the SNP sample data corresponding to the specified sample ID and / or the SNPID is extracted to create temporary analysis set data. Means for creating a temporary analysis set data,
Missing data removing means for removing missing data, which is the SNP sample data having an attribute value indicating missing, from the temporary analysis set data created by the temporary analysis set data creating means;
Analysis set data registration means for registering the temporary analysis set data from which the missing data has been removed by the missing data removal means as the analysis set data,
An analysis set data creation device, comprising:
上記アナリシスセットデータ登録手段は、
上記アナリシスセットデータを一意に識別するためのアナリシスID、上記サンプルIDおよび/または上記SNPID、上記アナリシスセットデータの作成元となる上記SNPサンプルデータの集合を一意に識別するためのプロジェクトID、および、利用者のコメントデータのうち少なくとも一つを含むアナリシスセットデータ作成情報を登録するアナリシスセットデータ作成情報登録手段、
をさらに備えたことを特徴とする請求項1に記載のアナリシスセットデータ作成装置。
The above analysis set data registration means,
An analysis ID for uniquely identifying the analysis set data, the sample ID and / or the SNP ID, a project ID for uniquely identifying a set of the SNP sample data from which the analysis set data is created, and Analysis set data creation information registration means for registering analysis set data creation information including at least one of user comment data,
The analysis set data creating apparatus according to claim 1, further comprising:
上記欠損データ除去手段は、
上記テンポラリアナリシスセットデータ作成手段により作成された上記テンポラリアナリシスセットデータから、上記欠損を示す属性値に基づいて、上記サンプルID、および/または、上記SNPID毎に上記欠損データを除去する欠損属性値除去手段、および/または、
上記テンポラリアナリシスセットデータ作成手段により作成された上記テンポラリアナリシスセットデータから、上記欠損を示す属性値を持つ欠損データが含まれていない率を示す欠損データ非含有率に基づいて、上記サンプルID、および/または、上記SNPID毎に上記欠損データを除去する欠損非含有率除去手段、
をさらに備えたことを特徴とする請求項1または2に記載のアナリシスセットデータ作成装置。
The means for removing missing data includes:
A missing attribute value removal for removing the missing data for each of the sample ID and / or the SNP ID based on the attribute value indicating the missing from the temporary analysis set data created by the temporary analysis set data creating means. Means and / or
From the temporary analysis set data created by the temporary analysis set data creating means, based on the missing data non-content rate indicating a rate at which missing data having an attribute value indicating the missing is not included, the sample ID, and And / or a defect non-content removal means for removing the missing data for each SNPID,
The analysis set data creation device according to claim 1 or 2, further comprising:
上記テンポラリアナリシスセットデータ中の各データの上記属性値に基づいて、区別して表示するテンポラリアナリシスセットデータ表示手段、
をさらに備えたことを特徴とする請求項1から3のいずれか一つに記載のアナリシスセットデータ作成装置。
Temporary analysis set data display means for displaying the data based on the attribute value of each data in the temporary analysis set data,
The analysis set data creation device according to any one of claims 1 to 3, further comprising:
上記テンポラリアナリシスセットデータ表示手段は、
上記属性値がカテゴリカルな値の場合には上記属性値に基づいて、上記テンポラリアナリシスセットデータ中の各データを区別して表示する第1データ表示手段、
上記属性値が数値の場合には上記数値をいくつかの閾値でカテゴリカルな値に変換し、変換された上記属性値に基づいて、上記テンポラリアナリシスセットデータ中の各データを区別して表示する第2データ表示手段、および、
上記属性値が時系列な数値の場合には前後する上記時系列な数値の差をいくつかの閾値でカテゴリカルな値に変換し、変換された上記属性値に基づいて、上記テンポラリアナリシスセットデータ中の各データを区別して表示する第3データ表示手段、
のうち少なくとも一つの手段をさらに備えたことを特徴とする請求項4に記載のアナリシスセットデータ作成装置。
The temporary analysis set data display means includes:
First data display means for displaying each data in the temporary analysis set data based on the attribute value when the attribute value is a categorical value;
When the attribute value is a numerical value, the numerical value is converted into a categorical value with some thresholds, and each data in the temporary analysis set data is displayed based on the converted attribute value. 2 data display means, and
When the attribute value is a time-series numerical value, the difference between the preceding and following time-series numerical values is converted into a categorical value with some threshold values, and based on the converted attribute value, the temporary analysis set data Third data display means for distinguishing and displaying each data therein;
The analysis set data creating apparatus according to claim 4, further comprising at least one of the following.
上記SNPサンプルデータの集合を、上記サンプルIDと上記SNPIDとを2軸とする平面上に表示し、上記アナリシスセットデータ毎に指定された上記サンプルIDと上記SNPIDの範囲を区別して上記平面上に重畳して表示するアナリシスセットデータ登録状況一覧表示手段、
をさらに備えたことを特徴とする請求項1から5のいずれか一つに記載のアナリシスセットデータ作成装置。
The set of the SNP sample data is displayed on a plane having the sample ID and the SNPID as two axes, and the range of the sample ID and the SNPID specified for each of the analysis set data is distinguished on the plane. Analysis set data registration status list display means for superimposed display
The analysis set data creating apparatus according to any one of claims 1 to 5, further comprising:
上記プロジェクトID、上記アナリシスID、上記サンプルIDの範囲、上記SNPIDの範囲、上記利用者のコメントデータのうち少なくとも一つに基づいて、既に登録されている上記アナリシスセットデータを検索するアナリシスセットデータ検索手段、
をさらに備えたことを特徴とする請求項1から6のいずれか一つに記載のアナリシスセットデータ作成装置。
Analysis set data search for searching the already registered analysis set data based on at least one of the project ID, the analysis ID, the range of the sample ID, the range of the SNP ID, and the comment data of the user. means,
The analysis set data creating apparatus according to any one of claims 1 to 6, further comprising:
各種の属性値を持つSNPサンプルデータの集合から連鎖不平衡解析や疾患関連解析などの解析対象となるデータ集合であるアナリシスセットデータを作成するアナリシスセットデータ作成方法をコンピュータに実行させるプログラムであって、
上記SNPサンプルデータの集合の中からサンプルIDおよび/またはSNPIDを指定することにより、上記指定された上記サンプルIDおよび/または上記SNPIDに対応する上記SNPサンプルデータを抽出してテンポラリアナリシスセットデータを作成するテンポラリアナリシスセットデータ作成ステップと、
上記テンポラリアナリシスセットデータ作成ステップにより作成された上記テンポラリアナリシスセットデータから、欠損を示す属性値を持つ上記SNPサンプルデータである欠損データを除去する欠損データ除去ステップと、
上記欠損データ除去ステップにより上記欠損データが除去された上記テンポラリアナリシスセットデータを上記アナリシスセットデータとして登録するアナリシスセットデータ登録ステップと、
を含むアナリシスセットデータ作成方法をコンピュータに実行させることを特徴とするプログラム。
A program for causing a computer to execute an analysis set data creation method for creating an analysis set data which is a data set to be analyzed such as linkage disequilibrium analysis or disease-related analysis from a set of SNP sample data having various attribute values. ,
By specifying a sample ID and / or SNPID from the set of the SNP sample data, the SNP sample data corresponding to the specified sample ID and / or the SNPID is extracted to create temporary analysis set data. A temporary analysis set data creating step
A missing data removing step of removing missing data, which is the SNP sample data having an attribute value indicating missing, from the temporary analysis set data created by the temporary analysis set data creating step;
An analysis set data registration step of registering the temporary analysis set data from which the missing data has been removed by the missing data removal step as the analysis set data,
A program for causing a computer to execute an analysis set data creating method including:
上記アナリシスセットデータ登録ステップは、
上記アナリシスセットデータを一意に識別するためのアナリシスID、上記サンプルIDおよび/または上記SNPID、上記アナリシスセットデータの作成元となる上記SNPサンプルデータの集合を一意に識別するためのプロジェクトID、および、利用者のコメントデータのうち少なくとも一つを含むアナリシスセットデータ作成情報を登録するアナリシスセットデータ作成情報登録ステップ、
をさらに含むことを特徴とする請求項8に記載のプログラム。
The above analysis set data registration step includes:
An analysis ID for uniquely identifying the analysis set data, the sample ID and / or the SNP ID, a project ID for uniquely identifying a set of the SNP sample data from which the analysis set data is created, and An analysis set data creation information registration step of registering analysis set data creation information including at least one of user comment data;
The program according to claim 8, further comprising:
上記欠損データ除去ステップは、
上記テンポラリアナリシスセットデータ作成ステップにより作成された上記テンポラリアナリシスセットデータから、上記欠損を示す属性値に基づいて、上記サンプルID、および/または、上記SNPID毎に上記欠損データを除去する欠損属性値除去ステップ、および/または、
上記テンポラリアナリシスセットデータ作成ステップにより作成された上記テンポラリアナリシスセットデータから、上記欠損を示す属性値を持つ欠損データが含まれていない率を示す欠損データ非含有率に基づいて、上記サンプルID、および/または、上記SNPID毎に上記欠損データを除去する欠損非含有率除去ステップ、
をさらに含むことを特徴とする請求項8または9に記載のプログラム。
The step of removing missing data includes:
A missing attribute value removal for removing the missing data for each of the sample ID and / or the SNP ID based on the attribute value indicating the missing from the temporary analysis set data created in the temporary analytic set data creating step. Steps and / or
From the temporary analysis set data created by the temporary analysis set data creating step, based on the missing data non-content rate indicating a rate at which missing data having an attribute value indicating the missing is not included, the sample ID, and / Or a loss-free content removal step of removing the loss data for each SNPID,
The program according to claim 8, further comprising:
上記テンポラリアナリシスセットデータ中の各データの上記属性値に基づいて、区別して表示するテンポラリアナリシスセットデータ表示ステップ、
をさらに含むことを特徴とする請求項8から10のいずれか一つに記載のプログラム。
Based on the attribute value of each data in the temporary analysis set data, a temporary analysis set data display step for displaying separately.
The program according to any one of claims 8 to 10, further comprising:
上記テンポラリアナリシスセットデータ表示ステップは、
上記属性値がカテゴリカルな値の場合には上記属性値に基づいて、上記テンポラリアナリシスセットデータ中の各データを区別して表示する第1データ表示ステップ、
上記属性値が数値の場合には上記数値をいくつかの閾値でカテゴリカルな値に変換し、変換された上記属性値に基づいて、上記テンポラリアナリシスセットデータ中の各データを区別して表示する第2データ表示ステップ、および、
上記属性値が時系列な数値の場合には前後する上記時系列な数値の差をいくつかの閾値でカテゴリカルな値に変換し、変換された上記属性値に基づいて、上記テンポラリアナリシスセットデータ中の各データを区別して表示する第3データ表示ステップ、
のうち少なくとも一つのステップをさらに含むことを特徴とする請求項11に記載のプログラム。
The step of displaying the temporary analysis set data includes:
A first data display step of, when the attribute value is a categorical value, displaying each data in the temporary analysis set data based on the attribute value,
When the attribute value is a numerical value, the numerical value is converted into a categorical value with some thresholds, and each data in the temporary analysis set data is displayed based on the converted attribute value. 2 data display steps, and
When the attribute value is a time-series numerical value, the difference between the preceding and following time-series numerical values is converted into a categorical value with some threshold values, and based on the converted attribute value, the temporary analysis set data A third data display step of displaying each data therein in a distinguished manner;
The program according to claim 11, further comprising at least one of the following steps:
上記SNPサンプルデータの集合を、上記サンプルIDと上記SNPIDとを2軸とする平面上に表示し、上記アナリシスセットデータ毎に指定された上記サンプルIDと上記SNPIDの範囲を区別して上記平面上に重畳して表示するアナリシスセットデータ登録状況一覧表示ステップ、
をさらに含むことを特徴とする請求項8から12のいずれか一つに記載のプログラム。
The set of the SNP sample data is displayed on a plane having the sample ID and the SNPID as two axes, and the range of the sample ID and the SNPID specified for each of the analysis set data is distinguished on the plane. Analysis set data registration status list display step to be superimposed and displayed,
The program according to any one of claims 8 to 12, further comprising:
上記プロジェクトID、上記アナリシスID、上記サンプルIDの範囲、上記SNPIDの範囲、上記利用者のコメントデータのうち少なくとも一つに基づいて、既に登録されている上記アナリシスセットデータを検索するアナリシスセットデータ検索ステップ、
をさらに含むことを特徴とする請求項8から13のいずれか一つに記載のプログラム。
Analysis set data search for searching the already registered analysis set data based on at least one of the project ID, the analysis ID, the range of the sample ID, the range of the SNP ID, and the comment data of the user. Steps,
The program according to any one of claims 8 to 13, further comprising:
JP2003018994A 2003-01-28 2003-01-28 Analysis set data creation device and program for causing computer to implement method for creating analysis set data Pending JP2004234105A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003018994A JP2004234105A (en) 2003-01-28 2003-01-28 Analysis set data creation device and program for causing computer to implement method for creating analysis set data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003018994A JP2004234105A (en) 2003-01-28 2003-01-28 Analysis set data creation device and program for causing computer to implement method for creating analysis set data

Publications (1)

Publication Number Publication Date
JP2004234105A true JP2004234105A (en) 2004-08-19

Family

ID=32948989

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003018994A Pending JP2004234105A (en) 2003-01-28 2003-01-28 Analysis set data creation device and program for causing computer to implement method for creating analysis set data

Country Status (1)

Country Link
JP (1) JP2004234105A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012018589A (en) * 2010-07-09 2012-01-26 Yokogawa Electric Corp Apparatus data display device and apparatus data display method
US10146502B2 (en) 2014-09-29 2018-12-04 International Business Machines Corporation Stream-processing data

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012018589A (en) * 2010-07-09 2012-01-26 Yokogawa Electric Corp Apparatus data display device and apparatus data display method
US10146502B2 (en) 2014-09-29 2018-12-04 International Business Machines Corporation Stream-processing data
US10579453B2 (en) 2014-09-29 2020-03-03 International Business Machines Corporation Stream-processing data

Similar Documents

Publication Publication Date Title
US10402483B2 (en) Screenshot processing device and method for same
JP5407209B2 (en) Document management apparatus, document management program, and document management system
JP2010191714A (en) Information processing apparatus and method
JP2009075879A (en) Image processor, image processing method, and program
US20170272265A1 (en) Information processing apparatus, system, and information processing method
JP2005266954A (en) Operation information recording/reproduction apparatus
JP2004234105A (en) Analysis set data creation device and program for causing computer to implement method for creating analysis set data
JP4692615B2 (en) Printing apparatus and program
JP2003203076A (en) Knowledge searching device and method, program and recording medium
JP2009205420A (en) Image file distribution method, image file distribution device, and program
CN113268232A (en) Page skin generation method and device and computer readable storage medium
JP2009163412A (en) Information processor and information processing method
JP2006252455A (en) File management device, file management method and file management program
CN110309335B (en) Picture matching method, device and equipment and storage medium
JP2005141641A (en) Information processing system, information processor for information registration, information processor for information retrieval, information processing method for information registration, information processing method for information retrieval, program, and recording medium
US20090271452A1 (en) Document management apparatus, document management method, and computer-readable encoding medium recorded with a computer program
JP7006272B2 (en) Log analysis system, method and program
JP2009277140A (en) Information processor, processing flow creation system, processing flow display method, processing flow display program, and recording medium
JP2009211143A (en) Information processor and information processing program
JP2008176710A (en) Document management system, document management device, and document management program
JP2006221509A (en) Design information management apparatus, design information management method, and design information management program
JP5262978B2 (en) User interface screen display method and terminal used for the method
JP2010146295A (en) Apparatus and system for document retrieval and program
JP2012133619A (en) Document edition device, document edition method and document edition program
JP5200633B2 (en) Document management apparatus and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051227

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20051227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090427

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090714