JP5147084B2 - Method for detecting defects in DNA microarray data - Google Patents

Method for detecting defects in DNA microarray data Download PDF

Info

Publication number
JP5147084B2
JP5147084B2 JP2009520720A JP2009520720A JP5147084B2 JP 5147084 B2 JP5147084 B2 JP 5147084B2 JP 2009520720 A JP2009520720 A JP 2009520720A JP 2009520720 A JP2009520720 A JP 2009520720A JP 5147084 B2 JP5147084 B2 JP 5147084B2
Authority
JP
Japan
Prior art keywords
value
data
dna microarray
cell
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009520720A
Other languages
Japanese (ja)
Other versions
JP2010510557A (en
Inventor
智一 小西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Akita Prefectural University
Original Assignee
Akita Prefectural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Akita Prefectural University filed Critical Akita Prefectural University
Publication of JP2010510557A publication Critical patent/JP2010510557A/en
Application granted granted Critical
Publication of JP5147084B2 publication Critical patent/JP5147084B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6834Enzymatic or biochemical coupling of nucleic acids to a solid phase
    • C12Q1/6837Enzymatic or biochemical coupling of nucleic acids to a solid phase using probe arrays or probe chips
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Description

本発明は、DNAマイクロアレイデータにおけるハイブリダイゼーション問題を検出する方法に関するものである。 The present invention relates to a method for detecting hybridization problems in DNA microarray data.

ハイブリダイゼーションはマイクロアレイ分析の基礎であり、広く利用されているが、技術的な問題が無いわけではない。例えば、ハイブリダイゼーションが、チップ画像の中心の周りにドーナツ様の幾何パターンを形成することがある。このようなパターンは、ダスト混入に起因する表面スクラッチと同様に表れ、往々にしてチップのある領域における低減したシグナルをもたらす。このような問題を認識する分析プログラムが提案されてはいるものの、この手法は、大きな欠陥が存在する場合にはアレイチップデータ全体をキャンセルすることになってしまって破滅的である。dChipパッケージは、モデルベースのデータ標準化において外れ値(outliers)を認識して除去する自動アルゴリズムを実行する。このアルゴリズムは、各遺伝子のパーフェクトマッチ(PM)プローブとミスマッチ(MM)プローブの間の応答におけるパターンを見出し、結果として得られるパターンと一致しないセルとプローブセットを外れ値(outliers)と認定する。しかしながら、この手法は、生物ファンダメンタルズとデータの組み合わせの単純な観点から導かれた一連の数学モデルに基づくものである。さらに、ノイズを扱うパラメータを不可避的に含むこのモデルは、いかに実験システムを適切に表しているかを示す客観的指標が無いため、このモデル及び計算手法の妥当性を厳格にチェックすることが困難である。 Hybridization is the basis of microarray analysis and is widely used, but it is not without technical problems. For example, hybridization may form a donut-like geometric pattern around the center of the chip image. Such a pattern appears similar to surface scratches due to dust contamination and often results in a reduced signal in certain areas of the chip. Although an analysis program for recognizing such a problem has been proposed, this method is catastrophic because it cancels the entire array chip data when a large defect exists. The dChip package implements an automatic algorithm that recognizes and removes outliers in model-based data standardization. This algorithm finds patterns in the response between perfect match (PM) probes and mismatch (MM) probes for each gene and identifies cells and probe sets that do not match the resulting pattern as outliers. However, this approach is based on a series of mathematical models derived from a simple point of view of the combination of biological fundamentals and data. In addition, this model, which inevitably includes parameters dealing with noise, has no objective index indicating how well it represents the experimental system, so it is difficult to strictly check the validity of this model and calculation method. is there.

ハイブリダイゼーションの欠陥の認識がアドホックに行われている理由の1つは、このような問題がたとえチップ面積の大きな部分に見られたとしても、トランスクリプトレベルを反映するシグナル、すなわちスケール(scaled)されたプローブ値には影響を与えないと信じられていることである。また、GeneChip(登録商標)では、トランスクリプトは、隣り合うPMセルとMMセルとからなる10個程度のペアによって測定され、このペアはチップ全体に亘って分散している。したがって、失敗は関連するペアのPMプローブ及びMMプローブの両方において同時に起こり、1つの遺伝子について1つより多いプローブペアが失敗することがない。シグナルは、異なる原理に基づく幾つもの計算アルゴリズムによって見出されるが、多くはプローブ失敗に起因する外れ値(outliers)に着目している。例えば、Affymetrix MAS5はプローブペア間の重み付け平均としてシグナルを見出し、RMAはPM値のメディアンポリッシュ(median polish)によってシグナルを見つける。 One reason for the recognition of hybridization defects ad hoc is that even if such a problem is seen in a large part of the chip area, a signal that reflects the transcript level, i.e. scaled. It is believed that it has no effect on the probe value. In GeneChip (registered trademark), transcripts are measured by about 10 pairs of adjacent PM cells and MM cells, and these pairs are distributed over the entire chip. Thus, failure occurs simultaneously in both related pairs of PM and MM probes, and no more than one probe pair fails for a gene. Signals are found by several computational algorithms based on different principles, but many focus on outliers due to probe failure. For example, Affymetrix MAS5 finds the signal as a weighted average between probe pairs, and RMA finds the signal by median polish of PM values.

シグナルデータにおける正確性の低下を防止するためには分析前にこのような問題を認識してデータから取り除くことが望ましい。重み付け平均やメディアンは、外れ値(outliers)が同じ頻度で両方向(すなわち、ポジティブ及びネガティブ)に生じる場合にのみロバストである。問題の殆どは原因を反映する外れ値(outliers)を生成するため、実際にはそのようなことは稀である。例えば、問題が蛍光材料により引き起こされた場合には明るいスポットが現れ、チップ表面が損傷している場合には暗いスポットが現れる。これらの欠陥のタイプは、計算のロバスト性を損ねることで結果に影響を与える。ターゲットが遺伝子ではなくセルデータの場合には、mRNAの変異体の処理を分析する場合と同じように、このような欠陥は分析に直接影響を与える。マイクロアレイ準備問題は、GeneChipデータの高度な分析について障壁を呈することになる。 In order to prevent loss of accuracy in signal data, it is desirable to recognize such problems and remove them from the data before analysis. A weighted average or median is only robust if outliers occur in both directions (ie positive and negative) with the same frequency. In practice this is rare because most of the problems generate outliers that reflect the cause. For example, a bright spot appears if the problem is caused by a fluorescent material, and a dark spot appears if the chip surface is damaged. These defect types affect the results by reducing the robustness of the calculation. If the target is cell data rather than genes, such defects directly affect the analysis, as is the case when analyzing mRNA variants processing. The microarray preparation problem presents a barrier to advanced analysis of GeneChip data.

上述のとおり、マイクロアレイデータは不均一なハイブリダイゼーションやダストコンタミネーションによって引き起こされる問題をしばしば含んでいる。分析精度の劣化や結果的なフォルスポジティブを防止するためには、分析に先立ってこのような問題を取り除く必要がある。 As described above, microarray data often contains problems caused by non-uniform hybridization and dust contamination. In order to prevent degradation of analysis accuracy and resulting false positives, it is necessary to remove such problems prior to analysis.

本発明は、ハイブリダイゼーションの理想的な基準に対する各アレイの比較におけるセルデータの局所傾向(local tendency)として問題を見出す手法を追求するものである。データの標準化の前に、問題として認識された位置のセルはキャンセルされる。このキャンセルはアレイデータの元の分布に影響を与えない。なぜなら、キャンセルはシグナル強度に対して独立しているからである。結果として、残ったデータは分析に用いることができる。 The present invention seeks to find a problem as a local tendency of cell data in comparing each array to the ideal criteria for hybridization. Prior to data normalization, the cell at the location recognized as a problem is canceled. This cancellation does not affect the original distribution of array data. This is because cancellation is independent of signal intensity. As a result, the remaining data can be used for analysis.

本発明の1つの態様では、DNAマイクロアレイデータにおける欠陥の検出方法は、
DNAマイクロアレイから取得されたセル値のセットからなるターゲットDNAマイクロアレイデータを用意するステップ;
基準値のセットからなる基準データを用意するステップであって、各基準値は前記DNAマイクロアレイデータの各セル値に対応しており;
DNAマイクロアレイデータの各セル値と前記基準データの各基準値との差の値を取得するステップ;
前記DNAマイクロアレイデータの各セル値を各差の値で置き換えて疑似画像を取得するステップ;
前記疑似画像において予め決定された数のセルに対応する小領域を代表する値を、当該予め決定された数のセルの差の値に基づいて計算するステップであって、前記小領域を前記疑似画像上で1セルずつ移動させながら前記計算を繰り返して小領域を代表する値のセットを取得するステップ;
前記代表値のセットの期待される正規分布と前記代表値のセットの分布との比較に基づいて外れ代表値を含む1つまたは複数の小領域を検出するステップであって、前記検出された1つまたは複数の小領域は欠陥セル値を含んでいる;
からなる。
In one aspect of the present invention, a method for detecting defects in DNA microarray data comprises:
Providing target DNA microarray data comprising a set of cell values obtained from a DNA microarray;
Providing reference data comprising a set of reference values, each reference value corresponding to each cell value of the DNA microarray data;
Obtaining a difference value between each cell value of the DNA microarray data and each reference value of the reference data;
Replacing each cell value of the DNA microarray data with each difference value to obtain a pseudo image;
Calculating a value representative of a small area corresponding to a predetermined number of cells in the pseudo-image based on a difference value of the predetermined number of cells, wherein Obtaining a set of values representing a small region by repeating the calculation while moving one cell at a time on the image;
Detecting one or more subregions containing outlier representative values based on a comparison between an expected normal distribution of the representative value set and a distribution of the representative value set, wherein the detected 1 One or more subregions contain defective cell values;
Consists of.

1つの好ましい態様では、ターゲットDNAマイクロアレイデータ及び基準データは標準化されている。具体的には、セル値及基準値は対数値である。 In one preferred embodiment, the target DNA microarray data and the reference data are standardized. Specifically, the cell value and the reference value are logarithmic values.

1つの好ましい態様では、基準値は標準化された複数のDNAマイクロアレイデータから取得した各セルを代表する値である。1つの態様では、各セルを代表する値は、平均、メディアン、最頻値を含む代表値(a measure of central tendency)である。好ましい例では、代表値は、トリム平均、メディアン、または重み付け平均である。 In one preferred embodiment, the reference value is a value representative of each cell obtained from a plurality of standardized DNA microarray data. In one aspect, the value representing each cell is a measure of central tendency, including the mean, median, and mode. In a preferred example, the representative value is a trimmed average, median, or weighted average.

複数の標準化されたDNAマイクロアレイデータは、ターゲットDNAマイクロアレイデータと同じタイプのDNAマイクロアレイによって取得される。前記複数のDNAマイクロアレイデータは、例えば、6セット〜10セットのDNAマイクロアレイデータである。1つの態様では、前記基準データのためのDNAマイクロアレイデータセットは、同じ組織に基づいて取得される。1つの態様では、前記基準データのためのDNAマイクロアレイデータセットは複数の異なる組織に基づいて取得される。後者において、好ましくは、異なる多様な組織について多くのDNAマイクロアレイデータが用意される。 A plurality of standardized DNA microarray data is acquired by the same type of DNA microarray as the target DNA microarray data. The plurality of DNA microarray data is, for example, 6 to 10 sets of DNA microarray data. In one aspect, a DNA microarray data set for the reference data is obtained based on the same tissue. In one aspect, a DNA microarray data set for the reference data is obtained based on a plurality of different tissues. In the latter, preferably a lot of DNA microarray data is prepared for different diverse tissues.

1つの態様では、窓、すなわち小領域、のサイズは、3×3セル〜10×10セルである。1つの好ましい態様では、窓、すなわち小領域のサイズは5×5セルである。1つの態様では、窓を代表する値は、各セルの差の値の代表値(a measure of central tendency)である。具体的には、代表値はメディアン、トリム平均、あるいは重み付け平均である。 In one aspect, the size of the window, i.e. the small area, is 3x3 cells to 10x10 cells. In one preferred embodiment, the size of the window, i.e. subregion, is 5x5 cells. In one aspect, the value representative of the window is a measure of central tendency. Specifically, the representative value is a median, trimmed average, or weighted average.

1つの好ましい態様では、小領域を代表する値のセットは標準化されて指標のセットが取得され、前記指標のセットの期待される正規分布に基づいて予め決定した棄却限界値を超える指標を備えた1つあるいは複数の小領域が検出される。 In one preferred embodiment, a set of values representing a small region is standardized to obtain a set of indicators, with an indicator that exceeds a pre-determined critical limit based on an expected normal distribution of the set of indicators. One or more small areas are detected.

1つの態様では、前記指標及び前記棄却限界値はzスコアである。 In one aspect, the index and the rejection limit are z scores.

1つの態様では、検出された1つあるいは複数の窓に属するセルのセル値が棄却される。 In one aspect, the cell values of cells belonging to one or more detected windows are rejected.

本発明は、上記DNAマイクロアレイデータにおける欠陥を検出するための方法をコンピュータに実行させるためのコンピュータプログラムに関する。 The present invention relates to a computer program for causing a computer to execute a method for detecting a defect in the DNA microarray data.

本発明は、上記DNAマイクロアレイデータにおける欠陥を検出し、欠陥を取り除くための方法をコンピュータに実行させるためのコンピュータプログラムに関する。 The present invention relates to a computer program for causing a computer to execute a method for detecting a defect in the DNA microarray data and removing the defect.

本発明は、上記プログラムを格納するコンピュータ可読媒体に関する。 The present invention relates to a computer readable medium storing the above program.

図1は移動窓のメディアンの標準偏差のヒストグラムである。最頻値は0.31であり、期待値0.25よりも大きかった。FIG. 1 is a histogram of the median standard deviation of the moving window. The mode was 0.31, which was larger than the expected value of 0.25. 図2は、2つの異なる研究所で分析された葉の理想的な基準の2つのセットの一致を示す。FIG. 2 shows the coincidence of two sets of ideal criteria for leaves analyzed at two different laboratories. ハイブリダイゼーションと基準との差の分布を示す。直線y=xは正規分布を示す。データはプロットの中心でより密となっている2.3%、0.1%、0.003%のデータのみが2、3、4よりも大きいzスコアを有している。The distribution of differences between hybridization and standards is shown. A straight line y = x indicates a normal distribution. The data is denser at the center of the plot, only the 2.3%, 0.1%, 0.003% data has a z-score greater than 2, 3, 4. ハイブリダイゼーションと基準との差の分布を示す。直線y=xは正規分布を示す。データはプロットの中心でより密となっている2.3%、0.1%、0.003%のデータのみが2、3、4よりも大きいzスコアを有している。The distribution of differences between hybridization and standards is shown. A straight line y = x indicates a normal distribution. The data is denser at the center of the plot, only the 2.3%, 0.1%, 0.003% data has a z-score greater than 2, 3, 4. ハイブリダイゼーションと基準との差の分布を示す。直線y=xは正規分布を示す。データはプロットの中心でより密となっている2.3%、0.1%、0.003%のデータのみが2、3、4よりも大きいzスコアを有している。The distribution of differences between hybridization and standards is shown. A straight line y = x indicates a normal distribution. The data is denser at the center of the plot, only the 2.3%, 0.1%, 0.003% data has a z-score greater than 2, 3, 4. 指標値の分布を示す。Indicates the distribution of index values. 指標値の分布を示す。Indicates the distribution of index values. 指標値の分布を示す。Indicates the distribution of index values. 繰り返し実験における再現性を示す。実験の組み合わせが各列に示してある。左:オリジナルデータ、中央:残ったデータ、右:キャンセルされたデータである。指示されたアレイのペアからランダムに選択されたPMデータ(n=10000)が示してある。キャンセルの期待値は2窓である。Reproducibility in repeated experiments is shown. Combinations of experiments are shown in each column. Left: Original data, Center: Remaining data, Right: Canceled data. PM data (n = 10000) randomly selected from the indicated array pair is shown. The expected cancellation value is 2 windows. 図6は、期待値窓が2つ及び20(それぞれ50および500セル)における複数のキャンセルされたデータを示す。FIG. 6 shows multiple canceled data for two and 20 expected value windows (50 and 500 cells, respectively). 図7は再現性測定におけるセルデータの差の標準偏差を示す。FIG. 7 shows the standard deviation of the cell data difference in the reproducibility measurement. 図8は、dChipパッケージによって処理されたデータの再現性を示す。PM-onlyモデルを用いた結果を示す。対応するオリジナルデータは図5(左)に示してある。左:残ったデータ、右:キャンセルされたデータ、を示す。指示されたアレイのペアからランダムに選択されたPMデータ(n=10000)を示す。FIG. 8 shows the reproducibility of the data processed by the dChip package. The result using PM-only model is shown. The corresponding original data is shown in FIG. 5 (left). Left: remaining data, right: canceled data. PM data (n = 10000) randomly selected from the indicated array pair is shown. 図9は、チップにおけるキャンセルされた窓の位置を示す。指示された期待値での4つの典型的な実験結果を示す。左上:比較的少ない数のキャンセルを備えたハイブリダイゼーション、右上:不均一なハイブリダイゼーション、左下:直線状の境界を備えた規則的な形状、右下:対称的な位置のクラスタ。FIG. 9 shows the position of the canceled window on the chip. Four typical experimental results with the indicated expected values are shown. Upper left: hybridization with a relatively small number of cancellations, upper right: heterogeneous hybridization, lower left: regular shape with linear boundaries, lower right: clusters of symmetrical positions. 図10は基準データの生成を示す図である。FIG. 10 is a diagram illustrating generation of reference data. 図11はDNAマイクロデータと基準データとの差の値の取得を示す図である。FIG. 11 is a diagram illustrating acquisition of a difference value between DNA micro data and reference data. 図12は疑似画像上の窓の走査を示す図である。FIG. 12 is a diagram showing scanning of the window on the pseudo image. 図13は疑似画像に設けた本発明の窓を示す図である。FIG. 13 is a view showing the window of the present invention provided in the pseudo image. 図14は本発明を説明するフローチャートである。FIG. 14 is a flowchart illustrating the present invention.

A 本発明の一般的な記載
不均一なハイブリダイゼーションやダストコンタミネーションにより引き起こされる問題を検出し除去する方法について、図10乃至14に基づいて説明する。
A General Description of the Present Invention A method for detecting and eliminating problems caused by non-uniform hybridization and dust contamination will be described with reference to FIGS.

本発明の方法を実行するためのハードウェア構成は、図示しないコンピュータ装置であり、当該コンピュータ装置は、入力装置、出力装置、表示装置、ハードディスク、記憶装置、コンピュータ可読媒体、あるいは他の記憶手段であり得る格納装置、そして、プロセッサを含む。測定データや計算データを含む本発明の数々のデータは、記憶装置に格納される。数々の計算は、プロセッサによって実行される。選択的に、測定データや計算データを含む数々のデータが数々の形式で表示装置に表示されてもよい。 A hardware configuration for executing the method of the present invention is a computer device (not shown), and the computer device is an input device, an output device, a display device, a hard disk, a storage device, a computer-readable medium, or other storage means. Possible storage devices and a processor. Numerous data of the present invention including measurement data and calculation data are stored in a storage device. A number of calculations are performed by the processor. Optionally, a number of data including measurement data and calculation data may be displayed on the display device in a number of formats.

ターゲットDNAマイクロアレイデータが用意される(図14 S1)。ターゲットDNAマイクロアレイデータは、セル値のセットである。ターゲットDNAマイクロアレイデータは、当初は、DNAマイクロアレイのプローブセルのシグナル強度のセットとして得られる。1つの好ましい態様では、各セル値は、対数を取り、対数値をz標準化することで得られる標準化された対数値(zスコア)である。メディアン基づく(median-based)標準化が用いられる。ターゲットDNAマイクロアレイデータは、記憶装置に格納される。 Target DNA microarray data is prepared (S1 in FIG. 14). Target DNA microarray data is a set of cell values. The target DNA microarray data is initially obtained as a set of signal intensities of DNA microarray probe cells. In one preferred embodiment, each cell value is a standardized logarithmic value (z score) obtained by taking the logarithm and z-normalizing the logarithmic value. Median-based standardization is used. The target DNA microarray data is stored in a storage device.

基準データ(standard data)が用意される。基準データは基準値のセットである。各基準値は、DNAマイクロアレイの各プローブセルに対応している。基準値は、仮想データ(hypothetical data)、ないし参照データ(reference data)であり、基準値のセットは、典型的には、計算結果によって得られる。理想的には、基準データは、最も平均的な値あるいは最もありそうな(most probable)値である期待される仮想値のセットである。典型的には、基準値セットは、ターゲットDNAマイクロアレイデータのz標準化セル値に対応するようにzスコアとして用意される。基準データは、記憶装置に格納される。 Standard data is prepared. The reference data is a set of reference values. Each reference value corresponds to each probe cell of the DNA microarray. The reference value is hypothetical data or reference data, and a set of reference values is typically obtained by calculation results. Ideally, the reference data is a set of expected virtual values that are the most average or most probable values. Typically, the reference value set is prepared as a z-score so as to correspond to the z-normalized cell value of the target DNA microarray data. The reference data is stored in the storage device.

図10に示すように、1つの態様では、基準データは、同じタイプのターゲットDNAマイクロアレイから取得した複数の標準化データセット(例えば、6〜10セット)から取得される。各基準値は、前記複数の標準化データセットの各セル値を代表する値を計算することで取得される。典型的には、前記代表する値は、平均、メディアン、最頻値を含む代表値(measure of central tendency)である。好ましい態様では、代表値は、トリム平均、メディアン、重み付け平均である。1つの好ましい態様では、基準データは、ターゲットDNAマイクロアレイデータに用いられた組織と同じ組織についての標準化された複数のDNAマイクロアレイデータセットから取得される。基準データのために用いられる組織は、同じ組織に限定はされない。代替的に、基準データは、様々な異なる組織についての多数の標準化されたDNAマイクロアレイデータセットの代表値(たとえば、トリム平均、メディアン、重み付け平均)から取得することができる。メディアン基づく(median-based)標準化が用いられ得る。もし、ターゲットDNAマイクロアレイデータがGeneChipデータの場合には、基準データも複数のGeneChipデータから作成されることが望ましい。もし、全く欠陥やエラーがない完全なDNAマイクロアレイデータが存在すれば、1つのDNAマイクロアレイデータを基準データとして用いることもできる。 As shown in FIG. 10, in one embodiment, the reference data is obtained from multiple standardized data sets (eg, 6-10 sets) obtained from the same type of target DNA microarray. Each reference value is obtained by calculating a value representative of each cell value of the plurality of standardized data sets. Typically, the representative value is a measure of central tendency including an average, median, and mode value. In a preferred embodiment, the representative values are trim average, median, weighted average. In one preferred embodiment, the reference data is obtained from a plurality of standardized DNA microarray data sets for the same tissue used for the target DNA microarray data. The organization used for reference data is not limited to the same organization. Alternatively, the reference data can be obtained from representative values (eg, trim average, median, weighted average) of a number of standardized DNA microarray data sets for a variety of different tissues. Median-based standardization can be used. If the target DNA microarray data is GeneChip data, it is desirable that the reference data is also created from a plurality of GeneChip data. If there is complete DNA microarray data with no defects or errors, one DNA microarray data can be used as reference data.

基準データは、実測に基づいて得られたものに限定されない。基準データの各基準値は同じ値でもよい。基準データの各基準値は0でもよい。この場合、差の値とターゲットDNAマイクロアレイデータの各セル値は同じである。あるいは、基準値は、小さい分散を伴った疑似ランダム数のセットでもよい。 The reference data is not limited to that obtained based on actual measurement. Each reference value of the reference data may be the same value. Each reference value of the reference data may be zero. In this case, the difference value and the cell value of the target DNA microarray data are the same. Alternatively, the reference value may be a set of pseudo-random numbers with a small variance.

ターゲットDNAマイクロアレイデータ及び基準データの標準化手法は、メディアンに基づく(median-based)手法に限定されない。標準化されたデータを(典型的にはzスコア)両者間で比較可能とする他の手法が用いられ得る。例えば、標準化として、3パラメータ手法(Konishi, T., Three-parameter lognormal distribution ubiquitously
found in cDNA microarray data and its application to parametric data treatment.
BMC Bioinformatics, 5:5, 2004, 参照により本明細書に組み込まれる)を用いることができる。この段階では、3パラメータ手法によるバックグランド値を無視してもよい。当業者に知られている他の標準化手法も用いられ得る。
The standardization method of the target DNA microarray data and the reference data is not limited to the median-based method. Other approaches that allow standardized data (typically z-score) to be compared between the two can be used. For example, as a standardization, a three-parameter method (Konishi, T., Three-parameter lognormal distribution ubiquitously
found in cDNA microarray data and its application to parametric data treatment.
BMC Bioinformatics, 5: 5, 2004, incorporated herein by reference). At this stage, the background value by the three parameter method may be ignored. Other standardization techniques known to those skilled in the art can also be used.

図11に示すように、ターゲットDNAマイクロアレイデータの各セル値と基準データの各基準値の差の値が取得される(図14 S2)。この段階において、大きい差の値をキャンセルすることはできない。なぜなら、大きい差の値は、生物学的に意味のある値であるかも知れないからである。差の値は、基準値に対する各セル値の比を含んでいても良い。差の値は、プロセッサによって計算され、記憶装置に格納される。各差の値は、DNAマイクロアレイの各セルに対応している。 As shown in FIG. 11, the difference value between each cell value of the target DNA microarray data and each reference value of the reference data is acquired (S2 in FIG. 14). At this stage, large difference values cannot be canceled. This is because a large difference value may be a biologically meaningful value. The difference value may include a ratio of each cell value to the reference value. The difference value is calculated by the processor and stored in the storage device. Each difference value corresponds to each cell of the DNA microarray.

DNAマイクロアレイデータの各セル値を差の値で置き換えることで疑似画像を取得する(図14 S3)。すなわち、もしDNAマイクロアレイがM×Nのプローブセル(スポットとしても知られている)からなる場合には、疑似画像もまた、M×Nのセルからなり、各セルはそれぞれ対応する差の値を備えている。図13に示すように、疑似画像は、各セルが差の値Δz,Δz,Δz,Δz,Δz,…を備えた画像である。疑似画像は表示装置に表示してもよいが、それは任意である。 A pseudo image is obtained by replacing each cell value of the DNA microarray data with a difference value (S3 in FIG. 14). That is, if the DNA microarray consists of M × N probe cells (also known as spots), the pseudo-image also consists of M × N cells, and each cell has a corresponding difference value. I have. As shown in FIG. 13, the pseudo image is an image in which each cell has a difference value Δz 1 , Δz 2 , Δz 3 , Δz 4 , Δz 5 ,. The pseudo image may be displayed on the display device, but it is optional.

疑似画像における小領域の予め決定した数のセルに対応する予め決定したサイズの窓が用意される。図12に示すように、窓は疑似画像上を1セル毎移動しながら、前記所定数のセルの差の値に基づく各窓の代表値を逐次計算して、窓の代表値のセットを取得する(図14 S4)。図12は移動する窓の概要を示すが、窓の移動(走査)方向は疑似画像上の水平方向、垂直方向を含むいかなる方向でもよい。図13に示すように、窓Wは、疑似画像上をセル毎に水平に移動する(Wt, Wt+1, Wt+2….)。窓の代表値はプロセッサによって計算され、記憶装置に格納される。 A window of a predetermined size corresponding to a predetermined number of cells of a small area in the pseudo image is prepared. As shown in FIG. 12, the window moves one cell at a time on the pseudo image, and sequentially calculates the representative value of each window based on the difference value of the predetermined number of cells to obtain a set of representative values of the window. (FIG. 14 S4). Although FIG. 12 shows an outline of a moving window, the moving (scanning) direction of the window may be any direction including a horizontal direction and a vertical direction on the pseudo image. As shown in FIG. 13, the window W moves horizontally on the pseudo image for each cell (W t , W t + 1 , W t + 2 ...). The representative value of the window is calculated by the processor and stored in the storage device.

本発明の窓アルゴリズムすなわち窓操作は、それ自体は画像処理における近傍処理すなわち局所オペレーションと類似している。すなわち、疑似画像における各セルCに着目し、疑似画像におけるセルCを含む近傍(小領域)の代表値を計算する。しかしながら、本発明に係る窓操作では、セルCの値を代表値で更新する必要はない。本発明においては、窓操作の目的は疑似画像における小領域を代表する値を取得することである。また、本発明では、セルCは必ずしも、窓すなわち小領域の中央に位置する必要はない。各小領域におけるセルCの位置は小領域内で予め決定したいかなる位置でもよい。 The window algorithm or window manipulation of the present invention is itself similar to the neighborhood or local operation in image processing. That is, paying attention to each cell C in the pseudo image, a representative value of a neighborhood (small region) including the cell C in the pseudo image is calculated. However, in the window operation according to the present invention, it is not necessary to update the value of the cell C with the representative value. In the present invention, the purpose of the window operation is to obtain a value representative of a small area in the pseudo image. Further, in the present invention, the cell C is not necessarily located at the center of the window, that is, the small area. The position of the cell C in each small area may be any position determined in advance in the small area.

窓、すなわち予め決定した数のセルからなる小領域、を代表する値(representative value)は、平均、メディアン、最頻値を含む代表値(measure
of central tendency)である。好ましい態様では、代表値は、メディアン、トリム平均、あるいは重み付け平均である。1つの態様では、小領域(窓)のサイズは、3×3〜10×10セルである。1つの好ましい態様では、小領域(窓)のサイズは、5×5セルである。図13において、窓Wは5×5セルの小領域に対応している。疑似画像の25個のセルの代表値(例えば、メディアン)が取得され、取得された値は着目した窓(小領域)を代表する。小領域(例えば、5×5セル)の代表値は、窓Wを疑似画像上で1セル毎に移動させながら計算される。各窓(小領域)について取得された代表値は、記憶装置に格納される。窓の代表値の計算は、疑似画像の表示装置への実際の表示を要しない。
The representative value of a window, i.e. a small area consisting of a predetermined number of cells, is a representative value (measurement value) including the mean, median and mode.
of central tendency). In a preferred embodiment, the representative value is a median, trimmed average, or weighted average. In one aspect, the size of the small area (window) is 3 × 3 to 10 × 10 cells. In one preferred embodiment, the small area (window) size is 5 × 5 cells. In FIG. 13, the window W corresponds to a small area of 5 × 5 cells. A representative value (for example, median) of 25 cells of the pseudo image is acquired, and the acquired value represents a focused window (small region). The representative value of the small area (for example, 5 × 5 cells) is calculated while moving the window W for each cell on the pseudo image. The representative value acquired for each window (small area) is stored in the storage device. The calculation of the representative value of the window does not require actual display of the pseudo image on the display device.

ここで、DNAマイクロアレイのプローブセルは、たとえDNAマイクロアレイの隣り合うプローブセルであったとしても、生物学的意義はないようにランダムに配置されているので、窓(予め決められた数のセルからなる小領域)を代表する値は中心極限定理にしたがって正規分布するはずである。 Here, even if the probe cells of the DNA microarray are adjacent probe cells of the DNA microarray, they are randomly arranged so as not to have any biological significance, so the window (from a predetermined number of cells) The value representing the small area should be normally distributed according to the central limit theorem.

窓を代表する値のセットを標準化して代表値のzスコアを取得し、棄却限界値と比較する(図14 S5)。この代表値のzスコアは、予め設定した棄却限界値すなわちカットオフ値(これらはzスコアとして用意される)と比較する際の指標となる。代表値を標準化する際に、代表値セットの分布の幅(width)を取得する必要がある。幅は差の値のセットの分布の幅から間接的に取得してもよい。差の値の分布の幅を取得し、取得した幅を補償係数で補正する。補償係数は代表値によって異なり得る。例えば、代表値が平均の場合には、補償係数は1√nである。補償係数はモンテカルロ法のようなシミュレーションを用いて取得してもよい。代表値セットの分布のwidthは分布から直接取得してもよい。例えば、IQR(Interquartile Range)やMAD(Mean Absolute Deviation)を分布の幅として用いても良い。幅は代表値セットのQ-Qプロットを近似する直線回帰の傾きから取得してもよい。幅は様々な実測に基づいて予め決定してもよい。具体的には、様々な計測から取得した幅のセットを用意し、このセットの最頻値を予め決定した幅として用いても良い。代表値セットの標準化に標準偏差を用いても良い。 A set of values representative of the window is standardized to obtain a z-score of the representative value and compared with the rejection limit value (S5 in FIG. 14). The z score of the representative value serves as an index for comparison with a preset rejection limit value, that is, a cutoff value (these are prepared as a z score). When standardizing the representative value, it is necessary to obtain the width of the distribution of the representative value set. The width may be obtained indirectly from the width of the distribution of the difference value set. The width of the difference value distribution is acquired, and the acquired width is corrected by the compensation coefficient. The compensation factor may vary depending on the representative value. For example, when the representative value is an average, the compensation coefficient is 1√n. The compensation coefficient may be obtained using a simulation such as a Monte Carlo method. The width of the distribution of the representative value set may be obtained directly from the distribution. For example, IQR (Interquartile Range) or MAD (Mean Absolute Deviation) may be used as the distribution width. The width may be obtained from the slope of a linear regression that approximates the Q-Q plot of the representative value set. The width may be determined in advance based on various actual measurements. Specifically, a set of widths acquired from various measurements may be prepared, and the mode value of this set may be used as a predetermined width. Standard deviation may be used for standardization of the representative value set.

可能性のある欠陥セル値を含む1つあるいは複数の窓が、指標の予測される正規分布に基づいて予め決定された棄却限界値と各指標値とを比較することで検出される。その指標値が予め決定した棄却限界値を越える窓は、欠陥セル値を含む小領域であるとみなされる(図14 S6)。棄却限界値は、正規分布にしたがってオペレータにより予めzスコアとして決定される。例えば、理想的な正規分布から2つの窓をキャンセルしたい場合には、zスコアとして4.61が予め決定され得る。しかしながら、4.61の棄却限界値が設定された場合には、2つより多い窓が通常検出される。 One or more windows containing possible defective cell values are detected by comparing each index value with a rejection limit value predetermined based on a predicted normal distribution of the index. A window whose index value exceeds a predetermined rejection limit value is regarded as a small region including a defective cell value (S6 in FIG. 14). The rejection limit value is determined in advance as a z-score by the operator according to a normal distribution. For example, when it is desired to cancel two windows from an ideal normal distribution, 4.61 can be determined in advance as the z score. However, if a rejection limit value of 4.61 is set, more than two windows are usually detected.

検出された1つあるいは複数の窓の全てのセル値がキャンセルすなわち棄却される(図14 S7)。例えば、窓が25のセル(5×5)に対応する場合には、1つの窓につき25個のセルが廃棄される。もし2つの検出された窓が離隔している場合には、50個のセル値が廃棄される。もし、2つの検出された窓が5×4で重複する場合には、5×6セルの領域が廃棄領域となる。棄却後に残ったデータおよび/あるいは棄却されたデータは、例えば、図表やプローブセルのアレイ画像といった様々な形式で表示装置に表示させてもよい。あるいは、検出された1つあるいは複数の窓のセル値をキャンセルする代わりに補正してもよい。 All the cell values of the detected window or windows are canceled or rejected (S7 in FIG. 14). For example, if a window corresponds to 25 cells (5 × 5), 25 cells are discarded per window. If the two detected windows are separated, 50 cell values are discarded. If the two detected windows overlap by 5 × 4, the 5 × 6 cell area becomes the discard area. The data remaining after the rejection and / or the rejected data may be displayed on the display device in various formats such as a chart or an array image of the probe cell. Or you may correct | amend instead of canceling the cell value of the detected 1 or several window.

本発明の典型的な実施形態では、予め決定された1つのサイズの窓が用いられる。しかしながら、他の実施形態では、予め決定された異なるサイズの窓を用いても良い。例えば、3×3セルに対応する1つの窓と、7×7セルに対応するもう1つの窓を用い、結果を統合する。すなわち、2つの代表値のセットに基づいて窓が検査される。検出された窓が異なるサイズの窓の結果の間で比較され、重複するセルがキャンセルされる。例えば、検出された窓が完全に重複する場合には、3×3セルのセルデータが棄却される。 In an exemplary embodiment of the invention, a predetermined size window is used. However, in other embodiments, different sized windows may be used. For example, one window corresponding to 3 × 3 cells and another window corresponding to 7 × 7 cells are used to integrate the results. That is, the window is inspected based on a set of two representative values. The detected windows are compared between the results of different sized windows and the overlapping cells are canceled. For example, if the detected windows completely overlap, 3 × 3 cell data is rejected.

続く章では、問題を見出して取り除くアルゴリズムについて説明する。問題は、データ分布の手段によって生物学的影響から識別される。アルゴリズムは幾つかの実証可能な仮定に基づいており、これらの仮定の妥当性は、結果の章において、限定しない例示としてのGeneChipデータを用いてテストされた。アルゴリズムの有効性及びデータキャンセルの効果は一連の実験から取得されたGeneChipデータを用いてテストされた。本アルゴリズムは、測定の再現性を大きく向上させ、また、欠陥の無いデータはほんの少ししか除去されないことを示した。 In the following chapter, we describe an algorithm for finding and removing problems. Problems are identified from biological effects by means of data distribution. The algorithm is based on several demonstrable assumptions, and the validity of these assumptions was tested in the results section using non-limiting exemplary GeneChip data. The effectiveness of the algorithm and the effect of data cancellation were tested using GeneChip data obtained from a series of experiments. The algorithm greatly improved the reproducibility of the measurement and showed that only a small amount of defect-free data was removed.

B 具体的な手法及び実験
B−1 アルゴリズム
マイクロアレイ問題を同定するための提案する手法は、以降パラメトリックスキャニングアルゴリズム(parametric scanning algorithm)と呼び、以下に説明する。
B Specific Methods and Experiments B-1 Algorithm The proposed method for identifying the microarray problem is hereinafter referred to as a parametric scanning algorithm and will be described below.

本発明は、データ分布の特徴に基づいて欠陥を検出するパラメトリックスキャニングアルゴリズムを提供する。窓アルゴリズムを用いてセルデータ全体が走査され、棄却限界値(閾値としても知られる)を超える指標値を備えた窓は欠陥として認識され、アレイデータから除去される。指標は、ターゲットと複数の実験におけるトリム平均として得られた理想的基準との差から求められ、各区域における複数の差の統計的中心を表す。閾値はオペレータによって指定されたスクリーニングレベルで導出されるが、データのキャンセルについては限定的な影響しか持たない。 The present invention provides a parametric scanning algorithm that detects defects based on data distribution characteristics. The entire cell data is scanned using a window algorithm, and windows with index values that exceed a critical value (also known as a threshold) are recognized as defects and are removed from the array data. The index is determined from the difference between the target and the ideal criterion obtained as the trimmed average in multiple experiments and represents the statistical center of the multiple differences in each zone. The threshold is derived at the screening level specified by the operator, but has only a limited effect on data cancellation.

基準となる理想的なアレイが選択され、各チップにおいて特有の区域のサイズを代表する指標が決定される。基準に比べて閾値よりも大きい指標を備えた領域が問題領域として認識される。 A reference ideal array is selected and an index representative of the size of the unique area at each chip is determined. An area having an index larger than the threshold value compared to the reference is recognized as a problem area.

基準(standard)は、複数のハイブリダイゼーションにおけるトリム平均のセットとして得られる。実験結果は、それぞれのメディアン値(PMセルおよびMMセルを含む)を割ることで標準化され、対数を取る。アレイの各セルのデータのトリム平均が計算され、結果として得られた平均のセットがハイブリダイゼーションの理想的な基準として採用される。もし、平均が、十分に大きい数のアレイデータを用いて計算されれば、値は安定的であり基準として適切であると考えることができる。理想的な基準においては特別な分布は期待されない。 The standard is obtained as a set of trim averages in multiple hybridizations. The experimental results are normalized by taking the logarithm of each median value (including PM and MM cells). A trimmed average of the data for each cell in the array is calculated and the resulting set of averages is taken as an ideal criterion for hybridization. If the average is calculated using a sufficiently large number of array data, the value can be considered stable and suitable as a reference. No special distribution is expected in the ideal standard.

単純に標準化されたアレイデータと基準との差が各セルについて取得される。これらの差は、生物学的応答及び実験ノイズの両方を表しているであろう。差の分布は概ね正規分布することが予測される。なぜなら、適切に計測されかつ標準化された生物学的変化の対数は正規分布に従うからである。差は、分布パラメータのロバストなエスティメータを用いてz標準化され、分布は、quantile-quantile(Q-Q)プロット上でチェックされる。差の標準化は差の特徴の分析のためのものであり、本発明においては任意の工程である。 The difference between simply standardized array data and the reference is obtained for each cell. These differences will represent both biological responses and experimental noise. It is predicted that the difference distribution is generally normal. This is because the logarithm of appropriately measured and standardized biological changes follows a normal distribution. The difference is z-normalized using a robust estimator of the distribution parameters and the distribution is checked on a quantile-quantile (Q-Q) plot. Difference normalization is for analysis of difference features and is an optional step in the present invention.

指標は、アレイ上の窓内の複数のセルに対応する複数の近傍セルにおける差のz標準化された値のメディアンを用いて得られる。差のマトリックスは、チップの物理的な並びを反映するように再配置され、チップの疑似画像に亘って走査するようにシミュレートする移動窓によってデータが収集され、メディアンを求める。窓のメディアンは生物学的応答に対してロバストである。なぜなら、チップ上の隣接するセルは生物学的関係を有していないからである。対照的に、窓においてシグナルを隠したり追加したりする実験上の問題は窓のメディアンに影響を与え得る。窓のメディアンは、中心極限定理により特徴付けられる効果にしたがって、厳密な意味で正規分布に従うであろう。このモデルは問題についての特定の分布は期待しないが、影響を受けた窓はマトリックスメディアンの正規分布における外れ値を生成するであろう。 The indication is obtained using a median of z-standardized values of differences in a plurality of neighboring cells corresponding to a plurality of cells in a window on the array. The matrix of differences is rearranged to reflect the physical alignment of the chips, and data is collected by moving windows that simulate scanning across the pseudo image of the chips to determine the median. The window median is robust to biological responses. This is because adjacent cells on the chip have no biological relationship. In contrast, experimental problems of hiding and adding signals in the window can affect the window median. The window median will follow a normal distribution in a strict sense, according to the effects characterized by the central limit theorem. This model does not expect a specific distribution for the problem, but the affected window will produce outliers in the normal distribution of the matrix median.

指標は、マトリックスメディアンを標準化することで得られる。標準化には困難が伴う。なぜなら、マトリックスメディアンの分布の幅(width)は問題に対してロバストとは言えないからである。実際、幅は、問題の数の増加に伴って増加し得る。もし、分布が単純にz標準化されれば、認識される問題の数は低減されるであろう。しかしながら、この影響は、複数のセルの差の分布の幅から幅を見出すことによって容易に避けられる。原則として、25個のセルの窓の平均の現研究では、0.25の幅が予測された。ここで、セルの差の分布の幅は問題に対してロバストである。なぜなら、多くの問題が外れ値を生成するものの、これらは中心クオンタイル(the central quantiles)の分布に影響を与えないからである。実際には、セルの分布は完全な正規分布ではなく、データにおけるシステマティックな加法的ノイズに起因するロングテールを有する。しかしながら、適切な幅は、適切なクオンタイル(quantiles)からロバストに見積もることができる。結果として、指標の分布の幅をセルの分布に従って見積もることで問題の影響を排除することができる。システマティックノイズおよびハイブリダイゼーション問題は補償係数0.25を幾分大きい値に変化させ得る。本記述では、実際の測定の最頻値から得られた定数0.31が用いられ、この値は多くの問題の影響を受けたであろう多くの他の値よりも小さい(図1)。全ての指標はこの定数で割ることで調整、すなわち標準化される。 The indicator is obtained by standardizing the matrix median. Standardization is difficult. This is because the width of the matrix median distribution is not robust to the problem. In fact, the width can increase as the number of problems increases. If the distribution is simply z-normalized, the number of recognized problems will be reduced. However, this effect can be easily avoided by finding the width from the width of the distribution of the differences between the cells. As a rule, the current study of an average of 25 cell windows predicted a width of 0.25. Here, the width of the cell difference distribution is robust to the problem. Because many problems generate outliers, they do not affect the distribution of the central quantiles. In practice, the distribution of cells is not a perfectly normal distribution but has a long tail due to systematic additive noise in the data. However, the appropriate width can be estimated robustly from the appropriate quantiles. As a result, the influence of the problem can be eliminated by estimating the width of the index distribution according to the cell distribution. Systematic noise and hybridization problems can change the compensation factor 0.25 to somewhat larger values. In this description, the constant 0.31 obtained from the actual measurement mode value is used, which is smaller than many other values that would have been affected by many problems (FIG. 1). All indicators are adjusted or standardized by dividing by this constant.

閾値は、他の統計テストにおけるスクリーニングレベルと同様に、操作に先立って分析によって決定されたテストレベルから導出される。データハンドリングのパラメトリック特性は、50万の結果から幾つの指標が多いか(少ないか)を見積もることを可能とする。プログラムは、オペレータに幾つの窓を予測するかを尋ねる。もし、アレイがプロブレムフリーであれば、予測される窓の数はチップ上の生物学的応答のランダム近傍によって認識される。実際には、影響を受けた指標は正規分布には従わず、閾値を越える値を取るであろう。 The threshold is derived from the test level determined by analysis prior to manipulation, as is the screening level in other statistical tests. The parametric properties of data handling make it possible to estimate how many indicators are more (less) from 500,000 results. The program asks the operator how many windows to predict. If the array is problem free, the predicted number of windows is recognized by a random neighborhood of biological responses on the chip. In practice, the affected indicator will not follow a normal distribution and will take a value above the threshold.

B−2 プログラム
パラメトリックスキャニング手法のプログラムは関数Rの形式で提供される。関数はBioC(http://www.bioconductor.org/)から入手可能なライブラリ“affy”を必要とする。アウトソーシングサービスは、データ標準化の部分において利用可能である(http://www.super-norm.com)。
B-2 Program Parametric scanning method program is provided in the form of function R. The function requires the library “affy” available from BioC (http://www.bioconductor.org/). Outsourcing services are available in the data standardization part (http://www.super-norm.com).

B−3 データソース及びデータ処理
シロイヌナズナGeneChipデータはTAIR(http://www.arabidopsis.org/index.jsp)から取得した。ハイブリダイゼーションの理想的な基準の比較に用いた2つの研究グループの葉データは、発現マップを描くのに用いたロゼッタ葉の15個のアレイ(Schmid, M., Davison, T. S., Henz,
S. R., Pape, U. J., Demar, M., Vingron, M., Scholkopf, B., Weigel, D., and
Lohmann, J., A gene expression map of Arabidopsis development. Nature Genetics
37:501-506, 2005)、及び、Dr.F.Ausubelグループの感染実験における0.5〜5日後のコントロール植物の18個のアレイ(http://www.arabidopsis.org/index.jsp)である。ヒューマンデータは、パブリックドメインリソースRCAST, University of Tokyo(http://www.genome.rcast.u-tokyo.ac.jp/normal/)から得た。アレイのPMデータは、3パラメータ手法(Konishi, T., Three-parameter lognormal distribution ubiquitously found
in cDNA microarray data and its application to parametric data treatment. BMC
Bioinformatics, 5:5, 2004)にしたがって標準化した。
B-3 Data Source and Data Processing Arabidopsis GeneChip data was obtained from TAIR (http://www.arabidopsis.org/index.jsp). The leaf data of the two research groups used to compare the ideal criteria for hybridization are the 15 arrays of Rosetta leaves (Schmid, M., Davison, TS, Henz,
SR, Pape, UJ, Demar, M., Vingron, M., Scholkopf, B., Weigel, D., and
Lohmann, J., A gene expression map of Arabidopsis development.Nature Genetics
37: 501-506, 2005) and 18 arrays of control plants (http://www.arabidopsis.org/index.jsp) 0.5-5 days after infection experiment of Dr. F. Ausubel group . Human data was obtained from the public domain resource RCAST, University of Tokyo (http://www.genome.rcast.u-tokyo.ac.jp/normal/). The PM data of the array is a three-parameter method (Konishi, T., Three-parameter lognormal distribution ubiquitously found
in cDNA microarray data and its application to parametric data treatment.BMC
Bioinformatics, 5: 5, 2004).

C 結果
C−1 仮説の検証
C−1−1 ハイブリダイゼーション基準の安定性
本手法は、各データを、サンプル組織の安定したパターンを表すべきであるハイブリダイゼーションの理想的な基準と比較する。もし、パターンが本当に安定的であるならば、パターンは、同一の組織についての異なるデータセットを用いて決定された他の基準のパターンと一致するであろう。この一致を確認するため、2つの研究グループからのデータを用いて取得した基準を比較した。両グループは、葉のトランスクリプトームを決定し、一方は植物のatlasの部分であり、他方は感染実験のコントロールである。基準は、メディアンを用いて標準化された(median-normalized)対数データのトリム平均として取得した。結果を、1000個の対応するセルデータについて散布図上で比較した(図2)。研究所間の一致が確認された。他の幾つかの研究所間及び研究所内の比較でも同様の一致を提示した。このような一致は偶然で得られたものではない。例えば、異なる組織から得た基準は、異なる傾向を有し、プロットにおいてより広い散在として現れる。このような傾向は、基準の組織依存性を示し、このことは本プログラムの実際の使用において注目されるべきである。
C Results C-1 Hypothesis Verification C-1-1 Stability of Hybridization Criteria This approach compares each data with the ideal criteria for hybridization that should represent a stable pattern of sample tissue. If the pattern is really stable, the pattern will match other reference patterns determined using different data sets for the same tissue. To confirm this agreement, we compared criteria obtained using data from two study groups. Both groups determine the leaf transcriptome, one is part of the plant atlas and the other is the control for the infection experiment. The criterion was obtained as a trimmed average of logarithmic data median-normalized using the median. The results were compared on a scatter plot for 1000 corresponding cell data (FIG. 2). Agreement between laboratories was confirmed. Similar agreement was presented in comparisons between several other laboratories and within laboratories. Such a match is not a coincidence. For example, criteria obtained from different tissues have different tendencies and appear as wider scatter in the plot. Such a trend indicates the organization's dependence of the standards, which should be noted in the actual use of the program.

C−1−2 アレイデータと基準の差の正規性
提案の手法は、各データとハイブリダイゼーションの理想的な基準との差がだいたいにおいて正規分布するであろうことを仮定している。この仮定はデータ分布のQQプロットによって確認された。分布は、システマティック加法的ノイズを反映するであろうロングテールを有している。しかしながら、全ての分布は、−1.5から1.5において理論値と一致しており(図3A、3B、3C)、85%を超えるデータが正規分布に従うことが示されている。問題及びノイズが分布に影響を与えるため、多くの問題を備えたハイブリダイゼーションは図3C(ATGE 14C)の場合に見られるように、より狭い範囲で一致している。
C-1-2 The proposed method of normality of the difference between the array data and the reference assumes that the difference between each data and the ideal reference for hybridization will generally be normally distributed. This assumption was confirmed by the QQ plot of the data distribution. The distribution has a long tail that will reflect systematic additive noise. However, all distributions are in agreement with the theoretical values from -1.5 to 1.5 (FIGS. 3A, 3B, 3C), indicating that over 85% of the data follows a normal distribution. Since problems and noise affect the distribution, hybridizations with many problems are more closely matched as seen in FIG. 3C (ATGE 14C).

C−1−3 指標の分布の正規性
本発明はまた、移動する窓のメディアンから導出された指標が、大きな問題が無い場合には正規分布するであろうということを仮定している。この仮定は、QQプロットによって確認された(図4A、4B、4C)。観測された分布は、中心極限定理から予測されたように、だいだい正規分布となっている。多くのハイブリダイゼーション(図1)から決定した標準偏差0.31は、分布の幅およびプロット(図4A、4B)の傾きを良好に補償することができる。予測されたように、分布の幅は問題の厳しさと共に増加した(図4C ATGE 14C)。
C-1-3 Normality of Index Distribution The present invention also assumes that the index derived from the moving window median will be normally distributed in the absence of major problems. This assumption was confirmed by the QQ plot (FIGS. 4A, 4B, 4C). The observed distribution is almost normal as predicted by the central limit theorem. A standard deviation of 0.31 determined from many hybridizations (FIG. 1) can better compensate for the width of the distribution and the slope of the plot (FIGS. 4A, 4B). As expected, the width of the distribution increased with the severity of the problem (FIG. 4C ATGE 14C).

C−2 本手法の確認
C−2−1 繰り返し実験における再現性の向上
もしパラメトリックスキャニングが効果的にデータから問題を除去するのであれば、繰り返し実験において見られるばらつきを低減するはずである。この効果をシロイヌナズナの葉(http://www.arabidopsis.org/index.jsp)に基づいた繰り返し実験のセットを用いてチェックした。データのキャンセルの前後において、PMデータは3パラメータ手法に基づくSuperNORM(登録商標)アルゴリズムを用いて標準化した。結果として得られたzスコアは散布図(図5)上で比較され、提案手法はプロットにおいて見られる拡散(図5左)を低減させ、期待した再現性を獲得できることが示された(図5中央)。
C-2 Confirmation of this method C-2-1 Improvement of reproducibility in repeated experiments If parametric scanning effectively removes problems from data, the variation seen in repeated experiments should be reduced. This effect was checked using a set of repeated experiments based on Arabidopsis leaves (http://www.arabidopsis.org/index.jsp). Before and after data cancellation, PM data was standardized using a SuperNORM® algorithm based on a three parameter approach. The resulting z-scores were compared on the scatter plot (FIG. 5), indicating that the proposed method can reduce the diffusion seen in the plot (FIG. 5 left) and obtain the expected reproducibility (FIG. 5). Center).

他の統計的テストでは、パラメトリックスキャニングによってクリーンで欠陥のないデータのキャンセルも見られた。ある意味、これは、統計的テスト手段によって何かを見つけるために必要なコストである。しかしながら、本アルゴリズムにおいて、キャンセルされたクリーンデータの数は多くはない。キャンセルされたデータの特性は実験の再現性からチェックした(図5右)。プロット上のデータの数はハイブリダイゼーションの品質が劣化するにしたがって増加する。キャンセルされたデータはy=x線に対して狭く集中するのではなく、逆に分散した(図5右)。多くのセルデータがキャンセルされた場合にのみ一致が見られ(図5右下)、y=x線上に集中するデータはキャンセルされたデータの限定された部分に過ぎない。 In other statistical tests, parametric scanning has also shown cancellation of clean, defect-free data. In a sense, this is the cost required to find something by means of statistical testing. However, in this algorithm, the number of canceled clean data is not large. The characteristics of the canceled data were checked from the reproducibility of the experiment (right of FIG. 5). The number of data on the plot increases as the quality of hybridization degrades. The canceled data did not concentrate narrowly with respect to the y = x line, but was dispersed instead (right in FIG. 5). A match is seen only when a lot of cell data is canceled (lower right in FIG. 5), and the data concentrated on the y = x line is only a limited part of the canceled data.

図5に示す実験例において、ばらつきが大きいものもある。これらの実験例は多くの試験における例外ではない。図6は、異なる期待値の下でのキャンセルデータを比較したものである。図6のデータソースは以下のとおりである:□(Schmid, M., Davison, T. S., Henz, S.
R., Pape, U. J., Demar, M., Vingron, M., Scholkopf, B., Weigel, D., and
Lohmann, J., A gene expression map of Arabidopsis development. Nature
Genetics 37:501-506, 2005); ○(http://www.arabidopsis.org/index.jsp); △(Ge, X., Yamamoto, S., Tsutsumi,
S., Midorikawa, Y., Ihara S., Wang S., Aburatani H., Interpreting expression
profiles of cancers by genome-wide survey of breadth of expression in normal
tissues, Genomics. 86:127-141, 2005.).極端な実験例は外れ値から取られていないことがわかる。
Some of the experimental examples shown in FIG. 5 have large variations. These experimental examples are no exception in many tests. FIG. 6 compares cancellation data under different expected values. The data sources in FIG. 6 are as follows: □ (Schmid, M., Davison, TS, Henz, S.
R., Pape, UJ, Demar, M., Vingron, M., Scholkopf, B., Weigel, D., and
Lohmann, J., A gene expression map of Arabidopsis development. Nature
Genetics 37: 501-506, 2005); ○ (http://www.arabidopsis.org/index.jsp); △ (Ge, X., Yamamoto, S., Tsutsumi,
S., Midorikawa, Y., Ihara S., Wang S., Aburatani H., Interpreting expression
profiles of cancers by genome-wide survey of breadth of expression in normal
tissues, Genomics. 86: 127-141, 2005.) It can be seen that extreme experimental examples are not taken from outliers.

ペアのハイブリダイゼーションの対応するPMセルのzスコアの差の標準偏差の低減から再現性の向上をチェックした。加法的ノイズおよび測定の飽和の影響を最小化するため、標準偏差は標準化された値(0〜1)を用いて計算された。影響は散布図(図7)上でチェックされ、パラメトリックスキャニングは得られたzスコア間の差における標準偏差を低減させることが示された。 The improvement in reproducibility was checked by reducing the standard deviation of the difference in z-scores of the corresponding PM cells in the pair hybridization. In order to minimize the effects of additive noise and measurement saturation, standard deviations were calculated using standardized values (0-1). The effect was checked on a scatter plot (FIG. 7) and parametric scanning was shown to reduce the standard deviation in the difference between the obtained z-scores.

C−2−2 他のアルゴリズムとの比較
新たらしい実験データではなく同じアレイのセットについてdChipパッケージにおける他の手法を用いて処理することで、本手法を評価した。dChipによって認識された全てのスパイク(spikes)及び外れ値(outliers)がPM-onlyモデルを用いてキャンセルされ、データは同一の手法で標準化された。図8に示すように、dChipはより低い再現性を示し(図8左)、低い検出能力を示している。このことはdChipが欠陥のあるデータを保持することを意味するものではなく、幾つかの遺伝子(全体の0.004〜6.4%)についての全体のセルのセットをキャンセルするものであり、これに対してパラメトリックスキャンでは完全にキャンセルされた遺伝子は1つもない。このような遺伝子においては、いかなる情報も分析のために保持されない。表1はセルの全体がキャンセルされた遺伝子の数を示す(単位は%)。

Figure 0005147084
C-2-2 Comparison with other algorithms This method was evaluated by processing the same set of arrays rather than new experimental data using other methods in the dChip package. All spikes and outliers recognized by dChip were canceled using the PM-only model, and the data was standardized in the same way. As shown in FIG. 8, dChip shows lower reproducibility (left side of FIG. 8) and low detection capability. This does not mean that dChip retains the defective data, but cancels the entire set of cells for some genes (0.004-6.4% of the total) None of the genes were completely canceled in the parametric scan. In such genes, no information is retained for analysis. Table 1 shows the number of genes in which the entire cell was canceled (unit:%).
Figure 0005147084

C−2−3 閾値パラメータの感度
各ハイブリダイゼーションにおいて実際にキャンセルされたデータ数は、オペレータによって決定された試験レベルの閾値パラメータに明確に依存するものではなかった。棄却されたデータの数は、閾値パラメータから推測された期待数よりもより多く、2つの窓の50個のセルが期待された場合であっても、全セル数(数万)の四分の一にまで達した。しかしながら、キャンセルされたセルの数は、期待では2から20へ増加するとした場合であっても、10倍増加することはなかった。期待数と実際にキャンセルされた数との関係は、キャンセルされたデータ数が増加するだけ弱くなる。3つの異なる研究所から取得したデータを処理することは、2つの期待数でキャンセルされた窓間の安定した関係を示唆している(図7)。プロットにおいて(1.7, 2.7)で現れた期待数は、推測された関係を満たしていることに着目される(図7)。
C-2-3 Sensitivity of Threshold Parameter The number of data actually canceled in each hybridization did not clearly depend on the test level threshold parameter determined by the operator. The number of rejected data is greater than the expected number estimated from the threshold parameter, even if 50 cells in two windows are expected, a quarter of the total number of cells (tens of thousands) Reached up to one. However, the number of cells that were canceled did not increase by a factor of 10, even though it was expected to increase from 2 to 20. The relationship between the expected number and the actually canceled number becomes weaker as the number of canceled data increases. Processing data acquired from three different laboratories suggests a stable relationship between windows canceled with two expected numbers (FIG. 7). It is noted that the expected number appearing at (1.7, 2.7) in the plot satisfies the inferred relationship (FIG. 7).

キャンセルされたデータの数はハイブリダイゼーションの品質に依存し得る。大きな問題が見つかった時にキャンセルの数がより多く観測される(図5)。キャンセルされた窓はしばしばチップにおいてクラスタを形成し、クラスタ内に単一の原因があることを示唆する(図9)。このようなクラスタは、期待パラメータの値によらず見られる。キャンセルの頻度および面積は、異なる研究所から得られたデータ間で異なった(図6)。ある特定の研究所(図における△)におけるデータは他の研究所からのデータに比べて明らかに大きい。多くのクラスタは、チップ表面のポリッシング(polishing)や不均一なハイブリダイゼーションを表している。問題の頻度における差は、研究所および準備の時間によって異なるであろうウェット実験におけるプロトコールおよびスキルに起因しがちである。これらの問題は、高い指標値によって強調され、期待数がより少ない時であっても厳しい欠陥セルの場合には、多くのキャンセルされた窓を生成する。 The number of data canceled can depend on the quality of hybridization. When a major problem is found, more cancellations are observed (Figure 5). Canceled windows often form clusters at the chip, suggesting that there is a single cause within the cluster (FIG. 9). Such a cluster is seen regardless of the value of the expected parameter. The frequency and area of cancellation varied between data obtained from different laboratories (FIG. 6). The data at one particular laboratory (Δ in the figure) is clearly larger than the data from other laboratories. Many clusters represent polishing or non-uniform hybridization of the chip surface. Differences in problem frequency tend to be due to protocols and skills in wet experiments that will vary with laboratory and preparation time. These problems are accentuated by high index values and produce many canceled windows in the case of severe defective cells even when the expected number is smaller.

上記結果は、期待値パラメータの値に対してパラメトリックスキャニングが影響を受けにくいことを示し、すなわち、提案手法は問題検出に関して正確さを備えている。このような不感応は、本アルゴリズムの客観性を意味している。なぜなら、閾値がオペレータの選択の影響を受ける唯一のパラメータであるからである。 The above results show that parametric scanning is less sensitive to the value of the expected value parameter, i.e., the proposed method is accurate with respect to problem detection. Such insensitivity means the objectivity of this algorithm. This is because the threshold is the only parameter that is affected by the operator's choice.

上記の見解に基づいて、提案手法は、標準化に先立った全てのGeneChip発現データにおいての実際の使用として奨励される。本手法における仮定は、データ分布の分析を通して実証され、任意のパラメータのみが結果に限定的な影響を与えうることが示された。さらに、多くの追加実験を通して(記載せず)、パラメータスキャニング手法がハイブリダイゼーション問題を排除することに有効であることがわかった。本手法の妥当性は、ソフトウェアによって提供されるチェックプロセスのための必要なデータを備えることで、全ての分析においてチェックすることができる。キャンセルされたデータの数は常に期待数よりも多く、このことは殆どのハイブリダイゼーションは何等かの問題を有していることを示唆している。 Based on the above view, the proposed method is encouraged for actual use in all GeneChip expression data prior to standardization. The assumptions in this approach have been verified through analysis of data distribution, indicating that only arbitrary parameters can have a limited impact on the results. Furthermore, through many additional experiments (not shown), it has been found that parameter scanning techniques are effective in eliminating hybridization problems. The validity of this approach can be checked in every analysis by providing the necessary data for the checking process provided by the software. The number of canceled data is always higher than expected, suggesting that most hybridizations have some problem.

検出された問題は、表面ポリッシング、不均一なハイブリダイゼーション、作製されたセル構造におけるエラー、を示すパターンを有している。チップの中央を囲む対称状のクラスタ(図9右下)はポリッシングアーチファクト(polishing artifacts)と同定される。このような場合、影響を受けた領域におけるシグナルは常に低く、したがって期待値に対して不感応である。表面ポリッシングの程度が進んだ場合には、共通のドーナツ様のクラスタパターンを形成する。対照的に、不定形のクラスタは不均一なハイブリダイゼーションを示す傾向にある。クラスタ内において、データは増加あるいは減少する傾向にあり、実験的な再現性を伴う散布図における拡散を生成するであろう(図5)。このような不均一は幾つかの原因から派生すると考えられ、幾つかの特有の区域は期待値に対して不感応であるが、そうでないものもある(図9 ATGE_14_C)。感度における差は、欠陥の大きさにおける差に対応する。より小さいクラスタあるいは孤立した窓として検出された欠陥はダストにより形成されたものであり得る。再度述べるが、特徴は特異的であるものもあるが、そうでないものもある。チップ構造におけるエラーは、多数のチップの同じ部分における繰り返しのクラスタとして認識され、しばしば直線によって囲まれた規則的な形状を形成する。問題によって引き起こされたものもあり得るが、これらの欠陥の多くは問題ではなく、設計されチップ上に配置されたセルを制御し、同じバッチ番号(すなわち、同じ製造ロット)の全てのチップに現れる。このような問題は品質管理においては検出されないプロダクトエラーによって引き起こされ得るものであり、深刻な問題をもたらし得る。図5に示す場合において、大きい上向きの拡散はこのような欠陥に起因するものである(図9 左下)。 The detected problems have a pattern that indicates surface polishing, non-uniform hybridization, and errors in the fabricated cell structure. A symmetrical cluster (lower right of FIG. 9) surrounding the center of the chip is identified as polishing artifacts. In such cases, the signal in the affected area is always low and is therefore insensitive to the expected value. When the degree of surface polishing progresses, a common donut-like cluster pattern is formed. In contrast, amorphous clusters tend to show heterogeneous hybridization. Within the cluster, the data will tend to increase or decrease, producing a scatter plot with experimental reproducibility (Figure 5). Such inhomogeneities are thought to be derived from several causes, and some unique areas are insensitive to the expected values, but others are not (Figure 9 ATGE_14_C). The difference in sensitivity corresponds to the difference in defect size. Defects detected as smaller clusters or isolated windows can be those formed by dust. Again, some features are specific, others are not. Errors in the chip structure are perceived as repeated clusters in the same part of multiple chips, often forming a regular shape surrounded by straight lines. Many of these defects are not a problem, they can be caused by problems, but they control the cells that are designed and placed on the chip and appear on all chips in the same batch number (ie, the same production lot) . Such problems can be caused by product errors that are not detected in quality control and can lead to serious problems. In the case shown in FIG. 5, the large upward diffusion is due to such defects (lower left of FIG. 9).

提案手法はマイクロアレイデータ分析におけるフォルスポジティブを低減する。このようなエラーはマイクロアレイ分析に特有なものではなく、マイクロアレイを用いて実施される多重のテストがエラーの重大性を増加させる。ほんの限られた数の遺伝子プロダクトを測定する従来手法に対して、特徴的に異なる分析ターゲットを生成するマイクロアレイや他のポストゲノム分析の広範囲に亘って多重性(Multiplicity)が了解されている。過度の多重比較において、多数のフォルスポジティブは分析を妨げ、研究所間および研究所内において観測の矛盾を生成する。例えば、1%の確率のtype-Iエラーを許容すると、50万回の両面テストは10000個のエラーを生成する。ハイブリダイゼーション問題を無視することは、この期待を大きく向上させるであろう(図5)。また、このような問題はデータの標準化および遺伝子の要約データに影響を与えるであろう。したがって、ハイブリダイゼーション問題を検出し標準化の前に排除する必要がある。提案手法はハイブリダイゼーションの欠陥のない領域からクリーンデータを取り出し、キャンセル後に残ったデータを標準化してさらなる分析に用いることができる。残ったデータセットは再現性実験における対応する対とのだいだいの一致を示した(図5中央)。アレイにおける遺伝子および/あるいはアレイ全体をキャンセルするアドホックな手法と比較して全体としての実験コストを低減することができる。 The proposed method reduces false positives in microarray data analysis. Such errors are not unique to microarray analysis, and multiple tests performed using microarrays increase the severity of the error. Multiplicity has been recognized over a wide range of microarrays and other post-genome analyzes that produce characteristically different analytical targets compared to conventional methods that measure only a limited number of gene products. In excessive multiple comparisons, a large number of false positives hinder analysis and create observational discrepancies between and within laboratories. For example, if a 1% probability type-I error is allowed, 500,000 double-sided tests will generate 10,000 errors. Ignoring the hybridization problem will greatly improve this expectation (FIG. 5). Such issues will also affect data normalization and gene summary data. Therefore, hybridization problems need to be detected and eliminated before standardization. The proposed method can extract clean data from an area free from hybridization defects, standardize the data remaining after cancellation, and use it for further analysis. The remaining data set showed good agreement with the corresponding pair in the reproducibility experiment (middle of FIG. 5). The overall experimental cost can be reduced as compared to the ad hoc technique of canceling the genes in the array and / or the entire array.

Rプログラムは、ハイブリダイゼーションの理想的な基準の発見における組織の影響を受け得る。すなわち、基準は、サンプルにおける細胞の差異にしたがって変化し得る。このような影響は、異なる組織における多数のアレイと共に少数のアレイを処理する場合に起こり得る。また、4個よりも少ないアレイを用いてデータを処理することは薦められない。基準が安定ではないと考えられるからである。基準の安定性は、図2に示す手法を用いてチェックすることができ、組織の影響は、図9に見られるキャンセルされた窓のクラスタを生成することなくキャンセル数が著しく増加することにより気付くことができる。このような問題は、認識処理と独立させて基準を見出すことによって防ぐことができる。実際には、理想的な基準を発見するためには2つの代替的手法が採用され得る。多くのアレイの多様な組織からランダムに選択されたサンプルを用いる、あるいは、組織特異基準を見出し、これを対応するアレイに用いる。 R programs can be influenced by tissues in finding the ideal criteria for hybridization. That is, the criteria can vary according to cell differences in the sample. Such an effect can occur when processing a small number of arrays with a large number of arrays in different tissues. Also, it is not recommended to process data using fewer than four arrays. This is because the standard is not considered stable. The stability of the criteria can be checked using the technique shown in FIG. 2, and the effect of the organization is noticed by a significant increase in the number of cancellations without generating the canceled window cluster seen in FIG. be able to. Such a problem can be prevented by finding a reference independent of the recognition process. In practice, two alternative approaches can be employed to find the ideal criteria. Use a randomly selected sample from a variety of tissues in many arrays, or find a tissue-specific criterion and use it in the corresponding array.

本発明は、例えばmRNAレベルの測定やSNPsを発見することを含むヌクレオチドハイブリダイゼーションの検出のためのマイクロアレイ分析に用いることができる。 The present invention can be used for microarray analysis for detection of nucleotide hybridization including, for example, measurement of mRNA levels and discovery of SNPs.

Claims (17)

DNAマイクロアレイから取得されたセル値のセットからなるターゲットDNAマイクロアレイデータを用意するステップ;
基準値のセットからなる基準データを用意するステップであって、各基準値は前記DNAマイクロアレイデータの各セル値に対応しており;
DNAマイクロアレイデータの各セル値と前記基準データの各基準値との差の値を取得するステップ;
前記DNAマイクロアレイデータの各セル値を各差の値で置き換えて疑似画像を取得するステップ;
前記疑似画像において予め決定された数のセルに対応する小領域を代表する値を、当該予め決定された数のセルの差の値に基づいて計算するステップであって、前記小領域を前記疑似画像上で1セルずつ移動させながら前記計算を繰り返して小領域を代表する値のセットを取得するステップ;
前記代表値のセットの期待される正規分布と前記代表値のセットの分布との比較に基づいて外れ代表値を含む1つまたは複数の小領域を検出するステップであって、前記検出された1つまたは複数の小領域は欠陥セル値を含んでいる;
DNAマイクロアレイデータにおける欠陥の検出方法。
Providing target DNA microarray data comprising a set of cell values obtained from a DNA microarray;
Providing reference data comprising a set of reference values, each reference value corresponding to each cell value of the DNA microarray data;
Obtaining a difference value between each cell value of the DNA microarray data and each reference value of the reference data;
Replacing each cell value of the DNA microarray data with each difference value to obtain a pseudo image;
Calculating a value representative of a small area corresponding to a predetermined number of cells in the pseudo-image based on a difference value of the predetermined number of cells, wherein Obtaining a set of values representing a small region by repeating the calculation while moving one cell at a time on the image;
Detecting one or more subregions containing outlier representative values based on a comparison between an expected normal distribution of the representative value set and a distribution of the representative value set, wherein the detected 1 One or more subregions contain defective cell values;
A method for detecting defects in DNA microarray data.
前記ターゲットDNAマイクロアレイデータ及び前記基準データは標準化されている、請求項1に記載の方法。  The method according to claim 1, wherein the target DNA microarray data and the reference data are standardized. 前記セル値及び前記基準値は対数値である、請求項1、2いずれかに記載の方法。  The method according to claim 1, wherein the cell value and the reference value are logarithmic values. 前記基準値は、複数の標準化されたDNAマイクロアレイデータから取得した各セル値を代表する値である、請求項1に記載の方法。  The method according to claim 1, wherein the reference value is a value representative of each cell value acquired from a plurality of standardized DNA microarray data. 前記複数の標準化されたDNAマイクロアレイデータは、前記ターゲットDNAマイクロアレイデータと同じタイプのDNAマイクロアレイデータから取得される、請求項4に記載の方法。  5. The method of claim 4, wherein the plurality of standardized DNA microarray data is obtained from the same type of DNA microarray data as the target DNA microarray data. 前記基準値のための前記複数の標準化されたDNAマイクロアレイデータは、同じ組織に基づいて取得される、請求項4、5いずれかに記載の方法。  The method according to claim 4, wherein the plurality of standardized DNA microarray data for the reference value is acquired based on the same tissue. 前記基準値のための前記複数の標準化されたDNAマイクロアレイデータは、複数の異なる組織に基づいて取得される、請求項4、5いずれかに記載の方法。  The method according to claim 4, wherein the plurality of standardized DNA microarray data for the reference value is acquired based on a plurality of different tissues. 前記各セルを代表する値は、代表値(measure of central tendency)である、請求項4乃至7いずれかに記載の方法。  The method according to claim 4, wherein the value representative of each cell is a representative value (measure of central tendency). 前記代表値(measure of central tendency)は、メディアン、トリム平均、あるいは、重み付け平均である、請求項8に記載の方法。  9. The method of claim 8, wherein the measure of central tendency is a median, trimmed average, or weighted average. 前記小領域のサイズは、3セル×3セル〜10セル×10セルである、請求項1乃至9いずれかに記載の方法。  The method according to any one of claims 1 to 9, wherein a size of the small region is 3 cells x 3 cells to 10 cells x 10 cells. 前記小領域を代表する値は、代表値(measure of central tendency)である、請求項1乃至10いずれかに記載の方法。  The method according to any one of claims 1 to 10, wherein the value representative of the small region is a representative value (measure of central tendency). 前記代表値(measure of central tendency)は、メディアン、トリム平均、あるいは、重み付け平均である、請求項11に記載の方法。  The method of claim 11, wherein the measure of central tendency is a median, trimmed average, or weighted average. 前記検出ステップは、
前記小領域を代表する値のセットを標準化して指標のセットを取得するステップと、
前記指標のセットの期待される正規分布に基づいて予め決定した棄却限界値を超える指標を備えた1つあるいは複数の小領域を検出するステップと、
を備えた請求項1に記載の方法。
The detecting step includes
Standardizing a set of values representative of the small region to obtain a set of indicators;
Detecting one or more subregions with an index that exceeds a predetermined rejection threshold based on an expected normal distribution of the set of indices;
The method of claim 1 comprising:
前記指標及び前記棄却限界値はzスコアである、請求項13に記載の方法。  The method of claim 13, wherein the index and the rejection limit are z scores. さらに、前記検出された1つあるいは複数の小領域に属する複数のセルのセル値を棄却するステップを含む、請求項1乃至14いずれかに記載の方法。  The method according to any one of claims 1 to 14, further comprising the step of rejecting cell values of a plurality of cells belonging to the detected one or more subregions. 請求項1乃至15いずれかに記載の方法をコンピュータに実行させるためのコンピュータプログラム。  A computer program for causing a computer to execute the method according to claim 1. DNAマイクロアレイから取得されたセル値のセットからなるターゲットDNAマイクロアレイデータを用意するステップ;
基準値のセットからなる基準データを用意するステップであって、各基準値は前記DNAマイクロアレイデータの各セル値に対応しており;
DNAマイクロアレイデータの各セル値と前記基準データの各基準値との差の値を取得するステップ;
前記DNAマイクロアレイデータの各セル値を各差の値で置き換えて疑似画像を取得するステップ;
前記疑似画像において予め決定された数のセルに対応する小領域を代表する値を、当該予め決定された数のセルの差の値に基づいて計算するステップであって、前記小領域を前記疑似画像上で1セルずつ移動させながら前記計算を繰り返して小領域を代表する値のセットを取得するステップ;
前記代表値のセットの期待される正規分布と前記代表値のセットの分布との比較に基づいて外れ代表値を含む1つまたは複数の小領域を検出するステップであって、前記検出された1つまたは複数の小領域は欠陥セル値を含んでいる;
前記検出された1つまたは複数の小領域に属する全てのセルのセル値を廃棄する;
DNAマイクロアレイデータにおける欠陥の検出・除去方法。
Providing target DNA microarray data comprising a set of cell values obtained from a DNA microarray;
Providing reference data comprising a set of reference values, each reference value corresponding to each cell value of the DNA microarray data;
Obtaining a difference value between each cell value of the DNA microarray data and each reference value of the reference data;
Replacing each cell value of the DNA microarray data with each difference value to obtain a pseudo image;
Calculating a value representative of a small area corresponding to a predetermined number of cells in the pseudo-image based on a difference value of the predetermined number of cells, wherein Obtaining a set of values representing a small region by repeating the calculation while moving one cell at a time on the image;
Detecting one or more subregions containing outlier representative values based on a comparison between an expected normal distribution of the representative value set and a distribution of the representative value set, wherein the detected 1 One or more subregions contain defective cell values;
Discard cell values of all cells belonging to the detected one or more sub-regions;
A method for detecting and removing defects in DNA microarray data.
JP2009520720A 2006-11-21 2007-11-15 Method for detecting defects in DNA microarray data Expired - Fee Related JP5147084B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US86068006P 2006-11-21 2006-11-21
US60/860,680 2006-11-21
PCT/JP2007/072605 WO2008062855A1 (en) 2006-11-21 2007-11-15 A method of detecting defects in dna microarray data

Publications (2)

Publication Number Publication Date
JP2010510557A JP2010510557A (en) 2010-04-02
JP5147084B2 true JP5147084B2 (en) 2013-02-20

Family

ID=39429785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009520720A Expired - Fee Related JP5147084B2 (en) 2006-11-21 2007-11-15 Method for detecting defects in DNA microarray data

Country Status (2)

Country Link
JP (1) JP5147084B2 (en)
WO (1) WO2008062855A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3214358A1 (en) * 2016-09-22 2018-03-29 Illumina, Inc Somatic copy number variation detection

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2002001477A1 (en) * 2000-06-28 2004-03-04 株式会社先端科学技術インキュベーションセンター Gene expression data processing method and processing program
CA2472733C (en) * 2002-01-18 2012-03-06 Syngenta Participations Ag Probe correction for gene expression level detection
JP4266575B2 (en) * 2002-06-07 2009-05-20 株式会社東京大学Tlo Gene expression data processing method and processing program
WO2006030822A1 (en) * 2004-09-14 2006-03-23 Toudai Tlo, Ltd. Gene expression data processing method and processing program

Also Published As

Publication number Publication date
WO2008062855A1 (en) 2008-05-29
JP2010510557A (en) 2010-04-02

Similar Documents

Publication Publication Date Title
Goryachev et al. Unfolding of microarray data
RU2768718C2 (en) Detection of somatic variation of number of copies
CA3037366A1 (en) Noninvasive prenatal screening using dynamic iterative depth optimization
US20050019787A1 (en) Apparatus and methods for analyzing and characterizing nucleic acid sequences
CN110800061A (en) System and method for determining microsatellite instability
CN108018296A (en) DDX24 gene mutations and its application
Arteaga-Salas et al. An overview of image-processing methods for Affymetrix GeneChips
CN115394357A (en) Site combination for judging sample pairing or pollution and screening method and application thereof
Rendeiro et al. The spatio-temporal landscape of lung pathology in SARS-CoV-2 infection
JP5147084B2 (en) Method for detecting defects in DNA microarray data
CN111508559B (en) Method and device for detecting target area CNV
Suárez-Fariñas et al. " Harshlighting" small blemishes on microarrays
CN113789371A (en) Method for detecting copy number variation based on batch correction
KR101473705B1 (en) System and method for analyzing biological sample
US20130151164A1 (en) Systems and Methods for Analyzing Microarrays
WO2006030822A1 (en) Gene expression data processing method and processing program
Konishi Detection and restoration of hybridization problems in affymetrix GeneChip data by parametric scanning
KR100755096B1 (en) Mathematical Analysis for the Estimation of Changes in the Level of Gene Expression
Dror et al. Bayesian estimation of transcript levels using a general model of array measurement noise
US20080090735A1 (en) Methods and systems for removing offset bias in chemical array data
US20150347674A1 (en) System and method for analyzing biological sample
US20160265051A1 (en) Methods for Detection of Fetal Chromosomal Abnormality Using High Throughput Sequencing
JP2007049126A (en) Test method for detecting locality fault on semiconductor wafer and test system using the same
Rueda Image Processing of Affymetrix Microarrays
Arteaga-Salas 9 Image Processing of Affymetrix Microarrays

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101029

AA91 Notification that invitation to amend document was cancelled

Free format text: JAPANESE INTERMEDIATE CODE: A971091

Effective date: 20101130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121122

R150 Certificate of patent or registration of utility model

Ref document number: 5147084

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees