CZ20003884A3

CZ20003884A3 - Způsob vyhodnocování chemických a biologických vzorků, získaných z maticových hybridizačních testů

Info

Publication number: CZ20003884A3
Application number: CZ20003884A
Authority: CZ
Inventors: Peter Ramm; Robert Nadon
Original assignee: Imaging Research Inc. Brock University
Priority date: 1998-04-22
Filing date: 1999-04-22
Publication date: 2001-08-15
Also published as: BR9909942A; MXPA00010346A; WO1999054724A1; PT1078256E; DE69904165T2; ATE228654T1; AU3437899A; EP1078256A1; CN1298486A; JP2002512367A; DE69904165D1; ES2189407T3; HUP0101655A2; US6567750B1; CA2327800A1; AU760053B2; IL138944A0; US20020039740A1; KR20010042824A; EP1078256B1

Description

Oblast techniky

Vynález se týká způsobu vyhodnocování, kterým se objektivně analyzují data, získaná ve formě matic z hybridi začnich testů. V jednom aspektu vynález spočívá ve způsobu vyvozování závěrů o rozsahu náhodné chyby výsledků, sestavených z malého počtu údajů, při několikanásobném, měření genomových vzorků, a v dalším aspektu je to způsob rozhodování mezi různými typy intenzity odezvy sondy (např. je signál versus není signál).

Dosavadní stav techniky

Genetické analýzy založené na testování pomocí matic vycházejí z velké knihovny cDNA nebo oligonukleotidů (sond), imobilizovaných na podkladu. Sondy jsou hybridizovány s jednotlivými značenými sekvencemi, nebo se značenou komplexní směsí, odvozenou od nějaké tkáně nebo buněčné linie messengerové RNA (cíl). Termín sonda, jak je zde používán, znamená materiál, nějak navázaný na matici sond a termín cíl znamená materiál, který se aplikuje na sondy na matici tak, aby se mohla uplatnit hybridizace.

Jsou dva druhy chyb měření, nahodilá a systematická. Nahodilá chyba se dá stanovit opakováním měření stejného postupu nebo vlastnosti, a dá se zpracovat statistickými metodami. Nízká nahodilá chyba odpovídá vysoké přesnosti. Systematická chyba (odchylka nebo odklon) se nedá opakováním měření • *·· • · 4 4 · ·· »·Μ 4« ·· ·· ··· stanovit. Ní-zká systematická chyba odpovídá vysoké pečlivosti při měření.

Oprava na pozadí spočívá ve stanovení základní hodnoty pro určitou sondu, která odpovídá intenzitě signálu z okolí sondy. Prostory, používané pro stanovení pozadí, mohou být velmi blízko sondy (např. kruh, ležící kolem sondy), nebo mohou být o sondy dále. Tak například se mohou stanovit slepé složky signálu (t.j. složky, které jsou detekovány bez přítomnosti testovaného materiálu) a hodnoty, odpovídající těmto složkám, mohou sloužit k odhadu pozadí.

Normalizace spočívá v rozdělení sond podle intensity přiřazením nějaké referenční hodnoty. Nejčastěji se tato referenční hodnota bere ze souboru sond nebo z průměru všech sond.

Poté co se odstraní systematická chyba odečtením pozadí a normalizací výsledku (nebo jinými postupy podle požadavku), zůstává podle teorie jedinou chybou měření chyba nahodilá. Nahodilá chyba odráží očekávané statistické proměnlivosti v měřené hodnotě. Měřená hodnota může sestávat například z jedné hodnoty, součtu hodnot (průměru, středu), v rozdílu mezi jednotlivou a průměrnou hodnotou, nebo v rozdílech mezi rozdíly. Aby se mohlo rozhodnout, jestli dvě získané hodnoty jsou spolehlivě od sebe navzájem odlišné, musí jejich rozdíl přesahovat prahovou hodnotu, která je ve definována ve spojitosti s chybou měření a specifickou pravděpodobností chybnosti závěru, že se hodnoty Lisí. (Výpočet chyby typu I).

* * • ··· ··* · · · · · •to ···· ·· ··· toto ·

Hlavním předmětem 2ájmu jsou rozdíly mezi dvěma nebo více kvantifikovanými hodnotami, obvykle v odlišných podmínkách (např. nemocné buněčné linie versus zdravé buněčné linie, přítomnost látky versus její nepřítomnost). Požadovaný odhad očekávané nahodilé chyby

Požadovaný odhad očekávané nahodilé chyby by se měl v ideálním případě získat z proměnlivosti, která se projevuje a ukazuje při opakování hodnot jednoho stejného měření. Toto je cesta, jak se odhaduje chyba normálně v jiných oblastech vědy. Hybridizační experimenty, nicméně, mají sklon k použití při velmi malém počtu opakování (např. dvě nebo tři). Odhady nahodilé chyby založené na tak malém počtu vzorků jsou potom velmi proměnlivé při srovnání mezi jednotlivými podmínkami s použitím standardních statistických testů a jsou nepřesné a nepratické, neboť ve všech případech se vyskytují velmi značné rozdíly.

Tento problém byl rozpoznán v publikaci Bassett, Eisen, & Boguski in, „Gene expression informatics: Iťs all in your mine”, Nátuře Genetics, 21, 51-55 (1999), kde se vyvozuje, že většina zkoumaných aspektů určitých údajů o expresi genu je kvantifikovatelná a kvalifikovatelná expresními hodnotami a že kvalifikace by mohla být provedena s použitím nestandardních statistických testů průkaznosti a intervalu spolehlivosti. Autoři dále vyvozují, že „ideálně by bylo ekonomicky potřebné zopakovat každý experiment dostatečně krát tak, aby variace spojená s každý s každou transkripční hodnotou byla stanovena jednotlivě” (str. 54 této publikace). Věta „dostatečný počet opakování” představuje v tom, co bylo uvedeno zdůraznění problému. Podle současného stavu techniky se při maticových testech obvykle vylučuje získání standardních statistických indikací (např. intervaly spolehlivosti, vynesení odchylek) a • * ’ * ; · ··· · · ·· * · · · · .* ·· ···· ·* ·»» ·· ·· provedení standardních statistických testů (např. t-testy, analýzy variace), které se obvykle rutinně používají v jiných oblastech vědy, protože počet opakování, který se obvykle při těchto studiích provádí, by většinou byl shledán nedostatečným pro tato zpracování. Klíčovou novostí tohoto vynálezu je obejití tohoto problému.

Při experimentech a testech se obvykle požadují statistické ukazatele tak, aby se mohla odhadnou spolehlivost pozorovaných rozdílů mezi interakcemi při různých stavech. Klíčovou otázkou při těchto typech srovnávání je, zda je pravděpodobné, že pozorované rozdíly v měřených hodnotách odrážejí pouze náhodnou chybu nebo náhodnou chybu plus léčivý efekt (tj. zda jde o „opravdový rozdíl)? Při absenci formálních statistických postupů pro rozhodování mezi těmito alternativami, se podle dosavadního stavu techniky používají různé neformální postupy. Tyto postupy se dají shrnout následovně:

1. Rozhodující prahové hodnoty. Pozorované rozdíly při různých stavech se liší o prahové rozhodovací hodnoty. Tak např. rozdíly větší než 2 nebo 3 krát jsou posuzovány tak, že odrážejí „pravdivé rozdíly.

2. Prahové hodnoty, stanovené relativně ve vztahu k podsouboru maticových prvků. Podsoubor „referenčních genů se používá pro srovnání boču, pro jejichž hodnoty se měří. Tak např. ve vztahu k referenčnímu genu, může gen vykazovat expresní poměr 2:1 pokud se měří poprvé, a 2,8:1 pokud se měří podruhé atd.

3. Prahy ustanovené na základě pozorované variace pozadí.

V tomto případě se použije standardní odchylka hodnot pozadí jako odhad pro standardní odchylku měřených hodnot. Chyby měřených hodnot spojené s hodnotami sond o které se jedná. Pokud intenzity sondy přesahují • ··· standardní odchylku pozadí o určité číslo (např. 2,5) je tato sonda uznána jako „signifikantní.

Žádný ze shora uvedených postupů není optimální, protože každý se vztahuje pouze k relativně malému počtu pozorování, který používá pro odvození obecně platného úsudku. Úsudky o spolehlivosti jsou proto subjektivní a nemohou být použity ve vztahu „pravděpodobnosti statistických modelů. Přístupy 1 a 2 jsou vůči této kritice zejména citlivé. Nejsou v souladu se standardními statistickými závěry, které byly obecně přijaty na tomto poli vědy, kde formální modely pravděpodobnosti nehrají žádnou roli v rozhodovacím výrobním procesu. Přístup 3 je méně předmětem této naposledy uvedené kritiky v tom, že náhrada chyby měření se získává z pozadí. Není to však optimální, protože chyba měření se nezískává přímo z měřených hodnot, o které jde (tj. ze sond) a není nutně pravda, že chyba postupu v hodnotách pozadí má stejnou odchylku a/nebo model jako postup při získávání testovaných hodnot.

Možné jsou i jiné neformální přístupy. Tak např. přístupy popsané pod bodem 2 shora se mohou modifikovat tak, že se odhadne standardní odchylka logaritmicky transformovaných výsledků měření referenčních genů testovaných více než jednou. Vzhledem k rovnici [log(a) - log(b) = log(a/b)], mohly by být použity tyto náhražkové odhady chyby měření k odvození pravděpodobnostních intervalů pro různé poměry logaritmicky transformovaných sond, a výsledku, které jsou měřeny. Tento přístup by nicméně byl méně než optimální, neboť chyba by byla založena na odhadu hodnot a na relativně malém počtu opakování.

Chen et al. (Chen, Dougherty, & Bittner) in „Ratiomicroarray images, Journal of Biomedical Optics, 2, 364—374 (1997) prezentovali analytický matematický přístup, o

999

9 9 9 9 9 · · *

9999 99 999 99 99 který odhaduje rozdělení neopakovatelných diferenciálních poměrů na základě „nulové hypotézy. Stejně jako v tomto vynálezu, tento postup odvozuje způsob získání konfidenčních intervalů a odhady pravděpodobnosti pro rozdíly v intenzitách sond při různých podmínkách. Nicméně tento nejbližši postup se liší od tohoto vynálezu v tom, jak jsou tyto odhady získávány. Na rozdíl od tohoto vynálezu, přístup Chena et al. nezískává odhady chyby měření z opakovaných hodnot u sondy. Místo toho se chyba měření spojená s poměry intenzit na sondách mezi podmínkami získává matematickým odvozováním z distribuce poměrů z nulové hypotézy. Tedy Chen et al. odvozují jaká by distribuce poměrů byla, pokud by žádná sonda nevykazovala rozdíly v měřených hodnotách při různých podmínkách, které byly větší, než by bylo očekáváno „pravděpodobnostně. Na základě tohoto odvození, stanoví prahy pro statisticky pravděpodobné poměry intenzit sond při dvou různých podmínkách. Tato metoda, jak je vyvozeno, je aplikovatelná pouze pro posouzení rozdílů při dvou různých podmínkách. Kromě toho, tato metoda předpokládá, že chyba měření spojená s intenzitami sondy se distribuuje normálně. Způsob, jak je odvozen, nemůže být přizpůsoben jiným modelům chyby měření (např. lognormal). Také se předpokládá, že všechny měřené hodnoty jsou nevychýlené a věrohodné odhady „pravdivé intenzity sondy. To znamená, že se předpokládá, že žádná z intenzit není „ulétlá hodnota, která by měla být ze statistické analýzy vyškrtnuta. Nicméně detekce ulétlých hodnot není možná v případě přístupu, který popsal Chen et al.

Přístupy popsané shora se snaží popsat problém, který se týká toho, jak velké musí být rozdíly při různých podmínkách než jsou uznány jako dostatečně spolehlivé pro zajištění „pravdivé diference. Rozlišení mezi hodnotou sondy, která reprezentuje signál a mezi tou hodnotou, která představuje nedostatek signálu, představuje rozdíl v informaci, která se • 000 « 0 • * ·· ··♦· • 0 0 · · · • 0 000 00 · · týká kvalifikace hodnoty sondy v rámci matice a ne tolik při různých podmínkách.

Přístupy byly prezentovány autory Piétu et al. (Piétu, Alibert, Guicharč, and Lamy), observed in „Novel gene transcripts preferentially expressed in human muscles revealed by quantitative hybridization of a high density cDNA array, Genome Research, 6, 492-503 (1996) v jejich studii o histogramu intenzit sond, prezentovaných formou bimodální distribuce. Tito autoři dále pozorovali, že distribuce menších hodnot sleduje Gaussovu distribuci. Způsobem, který není popsán v jejich publikaci, „nahradili distribuci menších hodnot Gaussovou křivkou a použili práh 1,96 standardních odchylek nad průměrem Gaussovy křivky k odlišení nedostatku signálů (menších než práh) od signálů (větších než práh).

Chen et al. (shora citovaní) popisují následující metodu pro posouzení, zda sonda představuje signál, hodnotu signálu nebo nedostatku signálu. V rámci digitalizovaného obrazu celé matice jsou pixely uvnitř plochy každé sondy zvlášť hlášeny. Intenzita osmi nejnižších hodnot pixelů se srovnává s pozadím pomocí neparametrického statistického testu (Mann-Whitney Utest). Pokud výsledky statistického testu podporují závěr, že těchto osm pixelových hodnot po zpracovávání se zastaví a daná sonda je uznána jako signál. Pokud osm pixelových hodnot není nad pozadím, některé ze všech pixelů jsou uznány jako že jsou pod pozadím. Stejný test se opakuje buď eliminací všech osmi pixelů a opakováním testu s jinými osmi hodnotami nižších pixelů nebo eliminací podsouboru osmi pixelů a jejich nahrazení stejným počtem jiných nižších hodnot. Test zpracování probíhá tímto způsobem, dokud nejsou všechny pixely odhadnuty a posouzeny jako podprahové, zda jsou pod pozadím nebo na pozadí a zda dosahují prahovou hodnotu. V jiném případě jsou sondy klasifikovány jako neposkytující signál.

• ··· • « ♦ • · · ·· *··· • · « ♦ · • · • · • φ · «» ···

Před několika lety byl zaveden makro formát (obr. 1,4) a je nyní velmi široce rozšířen. V obvyklém provedení jsou sondy uloženy na membrány a jsou ve formě teček o velikosti asi 1 mm v průměru. Tyto velké tečky se snadno nanesou pomocí robotů a jsou velmi vhodné pro izotopické značení cílů, protože rozšiřují ionizační záření z energeticky značené molekuly (např. 32P), což umožňuji použití malých, velice sobě navzájem přiblížených sond. Detekce je nejběžněji prováděna pomocí uložených fosforových zobrazovačů.

Mikromatrice, sestávající z oligonukleotidů syntetizovaných na mikrovýrobním zařízení, byla také po nějakou dobu používána. Se současnou komerční dostupností míkromatricových a detekčních přístrojů zdá se, že přicházejí do většího rozsahu použití mikromatrice jednokmenových cDNA.

Jak s mikro, tak s makrogenomovými maticemi se získávají data pomocí detekce množství izotopů nebo fluorescenčního značení na každém jednotlivém testovacím místě matice.

Výsledek je jedna nebo více matic čísel, přičemž každý člen těchto matic kvantifikuje rozsah hybridizace při jednom testu v jednom vzorku matice. Stupeň hybridizace je indikován úrovní exprese sekvencí komplementární k specifické sondě. Z těchto důvodů se dá použít analýza jak k identifikaci přítomnosti komplementárních sekvencí, tak kvantifikaci exprese genu, vedoucího k těmto komplementárním sekvencím.

Analýza postupuje tak, že zjišťuje, které specifické testy vykazují zajímavé odchylky ve stupni hybridizace. Obvykle se odchylky v hybridizaci specifikují jako poměr mezi stavy. Tak např. data mohou mít formu takovou, že test X (reprezentující expresi určitého genu) je třikrát tak silněji značený v linii rakovinových buněk než v linii normálních buněk. Irelevantní • · · • « · · · ·** • · · · · · • · · · ·· ···· ·· ··· rozhodnutí je „jaká je statistická průkaznost specifického porovnání, které se má provést?

Specifikace statistické průkaznosti je významná proto, protože v našich měřeních se vyskytují chyby. Mohli bychom definovat pravdivou hybridizaci jako množství, které by bylo pozorováno, pokud by nebyly přítomny žádné procedurální chyby a žádné chyby měření. Ideálně stejný pár sonda - cíl nám vždy poskytuje stejnou naměřenou hybridizační hodnotu. Platné hybridizační hodnoty jsou ty, které mají pravdivý index rovný pravdivé hybridizaci.

Předkládaný vynález se liší od dosavadního stavu v tom, že odhaduje chybu měření přímo z mapování v matrici (uvnitř nebo mimo nebo v různých matricích). Tento vynález je schopen poskytnou statisticky platné závěry, které se vyvodí z při malém počtu opakování (např. tři), přičemž se jedná o závěry charakteristické pro hybridizační testy prováděné v maticích.

V tomto vynálezu se statistické problémy, které vyplývají z malého počtu vzorků obcházejí novým způsobem získání odhadu z odhadu měření pro každou sondu, který je založen na průměru variance všech opakování pro všechny sondy. Ve výhodném provedení tento vynález předpokládá, že všechna opakování, která jsou prováděna jsou součástí měření stejné populace experimentů a jsou podobně ošetřena v průběhu zpracování matice, vykazují společnou a/nebo konstantní variabilitu.

Podle dalšího výhodného aspektu vynálezu se chyba měření posuzuje odděleně pro různé třídy sond. Tyto třídy se mohou stanovit na základě rozdělovačích postupů, popsaných dále, nebo jinými statistickými nebo experimentálními metodami.

Tento vynález se odlišuje od dosavadního stavu v tomto:

* ·

1. je použitelný pro jakýkoliv počet experimentální stavů oproti tomu, že bylo většinou dříve rozhodováno pouze dvěma stavy;

2. odhaduje chybu měření empiricky z počtu opakování měření sondou;

3. může najít úlety;

4. může přizpůsobit a využít různé modely chyby měření a

5. může posoudit spolehlivost a předpokládaného modelu chyby měření

Existuje ještě druhý aspekt tohoto vynálezu, který se zabývá rozlišením třídy odpovědi odezvy sondy v rámci matic. Měření elementu v rámci uvnitř matice může odrážet větší množství tříd hodnot. Tak např. některé hodnoty mohou představovat signály a jiné mohou představovat nedostatek signálu (např. pozadí). Jako jiný příklad lze uvést, že některé hodnoty mohou přestavovat rodinu genů spojených s nemocnými stavy, zatímco jiné hodnoty pocházejí od genů, o kterých není známo, že se uplatnily jako choroboplodné. Tento vynález je nový v tom, že používá matematicky odvozený přístup pro posouzeni jakékoliv směsi nebo distribuci odlišitelných hodnot, které jsou podkladem, která se používá pro účely klasifikace hodnot sond jako signál nebo nedostatek signálu.

Specificky je tento vynález nový v tom, že zpracovává novým způsobem distribuce odchylek v rámci dat z matice.

V konkrétním případě modely podle vynálezu představují duální nebo vícenásobnou distribuci v rámci matice. Výhodně se to děje matematickým směsným modelováním, které se může aplikovat pro posouzení distribucí a oblastí odchylek mezi distribucemi v rigorózní podobě. Toto kontrastuje s dosavadním stavem, *«*··· « 9 · • · 9 9 9 9 99 9*

999 9 9 9 9 9

999« 99 999 99 9 který nebyl schopen modelovat více než jednu distribuci s daty z maticového testu a který, tudíž, není schopen modelovat oblasti přesahu mezi distribucemi. Jako důsledek, je třeba konstatovat, že podle dosavadního stavu techniky se mohou ztratit data (např. od sond s nízkými úrovněmi signálu), která mají přijatelnou pravděpodobnost, že náležejí do platné distribuce signálu. Tento vynález rozhoduje o pravděpodobnosti, že některá sonda náleží jedné z podílejících se distribucí, v rámci matice dat populace.

Matematicky-odvozený přístup pro dekonvoluci jakékoliv směsi distinktivních obsežených distribucí, která se používá ke klasifikaci hodnot poskytnutých sondou jako signál nebo nesignál.

Tento vynález je nový ve způsobu zpracování distribucí odchylek uvnitř maticově formulovaných dat. Konkrétněji řečeno, vynález modeluje duální nebo vícenásobné distribuce v matici. Výhodně se vynálezem řeší matematické modelování směsi, které se dá aplikovat pro dekonvoluce distribucí a regionů (nahodilých) rozdílů mezi distribuovanými naměřenými daty a jejich přesnou podobou. Toto řešení kontrastuje s dosavadním stavem techniky, který není schopen modelovat více než jednu distribuci s maticovými daty, a který tudíž, není schopen modelovat regiony rozdílů mezi distribucemi. Jako důsledek lze pozorovat, že v dosavadním stavu techniky chybí data (např. úrovně signálu sond s nízkým signálem), která by měla přijatelné pravděpodobnosti, aby jim bylo možno platně přiřadit distribuci signálu. Tento vynález přiděluje pravděpodobnosti, které náleží sondám podle přidělovacích distribucí v rámci matice dat populace.

• 999 • · • 9 «999 • 9 9 9 9 •9 «99 99

Stručný popis přiložených obrázků

Dále jsou úkoly, znaky a výhody vynálezu pochopitelné úplněji z následujícího podrobného popisu současně výhodných, ale nicméně pouze ilustrativních provedení, s odkazem na doprovodné obrázky, na kterých:

Obrázek 1 je distribuce četností simulované matice hybridizací, ukazující směs jek signálu, tak i nesignálu z testu, což jsou dva závěry, jejichž odlišení se má řešit.

Pozadí znamená nula, a je kolem této hodnoty proměnlivá. Tudíž v distribuci existují pozitivní a negativní hodnoty. Tento typ distribuce je typický pro ty hodnoty, které se získávají z nylonových matic.

Obrázek 2, zahrnující obrázky 2A a 2B, ukazuje diskrétní distribuce signálu a nesignálu, modelovaného ze souboru dat znázorněných na obrázku 1.

Obrázek 3 ukazuje obe distribuce z obrázku 2, s regionem odchylek, v rámci kterého se modelování provádí pro data, která pocházejí z daných bodů.

Obrázek 4, zahrnující obr. 4A a 4B, ukazuje distribuci četností exprimovaných hodnot z lymfocytové linie buněk (každý test je průměrem tří opakování - což je míněno v intencích vynálezu - jako tři testovací místa, na kterých se provádí stejný test, na stejné matici) na skleněné mikromatici a matici Clonetech Atlas z nylonové membrány. Pozadí ze substrátu bylo v obou případech odečteno. Matice ze skleněného podkladu ukazuje relativně malou poměrnou část hodnot, ležících v oblasti, která by měla příslušet nespecifické hybridizací. Membránová matice ukazuje velký pík na pozadí

4 44 • #

4 4444 oblasti. Membránový test je v tomto případě vhodný pro modelování. Skleněná matice vhodná není.

Obrázky 5 a 6 jsou postupové diagramy, ukazující výhodné provedení daného postupu, na obrázku 5 aplikovaného na případ, ve kterém je model chyby měření známý a na obrázku 6 aplikovaného na případ, ve kterém tomu tak není.

Popis výhodného provedení

Tento vynález je statistickým způsobem objektivní analýzy dat v matici. Patří tam dva procesy.

a) Dekonvoluce distribucí. Pokud pozorovaná data zahrnují přínosy od dvou nebo více distribucí, ta vynález dekonvoluje tyto distribuce do oddělených funkcí hustoty pravděpodobnosti. To umožňuje rozlišení hybridizačního signálu od nesignálu, a/nebo získání přínosů k rozlišení jednoho naměřeného signálu značení od druhého;

b) Přidělování spolehlivosti testům.

Naše zpracování dat, které řeší problém, jak jsou distribuce rozlišovány se v dalším textu vztahuje na soubor dat, sestavených z signálu a nesignálu. Aplikací těchto způsobů na soubor dat obsahujících přínosy dvou nebo více značení, budou po přečtení výkladu odborníkovi v oboru pochopitelné.

Soubor hybridizačních dat poskytuje dva prvky - signál a nesignál (Obrázek 1). Rozlišení nesignálu je nutné provést tak, ze vezmeme v úvahu srovnání exprese (signál:signál}, přičemž se musíme zbavit mylných srovnání (jakékoliv, které zahrnuje nesignál).

• · *·· • · ·· · · · · ···· ·· ··* *· «··

Předpokládejme přítomnost jedné nebo více distribucí.

První opatření je nastavení prahové hodnoty pro signál. Náš způsob používá informaci, odvozenou z rozptylu vlastností matice, s cílem definovat hraniční bod mezi nesignálem a signálem. Za prvé - předpokládáme, že maticová distribuce je opravdu směsí distribucí. Tyto distribuce patří do oblasti nižších intenzit (nesignál, včetně pozadí a nespecifická hybridizace) a distribuce ve vyšší oblasti intenzit (signál)(Obrázek 2).

Popis funkcí hustot pravděpodobnosti pro dvě distribuce, s použitím modelování. Nyní vytvoříme soubor popisů, který bude specifikovat podstatu každé distribuce. Abychom mohli vytvořit takovéto popisy, uděláme další předpoklad. Tímto předpokladem je, že každá distribuce pramení ze specifické funkce hustot pravděpodobností (zkratka pdf) který se dá odhadnout ze čtyř parametrů - průměry, proměnlivost, poměry ve směsi a druh (např. Gaussova křivka, gama). Dobře přijatou metodou pro odvození průměru, proměnlivosti a poměru ve směsi s jednotlivých kombinovaných distribucí je metoda zvaná odhad maximální pravděpodobnosti (zkratka MLE od anglického maximum likelihood estimation). Bylo by možno použít i jiné metody.

Definice: Odhad maximální pravděpodobnosti: Ptáme se, Jak pravděpodobné je to, co bychom chtěli získat z určitých dat získaných hodnot (generovaných softwarem nebo uživatelem) pro čtyři parametry pro každou distribuci (průměry, proměnlivost, poměry ve směsi a druh distribuce? (např. Gaussova křivka, gama). Postup při metodě MLE odhaduje pravděpodobnost získání určité hodnoty z určité iniciující hodnoty, a pak zpracovává data s cílem zhodnotit, s jakou pravděpodobností jsou dané hodnoty mírně odlišné. Iterace pokračuje, dokud nedostoupí *

* 4 44 4 • · · · * · 4 4 · • 4 ·44· 44 44* ·· *« pravděpodobnosti, která představuje maximum nebo nebo dokud se nedosáhne předem stanovený limit.

Funkce hustoty pravděpodobnosti: křivka (např. Gaussova) definovaná matematickou rovnicí. Pravděpodobnosti pro určitý rozsah hodnot (např., x á 100; x 2 500) se dá odvodit na základě plochy pod křivkou. MLE postupem se vypočítají pdf pro distribuce signálu a nesignálu (Obrázek 3). Tyto distribuce obsahují plochy, které jsou jednoznačně částí buď jedné distribuce nebo druhé. Také obsahují plochu odchylky a to je v tomto případě plocha odchylky, s kterou náš postup operuje s cílem označit původ jednotlivých hodnot dat (původ odpovídá signálu nebo nesignálu.

Použití funkce hustoty pravděpodobnosti, aby se označilo, na kterých sondách došlo k hybridizaci, tedy k přiřazení hybridizačních hodnot distribuci jejich původu. Pro jakoukoliv hybridizační hodnotu můžeme stanovit pravděpodobnost získání hodnoty, která je velká nebo větší ve srovnání s distribucí nesignálu nebo která je malá nebo menší než je distribuce signálu. Touto cestou získáme dvě pravděpodobnosti (jedna, jejíž hodnota má původ v distribuci nesignálu a jednu, jejíž hodnota mé původ v distribuci signál.). Porovnání těchto dvou pravděpodobností nám říká, která distribuce s větší pravděpodobností původce hodnoty data.

Co se týče hodnot v tabulce 1, která byla získána ze simulovaných dat, diskutovaných v dodatku A, je třeba poznamenat tři věci:

1. Vyšší hodnoty znamenají menší pravděpodobnost, že daný výsledek pochází z nesignálu (viz sloupec 2) a větší pravděpodobnost, že jejím původem je signál (viz sloupec 3).

• · · · · fcfcs fcfcfc • fcfc fcfc fcfcfcfc • fc fcfcfcfc fcfc fcfcfc fcfc fcfc

2. Pravděpodobnosti ve sloupcích 2 a 3 ukazují, která ze dvou distribucí pravděpodobněji pochází ze signálu určité hybridi začni hodnoty. Tak například, pravděpodobnost, že hodnota 40 nebo větší pochází z distribuce nesignálu je 0.2107. Pravděpodobnost, že hodnota 40 nebo menší pochází z distribuce signálu je 0.0995. Náš způsob stanoví, že hodnota 40 pochází s větší pravděpodobností z distribuce nesignálu distribuci.

3. Hodnota kriteria pro signál a nesignál při hybridizací může být získánaz funkce pravděpodobnosti. V našem případě, hodnota menší nebo rovno 49 je kategorizována jako nesignál a větší než 49 je kategorizována jako signál.

Tabulka 1. Pravděpodobnosti přiřazení výroku o určitém původu pro různé hybridizační hodnoty.

Hodnota	Distribuce pravděpodobnosti, že výsledek pochází z nesignálu	Distribuce pravděpodobnosti, že výsledek pochází od Signálu	Distribuce pravděpodob- nějšího původu
40	0.2107	0.0995	Pozadí
45	0.1740	0.1258	Pozadí
49	0.1493	0.1482	pozadí
50	0.1436	0.1540	Signál
60	0.0980	0.2148	Signál
70	0,0669	0,2788	Signál

Test jak model padne. Tento vynález vytváří modely, které mají význam popisu reálných dat. Můžeme zhodnotit modely s použitím parametru, který vyjadřuje, jak dobře který model výsledku padne, založeného na chi-čtvercové statistice.

4

44* • 44 44 *444

4444 44 444 4· 44

Tento lze zautomatizovat, a software signalizuje o případech, který model výsledkům špatně padne.

Kdy je modelování vhodné

Modelovací metoda předpokládá, že matice hybridizačních dat v jednotlivých bodech může být rozdělena do více distribucí, z nichž každá má dostatečný počet, aby umožnila přesné modelování. To platí obvykle v případě s modelem nylonových matic, který obsahuje velké množství nesignálů (Obrázek 4). Mnohé skleněné matice mají zcela odlišnou povahu.

Pozadí má tendenci k mnohem nižší hodnotě, a poměr signálu k šumu je vyšší. Z těchto důvodů nemusí být možné nebo nutné modelovat distribuce nesignálů pro velmi čisté matice.

V případě velmi čistých matic, s jedním značením, lze jednu z distribucí (signál), přiřazovat pomocí modelu, a použít jednoduché kriterium signálu pro rozlišení použitelných testů (např. testy s poměrem signál ku šumu >3:1).

Souhrn modelování distribuce

Tento vynález používá způsob modelování k deconvoluci dat z matrice do dvou nebo více funkcí hustot pravděpodobností. Hybridizační data jsou pak přiřazena nejpravděpodobnějšímu výroku o původu. Výhody tohoto vynálezu spočívají v tom, že modelovací proces poskytuje objektivní způsob pro přiřazení hybridizačních hodnot distribucím signál nebo nesignál, jednomu značení nebo jinému, nebo jakékoliv jiné z rozlišovaných distribucí. Tento proces může zahrnovat test, jak dobře model padne, který vyhlásí poplach, pokud je podezření z rozdílu oproti modelu.

Přisuzování spolehlivosti • ··· · « • · ··· ·

Jakýkoliv hybridizační test představuje odhad. To znamená, že pokud opakujeme test několikrát, získáme hodnoty, které se pohybují kolem průměrné hodnoty (průměru). Veškeré tyto hodnoty odhadují pravdivou hybridizační hodnotu. Některé hybridizační hodnoty jsou dobrými odhady pravdivé hodnoty a jiné nesou. Špatné odhady pokrývají široký rozsah potenciálních pravdivých hodnot. Dobré odhady pokrývají úzké rozmezí. V definici limitů spolehlivosti tento vynález poskytuje rozmezí kolem pozorovaných hodnot. Máme vysokou pravděpodobnost (např. >95%), že pravdivé hodnoty leží uvnitř těchto rozmezí. Můžeme také použít rozmezí ke stanovení spolehlivostí v rozdílech mezi testovanými hodnotami. Jestliže hodnoty přesahují mimo tento interval, jde o malou spolehlivost rozdílů. Jesliže hodnoty nepřesahují, máme vysokou spolehlivost. Tudíž tento vynález poskytuje koeficient spolehlivosti pro každý případ diferenciální hybridizace (viz další sekce).

Bod 1: Uživatel vloží odhad chyby. Chyba veličiny se dá získat jednou ze dvou cest. Pokud se jedná o matice s každým členem samostatným (žádná opakování), může uživatel vložit odhad, jak mnoho je přítomno chyb (jako poměr nebo konstanta). Tak například, domácí geny nám mohou říci, že tento člen souboru má chybu 25 %.

Bod 2: Stanovení chyby z opakování s použitím standardní odchylky nebo koeficientu variace. Chyba měření se také dá stanovit přímo z opakování. Výhodou při použití opakování je, že tato chyba se vztahuje k průměru a je snížena o factor iVn, kde n je počet opakování. Lze také použít informaci, týkající se variability, a získat parametr, vyjadřující celkovou validitu pro danou matici (rovnice 1).

y-i (i) φ φ · * * ··φ · · φ φ · φ φ φφφφ · φφφφ φφ φφφ φφ φφ kde Ν je počet opakování.

Koeficient proměnlivosti je použitelný pro měření variability, a to u hodnot, které mají proporcionální chybu měření (characteristickou pro hybridizační matice). Procenta Chyba měření vyjádřená v procentech, spojená s individuální hodnotou (ve vztahu k jejímu průměru) se odhaduje jako:

Λ

Procenta CV. = 100— * X

Bod 3: Identifikuj vysoce nespolehlivé testy s použití, odhadů proměnlivosti, odvozených z opakování. Odhady proměnlivosti pro všechna opakování se budou měnit od testu k testu. Pokud se mění příliš, test by se měl vypustit. Jak nastavíme kriterium pro vyškrtnutí testu?

Zkoumáme proměnlivost proměnlivosti. Z toho můžeme identifikovat opakování, jejichž proměnlivost přesahuje stanovenou hodnotu. Stanovení této hodnoty provedeme výpočtem proměnlivosti proměnlivosti hodnot a nastavením objektivního kritéria proměnlivosti (např. 3 jednotky SD), aby se identifiklovaly mimolehlé hodnoty (nesprávná, ulétlá měření, jejichž výsledek je třeba eliminovat.

V případě aditivní chyby (např. 100 ± 10, 1000 ± 10), je standardní odchylka nej lepším odhadem proměnlivosti kolem přesné dané hodnoty. Absolutní hodnota chyby zůstává konstantní.

V případě proporcionální chyby (např. 100 ± 10, 1000 ± 100), je koeficient proměnlivosti lépe použitelnou hodnotou pro vyjádření variability. Standardní odchylka se mění proporcionálně v závislosti na velikosti měřené hodnoty.

·· ···» «· *·· ·· ··♦

Hrubým údajem, vypovídajícím o spolehlivosti výsledků hybridizadních testů je obvykle představována proporcionální chybou, zatímco logaritmicky transformované výsledky testů představují aditivní chybu. Požadovaná statistika se volí na tomto principu.

Souhrnně lze o procesu říci, že střední hodnoty SD nebo CV získáme z opakování celé matice. Dalším krokem je výpočet průměru.

Pro model aditivní chyby se výpočet průměru provádí podle rovnice 2:

(2) kde dolní index g znamená skupinu nebo stav (např. účinnou látku, kontrolu). Dvě skupiny se zde modelují za účelem ilustrace, třebaže diskuse generalizuje počet skupina na libovolný. Horní index i znamená sondu v rámci matice (n je célkový počet sond v matici) a horní index j znamená opakování (m je počet opakování). Rovnice 2 je klíčovým vlastnictvím tohoto vynálezu, neboť popisuje způsob, kterým se dají odhadnout proměnlivosti vlastností skupiny oddělené z celé matice. Tento způsob odhaduje očekávanou hodnotu proměnlivosti populace, dané pozorovanými daty. Jiné způsoby, které používají informace založené na proměnlivosti v souborech opakování lze použít také (např. metoda maximální pravděpodobnosti). Tato poslední uvedená metoda vypočítává pro různé hodnoty σ’ pravděpodobnost získání pozorovaného údaje. Odhad tohoto σ’ které má největší pravděpodobnost vybranou se volí podle proměnlivosti populace. V kterékoliv z metod se novost odvozuje z použití výpočtu pro celou matrici

0 000 ve zvolené populaci a hodnota proměnlivosti se pak aplikuje na každý soubor opakování.

Bod 4. Použiti limitů spolehlivosti, odvozených z celé matice nebo ze souboru referenčních testů, fc odhadu variability jednotlivých testovaných hodnot. Procenta CV poskytují měřítko variability jednotlivých hodnot, získaných opakováním, kolem průměru. Průměr z celkového počtu opakuvání je nej lepším odhadem pravdivé hodnoty testů. Nicméně, průměrná hodnota má chybu měření s tím spojenou. Standardní odchylka spojená s údajem o průměrné hodnotě se nazývá standardní chyba průměru a vypočte se jako:

kde N je počet opakování.

Pokud je chyba měření proporcionální, mírou proměnlivosti průměru jsou procenta CV, která se vypočtou jako:

X

Tento vynález bere opakování testů a vypočítává chybu měření z opakování. Tento způsob dobře pracuje za předpokladu, rovnost hodnot CV a SD v rámci téměř nebo úplně celého rozsahu dat v matici. Kromě toho, testy s neobvykle vysokým procentem CVs nebo SDs se dají zkoumat a vypustit z další analýzy, pokud jsou posouzeny jako nevěrohodné.

Případ diferenciální exprese v celé matici • · ·· ···· »· · • · · ♦ ·· ·♦

Většina modelovacích procesů vyžaduje velký počet dat pro velký počet bodů. V některých případech není při porovnání hybridizačních hodnot v rámci celé matice k dispozici velký počet dat u testů diferenciální hybridizace. Raději se volí možnost provedení velkého počtu testů s podobnými poměry (obvykle 1:1), a pouze několik testů diferenciální hybridizace (např. 4:1). S poměrem hybridizace z celé matice, tento vynález používá formy distribučního modelování tak, že se nedělají žádné velké počty experimentů.

Výpočet limitů spolehlivosti pro hybridizačni poměry, když jsou k disposici opakování.

Jestliže jsme odhadli chyby v procentech, spojené s poměrem numerátor a denominátor, je jednoduchým úkolem odhadnout procentuální chybu spojenou s poměrem podle následujícího vzorce:

Chyba v procentech

kde Óy/x* je proporcionální chyba průměru výsledků opakování matice A. Tento vynález používá tento vzorec k výpočtu limitů spolehlivosti púro jakýkoliv poměr A/B.

Odhad limitů spolehlivosti pro hybridizačni poměry, když nejsou k dispozici opakování.

Tento vynález má výhodu, že se podle něho mohou stanovit meze spolehlivosti i pro případ jednoho testu. Tento odhad se dá vložit uživatelem. Stanovení hranic na základě odhadu proměnlivosti uživatelem.

♦ t«v • « ·♦·· »· ·

Příklad provedení způsobu

Model chyby měření známý

Podle jednoho výhodného aspektu tento vynález předpokládá, že systematická chyba byla minimalizována nebo modelována aplikací známých způsobů (např., oprava na pozadí, normalizace) jak je to požadováno.

Podle jiného výhodného aspektu se může tento vynález použít spolu s modelem systematické chyby, která se odstraní při předběžném zpracování konkrétních dat v jednotlivých bodech. Způsob se dá také použít pro nemodelovaná data, obsahující systematickou chybu, ale výsledek je méně přesný.

Aby se usnadnila expozice, lze provést o sondách diskusi, která přédpokládá, že se sondy opakují v celé matici. Tento způsob se aplkuje nicméně stejně, jako v případech, ve kterých jsou opakování v rámci matice přítomna.

Dva obecné modely chyb jsou aditivní a proporcionální. Model chyby s konstantní proměnlivostí, týkající se kvantitativního měření, je nazýván aditivní model. Model chyby s proporcionální proměnlivostí vůči měřenému množství, se nazývá proporcionální model. Tento poslední uvedený model ruší předpoklad, že proměnlivost je konstantní a nahrazuje to předpokladem mnoha statistických testů. V tomto případě logaritmická transformace (na jakékoliv obvyklé bázi) mění model chyby z proporcionálního na aditivní. Ohledně tohoto způsobu se diskutuje, zda logaritmická transformace může být aplikována na jednotlivé

4 »· ··♦·

4« 944

44* prvky matice. Jiné transformace nebo žádné transformace se zavádějí v závislosti na modelu chyby.

Obrázky 5 a 6 jsou vývojové diagramy, ilustrující výhodnáb provedení způsobu podle vynálezu. Jsou zobrazeny jiné postupy operací. Tak například, bloky 5 až 7, které zahrnují dekonvoluci a klasifikační postupy, mohou být vloženy mezi bloky 2 a 3. To znamená, v tomto obměněném provedení, ýže dekonvoluci může předcházet opakování odhadu chyby měření. Přehled celého způsobu pro případ, že model chyby měření je znám, je zobrazen na obrázku 5. Paragrafy dole jsou číslovány a tato čísla odpovídají číslům funkčních bloků na obrázku.

1. Transformuj data podle modelu chyby

V bloku 1, jsou hrubá data se transformují, pokud je to žádoucí, tak, že požadované předpoklady pro následující statistické testy jsou splněny.

2. Vypočti průměr z opakování a standardní odchylky

Každý soubor opakování téže sondy se kvantifikuje (např. přečtením fluorescenční intensity replikované cDNA) a hodnoty získané ze sond se zprůměrují, čímž se získá průměr každého ze souborů. Vypočte se nezatížený odhad proměnlivosti pro každý soubor opakování testu na sondě, jak odpovídá jiným statistickým popisům.

3. Proveď kontrolu modelu

V klíčovém aspektu tohoto vynálezu,je odhad průměrné proměnlivosti pro každý soubor opakování založen na » « · · * t .«*·· 9 • · · ♦ · · » » 9 ·«· » ^·· ·· ί·4 proměnlivosti všech souborů opakování v matici. Tato statistika se pak může použít v diagnostických testech.

Jsou při tom možné různé modely chyby a diagnostické testy. Diagnostické testy zahrnují grafické testy (např. systém diagramů quantile-quantile, určený kle kontrole distribuce residuálních předpokladů) a formální statistické teststy (např. chi-čtvercivý test; Kolmogorovův-Smirnovův test; testy srovnávající průměr, odchylka a posouzení pozorovaných zbytků ve vztahu k očekávaným hodnotám pro určitý model). Předpoklady modelu chyby jsou uspokojivé, prahy se dají stanovit po odstranění mimolehlých pozorování zbytků (např. standardní odchylky od průměru ±3). Předpoklady modelu se mohou opětně prověřovat a porovnávat při odstranění mimolehlých dat a může se znovu vypočítat proměnlivost pro každý soubor opakování. Toto měřítko proměnlivosti se pak dá aplikovat v bloku 8.

4. Předpokládaný model odpovídá?

V bloku 4 se posoudí, zda distribuce zbytků je adekvátní to provedené analýze dat. Pokud ano, provedeme blok 5.

Pokud ne, pokračujeme v bloku 9.

5. Je nutná deconvoluce?

V bloku 5 se provádí rozhodnutí, zda je třeba dekonvoluce směsi distribucí hodnot. Pokud je nutná, pokračujeme k bloku 6. Pokud není vyžadována, pokračuj v bloku 8.

6. Dekonvoluce směsi distribucí • φ ’ φ φ * · · φφφ φ φ • · φφφφ · *··

Φ φ φφφ

V klíčovém aspektu tohoto vynálezu, jsou vstupními daty pro zpracování podle vynálezu intensity získané pozorováním nebo (výhodně) veškerá opakování, ve formě matice. Podle výhodného aspektu, se dá použít E-M algoritmus a jakékoliv modifikace, které jsou pro apliakaci pružnější (např. pro umožnění modelování nenormálních distribucí; Pro umožnění informace a priori informatíon, např. negativní hodnoty jsou nesignál) řeší obvyklý algoritmus pro modelování, který je podkladem distribucí. Jiné přístupy ke směsi je možná dekonvoluce.

7. Aplikuj klasifikační pravidlo

Dané parametry distribuce, získané v bloku 6, budou třeba použít ke klasifikaci pozorování, zda spadají do jedné či druhé třídy (např., signál a nesignál). Pozorování se dají klůasifikovat podle popisu postupu v Části nazvané Použití funkce hustoty pravděpodobnosti pro posouzení hybridizačnich hodnot vzhledem k distribuci jejich původu.

8. Statistické testy

Když je chyba změřena, provedou se standardní statistické testy a vypočtou se intervaly spolehlivosti. Takovéto testy by mohly zahrnovat závislé a nezávislé t-testy a závislé a nezávislé analýzy variance (ANOVA) a jiné standardní testy. Tato srovnání by měla být provedena mezi provedením výpočtů průměrů za různých podmínek. Jiné testy jsou také možné. Při ukončení testů se způsob zakončí. Toto lze vzít v úvahu jako normální zakončení.

fr 4 · 4 · *·· • 4 · » · · 4 • · 4 * · *

4· 4444 4· ··* · ·

4·4

9. Vyhlas poplach

Pokud předpokládaný model chyby není vyhovující, vyhlásí se poplach a proces se zastaví. Toto lze považovat za abnormální ukončení. Pak jsou možná tři řešení. Hrubá data se mohou transformovat manuálně pomocí BoxCox nebo jiným postupem. Způsob by mohl opět začít, a to tak, že se posuzuje předpoklad nového chybového modelu. Alternativně lze provést optimalizační strategii, která je znázorněna na obrázku 6 . Finálně se distribuce chyb může odhadnout empiricky neparametrickými metodami jako je bootstrap nebo jinými postupy.

Model chyby není známý

Pokud model chyby není známý, je postup, jak je representován na obrázku 6. identický předchozímu jen s tou výjimkou, že se provádí stupeň výběru modelu chyby. V tomto případě se model volí pomocí počítačové metody. Data podstupují řadu transformací v cyklu bloků 1 až 3. Tyto transformace se mohou například zakládat na metodě Box-Cox nebo jiném typu známém v oboru. Optimální transformace se volí na základě posouzení chyby. Pokud je optimální transformace ukončena a akceptuje se teoretický model (např. logaritmická transformace), mohou se provést další kroky. Způsob se pak vede stejným způsobem.

Připojený dodatek A je technická publikace, která vysvětluje další aspekty výhodných provedení vynálezu. Přestože byl vynález popsán podrobně, jsou odborníkovi jasné i různé modifikace, které také spadají do rozsahu a myšlenky vynálezu.

i • 9

9

9* «114 š i

9 «99

999

DODATEK A

Statistické informace

Postupy při analýze matice dat

Úvod...............................................28

Třídy testů exprese................................28

Expresní data......................................28

Nový způsob........................................29

Rozdělování distribucí.............................29

Modelovací proces..................................30

Kdy je modelování vhodné...........................31

Modelování reálného vzorku.......................,.32

Přehled modelování distribuce......................34

Spolehlivost a konfidenční intervaly ..............34

Způsob: Opakování se provádí.......................34

Způsob: Opakování se neprovádí.....................36

Analýza diferenciálů exprese.......................36

Způsob: chyba měření je známá......................36

Způsob: chyba měření není známá....................36

Grafická alternativa...............................36

Odkazy.............................................39

444

4 • 4 44

Úvod

Analýza exprese založená na maticových testech (ABEx) má za cíl rozšířit aplikační možnosti při výzkumu léčiv a v diagnostice. Ačkoliv ABEx nástroje zůstávají komplexní, máme za to, že jsme vstoupili do období, ve kterém velmi rychlý vývoj odborných znalostí a průmyslových výrobních prostředků bude pomáhat rozvoji aplikace této technologie.

Určitá část vývoje ABEx bude spočívat v materiálech, způsobech a nástrojích. Pokrok bude spočívat v mikrotechnologii, hybridizačních postupech, využití hromadného testování a detekce matic výsledků.

Model chyby měření známý

Aby se usnadnila expozice, lze provést o sondách diskusi, která předpokládá, že se sondy opakují v celé matici. Tento způsob se aplikuje nicméně stejně, jako v případech, ve kterých jsou opakování v rámci matice přítomna.

♦ ϊ ' i ·

9 9 9 · Φ » » 9 • · · 9» 9 9 ·

9« 9999 9· ··· 99 9

Dva obecné modely chyb jsou aditivní a proporcionální. Model chyby s konstantní proměnlivostí, týkající se kvantitativního měření, je nazýván aditivní model. Model chyby s proporcionální proměnlivostí vůči měřenému množství, se nazývá proporcionální model. Tento poslední uvedený model ruší předpoklad, že proměnlivost je konstantní a nahrazuje to předpokladem mnoha statistických testů. V tomto případě logaritmická transformace (na jakékoliv obvyklé bázi) mění model chyby z proporcionálního na aditivní. Ohledně tohoto způsobu se diskutuje, zda logaritmická transformace může být aplikována na jednotlivé prvky matice. Jiné transformace nebo žádné transformace se zavádějí v závislosti na modelu chyby.

Obrázky 5 a 6 jsou vývojové diagramy, ilustrující výhodnáb provedení způsobu podle vynálezu. Jsou zobrazeny jiné postupy operací. Tak například, bloky 5 až 1, které zahrnují dekonvoluci a klasifikační postupy, mohou být vloženy mezi bloky 2 a 3. To znamená, v tomto obměněném provedení, ýže dekonvoluci může předcházet opakování odhadu chyby měření. Přehled celého způsobu pro případ, že model chyby měření je znám, je zobrazen na obrázku 5. Paragrafy dole jsou číslovány a tato čísla odpovídají číslům funkčních bloků na obrázku.

1. Transformuj data podle modelu chyby

2. Vypočti průměr z opakování a standardní odchylky * ϊ ’ > * «·< ί * ί

3ΐ : ·: : :

« * ««« ·· ·«* «« «·0

3. Proveď kontrolu modelu

V klíčovém aspektu tohoto vynálezu,je odhad průměrné proměnlivosti pro každý soubor opakování založen na proměnlivosti všech souborů opakování v matici. Tato statistika se pak může použít v diagnostických testech. Jsou při tom možné různé modely chyby a diagnostické testy. Diagnostické testy zahrnují grafické testy (např. systém diagramů quantile-quantile, určený kle kontrole distribuce residuálních předpokladů) a formální statistické teststy (např. chi-čtvercivý test; Kolmogorovův-Smirnovův test; testy srovnávající průměr, odchylka a posouzení pozorovaných zbytků ve vztahu k očekávaným hodnotám pro určitý model). Předpoklady modelu chyby jsou uspokojivé, prahy se dají stanovit po odstranění mimoiehlých pozorování zbytků (např. standardní odchylky od průměru ± 3). Předpoklady modelu se mohou opětně prověřovat a porovnávat při odstranění mimoiehlých dat a může se znovu vypočítat proměnlivost pro každý soubor opakování. Toto měřítko proměnlivosti se pak dá aplikovat v bloku 8.

í »’ 4 4 444 · · 4 » · * *« · ♦ · « «· «·· 4* ··· 44 44«

4. Předpokládaný model odpovídá?

V bloku 4 se posoudí, zda distribuce zbytků je adekvátní to provedené analýze dat. Pokud ano, provedeme blok 5. Pokud ne, pokračujeme v bloku 9.

5. Je nutná dekonvoluce?

6. Dekonvoluce směsi distribucí

V klíčovém aspektu tohoto vynálezu, jsou vstupními daty pro zpracování podle vynálezu intensity získané pozorováním nebo (výhodně) veškerá opakování, ve formě matice. Podle výhodného aspektu, se dá použít E-M algoritmus a jakékoliv modifikace, které jsou pro apliakaci pružnější (např. pro umožnění modelování nenormálních distribucí; Pro umožnění informace a priori Information, např. negativní hodnoty jsou nesignál”) řeší obvyklý algoritmus pro modelování, který je podkladem distribucí. Jiné přístupy ke směsi je možná dekonvoluce.

7. Aplikuj klasifikační pravidlo

Dané parametry distribuce, získané v bloku 6, budou třeba použít ke klasifikací pozorování, zda spadají do jedné Či druhé třídy (např., signál a nesignál).

Pozorování se dají klůasifikovat podle popisu postupu * · fcfcfc fcfc fc ♦ • fc fcfcfc v části nazvané Použití funkce hustoty pravděpodobnosti pro posouzení hybridizačních hodnot vzhledem k distribuci jejich původu.

fcfc · • » fc · fcfcfc fcfc · fcfc fcfcfcfc fcfc fcfcfc fc fc fc fc

8. Statistické testy

Když je chyba změřena, provedou se standardní statistické testy a vypočtou se intervaly spolehlivostí. Takovéto testy by mohly zahrnovat závislé a nezávislé t-testy a závislé a nezávislé analýzy variance (ANOVA) a jiné standardní testy. Tato srovnání by měla být provedena mezi provedením výpočtů průměrů za různých podmínek. Jiné testy jsou také možné. Při ukončení testů se způsob zakončí. Toto lze vzít v úvahu jako normální zakončení.

9. Vyhlas poplach

Pokud předpokládaný model chyby není vyhovující, vyhlásí se poplach a proces se zastaví. Toto lze považovat za abnormální ukončení. Pak jsou možná tři řešení. Hrubá data se mohou transformovat manuálně pomocí BoxCox nebo jiným postupem. Způsob by mohl opět začít, a to tak, že se posuzuje předpoklad nového chybového modelu. Alternativně lze provést optimalizační strategii, která je znázorněna na obrázku 6 . Finálně se distribuce chyb může odhadnout empiricky neparametrickýmí metodami jako je bootstrap nebo jinými postupy.

• · · · 4 ···· «4 «4·4 ·· ··· ·« ···

Model chyby není známý

Pokud model chyby není známý, je postup, jak je representován na obrázku 6. identický předchozímu jen s tou výjimkou, že se provádí stupeň výběru modelu chyby. V tomto případě se model volí pomocí počítačové metody. Data podstupují řadu transformací v cyklu bloků 1 až 3. Tyto transformace se mohou například zakládat na metodě Box-Cox nebo jiném typu známém v oboru. Optimální transformace se volí na základě posouzení chyby. Pokud je optimální transformace ukončena a akceptuje se teoretický model (např. logaritmická transformace), mohou se provést další kroky.

Způsob se pak vede stejným způsobem.

• « • ·« · * · · ·· «··· fy Ujdoo-s^

Claims

P AT Ε N T O V É NÁROKY

1. Způsob provedení statisticky platných závěrů, týkajících se dat, získaných z maticových hybridizačních testů, který má výhodu v měření velkých počtů genomových. vzorků, přičemž naměřená hodnota pro každý vzorek je získána při malém počtu opakování, které je nedostatečné pro utvoření přesného a platného závěru, vyznačující se tím, že zahrnuje krok, při kterém se odhad chyby pro vzorek provádí vypočtením průměrů odhadů chyb, získaných z velkého počtu vzorků.
2. Způsob podle nároku 1, vyznačující se tím, že statisticky vypočtená hodnota, z celé populace v matici se použije k odhadu v konkrétních oddělených případech statistického závěru z výsledku, získaného v malém počtu opakování v rámci uvedené populace v matici.
3. Způsob podle nároku 1 nebo 2, vyznačující se tím, že se při něm odhadnutá chyba měření použije k analýze statistické síly a citlivosti experimentální metody.

0 0 000 •00 * 0 00·· 00 0*00 00 ·· «0 »0·
4. Způsob podle nároku 1 nebo 2, vyznačující se tím, že se při něm ulétlé výsledky rozpoznávají s pomocí odhadů chyby, dosažených jak je uvedeno v nároku 1 nebo 2.
5. Způsob rozlišování, do které třídy patří daná experimentální odezva, jako je například třída je signál a třída není signál, v rámci hybridizačních testovacích matic, vyznačující se tím, že zahrnuje krok, při kterém se rozpoznávají přesahy distribucí, představujících závěry ohledně dat, která jsou získána z matice výsledků hybridizačního testu.
6. Způsob podle nároku 5, vyznačující se tím, že jedna ze dvou a více distribucí v rámci matice se modeluje(í) matematickým smíšeným modelováním.
7. Způsob podle nároku 5 nebo 6, vyznačující se tím, že smíšené modelování se používá k umožnění závěrů o pravděpodobnosti, že určitý element v matici spadá do jedné z modelovaných distribucí.
8. Způsob podle kteréhokoliv z nároků 1, 2, 5 nebo 6, použitý k získání platných závěrů ohledně dat získaných z biologických a chemických testů, prováděných v jedné z prohlubní na destičkách, testovacích trubičkách a nebo v jiném prostředí.
9. Způsob podle nároku 3, použitý k získání platných závěrů ohledně dat získaných z biologických a chemických testů, prováděných v jedné z prohlubní na destičkách, testovacích trubičkách a nebo v jiném prostředí.

• · ♦ · • Φ ··· • * · « · Φ·φ·
10. Způsob podle nároku 4, použitý k získání platných závěrů ohledně dat získaných z biologických a chemických testů, prováděných v jedné z prohlubní na destičkách, testovacích trubičkách a nebo v jiném prostředí.
11. Způsob podle nároku 7, použitý k získání platných závěrů ohledně dat získaných z biologických a chemických testů, prováděných v jedné z prohlubní na destičkách, testovacích trubičkách a nebo v jiném prostředí.