NL1013297C1 - Visualization of relationships in datasets. - Google Patents

Visualization of relationships in datasets. Download PDF

Info

Publication number
NL1013297C1
NL1013297C1 NL1013297A NL1013297A NL1013297C1 NL 1013297 C1 NL1013297 C1 NL 1013297C1 NL 1013297 A NL1013297 A NL 1013297A NL 1013297 A NL1013297 A NL 1013297A NL 1013297 C1 NL1013297 C1 NL 1013297C1
Authority
NL
Netherlands
Prior art keywords
expression
genes
spots
drug
dna
Prior art date
Application number
NL1013297A
Other languages
Dutch (nl)
Inventor
Jan Kodde
Wim Van Der Krieken
Original Assignee
Jan Kodde
Wim Van Der Krieken
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jan Kodde, Wim Van Der Krieken filed Critical Jan Kodde
Priority to NL1013297A priority Critical patent/NL1013297C1/en
Priority to PCT/NL2000/000742 priority patent/WO2001027809A2/en
Priority to AU13103/01A priority patent/AU1310301A/en
Application granted granted Critical
Publication of NL1013297C1 publication Critical patent/NL1013297C1/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Description

Titel: Visualisering van verbanden in datasetsTitle: Visualization of relationships in datasets

Vergelijking van databestanden toont aan of er overeenkomsten of verschillen in de bestanden zijn. Doorgaans wordt de onderlinge relatie tussen twéé sets data 5 vergeleken en soms tussen meerdere sets. Dit vergelijken is vaak een tijdrovende bezigheid (“data-mining”) waarbij makkelijk fouten gemaakt kunnen worden. De hier beschreven uitvinding betreft een techniek om twee of meer data sets te vergelijken door de verschillen en/of overeenkomsten tussen de sets in figuren weer te geven. Deze techniek is bijvoorbeeld van belang voor het vergelijken van beursgegevens 10 (aandeienstanden) om na te gaan of er een correlatie is tussen de waarde van aandelen van bepaalde bedrijven bij verschillende conjunctuurontwikkelingen. Andere voorbeelden zijn datasets uit de: meteorologie, kosmologie, 15 wiskunde-, bevolkingsonderzoeken, patientenonderzoeken, sociologische onderzoeken, fysische bepalingen, 20 biotechnologie,Database comparison shows whether there are any similarities or differences in the files. Usually, the mutual relationship between two sets of data 5 is compared and sometimes between several sets. This comparison is often a time-consuming activity (“data-mining”) where mistakes can easily be made. The invention described here concerns a technique for comparing two or more data sets by showing the differences and / or similarities between the sets in figures. This technique is important, for example, for comparing stock market data 10 (stock stocks) to determine whether there is a correlation between the value of shares of certain companies in different economic developments. Other examples are datasets from the: meteorology, cosmology, 15 mathematics, population studies, patient studies, sociological studies, physical determinations, 20 biotechnology,

High througput systemen (het effect van grote aantallen verschillende stoffen worden meerdere malen in verschillende testsystemen bestudeerd. Door het combineren van de resultaten verkregen bij de verschillende testsystemen wordt meer informatie over de te testen stoffen verkregen).High througput systems (the effect of large numbers of different substances are studied several times in different test systems. By combining the results obtained in the different test systems, more information about the substances to be tested is obtained).

2525

Analyse van databestanden van DNA microarrays wordt hier verder uitgewerkt. Bestanden van DNA-microarrays zijn een voorbeeld van biotechnologisch databestanden (andere voorbeelden hiervan zijn bijvoorbeeld bestanden van dot blots, cDNA-AFLP, Northern blots, Southern blots en protein-arrays uit de 30 proteomics). In de moleculaire genetica neemt het gebruik van DNA microarray’s een enorme vlucht. Bij deze techniek worden DNA-fragmenten die behoren bij bepaalde genen als kleine “spotjes” op een glasplaatje gebracht (de sequentie van de DNA fragmenten en functie van het bijbehorende gen zijn kunnen na analyse bekend zijn). Met bepaalde apparatuur is het mogelijk om vele kopieën van zo’n 1013297 2 glasplaatje te maken (de positie op het glasplaatje van de DNA-spots is bij alle kopieën gelijk). Op een klein glasplaatje (van bijvoorbeeld één vierkante inch) kunnen vele duizenden DNA (of cDNA of RNA) spotjes gebracht worden. Hierdoor is het mogelijk om via bepaalde standaard DNA-technieken (hybridisatie technieken 5 met gelabelde probes) aan te tonen welke genen in een bepaald weefsel, onder bepaalde omstandigheden, actief zijn. In het kort gaat dit als volgt: de DNA spots op de array laat men hybridiseren (verbinden) met DNA of RNA afkomstig van het te testen weefsel. Dit DNA of RNA is gemerkt met een bepaalde kleur (bijvoorbeeld geel) en wordt ook wel probe genoemd. Na hybridisatie met de probe is de 10 intensiteit van de kleuring evenredig met het (relatieve) expressieniveau van het gen. Ook kunnen twéé DNA of RNA probes tegelijkertijd getest worden. De tweede probe is bijvoorbeeld afkomstig van weefsel dat een andere behandeling heeft ondergaan dan het weefsel waarvan de eerste probe is gemaakt. De tweede probe kan gemerkt worden met een andere kleur (bijvoorbeeld rood). Spots op de 15 microarray die na de hybridisatie geel of rood zijn komen alleen in één van de weefsels tot expressie en spots met een intermediaire kleur (oranjeachtige kleuren) komen in beide weefsels tot expressie. Met optische apparatuur kan heel exact de kleur van een bepaalde stof gemeten worden en daarmee kan het onderlinge expressieverschil in het behandelde en onbehandelde weefsel per spot bepaald 20 worden. De verschillen in expressie kunnen makkelijk geregistreerd worden: genen die specifiek genoeg tot expressie komen onder bepaalde omstandigheden (bijvoorbeeld uit weefsel na het toedienen van een bepaald medicijn) kunnen worden geïsoleerd en vervolgens verder worden bestudeerd. Er zijn verschillende varianten om DNA microarrays toe te passen (cDNA-microarrays, subtractive cDNA 25 microarrays, microarrays waarbij EST, expressed sequence tags, op het glasplaatje gespot worden etc.). Omdat grote aantallen genen vergeleken worden (vaak vele duizenden per array) ontstaan grote databestanden. Deze databestanden worden tot nu toe op weinig gesofisticeerde wijze verwerkt. Per spot wordt de verandering in expressie bij verschillende condities geanalyseerd en opgeslagen (via een 30 spreadsheet of via een gekleurde weergave van de array, waarbij de kleur de verandering in genexpressie weergeeft). Omdat deze manier van vergelijken erg tijdrovend is (alle duizende spots moeten ondeling vergeleken worden) en omdat fouten makkelijk kunnen ontstaan wordt in de praktijk vaak gezocht naar een van tevoren opgesteld expressieprofiel en wordt hiervan de sterkste exponent 1 n 1 a 7 q 7 3 geselecteerd met als gevolg dat veel informatie verloren gaat. Bij zo’n ééndimensionale analyse komen dus de onderlinge verbanden tussen de verschillende expressiepatronen vaak niet goed aan het licht. Terwijl dit juist waardevolle informatie is die met micro array’s gegenereerd kan worden. Ook als 5 slechts naar een specifiek expressieprofiel gezocht wordt, is het erg nuttig te weten of dit profiel in een groter verband geplaatst kan worden. Het kan bijvoorbeeld belangrijk zijn om te weten of genen met een specifiek expressiepatroon bij meerdere processen betrokken zijn. Dit verkleint ook de kans dat het gevonden profiel het gevolg is van meetfouten.Analysis of data files of DNA microarrays is further elaborated here. DNA microarray files are an example of biotechnology data files (other examples include dot blots, cDNA-AFLP, Northern blots, Southern blots, and protein arrays from the proteomics). The use of DNA microarrays is taking off in molecular genetics. In this technique, DNA fragments associated with certain genes are placed on a glass slide as small “spots” (the sequence of the DNA fragments and the function of the associated gene may be known after analysis). With certain equipment it is possible to make many copies of such a 1013297 2 glass slide (the position on the glass slide of the DNA spots is the same for all copies). Many thousands of DNA (or cDNA or RNA) spots can be placed on a small glass slide (for example one square inch). This makes it possible to demonstrate which genes are active in a particular tissue, under certain conditions, via certain standard DNA techniques (hybridization techniques with labeled probes). Briefly, this goes as follows: the DNA spots on the array are allowed to hybridize (connect) with DNA or RNA from the tissue to be tested. This DNA or RNA is labeled with a certain color (for example, yellow) and is also referred to as a probe. After hybridization with the probe, the intensity of the staining is proportional to the (relative) expression level of the gene. Two DNA or RNA probes can also be tested simultaneously. For example, the second probe comes from tissue that has been treated differently than the tissue from which the first probe is made. The second probe can be labeled with a different color (e.g. red). Spots on the microarray that are yellow or red after hybridization are expressed only in one of the tissues, and spots of intermediate color (orange-like colors) are expressed in both tissues. With optical equipment, the color of a certain fabric can be measured very precisely and the mutual expression difference in the treated and untreated tissue per spot can thus be determined. The differences in expression can be easily registered: genes that are expressed specifically enough under certain circumstances (for example from tissue after the administration of a certain drug) can be isolated and then further studied. There are different variants for applying DNA microarrays (cDNA microarrays, subtractive cDNA 25 microarrays, microarrays where EST, expressed sequence tags, are spotted on the glass slide, etc.). Because large numbers of genes are compared (often many thousands per array), large data files are created. These data files have hitherto been processed in a less sophisticated manner. For each spot, the change in expression is analyzed and stored under different conditions (via a spreadsheet or via a colored representation of the array, the color reflecting the change in gene expression). Because this method of comparison is very time-consuming (all thousands of spots have to be compared in detail) and because errors can easily arise, in practice, a predefined expression profile is often searched and the strongest exponent is selected 1 n 1 a 7 q 7 3 with the result that a lot of information is lost. Thus, in such a one-dimensional analysis, the interrelationships between the different expression patterns are often not clearly revealed. While this is actually valuable information that can be generated with micro arrays. Even if only a specific expression profile is searched for, it is very useful to know whether this profile can be placed in a larger context. For example, it may be important to know whether genes with a specific expression pattern are involved in multiple processes. This also reduces the chance that the profile found is the result of measurement errors.

10 Het doel van het hier omschreven analyseprogramma is de expressiepatronen zo weer te geven dat de onderlinge verbanden snel, geordend en duidelijk zichtbaar worden. Dit wordt bereikt via een computerprogramma dat de spots van de oorspronkelijke array herrangschikt. Hierbij worden de spots die met een bepaalde specificiteit behoren bij een behandeling (bijvoorbeeld specifieke genexpressie na 15 toediening van een medicijn) bij elkaar geplaatst in een figuur die een virtuele array weergeeft. De spots die tot expressie komen bij een andere behandeling worden ook gegroepeerd, en overlappingen binnen deze groepen van genen worden ook gevisualiseerd. Hierdoor worden verbanden in genexpressie bij verschillende behandelingen onmiddefiijk duidelijk. Ook worden genen die altijd samen tot 20 expressie komen en als het ware netwerken van genexpressie vormen ook geïdentificeerd. Het computerprogramma is bij deze techniek zodanig dat de informatie over de oorspronkelijke positie van de spots bewaard blijft zodat men terug kan zoeken welk gen (functie en sequentie) specifiek tot expressie komt. De nieuwe plaats van de spot in deze virtuele array wordt bepaald door het relatieve 25 expressieniveau ten opzichte van de expressie van de controle genen of van genen die tot expressie komen bij andere behandelingen. In een enkelvoudig (1 bepaling/1 fysiologische conditie) experiment zijn de resultaten makkelijk te vergelijken. Als er echter meerdere onderling samenhangende condities (b.v. een tijdsreeks en/of een concentratiereeks) vergeleken moeten worden is de plaats van de spot in de virtuele 30 array ook afhankelijk van het resultaat van de overige metingen binnen de opgegeven reeks. Het resultaat van zo’n analyse is te zien in figuur 1. in deze figuur zij de data van een hypothetisch experiment, waarvan de resultaten in figuur 2 zijn weergegeven, met behulp van het computerprogramma herrangschikt. De groepen genen die gerelateerd aan een bepaalde behandeling tot expressie komen zijn I 01 3297 4 gegroepeerd weergegeven in figuur 3. Bij dit hypothetische experiment is de genexpressie gemeten in ziek spierweefsel na toediening van verschillende concentraties van twee medicijnen: medicijn 1 en medicijn 2. Op het moment dat bij de juiste verhouding van medicijn 1 en medicijn 2 aanwezig is herstelt het weefsel.10 The aim of the analysis program described here is to display the expression patterns in such a way that the interrelationships become fast, orderly and clearly visible. This is accomplished through a computer program that rearranges the spots of the original array. Here, the spots with a certain specificity associated with a treatment (eg specific gene expression after administration of a drug) are placed together in a figure that represents a virtual array. The spots expressed in another treatment are also grouped, and overlaps within these groups of genes are also visualized. As a result, links in gene expression with different treatments become immediately clear. Genes that are always expressed together and that form networks of gene expression, as it were, are also identified. The computer program in this technique is such that the information about the original position of the spots is preserved so that one can search back which gene (function and sequence) is specifically expressed. The new position of the spot in this virtual array is determined by the relative level of expression relative to the expression of the control genes or of genes expressed in other treatments. In a single (1 determination / 1 physiological condition) experiment, the results are easy to compare. However, if several interrelated conditions (eg a time series and / or a concentration series) are to be compared, the location of the spot in the virtual array also depends on the result of the other measurements within the specified series. The result of such an analysis is shown in Figure 1. In this figure, the data from a hypothetical experiment, the results of which are shown in Figure 2, are rearranged using the computer program. The groups of genes expressed in relation to a particular treatment are grouped in Figure 3. In this hypothetical experiment, gene expression was measured in diseased muscle tissue after administration of different concentrations of two drugs: drug 1 and drug 2. On the moment when the correct ratio of drug 1 and drug 2 is present, the tissue recovers.

5 Als alleen medicijn 1 aanwezig is treedt lipidperoxidatie op en als alleen medicijn 2 aanwezig is vindt geen glycogeenmetabolisme meer plaats. In dit hypothetische geval zijn als gevolg van het herrangschikken met het computerprogramma alle genen die bij alle behandelingen (en controleweefsel dat onbehandeld was) tot expressie komen linksonder het midden geplaatst. Deze genen zijn waarschijnlijk 10 “huishoudgenen” en niet specifiek gerelateerd aan toediening van een bepaald medicijn (of herstel van de ziekte). Alle genen die specifiek zijn voor toediening van medicijn 1 zijn weergegeven boven deze huishoudgenen. Genen specifiek voor medicijn 2 staan rechts van de huishoudgenen. Genen die bij de optimale concentratie van medicijn 1 en medicijn 2 tot expressie komen en dus horen bij het 15 herstel van de ziekte zijn rechtsboven de huishoud genen geprojecteerd. Genen die tot expressie komen louter door het toedienen van een stof aan een patiënt zijn linksonder de huishoudgenen geplaatst. Genen gerelateerd aan de bijeffecten van medicijn 1 (supra-optimale concentraties van medicijn 1 in combinatie met sub-optimale concentratie van medicijn 2 leiden tot lipidperoxidatie) zijn uiterst links 20 weergegeven en genen die in het omgekeerde geval tot expressie komen (supra-optimale concentraties van medicijn 2 in combinatie met sub-optimale concentratie van medicijn 1 leiden tot verlies van het vermogen om glycogeen te benutten) staan onderaan geprojecteerd.If only drug 1 is present, lipid peroxidation occurs and if only drug 2 is present glycogen metabolism no longer takes place. In this hypothetical case, as a result of rearranging with the computer program, all genes expressed in all treatments (and control tissue that was untreated) are placed in the lower left center. These genes are probably 10 “household genes” and are not specifically related to the administration of a particular drug (or recovery from the disease). All genes specific for drug 1 administration are listed above these household genes. Genes specific for drug 2 are to the right of the household genes. Genes that are expressed at the optimal concentration of drug 1 and drug 2 and thus belong to the recovery of the disease are projected at the top right of the household genes. Genes that are expressed simply by administering a substance to a patient are placed at the bottom left of the housekeeping genes. Genes related to the side effects of drug 1 (supra-optimal concentrations of drug 1 in combination with sub-optimal concentration of drug 2 lead to lipid peroxidation) are shown on the far left 20 and genes expressed in reverse (supra-optimal concentrations of drug 2 in combination with sub-optimal concentration of drug 1 lead to loss of the ability to utilize glycogen) are projected below.

Wat deze figuren duidelijk illustreren is dat het op deze wijze herrangschikken van 25 de resultaten een veel duidelijker beeld geeft van eventuele relaties tussen de genen. Analyse zonder de hier beschreven techniek zal erg veel tijd in beslag nemen en het is twijfelachtig of de hier beschreven verbanden gevonden worden omdat dit af zal hangen van de beschikbare tijd en de ervaring van de onderzoeker die de analyses uitvoert. Bij dit hypothetische experiment zijn alleen genen getoond 30 waarvan de expressie toeneemt ten opzichte van genexpressie in het onbehandelde weefsel. In een echt experiment zullen ook genen verminderd tot expressie komen ten opzichte van dit weefsel. Ook deze verschillen kunnen in de virtuele array verwerkt worden.What these figures clearly illustrate is that rearranging the results in this way provides a much clearer picture of any relationships between the genes. Analysis without the technique described here will take a very long time and it is doubtful whether the relationships described here will be found because it will depend on the time available and the experience of the investigator performing the analyzes. In this hypothetical experiment, only genes whose expression increases relative to gene expression in the untreated tissue are shown. In a real experiment, genes will also be less expressed relative to this tissue. These differences can also be processed in the virtual array.

1013297 51013297 5

AnalyseprogrammaAnalysis program

Het algoritme is in staat de resultaten verkregen bij experimenten met microarrays (virtueel) te rangschikken. De microarrays bestaan uit DNA spots met erin, kopieën van complete genen of gedeelten ervan. Bij de experimenten wordt de expressie 5 gemeten van de genen die op de microarray aanwezige zijn. Voor het meten van deze expressie wordt een bekende mRNA pool, geïsoleerd uit weefsel, omgezet in gelabeld cDNA. De gelabelde cDNA’s kunnen binden aan complementair DNA in de spots. Het expressieniveau van een gen bepaalt zijn aandeel in de mRNA pool. Dit expressieniveau is dus te meten door de hoeveelheid label (van het cDNA) op een 10 bepaalde spot te bepalen.The algorithm is able to (virtually) rank the results obtained in experiments with microarrays. The microarrays consist of DNA spots containing copies of complete genes or parts of them. The experiments measure the expression of the genes present on the microarray. To measure this expression, a known mRNA pool isolated from tissue is converted into labeled cDNA. The labeled cDNAs can bind to complementary DNA in the spots. The expression level of a gene determines its share in the mRNA pool. This expression level can therefore be measured by determining the amount of label (of the cDNA) at a given spot.

Bij de experimenten wordt uitgegaan van weefsels die onder verschillende omstandigheden geïncubeerd zijn. Deze incubaties zijn zodanig dat ze onderling een bepaald verband hebben (bijvoorbeeld een concentratie reeks van een bepaalde stof en / of een tijdreeks). In het voorbeeld is een hypothetisch experiment 15 met twee stoffen (medicijn 1 en medicijn 2) te zien. Uit de verkregen virtuele rangschikking kan de functie en verbandvan de gespotte DNA-fragmenten worden bepaald.The experiments start from tissues incubated under different conditions. These incubations are such that they have a certain relationship with each other (for example a concentration series of a certain substance and / or a time series). In the example, a hypothetical experiment 15 with two substances (drug 1 and drug 2) is shown. The function and relationship of the spotted DNA fragments can be determined from the virtual arrangement obtained.

Omschrijving van de data.Description of the data.

20 De data zijn expressie niveaus die op de microarrays gemeten zijn (hoeveelheid label op een spot) bij de bovengenoemde experimenten. Voor het algoritme worden deze data in kolommen gezet. Iedere kolom vertegenwoordigt hierbij de data verkregen bij een bepaalde incubatie omstandigheid (bepaalde concentratie van medicijn 1 of 2). Een rij vertegenwoordigt de resultaten van een spot onder alle 25 incubatie omstandigheden.The data are expression levels measured on the microarrays (amount of label on a spot) in the above experiments. For the algorithm, these data are put in columns. Each column hereby represents the data obtained at a certain incubation condition (determined concentration of drug 1 or 2). A row represents the results of a spot under all 25 incubation conditions.

Data transformatieData transformation

Bij het sorteren van de data worden als eerste de expressiewaarden ingedeeld in een beperkt aantal niveaus, leder niveau vertegenwoordigt dus een expressiewaarde tussen twee van te voren gekozen grenswaarden. Bij die spots 30 waar de expressiewaarde onder de laagste grenswaarde ligt wordt de niveauwaarde nul toegekend (aan lage expressieniveaus wordt de waarde nul toegekend). Met het kiezen van de grenswaarden van de verschillende niveaus kan het eindresultaat geoptimaliseerd worden. Als ook down-regulatie van genen 1013297 6 wordt bestudeerd kan de nulwaarde bijvoorbeeld aan een ander niveau worden toegekend.When sorting the data, the expression values are first classified into a limited number of levels, so each level represents an expression value between two preselected limits. At those spots 30 where the expression value is below the lowest limit value, the level value is assigned zero (low expression levels are assigned the value zero). The final result can be optimized by choosing the limit values for the different levels. For example, if down-regulation of genes 1013297 6 is also studied, the zero value can be assigned to a different level.

Sorteren van de data.Sorting the data.

5 De spots in de verschillende kolommen worden geclusterd. Dit kan bijvoorbeeld als volgt: Aan iedere spot wordt een binaire code toegekend. Aan iedere expressiewaarde van een bepaalde kolom wordt één binaire getal toegekend (0 of 1). Aan één van de expressieniveaus, bijvoorbeeld expressieniveau 0, wordt het binaire getal 0 gegeven en aan alle andere expressieniveaus de waarde 1. Zo 10 ontstaat een rij met getallen die de binaire code vormt. Alle spots met de zelfde binaire code worden geclusterd.5 The spots in the different columns are clustered. This can be done as follows: A binary code is assigned to each spot. Each expression value of a particular column is assigned one binary number (0 or 1). One of the expression levels, for example expression level 0, is given the binary number 0 and all other expression levels are given the value 1. Thus, a row of numbers is formed which forms the binary code. All spots with the same binary code are clustered.

Plaatsing van arrays bij virtuele rangschikking.Placement of arrays in virtual arrangement.

Voorafgaande aan de virtuele rangschikking worden de arrays die de verschillende 15 incubatie omstandigheden vertegenwoordigen in een bepaalde voigorde/positie geplaatst. Deze plaatsing vertegenwoordigd bijvoorbeeld de proefopzet. In dit geval wordt links de incubatie met de laagste concentratie van stof 1 en rechts die met de hoogste (en onderaan de laagste concentratie van stof 2 en bovenaan de hoogste van stof 2 (zoals gebruikelijk is bij het uitzetten van figuren).Prior to the virtual arrangement, the arrays representing the different incubation conditions are placed in a certain order / position. This placement represents, for example, the trial design. In this case, the incubation with the lowest concentration of substance 1 on the left becomes the one with the highest (and at the bottom the lowest concentration of substance 2 and at the top the highest of substance 2 (as is usual when plotting figures).

20 Berekenen van de een optimale positie van de clusters op de virtuele arrays.20 Calculating the optimal position of the clusters on the virtual arrays.

De virtuele rangschikking van clusters binnen de arrays kan gebaseerd zijn op het volgende. Alle spots binnen een cluster hebben dezelfde, berekende, positie.The virtual arrangement of clusters within the arrays may be based on the following. All spots within a cluster have the same calculated position.

Als een cluster tot expressie komt bij een hoge concentratie van stof 1 en van stof 2 dan wordt dit cluster binnen alle virtuele arrays ook rechtsboven gezet. Met andere 25 woorden de “X en Y* coördinaten van het cluster (en de spots binnen dit cluster) is afhankelijk van het expressiepatroon, van de geclusterde spots bij de verschillende arrays. Naast de hierboven gegeven sorteermethode op basis van de binaire code (zie “sorteren”) is het ook mogelijk te sorteren op basis van dezeX- en Y-coördinaten eventueel aangevuld met de kwadratensom hiervan (dit kan minder nauwkeurig zijn, 30 maar levert tijdswinst op).If a cluster is expressed at a high concentration of substance 1 and substance 2, then this cluster is also placed at the top right of all virtual arrays. In other words, the “X and Y * coordinates of the cluster (and the spots within this cluster) depend on the expression pattern, of the clustered spots on the different arrays. In addition to the sorting method based on the binary code given above (see “sorting”), it is also possible to sort on the basis of these X and Y coordinates, possibly supplemented by the square sum thereof (this may be less accurate, but 30 saves time. ).

Genereren van de virtuele arraysGeneration of the virtual arrays

Nadat de X- en Y-coördinaten zijn berekend kunnen spots op de virtuele arrays geplaatst worden. Dit gebeurt cluster voor cluster (alle spots binnen een cluster 1013297 7 hebben in eerste instantie dezelfde X en Y coördinaten). Dit kan bijvoorbeeld in volgorde van oplopende of aflopende X en / of Y waarde of naar oplopende cluster grootte enz. Als bij het plaatsen de berekende positie al bezet is wordt de meest nabij gelegen lege positie gekozen. Door te beginnen met de spot die binnen een 5 cluster de hoogste totaalexpressie heeft zal de visualisering duidelijker zijn. Als bij het plaatsen van een nieuw clusterde berekende positie bezet is dan wordt een andere positie gekozen. Deze positie kan bijvoorbeeld de meest nabij gelegen positie zijn die nog vrij is maar ook andere plaatsingsstrategieën zijn denkbaar.After the X and Y coordinates have been calculated, spots can be placed on the virtual arrays. This is done cluster by cluster (all spots within a cluster 1013297 7 initially have the same X and Y coordinates). This can be done in order of ascending or descending X and / or Y value or ascending cluster size, etc. If the calculated position is already occupied when placing, the nearest empty position is chosen. By starting with the spot that has the highest total expression within a 5 cluster, the visualization will be clearer. If a new clustered calculated position is occupied, a different position is selected. This position can be, for example, the nearest position that is still available, but other placement strategies are also conceivable.

Voor een goed overzicht op de virtuele arrays (goede afbakening van verschillende 10 clusters) kan het voordeel opleveren om de virtuele arrays groter te maken dan de originele arrays. Op deze manier wordt een gelijk aantal virtuele arrays gegenereerd als er originelen zijn. De expressiewaarden waarden op de virtuele arrays worden daarbij d.m.v. kleuren, grijstinten of arceringen die het expressie niveau weergeven, gevisualiseerd. Daarnaast bevat de virtuele spot ook informatie over de originele 15 spot (omschrijving van het DNA, plaats op de originele arrays enz.).For a good overview of the virtual arrays (good delineation of different 10 clusters), it can be advantageous to make the virtual arrays larger than the original arrays. In this way, an equal number of virtual arrays are generated if there are originals. The expression values values on the virtual arrays are thereby determined by means of colors, grays or hatches that represent the expression level, visualized. In addition, the virtual spot also contains information about the original 15 spot (description of the DNA, place on the original arrays, etc.).

Het clusteren kan gebaseerd worden op meer dan twee dimensies de visualisering (plaatsing van de spots en clusters) is tweedimensionaal en het expressieniveau kan als derde dimensie weergegeven worden (via kleur of arcering etc.).Clustering can be based on more than two dimensions, the visualization (placement of the spots and clusters) is two-dimensional and the expression level can be displayed as a third dimension (via color or shading etc.).

10132971013297

Claims (1)

De hier beschreven technologie omvat een methode om relaties tussen verschillende datasets in een figuur te visualiseren zodat de onderlinge verbanden snel geanalyseerd kunnen worden en de kans op fouten klein is. 1013297The technology described here includes a method to visualize relationships between different datasets in a figure so that the interrelationships can be quickly analyzed and the chance of errors is small. 1013297
NL1013297A 1999-10-15 1999-10-15 Visualization of relationships in datasets. NL1013297C1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
NL1013297A NL1013297C1 (en) 1999-10-15 1999-10-15 Visualization of relationships in datasets.
PCT/NL2000/000742 WO2001027809A2 (en) 1999-10-15 2000-10-16 Visualizing relations in data sets
AU13103/01A AU1310301A (en) 1999-10-15 2000-10-16 Visualizing relations in data sets

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL1013297A NL1013297C1 (en) 1999-10-15 1999-10-15 Visualization of relationships in datasets.
NL1013297 1999-10-15

Publications (1)

Publication Number Publication Date
NL1013297C1 true NL1013297C1 (en) 2001-04-18

Family

ID=19770056

Family Applications (1)

Application Number Title Priority Date Filing Date
NL1013297A NL1013297C1 (en) 1999-10-15 1999-10-15 Visualization of relationships in datasets.

Country Status (3)

Country Link
AU (1) AU1310301A (en)
NL (1) NL1013297C1 (en)
WO (1) WO2001027809A2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040027350A1 (en) * 2002-08-08 2004-02-12 Robert Kincaid Methods and system for simultaneous visualization and manipulation of multiple data types
US8131471B2 (en) 2002-08-08 2012-03-06 Agilent Technologies, Inc. Methods and system for simultaneous visualization and manipulation of multiple data types
US6950756B2 (en) * 2003-02-05 2005-09-27 Agilent Technologies, Inc. Rearrangement of microarray scan images to form virtual arrays
US7825929B2 (en) 2003-04-04 2010-11-02 Agilent Technologies, Inc. Systems, tools and methods for focus and context viewing of large collections of graphs
US7353116B2 (en) 2003-07-31 2008-04-01 Agilent Technologies, Inc. Chemical array with test dependent signal reading or processing

Also Published As

Publication number Publication date
WO2001027809A2 (en) 2001-04-19
WO2001027809A3 (en) 2002-09-12
AU1310301A (en) 2001-04-23

Similar Documents

Publication Publication Date Title
US6801859B1 (en) Methods of characterizing drug activities using consensus profiles
Guzowski et al. Mapping behaviorally relevant neural circuits with immediate-early gene expression
Vlasits et al. Function first: classifying cell types and circuits of the retina
El-Sayed et al. The African trypanosome genome
US20210381056A1 (en) Systems and methods for joint interactive visualization of gene expression and dna chromatin accessibility
US20040076984A1 (en) Expert system for classification and prediction of generic diseases, and for association of molecular genetic parameters with clinical parameters
EP1037158A2 (en) Methods and apparatus for analyzing gene expression data
CN102272764A (en) Evolutionary clustering algorithm
Kim et al. Prediction of colon cancer using an evolutionary neural network
WO2003004677A2 (en) Methods for generating differential profiles by combining data obtained in separate measurements
AU2020378080A1 (en) Accurate and robust information-deconvolution from bulk tissue transcriptomes
Eglen et al. Influence of cell fate mechanisms upon retinal mosaic formation: a modelling study
NL1013297C1 (en) Visualization of relationships in datasets.
US7996155B2 (en) ANOVA method for data analysis
Bakker et al. The Wg and Dpp morphogens regulate gene expression by modulating the frequency of transcriptional bursts
Kluger et al. Relationship between gene co-expression and probe localization on microarray slides
CN101517579A (en) Method of searching for protein and apparatus therefor
Sharko et al. Heat map visualizations allow comparison of multiple clustering results and evaluation of dataset quality: Application to microarray data
Breitling et al. Vector analysis as a fast and easy method to compare gene expression responses between different experimental backgrounds
US7031843B1 (en) Computer methods and systems for displaying information relating to gene expression data
Chen et al. Whole-cortex in situ sequencing reveals peripheral input-dependent cell type-defined area identity
EP1691311A1 (en) Method, system and software for carrying out biological interpretations of microarray experiments
WO2006007579A9 (en) Methods, systems and computer readable media for identifying dye-normalization probes
Ramakrishnan et al. DNA microarray data classification via Haralick’s parameters
Szumala et al. Unsupervised Investigation of Information Captured in Pathway Activity Score in scRNA-Seq Analysis

Legal Events

Date Code Title Description
VD1 Lapsed due to non-payment of the annual fee

Effective date: 20040501