DE102013221669A1

DE102013221669A1 - Genaue Simulation von aus einer Rekombination von Eltern stammenden Nachkommen

Info

Publication number: DE102013221669A1
Application number: DE102013221669.6A
Authority: DE
Inventors: Niina S. Haiminen; Laxmi P. Parida; Filippo UTRO
Original assignee: International Business Machines Corp
Current assignee: GlobalFoundries Inc
Priority date: 2012-11-13
Filing date: 2013-10-24
Publication date: 2014-06-12
Also published as: US20140136166A1; US20140136161A1

Abstract

Verschiedene Ausführungsformen simulieren Crossover-Ereignisse auf einem Chromosom. In einer Ausführungsform wird eine Anzahl Y von auf einem simulierten Chromosom auszuwählenden Positionen festgelegt. Es werden Y Positionen j1, ..., jy auf dem simulierten Chromosom ausgewählt. Ausgehend von Y > 0 wird an einer oder mehreren der Positionen ein Crossover-Ereignis platziert. Es wird eine zusätzliche Anzahl Y' von auf dem simulierten Chromosom auszuwählenden Positionen j'1, ..., j'y festgelegt. Es werden Y' zusätzliche Positionen j'1, ..., j'y auf dem simulierten Chromosom ausgewählt. Ausgehend von Y' > 0 und davon, dass eine der einen oder den mehreren der zusätzlichen Positionen j'1, ..., j'y zugehörige Nachbarschaft t frei von Crossover-Ereignissen ist, wird ein zusätzliches Crossover-Ereignis an einer oder mehreren der zusätzlichen Positionen j'1, ..., j'y platziert. Auf der Grundlage der einen oder mehreren der Positionen j1, ..., jy und zusätzlichen Positionen j'1, ..., j'y, an denen ein Crossover-Ereignis platziert wurde, wird ein Satz von Crossover-Ereignisorten ermittelt.

Description

Hintergrund
Die vorliegende Erfindung betrifft das Gebiet der Bioinformatik (computational biology) im Allgemeinen und ein Simulieren von aus einer Rekombination von Eltern stammenden Nachkommen im Besonderen.
Bei der Fortpflanzung von diploiden Organismen treten Crossover-Ereignisse (crossovers) häufig während der Meiose auf. Daher erhalten Nachkommen nicht immer vollständige Kopien der Chromosomen ihrer Eltern. Stattdessen ist das von einem Elter geerbte genetische Material oftmals eine Kombination von Segmenten aus den beiden in diesem Elter vorhandenen Chromosomen, d. h. eine Kombination aus den beiden Haplotypen des Elters (und Ähnliches gilt für vom anderen Elter geerbtes Material). Die Simulation der Crossover-Ereignisse in einem Chromosom ist eine grundlegende Komponente eines Simulators für Populationsevolution, wobei die Population (neutral) unter Selektion stehen kann. Ein Individuum aus einer diploiden Population bezieht sein genetisches Material aus seinen beiden Eltern, und das Interesse richtet sich auf die Untersuchung dieser Fragmentierung und Verteilung des Elternmaterials in den Nachkommen. Da das Crossover-Ereignis das vorherrschende Ereignis im Simulator ist, legt es zum einen die Genauigkeit des Simulators fest und steuert letztendlich auch dessen Ausführungsgeschwindigkeit.
Kurzdarstellung
In einer Ausführungsform wird ein auf einem Computer implementiertes Verfahren zum Simulieren von Crossover-Ereignissen auf einem Chromosom offenbart. Das auf einem Computer implementierte Verfahren beinhaltet ein Festlegen einer Anzahl Y von Positionen durch einen Prozessor, welche auf einem simulierten Chromosom ausgewählt werden müssen. Das simulierte Chromosom hat eine genetische Länge L mit einer Crossover-Häufigkeit p. Die Y Positionen j₁, ..., j_y auf dem simulierten Chromosom werden auf der Grundlage des Festlegens ausgewählt. Ein Crossover-Ereignis wird an einer oder mehreren der Positionen j₁, ..., j_y platziert, die ausgehend davon, dass Y größer als 0 ist, ausgewählt wurden. Es wird eine zusätzliche Anzahl Y' von Positionen j'₁, ..., j'_y festgelegt, die auf dem simulierten Chromosom ausgewählt werden müssen. Die Y' zusätzlichen Positionen j'₁, ..., j'_y auf dem simulierten Chromosom werden auf der Grundlage des Festlegens ausgewählt. Ein zusätzliches Crossover-Ereignis wird an einer oder mehreren der zusätzlichen Positionen j'₁, ..., j'_y platziert, die ausgehend davon, dass Y größer als 0 ist und eine der einen oder den mehreren zusätzlichen Positionen j'₁, ..., j'_y zugehörige Nachbarschaft t frei von Crossover-Ereignissen ist. Ein Satz von Crossover-Ereignisorten auf dem simulierten Chromosom wird auf der Grundlage der null oder mehr der Positionen j₁, ..., j_y und der null oder mehr der zusätzlichen Positionen j'₁, ..., j'_y ermittelt, an denen ein Crossover-Ereignis platziert wurde.
In einer anderen Ausführungsform wird ein Datenverarbeitungssystem zum Simulieren von Crossover-Ereignissen auf einem Chromosom offenbart. Das Datenverarbeitungssystem beinhaltet einen Speicher und einen Prozessor, der zum Datenaustausch mit dem Speicher verbunden ist. Ein Nachkommensimulationsmodul (progeny simulation module) ist zum Datenaustausch mit dem Speicher und dem Prozessor verbunden. Das Nachkommensimulationsmodell ist so konfiguriert, dass es ein Verfahren ausführt. Das Verfahren beinhaltet ein Festlegen einer Anzahl Y von auf einem simulierten Chromosom auszuwählenden Positionen durch einen Prozessor. Das simulierte Chromosom hat eine genetische Länge L mit einer Crossover-Häufigkeit p. Die Y Positionen j₁, ..., j_y auf dem simulierten Chromosom werden auf der Grundlage des Festlegens ausgewählt. Ein Crossover-Ereignis wird an einer oder mehreren der Positionen j₁, ..., j_y platziert, die ausgehend davon, dass Y größer als 0 ist, ausgewählt wurden. Es wird eine zusätzliche Anzahl Y' von auf dem simulierten Chromosom auszuwählenden Positionen j'₁, ..., j'_y festgelegt.
Die Y' zusätzlichen Positionen j'₁, ..., j'_y auf dem simulierten Chromosom werden auf der Grundlage des Festlegens ausgewählt. Ein zusätzliches Crossover-Ereignis wird an einer oder mehreren der zusätzlichen Positionen j'₁, ..., j'_y platziert, die ausgehend davon, dass Y größer als 0 ist und eine der einen oder mehreren der zusätzlichen Positionen j'₁, ..., j'_y zugehörige Nachbarschaft t frei von Crossover-Ereignissen ist, ausgewählt wurden. Ein Satz von Crossover-Ereignisorten auf dem simulierten Chromosom wird auf der Grundlage der null oder mehreren der Positionen j₁, ..., j_y und der null oder mehreren der zusätzlichen Positionen j'₁, ..., j'_y ermittelt, an denen ein Crossover-Ereignis platziert wurde.
In einer weiteren Ausführungsform wird ein Computerprogrammprodukt zum Simulieren von Crossover-Ereignissen auf einem Chromosom offenbart. Das Computerprogrammprodukt beinhaltet ein Speichermedium, das von einer Verarbeitungsschaltung gelesen werden kann und Befehle zur Ausführung durch die Verarbeitungsschaltung speichern kann, um ein Verfahren auszuführen. Das Verfahren beinhaltet ein Festlegen einer Anzahl Y von auf einem simulierten Chromosom auszuwählenden Positionen durch einen Prozessor. Das simulierte Chromosom hat eine genetische Länge L mit einer Crossover-Häufigkeit p. Die Y Positionen j₁, ..., j_y auf dem simulierten Chromosom werden auf der Grundlage des Festlegens ausgewählt. Ein Crossover-Ereignis wird an einer oder mehreren der Positionen j₁, ..., j_y platziert, die ausgehend davon, dass Y größer als 0 ist, ausgewählt wurden. Es wird eine zusätzliche Anzahl Y' von auf dem simulierten Chromosom auszuwählenden Positionen j'₁, ..., j'_y festgelegt. Die Y' zusätzlichen Positionen j'₁, ..., j'_y auf dem simulierten Chromosom werden auf der Grundlage des Festlegens ausgewählt. Ein zusätzliches Crossover-Ereignis wird an einer oder mehreren der zusätzlichen Positionen j'₁, ..., j'_y platziert, die ausgehend davon, dass Y größer als 0 ist und eine der einen oder mehreren der zusätzlichen Positionen j'₁, ..., j'_y zugehörige Nachbarschaft t frei von Crossover-Ereignissen ist, ausgewählt wurden. Ein Satz von Crossover-Ereignisorten auf dem simulierten Chromosom wird auf der Grundlage der null oder mehreren der Positionen j₁, ..., j_y und der null oder mehreren der zusätzlichen Positionen j'₁, ..., j'_y ermittelt, an denen ein Crossover-Ereignis platziert wurde.
Kurzbeschreibung der verschiedenen Ansichten der Zeichnungen
Die beigefügten Figuren, in denen gleiche Bezugszeichen in den einzelnen Ansichten durchgehend identische oder funktionell ähnliche Elemente bezeichnen und die zusammen mit der folgenden ausführlichen Beschreibung in der Patentbeschreibung enthalten sind und einen Teil von dieser bilden, dienen zur weiteren Veranschaulichung von verschiedenen Ausführungsformen und zur Erläuterung von verschiedenen Grundgedanken und Vorteilen gemäß der vorliegenden Erfindung, wobei:
1 ein Blockschaltbild ist, das ein Beispiel einer Betriebsumgebung gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht;
2 ein Beispiel eines Chromosoms zeigt, das als Teil eines Nachkommensimulationsprozesses gemäß einer Ausführungsform der vorliegenden Erfindung simuliert wird;
3 ein Crossover zeigt, das auf dem Chromosom von 2 an einer Position innerhalb einer Nachbarschaft t eines Crossover vorhanden ist, welches als Teil des Simulationsprozesses gemäß einer Ausführungsform der vorliegenden Erfindung auf dem Chromosom platziert wurde;
4 das Chromosom von 2 zeigt, nachdem gemäß einer Ausführungsform der vorliegenden Erfindung zusätzliche Crossover auf diesem platziert wurden;
5 ein Diagramm ist, das eine Positionskartierungsdistanz (location mapping distance) d als Funktion eines Rekombinationsfaktors (recombination factor) r für Lösungen in geschlossener Form gemäß den Modellen von Haldane und Kosambi und für beobachtete Daten, die gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung erzeugt werden, zeigt; und
6 ein Verarbeitungsablaufplan ist, der ein Beispiel eines Prozesses zum Simulieren von Crossover-Ereignissen auf einem Chromosom gemäß einer Ausführungsform der vorliegenden Erfindung veranschaulicht.
Ausführliche Beschreibung
Verarbeitungsumgebung
1 veranschaulicht eine allgemeine Übersicht über eine Verarbeitungsumgebung 100 zum Simulieren von aus der Rekombination von Eltern stammenden Nachkommen gemäß einer Ausführungsform der vorliegenden Erfindung. Insbesondere veranschaulicht 1 ein Datenverarbeitungssystem 102, das in Ausführungsformen der vorliegenden Erfindung verwendet werden kann. Das in 1 gezeigte Datenverarbeitungssystem 102 ist lediglich ein Beispiel eines geeigneten Systems und soll nicht den Schutzumfang der Anwendung oder Funktionalität von Ausführungsformen der oben beschriebenen vorliegenden Erfindung einschränken. Das Datenverarbeitungssystem 102 von 1 kann eine beliebige der oben dargelegten Funktionen implementieren und/oder ausführen. Jedes geeignet konfigurierte Verarbeitungssystem kann in Ausführungsformen der vorliegenden Erfindung als Datenverarbeitungssystem 102 verwendet werden.
Wie in 1 veranschaulicht wird, liegt das Datenverarbeitungssystem 102 in Form einer Universal-Datenverarbeitungseinheit vor. Zu den Komponenten des Datenverarbeitungssystems 102 können, ohne jedoch auf diese beschränkt zu sein, ein oder mehrere Prozessoren oder Verarbeitungseinheiten 104, ein Systemspeicher 106 und ein Bus 108 gehören, der verschiedene Systemkomponenten, unter anderem den Systemspeicher 106, mit dem Prozessor 104 verbindet.
Der Bus 108 verkörpert einen oder mehrere eines beliebigen von verschiedenen Typen von Busstrukturen, unter anderem einen Speicherbus oder eine Speichersteuereinheit, einen peripheren Bus, einen beschleunigten Grafikanschluss (accelerated graphics port) und einen Prozessor- oder einen lokalen Bus, wobei eine beliebige aus einer Vielfalt von Busarchitekturen verwendet wird. Beispielsweise und ohne Einschränkung gehören zu solchen Architekturen der Industry-Standard-Architecture-(ISA-)Bus, der Micro-Channel-Architecture-(MCA-)Bus, der Enhanced-ISA-(EISA-)Bus, der lokale Video-Electronics-Standards-Association-(VESA-)Bus und der Peripheral-Component-Interconnect-(PCI-)Bus.
Der Systemspeicher 106 enthält in einer Ausführungsform ein Nachkommensimulationsmodul 109, das so konfiguriert ist, dass es Crossover-Ereignisse auf einem Chromosom simuliert. Es sei darauf hingewiesen, dass das Nachkommensimulationsmodul 109 ein eigenständiges Modul oder Teil eines anderen Simulators sein kann wie beispielsweise (ohne jedoch darauf beschränkt zu sein) eines Nachkommensimulators, der so konfiguriert ist, dass er Nachkommen aus der Rekombination von Eltern simuliert. Das Nachkommensimulationsmodul 109 wird im Folgenden ausführlicher erläutert. Zwar zeigt 1 das Nachkommensimulationsmodul 109 als im Hauptspeicher befindlich, das Nachkommensimulationsmodul 109 kann sich jedoch im Prozessor 104 befinden, eine gesonderte Hardware-Komponente sein und/oder über eine Vielzahl von Datenverarbeitungssystemen und/oder Prozessoren verteilt sein.
Der Systemspeicher 106 kann außerdem vom Computersystem lesbare Medien in Form eines flüchtigen Speichers wie beispielsweise eines Direktzugriffspeichers (RAM) 110 und/oder eines Cachespeichers 112 enthalten. Das Datenverarbeitungssystem 102 kann außerdem andere austauschbare/nichtaustauschbare, flüchtige/nichtflüchtige Computersystem-Speichermedien aufweisen. Lediglich beispielhaft kann ein Speichersystem 114 zum Lesen aus einem oder Schreiben auf ein nichtaustauschbares oder austauschbares, nichtflüchtiges Medium, beispielsweise eine oder mehrere SSD-Festplatten (solid state disks), und/oder magnetisches Medium (normalerweise als „Festplatte” bezeichnet) bereitgestellt werden. Es können ein Magnetplattenlaufwerk zum Lesen aus einer und Schreiben auf eine austauschbare, nichtflüchtige Magnetplatte (z. B. eine Diskette) und ein optisches Plattenlaufwerk zum Lesen aus einer oder Schreiben auf eine austauschbare, nichtflüchtige optische Platte, beispielsweise eine CD-ROM, DVD-ROM oder ein anderes optisches Medium, bereitgestellt werden. In solchen Fällen kann jedes durch eine oder mehrere Datenmedienschnittstellen mit dem Bus 108 verbunden werden. Der Speicher 106 kann mindestens ein Programmprodukt mit einem Satz von Programmmodulen enthalten, die so konfiguriert sind, dass sie die Funktionen einer Ausführungsform der vorliegenden Erfindung ausführen.
Beispielhaft und ohne auf diese beschränkt zu sein, können ein Programm/Dienstprogramm 116 mit einem Satz von Programmmodulen 118 sowie ein Betriebssystem, ein oder mehrere Anwendungsprogramme, andere Programmmodule und Programmdaten im Speicher 106 gespeichert sein. Das Betriebssystem, das eine oder die mehreren Anwendungsprogramme, die anderen Programmmodule und die Programmdaten oder eine Kombination aus diesen können jeweils eine Implementierung einer Vernetzungsumgebung aufweisen. Die Programmmodule 118 führen im Allgemeinen die Funktionen und/oder Methodologien von Ausführungsformen der vorliegenden Erfindung aus.
Das Datenverarbeitungssystem 102 kann außerdem Daten austauschen mit einer oder mehreren externen Einheiten 120, beispielsweise einer Tastatur, einer Zeigereinheit, einer Anzeige 122 usw.; mit einer oder mehreren Einheiten, die einem Benutzer die Interaktion mit dem Datenverarbeitungssystem 102 ermöglichen; und/oder mit beliebigen Einheiten (z. B. Netzwerkkarte, Modem usw.), die dem Computersystem/Server 102 den Datenaustausch mit einer oder mehreren anderen Datenverarbeitungseinheiten ermöglichen. Ein solcher Datenaustausch kann über Ein-/Ausgabe-Schnittstellen 124 erfolgen. Außerdem kann das Datenverarbeitungssystem 102 über einen Netzwerkadapter 126 mit einem oder mehreren Netzwerken Daten austauschen, beispielsweise einem lokalen Netz (LAN), einem allgemeinen überregionalen Netz (WAN) und/oder einem öffentlichen Netz (z. B. dem Internet). Wie gezeigt wird, tauscht der Netzwerkadapter 126 über den Bus 108 Daten mit den anderen Komponenten des Datenverarbeitungssystems 102 aus. Es können auch andere Hardware- und/oder Software-Komponenten in Verbindung mit dem Datenverarbeitungssystem 102 verwendet werden. Zu Beispielen zählen, ohne jedoch auf diese beschränkt zu sein: Mikrocode, Einheitentreiber, redundante Verarbeitungseinheiten, externe Plattenlaufwerkanordnungen, RAID-Systeme, Bandlaufwerke und Speichersysteme zur Datenarchivierung.
Nachkommensimulation
In einer Ausführungsform simuliert das Nachkommensimulationsmodul 109 Crossover-Ereignisse als Teil eines Nachkommensimulationsprozesses. Wie im Folgenden ausführlicher erläutert wird, verwendet das Nachkommensimulationsmodul 109 als Eingabe eine Länge von einem oder mehreren Chromosomen. Bei jeder Chromosomenprobe entnimmt das Nachkommensimulationsmodul 109 eine Anzahl von Positionen aus einer Poisson-Zufallsverteilung. Anschließend wählt das Nachkommensimulationsmodul 109 auf der Grundlage der aus der Poisson-Zufallsverteilung entnommenen Zahl eine zufällige Position auf dem Chromosom aus. Das Nachkommensimulationsmodul 109 platziert sodann an jeder Position ein Crossover. Wenn in irgendeiner der der ausgewählten Position vorangehenden t oder folgenden t Positionen ein Crossover vorliegt, entfernt das Nachkommensimulationsmodul 109 das Crossover, das mit einer gegebenen Wahrscheinlichkeit an der ausgewählten Position platziert wurde. Anschließend wählt das Nachkommensimulationsmodell 109 eine gegebene Anzahl von zusätzlichen Positionen aus einer Poisson-Verteilung aus. An jeder dieser zufällig ausgewählten zusätzlichen Positionen platziert das Nachkommensimulationsmodell 109 sodann ein Crossover, wenn in den vorangehenden t oder den folgenden t Positionen kein Crossover vorhanden ist. Die ausgewählten Positionen, an denen Crossover-Ereignisse platziert und vom Nachkommensimulationsmodell 109 nicht entfernt wurden, werden als die Orte von Crossover-Ereignissen im Chromosom ausgegeben.
Es folgt eine ausführliche Erläuterung zum Simulieren von Crossover-Ereignissen gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung. Eine Crossover-Hypothese kann durch ein genaues mathematisches Modell M identifiziert werden. Wenn beispielsweise r_ij der Rekombinationsanteil zwischen Orten i und j auf dem Chromosom ist, dann ist r₁₃ = r₁₂ + r₂₃ – 2Cr₁₂r₂₃ (GL 1) wobei die Positionen 1, 2 und 3 in dieser Reihenfolge auf dem Chromosom auftreten und C ein Interferenzfaktor ist. Interferenz bezeichnet ein Phänomen, durch welches ein chromosomales Crossover in einem Intervall die Wahrscheinlichkeit vermindert, dass zusätzliche benachbarte Crossover-Ereignisse auftreten. Wenn C = 1, ist das Verhältnis zwischen r (beobachtbar) und der Kartierungsdistanz (map distance) d zwischen einem beliebigen Paar von Orten auf dem Chromosom: r = 1 / 2(1 – e^–2d) (GL 2) wenn C = 2r: r = 1 / 2tanh2d (GL 3).
Selbst nach dem Identifizieren einer Crossover-Hypothese durch ein genaues mathematisches Modell M wie beispielsweise das oben in GL 1 gegebene Modell sind viele herkömmliche Simulatoren jedoch nicht in der Lage, alle Nachkommen auf eine Weise zu simulieren, die dem Modell M entspricht. Daher stellen eine oder mehrere Ausführungsformen ein Gerüst bereit, um Crossover-Ereignisse auf der Grundlage des mathematisches Modells von GL 1 mit einem sehr hohen Grad an Genauigkeit im Vergleich zu den Modellen von Haldane (C = 1) und Kosambi (C = 2r) zu erzeugen. Dieses Gerüst arbeitet mit einer generischen Interferenzfunktion der Form C = f(r) (GL 4).
Eine ausführlichere Erläuterung des Haldane-Modells wird in J. B. S. Haldane: "The combination of linkage values, and the calculation of distance between linked factors", Journal of Genetics, 8: 299 bis 309, 1919, gegeben, das hiermit in seiner Gesamtheit durch Bezugnahme aufgenommen ist. Eine ausführlichere Beschreibung des Kosambi-Modells wird in D. D. Kosambi: "The estimation of map distance from recombination values", Journal of Genetics, 12(3): 172 bis 175, 1944, gegeben, das hiermit in seiner Gesamtheit durch Bezugnahme aufgenommen ist
In einer Ausführungsform ist das Nachkommensimulationsmodell 109 unter Bezugnahme auf die folgenden Parameter konfiguriert:
Der Parameter L ist die vom Nachkommensimulationsmodul 109 empfangene Eingabe und ist die Länge eines Chromosoms, die als Z Morgan oder Z × 100 centiMorgan (cM) definiert ist. In einer Ausführungsform wird von der Annahme ausgegangen, dass in einem Chromosomensegment der Länge 1 cM eine 1%ige Wahrscheinlichkeit für ein Crossover besteht. Diese Crossover-Häufigkeit wird als p = 0,01 codiert. Der Parameter t ist die Größe eines benachbarten Bereichs von Interesse auf dem simulierten Chromosom. In einer Ausführungsform ist der Parameter t = X_c und wird experimentell festgelegt, so dass sich ein Mittelwert von 16 ergibt. X_c ist eine Zufallsvariable, die aus einer einheitlichen Verteilung über [m, n] für m < n entnommen wird, wobei c = (m + n)/2. Ein Beispiel ist eine einheitliche diskrete Verteilung über [1,31] für t. Der Parameter a ist ein Skalierungsparameter für die Größe t des benachbarten Bereichs. In einer Ausführungsform ist der Parameter a = X_w und wird experimentell festgelegt, so dass sich ein Mittelwert von 1,1 ergibt. X_w ist eine Zufallsvariable, die aus einer einheitlichen Verteilung über [y, z] für y < z entnommen wird, wobei w = (y + z)/2. Ein Beispiel ist eine einheitliche stetige Verteilung über [1,0, 1,2] für a. Der Parameter q ist eine Wahrscheinlichkeit, die vom Nachkommensimulationsmodell 109 verwendet wird, um zu entscheiden, ob Crossover-Ereignisse zugewiesen werden sollen, wenn Orten in der Nachbarschaft bereits andere Crossover-Ereignisse zugewiesen wurden (Interferenz). Bei Betrachtung der Funktion C von GL 4, kann q definiert werden als q = 1 – f(p). In diesem allgemeinen Gerüst werden a von GL 6 und t von GL 5 empirisch geschätzt, so dass sie den erwarteten r Kurven des Haldane- bzw. des Kosambi-Modells entsprechen.
2 zeigt ein Beispiel eines Chromosoms 200, das vom Nachkommensimulationsmodul 109 als Teil eines Meiose-Prozesses simuliert wird. Wie oben erläutert wird, verwendet das Nachkommensimulationsmodul 109 als Eingabe eine Länge L eines Chromosoms. In einer Ausführungsform wird diese Länge von einem Benutzer festgelegt. Im aktuellen Beispiel empfängt das Nachkommensimulationsmodul 109 von einem Benutzer (oder einer Anwendung) eine Länge von L = 500 cM. Das Nachkommensimulationsmodul 109 empfängt in einer Ausführungsform außerdem eine Auswahl eines mathematischen Modells von dem Benutzer wie zum Beispiel des Haldane- oder Kosambi-Modells, das dem Crossover-Simulationsprozess zugrundegelegt werden muss. Beispielsweise wählt der Benutzer aus, ob C = 1 (keine Interferenz) oder C = 2r (Interferenz).
Das Nachkommensimulationsmodul 109 entnimmt eine Anzahl Y von Positionen aus einer Poisson-Verteilung mit dem Mittelwert λ = pL. Im vorliegenden Beispiel ist Y = 5, p = 0,01, L = 500 und λ = 5. Das Nachkommensimulationsmodul 109 wählt auf der Grundlage der entnommenen Anzahl Y Positionen j₁, ..., j_y von 0 bis L (reale Zahlen, nicht auf ganze Zahlen begrenzt) auf dem Chromosom 200 zufällig aus. An jeder der zufällig ausgewählten Positionen j₁, ..., j_y platziert das Nachkommensimulationsmodul 109 ein Crossover-Ereignis. Im vorliegenden Beispiel wird dieser Prozess fünfmal ausgeführt, da Y = 5, wie in 2 gezeigt wird. 2 zeigt beispielsweise, dass das Crossover-Simulationsmodul 109 ein Crossover-Ereignis (durch eine gestrichelte Linie dargestellt) an den Positionen j₁ 202, j₂ 204, j₃ 206, j₄ 208 und j₅ 210 platziert hat. Wenn der Benutzer eine Simulation ohne Interferenz ausgewählt hat (d. h. C = 1), gibt das Nachkommensimulationsmodul 109 die Orte der Crossover-Ereignisse auf dem Chromosom 200 aus. In diesem Beispiel gibt das Nachkommensimulationsmodul 109 die Positionen j₁ 202, j₂ 204, j₃ 206, j₄ 208 und j₅ 210 als Orte der Crossover-Ereignisse aus.
Wenn der Benutzer jedoch eine Interferenzsimulation ausgewählt hat (d. h. C = 2r), berücksichtigt das Nachkommensimulationsmodul 109 die Nachbarschaft t cM einer aktuellen Position beim Platzieren eines Crossover-Orts. Wird beispielsweise ein Crossover-Ereignis an der Position j₅ platziert, stellt das Nachkommensimulationsmodul 109 fest, dass in der Nachbarschaft t cM der Position j₅ mindestens ein weiteres Crossover vorhanden ist, wie in 3 gezeigt wird. 3 zeigt beispielsweise, dass an der Position j₄, die innerhalb der Nachbarschaft t cM der Position j₅ liegt, bereits ein Crossover vorhanden ist. Daher entfernt das Nachkommensimulationsmodul 109 das Crossover an der Position j₅ mit der Wahrscheinlichkeit q = 0,98.
Das Nachkommensimulationsmodul 109 entnimmt eine Anzahl von Y' zusätzlichen Positionen j'₁, ..., j'_y aus einer Poisson-Verteilung mit dem Mittelwert λ = p'L. Im vorliegenden Beispiel ist
mit a = 1,1 und t = 16 und λ = p'L ≈ (0,0019·500) = 0,95. Das Nachkommensimulationsmodul 109 wählt für jedes Y', wobei in diesem Beispiel Y' = 1, eine Position j' von 0 bis L (eine reale Zahl, nicht auf ganze Zahlen begrenzt) auf dem Chromosom 200 zufällig aus. Das Nachkommensimulationsmodul 109 platziert ein Crossover-Ereignis an dieser zufällig ausgewählten Position j'₁, wie in 4 gezeigt wird. 4 zeigt beispielsweise, dass das Nachkommensimulationsmodul 109 ein zusätzliches Crossover an der Position j'₁ platziert hat. Das Nachkommensimulationsmodul 109 ermittelt, ob mindestens ein weiteres Crossover in der Nachbarschaft t cM der Position j'₁ vorhanden ist. Im vorliegenden Beispiel gibt es innerhalb der Nachbarschaft t cM der Position j'₁ kein weiteres Crossover. Daher wird das Crossover an der Position j'₁ auf dem Chromosom platziert. Das Nachkommensimulationsmodul 109 gibt sodann die Orte der Crossover-Ereignisse auf dem Chromosom aus. In diesem Beispiel gibt das Nachkommensimulationsmodul 109 die Positionen j₁, j₂, j₃, j₄ und j'₁ als Orte der Crossover-Ereignisse aus.
In einer Ausführungsform kann der oben erläuterte Crossover-Simulationsprozess auch angewandt werden, um die Crossover-Häufigkeit entlang eines Chromosoms zu verändern. Beispielsweise kann der Crossover-Simulationsprozess angewandt werden, wenn das Chromosom in Blöcke mit unterschiedlichen Crossover-Häufigkeiten unterteilt wird. In dieser Ausführungsform empfängt das Nachkommensimulationsmodul 109 als Eingabe die Crossover-Häufigkeiten p₁, p₂, ..., p_L (0 ≤ p_l < 1, l = 1, ..., L) und die Segmentlängen Z₁, Z₂, ..., Z_L (Z_l > 0). Aufgrund dieser Eingabe gibt das Nachkommensimulationsmodul 109 die Orte von Crossover-Ereignissen R aus. Beispielsweise führt das Nachkommensimulationsmodul 109 für l = 1, ..., L den oben erläuterten Crossover-Simulationsprozess unter Verwendung der Parameter Z = Z_l und p = p_l aus. Das Nachkommensimulationsmodul 109 fügt dem Ergebnis R Crossover-Orte hinzu. Das Nachkommensimulationsmodul 109 gibt eine Verkettung von Crossover-Positionen aus, und die genetische Länge des Chromosoms in cM beträgt 100 × Σ_lp_l.
5 zeigt die Übereinstimmung von r aus dem oben erläuterten Crossover-Simulationsprozess mit den erwarteten Werten (auf der Grundlage der Lösungen der geschlossenen Form). Insbesondere zeigt 5 die Distanz d als Funktion des Rekombinationsanteils r für Lösungen der geschlossenen Form entsprechend dem Haldane- und Kosambi-Modell und für beobachtete Daten, die gemäß dem vom Nachkommensimulationsmodel 109 ausgeführten Crossover-Simulationsprozess erzeugt wurden. Wie zu erkennen ist, stimmen die beobachteten Daten, die gemäß dem vom Nachkommensimulationsmodel 109 ausgeführten Crossover-Simulationsprozess erzeugt wurden, mit einem sehr hohen Grad an Genauigkeit mit den erwarteten Werten des Haldane- und Kosambi-Modells überein. Außerdem sei c_p die einer Entnahme aus einer Poisson-Verteilung und c_u die einer Entnahme aus einer einheitlichen Verteilung zugehörige Zeit. Dann beträgt die erwartete Zeit, die vom obigen Algorithmus für jede Stichprobe benötigt wird, O(2c_p + (Z + 1)c_u) im Gegensatz zu O(100Zc_u) bei einem herkömmlichen Algorithmus für einen ”chromosome walk”, der für jede cM-Position entscheiden würde, ob ein Crossover platziert werden soll oder nicht.
Verarbeitungsablaufpläne
6 ist ein Verarbeitungsablaufplan, der ein Beispiel eines Gesamtprozesses zum Simulieren von Crossover-Ereignissen auf einem Chromosom veranschaulicht. Der Verarbeitungsablaufplan beginnt beim Schritt 602 und geht direkt zum Schritt 604. Das Nachkommensimulationsmodul 109 legt beim Schritt 604 eine Anzahl Y von auf einem simulierten Chromosom 200 auszuwählenden Positionen fest. Das simulierte Chromosom 200 hat eine genetische Länge L mit einer Crossover-Häufigkeit p. Das Nachkommensimulationsmodul 109 wählt beim Schritt 606 auf der Grundlage des Festlegens Y Positionen j₁, ..., j_y auf dem simulierten Chromosom 200 aus. Das Nachkommensimulationsmodul 109 platziert beim Schritt 608 ein Crossover-Ereignis an einer oder mehreren der Positionen j₁, ..., j_y, die ausgehend davon, dass Y größer als 0 ist, ausgewählt wurden. Beispielsweise wird mindestens ein erstes Crossover-Ereignis an einer Position auf dem Chromosom platziert, da aktuell keine weiteren Crossover-Ereignisse auf dem Chromosom vorhanden sind.
Das Nachkommensimulationsmodul 109 legt beim Schritt 610 eine zusätzliche Anzahl Y' von auf dem simulierten Chromosom 200 auszuwählenden Positionen j₁, ..., j_y fest. Das Nachkommensimulationsmodul 109 wählt im Schritt 612 auf der Grundlage des Festlegens Y' zusätzliche Positionen auf dem simulierten Chromosom 200 aus. Das Nachkommensimulationsmodul 109 platziert im Schritt 614 ein zusätzliches Crossover-Ereignis an einer oder mehreren der zusätzlichen Positionen j'₁, ..., j'_y, die ausgehend davon, dass Y' größer als 0 und eine der einen oder den mehreren zusätzlichen Positionen j'₁, ..., j'_y zugehörige Nachbarschaft t frei von Crossover-Ereignissen ist, ausgewählt wurden. Wenn beispielsweise aktuell ein Crossover-Ereignis an einer von mehreren Positionen innerhalb einer Nachbarschaft t der einen oder mehreren der zusätzlichen Positionen j'₁, ..., j'_y vorhanden ist, wird kein Crossover-Ereignis an der einen oder den mehreren der zusätzlichen Positionen j'₁, ..., j'_y platziert. Wenn aktuell jedoch keine Crossover-Ereignisse innerhalb einer Nachbarschaft t der einen oder mehreren der zusätzlichen Positionen vorhanden sind, wird ein Crossover-Ereignis an der einen oder mehreren der zusätzlichen Positionen j'₁, ..., j'_y platziert. Das Nachkommensimulationsmodul 109 ermittelt beim Schritt 616 einen Satz von Crossover-Ereignisorten auf dem simulierten Chromosom auf der Grundlage der einen oder mehreren der Positionen j₁, ..., j_y und der einen oder mehreren der zusätzlichen Positionen j'₁, ..., j'_y, an denen ein Crossover-Ereignis platziert worden ist. Die Ablaufsteuerung endet beim Schritt 618.
Nicht einschränkende Beispiele
Wie für Fachleute klar ist, können Aspekte der vorliegenden Erfindung als System, Verfahren oder Computerprogrammprodukt verkörpert werden. Dementsprechend können Aspekte der vorliegenden Erfindung in Form einer kompletten Hardware-Ausführungsform, einer kompletten Software-Ausführungsform (darunter Firmware, residente Software, Mikrocode usw.) oder einer Ausführungsform vorliegen, die Software- und Hardware-Aspekte miteinander kombiniert, die hierin im Allgemeinen als „Schaltung”, „Modul” oder „System” bezeichnet werden können. Außerdem können Aspekte der vorliegenden Erfindung in Form eines Computerprogrammprodukts vorliegen, das in einem oder mehreren computerlesbaren Medien mit einem darin enthaltenen computerlesbaren Programmcode verkörpert ist.
Es kann eine beliebige Kombination von einem oder mehreren computerlesbaren Medien verwendet werden. Das computerlesbare Medium kann ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium sein. Bei dem computerlesbaren Speichermedium kann es sich zum Beispiel, ohne jedoch auf diese beschränkt zu sein, um ein elektronisches, magnetisches, optisches, elektromagnetisches, ein Infrarot- oder Halbleitersystem, eine Vorrichtung oder Einheit oder eine beliebige geeignete Kombination aus den vorgenannten handeln. Zu spezifischeren Beispielen (eine nicht erschöpfende Liste) für das computerlesbare Speichermedium würden die folgenden gehören: eine elektrische Verbindung mit einer oder mehreren Leitungen, eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM oder Flash-Speicher), ein Lichtwellenleiter, ein tragbarer Kompaktdisk-Nur-Lese-Speicher (CD-ROM), eine optische Speichereinheit, eine magnetische Speichereinheit oder eine beliebige geeignete Kombination aus den vorgenannten. Im Kontext dieses Dokuments kann ein computerlesbares Speichermedium ein beliebiges physisches Medium sein, das ein Programm zur Verwendung durch ein oder in Verbindung mit einem Befehlsausführungssystem, einer Vorrichtung oder einer Einheit enthalten oder speichern kann.
Zu einem computerlesbaren Signalmedium kann ein weitergeleitetes Datensignal mit einem darin enthaltenen computerlesbaren Programmcode gehören, beispielsweise in einem Basisband oder als Teil einer Trägerwelle. Ein solches weitergeleitetes Signal kann in einer Vielfalt von Formen vorliegen, unter anderem, ohne jedoch auf diese beschränkt zu sein, elektromagnetisch, optisch oder in einer beliebigen geeigneten Kombination davon. Ein computerlesbares Signalmedium kann ein beliebiges computerlesbares Medium sein, das kein computerlesbares Speichermedium ist und das ein Programm zur Verwendung durch ein oder in Verbindung mit einem Befehlsausführungssystem, einer Vorrichtung oder einer Einheit übertragen, weiterleiten oder transportieren kann.
Ein in einem computerlesbaren Medium enthaltener Programmcode kann unter Verwendung eines beliebigen geeigneten Mediums übertragen werden, unter anderem, ohne jedoch auf diese beschränkt zu sein, drahtlos, drahtgebunden, über ein Lichtwellenleiterkabel, HF usw. oder eine beliebige geeignete Kombination aus den vorgenannten.
Ein Computerprogrammcode zum Ausführen von Arbeitsgängen für Aspekte der vorliegenden Erfindung kann in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen, unter anderem, ohne jedoch auf diese beschränkt zu sein, Java, Smalltalk, C++ oder dergleichen, und in herkömmlichen prozeduralen Programmiersprachen, beispielsweise der Programmiersprache „C” oder ähnlichen Programmiersprachen, geschrieben sein. Der Programmcode kann vollständig im Computer des Benutzers, teilweise im Computer des Benutzers, als ein eigenständiges Software-Paket, teilweise im Computer des Benutzers und teilweise in einem entfernt angeordneten Computer oder vollständig im entfernt angeordneten Computer oder Server ausgeführt werden. Im letzteren Szenario kann der entfernt angeordnete Computer durch einen beliebigen Typ von Netzwerk mit dem Computer des Benutzers verbunden sein, unter anderem durch ein lokales Netz (LAN), ein überregionales Netz (WAN), oder die Verbindung kann mit einem externen Computer (beispielsweise durch das Internet unter Verwendung eines Internet-Dienstanbieters) eingerichtet werden.
Aspekte der vorliegenden Erfindung wurden oben unter Bezugnahme auf Ablaufplandarstellungen und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der Erfindung beschrieben. Es versteht sich von selbst, dass jeder Block der Ablaufplandarstellungen und/oder Blockschaubilder und Kombinationen von Blöcken in den Ablaufplandarstellungen und/oder Blockschaubildern durch Computerprogrammbefehle implementiert werden können. Diese Computerprogrammbefehle können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung zugeführt werden, um eine Maschine zu erzeugen, so dass die Befehle, die über den Prozessor des Computers oder der anderen Datenverarbeitungsvorrichtung ausgeführt werden, ein Mittel zum Implementieren der im Block oder in den Blöcken der Ablaufpläne und/oder Blockschaubilder angegebenen Funktionen/Vorgänge erzeugen.
Diese Computerprogrammbefehle können auch in einem computerlesbaren Medium gespeichert sein, das einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten steuern kann, so dass diese auf eine bestimmte Weise funktionieren, so dass die im computerlesbaren Medium gespeicherten Befehle einen hergestellten Gegenstand erzeugen, der Befehle enthält, welche die Funktion/den Vorgang implementieren, die/der im Block oder in den Blöcken der Ablaufpläne und/oder Blockschaubilder angegeben ist.
Die Computerprogrammbefehle können auch in einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten geladen werden, um das Ausführen einer Reihe von Verarbeitungsschritten im Computer, in der anderen programmierbaren Datenverarbeitungsvorrichtung oder den anderen Einheiten zu veranlassen, um einen auf einem Computer implementierten Prozess zu erzeugen, so dass die Befehle, die im Computer oder in der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführt werden, Prozesse zum Implementieren der im Block oder in den Blöcken der Ablaufpläne und/oder Blockschaubilder angegebenen Funktionen/Vorgänge bereitstellen.
Die hierin verwendete Terminologie dient lediglich zur Beschreibung bestimmter Ausführungsformen und soll die Erfindung nicht einschränken. Wie hierin verwendet, sollen die Singularformen „ein(e)” und „der/die/das” auch die Pluralformen mit einschließen, sofern aus dem Kontext nicht eindeutig etwas anderes hervorgeht. Außerdem versteht es sich von selbst, dass die Begriffe „aufweist” und/oder „aufweisend” bei Verwendung in dieser Beschreibung das Vorhandensein von dargelegten Merkmalen, ganzen Zahlen, Schritten, Vorgängen, Elementen und/oder Komponenten angeben, jedoch das Vorhandensein oder Hinzufügen von einem oder mehreren anderen Merkmalen, ganzen Zahlen, Schritten, Vorgängen, Elementen, Komponenten und/oder Gruppen von diesen nicht ausschließen.
Die Beschreibung der vorliegenden Erfindung dient der Veranschaulichung und Beschreibung, soll jedoch nicht erschöpfend sein oder die Erfindung auf die offenbarte Form beschränken. Viele Modifikationen und Änderungen sind für Fachleute offensichtlich, ohne vom Schutzumfang und Gedanken der Erfindung abzuweichen. Die Ausführungsform wurde gewählt und beschrieben, um den Grundgedanken der Erfindung und die praktische Anwendung bestmöglich zu erläutern und anderen Fachleuten ein Verständnis der Erfindung für verschiedene Ausführungsformen mit verschiedenen Modifikationen zu ermöglichen, wie sie für die jeweils beabsichtigte Verwendung geeignet sind.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

J. B. S. Haldane: ”The combination of linkage values, and the calculation of distance between linked factors”, Journal of Genetics, 8: 299 bis 309, 1919 [0024]
D. D. Kosambi: ”The estimation of map distance from recombination values”, Journal of Genetics, 12(3): 172 bis 175, 1944 [0024]

Claims

Auf einem Computer implementiertes Verfahren zum Simulieren von Crossover-Ereignissen auf einem Chromosom, wobei das auf einem Computer implementierte Verfahren aufweist: Festlegen einer Anzahl Y von auf einem simulierten Chromosom auszuwählenden Positionen durch einen Prozessor, wobei das simulierte Chromosom eine genetische Länge L mit einer Crossover-Häufigkeit p aufweist; auf Grundlage des Festlegens Auswählen von Y Positionen j₁, ..., j_y auf dem simulierten Chromosom; Platzieren eines Crossover-Ereignisses an einer oder mehreren der Positionen j₁, ..., j_y, die ausgehend davon, dass Y größer als 0 ist, ausgewählt wurden; Festlegen einer zusätzlichen Anzahl Y' von auf dem simulierten Chromosom auszuwählenden Positionen j'₁, ..., j'_y; auf der Grundlage des Festlegens Auswählen von Y' zusätzlichen Positionen j'₁, ..., j'_y auf dem simulierten Chromosom; Platzieren eines zusätzlichen Crossover-Ereignisses an einer oder mehreren der zusätzlichen Positionen j'₁, ..., j'_y, die ausgehend davon, dass Y' größer als 0 ist und eine der einen oder den mehreren der zusätzlichen Positionen j'₁, ..., j'_y zugehörige Nachbarschaft t frei von Crossover-Ereignissen ist, ausgewählt wurden; und Ermitteln eines Satzes von Crossover-Ereignisorten auf dem simulierten Chromosom auf Grundlage der einen oder mehreren der Positionen j₁, ..., j_y und der einen oder mehreren der zusätzlichen Positionen j'₁, ..., j'_y, an denen ein Crossover-Ereignis platziert wurde.
Auf einem Computer implementiertes Verfahren nach Anspruch 1, das außerdem aufweist: Ermitteln für mindestens eine erste der Positionen j₁, ..., j_y, an denen ein Crossover-Ereignis platziert wurde, ob sich mindestens ein Crossover-Ereignis an einer Position auf dem simulierten Chromosom innerhalb einer Nachbarschaft t der ersten der Positionen j₁, ..., j_y befindet, wobei t = X_c, wobei X_c eine Zufallsvariable ist, die einer einheitlichen diskreten Verteilung über [m, n] entnommen wird, wobei m < n, wobei c = (m + n)/2; und Entfernen des an der ersten der Positionen j₁, ..., j_y platzierten Crossover-Ereignisses mit einer Wahrscheinlichkeit q = (1 – 2p) ausgehend davon, dass sich das mindestens ein Crossover-Ereignis an der Position auf dem simulierten Chromosom innerhalb der Nachbarschaft t befindet.
Auf einem Computer implementiertes Verfahren nach Anspruch 2, wobei m = 1, n = 31 und c = 16.
Auf einem Computer implementiertes Verfahren nach Anspruch 1, das außerdem aufweist: Feststellen für mindestens eine erste der zusätzlichen Positionen j'₁, ..., j'_y, an denen ein Crossover-Ereignis platziert wurde, ob sich mindestens ein Crossover-Ereignis an einer Position auf dem simulierten Chromosom innerhalb einer Nachbarschaft t der ersten der zusätzlichen Positionen j'₁, ..., j'_y befindet, wobei t = X_c, wobei X_c eine Zufallsvariable ist, die einer einheitlichen diskreten Verteilung über [m, n] entnommen wird, wobei m < n, wobei c = (m + n)/2; und Entfernen des an der ersten der zusätzlichen Positionen j'₁, ..., j'_y platzierten Crossover-Ereignisses mit einer Wahrscheinlichkeit q = (1 – 2p) ausgehend davon, dass sich das mindestens ein Crossover-Ereignis an der Position auf dem simulierten Chromosom innerhalb der Nachbarschaft t befindet.
Auf einem Computer implementiertes Verfahren nach Anspruch 4, wobei m = 1, n = 31 und c = 16.
Auf einem Computer implementiertes Verfahren nach Anspruch 1, wobei die Anzahl Y von Positionen j₁, ..., j_y aus einer Poisson-Verteilung mit einem Mittelwert λ = pL ausgewählt werden, wobei p = 0,01.
Auf einem Computer implementiertes Verfahren nach Anspruch 6, wobei die Anzahl Y' von Positionen j'₁, ..., j'_y aus einer Poisson-Verteilung mit einem Mittelwert λ' = p'L ausgewählt werden und
wobei q eine Wahrscheinlichkeit gleich (1 – 2p), a ein Skalierungsfaktor gleich X_w ist, wobei X_w eine Zufallsvariable ist, die einer einheitlichen stetigen Verteilung über [y, z] entnommen wird, wobei y < z, wobei w = (y + z)/2.
Auf einem Computer implementiertes Verfahren nach Anspruch 7, wobei w = 1,1, y = 1,0 und z = 1,2.
Auf einem Computer implementiertes Verfahren nach Anspruch 1, wobei die genetische Länge L eine Vielzahl von Segmentlängen Z₁, Z₂, ..., Z_L (Z_l > 0) aufweist, und wobei jede Segmentlänge Z₁, Z₂, ..., Z_L eine entsprechende Crossover-Häufigkeit p₁, p₂, ..., p_L (0 ≤ p_l < 1, l = 1, ..., L) aufweist und wobei der Satz von Crossover-Ereignisorten eine Verkettung von Crossover-Positionen ist, die für jede Segmentlänge Z₁, Z₂, ..., Z_L auf Grundlage von jeder der entsprechenden Crossover-Häufigkeiten p₁, p₂, ..., p_L auf dem simulierten Chromosom platziert wurden.
Datenverarbeitungssystem zum Simulieren von Crossover-Ereignissen auf einem Chromosom, wobei das Datenverarbeitungssystem aufweist: einen Speicher; einen Prozessor, der zum Datenaustausch mit dem Speicher verbunden ist; und ein Nachkommensimulationsmodul, das zum Datenaustausch mit dem Speicher und dem Prozessor verbunden ist, wobei das Nachkommensimulationsmodul so konfiguriert ist, dass es ein Verfahren ausführt, wobei das Verfahren aufweist: Festlegen einer Anzahl Y von auf einem simulierten Chromosom auszuwählenden Positionen durch einen Prozessor, wobei das simulierte Chromosom eine genetische Länge L mit einer Crossover-Häufigkeit p hat; auf der Grundlage des Festlegens Auswählen von Y Positionen j₁, ..., j_y auf dem simulierten Chromosom; Platzieren eines Crossover-Ereignisses an einer oder mehreren der Positionen j₁, ..., j_y, die ausgehend davon, dass Y größer als 0 ist, ausgewählt wurden; Festlegen einer zusätzlichen Anzahl Y' von auf dem simulierten Chromosom auszuwählenden Positionen j'₁, ..., j'_y; auf der Grundlage des Festlegens Auswählen von Y' zusätzlichen Positionen j'₁, ..., j'_y auf dem simulierten Chromosom; Platzieren eines zusätzlichen Crossover-Ereignisses an einer oder mehreren der zusätzlichen Positionen j'₁, ..., j'_y, die ausgehend davon, dass Y' größer als 0 ist und eine der einen oder den mehreren der zusätzlichen Positionen j'₁, ..., j'_y zugehörige Nachbarschaft t frei von Crossover-Ereignissen ist, ausgewählt wurden; und Ermitteln eines Satzes von Crossover-Ereignisorten auf dem simulierten Chromosom auf der Grundlage der einen oder mehreren der Positionen j₁, ..., j_y und der einen oder mehreren der zusätzlichen Positionen j'₁, ..., j'_y, an denen ein Crossover-Ereignis platziert wurde.
Datenverarbeitungssystem nach Anspruch 10, wobei das Verfahren außerdem aufweist: Ermitteln für mindestens eine erste der Positionen j₁, ..., j_y, an denen ein Crossover-Ereignis platziert wurde, ob sich mindestens ein Crossover-Ereignis an einer Position auf dem simulierten Chromosom innerhalb einer Nachbarschaft t der ersten der Positionen j₁, ..., j_y befindet, wobei t = X_c, wobei X_c eine Zufallsvariable ist, die einer einheitlichen diskreten Verteilung über [m, n] entnommen wird, wobei m < n, wobei c = (m + n)/2; und Entfernen des an der ersten der Positionen j₁, ..., j_y platzierten Crossover-Ereignisses mit einer Wahrscheinlichkeit q = (1 – 2p) ausgehend davon, dass sich das mindestens ein Crossover-Ereignis an der Position auf dem simulierten Chromosom innerhalb der Nachbarschaft t befindet,
Datenverarbeitungssystem nach Anspruch 10, wobei das Verfahren außerdem aufweist: Ermitteln für mindestens eine erste der zusätzlichen Positionen j'₁, ..., j'_y, an denen ein Crossover-Ereignis platziert wurde, ob sich mindestens ein Crossover-Ereignis an einer Position auf dem simulierten Chromosom innerhalb einer Nachbarschaft t der ersten der zusätzlichen Positionen j'₁, ..., j'_y befindet, wobei t = X_c, wobei X_c eine Zufallsvariable ist, die einer einheitlichen diskreten Verteilung über [m, n] entnommen wird, wobei m < n, wobei c = (m + n)/2; und Entfernen des an der ersten der zusätzlichen Positionen j'₁, ..., j'_y platzierten Crossover-Ereignisses mit einer Wahrscheinlichkeit q = (1 – 2p) ausgehend davon, dass sich das mindestens eine Crossover-Ereignis an der Position auf dem simulierten Chromosom innerhalb der Nachbarschaft t befindet.
Datenverarbeitungssystem nach Anspruch 10, wobei die Anzahl Y von Positionen j₁, ..., j_y aus einer Poisson-Verteilung mit einem Mittelwert λ = pL ausgewählt werden, wobei p = 0,01, wobei die Anzahl Y' von Positionen j'₁, ..., j'_y aus einer Poisson-Verteilung mit einem Mittelwert λ' = p'L ausgewählt werden und
wobei q eine Wahrscheinlichkeit gleich (1 – 2p), a ein Skalierungsfaktor gleich X_w ist, wobei X_w eine Zufallsvariable ist, die einer einheitlichen stetigen Verteilung über [y, z] entnommen wird, wobei y < z, wobei w = (y + z)/2.
Datenverarbeitungssystem nach Anspruch 10, wobei die genetische Länge L eine Vielzahl von Segmentlängen Z₁, Z₂, ..., Z_L (Z_l > 0) aufweist und wobei jede Segmentlänge Z₁, Z₂, ..., Z_L eine entsprechende Crossover-Häufigkeit p₁, p₂, ..., p_L (0 ≤ p_l < 1, l = 1, ..., L) hat und wobei der Satz von Crossover-Ereignisorten eine Verkettung von Crossover-Positionen ist, die für jede Segmentlänge Z₁, Z₂, ..., Z_L auf der Grundlage von jeder der entsprechenden Crossover-Häufigkeiten p₁, p₂, ..., p_L auf dem simulierten Chromosom platziert wurden.
Nichtflüchtiges Computerprogrammprodukt zum Simulieren von Crossover-Ereignissen auf einem Chromosom, wobei das nichtflüchtige Computerprogrammprodukt aufweist: ein Speichermedium, das durch eine Verarbeitungsschaltung lesbar ist und Befehle zur Ausführung durch die Verarbeitungsschaltung speichert, um ein Verfahren nach einem der Ansprüche 1 bis 9 auszuführen.