DE102019135380A1 - Verfahren und Datenverarbeitungsvorrichtung zur Bearbeitung von genetischen Daten - Google Patents

Verfahren und Datenverarbeitungsvorrichtung zur Bearbeitung von genetischen Daten Download PDF

Info

Publication number
DE102019135380A1
DE102019135380A1 DE102019135380.7A DE102019135380A DE102019135380A1 DE 102019135380 A1 DE102019135380 A1 DE 102019135380A1 DE 102019135380 A DE102019135380 A DE 102019135380A DE 102019135380 A1 DE102019135380 A1 DE 102019135380A1
Authority
DE
Germany
Prior art keywords
sequence
data
fragment
encrypted
fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019135380.7A
Other languages
English (en)
Inventor
Heiko Zimmermann
Sabine Müller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to DE102019135380.7A priority Critical patent/DE102019135380A1/de
Priority to KR1020227025042A priority patent/KR20220116536A/ko
Priority to PCT/EP2020/086414 priority patent/WO2021122742A1/de
Priority to EP20842560.3A priority patent/EP4078595A1/de
Priority to JP2022536935A priority patent/JP2023506271A/ja
Priority to US17/784,720 priority patent/US20230021229A1/en
Priority to CN202080087497.9A priority patent/CN114902343A/zh
Publication of DE102019135380A1 publication Critical patent/DE102019135380A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3236Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions
    • H04L9/3239Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions involving non-keyed hash functions, e.g. modification detection codes [MDCs], MD5, SHA or RIPEMD
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

Ein Verfahren zur Verarbeitung von genetischen Daten, die eine Reihe von Sequenzelementen umfassen, die jeweils ein Biomolekül repräsentieren, umfasst die Schritte Bildung von Sequenzfragmenten (S2), wobei jedes Sequenzfragment einen Abschnitt der Reihe von Sequenzelementen mit einer Fragmentlänge von mindestens zwei Sequenzelementen umfasst, Anwendung einer Kodierungsfunktion auf jedes der Sequenzfragmente zur Erzeugung einer Vielzahl von verschlüsselten Fragmentdaten (S3), die jeweils einem der Sequenzfragmente zugeordnet sind, und Speicherung der verschlüsselten Fragmentdaten (S4), wobei die Bildung der Sequenzfragmente derart erfolgt, dass sich die Abschnitte der Reihe von Sequenzelementen überlappen und jedes Sequenzelement in mindestens zwei Sequenzfragmenten enthalten ist. Es werden auch eine Datenverarbeitungsvorrichtung zur Verarbeitung von genetischen Daten und ein Verfahren zur Abfrage einer Datenbank beschrieben, die verschlüsselte Fragmentdaten enthält, die mit dem Verfahren zur Verarbeitung von genetischen Daten erzeugt und gespeichert wurden.

Description

  • Die Erfindung betrifft ein Verfahren und eine Datenverarbeitungsvorrichtung zur Verarbeitung, insbesondere zur Verschlüsselung, von genetischen Daten, die eine Reihe von Biomolekülen repräsentieren, wie z. B. von Daten von Nukleotid-, Aminosäure- und/oder Proteinsequenzen. Die Erfindung betrifft auch Verfahren zur Abfrage einer Datenbank, die verschlüsselte genetische Daten enthält, die mit dem genannten Verfahren erzeugt und gespeichert wurden. Anwendungen der Erfindung sind in der Bioinformatik, Medizin, Zellbiologie, Stammzelltechnik, Pharmakologie und/oder Biotechnologie, insbesondere bei der Verarbeitung von genetischen Daten, gegeben.
  • Es ist allgemein bekannt, dass in den letzten Jahren durch effektive Sequenzierungstechniken die Möglichkeiten, genetische Daten aufzunehmen und zu speichern und der Umfang der zum Beispiel in Datenbanken von Kliniken gespeicherten genetischen Daten erheblich zugenommen haben. Beispielsweise werden in einer Klinik von einer Vielzahl von untersuchten Person genetische Daten gewonnen und in Verbindung mit weiteren Daten der Personen, wie zum Beispiel Identifizierungsdaten und Daten über Lebensbedingungen und/oder den Gesundheitszustand der Personen, gespeichert.
  • Diese Daten sind nicht nur für diagnostische und therapeutische Zwecke bei der Untersuchung und/oder Behandlung der betreffenden Personen von Interesse. Vielmehr stellen die Daten für die Forschung und Entwicklung, zum Beispiel in der Pharmakologie, ein wertvolles Informationsreservoir dar. Genetische Daten können Informationen über Krankheitsursachen oder Krankheitsmechanismen geben. Des Weiteren ermöglichen genetische Daten, personalisierte Therapien oder Verhaltens- oder Ernährungsempfehlungen zu entwickeln und bei Patienten individuell angepasst anzuwenden. Darüber hinaus besteht in der Forschung ein Interesse an einem Zugriff auf die genetischen Daten, beispielsweise um spezifische Individuen mit einer vorbestimmten genetischen Disposition (und gegebenenfalls bestimmten Krankheit- und Lebensbedingungen) oder Zellproben dieser Individuen für gezielte Untersuchungen, zum Beispiel von pharmakologischen Ansätzen, zum Beispiel als Krankheitsmodell, oder für Analysen von Krankheitsursachen zu identifizieren.
  • Es besteht daher ein Interesse, gespeicherte genetische Daten einer Vielzahl von Individuen auf das Auftreten vorgegebener Merkmale, wie zum Beispiel vorgegebener Aminosäuresequenzen, zu durchsuchen und die genetischen Daten der dabei identifizierten Individuen abzurufen und für weitere Untersuchungen weiter zu verwenden.
  • Bei der Durchsuchung und Verarbeitung klinisch oder anderweitig gewonnener, individueller genetischer Daten und auch bei der gemeinschaftlichen Nutzung der Daten (data sharing), insbesondere bei internationalen Kooperationen, treten jedoch die folgenden Probleme auf.
  • Das menschliche Genom besitzt ungefähr 3 Milliarden Basenpaare. Bei der Untersuchung der Daten einer Vielzahl von Individuen, wie zum Beispiel von zehntausenden Patienten, ergeben sich extrem große Datenmengen, deren Durchsuchung auf bestimmte Suchsequenzen oder Kombinationen von Suchsequenzen außerordentlich aufwendig ist. Es besteht daher ein Interesse, die Effektivität (z. B. Energieverbrauch und/oder Dauer) der Durchsuchung genetischer Daten zu verbessern.
  • Eine weitere Beschränkung bei der Durchsuchung genetischer Daten ergibt sich aus dem Interesse der einzelnen Individuen an einem Schutz ihrer Daten. Da genetische Daten die ererbten und/ oder erworbenen genetischen Eigenschaften einer Person definieren, stellen sie einzigartige und sensible Informationen dar. Heute geht man davon aus, dass es selbst nach einer Abtrennung der genetischen Daten von Identifizierungsdaten der zugehörigen Person immer noch möglich ist, die Daten einer bestimmten Person zuzuordnen. Eine konsequente Anonymisierung genetischer Daten würde deren Verfälschung erfordern, woraufhin jedoch keine weitere zuverlässige Untersuchung der Daten möglich wäre. Genetische Daten können daher höchstens pseudonymisiert und nicht konsequent anonymisiert werden.
  • Daher stellt beim Betrieb einer Datenbank mit genetischen Daten die Datensicherheit (Schutz gegen Verlust, Missbrauch, Manipulation und/oder andere Bedrohungen) eine wesentliche Anforderung dar. Personenbezogene Daten unterliegen dabei einem gesetzlich geregelten Schutz vor Missbrauch, der beispielsweise in Deutschland in der Datenschutzgrundverordnung (DSGVO) formuliert ist.
  • Aufgrund der gesetzlichen Regeln zum Datenschutz ist typischerweise ein Zugriff auf Datenbanken mit klinisch gewonnenen, genetischen Daten durch Dritte ausgeschlossen, insbesondere physisch unterbrochen. Wegen der inhärent ausgeschlossenen oder erschwerten Anonymisierung genetischer Daten ist weder ein offener Zugang über ein Datennetz noch ein bedingter Zugang für autorisierte Anfragen möglich. Um das Potenzial personenbezogener genetischer Daten in der Forschung und Entwicklung oder auch für andere Untersuchungszwecke unter Gewährleistung des Datenschutzes dennoch nutzen zu können, besteht ein Interesse an einem neuen Ansatz im Umgang mit genetischen Daten.
  • Es ist bekannt, genetische Daten für Komprimierungszwecke verschlüsselt zu speichern. Die Verschlüsselung kann z. B. durch Anwendung von Hash-Funktionen erfolgen. So wird von A. Mehta et al. in der Publikation „DNA compression using hash based data structure" in „International Journal of Information and Knowledge Management", 2010, Bd. 2, Nr. 2, S. 383-386, vorgeschlagen, durch eine binäre Kodierung einer DNA-Sequenz Speicherplatz zu sparen. Die DNA-Sequenz wird in aufeinander folgende, einander nicht überlappende Teile fragmentiert und mittels Hash-Funktion in Bits kodiert. Es ergibt sich eine kürzere Sequenz von Bits, die gemeinsam mit einer Hash-Tabelle als Alphabet („Look-up“-Tabelle) gespeichert wird. In der Hash-Tabelle ist jedes DNA-Fragment auf ein Zeichen abgebildet. Mit dem Verfahren von A. Mehta et al. wird zwar eine Komprimierung der genetischen Daten erreicht. Bei getrennter Speicherung der Hashtabelle wären sogar Vorteile für den Datenschutz erreichbar. Nachteilig ist jedoch, dass die verschlüsselte (z. B. gehashte) DNA-Sequenz nicht durchsuchbar ist. Um zu überprüfen, ob eine gewisse Teilsequenz enthalten ist, muss zuerst die komplette DNA-Sequenz dekomprimiert werden. Erst dann kann eine Teilsequenz darin gesucht werden, was wieder mit dem genannten hohen Aufwand verbunden ist und die Datensicherheit schwächt.
  • Es ist des Weiteren bekannt, für eine schnellere Durchsuchung genetische Daten mittels Hashing zu indizieren (siehe Publikation „Bitpacking techniques for indexing genomes: I. Hash Tables“ von T. D. Wu in „Algorithms for Molecular Biology“ (2016) 11:5). So genannte „Reads“ werden auf eine DNA-Sequenz abgebildet, wobei eine Hash-Tabelle als „Look-up“-Tabelle verwendet wird, in der Positionsangaben entsprechender Teilstücke in der Sequenz stehen. In diesem Fall erlaubt das Hashing zwar ein effizientes Durchsuchen einer DNA-Sequenz. Diese liegt aber in unverschlüsselter, durch den Nutzer direkt lesbarer Form vor.
  • Aus anderen Gebieten der Datenverarbeitung sind weitere Anwendungen von Hash-Funktionen bekannt. Beispielsweise wird bei der Verschlüsselung von Passwörtern nach einer Nutzer-Registrierung bei einer Applikation in einem Datennetz mit einem Nutzernamen und einem Passwort das Passwort mittels einer kryptologischen Hash-Funktion kodiert. Dabei kann zunächst an das Passwort eine zufällig gewählte Zeichenfolge („salt“) angehängt werden, wodurch ein Hacken von Passwörtern erschwert wird. Der durch die Kodierung ermittelte Hash-Wert wird in einer Datenbank gespeichert. Bei Anmeldung des Nutzers bei der Applikation mit seinem Nutzernamen und seinem Passwort werden das Passwort mit der Hash-Funktion kodiert, der ermittelte Hash-Wert mit dem Hash-Wert in der Datenbank verglichen und der eingegebene mit dem gespeicherten Nutzernamen für dieses Passwort verglichen. Bei dieser Anwendung von Hash-Funktionen ist zur Nutzeridentifizierung nicht nur das korrekte Passwort nötig, sondern auch die korrekte Zuordnung von Nutzernamen und Passwort. Hierzu liegt der Nutzername (wie z. B. eine Mail-Adresse) im Klartext als gespeicherter Wert ergänzend zum Tabelleneintrag des Hash-Wertes vor. Bei Hacker-Angriffen werden die Nutzernamen zwar direkt bekannt, wobei die Passwörter hingegen noch kodiert vorliegen. Es gibt jedoch zahlreiche Verfahren zum Auflösen von Passwörtern, so dass man davon ausgeht, dass beim Erbeuten von Zugangsdaten bei einfachen oder häufig gewählten Passwörtern das Dekodieren relativ einfach ist. Die Datensicherheit ist durch die gemeinsame Ablage des Nutzernamens in Klartext mit dem Hash-Wert eingeschränkt.
  • Die Aufgabe der Erfindung ist es, ein verbessertes Verfahren und eine verbesserte Datenverarbeitungsvorrichtung zur Verarbeitung, insbesondere zur Verschlüsselung und Speicherung, von Reihen physiologischer und/oder biologischer Daten, insbesondere genetischen Daten bereitzustellen, mit denen Nachteile herkömmlicher Techniken vermieden werden. Das Verfahren und die Datenverarbeitungsvorrichtung sollen insbesondere ermöglichen, die Daten effektiver zu durchsuchen und/oder bei Zugriffsbeschränkungen einer Durchsuchung zugänglich zu machen, ohne dass bei einer Durchsuchung die ursprünglichen Daten Dritten bekannt gemacht werden.
  • Diese Aufgabe wird durch ein Verfahren bzw. eine Datenverarbeitungsvorrichtung zur Verarbeitung von genetischen Daten, ein Verfahren zur Abfrage einer Datenbank, ein Computerprogrammprodukt und ein Computer-lesbares Speichermedium mit den Merkmalen der unabhängigen Ansprüche gelöst. Vorteilhafte Ausführungsformen und Anwendungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
  • Gemäß einem ersten allgemeinen Gesichtspunkt der Erfindung wird die obige Aufgabe durch ein Verfahren zur Verarbeitung von genetischen Daten gelöst, die eine Reihe von Sequenzelementen umfassen, die jeweils ein Biomolekül repräsentieren. Vorzugsweise umfasst die vorbestimmte Reihe von Sequenzelementen mindestens einen Abschnitt genetischen Materials, z. B. ausschließlich kodierende Abschnitte, ausschließlich nicht-kodierende Abschnitte oder sowohl kodierende als auch nicht-kodierende Abschnitte. Die Biomoleküle umfassen z. B. Nukleotide und/oder Aminosäuren. Die genetischen Daten können z. B. mindestens eine Gensequenz umfassen. Alternativ können die genetischen Daten Short Tandem Repeat-(STR)- oder Single Nucleotide Polymorphism-(SNP)-Profile in Sequenzform umfassen.
  • Jede Reihe von Sequenzelementen kann einem Individuum, z. B. einem menschlichen oder tierischen Probanden, zugeordnet sein. Der Begriff „genetischen Daten“ bezieht sich auf mindestens eine Reihe von Sequenzelementen. Es kann eine einzige Reihe von Sequenzelementen, d. h. die genetischen Daten eines einzigen Individuums, oder bevorzugt eine Vielzahl von Reihen von Sequenzelementen, d. h. die genetischen Daten einer Vielzahl von Individuen, verarbeitet werden. Mit anderen Worten, vorzugsweise werden genetische Daten von einer Vielzahl von Individuen verarbeitet, wobei die genetischen Daten jedes Individuums eine Reihe von Sequenzelementen umfasst, die jeweils ein Biomolekül repräsentieren.
  • Aus den genetischen Daten jeder Reihe von Sequenzelementen werden Sequenzfragmente gebildet. Ein Sequenzfragment umfasst einen Abschnitt der Reihe von Sequenzelementen mit einer Fragmentlänge von mindestens zwei Sequenzelementen. Auf jedes der Sequenzfragmente wird zur Erzeugung einer Vielzahl von verschlüsselten Fragmentdaten, die jeweils einem der Sequenzfragmente zugeordnet sind, eine Kodierungsfunktion angewendet. Die Kodierungsfunktion ist eine mathematische Funktion, die jedem Sequenzfragment genau einen verschlüsselten Wert, repräsentiert z. B. durch eine Folge von Zeichen, zuordnet. Die Kodierungsfunktion ist vorzugsweise unumkehrbar. Die Unumkehrbarkeit der Kodierungsfunktion bedeutet, dass keine mathematische Umkehrfunktion der Kodierungsfunktion existiert. Aus den verschlüsselten Fragmentdaten sind bei dieser Ausführungsform der Erfindung die Sequenzfragmente nicht ermittelbar. Des Weiteren ist die Kodierungsfunktion kollisionsresistent, d. h. zwei unterschiedliche Sequenzfragment-Eingaben führen zu unterschiedlichen verschlüsselten Fragmentdaten. Alternativ kann eine umkehrbare Kodierungsfunktion verwendet werden, insbesondere bei einer konkreten Anwendung der Erfindung bei der die Datensicherheit unkritisch ist. Die verschlüsselten Fragmentdaten werden zu einer Speichereinrichtung übertragen und in dieser gespeichert.
  • Gemäß der Erfindung erfolgt die Bildung der Sequenzfragmente derart, dass sich die Abschnitte der Reihe von Sequenzelementen überlappen und jedes Sequenzelement in mindestens zwei Sequenzfragmenten enthalten ist. In Bezug auf die genetischen Daten sind die Sequenzfragmente überlappend. Vorteilhafterweise ist damit jedes Sequenzelement gemeinsam mit mindestens einem in der Reihe von Sequenzelementen unmittelbar benachbarten Sequenzelement in mindestens zwei Sequenzfragmenten der Sequenzfragmente enthalten. Jedes Sequenzfragment wird verschlüsselt. Die Speicherung in der Speichereinrichtung kann vorteilhafterweise ohne Vorgabe einer Reihenfolge erfolgen.
  • Die verschlüsselten Fragmentdaten können mit einer zufälligen Reihenfolge gespeichert werden, wenn für die spätere Abfrage der Speichereinrichtung die Reihenfolge keine Bedeutung hat. Die Reihenfolge der verschlüsselten Fragmentdaten wird bei der Speicherung jedoch beibehalten, wenn bei der späteren Suche in den gespeicherten Daten auch auf die Position einer bestimmten Suchsequenz innerhalb der gesamten genetischen Daten abgefragt werden soll. Vorzugsweise werden die verschlüsselten Fragmentdaten so gespeichert, dass ihre Zuordnung zu den genetischen Daten, d. h. der Reihe von Sequenzelementen eines Individuums erhalten bleibt. Des Weiteren können die verschlüsselten Fragmentdaten in Verbindung mit einer Ortsinformation gespeichert werden. Die Ortsinformation beinhaltet zum Beispiel den Ort des Zellmaterials innerhalb einer Zellbank, aus dem die genetischen Daten gewonnen wurden, oder einer Datenbank, in der weitere Informationen bezüglich des Zellmaterials, aus dem die genetischen Daten gewonnen wurden, abgelegt sind.
  • Die verschlüsselten Fragmentdaten repräsentieren vorteilhafterweise nicht nur die Gesamtheit der genetischen Daten, sondern auch alle Teilfolgen mit den Längen der gebildeten Sequenzfragmente. Dies ermöglicht eine effektivere Suche nach Folgen von Sequenzelementen in den gespeicherten verschlüsselten Fragmentdaten. Im Ergebnis kann mit verringertem Zeit- und/oder Energieaufwand festgestellt werden, ob die genetischen Daten eine gesuchte Folge von Sequenzelementen enthalten. Von besonderem Vorteil ist, dass die Suche durchgeführt werden kann, ohne dass die Verschlüsselung aufgehoben werden muss. Die Erfindung ermöglicht, Zugriffsbeschränkungen zu einer Datenbank, welche die gespeicherten verschlüsselten Fragmentdaten enthält, aufzuheben, ohne die Datensicherheit zu beeinträchtigen. Die Information über den Fund von gesuchten Daten und/oder die gefundenen Daten können unverschlüsselt übertragen werden.
  • Obwohl die verschlüsselten Fragmentdaten die Gesamtheit der genetischen Daten repräsentieren, können die genetischen Daten wegen der Unumkehrbarkeit der Kodierungsfunktion aus den verschlüsselten Fragmentdaten nicht rückgewonnen werden. Aufgrund der Überlappung der Sequenzfragmente und der optional unterschiedlichen Fragmentlängen wird dies auch zukünftig durch effizientere Hacker-Techniken voraussichtlich nicht möglich sein.
  • Gemäß einem zweiten allgemeinen Gesichtspunkt der Erfindung wird die obige Aufgabe durch eine Datenverarbeitungsvorrichtung zur Verarbeitung genetischer Daten gelöst, die zur Erzeugung und Speicherung von verschlüsselten Fragmentdaten mit dem Verfahren gemäß dem ersten allgemeinen Gesichtspunkt der Erfindung oder gemäß seinen verschiedenen Ausgestaltungen konfiguriert ist. Die Datenverarbeitungsvorrichtung umfasst eine Fragmentierungseinrichtung, die zur Bildung der Sequenzfragmente derart eingerichtet ist, dass sich die Abschnitte der Reihe der Sequenzelemente überlappen und jedes Sequenzelement in mindestens zwei Sequenzfragmenten enthalten ist, eine Kodierungseinrichtung, die zur Erzeugung der Vielzahl von verschlüsselten Fragmentdaten eingerichtet ist, und eine Speichereinrichtung, die zur Speicherung der verschlüsselten Fragmentdaten eingerichtet ist. Die Datenverarbeitungsvorrichtung wird vorzugsweise durch einen Computer realisiert. Die Speichereinrichtung kann Teil des Computers oder eine gesonderte Datenbank sein.
  • Gemäß einem dritten allgemeinen Gesichtspunkt der Erfindung wird die obige Aufgabe durch ein Verfahren zur Abfrage einer Datenbank gelöst, die verschlüsselte Fragmentdaten enthält, die mit dem Verfahren gemäß dem ersten allgemeinen Gesichtspunkt der Erfindung oder gemäß seinen verschiedenen Ausgestaltungen erzeugt und gespeichert wurden. Das Abfrageverfahren umfasst eine Vorgabe mindestens einer Suchsequenz, umfassend eine vorbestimmte Reihe von Sequenzelementen, die jeweils ein Biomolekül repräsentieren, die gesucht werden soll, eine Anwendung der Kodierungsfunktion, mit der die verschlüsselten Fragmentdaten erzeugt worden sind, auf die mindestens eine Suchsequenz zur Erzeugung mindestens einer verschlüsselten Suchsequenz, und eine Suche nach der mindestens einen verschlüsselten Suchsequenz in den gespeicherten verschlüsselten Fragmentdaten. Bei positivem Suchergebnis kann an den Nutzer die die Antwort, dass die Suchsequenz gefunden wurde, in Verbindung mit einer Information, in welchen genetischen Daten oder in welcher Probe die Suchsequenz gefunden wurde, ohne dass dabei Rückschlüsse auf eine bestimmte Person möglich sind, zurückgegeben werden.
  • Die Suche kann sich auf mindestens eine der folgenden Suchabfragen richten, beispielsweise um Daten zu ermitteln, die für ein bestimmtes Krankheitsbild typisch sind:
    • - Ist die Suchsequenz in den verschlüsselten Fragmentdaten enthalten?
    • - Ist die Suchsequenz in einem bestimmten Genabschnitt, den die verschlüsselten Fragmentdaten repräsentieren, enthalten?
    • - Ist eine Kombination und/oder eine logische Verknüpfung (z.B. Seq 1 UND Seq 2 NICHT Seq 3) von mehreren Suchsequenzen vorhanden?
    • - Wo befindet sich biologisches Zellmaterial, aus dem die genetischen Daten gewonnen wurden (Lokalisierungsfunktion)?
  • Die Erfindung hat den wesentlichen Vorteil, dass die kompletten genetischen Daten, wie z. B. eine komplette DNA-Sequenz nach dem Kodieren nicht wieder vorliegen muss, um dennoch biologisch oder medizinisch interessante Fragestellungen beantworten zu können. Es kann z. B. festgestellt werden, ob eine bestimmte krankheits-assoziierte Mutation in einer DNA-Sequenz enthalten ist, ohne diese DNA-Sequenz explizit zu kennen.
  • Abweichend von der Komprimierung z. B. gemäß A. Mheta et al. werden gemäß der Erfindung nicht aneinandergrenzende, sondern überlappende Sequenzfragmente erzeugt. Die Erfinder haben festgestellt, dass, obwohl damit der Umfang der Daten vergrößert wird, die Suche nach einer bestimmten Folge von Sequenzelementen effektiver wird. Abweichend von der Indexierung von genetischen Daten gemäß T. D. Wu werden gemäß der Erfindung ausschließlich verschlüsselte Daten gespeichert.
  • Gemäß einer bevorzugten Ausführungsform der Erfindung beträgt die Fragmentlänge jedes Sequenzfragments mindestens 3. Vorteilhafterweise können damit die meisten Suchanfragen, insbesondere die meisten biologisch oder medizinisch interessanten Fragestellungen nach dem Auftreten von Folgen von Biomolekülen, abgedeckt werden, ohne dass der Kodierungs- und Speicheraufwand übermäßig anwächst.
  • Gemäß einer besonders bevorzugten Ausführungsform der Erfindung erfolgt die Bildung der Sequenzfragmente durch ein schrittweises Ablesen von Abschnitten aufeinanderfolgender Sequenzelementen aus den genetischen Daten mit einem Voranschreiten des Ablesens um jeweils einen Schritt für jeden neuen Abschnitt (Bildung der Sequenzfragmente mit einem mit Schrittweite 1 gleitenden Fenster). Nach Vorgabe einer Fragmentlänge und eines Startelements in den genetischen Daten werden die Sequenzfragmente jeweils durch die am Startelement und an allen nachfolgenden Sequenzelementen beginnenden Abschnitte der Reihe von Sequenzelementen mit der vorgegebenen Fragmentlänge bereitgestellt. Vorteilhafterweise wird damit für jede Teil-Folge von Sequenzelementen der jeweiligen Länge aus den genetischen Daten unabhängig von der Lage innerhalb der Sequenz ein zugehöriges Sequenzfragment erzeugt.
  • Bei der Abfrage einer Datenbank gemäß dem dritten allgemeinen Gesichtspunkt der Erfindung kann bei der Vorgabe der Suchsequenz eine Verkürzung einer initialen Suchsequenz auf eine Suchsequenzlänge vorgesehen sein, die gleich der Fragmentlänge der Sequenzfragmente ist, aus denen die verschlüsselten Fragmentdaten erzeugt worden sind. Damit wird vorteilhafterweise die Länge der Suchsequenz an die Länge der auf die verschlüsselten Fragmentdaten abgebildeten Segmentfragmente angepasst.
  • Vorzugsweise haben alle Sequenzfragmente die gleiche Länge (Zahl der Sequenzelemente). Damit wird eine systematische, gleichmäßige Abdeckung der genetischen Daten sichergestellt.
  • Alternativ können die Sequenzfragmente verschiedene Längen aufweisen. Gemäß dieser alternativen Ausführungsform der Erfindung mit verschiedenen Fragmentlängen können die Sequenzfragmente mehrere Fragmentgruppen aus Sequenzfragmenten bilden, wobei die Sequenzfragmente in jeder Fragmentgruppe jeweils die gleiche Länge aufweisen, die Sequenzfragmente verschiedener Fragmentgruppen verschiedene Längen aufweisen, und die Bildung der Sequenzfragmente derart erfolgt, dass innerhalb jeder Fragmentgruppe sich die Abschnitte der Reihe von Sequenzelementen überlappen und jedes Sequenzelement in mindestens zwei Sequenzfragmenten enthalten ist. Bei Anwendung der Hash-Funktion als Kodierungsfunktion liefert jede Fragmentgruppe eine Hash-Wert-Tabelle. Diese Ausführungsform hat den besonderen Vorteil, dass die Datenbank mit den gespeicherten verschlüsselten Fragmentdaten auf das Auftreten von Suchsequenzen mit verschiedenen Längen durchsucht werden kann, so dass die Abfrage der Datenbank einen erhöhten Informationsgewinn bieten kann. Es kann das Auftreten einer Suchsequenz frei wählbarer Länge (innerhalb der Längen der Sequenzfragmente der Fragmentgruppen) in den genetischen Daten gefunden werden, ohne die genetischen Daten zu kennen. Die Fragmentlänge kann größer als 3 sein, z. B. bis zu 20 oder mehr. Die Fragmentgruppen aus Sequenzfragmenten können beispielsweise für eine hierarchisch gegliederte Struktur der gespeicherten Daten gewählt werden. Mit einer hierarchisch gegliederten Struktur der genetischen Daten können z. B. verschachtelte Arrays von Daten und/oder Cluster erzeugt werden, die auf Fragmentgrößen oder so genannten B-Bäumen basieren.
  • Gemäß einer weiteren, besonders vorteilhaften Ausführungsform der Erfindung sind die Kodierungsfunktion eine Hash-Funktion und die verschlüsselten Fragmentdaten Hash-Werte. Die Hash-Funktion bildet Sequenzfragmente, d. h. Folgen von Sequenzelementen einer frei wählbaren Länge, spezifisch unumkehrbar jeweils auf einen Hash-Wert ab. Die Anwendung der Hash-Funktion zur Verschlüsselung hat besondere Vorteile, da Hash-Funktionen verfügbar und gut untersucht sind und unumkehrbar sind, so dass eine Entschlüsselung der genetischen Daten aus den verschlüsselten Fragmentdaten ausgeschlossen oder extrem aufwendig ist. Die Kodierung der genetischen Daten eines Individuums liefert die verschlüsselten Fragmentdaten in Form von Hash-Werten. Die Hash-Werte eines Individuums werden, z. B. in Gestalt einer Hash-Wert-Tabelle in einer Datenbank abgelegt. Die Datenbank umfasst entsprechend vorzugsweise eine Vielzahl von Hash-Wert-Tabellen.
  • Zur Erhöhung von der Datensicherheit, hat die Hash-Funktion vorzugsweise mindestens eine der folgenden Eigenschaften:
    • - die Hash-Funktion ist eine kryptografische Hashfunktion (diese ist vorteilhafterweise kollisionsresistent, so dass es praktisch ausgeschlossen ist, einen identischen Hash-Wert für zwei unterschiedliche Eingaben zu erhalten),
    • - die Hash-Funktion erzeugt Hash-Werte mit einer Länge, die mindestens 128 Bits beträgt,
    • - die Hash-Funktion erfüllt mindestens den SHA2 (Secure Hash Algorithms) Standard, und
    • - die Hash-Funktion ist für einen Lawineneffekt derart ausgelegt, dass selbst kleine Änderungen an der Eingabe einen komplett anderen Hash-Wert erzeugen.
  • Von Vorteil kann gemäß einer weiteren Ausführungsform der Erfindung sein, wenn vor der Anwendung der Kodierungsfunktion zu jedem der Sequenzfragmente jeweils eine stochastisch gewählte Zeichenfolge zugesetzt wird. Vorteilhafterweise kann durch den Zusatz, z. B. ein Anhängen, der zufällig gewählten Zeichenfolge („salt“) die Eingabe-Entropie vor der weiteren Verarbeitung der Eingabe erhöht werden. Alternativ oder zusätzlich kann die Hash-Funktion mehrmals auf die Sequenzfragmente bzw. die verschlüsselten Fragmentdaten angewendet werden. Vorteilhafterweise werden damit Rückschlüsse vom Hash-Wert auf die Eingabe durch Brute-Force Methoden erschwert.
  • Gemäß einer weiteren vorteilhaften Variante der Erfindung werden die verschlüsselten Fragmentdaten in einer Datenbank gespeichert. Die Datenbank ist eine Speichervorrichtung, in die vorzugsweise erfindungsgemäß verschlüsselte Fragmentdaten einer Vielzahl von Individuen aus einer oder mehreren Einrichtungen, an denen genetischen Daten gewonnen werden, z. B. Kliniken und/oder Labore, gespeichert werden. Die Datenbank ist für einen Zugriff durch Nutzer ausgelegt. Es kann ein freier Zugriff, z. B. über ein Netzwerk, oder ein mit Nutzerdaten auf bestimmte Nutzer beschränkter Zugriff ermöglicht werden.
  • Ein Computerprogrammprodukt, das auf einem Computer-lesbaren Speichermedium gespeichert und zur Bildung der Sequenzfragmente und zur Erzeugung der Vielzahl von verschlüsselten Fragmentdaten bei dem Verfahren gemäß dem ersten allgemeinen Gesichtspunkt der Erfindung eingerichtet ist, ein computer-lesbares Speichermedium, auf dem ein Computerprogrammprodukt gespeichert ist, das zur Bildung der Sequenzfragmente und zur Erzeugung der Vielzahl von verschlüsselten Fragmentdaten bei dem Verfahren gemäß dem ersten allgemeinen Gesichtspunkt der Erfindung eingerichtet ist, und eine Datenbank mit einer Vielzahl von durchsuchbaren, verschlüsselten Fragmentdaten, die mit dem Verfahren gemäß dem ersten allgemeinen Gesichtspunkt der Erfindung erzeugt worden sind, stellen weitere unabhängige Gegenstände der Erfindung dar.
  • Als weiterer unabhängiger Gegenstand der Erfindung wird ein System umfassend mindestens eine Einrichtung zur Bereitstellung anonymisierter genetischer Daten, wie z. B. Kliniken und/oder Labore, und mindestens eine Einrichtung zur Nutzung der Daten durch mindestens einen Anwender, wie z. B. eine universitäre oder industrielle Forschungseinrichtung, geschaffen.
  • Weitere Einzelheiten und Vorteile der Erfindung werden im Folgenden unter Bezug auf die beigefügten Zeichnungen beschrieben. Es zeigen:
    • 1: eine schematische Illustration der Verarbeitung von genetischen Daten gemäß bevorzugten Ausführungsformen der Erfindung,
    • 2: weitere Einzelheiten der Verschlüsselung und Speicherung von genetischen Daten und der Abfrage einer Datenbank gemäß weiteren Ausführungsformen der Erfindung, und
    • 3: eine schematische Übersichtsdarstellung einer bevorzugten Anwendung der Erfindung bei der Verarbeitung klinisch gewonnener genetischer Daten und deren Durchsuchung durch Nutzer.
  • Einzelheiten bevorzugter Ausführungsformen der Erfindung werden im Folgenden insbesondere in Bezug auf die Bildung der Sequenzfragmente, deren Kodierung und Speicherung in einer Datenbank und die Abfrage der Datenbank beschrieben. Einzelheiten der Auswahl einer Kodierungsfunktion, insbesondere einer Hash-Funktion werden nicht erläutert, da diese an sich von herkömmlichen Kodierungstechniken in der Bioinformatik oder aus anderen technischen Gebieten bekannt sind. Es wird beispielhaft auf die Anwendung der Erfindung bei der Verarbeitung von genetischen Daten Bezug genommen, die eine Nukleotidsequenz umfassen. Die Anwendung der Erfindung ist nicht auf diese Daten beschränkt, sondern auch mit anderen genetischen Daten, wie zum Beispiel Aminosäuresequenzen (Proteinsequenzen) möglich.
  • 1 zeigt schematisch die Hauptschritte des Verfahrens zur Verarbeitung von genetischen Daten gemäß bevorzugten Ausführungsformen der Erfindung, wobei weitere Einzelheiten beispielhaft in 2 dargestellt sind. 2 zeigt schematisch auch die Komponenten einer Datenverarbeitungsvorrichtung 100 mit einer Fragmentierungseinrichtung 10, einer Kodierungseinrichtung 20 und einer Speichereinrichtung 30/Datenbank 30A.
  • Im Verfahrensablauf gemäß 1 ist mit Schritt S1 zunächst die Bereitstellung der genetischen Daten 1 gezeigt. Die Bereitstellung der genetischen Daten 1 umfasst zum Beispiel die Sequenzierung genetischen Materials mindestens eines Individuums. Die Sequenzierung erfolgt mit an sich bekannten Sequenzierungstechniken. Alternativ umfasst die Bereitstellung der genetischen Daten 1 den Abruf von genetischen Daten 1 aus vorhandenen Datenquellen, wie zum Beispiel frei zugänglichen Datenbanken. Die genetischen Daten 1 umfassen typischerweise Teile eines Genoms des Individuums, können aber auch das komplette Genom repräsentieren. Beispielsweise beziehen sich die genetischen Daten 1 jeweils eines Individuums auf genetische Daten von iPS-Zellen (induziert pluripotente Stammzellen) des Individuums.
  • Schritt S1 ist ein Vorbereitungsschritt des erfindungsgemäßen Verfahrens. Die Bereitstellung der genetischen Daten 1 bei Schritt S1 kann unmittelbar vor der nachfolgenden Verarbeitung mit den Schritten S2 bis S4 oder zeitlich getrennt von diesen vorgesehen sein.
  • Bei Schritt S2 folgt die Bildung der Sequenzfragmente 3 aus den genetischen Daten 1. 2 zeigt beispielhaft genetischen Daten 1 aus Sequenzelementen in Gestalt einer Nukleotidsequenz. Die Nukleotidsequenz besteht aus den Nukleinbasen Adenin, Thymin, Guanin und Cytosin, die in üblicher Weise mit A, T, G und C abgekürzt sind. Als Sequenzfragmente 3 werden k-mere (hier z. B. mit k = 3) gebildet. Beginnend bei einem Startelement 2 (zum Beispiel T) erfolgt das schrittweise Ablesen von Sequenzfragmenten 3 mit der Länge 3. Die Bereitstellung der Sequenzfragmente 3 erfolgt durch ein Ablesen mit gleitendem Fenster. Im Ergebnis wird die Folge 4 von Sequenzfragmenten 3 erzeugt. Schritt S2 kann mit einem an sich bekannten „sliding window“-Algorithmus implementiert werden.
  • Anschließend erfolgt bei Schritt S3 die Kodierung der Sequenzfragmente 3 mit einer Kodierungseinrichtung 20. Die Kodierungseinrichtung 20 ist zur Anwendung einer Hash-Funktion fH auf die Sequenzfragmente 3 eingerichtet. Im Ergebnis der Anwendung der Hash-Funktion wird eine Hash-Wert-Tabelle gewonnen. Die Elemente der Hash-Wert-Tabelle sind verschlüsselte Fragmentdaten 5, welche die Sequenzfragmente 3 repräsentieren. Diese Hash-Wert-Tabelle beinhaltet somit die Genomsequenz einer Person in einer Form, die keine Rückschlüsse auf die Identität der Person oder ähnliches zulässt.
  • Abweichend von der Darstellung in 2 kann die einmalige Anwendung der Hash-Funktion fH durch die wiederholte (mindestens 2-fache) Anwendung der Hash-Funktion fH in einer ersten Anwendung auf die Sequenzfragmente 3 und in mindestens einer weiteren Anwendung auf die verschlüsselten Fragmentdaten 5 ersetzt werden.
  • Die Kodierung der Sequenzfragmente 3 liefert die verschlüsselten Fragmentdaten 5 in der Hash-Wert-Tabelle. Die verschlüsselten Fragmentdaten 5 (kodierte Sequenzfragmente) werden anschließend bei Schritt S4 in der Speichereinrichtung 30, zum Beispiel der Datenbank 30A gespeichert. Die Datenbank 30A ist Teil der Datenverarbeitungsvorrichtung 100 oder getrennt von dieser vorgesehen. Die verschlüsselten Fragmentdaten 5 jeweils einer Hash-Wert-Tabelle, d. h. eines Individuums, werden jeweils in vorbestimmten Speicherabschnitten und/oder gemeinsam mit einer die Zugehörigkeit zu einer bestimmten Hash-Wert-Tabelle repräsentierenden Sequenzidentifizierung (Proben-Id) gespeichert, so dass die Zuordnung der verschlüsselten Fragmentdaten 5 zu einer anonymisierten Probe eines Individuums erhalten bleibt.
  • Zur Abfrage der Datenbank 30A wird, wie im rechten Teil von 2 dargestellt ist, zunächst eine Suchsequenz 6 aus Nukleinsäuren, wie zum Beispiel ATG, bereitgestellt (Schritt S5) und durch Anwendung der Hash-Funktion verschlüsselt (Schritt S6). Im Ergebnis wird eine verschlüsselte Suchsequenz 7 in Gestalt eines Hash-Werts bereitgestellt. Anschließend wird die Datenbank in Bezug auf das Auftreten dieses Hash-Werts mit an sich bekannten Suchtechniken durchsucht (Schritt S7). Beim Auffinden der verschlüsselten Suchsequenz 7 wird die Hash-Wert-Tabelle erfasst, zu der die gefundene Suchsequenz gehört. Durch die Datenstruktur der Datenbank 30A mit einer Vielzahl von Hash-Wert-Tabellen benötigt diese Suche eine konstante Laufzeit und ist somit effizient.
  • Weitere Einzelheiten einer bevorzugten Anwendung der Erfindung sind in 3 gezeigt. Mit dieser Anwendung wird ein System 200 zur Bereitstellung anonymisierter genetischer Daten durch Kliniken und/oder Labore und zur Nutzung der Daten durch einen Anwender, wie z. B. eine universitäre oder industrielle Forschungseinrichtung, geschaffen. Im linken Teil von 3 ist schematisch gezeigt, wie genetischen Daten 1 zum Beispiel an einer Klinik 40 bereitgestellt werden (Schritt S1). In einem praktischen Beispiel kann das System 200 eine Vielzahl von Anwendern und eine Vielzahl von Nutzern umfassen, die gemeinsam auf die Datenbank oder mehrere Datenbanken zugreifen. Anschließend werden die genetischen Daten 1 dem erfindungsgemäßen Verfahren mit den Schritten S2 und S3 unterzogen, um die kodierten Sequenzfragmente 5 bereitzustellen und in der Datenbank 30A zu speichern (Schritt S4).
  • Eine Forschungseinrichtung 50 ist an einer Auswertung der genetischen Daten 1 interessiert. Beispielsweise ergibt sich bei der Suche nach einer bestimmten Krankheit die Frage, ob eine bereitgestellte Suchsequenz 6 (Schritt S5) in den genetischen Daten 1 enthalten ist (siehe oberer Doppelpfeil). Diese direkte Abfrage ist jedoch durch den übermäßigen Suchaufwand in den genetischen Daten 1 und den Datenschutz erschwert oder sogar ausgeschlossen. Um dennoch die genetischen Daten 1 durchsuchen zu können, wird, wie oben beschrieben, die Suchsequenz 6 der Kodierung zur Erzeugung eines Hash-Werts unterzogen (Schritt S6), nach dem anschließend in der Datenbank 30A gesucht werden kann (Schritt S7). Wenn die Suche ergibt, dass die gespeicherten verschlüsselten Fragmentdaten 5 die gesuchte verschlüsselte Suchsequenz 7 enthalten, werden die zugehörigen genetischen Daten 1, d. h. der Datensatz eines bestimmten Individuums identifiziert. Anschließend kann von der Forschungseinrichtung 50 eine auf diesen speziellen Datensatz bezogene Rückfrage an die Klinik 40 gestellt werden, um unter Beachtung der Vorschriften der Datensicherheit weitere Informationen über das Individuum mit der betreffenden Suchsequenz und/oder Zellmaterial des Individuums mit der betreffenden Suchsequenz, z. B. aus einer Zellbank, zu erhalten.
  • Es wird betont, dass das gezeigte Beispiel nur eine mögliche Anwendung der Erfindung darstellt, bei der ermöglicht wird, ohne genaue Kenntnis der genetischen Daten bestimmte Fragestellungen aus dem Bereich der personalisierten Medizin bearbeiten zu können. Abhängig von den zur Verfügung stehenden Daten bzw. dem Datenformat werden lediglich das benötigte Format des SuchSequenzen bzw. der Suchabfrage definiert, um ein Hash-Wert-Matching gleicher Datenpunkte in der Datenbank bereitzustellen.
  • Ein weiteres Beispiel für die Anwendung der Erfindung ist gegeben, wenn eine Forschungseinrichtung eine bestimmte Erkrankung untersuchen möchte und für diesen Zweck Zellmaterial mit bestimmten genetischen Merkmalen aus einer Zellbank benötigt. Wenn die genetischen Daten des in der Zellbank gespeicherten Materials erfindungsgemäß verarbeitet vorliegen, kann die Erfindung angewendet werden, um aus der Zellbank geeignete Zelllinien herauszusuchen, ohne auf die genetischen Daten zuzugreifen. Die Forschungseinrichtung erhält mit einem erheblich verringerten Kosten- und Zeitaufwand eine Information darüber, welche Zelllinie benötigt wird, um die geplanten Untersuchungen durchführen zu können, ohne das Zellmaterial selbst sequenzieren zu müssen.
  • Die in der vorstehenden Beschreibung, den Zeichnungen und den Ansprüchen offenbarten Merkmale der Erfindung können sowohl einzeln als auch in Kombination oder Unterkombination für die Verwirklichung der Erfindung in ihren verschiedenen Ausgestaltungen von Bedeutung sein.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • A. Mehta et al. in der Publikation „DNA compression using hash based data structure“ in „International Journal of Information and Knowledge Management“, 2010, Bd. 2, Nr. 2, S. 383-386 [0010]

Claims (14)

  1. Verfahren zur Verarbeitung von genetischen Daten (1), die eine Reihe von Sequenzelementen umfassen, die jeweils ein Biomolekül repräsentieren, mit den Schritten - Bildung (S2) von Sequenzfragmenten (3), wobei jedes Sequenzfragment (3) einen Abschnitt der Reihe von Sequenzelementen mit einer Fragmentlänge von mindestens zwei Sequenzelementen umfasst, - Anwendung (S3) einer Kodierungsfunktion auf jedes der Sequenzfragmente (3) zur Erzeugung einer Vielzahl von verschlüsselten Fragmentdaten (5), die jeweils einem der Sequenzfragmente (3) zugeordnet sind, und - Speicherung (S4) der verschlüsselten Fragmentdaten (5), dadurch gekennzeichnet, dass - die Bildung der Sequenzfragmente (3) derart erfolgt, dass sich die Abschnitte der Reihe von Sequenzelementen überlappen und jedes Sequenzelement in mindestens zwei Sequenzfragmenten (3) enthalten ist.
  2. Verfahren gemäß Anspruch 1, bei dem - die Fragmentlänge jedes Sequenzfragments (3) mindestens 3 beträgt.
  3. Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem die Bildung der Sequenzfragmente (3) umfasst - Vorgabe der Fragmentlänge und eines Startelements (2) in den genetischen Daten (1), und - Bereitstellung der Sequenzfragmente (3) jeweils durch die am Startelement (2) und an allen nachfolgenden Sequenzelementen beginnenden Abschnitte der Reihe von Sequenzelementen mit der vorgegebenen Fragmentlänge.
  4. Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem - alle Sequenzfragmente (3) die gleiche Länge aufweisen.
  5. Verfahren gemäß einem der Ansprüche 1 bis 3, bei dem - die Sequenzfragmente (3) mehrere Fragmentgruppen aus Sequenzfragmenten (3) bilden, wobei - die Sequenzfragmente (3) in jeder Fragmentgruppe jeweils die gleiche Länge aufweisen, - die Sequenzfragmente (3) verschiedener Fragmentgruppen verschiedene Längen aufweisen, und - die Bildung der Sequenzfragmente (3) derart erfolgt, dass in jeder Fragmentgruppe sich die Abschnitte der Reihe von Sequenzelementen überlappen und jedes Sequenzelement in mindestens zwei Sequenzfragmenten (3) enthalten ist.
  6. Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem - die Kodierungsfunktion eine Hash-Funktion (fH) ist und die verschlüsselten Fragmentdaten (5) Hash-Werte umfassen.
  7. Verfahren gemäß einem der vorhergehenden Ansprüche, bei dem die Bildung der Sequenzfragmente (3) vor der Anwendung der Kodierungsfunktion umfasst - Zusatz jeweils einer stochastisch gewählten Zeichenfolge zu jedem der Sequenzfragmente.
  8. Verfahren gemäß einem der vorhergehenden Ansprüche, mit mindestens einem der Merkmale - es werden genetische Daten (1) von einer Vielzahl von Individuen verarbeitet, wobei die genetischen Daten (1) jedes Individuums eine Reihe von Sequenzelementen umfasst, die jeweils ein Biomolekül repräsentieren, - die verschlüsselten Fragmentdaten (5) werden in einer Datenbank (30A) gespeichert, - die vorbestimmte Reihe von Sequenzelementen umfasst einen Abschnitt genetischen Materials, und - die genetischen Daten (1) repräsentieren eine Nukleotid- oder Aminosäuresequenz.
  9. Datenverarbeitungsvorrichtung (100), die zur Erzeugung und Speicherung von verschlüsselten Fragmentdaten (5) mit dem Verfahren gemäß einem der vorhergehenden Ansprüche konfiguriert ist, umfassend - eine Fragmentierungseinrichtung (10), die zur Bildung der Sequenzfragmente (3) derart eingerichtet ist, dass sich die Abschnitte der Reihe der Sequenzelemente überlappen und jedes Sequenzelement in mindestens zwei Sequenzfragmenten (3) enthalten ist, - eine Kodierungseinrichtung (20), die zur Erzeugung der Vielzahl von verschlüsselten Fragmentdaten (5) eingerichtet ist, und - eine Speichereinrichtung (30), die zur Speicherung der verschlüsselten Fragmentdaten (5) eingerichtet ist.
  10. Computerprogrammprodukt, das auf einem Computer-lesbaren Speichermedium gespeichert und zur Bildung der Sequenzfragmente (3) und zur Erzeugung der Vielzahl von verschlüsselten Fragmentdaten (5) bei einem Verfahren gemäß einem der Ansprüche 1 bis 8 eingerichtet ist.
  11. Computer-lesbares Speichermedium, auf dem ein Computerprogrammprodukt gespeichert ist, das zur Bildung der Sequenzfragmente (3) und zur Erzeugung der Vielzahl von verschlüsselten Fragmentdaten (5) bei einem Verfahren gemäß einem der Ansprüche 1 bis 8 eingerichtet ist.
  12. Datenbank (30A) mit einer Vielzahl von durchsuchbaren, verschlüsselten Fragmentdaten (5), die mit einem Verfahren gemäß einem der Ansprüche 1 bis 8 erzeugt worden sind.
  13. Verfahren zur Abfrage einer Datenbank (30A), die verschlüsselte Fragmentdaten (5) enthält, die mit dem Verfahren gemäß einem der Ansprüche 1 bis 8 erzeugt und gespeichert wurden, mit den Schritten - Vorgabe einer Suchsequenz (6), umfassend eine vorbestimmte Reihe von Sequenzelementen, die jeweils ein Biomolekül repräsentieren, - Anwendung der Kodierungsfunktion, mit der die verschlüsselten Fragmentdaten (5) erzeugt worden sind, auf die Suchsequenz zur Erzeugung einer verschlüsselten Suchsequenz (7), und - Suche nach der verschlüsselten Suchsequenz in den gespeicherten verschlüsselten Fragmentdaten (5).
  14. Verfahren gemäß Anspruch 13, bei dem - die Vorgabe der Suchsequenz (6) eine Verkürzung einer initialen Suchsequenz auf eine Suchsequenzlänge umfasst, die gleich der Fragmentlänge der Sequenzfragmente (3) ist, aus denen die verschlüsselten Fragmentdaten (5) erzeugt worden sind.
DE102019135380.7A 2019-12-20 2019-12-20 Verfahren und Datenverarbeitungsvorrichtung zur Bearbeitung von genetischen Daten Pending DE102019135380A1 (de)

Priority Applications (7)

Application Number Priority Date Filing Date Title
DE102019135380.7A DE102019135380A1 (de) 2019-12-20 2019-12-20 Verfahren und Datenverarbeitungsvorrichtung zur Bearbeitung von genetischen Daten
KR1020227025042A KR20220116536A (ko) 2019-12-20 2020-12-16 유전자 데이터를 처리하기 위한 방법 및 데이터 처리 장치
PCT/EP2020/086414 WO2021122742A1 (de) 2019-12-20 2020-12-16 Verfahren und datenverarbeitungsvorrichtung zur bearbeitung von genetischen daten
EP20842560.3A EP4078595A1 (de) 2019-12-20 2020-12-16 Verfahren und datenverarbeitungsvorrichtung zur bearbeitung von genetischen daten
JP2022536935A JP2023506271A (ja) 2019-12-20 2020-12-16 遺伝子データを処理するための方法及びデータ処理装置
US17/784,720 US20230021229A1 (en) 2019-12-20 2020-12-16 Method and data processing device for processing genetic data
CN202080087497.9A CN114902343A (zh) 2019-12-20 2020-12-16 用于处理基因数据的方法和数据处理设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102019135380.7A DE102019135380A1 (de) 2019-12-20 2019-12-20 Verfahren und Datenverarbeitungsvorrichtung zur Bearbeitung von genetischen Daten

Publications (1)

Publication Number Publication Date
DE102019135380A1 true DE102019135380A1 (de) 2021-06-24

Family

ID=74187231

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019135380.7A Pending DE102019135380A1 (de) 2019-12-20 2019-12-20 Verfahren und Datenverarbeitungsvorrichtung zur Bearbeitung von genetischen Daten

Country Status (7)

Country Link
US (1) US20230021229A1 (de)
EP (1) EP4078595A1 (de)
JP (1) JP2023506271A (de)
KR (1) KR20220116536A (de)
CN (1) CN114902343A (de)
DE (1) DE102019135380A1 (de)
WO (1) WO2021122742A1 (de)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002816A1 (en) * 2002-02-27 2004-01-01 Aleksandar Milosavljevic Positional hashing method for performing DNA sequence similarity search
US20090270277A1 (en) * 2006-05-19 2009-10-29 The University Of Chicago Method for indexing nucleic acid sequences for computer based searching
US20160110500A1 (en) * 2011-05-13 2016-04-21 Indiana University Research And Technology Corporation Secure and scalable mapping of human sequencing reads on hybrid clouds
US20190333607A1 (en) * 2016-06-29 2019-10-31 Koninklijke Philips N.V. Disease-oriented genomic anonymization

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5787169A (en) * 1995-12-28 1998-07-28 International Business Machines Corp. Method and apparatus for controlling access to encrypted data files in a computer system
US20110125411A1 (en) * 2008-03-19 2011-05-26 Lawrence Livermore National Security, Llc Uniquemer Algorithm for Identification of Conserved and Unique Subsequences
US9449191B2 (en) * 2011-11-03 2016-09-20 Genformatic, Llc. Device, system and method for securing and comparing genomic data
US20190377851A1 (en) * 2018-06-07 2019-12-12 Microsoft Technology Licensing, Llc Efficient payload extraction from polynucleotide sequence reads

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002816A1 (en) * 2002-02-27 2004-01-01 Aleksandar Milosavljevic Positional hashing method for performing DNA sequence similarity search
US20090270277A1 (en) * 2006-05-19 2009-10-29 The University Of Chicago Method for indexing nucleic acid sequences for computer based searching
US20160110500A1 (en) * 2011-05-13 2016-04-21 Indiana University Research And Technology Corporation Secure and scalable mapping of human sequencing reads on hybrid clouds
US20190333607A1 (en) * 2016-06-29 2019-10-31 Koninklijke Philips N.V. Disease-oriented genomic anonymization

Also Published As

Publication number Publication date
EP4078595A1 (de) 2022-10-26
WO2021122742A1 (de) 2021-06-24
JP2023506271A (ja) 2023-02-15
CN114902343A (zh) 2022-08-12
KR20220116536A (ko) 2022-08-23
US20230021229A1 (en) 2023-01-19

Similar Documents

Publication Publication Date Title
Wirta et al. Complementary molecular information changes our perception of food web structure
Geschwind Mice, microarrays, and the genetic diversity of the brain
Salikhov et al. Using cascading Bloom filters to improve the memory usage for de Brujin graphs
US7957907B2 (en) Method for molecular genealogical research
US10713383B2 (en) Methods and systems for anonymizing genome segments and sequences and associated information
US20180012039A1 (en) Anonymization processing device, anonymization processing method, and program
Bryant et al. QSRA–a quality-value guided de novo short read assembler
EP2147388B1 (de) Computersystem und verfahren zur speicherung von daten
Malin Re-identification of familial database records
Shell et al. Sociality sculpts similar patterns of molecular evolution in two independently evolved lineages of eusocial bees
DE202022002899U1 (de) Metadaten-Klassifizierung
EP3563261B1 (de) Bitsequenzbasiertes datenklassifikationssystem
Zeng et al. OrthoCluster: a new tool for mining synteny blocks and applications in comparative genomics
DE102019113249A1 (de) Wertevergleichsserver, wertevergleichsverschlüsselungssystem und wertevergleichsverfahren
KR100314666B1 (ko) 게놈족보 및 가계 유전정보 제공 방법과 시스템
WO2018104275A1 (de) Server-computersystem zur bereitstellung von datensätzen
EP3552140B1 (de) Datenbankindex aus mehreren feldern
DE102019135380A1 (de) Verfahren und Datenverarbeitungsvorrichtung zur Bearbeitung von genetischen Daten
US20230124077A1 (en) Methods and systems for anonymizing genome segments and sequences and associated information
DE112013002565T5 (de) Minimierung von Informationsgehaltsdaten durch Anwendung einer Hierarchie von Referenzgenomen
Morse Article Commentary: Neuroinformatics: From Bioinformatics to Databasing the Brain
DE112020001314T5 (de) System und Verfahren für eine Datenkuration
Gramelsberger Big Data Revolution or Data Hubris? On the Data Positivism of Molecular Biology
DE102015002820A1 (de) Verfahren zur Speicherung genetischer Daten der personalisierten Medizin
CH712619B1 (de) Verfahren für einen bio-molekularen Retrieval-Engine.

Legal Events

Date Code Title Description
R012 Request for examination validly filed