CH712592A2

CH712592A2 - Bio-Molekulare Retrieval-Engine.

Info

Publication number: CH712592A2
Application number: CH00772/16A
Authority: CH
Inventors: Putrino Nunzio
Original assignee: Futureitcom Gmbh
Priority date: 2016-06-16
Filing date: 2016-06-16
Publication date: 2017-12-29
Also published as: CH712619B1; CH712619A2

Abstract

Vorgeschlagen wird ein bio-molekularer Retrieval-Engine zum Suchen, Selektieren und interaktiven Analysieren komplexer Strukturen in grossen, heterogenen Datensätzen mittels entsprechender Drill-down- und Roll-up-Operationen, sowie ein entsprechendes Verfahren. Die heterogenen Datensätze werden mittels des biomolekularen Retrieval-Engine nach bio-molekularen 3D-Strukturen und Verbindungen mit bestimmten Eigenschaften gefiltert. Beim Ladeprozess von Daten einer selektierten Datenbank und/oder Datenquelle in den bio-molekularen Retrieval-Engine werden die einzelnen Zeilen der Datenquellen mittels einer eineindeutigen Nomenklatur indexiert. Dieselbe Indexierung wird auf jede weitere selektierte und zu ladende Datenquelle angewendet, wobei die selektierten Datenquellen heterogene, verschiedenartige Datenbanken umfassen und die Indexierung als Primärschlüsssel verwendet wird. Mittels einer Resync-Operation werden die selektierten, heterogenen Datenquellen und der Retrieval-Engine asynchron gekoppelt. Der Inhalt der Daten der heterogenen Datenquellen wird parallel in eine Staging-Tabelle eines Data-Warehouses geladen, wobei zum Ladezeitpunkt jede Zeile eines jeweilig geladenen Daten-Files mit der eineindeutigen Nomenklatur des Primärschlüssels indexiert ist und jede Zeile eines Daten-Files mit dem Ladedatum und Ladezeitpunkt zugeordnet gespeichert ist und der Inhalt der gesamten Zeile des Daten-Files zum Ladezeitpunkt in die Tabellenzeile kopiert ist. Mittels des bio-molekularen Retrieval-Engines werden durch Benutzer auf die in der Stagingtabelle gespeicherten Daten Such-Operationen ausgeführt. Die Daten werden aus der Staging-Tabelle abfragespezifisch und dynamisch in dimensionale Modelle und/oder in Codd-Datenmodelle und/oder objektorientiert zu entsprechenden Objekten von Applikationen und/oder in evolutive Datenmodelle abgebildet. Schliesslich werden mittels eines intelligenten, interaktiven Front-End-Tools des bio-molekularen Retrieval-Engines die entsprechenden strukturellen End-to-end-Drill-down-Operationen und/oder Roll-up-Operationen generiert.

Description

Beschreibung Technisches Gebiet [0001] Die vorliegende Anmeldung betrifft das Auffinden und Vergleichen komplexer Strukturen in heterogenen Informationsverwaltungsstrategien, insbesondere ein System und Verfahren zur Bereitstellung von Lösungen für die Handhabung von räumlichen, biologischen Strukturen zugreifbar in heterogenen, relationalen und/oder skalierbarer Datensammlung,

Modulierung und Zugriff.

Stand der Technik [0002] Beim Abrufen, Verwalten, Vergleichen und dem automatischen Analysieren von Informationen in Zusammenhang mit komplexen Strukturen, insbesondere in Zusammenhang mit komplexen, räumlichen Strukturen wie räumliche, biologische Strukturen, zeigen sich in der Regel zahlreiche technische Probleme in Verbindung mit Datenintegration und -interprétation, insbesondere wenn die Daten aus mehreren heterogenen Quellen stammen. Zum Beispiel entstehen häufig Schwierigkeiten beim Versuch, grosse Datenmengen heterogener Datenbanken und Datenverwaltungsstrukturen z.B. zur Benutzervisualisierung auf komplexe Strukturen gemeinsam zu analysieren. Zusätzlich zeigen sich bei der Integration von komplexen Informationen von einer oder mehreren Quellen, die insbesondere so konfiguriert sein können, dass sie Echtzeitdaten mit anderen gewünschten Informationen bereitstellen, Probleme mit Zugänglichkeit, Bandbreite und Latenz, wodurch die Flexibilität, Skalierbarkeit und Zugreifbarkeit dieser Systeme als Ganzes oder beschränkt oder in Frage gestellt wird.

[0003] Von herkömmlichen Systemen, die mit der Überwachung und Steuerung verschiedener Betriebsparameter für die Abfrage komplexer Komponenten und Subkomponenten von gespeicherten Strukturen, insbesondere räumlichen Strukturen, assoziiert sind, kann gefordert werden, grosse Mengen an Daten in Echtzeit und/oder Nahezu-Echtzeit zu verarbeiten und/oder zu analysieren. Werden die Daten selbst in Echtzeit erfasst, werden sie auch als Punktdaten bezeichnet. Die Daten können aus unabhängigen, heterogenen Quellen stammen, wobei jede Quelle so konfiguriert ist, dass sie in spezifischen Strukturen bereits verarbeitete oder auch rohe oder native Informationen bereitstellt, wie zum Beispiel numerische Werte, die verschiedenen Mess-/Überwachungsvorrichtungsmesswerten zugeordnet sind. Alleine genommen liefern diese Daten möglicherweise keinen einheitlichen Kontext für ihre Interpretation und es müssen ihnen zusätzliche Informationen zugeordnet werden, um eine sinnvolle Verarbeitung und Analyse zu gestatten. Ausserdem kann es wünschenswert sein, die Daten dieser heterogenen Datenquellen zu erfassen, zu speichern und zu anderen Verarbeitungskomponenten zu verteilen, so dass diesen Daten komplexer Strukturen ein gewisses Mass an Kontext zugeschrieben werden muss.

[0004] Eine bei vielen herkömmlichen Systemen gefundene Beschränkung besteht darin, dass sie nur beschränkte Fähigkeiten für den Zugriff, die Interpretation und/oder Manipulation von auf der Erfassung komplexer räumlicher Strukturen basierenden Daten kollektiv oder in Verbindung mit anderen derartigen Daten bereitstellen. Diese Fähigkeiten betreffen insbesondere die Kategorie von mit den Daten assoziierten Kontextbereitstellungsinformationen, die in einer Hinsicht die Funktionalität und Bedeutung der Daten für komplexe Strukturen erweitern können. Zu Kontextbereitstellungsinformationen können zum Beispiel deskriptive und/oder Attributinformationen gehören, die die Daten charakterisieren, sowie andere Informationen, wie zum Beispiel Bereiche usw. Bei herkömmlichen Systemen ist die integrale und flexible Manipulation von auf der Erfassung von räumlichen komplexen Strukturen basierenden aufgrund der naturgemässen Unterschiede und Eigenschaften der Datenquellen eingeschränkt. So können aktuelle Lösungen im Bereich der Molekularbiologie insbesondere auch keine interaktiven, dynamischen Drill-Down und Roll-Up im Bereich von sehr grossen Datenmengen und komplexen Abfragen bieten.

[0005] Systeme, welche einen einheitlichen Zugriff auf gespeicherte, komplexe räumliche Strukturen erlauben, sind insbesondere bei der Entwicklung von neuen Medikamenten entscheidend, da dort nach aktiven Bindungsstellen gesucht werden muss. Herkömmliche Werkzeuge sind jedoch nur für statische Oberflächen geeignet. Notwendig sind Abfrage- und Retrieval-Engines gekoppelt mit interaktive, explorative Interfaces, um räumliche biologische Strukturen nach verschiedensten Kriterien zu finden und zu analysieren. Im Stand der Technik ist die Research Collaboratory for Structural Bioin-formatics (RCSB) Protein Data Bank (PDB) eine derartige Datenbank zur Erfassung komplexer, biologischer, makromolekularer, räumlicher Strukturen (vgl. www.rcsb.org/pdb/home/home.do), welche sämtliche aufgelöste, bekannte Strukturen als Text-Files sammelt, archiviert und zugreifbar bereitstellt. D.h. die pdb-Text-Files enthalten Informationen über die 3D-Struktur von grossen biologischen Molekülen, einschliesslich Proteinen und Nukleinsäuren. Dies sind die Moleküle, die in allen lebenden Organismen einschliesslich Bakterien, Hefen, Pflanzen, Insekten, oder anderen Tieren, insbesondere dem Menschen, gefunden werden. Basierend auf dem Verständnis der Struktur und Form dieser Moleküle, lässt sich ihre strukturelle Rolle bei der menschlichen Gesundheit und Krankheit herleiten, und zur Medikamentenentwicklung nutzen. Die Daten und gespeicherten Strukturen in der pdb-Datenbank reinen von winzigen Proteinen und Teilen von DNA (Desoxyribonukleinsäure) bis zu grossen, komplexen, räumlichen Strukturen wie Ribosomen als makromolekulare Komplexe aus Proteinen und Ribonukleinsäuren (RNA), die im Cytoplasma, in den Mitochondrien und in den Chloroplasten Vorkommen. Zugriff, Vergleich und Analyse dieser Strukturen sind deshalb in vielen Bereichen der Technik grundlegend, insbesondere in der Biomedizin und Agrotechnik und -Entwicklung von der Proteinsynthese bis zur Entwicklung von Medikamenten und Functional Food (funktionale Lebensmittel).

[0006] Die Daten-Textfiles, kurz pdb-Files oder pdb-Strukturen, sind jedoch für End-Benutzer von sehr kleinem Nutzen, wenn es um Data Mining (intelligente Datenanalyse) oder Data Analyse im erweiterten Sinn geht. Ebenfalls ist das Verbinden der Daten aus den pdb-Daten-Files mit anderen Datenbanken, wie z.B. den Swissprot-Datenfiles, insbesondere relationalen Datenbanken, schwierig bis unmöglich, um aus den komplexen Daten vergleichbare, räumliche Informationen zu extrahieren. Im Stand der Technik müssen für dieses Vorhaben Benutzer auf jedes File, unabhängig von der Datenquelle, endlose, langwierige, kostspielige, répétitive und zeifintensive Operationen ausführen und selber ein Aufzeichnungssystem entwickeln, um die jeweiligen Zwischenergebnisse festzuhalten. Selbst wenn eine mögliche pdb-Organisation Möglichkeiten anbietet, das Suchfeld nach gewissen Kriterien einzuschränken, bleibt dem Benutzer die File pro File Suche (mehr als 113 000 Textfiles und über 1,2 Milliarden Zeilen, Stand Mai 2016 und mehr als 530 000 Proteine aus Swissprot) nicht erspart. Dass damit (i) eine jegliche Anbindung an anderen heterogene Datenquellen, wie eben z.B. Swissprot, (ii) ein Vergleich der Daten im grossen Umfang oder hoher Komplexität, (iii) ein Ausführen von komplexen Queries auf die umfangreichen Datensätze, oder (iv) eine kontrollierte, homogene Anreicherung der Daten faktisch unmöglich ist, ist für den Fachmann bei dieser Ausganglage offensichtlich.

Technische Aufgabe [0007] Es ist Aufgabe der Erfindung, eine technische Lösung bereit zu stellen, die die oben diskutierten Nachteile nicht aufweist. Die Lösung soll dabei nicht nur unter Labortest funktionieren, sondern auch in der Praxis derartiger heterogener relationaler Datenbanken anwendbar sein, wie z.B. auf Oracle-Exadata entwickelten Systeme. (Oracle-Exadata bzw. die Oracle-Exadata-Database-Machine ist eine gegenseitig optimierte und gemeinsam entwickelte Software und Hardware, um hohe Performance und Verfügbarkeit bei der Ausführung von Oracle-Databases zu erreichen. Zur Oracle-Exadata-Architektur gehören horizontal skalierte Server, typischerweise gemäss dem üblichen Industriestandard, und intelligente Storage Server mit moderner Flash-Technologie und internen InfiniBand-Hochgeschwindigkeitsleitungen. Oracle-Exadata ermöglicht mittels elastischen Konfigurationen auf bestimmte Datenbank-Arbeitslasten zugeschnittene Systeme.) Die Lösung soll erlauben in einem sehr kurzen Zeitraum (real-time oder fast real-time), d.h. im Bereich von Sekunden bis wenigen Minuten, eine grosse Vielfalt von Hypothesen bei den gespeicherten räumlichen Strukturen zu überprüfen, und durch eine einfache Handhabung den Fokus auf das Wesentliche zu richten. Die Lösung soll zudem einfach übertragbar sein auf andere grosse verteilte Datenbestände, z.B. auf verteilte, günstige NoSQL-Datenbanken, sofern kein Anspruch auf absolute Sicherheit, absoluter Datenschutz oder Bewahren von Produktenschutz erhoben wird.

Zusammenfassung der Erfindung [0008] Gemäss der vorliegenden Erfindung werden die obgenannten Aufgaben insbesondere durch die Anspruchsmerkmale der unabhängigen Ansprüche erreicht. Weitere vorteilhafte Ausführungsformen können durch die abhängigen Ansprüche und die Beschreibung erhalten werden.

[0009] Gemäss der vorliegenden Erfindung werden die obgenannten Aufgaben für einen bio-molekularer Retrieval-Engine zum Suchen, Selektieren und interaktiven Analysieren komplexer Strukturen in grossen, heterogenen Datensätzen insbesondere dadurch gelöst, dass mittels der vorliegenden Erfindung die heterogenen Datensätze nach bio-molekulare, 3D-Strukturen und Verbindungen mit bestimmten Eigenschaften gefiltert werden, dass beim Ladeprozess Daten einer selektierten Datenbank und/oder Datenquelle die einzelnen Zeilen der Datenquellen mittels einer eineindeutigen Nomenklatur indexiert werden, wobei mindestens Ladedatum und Ladezeit automatisch vergeben werden, dass dieselbe Indexierung auf jede weitere selektierte und zu ladende Datenquelle angewendet wird, wobei die selektierten Datenquellen heterogene, verschiedenartige Datenbanken umfassen und die Indexierung als Primärschlüsssel verwendet wird, auf welchem der bio-molekularer Retrieval-Engine und dessen Operationen basieren, dass mittels eines automatisierten Resync-Moduls die selektierten, heterogenen Datenquellen und der Retrieval-Engine asynchron gekoppelt werden, wobei die Daten im Retrieval-Engine automatisch auf neue oder veränderte Daten der selektierten, heterogenen Datenquellen aktualisiert werden zur Gewährleistung der Konsistenz des Primärschlüssels und/oder des Ladedatums-, und der Ladezeit und/oder Daten-Inhalt Terminierung und/oder Versionierung und Historisierung der Daten über den gesamten Lebenszyklus der Daten für einen gesamten Retrieve-Prozess, dass der Inhalt der Daten der heterogenen Datenquellen parallel in eine Staging-Tabelle eines Data-Warehouses (DW) als für die Analysezwecke optimierte zentrale Datenbank mittels des biomolekularer Retrieval-Engines geladen wird, wobei zum Ladezeitpunkt jede Zeile eines jeweilig geladenen Daten-Files mit der eineindeutigen Nomenklatur des Primärschlüssel indexiert ist und jede Zeile eines Daten-Files mit dem Ladedatum-, und Ladezeitpunkt zugeordnet gespeichert ist und der Inhalt der gesamten Zeile des Daten-Files zum Ladezeitpunkt in die Tabellenzeile kopiert ist, dass mittels des bio-molekularer Retrieval-Engines durch Benutzer auf die in der Stagingtabelle gespeicherten Daten Such-Operationen ausgeführt werden, wobei für jeder Such-Operation relevante Daten neu gefiltert, sortiert und/oder angereichert und/oder neu kombiniert werden und die jeweiligen erhaltenen Subsets von Daten in weitere, dynamisch erstellte Tabellen gespeichert werden, dass die Daten aus der Staging-Tabelle abfragespezifisch und dynamisch in dimensionale Modelle und/oder in Codd-Datenmodelle und/oder objektorientiert zu entsprechenden Objekten von Applikationen und/oder in evolutive Datenmodelle abgebildet werden, dass Datamarts als Kopie eines Teildatenbestandes des Data-Warehouse (DW) innerhalb des Data-Warehouse als spezifische, individuelle Workspaces mit definierten, eigene Zugriffsrechte und Sicherheitsmassnahmen erstellt werden, und dass mittels eines intelligenten, interaktiven Front-End-Tools des bio-molekularer Retrieval-Engines die entsprechenden strukturellen end-to-end Drill-down-

Operationen und/oder Roll-up-Operationen generiert werden. Mittels eines intelligenten, interaktiven Front-End-Tool des bio-molekularer Retrieval-Engines der Benutzer können z.B. die entsprechenden strukturellen end-to-end Drill-down-Ope-rationen und/oder Roll-up-Operationen zur visuellen Navigation in den bio-molekularen, 3D-Strukturen benutzt werden, wobei die generierten Drill-down-Operationen und/oder Roll-up-Operationen dynamisch mittels des bio-molekularer Retrieval-Engines aktualisiert werden. Mittels des bio-molekularer Retrieval-Engine kann z.B. dem Benutzer die Güte des Resultates mittels Visualisierungsmittel der Daten zur eigenständigen Beurteilung visualisiert werden. Retrieval-Resultate des bio-molekularen Retrieval-Engine können z.B. in pdb-Format und/oder einem gängigen Kommunikationsformat für den Benutzer zugreifbar generiert werden. Die gängigen Kommunikationsformate können mindestens XML (Extensible Markup Language) des World Wide Web Consortium (W3C) und/oder Text und/oder pdf (Portable Document Format) der Adobe Systems und/oder HTML (Hypertext Markup Language) des World Wide Web Consortium (W3C) und der Web Hypertext Application Technology Working Group (WHATWG). XML, pdf und HTML sind Auszeichnungssprachen zur Darstellung hierarchisch strukturierter Daten in Form von Textdateien. XML, pdf und HTML sind vorliegend insbesondere geeignet für einen Plattform- und implementationsunabhängigen Austausch von Daten zwischen dem bio-molekularer Retrieval-Engine und anderen elektronischen Systemen, insbesondere über das Internet. Weiter können die Retrieval-Resultate mittels des bio-molekularen Retrieval-Engine für den Transfer von Maschine zu Maschine z.B. encrypted, insbesondere symmetrisch oder asymmetrisch verschlüsselt werden. Dabei können z.B. die interaktiven Retrieval-, Einfüge-, Selektions-, Roll-up- und/oder Drili-down-Prozesse basierend auf und/oder mittels Metadaten und Ontogien erfolgen, um heterogene SQL- und/oder NoSQL-Systeme irgendwelcher Art zu verbinden. Dadurch wird der Informationsaustausch ermöglicht, vereinfacht, beschleunigt und die Datenqualität gesichert. Die evolutiven Datenmodelle können z.B. Datenmodelle nach JSON (JavaScript Object Notation) umfassen. Allgemein können die heterogenen Datenquellen auch dokumentenorien-tierte Datenbanken umfassen, bei welchen Dokumente die Grundeinheit zur Speicherung der Daten bilden. Während relationale Datenbanken aus Datenbanktabellen bestehen, die einem festen Datenbankschema unterliegen, enthalten die dokumentenorientierten Datenbanken einzelne Dokumente. Diese Dokumente können strukturierte Dateien mit einem Standard-Dateiformat sein (wie eine Textverarbeitungsprogrammdatei), aber auch z.B. Binary Large Objects, die im Sinne eines Datenbankzugriffs nicht weiter strukturiert sind (z.B. mpeg-Dateien). Strukturierte Dateien mit einem frei festlegbaren Schema bestehen aus einer Reihe von Datenfeldern, die aus je einem Schlüssel-Wert-Paar bestehen können. Weitere mögliche Datenformate sind beispielsweise JSON-Objekte, YAML-Dokumente (YAML Ain’t Markup Language) oder XML-Dokumente (Extensible Markup Language). NoSQL-Datenbanken stellen, wie die dokumentenorientierte Datenbanken, ebenfalls Datenbanken dar, welche Daten in nicht-tabellarischer Form und ohne die Einschränkungen der relationalen Datenbank zu speichern vermögen. Schliesslich können die Daten oder die Datamarts z.B. entsprechend einer zugeordneten Sensitivität transparent end-to-end verschlüsselt werden. Mindestens eine der heterogenen Datenbanken könne z.B. als Oracle RDBMS 12c realisiert sein, wobei die Eigenschaften der Container Database (CDB) genutzt werden, indem jedem Benutzer eine eigene Pluggable Datenbank (PDBJ zugewiesen wird.

Kurze Beschreibung der Zeichnungen [0010] Die vorliegende Erfindung wird detaillierter erklärt durch die folgenden Beispiele mit Referenzierung zu den Zeichnungen, wobei:

Fig. 1 zeigt schematisch den Datenfluss am Beispiel der PDB-Daten illustriert von der Datenquelle (1, 2) bis zu spezifischen Data-Mart (3, 4, 5), und Verknüpfung RE mit 12 VA (6) und propagieren der Ergebnisse als Output (7) (vgl. Fig. 2).

Fig. 2 illustriert schematisch den bio-molekulare Retrieval-Engine, der mit der intelligenten, interaktiven Visualisierungs-Applikation und mit den Daten sowohl in SQL-Datenbanken als auch NoSQL-verteilten Datenbanken interagiert.

Fig. 3 zeigt beispielshaft in pdb-Files gespeicherte fehlerbehaftete Daten.

Fig. 4 zeigt beispielshaft eine parateli zugegriffene Staging-Tabelle eines Data-Warehouses (DW) als für die Ana lysezwecke optimierte zentrale Datenbank, wobei mittels des bio-molekularer Retrieval-Engines der Inhalt der Daten der heterogenen Datenquellen parallel in die Staging-Tabelle des Data-Warehouses (DW) geladen wird.

Detaillierte Beschreibung einer bevorzugten Ausführungsvariante [0011] Fig. 1 illustriert schematisch eine Architektur für eine mögliche Realisierung einer Ausführungsvariante des biomolekularer Retrieval-Engine zum Suchen, Selektieren und interaktiven Analysieren komplexer Strukturen in grossen, heterogenen Datensätzen mittels entsprechenden Drill-down und Roll-up-Operationen. Mittels des bio-molekularer Retrieval-Engine werden die heterogenen Datensätze und/oder Datenquellen und/oder Datenbanken nach bio-molekulare, 3D-Strukturen und Verbindungen mit bestimmten Eigenschaften gefiltert werden, wobei es sich bei dem bio-molekularer Retrieval-Engine um ein automatisiertes, real-time oder beinahe real-time System zum interaktiven Durchsuchen, Vergleichen und Zusammenfassen heterogener, verschiedenartiger Datenbanken handelt. Ein Benutzer kann dabei mittels eines einzigen standardisierten Anfragen-Tool und -Interface zugreifen. Die heterogenen, verteilten Datenbanksysteme können insbesondere nicht nur technische Unterschiede wie z.B. verschiedenartige Dateiformate und/oder Zugriffs Protokolle und/oder Anfragesprachen umfassen, sondern auch auf unterschiedlichen Datenmodellen beruhen, wie z.B. verschiedene Wege, die gleichen Daten zu speichern, z.B. die Encodierung der Spaltennamen. Dabei kann der bio-molekularer Retrie-val-Engine auch gleichzeitig ein gemeinsames Abfragesystem für objektorientierte und relationale Datenbanken sein, da sich auch derartige Unterschiede der Datensätze mit dem biomolekularer Retrieval-Engine verbinden lassen. Für das Dateiformat gilt, dass es die Syntax und Semantik von Daten innerhalb einer Datei definiert. Es stellt damit die bidirektionale Abbildung der zugreifbar gespeicherten Informationen auf einen eindimensionalen binären Speicher dar. Die Kenntnis des Dateiformats ist essentiell für die Interpretation der in einer Datei abgelegten Information. Üblicherweise müssen Dateien über das Dateiformat Anwendungen zugeordnet werden, die die Dateien dann interpretieren können. Protokolle in der Datenbanktechnologie sind Regeln, welche das Format, den Inhalt, die Bedeutung und/oder die Reihenfolge zugreifbarer Informationen zwischen verschiedenen technischen Einheiten festlegen. Schliesslich bildet die Abfragesprache oder Re-trievalsprache typischerweise die Datenbanksprache zur Suche nach Informationen. Das Ergebnis einer Abfrage (Query) bildet dabei meinst eine Teilmenge des zugrundeliegenden Informationsbestandes. Dies wird auch als Filtern von Daten bezeichnet. Man unterschiedet im Stand der Technik Abfragesprachen nach ihrer Mächtigkeit. Eine Abfragesprache ist mächtiger als andere Abfragesprache, wenn sie den Datenbestand schärfer trennt als die andere, d.h. wenn also die Menge der in ihr bildbaren Suchergebnismengen die Menge der in der anderen Abfragesprache bildbaren Suchergebnismengen umfasst. Eine Beispiel einer Abfragesprache ist für XML-Informationssysteme die XML-Abfragesprache XQuery. Die Datenbanksprache SQL beinhaltet bereits eine Abfragesprache für entsprechende Datenbanksysteme.

[0012] Der bio-molekularer Retrieval-Engine ermöglicht es damit einem Benutzer eine sehr grosse Datenmenge an biomolekularen oder anderen 3D-Strukturen zu durchsuchen und in Verbindungen mit vorgebbaren Eigenschaften zu finden. Dabei ist es auch möglich Ähnlichkeiten in den Strukturen in die Suche durch den biomolekularer Retrieval-Engine einzubeziehen. Als Ausführungsbeispiel kann der biomolekularer Retrieval-Engine z.B. auf der relationalen Oracle Datenbank Release 12c basieren. Der Retrieval-Engine wirkt z.B. bei der pdb-Datenquelle auf mehr als eine Milliarde Zeilen und auf über 520 000 im Swissprot-Datenfile aufgeführten Proteine. Die Indexierung des Bio-Molekularer Retrieval-Engine mittels der eineindeutigen Nomenklatur des Primärschlüssel erfolgt dabei z.B. beim Ladeprozess eines pdb-Datenfiles durch automatische Übersetzung des pdb-three-letter-codes der Aminosäuren aus der pdb-Datenbank in den one-letter-code der Aminosäuren der Swissprot-Datenbank und umgekehrt erfolgt, wobei der Inhalt der Daten der heterogenen Datenquellen automatisch parallel in eine Spalte der Staging-Tabelle des Data-Warehouses (DW) mittels des bio-molekularer Retrieval-Engines geladen wird. Das heisst, dass beim Ladeprozess der pdb-Datenfiles automatisch die Übersetzung des three-letter-codes der Aminosäuren aus der pdb-Datenbank in one-letter-code der Aminosäuren der Swissprot Datenbank und umgekehrt erfolgt und automatisch in eine Spalte der Staging-Tabelle des Data-Warehouses (DW) geladen wird. Die automatische Datenanalyse zwischen den pdb-, und Swissprot-Datenquellen ist mittels des Retrieval-Engine dadurch ermöglicht, dass beim Ladeprozess der pdb-Datenfiles ein Mechanismus automatisch alle drei-Zeichen-Code (three-letter-code) der Aminosäuren aus allen pdb-Files in ein-letter-Code (one-letter-code) übersetzt und das Ergebnis in eine dafür bestimmte Spalte persistiert. Mittels des Retrieval-Engine können beide Nomenklaturen (ein-, und drei-letter-Code der Aminosäuren) für jedes Protein aus der pdb-Datenfiles mit dem one-letter-code der Swissprot Datenfile vergleichen werden. Umgekehrt, ermöglicht der Retrieval-Engine den one-letter-code der Swissprot Proteine in die three-letter-code der pdb-Sprache automatisch zu assoziieren und zu übersetzen. Analog und insbesondere, falls Sicherheits-, Datenschutz-, und Aspekte des Produktenschutzes nicht zwingend oder regulatorisch zu berücksichtigen sind, lässt sich der bio-moleku-larer Retrieval-Engine auch auf NoSQL verteilte Systeme erweitern, anbinden und übertragen. Durch den bio-molekularer Retrieval-Engine könne in jedem Fall SQL-, und NoSQL-Datenbanken unter Berücksichtigung der Sicherheitsmassnahmen, direkt und/oder mittels Ontologien und Metadaten verbunden und systemübergreifend abgefragt werden (siehe Fig. 3). Es ist wichtig darauf hinzuweisen, dass NoSQL-Datenbanken nicht zwingend auf die Structured Query Language (SQL) verzichten. Zwar setzen manche NoSQL-Systeme komplett auf nicht-relationale Funktionen, andere dagegen verzichten nur auf bestimmte Elemente, beispielsweise auf feste Tabellenschemata. Anstatt Tabellen kann eine NoSQL-Datenbank Daten beispielsweise als Objekte, Wertpaare oder geordnete Listen und Reihen organisieren.

[0013] Eine der vielen Kernfunktionen des Retrieval-Engines hat die Aufgabe beim Ladeprozess der Daten in die Datenbank, die einzelnen Zeilen der Datenquellen, z.B. aus der aus pdb Datenquelle, eineindeutig zu indexieren, Ladedatum und Ladezeit automatisch zu vergeben (vgl. Prozessschritt 2 in Fig. 1). Diese Indexierungs- und Markierungsart gelten als Primärschlüsssel und sind für das gesamte Datenmodell, für alle retrieval Operationen des Retrieval-Engines fundamental. Sie werden durch den Retrieval-Engine eins-zu-eins für alle weiteren, heterogenen Datenquellen angewendet.

[0014] Die Bedienung des bio-molekularen Retrieval-Engine ist über ein einheitliches, intelligentes, interaktives Visualisierungstool und -interface (l2VA) realisiert, so dass für Benutzer, auch ohne weiterreichendes Wissen in SQL- oder PL/ SQL- oder Java-Programmierung, den Drill-down respektive Roll-up-Prozess stark vereinfacht wird, und gleichzeitig um Grössenordnungen beschleunigt ist. Benutzer können aufgrund der aktuellen Ergebnisse, selbständig die Güte des Resultates beurteilen und entscheiden. Die sehr stark verkürzte Entscheidungszeit ermöglicht einem Benutzer zudem iterativ verschiedene und mehrere Hypothesen auszuwerten, was bis anhin mit den Systemen des Standes der Technik technisch nicht möglich war. Das Front-End überträgt Parameter an die Datenbankmodelle, die für höchste Performance implementiert sind und dynamisch oder ad hoc dem Anwendungsfall entsprechend erstellt werden.

[0015] Die erweiterte Daten-Analyse auf pdb-, und Swissprot-Datenquelle ist, nebst anderen wichtigen Möglichkeiten durch den interaktiven, bio-molekularen Retrieval-Engine ebenfalls realisierbar. Insbesondere liefert der Retrieval-Engine auch auf die zwei konkreten real-world Fragen (i) «wo in der gesamten Menge aller pdb files und Swissprot-Proteine findet sich das DFG-Motif» und (iij «wo in der gesamten Menge aller pdb files kann das Zinc-Finger-Muster lokalisiert werden» verlässliche Antworten. Die Antwort auf die erste Frage betrifft Kinasen. Die zweite Antwort steht im Zusammenhang mit Myelin-bindende-Proteine. Die Retrieval-Engine ermöglicht es den Suchbereich beliebig einzugrenzen, z.B. Organismus, Auflösungsintervall eines Proteins, Berechnung der interatomaren Distanzen oder berücksichtigen des Distanz-Intervalls zwischen den relevanten Atomen u.v.n.m. Auch dies ist mit den Systemen des Standes der Technik so nicht möglich oder mindestens nicht in real-time oder nahezu real-time.

[0016] Der erfinderische Retrieval-Engine erlaubt es zudem, dass mit ihm die Datenqualität der in der relationalen Datenbank(en) gespeicherten Daten überprüft werden kann. Entsprechende Mechanismen erlauben es dem Benutzer u.a. aus dem gesamten Datenset der heterogenen Datanquellen von über einer Milliarde Zeilen innerhalb von wenigen Sekunden das original pdb-File mit mehr als 12 000 Zeilen in der korrekten, logischen und identischen Reihenfolge wie das originale pdb-File zu rekonstruieren. Damit ist es möglich einen Benutzer auf die Zeile und Spalte genau hinzuweisen, wo und welche Art von Fehler in den Daten vorkommt. Danach sind nur die korrigierten Zeilen des neuen pdb-Files in den RE (Retrieval-Engine) zu speichern. Die vorgängigen, fehlerhaften Zeilen können z.B. mit einem Zeitstempel versehen, terminiert, historisiert und/oder versioniert werden. Die korrigierten Zeilen erhalten die eineindeutige Indexierung, als Primärschlüssel, und den Zeitstempel ab dem Moment, ab dem die korrigierten Datenzeilen in die RE gespeichert werden.

[0017] Die Datenanalyse zwischen den pdb-, und Swissprot-Datenquellen ist beim Retrieval-Engine dadurch ermöglicht, dass beim Ladeprozess der pdb-Datenfiles ein Mechanismus automatisch alle drei-Zeichen-Code (three-letter-code) der Aminosäuren aus allen pdb-Files in ein-letter-Code (one-letter-code) übersetzt und das Ergebnis in eine dafür bestimmte Spalte persistiert. Benutzer können beide Nomenklaturen (ein-, und drei-letter-Code der Aminosäuren) mittels des Retrieval-Engine für jedes Protein aus der pdb-Datenfiles mit dem one-letter-code der Swissprot-Datenfile vergleichen. Umgekehrt, ein Mechanismus ermöglicht den one-letter-code der Swissprot-Proteine in die three-letter-code der pdb-Sprache zu übersetzen.

[0018] Die Retrieval-Engine ist z.B. sowohl für Einrechnersysteme mit älteren Datenbankversionen, wie z.B. der Oracle Version 11 gR1 geeignet, wobei der Kapazität des Rechners entsprechend reduzierte Datensätze verwendet werden können, als auch für modernere Datenbanksysteme, wie z.B. dem Engineered Systems von Oracle, Exadata quarter und füll rack mit Oracle RDBMS-Release 12c. Damit lassen sich problemlos grosse Datensätze wie die vollständigen Datensätzen der pdb-Datenfiles, welche über 113 500 pdb-Textfiles bei mehr als 1,2 Milliarden Zeilen (Stand Mai 2016) umfassen und gleichzeitig den ebenso vollständigen Swissprot-Datensatz verwenden. Alle Prozesse sind in der Retrieval-Engine automatisierbar und können insbesondere parallel ausführbar realisiert sein. Zusätzlich ist der Retrieval-Engine skalierbar, robust, sicher, von hoher Performance im Vergleich zu Stand der Technik Systemen und erweiterbar, um sehr spezifische Anfragen auf sehr umfangreichen Datensätze und komplexe Queries zu lösen. Ausserdem kann der Retrieval-Engine web-basiert realisiert sein, so dass er von verschiedensten End-Geräte oder Netzwerk-Nodes aus nutzbar und für einen grossen Nutzerkreis zugreifbar verwendbar ist. Retrieval-Engine und die interaktive Visualisierungsapplikation können einzeln oder gemeinsam durch eine entsprechenden Service Provider angeboten und von verschiedensten «Brow-ser-Based» Endgeräte genutzt werden.

[0019] Die Prozesseschritte 1-7 aus Fig. 1 umfassen, dass (1) ein automatisierten «resync» Mechanismus asynchron die verschiedensten, heterogenen Datenquellen koppelt, also nicht nur die pdb-Datenbank, wobei der Retrieval-Engine dynamisch auf den neuesten Daten-Stand aktualisiert wird. Der Nomenklatur des Primärschlüssels besteht aus <pdb-filename_keyword_linenumber>. Das Prinzip ist auf SQL oder nicht relationale NoSQL übertragbar, um aus Datensätze aus SQL- respektive NoSQL-Datenbanken eineindeutig, logisch identifizierbarem Inhalt der Originalquellen zu rekonstruieren; (2) mittels parallelen Prozesse der Inhalt der Daten aus Text-Files oder heterogene Datenquellen in eine Staging-Tabelle der SQL- oder NoSQL-Datenbank geladen wird. Zum Ladezeitpunkt ist jede Zeile des jeweilig geladenen Daten-Text-Files mit dem eineindeutig, in Prozessschritt 1 erklärten Nomenklatur des Primärschlüssels indexiert. Zusätzlich ist jede Zeile aus der pdb-, oder heterogenen Datenquelle mit dem Ladedatum-, und Ladezeitpunkt versehen. Der Inhalt der gesamten pdb-Zeile ist zum Ladezeitpunkt tel-quel in die Tabellenzeile kopiert. Dieses Verfahren ist auf jede andere heterogene Datenquelle analog anwendbar; (3) auf die, in der Stagingtabelle gespeicherten Daten (vgl. Fig. 1 und Fig. 3.) Benutzer Operationen dem Anwendungsfall entsprechend ausführen können, um von Fall zu Fall relevante Daten zu filtern, sortieren oder Daten anzureichern oder neu kombinieren und die jeweiligen erhaltenen Subsets von Daten in zusätzlichen, sogar ad hoc erstellten Tabellen und/oder Views zu speichern. Die Nomenklatur für die erstellten Tabellen und/oder Views folgt dem Muster <organism_keyword-pdb-file_T>, wobei das «keyword-pdb-file» ist das erste nach pdb-Regeln festgelegten Keyword und kennzeichnet jede Zeile im pdb-File; (4) Daten aus der Staging-Tabelle fallabhängig oder auch dynamisch und/oder ad hoc in Dimensional Models, Datenmodelle nach den Regeln von Codd oder objektorientiert Applikationen-Objekte oder in evolutive Datenmodelle, z.B. JSON, abgebildet werden; (5) Daten, Ergebnisse, weitere individuelle Sub-Retrieval-Engines und -Verfahren in den individuell gesicherten Workspaces, sog. datamart, gespeichert sind. Nur explizit erteilte Berechtigungen erlauben den Zugriff von Dritten auf andere Datamarts oder Teile von anderen, individuellen Workspaces. Die Datamarts innerhalb des Data-Warehouse sind spezifische, individuelle Workspaces mit eigen dafür definierten Zugriffsrechte und Sicherheitsmassnahmen. Im Fall von Oracle RDBMS 12c mit den Eigenschaften der Con

Claims

tainer database (CDB) ist es sinnvoll jedem End-Benutzer eine eigene pluggable datenbank (PDB) zuzuweisen. Mechanismen erlauben Track and Trace, Korrektur, Historisierung und Versionierung von «malformed» Datensätze (vgl. Fig. 3); (6) das intelligente, interaktive Front-End (vgl. Prozessschritt 6 in Fig. 1) es einem grossen Nutzerkreis erlaubt die gesamte Infrastruktur aus verschiedensten Endgeräten aus zu nutzen; (7) es die intelligente, interaktive Visualisierungsapplikation einem Benutzer es ermöglicht eigenständig die Güte der Resultate zu beurteilen. Resultate, Informationen oder Wissen gelangen schliesslich im Prozessschritt 7 im pdb-Format aber auch in allen gängigen Kommunikationsformate (XML, Text, pdf, HTML, verschlüsselt für den Transfer von Maschine zu Maschine,...) aus der Retrieval-Engine in die Aussenwelt. [0020] Anzumerken ist, dass der bio-molekularer Retrieval-Engine zum Suchen, Selektieren und interaktiven Analysieren komplexer Strukturen die beiden Prozess-Schritte 4 und 5 der bekannten Oracle-Prozesse (siehe docs.oracle.com/ cd/B19306_01/datamine.102/b14340/blast.htmj technisch vereinfacht und den Ladeprozess aus dem Swissprot-Datenfi-le in die relationale Datenbank beschleunigt. Damit sind die Schritte vier und fünf des Standes der Technik durch den bio-molekularer Retrieval-Engine obsolet. Konkret, im Schritt vier des von Oracle bekannten Ladeprozess geht es darum, dass «4. Create a control file named sprotctl with thè following Contents:», um im folgenden Schritt «5. Rnally, load the data: sqlldr userid=<user_name>/<passwd>control=sprot.ctl log=sprot.log direct=TRUE data=sprot40_formatted.txt» die Swissprot-Daten in die relationale Datenbanktabelle zu speichern. Der im Retrieval-Engine integriere Prozess, führt «malformed» Zeilen aus dem ursprünglichen Swissprot-Datenfile in einem separaten File auf. Nach Korrektur speichert der gleiche Mechanismus die korrigierten Daten in die Tabelle. Dieser Vorgang wird iteriert, bis alle «malformed» Swissprot-Datensätze in die Tabelle geschrieben werden. Patentansprüche

1. Bio-Molekularer Retrieval-Engine zum Suchen, Selektieren und interaktiven Analysieren komplexer Strukturen in grossen, heterogenen Datensätzen mittels entsprechenden Drill-down und Roll-up-Operationen, wobei die heterogenen Datensätze nach bio-molekulare, 3D-Sfrukturen und Verbindungen mit bestimmten Eigenschaften gefiltert werden, dadurch gekennzeichnet, dass beim Ladeprozess von Daten einer selektierten Datenbank und/oder Datenquelle in den bio-molekularer Retrieval-Engine die einzelnen Zeilen der Datenquellen mittels einer eineindeutigen Nomenklatur indexiert werden, wobei mindestens Ladedatum und Ladezeit automatisch vergeben werden, dass dieselbe Indexierung auf jede weitere selektierte und zu ladende Datenquelle angewendet wird, wobei die selektierten Datenquellen heterogene, verschiedenartige Datenbanken umfassen und die Indexierung als Primärschlüss-sel verwendet wird, auf welchem der bio-molekularer Retrieval-Engine und dessen Operationen basieren, dass mittels eines automatisierten Resync-Moduls die selektierten, heterogenen Datenquellen und der Retrieval-Engine asynchron gekoppelt werden, wobei die Daten im Retrieval-Engine automatisch auf neue oder veränderte Daten der selektierten, heterogenen Datenquellen aktualisiert werden zur Gewährleistung der Konsistenz des Primärschlüssels und/oder des Ladedatums-, und der Ladezeit und/oder Daten-Inhalt Terminierung und/oder Versionierung und Historisierung der Daten über den gesamten Lebenszyklus der Daten für einen gesamten Retrieve-Prozess, dass der Inhalt der Daten der heterogenen Datenquellen parallel in eine Staging-Tabelle eines Data-Warehouses (DW) als für die Analysezwecke optimierte zentrale Datenbank mittels des bio-molekularer Retrieval-Engines geladen wird, wobei zum Ladezeitpunkt jede Zeile eines jeweilig geladenen Daten-Files mit der eineindeutigen Nomenklatur des Primärschlüssel indexiert ist und jede Zeile eines Daten-Files mit dem Ladedatum-, und Ladezeitpunkt zugeordnet gespeichert ist und der Inhalt der gesamten Zeile des Daten-Files zum Ladezeitpunkt in die Tabellenzeile kopiert ist, dass mittels des bio-molekularer Retrieval-Engines durch Benutzer auf die in der Stagingtabelle gespeicherten Daten Such-Operationen ausgeführt werden, wobei für jede Such-Operation relevante Daten neu gefiltert, sortiert und/oder angereichert und/oder neu kombiniert werden und die jeweiligen erhaltenen Subsets von Daten in weitere, dynamisch erstellte Tabellen gespeichert werden, dass die Daten aus der Staging-Tabelle abfragespezifisch und dynamisch in dimensionale Modelle und/oder in Codd-Datenmodelle und/oder objektorientiert zu entsprechenden Objekten von Applikationen und/oder in evolutive Datenmodelle abgebildet werden, dass Datamarts als Kopie eines Teildatenbestandes des Data-Warehouse (DW) innerhalb des Data-Warehouse als spezifische, individuelle Workspaces mit definierten, eigene Zugriffsrechte und Sicherheitsmassnahmen erstellt werden, und dass mittels eines intelligenten, interaktiven Front-End-Tool des biomolekularer Retrieval-Engines die entsprechenden strukturellen end-to-end Drill-down-Operationen und/oder Roll-up-Operationen generiert werden.
2. Bio-Molekularer Retrieval-Engine zum Suchen, Selektieren und interaktiven Analysieren komplexer Strukturen in grossen, heterogenen Datensätzen nach Anspruch 1, dadurch gekennzeichnet, dass mittels des bio-molekularer Retrieval-Engine einem Benutzer die Güte des Resultates mittels Visualisierungsmittel der Daten zur eigenständigen Beurteilung visualisiert werden.
3. Bio-Molekularer Retrieval-Engine zum Suchen, Selektieren und interaktiven Analysieren komplexer Strukturen in grossen, heterogenen Datensätzen nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass Retrieval-Resul-tate des biomolekularen Retrieval-Engine in pdb-Format und/oder einem gängigen Kommunikationsformat für den Benutzer zugreifbar generiert werden.
4. Bio-Molekularer Retrieval-Engine zum Suchen, Selektieren und interaktiven Analysieren komplexer Strukturen in grossen, heterogenen Datensätzen nach Anspruch 3, dadurch gekennzeichnet, dass die gängigen Kommunikationsformate mindestens XML (Extensible Markup Language) und/oder Text und/oder pdf (Portable Document Format) und/ oder HTML (Hypertext Markup Language) umfassen.
5. Bio-Molekularer Retrieval-Engine zum Suchen, Selektieren und interaktiven Analysieren komplexer Strukturen in grossen, heterogenen Datensätzen nach einem der Ansprüche 3 oder 4, dadurch gekennzeichnet, dass die Retrieval-Re-sultate mittels des bio-molekularen Retrieval-Engine für den Transfer von Maschine zu Maschine encryptet sind.
6. Bio-Molekularer Retrieval-Engine zum Suchen, Selektieren und interaktiven Analysieren komplexer Strukturen in grossen, heterogenen Datensätzen nach Anspruch 5, dadurch gekennzeichnet, dass die Retrieval-Resultate mittels des bio-molekularen Retrieval-Engine für den Transfer von Maschine zu Maschine encryptet sind, und die interaktiven Retrieval-, Einfüge-, Selektions-, Roll-up- und/oder Drill-down-Prozesse basierend auf und/oder mittels Metadaten und Ontogien erfolgen, wobei heterogene SQL- und/oder NoSQL-Systeme irgendwelcher Art verbindbar sind und wobei der Informationsaustausch ermöglicht und/oder vereinfacht und/oder beschleunigt und/oder die Datenqualität gesichert wird.
7. Bio-Molekularer Retrieval-Engine zum Suchen, Selektieren und interaktiven Analysieren komplexer Strukturen in grossen, heterogenen Datensätzen nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass die evolutiven Datenmodelle Datenmodelle nach JSON (JavaScript Object Notation) umfassen.
8. Bio-Molekularer Retrieval-Engine zum Suchen, Selektieren und interaktiven Analysieren komplexer Strukturen in grossen, heterogenen Datensätzen nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Daten oder die Datamarts entsprechend einer zugeordneten Sensitivität transparent end-to-end verschlüsselt werden.
9. Bio-Molekularer Retrieval-Engine zum Suchen, Selektieren und interaktiven Analysieren komplexer Strukturen in grossen, heterogenen Datensätzen nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass mindestens eine der heterogenen Datenbanken als Oracle RDBMS 12c realisiert ist, wobei die Eigenschaften der Container Database (CDB) genutzt werden, indem jedem Benutzer eine eigene Pluggable Datenbank (PDBJ zugewiesen wird.
10. Bio-Molekularer Retrieval-Engine zum Suchen, Selektieren und interaktiven Analysieren komplexer Strukturen in grossen, heterogenen Datensätzen nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass mittels eines intelligenten, interaktiven Front-End-Tool des bio-molekularer Retrieval-Engines der Benutzer die entsprechenden strukturellen end-to-end Drill-down-Operationen und/oder Roll-up-Operationen zur visuellen Navigation in den bio-molekularen, 3D-Strukturen benutzt, wobei die generierten Drill-down-Operationen und/oder Roll-up-Operationen dynamisch mittels des bio-molekularer Retrieval-Engines aktualisiert werden.
11. Bio-Molekularer Retrieval-Engine zum Suchen, Selektieren und interaktiven Analysieren komplexer Strukturen in grossen, heterogenen Datensätzen nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass die Indexierung mittels der eineindeutigen Nomenklatur des Primärschlüssel beim Ladeprozess eines pdb-Datenfiles durch automatische Übersetzung des pdb-three-letter-codes der Aminosäuren aus der pdb-Datenbank in den one-letter-code der Aminosäuren der Swissprot-Datenbank und umgekehrt erfolgt, wobei der Inhalt der Daten der heterogenen Datenquellen automatisch parallel in eine Spalte der Staging-Tabelle des Data-Warehouses (DW) mittels des bio-molekularer Retrieval-Engines geladen wird.