DE102005029437B4 - Method and apparatus for computer-aided finding of similar molecules - Google Patents

Method and apparatus for computer-aided finding of similar molecules Download PDF

Info

Publication number
DE102005029437B4
DE102005029437B4 DE102005029437A DE102005029437A DE102005029437B4 DE 102005029437 B4 DE102005029437 B4 DE 102005029437B4 DE 102005029437 A DE102005029437 A DE 102005029437A DE 102005029437 A DE102005029437 A DE 102005029437A DE 102005029437 B4 DE102005029437 B4 DE 102005029437B4
Authority
DE
Germany
Prior art keywords
comparison
molecule
overlay
components
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE102005029437A
Other languages
German (de)
Other versions
DE102005029437A1 (en
Inventor
Martin Thimm
Stefan Dr. Hougardy
Valentin Ziegler
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hougardy Stefan 53115 Bonn De
Thimm Martin 81543 Muenchen De
Ziegler Valentin 10315 Berlin De
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE102005029437A priority Critical patent/DE102005029437B4/en
Priority to PCT/EP2006/006102 priority patent/WO2006136453A2/en
Publication of DE102005029437A1 publication Critical patent/DE102005029437A1/en
Application granted granted Critical
Publication of DE102005029437B4 publication Critical patent/DE102005029437B4/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data

Landscapes

  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)

Abstract

Iteratives Verfahren zum computergestützten Auffinden eines oder mehrerer Moleküle mit Ähnlichkeiten zu einem oder mehreren Referenzmolekülen, die mehrere Komponenten aufweisen,
auf der Grundlage von Informationen zu einer oder mehreren Referenzstrukturen, welche jeweils eine Struktur eines Referenzmoleküls darstellen, wobei die besagten Informationen die Lage von Komponenten in dem Referenzmolekül gemäß dieser Referenzstruktur angeben, und von Informationen zu mehreren Vergleichsstrukturen, welche jeweils eine Struktur eines Vergleichsmoleküls darstellen, wobei die besagten Informationen jeweils die Lage von Komponenten in dem Vergleichsmolekül in dieser Vergleichsstruktur angeben,
bei dem in einer Iteration ein Teil eines Referenzmoleküls und ein Teil eines Vergleichsmoleküls verglichen werden, die jeweils einen Teil des Referenzmoleküls bzw. des Vergleichsmoleküls enthalten, die in einer früheren Iteration verglichen worden sind,
wobei mindestens eine Iteration des Verfahrens umfaßt:
Auswahl einer ersten Referenzmenge von Komponenten eines Referenzmoleküls, welche einen Teil der Komponenten des Referenzmoleküls enthält, wobei die Anzahl der Komponenten in der ersten...
Iterative method for computer-assisted finding of one or more molecules with similarities to one or more reference molecules that have multiple components,
based on information on one or more reference structures, each representing a structure of a reference molecule, said information indicating the location of components in the reference molecule according to this reference structure, and information on a plurality of comparison structures, each representing a structure of a comparison molecule, wherein said information respectively indicates the position of components in the comparison molecule in this comparison structure,
in which, in an iteration, a part of a reference molecule and a part of a comparison molecule are compared, each containing a part of the reference molecule or of the comparison molecule which has been compared in an earlier iteration,
wherein at least one iteration of the method comprises:
Selection of a first reference amount of components of a reference molecule containing part of the components of the reference molecule, the number of components in the first ...

Figure 00000001
Figure 00000001

Description

Die Erfindung betrifft ein computergestütztes iteratives Verfahren zum Auffinden von chemischen Molekülen mit Ähnlichkeiten zu einem oder mehreren Referenzmolekülen, das auf der Grundlage von strukturellen Daten, die in einer Datenbank vorgegeben sind oder von einem Benutzer eingegeben werden können, strukturelle Vergleiche anstellt und das oder diejenigen Vergleichsmoleküle bestimmt, welche chemisch, insbesondere stereochemisch gesehen die größten Übereinstimmungen mit dem Referenzmolekül aufweisen. Dies kann ein Molekül sein, welches insgesamt oder auch nur auf einem Teilbereich dem Referenzmolekül ähnlich ist. Letzteres kann insbesondere der Fall sein, wenn das Vergleichsmolekül größer als das Referenzmolekül ist und das Referenzmolekül in seiner Gesamtheit einem Teil des Vergleichsmoleküls ähnlich ist oder sogar identisch als Teilstruktur in dem Vergleichsmolekül enthalten ist. Das Ergebnis einer solchen Suche kann aber auch ein Vergleichsmolekül sein, welches auf einem Teilbereich eine Ähnlichkeit zu einem Teilbereich des Referenzmoleküls hat, ebenso wie das Vergleichsmolekül auch kleiner als das Referenzmolekül und in seiner Gesamtheit einem Teil des Referenzmoleküls ähnlich oder identisch mit diesem Teil sein kann. Derartige Vergleiche sind insbesondere in der pharmazeutischen Chemie und der Biochemie von großer Bedeutung.The invention relates to a computerized iterative method for finding chemical molecules having similarities to one or more reference molecules, making structural comparisons based on structural data given in a database or input by a user, and the one or more comparison molecules determines which chemically, in particular stereochemically, have the greatest correspondences with the reference molecule. This may be a molecule which is similar to the reference molecule overall or only on a partial area. The latter may in particular be the case if the comparison molecule is larger than the reference molecule and the reference molecule in its entirety is similar to a part of the comparison molecule or even identical as a partial structure in the comparison molecule. However, the result of such a search can also be a comparison molecule, which has a similarity to a partial region of the reference molecule on a partial region, just as the comparison molecule may also be smaller than the reference molecule and in its entirety may be similar or identical to a part of the reference molecule , Such comparisons are of great importance especially in pharmaceutical chemistry and biochemistry.

In der Regel ist vorab nicht bekannt, wie diejenigen Abschnitte der Moleküle beschaffen sind, in denen eine Ähnlichkeit gegeben ist. In den meisten Fällen ist dies auch für den Chemiker a priori nicht übersehbar. Computergestützte Verfahren gehen, wie auch die vorliegende Erfindung, davon aus, daß man alle möglichen Teilkonfigurationen des Referenzmoleküls mit allen möglichen entsprechenden Teilkonfigurationen aller Vergleichsmoleküle vergleichen muß, um sicher zu sein, daß man tatsächlich das optimale Ergebnis findet. Diese Aufgabe wird dadurch erschwert, daß zu einem Molekül mit einer bestimmten Konstitution, d. h. einer unverwechselbare, für die Verbindung charakteristischen Anordnung der Atome (ohne Berücksichtigung von räumlichen Richtungen), gegebenenfalls mehrere Konfigurationen existieren und auch zu einer bestimmten Konfiguration immer noch mehrere mögliche Strukturen bestehen, die sich durch Rotation um einfache Bindungen ergeben. Die verschiedenen möglichen Strukturen eines Moleküls mit definierter Konstitution und Konfiguration werden als Konformere bezeichnet.In general, it is not known in advance how those sections of the molecules in which there is a similarity are obtained. In most cases, this is not for the chemist a priori not overlooked. Computer-based methods, like the present invention, assume that one must compare all possible sub-configurations of the reference molecule with all possible corresponding sub-configurations of all the comparison molecules to be sure that in fact the optimal result will be found. This problem is compounded by the fact that a molecule with a particular constitution, i. H. a unique, characteristic of the connection characteristic arrangement of the atoms (without consideration of spatial directions), possibly several configurations exist and even for a given configuration still exist several possible structures that result by rotation about simple bonds. The various possible structures of a molecule with a defined constitution and configuration are called conformers.

Für den computergestützten Vergleich gibt man in der Regel eine endliche Anzahl von Konformeren zu dem Referenzmolekül bzw. den Vergleichsmolekülen an. Insgesamt ist die Anzahl der Vergleiche, die man durchführen muß, so groß, daß eine vollständige Evaluierung aller möglichen Fälle praktisch nicht möglich ist. Vergleicht man beispielsweise organische Moleküle mit dreißig Nicht-Wasserstoffatomen und betrachtet man nur, was bereits eine Näherung ist, Teilstrukturen innerhalb eines Moleküls, die über Bindungen zusammenhängen, liegt die Anzahl der Vergleiche, die man für eine vollständige Evaluierung aller Möglichkeiten durchführen müßte, in der Größenordnung von 1015. Dies würde mit heutigen Geräten eine Rechenzeit von mehreren tausend Jahren erfordern. Für größere Moleküle wäre eine vollständige Evaluierung aller Möglichkeiten schlichtweg nicht möglich.For the computer-assisted comparison, a finite number of conformers are usually added to the reference molecule or the comparison molecules. Overall, the number of comparisons to be made is so great that a full evaluation of all possible cases is virtually impossible. For example, if we compare organic molecules with thirty non-hydrogen atoms and consider only what is already an approximation, substructures within a molecule that are related by bonds, the number of comparisons that would have to be made for a full evaluation of all possibilities is Order of magnitude of 10 15 . This would require a computing time of several thousand years with today's devices. For larger molecules, a full evaluation of all possibilities would simply not be possible.

In der Mathematik bzw. Informatik sind Verfahren zum Lösen von kombinatorischen Optimierungsproblemen bekannt, bei denen die Anzahl der möglichen Lösungen so groß ist, daß die Berechnung aller möglichen Lösungen und die Auswahl der optimalen Lösungen aus den berechneten Lösungen nicht möglich ist. Hierzu zählt unter anderem auch das sogenannte Branch and Bound-Verfahren. Hierbei strukturiert man die möglichen Lösungen hierarchisch, wobei Lösungen der tieferen Hierarchieebenen die ihnen übergeordneten Lösungen der höheren Hierarchieebenen als Teillösung enthalten, wobei jede dieser Teillösungen auch bereits eine Gesamtlösung des gestellten Optimierungsproblems sein kann. Diese Hierarchie wird dabei zunächst entlang einem Zweig von oben nach unten, d. h. in jedem Schritt fortschreitend zu der jeweils tieferen Hierarchiestufe, abgearbeitet, wobei in jeder Iteration ein Qualitätsmaß, auch Score genannt, bestimmt wird, welches ein Maß für die Güte oder Qualität der bislang aufgefundenen (Teil)lösung ist. Auf jeder Hierarchiestufe wird überprüft, ob die bereits aufgefundene Teillösung durch Fortschreiten zu einer (beliebigen) tieferen Hierarchiestufe so verbessert werden kann, daß sie ein besseres Qualitätsmaß als die bislang aufgefundene (Teil)lösung mit dem besten Wert des Qualitätsmaßes liefert. Ist dies nicht der Fall, brauchen die tieferen Hierarchieebenen nicht mehr untersucht werden, da die beste bereits aufgefundene Lösung bereits eine bessere Lösung ist als alle Lösungen, die durch Einbeziehen der tieferen Hierarchieebenen gewonnen werden können. Auf diese Weise kann in einem einzigen Schritt eine sehr große Anzahl von möglichen Lösungen ausgeschlossen werden, ohne diese Lösungen explizit bestimmen zu müssen.In mathematics or computer science methods for solving combinatorial optimization problems are known in which the number of possible solutions is so great that the calculation of all possible solutions and the selection of the optimal solutions from the calculated solutions is not possible. These include, among other things, the so-called branch and bound process. In this case, the possible solutions are structured hierarchically, with solutions of the lower hierarchical levels containing the higher-level solutions of the higher hierarchy levels as a partial solution, whereby each of these partial solutions can already be a total solution to the problem of optimization posed. This hierarchy is initially along a branch from top to bottom, d. H. processed in each step progressively to the respective lower hierarchical level, wherein in each iteration a quality measure, also called score, is determined, which is a measure of the quality or quality of the (partial) solution found so far. At each level of the hierarchy, it is checked whether the already found partial solution can be improved by advancing to a (arbitrary) lower hierarchical level so that it provides a better quality measure than the (partial) solution found so far with the best value of the quality measure. If this is not the case, the deeper levels of hierarchy no longer need to be examined, since the best solution already found is already a better solution than any solutions that can be obtained by incorporating the deeper levels of hierarchy. In this way, a very large number of possible solutions can be excluded in a single step without having to explicitly determine these solutions.

Stellt man nun fest, daß ein Fortschreiten zu tieferen Hierarchieebenen keine Lösung mit einem besseren Wert des Qualitätsmaßes liefern kann, evaluiert man typischerweise die Alternativen auf der gleichen Hierarchieebene, die derselben übergeordneten Teillösung zugeordnet sind. Hat man diese Alternativen abgearbeitet, wobei wiederum idealerweise ein großer Teil der Lösung mittels einer Abschätzung, ob das Qualitätsmaß über die bereits bekannte beste Lösung hinaus verbessert werden kann, ausgeschieden wird, geht man eine Hierarchiestufe höher und untersucht die alternativen Lösungen auf dieser Hierarchieebene, die einer gemeinsamen übergeordneten Lösung zugeordnet sind, und so weiter, bis der ganze Hierarchiebaum abgearbeitet ist.If one now realizes that a progression to deeper hierarchical levels can not provide a solution with a better value of the quality measure, one typically evaluates the alternatives on the same hierarchy level that are assigned to the same parent partial solution. Have you worked through these alternatives, which in turn, ideally, a large part of the solution by means of an estimate of whether the Quality measure beyond the already known best solution can be improved, is eliminated, one goes up a hierarchical level and examines the alternative solutions at this hierarchy level, which are assigned to a common parent solution, and so on, until the whole hierarchy tree is processed.

Dieses Branch und Bound-Verfahren eignet sich sehr gut für die Übertragung auf chemische Sachverhalte. Will man zwei chemische Strukturen vergleichen, geht man zweckmäßigerweise so vor, daß man versucht, zunächst nur wenige Atome oder, allgemeiner gesprochen, Komponenten des Referenzmoleküls und des Vergleichsmoleküls zur Deckung zu bringen und, wenn dies hinreichend gut gelungen ist, zu versuchen, weitere Atome zur Deckung zu bringen. Dieses an der chemischen Struktur orientierte Vorgehen kann man dadurch auf die Methodik des Branch and Bound-Verfahrens übertragen, daß man die Hierarchieebenen so definiert, daß jede Hierarchieebene einer bestimmten Anzahl von Atomen oder Komponenten entspricht, die möglichst gut miteinander zur Deckung gebracht werden.This branch and bound method is very suitable for chemical transfer. If one wishes to compare two chemical structures, it is expedient to proceed by first bringing together only a few atoms or, more generally, components of the reference molecule and of the comparison molecule and, if this is sufficiently successful, trying to find further atoms to bring to cover. This chemical structure-oriented approach can then be applied to the methodology of the branch and bound method by defining the levels of hierarchy so that each hierarchy level corresponds to a certain number of atoms or components that are aligned as well as possible.

Das Branch and Bound-Verfahren ist teilweise auch bereits auf biologische und chemische Problemstellungen angewandt worden. Beispielsweise wird es in R. H. Latrop u. a., „A multiqueue branch-and-bound algorithm for anytime optimal search with biological applications”, Genome Informatics 12 (2001), 73–82 für die Voraussage der Struktur eines Proteins und von Konformationen kleiner Moleküle verwendet. Ein abstrakter Branch and Bound-Algorithmus ohne konkreten Bezug zu einer chemischen oder biologischen Problemstellung ist beispielsweise in Ari Frank u. a., „A distance-based branch and bound feature selection algorithm”, in Uncertainty in Artificial Intelligence: Proceedings of the Nineteenth Conference (UAI-2003), Morgan Kaufmann Publishers, San Francisco, CA, 2003 beschrieben.The branch and bound method has been partially applied to biological and chemical problems. For example, it is in R. H. Latrop u. a., "A multiqueue branch-and-bound algorithm for anytime optimal search with biological applications", Genome Informatics 12 (2001), 73-82 for the prediction of the structure of a protein and of small molecule conformations. An abstract branch and bound algorithm without any concrete reference to a chemical or biological problem is, for example, in Ari Frank et al. a, "A distance-based branch and bound feature selection algorithm", described in Uncertainty in Artificial Intelligence: Proceedings of the nineteenth conference (UAI-2003), Morgan Kaufmann Publishers, San Francisco, CA, 2003.

M. Thimm u. a., ”Comparison of 2D Similarity and 3D Superposition. Application to searching a conformational drug database”, J. Chem. Inf. Comput. Sci. 44 (2004), 1816, beschreibt verschiedene heuristische Verfahren, um einen Vergleich der dreidimensionalen Struktur von zwei Molekülen durchzuführen.M. Thimm u. a., Comparison of 2D Similarity and 3D Superposition. Application to searching a conformational drug database, J. Chem. Inf. Comput. Sci. 44 (2004), 1816 describes various heuristic methods to make a comparison of the three-dimensional structure of two molecules.

Gemäß einem ersten Verfahren werden zunächst die Massenschwerpunkte der beiden zu vergleichenden Moleküle übereinandergelegt und die Hauptträgheitsachsen der beiden Moleküle werden miteinander ausgerichtet. Dabei gibt es vier mögliche Normalisierungen, für die jeweils Paare von einander entsprechenden Atomen identifiziert werden. Dabei bilden zwei Atome ein Paar, wenn sie jeweils die einander nächstliegenden Atome sind und ihr Abstand kleiner als ein gegebener Schwellenwert ist. Die Normalisierung mit der größten Anzahl von Paaren wird ausgewählt und für eine weitere Verbesserung der geometrischen Ausrichtung der beiden Moleküle verwendet. Die optimale Überlagerung der beiden Moleküle wird abgeschätzt, und es werden aufs Neue zueinander gehörige Paare bestimmt, bis die Zuordnung der Atome zueinander sich nicht ändert.According to a first method, the centers of mass of the two molecules to be compared are first superimposed on one another and the principal axes of inertia of the two molecules are aligned with one another. There are four possible normalizations for which pairs of corresponding atoms are identified. In this case, two atoms form a pair if they are each the nearest atoms and their distance is smaller than a given threshold. Normalization with the largest number of pairs is selected and used to further improve the geometric alignment of the two molecules. The optimal superimposition of the two molecules is estimated, and new pairs belonging to each other are determined until the assignment of the atoms to each other does not change.

In einem zweiten heuristischen Verfahren wird durch die Zusammenfassung von Atomen zu Pseudoatomen die Struktur der Moleküle so lange vereinfacht, bis die optimale Überlagerung der hieraus resultierenden Strukturen exakt berechnet werden kann. Auf der Grundlage der sich hieraus ergebenden Zuordnung der Pseudoatome wird eine näherungsweise Zuordnung der Atome der beiden exakten Strukturen bestimmt. Ausgehend hiervon wird die optimale Zuordnung von s Atomen in den tatsächlichen Molekülen bestimmt, die gemäß dieser näherungsweisen Zuordnung den kleinsten Abstand zu ihren nächsten Nachbarn haben. Die Zuordnung dieser s Atome des ersten Moleküls zu Atomen des zweiten Moleküls wird sodann für die weiteren Iterationen fixiert und das Verfahren wird für diejenigen Atome, deren Position noch nicht festgelegt worden ist, iteriert.In a second heuristic method, the combination of atoms into pseudo-atoms simplifies the structure of the molecules until the optimal superposition of the resulting structures can be calculated exactly. On the basis of the resulting assignment of the pseudo atoms, an approximate assignment of the atoms of the two exact structures is determined. On the basis of this, the optimal assignment of s atoms in the actual molecules is determined which according to this approximate assignment have the smallest distance to their nearest neighbors. The assignment of these s atoms of the first molecule to atoms of the second molecule is then fixed for the further iterations and the process is iterated for those atoms whose position has not yet been determined.

Bei diesem Verfahren werden jeweils nur zwei Molekülstrukturen miteinander verglichen. Das optimale Ergebnis eines Vergleichs von Teilstrukturen in einer Iteration wird dabei für die folgenden Iterationen fixiert, d. h. es werden in nachfolgenden Iterationen nur solche Zuordnungen von Atomen betrachtet, bei denen die s Atome des ersten Moleküls Atomen in dem zweiten Molekül entsprechend dem in dieser Iteration aufgefundenen optimalen Ergebnis zugeordnet sind. Dies bedeutet eine Approximation, bei der möglicherweise relevante Zuordnungen von Atomen, die zu einem besseren Qualitätsmaß führen können, verworfen werden. Zudem stößt dieses Verfahren schnell an seine Grenzen, wenn ein größeres Ensemble von Molekülen zu vergleichen ist, die jeweils noch mehrere Konformere aufweisen.In this method, only two molecular structures are compared with each other. The optimal result of a comparison of substructures in an iteration is fixed for the following iterations, i. E. H. in subsequent iterations, only such assignments of atoms are considered in which the s atoms of the first molecule are assigned to atoms in the second molecule corresponding to the optimal result found in this iteration. This means an approximation in which potentially relevant assignments of atoms, which can lead to a better quality measure, are discarded. In addition, this process quickly reaches its limits when a larger ensemble of molecules is to be compared, each of which has more conformers.

Bislang gibt es allerdings noch kein wirklich zufriedenstellendes Verfahren zum Vergleich von Molekülen unter Einbeziehung von Konformerstrukturen, bei dem sich die Zahl der potentiell möglichen Lösungen in einer Größenordnung von 1030 bis 10100 bewegen kann.So far, however, there is still no truly satisfactory method for comparing molecules involving conformer structures, in which the number of potentially possible solutions in the order of 10 30 to 10 100 can move.

Es ist die Aufgabe der vorliegenden Erfindung, ein solches Verfahren und ein zugehöriges Computersystem bzw. ein entsprechendes Computerprogramm zur Verfügung zu stellen, welche eine optimale Lösung liefern können. It is the object of the present invention to provide such a method and an associated computer system or a corresponding computer program which can provide an optimal solution.

Erfindungsgemäß wird diese Aufgabe gelöst durch ein iteratives Verfahren zum computergestützten Auffinden eines oder mehrerer Moleküle mit Ähnlichkeiten, insbesondere strukturellen Ähnlichkeiten, zu einem oder mehreren Referenzmolekülen, die mehrere Komponenten aufweisen,
auf der Grundlage von Informationen zu einer oder mehreren Referenzstrukturen, welche jeweils eine Struktur eines Referenzmoleküls darstellen, wobei die besagten Informationen die Lage von Komponenten in dem Referenzmolekül gemäß dieser Referenzstruktur, insbesondere in einem dreidimensionalen Raum, angeben, und von Informationen zu mehreren Vergleichsstrukturen, welche jeweils eine Struktur eines Vergleichsmoleküls darstellen, wobei die besagten Informationen jeweils die Lage von Komponenten in dem Vergleichsmolekül in dieser Vergleichsstruktur, insbesondere einem dreidimensionalen Raum, angeben,
bei dem in einer Iteration ein Teil eines Referenzmoleküls und ein Teil eines Vergleichsmoleküls verglichen werden, die jeweils einen Teil des Referenzmoleküls bzw. des Vergleichsmoleküls enthalten, die in einer früheren Iteration verglichen worden sind,
wobei mindestens eine Iteration des Verfahrens umfaßt:
Auswahl einer ersten Referenzmenge von Komponenten eines Referenzmoleküls, welche einen Teil der Komponenten des Referenzmoleküls enthält, wobei die Anzahl der Komponenten in der ersten Referenzmenge kleiner als die Gesamtzahl der zu vergleichenden Komponenten in dem Referenzmolekül ist,
Auswahl einer ersten Vergleichsmenge von Komponenten eines Vergleichsmoleküls, welche die gleiche Anzahl von Komponenten wie die erste Referenzmenge besitzt und im Regelfall ebenfalls nur einen Teil der Komponenten des Vergleichsmoleküls enthält,
Bestimmen einer ersten Überlagerungszuordnung für eine erste Referenzstruktur, die dem besagten Referenzmolekül zugeordnet ist, und eine erste Vergleichsstruktur, welche dem besagten Vergleichsmolekül zugeordnet ist, wobei die erste Überlagerungszuordnung jeder Komponente der ersten Referenzmenge umkehrbar eindeutig genau eine Komponente der ersten Vergleichsmenge zuweist,
wobei für mindestens eine weitere, sekundäre Referenzstruktur, welche zumindest eine Teilstruktur aufweist, die zu der ersten Referenzstruktur in einer vorgegebenen Kompatibilitätsbeziehung steht, in welcher jede Komponente der ersten Referenzmenge umkehrbar eindeutig genau einer Komponente der besagten Teilstruktur entspricht,
und/oder für mindestens eine weitere, sekundäre Vergleichsstruktur, welche eine Teilstruktur aufweist, die zu der ersten Vergleichsstruktur in einer vorgegebenen Kompatibilitätsbeziehung steht, in welcher jede Komponente der ersten Vergleichsmenge umkehrbar eindeutig genau einer Komponente der besagten Teilstruktur entspricht, bestimmt wird:
eine Überlagerungszuordnung für die sekundäre Referenzstruktur und die primäre Vergleichsstruktur, welche für jede Komponente der ersten Referenzmenge die entsprechende Komponente der sekundären Referenzstruktur gemäß der Ähnlichkeitsbeziehung für die sekundäre Referenzstruktur derjenigen Komponente der ersten Vergleichsstruktur zuweist, welches die erste Überlagerungszuordnung der besagten Komponente der ersten Referenzmenge zuweist, und/oder
eine Überlagerungszuordnung für die erste Referenzstruktur und die sekundäre Vergleichsstruktur, welche jeder Komponente der ersten Referenzmenge umkehrbar eindeutig genau die Komponente zuweist, welche aufgrund der Kompatibilitätsbeziehung der sekundären Vergleichsstruktur derjenigen Komponente der ersten Vergleichsmenge entspricht, welche die erste Überlagerungszuordnung der betreffenden Komponente der ersten Referenzmenge zuweist,
und/oder
eine Überlagerungszuordnung für die sekundäre Referenzstruktur und die sekundäre Vergleichsstruktur, welche für jede Komponente der ersten Referenzmenge die entsprechende Komponente der sekundären Referenzstruktur derjenigen Komponente der sekundären Vergleichsstruktur zuweist, welche der Komponente der ersten Vergleichsstruktur entspricht, welche die erste Überlagerungszuordnung der besagten Komponente der ersten Referenzmenge zuweist,
wobei für jede dieser Überlagerungszuordnungen für eine Referenzstruktur mit einer Vergleichsstruktur ein Qualitätsmaß oder eine Abschätzung eines Qualitätsmaßes für die Ähnlichkeit der beiden Strukturen bestimmt wird,
und für ein oder mehrere Referenzmoleküle der Wert des Qualitätsmaßes einer Überlagerungszuordnung einer Struktur dieses Referenzmoleküls mit einer Struktur eines Vergleichsmoleküls, zusammen mit der zugehörigen Überlagerungszuordnung, als der geltende optimale Wert des Qualitätsmaßes oder als einer der geltenden optimalen Werte des Qualitätsmaßes gespeichert wird, falls ein Qualitätskriterium für den oder die geltenden optimalen Werte des Qualitätsmaßes erfüllt ist.
According to the invention, this object is achieved by an iterative method for computer-assisted finding of one or more molecules with similarities, in particular structural similarities, to one or more reference molecules which have a plurality of components,
based on information on one or more reference structures, each representing a structure of a reference molecule, said information indicating the location of components in the reference molecule according to this reference structure, in particular in a three-dimensional space, and information on a plurality of comparison structures each represent a structure of a comparison molecule, wherein said information in each case indicate the position of components in the comparison molecule in this comparison structure, in particular a three-dimensional space,
in which, in an iteration, a part of a reference molecule and a part of a comparison molecule are compared, each containing a part of the reference molecule or of the comparison molecule which has been compared in an earlier iteration,
wherein at least one iteration of the method comprises:
Selecting a first reference amount of components of a reference molecule containing a portion of the components of the reference molecule, wherein the number of components in the first reference set is less than the total number of components to be compared in the reference molecule,
Selecting a first comparison quantity of components of a comparison molecule which has the same number of components as the first reference quantity and, as a rule, also contains only a part of the components of the comparison molecule,
Determining a first overlay mapping for a first reference structure associated with said reference molecule, and a first comparison structure associated with said comparison molecule, wherein the first overlay map of each component uniquely assigns exactly one component of the first comparison set to the first reference set reversibly;
wherein for at least one further, secondary reference structure having at least one substructure that is in a predetermined compatibility relationship with the first reference structure in which each component of the first reference set is reversibly uniquely exactly corresponding to a component of said substructure,
and / or for at least one further secondary comparison structure, which has a partial structure which is in a predetermined compatibility relationship with the first comparison structure, in which each component of the first comparison set is reversibly and uniquely exactly corresponding to a component of said partial structure, is determined:
an overlay mapping for the secondary reference structure and the primary comparison structure assigning, for each component of the first reference set, the corresponding component of the secondary reference structure according to the similarity relationship for the secondary reference structure to that component of the first comparison structure that assigns the first overlay mapping of said component to the first reference set; and or
an overlay allocation for the first reference structure and the secondary comparison structure which reversibly assigns to each component of the first reference quantity exactly the component which, due to the compatibility relationship of the secondary comparison structure, corresponds to that component of the first comparison set which the first allocation assignment of the relevant component assigns to the first reference quantity,
and or
an overlay mapping for the secondary reference structure and the secondary comparison structure, which assigns, for each component of the first reference set, the corresponding component of the secondary reference structure to that component of the secondary compare structure corresponding to the component of the first compare structure that assigns the first overlay map to said first reference set component .
wherein a quality measure or an estimate of a quality measure for the similarity of the two structures is determined for each of these overlay assignments for a reference structure with a comparison structure,
and for one or more reference molecules, the value of the quality measure of an overlay allocation of a structure of this reference molecule having a structure of a comparison molecule, together with the associated overlay allocation, is stored as the applicable optimal value of the quality measure or as one of the applicable optimal values of the quality measure, if a quality criterion is satisfied for the applicable optimal quality measure (s).

Vorzugsweise ist die Zahl der geltenden optimalen Werte des Qualitätsmaßes, die gespeichert werden, auf N begrenzt, wobei N eine natürliche Zahl größer oder gleich 1 ist. Der Wert N kann insbesondere eins sein. In diesem Fall kann zum Beispiel für ein Referenzmolekül jeweils immer nur der jeweils beste Wert des Qualitätsmaßes gespeichert werden. Preferably, the number of applicable optimal values of the quality measure that are stored is limited to N, where N is a natural number greater than or equal to one. In particular, the value N can be one. In this case, for example, only the best value of the quality measure can always be stored for a reference molecule.

Gemäß einer Ausführungsform der Erfindung kann das Qualitätskriterium eine oder mehrere der folgenden Bedingungen beinhalten:

  • (a) es ist noch kein geltender optimaler Wert des Qualitätsmaßes gespeichert worden,
  • (b) das Qualitätsmaß der besagten Überlagerungszuordnung ist besser als der schlechteste der geltenden optimalen Werte des Qualitätsmaßes,
  • (c) der Wert des Qualitätsmaßes der besagten Überlagerungszuordnung ist besser als ein vorgegebener Schwellenwert des Qualitätsmaßes.
According to one embodiment of the invention, the quality criterion may include one or more of the following conditions:
  • (a) no valid optimal value of the quality measure has yet been stored,
  • (b) the quality measure of said overlay allocation is better than the worst of the applicable optimal values of the quality measure,
  • (c) the value of the quality measure of said overlay allocation is better than a predetermined threshold of quality measure.

Das Qualitätskriterium kann dabei außer den Bedingungen (a), (b) und/oder (c) noch weitere Bedingungen beinhalten. Beispielsweise kann als Bedingung für eine Speicherung vorgesehen sein, daß die Zahl der geltenden optimalen Werte des Qualitätsmaßes, die bislang für dieses Referenzmolekül gespeichert wurden, kleiner als N ist, wobei N eine vorgegebene natürliche Zahl größer oder gleich 1 ist und die maximale Anzahl der geltenden optimalen Werte des Qualitätsmaßes angibt, die gespeichert werden. Dies stellt eine Erweiterung von (a) dar.In addition to the conditions (a), (b) and / or (c), the quality criterion may contain further conditions. For example, as a condition for storage, it may be provided that the number of valid optimal quality measure values previously stored for this reference molecule is less than N, where N is a predetermined natural number greater than or equal to 1 and the maximum number of valid ones indicates optimal values of the quality measure that are stored. This is an extension of (a).

Wird nur ein optimaler Wert gespeichert (N = 1), bedeutet die Bedingung (b), daß der Wert des Qualitätsmaßes nur dann gespeichert wird, wenn er besser ist als der geltende optimale Wert des Qualitätsmaßes. Ist N > 1, können maximal N – 1 der geltenden optimalen Werte des Qualitätsmaßes, die für dieses Referenzmolekül gespeichert wurden, besser als das Qualitätsmaß der besagten Überlagerungszuordnung sein, wenn die Zahl der geltenden optimalen Werte auf N begrenzt ist. Die Bedingung (a) kann insbesondere dann erfüllt sein, wenn für dieses Referenzmolekül noch kein Qualitätsmaß für eine andere Überlagerungszuordnung berechnet wurde.If only an optimal value is stored (N = 1), condition (b) means that the value of the quality measure is stored only if it is better than the applicable optimal value of the quality measure. If N> 1, a maximum of N-1 of the applicable optimal values of the quality measure stored for this reference molecule may be better than the quality measure of said overlay allocation if the number of valid optimal values is limited to N. The condition (a) can be fulfilled in particular if no quality measure for another reference assignment has yet been calculated for this reference molecule.

Mit der Bedingung (c) kann eine Mindestqualität der Überlagerungszuordnung vorgegeben werden. Dies ist insbesondere sinnvoll, wenn eine Verbesserung gegenüber bereits bekannten ähnlichen Molekülen oder Strukturen erreicht werden soll oder wenn, z. B. aufgrund von stereochemischen Kriterien oder aufgrund von empirischen Daten, feststeht oder vorgegeben wird, daß Vergleichsmoleküle oder Vergleichsstrukturen, die ein bestimmtes Mindestmaß an Ähnlichkeit nicht aufweisen, kein sinnvolles Ergebnis bilden.With the condition (c), a minimum quality of the overlay allocation can be specified. This is particularly useful if an improvement over previously known similar molecules or structures to be achieved or if, for. B. based on stereochemical criteria or on the basis of empirical data, is fixed or given that comparative molecules or comparison structures that do not have a certain minimum of similarity, do not make any meaningful result.

Werden die Bedingungen (b) und (c) kombiniert, wird der Wert nur dann als einer der geltenden optimalen Werte gespeichert, wenn er besser als der Schwellenwert ist. Werden (a) und (c) kombiniert und wird der Wert nur gespeichert, wenn er besser als der Schwellenwert ist. Es kann daher kein geltender optimaler Wert des Qualitätsmaßes gespeichert sein, obwohl in dem Verfahren schon mehrere Werte des Qualitätsmaßes bestimmt wurden. Wird dagegen die Bedingung (b) ohne die Bedingung (c) verwendet, werden die besten geltenden Werte, vorzugsweise die N besten geltenden Werte (N ≥ 1) gespeichert, ohne daß es darauf ankommt, wo dieser Wert bzw. diese N Werte auf einer absoluten Skala liegen.If conditions (b) and (c) are combined, the value is stored as one of the prevailing optimal values only if it is better than the threshold. If (a) and (c) are combined, the value is stored only if it is better than the threshold. Therefore, no valid optimal value of the quality measure can be stored, although several values of the quality measure have already been determined in the method. If, on the other hand, condition (b) is used without condition (c), the best valid values, preferably the N best-valid values (N ≥ 1) are stored, regardless of where this value or N values lie on one absolute scale.

Ist N = 1, läßt sich die Kombination der Kriterien (a), (b) und (c) dadurch implementieren, daß der Wert der Variablen, welche den geltenden optimalen Wert des Qualitätsmaßes angibt, zu Beginn des Verfahrens auf den besagten Schwellenwert gesetzt wird.If N = 1, the combination of criteria (a), (b) and (c) can be implemented by setting the value of the variable indicating the applicable optimal value of the quality measure to said threshold at the beginning of the procedure ,

Die Verwendung der Bedingung (c) allein kann z. B. sinnvoll sein, wenn als Schwellenwert ein sehr guter Wert des Qualitätsmaßes vorgegeben wird und man grundsätzlich an allen Lösungen interessiert ist, die diesen Wert verbessern. In der Regel wird man allerdings auch in diesem Fall meistens die Zahl der Lösungen mit einem hinreichend großen N begrenzen, um den für die gespeicherten Lösungen verwendeten Speicherplatz zu begrenzen.The use of condition (c) alone may, for. B. be useful if a very good value of the quality measure is given as a threshold and you are basically interested in all solutions that improve this value. In general, however, in this case as well, the number of solutions with a sufficiently large N will usually be limited in order to limit the storage space used for the stored solutions.

Das Qualitätskriterium kann, muß aber nicht in allen Iterationen des Verfahrens dasselbe sein. Beispielsweise kann vorgesehen sein, daß der vorangehend unter (c) genannte Schwellenwert im Laufe des Verfahrens geändert wird, wobei die Art und Weise, wie sich dieser Schwellenwert ändert, vorab festgelegt sein kann.The quality criterion may or may not be the same in all iterations of the method. For example, it may be provided that the threshold value mentioned above under (c) is changed in the course of the method, wherein the manner in which this threshold value changes may be predetermined.

Gemäß einer Ausführungsform der Erfindung werden ein Referenzmolekül und mehrere Vergleichsmoleküle vorgegeben, wobei zu dem Referenzmolekül und den Vergleichsmolekülen jeweils mehrere Strukturen als Referenzstrukturen bzw. Vergleichsstrukturen vorgegeben sein können.According to one embodiment of the invention, a reference molecule and a plurality of comparison molecules are predetermined, wherein in each case a plurality of structures as reference structures or comparison structures can be predetermined for the reference molecule and the comparison molecules.

Das erfindungsgemäße Verfahren kann insbesondere beinhalten, daß für alle Paare aus einer Referenzstruktur (erste Referenzstruktur, sekundäre Referenzstrukturen) und einer Vergleichsstruktur (erste Vergleichsstruktur, sekundäre Vergleichsstrukturen) eine Überlagerungszuordnung bestimmt wird, ggf. mit der Einschränkung, daß nur solche Paare bzw. Überlagerungszuordnungen berücksichtigt werden, welche nicht bereits vorab ausgeschlossen wurden, z. B. weil festgestellt wurde, daß für diese Überlagerungszuordnung und zugehörige erweiterte Überlagerungszuordnungen, welche für das gleiche Paar von Referenzstruktur und Vergleichsstruktur denselben Komponenten der Referenzstruktur dieselben Komponenten der Vergleichsstruktur zuordnen, das Qualitätskriterium nicht erfüllt werden kann. Gemäß einer Ausführungsform der Erfindung werden in der Iteration alle sekundären Vergleichsstrukturen, welche in der vorgegebenen Kompatibilitätsbeziehung zu der ersten Vergleichsstruktur stehen, und/oder alle sekundären Referenzstrukturen in der Iteration herangezogen, welche in der besagten Kompatibilitätsbeziehung zu der ersten Referenzstruktur stehen, mit der Maßgabe, daß die entsprechenden Überlagerungszuordnungen nicht bereits vorab ausgeschlossen wurden. In particular, the method according to the invention may include determining an overlay assignment for all pairs of a reference structure (first reference structure, secondary reference structures) and a comparison structure (first comparison structure, secondary comparison structures), possibly with the restriction that only such pairs or overlay allocations are taken into account which have not been ruled out in advance, e.g. B. because it was determined that for this overlay assignment and associated extended overlay assignments, which for the same pair of reference structure and comparison structure the same components of the reference structure assign the same components of the comparison structure, the quality criterion can not be met. According to one embodiment of the invention, in the iteration all secondary comparison structures which are in the predetermined compatibility relationship with the first comparison structure and / or all secondary reference structures in the iteration which are in said compatibility relationship with the first reference structure are used, with the proviso that that the corresponding overlay assignments were not excluded in advance.

Eine Komponente, aus der sich ein Referenzmolekül zusammensetzt, kann ein Atom oder eine zusammenhängende Gruppe von Atomen sein, die durch chemische Bindungen miteinander verbunden sind, beispielsweise eine lineare Teilkette oder eine Teilstruktur in einem organischen Molekül. Es kann sinnvoll sein, statt einzelnen Atomen Atomgruppen zu betrachten, zum Beispiel wenn sich alle betrachteten Moleküle in den Teilen, in denen sie verglichen werden, in solche Atomgruppen zerlegen lassen und es auf strukturelle Einzelheiten solcher Atomgruppen für den Vergleich nicht ankommt.A component constituting a reference molecule may be an atom or a contiguous group of atoms linked by chemical bonds, for example, a linear sub-chain or a sub-structure in an organic molecule. It may make sense to consider atomic groups instead of individual atoms, for example, if all the molecules under consideration in the parts in which they are compared can be decomposed into such atomic groups and structural details of such atomic groups are not relevant for the comparison.

Die besagten Komponenten müssen nicht das vollständige Molekül bilden, sondern geben im Regelfall nur die für die Ähnlichkeit relevanten Teile des Moleküls wieder. Beispielsweise kann vorgesehen sein, daß man bei dem Vergleich von organischen Verbindungen Wasserstoffatome nicht berücksichtigt. Gemäß den bevorzugten Ausführungsformen bestehen die für den Vergleich signifikanten Teile des Moleküls aus den besagten Komponenten. Es kann auch vorgesehen sein, daß die zu vergleichende Moleküle vollständig oder im wesentlichen vollständig aus den besagten Komponenten bestehen.The said components do not have to form the complete molecule but as a rule only give the parts of the molecule which are relevant for the similarity. For example, it can be provided that hydrogen atoms are not taken into account in the comparison of organic compounds. According to the preferred embodiments, the parts of the molecule which are significant for the comparison consist of the said components. It can also be provided that the molecules to be compared consist completely or essentially completely of the said components.

Die Erfindung kann vorsehen, daß zu einem Referenzmolekül und/oder einem Vergleichsmolekül Informationen zu mehreren möglichen Strukturen des Referenzmoleküls bzw. des Vergleichsmoleküls, insbesondere mehreren vollständigen Strukturen, gespeichert sind. Die Erfindung kann allerdings auch vorsehen, daß zu einem, mehreren oder allen Referenzmolekülen Informationen zu nur einer Struktur bereitgestellt werden und/oder zu einem, mehreren oder allen Vergleichsmolekülen Informationen zu nur einer Struktur bereitgestellt werden.The invention can provide that information about a plurality of possible structures of the reference molecule or of the comparison molecule, in particular a plurality of complete structures, is stored for a reference molecule and / or a comparison molecule. However, the invention can also provide that information about only one structure is provided for one, several or all reference molecules and / or information about only one structure is provided for one, several or all comparison molecules.

In den besagten Informationen zu den Referenzstrukturen bzw. Vergleichsstrukturen kann die Lage aller Komponenten des Referenzmoleküls bzw. des Vergleichsmoleküls, aber auch gegebenenfalls nur die Lage bestimmter Komponenten enthalten sein. Dies richtet sich im wesentlichen danach, welche Information für den Vergleich zweier Moleküle wichtig ist.The position of all components of the reference molecule or of the comparison molecule, but also, if appropriate, only the position of specific components, can be contained in said information about the reference structures or comparison structures. This essentially depends on which information is important for the comparison of two molecules.

Die sekundäre Referenzstruktur kann demselben, aber auch einem anderen Referenzmolekül wie die erste Referenzstruktur zugeordnet sein, ebenso, wie die sekundäre Vergleichsstruktur einem anderen oder demselben Vergleichsmolekül wie die erste Vergleichsstruktur zugeordnet sein kann. Gemäß bevorzugten Ausführungsformen ist die sekundäre Referenzstruktur demselben Referenzmolekül wie die erste Referenzstruktur und/oder die sekundäre Vergleichsstruktur demselben Vergleichsmolekül wie die erste Vergleichsstruktur zugeordnet.The secondary reference structure may be assigned to the same, but also to a different reference molecule as the first reference structure, just as the secondary comparison structure may be assigned to a different or the same comparison molecule as the first comparison structure. According to preferred embodiments, the secondary reference structure is assigned to the same reference molecule as the first reference structure and / or the secondary comparison structure to the same comparison molecule as the first comparison structure.

Eine Iteration in dem vorangehend genannten Sinne muß sich nicht notwendigerweise identisch wiederholen, sondern ist als Teilprozeß zu verstehen, der in ähnlicher, aber nicht notwendigerweise identischer Weise wiederkehrt. Typischerweise wird in einer Iteration zumindest eine Überlagerungszuordnung einer Referenzstruktur mit einer Vergleichsstruktur gebildet und hierzu entweder ein Qualitätsmaß bestimmt oder abgeschätzt wird, um feststellen zu können, ob das Qualitätsmaß dieser Überlagerungszuordnung überhaupt das Qualitätskriterium für die geltenden optimalen Werte des Qualitätsmaßes erfüllen kann, z. B. ob das Qualitätsmaß besser als die N besten bisherigen Werte des Qualitätsmaßes bzw. der beste bisherige Wert des Qualitätsmaßes sein kann.An iteration in the sense mentioned above does not necessarily have to repeat identically, but is to be understood as a partial process which returns in a similar but not necessarily identical way. Typically, at least one overlay allocation of a reference structure with a comparison structure is formed in an iteration and either a quality measure is determined or estimated in order to determine whether the quality measure of this overlay allocation can even meet the quality criterion for the applicable optimal values of the quality measure, e.g. For example, if the quality measure can be better than the N best previous values of the quality measure or the best previous value of the quality measure.

Eine Überlagerungszuordnung in dem vorangehend genannten Sinne ist so zu verstehen, daß man jeder Komponente aus einer ausgewählten Gruppe von Komponenten des Referenzmoleküls (erste Referenzmenge) jeweils genau eine Komponente aus einer gleichgroßen Gruppe von Komponenten des Vergleichsmoleküls (erste Vergleichsmenge) zuordnet. Stereochemisch gesehen bedeutet dies, wenn man Moleküle ähnlicher dreidimensionaler Strukturen zu Referenzmolekülen sucht, daß man festlegt, welche Komponenten, beispielsweise Atome, des Referenzmoleküls möglichst gut mit Komponenten des Vergleichsmoleküls zur Deckung gebracht werden sollen. Mathematisch würde man diesen chemischen Sachverhalt als umkehrbar eindeutige (bijektive) Abbildung der ersten Referenzmenge auf die erste Vergleichsmenge beschreiben.An overlay assignment in the above sense is to be understood as assigning each component of a selected group of components of the reference molecule (first reference set) each exactly one component from an equal group of components of the comparison molecule (first comparison set). Stereochemically, this means, when looking for molecules of similar three-dimensional structures to reference molecules, that one determines which components, For example, atoms of the reference molecule should be brought as well as possible with components of the Vergleichsmoleküls. Mathematically, this chemical situation would be described as a reversibly unique (bijective) mapping of the first reference quantity to the first comparison quantity.

Erfindungsgemäß wird nun in einer Iteration nicht nur, wie nach dem Stand der Technik, jeweils eine Referenzstruktur mit einer Vergleichsstruktur verglichen. Vielmehr wurde erfindungsgemäß erkannt, daß man eine erhebliche Zeitersparnis erreichen kann, wenn man ähnliche oder teilweise ähnliche Strukturen in der gleichen Iteration vergleicht. Was in diesem Sinne ähnlich ist, bestimmt sich im wesentlichen durch chemische bzw. stereochemische Kriterien, die in dem computergestützten Prozeß durch die Kompatibilitätsbeziehung implementiert werden.According to the invention, in an iteration not only, as in the prior art, a reference structure is compared with a comparison structure. Rather, it has been recognized in the present invention that one can achieve significant time savings by comparing similar or partially similar structures in the same iteration. What is similar in this sense is essentially determined by chemical or stereochemical criteria that are implemented in the computerized process through the compatibility relationship.

Die Erfindung kann vorsehen, daß die Kompatibilitätsbeziehung zwischen der primären Referenzstruktur und der sekundären Referenzstruktur darin besteht, daß die besagte Teilstruktur der sekundären Referenzstruktur die gleiche Konstitution oder Konfiguration aufweist wie die durch die erste Referenzmenge definierte Teilstruktur der ersten Referenzstruktur
und/oder
daß die Kompatibilitätsbeziehung zwischen der ersten Vergleichsstruktur und der sekundären Vergleichsstruktur darin besteht, daß die Teilstruktur der sekundären Vergleichsstruktur die gleiche Konstitution oder Konfiguration aufweist wie die durch die erste Vergleichsmenge definierte Teilstruktur der ersten Vergleichsstruktur.
The invention may provide that the compatibility relationship between the primary reference structure and the secondary reference structure is that said substructure of the secondary reference structure has the same constitution or configuration as the substructure of the first reference structure defined by the first reference set
and or
in that the compatibility relationship between the first comparison structure and the secondary comparison structure consists in that the substructure of the secondary comparison structure has the same constitution or configuration as the substructure of the first comparison structure defined by the first comparison set.

Eine ergänzende oder alternative Kompatibilitätsbeziehung könnte beispielsweise auch sein, daß die Komponenten, welche durch die Kompatibilitätsbeziehung den Komponenten der ersten Referenzmenge bzw. der ersten Vergleichsmenge zugeordnet werden, innerhalb bestimmter, vorgegebener Toleranzen relativ zueinander die gleiche Lage haben wie die entsprechenden Komponenten in dem Referenzmolekül bzw. in dem Vergleichsmolekül.A supplementary or alternative compatibility relationship could also be, for example, that the components which are assigned by the compatibility relationship to the components of the first reference quantity or the first comparison quantity have the same position within certain predetermined tolerances relative to one another as the corresponding components in the reference molecule or reference molecule in the comparative molecule.

Es kann insbesondere vorgesehen sein, daß die gesamte sekundäre Referenzstruktur bzw. sekundäre Vergleichsstruktur eine Kompatibilitätsbeziehung zu der ersten Referenzstruktur bzw. der ersten Vergleichsstruktur aufweist, also daß z. B. die erste Referenzstruktur und die sekundäre Referenzstruktur jeweils die gleiche Konstitution oder Konfiguration aufweisen.It can be provided in particular that the entire secondary reference structure or secondary comparison structure has a compatibility relationship with the first reference structure or the first comparison structure, ie that z. For example, the first reference structure and the secondary reference structure each have the same constitution or configuration.

Die Kompatibilitätsbeziehung, die für die sekundäre Referenzstruktur bzw. die sekundäre Vergleichsstruktur zugrunde gelegt wird, kann in beiden Fällen dieselbe sein. Dies ist jedoch nicht zwingend.The compatibility relationship used for the secondary reference structure and the secondary comparison structure can be the same in both cases. However, this is not mandatory.

Gemäß einer besonders vorteilhaften Anwendung des erfindungsgemäßen Verfahrens kann vorgesehen sein, daß die Kompatibilitätsbeziehung darin besteht, daß die sekundäre Referenzstruktur ein Konformer zu der ersten Referenzstruktur und die sekundäre Vergleichsstruktur ein Konformer zu der ersten Vergleichsstruktur ist.According to a particularly advantageous application of the method according to the invention, it may be provided that the compatibility relationship is that the secondary reference structure is a conformer to the first reference structure and the secondary comparison structure is a conformer to the first comparison structure.

Die Erfindung kann vorsehen, daß in der besagten Iteration für alle Überlagerungszuordnungen, die in der Iteration bestimmt werden, entschieden wird, ob zu der jeweiligen Überlagerungszuordnung für alle erweiterten Überlagerungszuordnungen der betreffenden Referenzstruktur mit der betreffenden Vergleichsstruktur, welche zusätzlich zu den Zuordnungen der besagten Überlagerungszuordnung hinaus weitere Komponenten der Referenzstruktur umkehrbar eindeutig jeweils einer Komponente der Vergleichsstruktur zuordnen, das Qualitätskriterium für den oder die geltenden optimalen Werte des Qualitätsmaßes (z. B. ob der Wert des Qualitätsmaßes besser ist als einer der N geltenden optimalen Qualitätswerte des Qualitätsmaßes) nicht erfüllt werden kann,
und daß in nachfolgenden Iterationen nur solche erweiterten Überlagerungszuordnungen berücksichtigt werden, für welche dies nicht der Fall ist.
The invention may provide that in the said iteration for all overlay assignments determined in the iteration, it is decided whether to the respective overlay allocation for all the extended overlay allocations of the respective reference structure with the respective comparison structure, in addition to the assignments of said overlay allocation unambiguously assign further components of the reference structure to a component of the comparison structure in a reversible manner, the quality criterion for the applicable optimal quality measure values (eg whether the value of the quality measure is better than one of the optimal N quality values of the quality measure) can not be met .
and that in subsequent iterations only those extended overlay mappings are considered, for which this is not the case.

Erfindungsgemäß kann vorgesehen sein, daß aus denjenigen Überlagerungszuordnungen, für die nicht festgestellt wurde, daß der Wert des Qualitätsmaßes für eine hierzu gehörige erweiterte Überlagerungszuordnung das Qualitätskriterium nicht erfüllen kann, ein Paar einer Überlagerungszuordnung, d. h. eine Referenzstruktur und eine Vergleichsstruktur, ausgewählt werden, wobei hierzu eine neue Referenzmenge gebildet wird, welche alle Komponenten der Referenzstruktur enthält, die in der besagten Überlagerungszuordnung einer Komponente der Vergleichsstruktur zugeordnet wurden, aber auch mindestens eine weitere zusätzliche Komponente des betreffenden Referenzmoleküls, und eine neue Vergleichsmenge gebildet wird, welche alle Komponenten der Vergleichsstruktur, die in der besagten Überlagerungszuordnung einer Komponente in der Referenzstruktur zugeordnet wurden, aber zumindest eine weitere Komponente der Vergleichsstruktur enthält, wobei diese neue Vergleichsmenge und diese neue Referenzmenge jeweils die gleiche Anzahl von Komponenten aufweisen. Die Referenzstruktur und die Vergleichsstruktur, die man hierfür auswählt, können, müssen aber nicht die erste Referenzstruktur und die erste Vergleichsstruktur der vorangegangen Iteration sein.According to the invention, it can be provided that a pair of an overlay assignment, ie a reference structure and a comparison structure, are selected from those overlay allocations for which it has not been determined that the value of the quality measure for an associated extended overlay allocation can not meet the quality criterion a new reference set is formed, which contains all the components of the reference structure that were assigned to a component of the comparison structure in said overlay allocation, but also at least one further additional component of the relevant reference molecule, and a new comparison set is formed, which comprises all components of the comparison structure, the in the said overlay assignment of a component in the reference structure, but containing at least one further component of the comparison structure, this new comparison set and this new comparison set Reference quantity respectively the same number of Have components. The reference structure and the comparison structure selected for this may or may not be the first reference structure and the first comparison structure of the previous iteration.

Auf der Grundlage dieser neuen Referenzmenge und dieser neuen Vergleichsmenge bildet man nun eine erste erweiterte Überlagerungszuordnung, welche die Überlagerungszuordnung der Referenzstruktur zu der Vergleichsstruktur in der vorangehenden Iteration in dem Sinne umfaßt, daß diejenigen Zuordnungen von Komponenten der Referenzstruktur zu Komponenten der Vergleichsstruktur, die in der vorangehenden Iteration definiert wurden, erhalten bleiben und lediglich zu denjenigen Komponenten der neuen Referenzmenge und der neuen Vergleichsmenge, die bei der Überlagerungszuordnung in der vorangehenden Iteration noch nicht berücksichtigt waren, neue umkehrbar eindeutige Zuordnungen zwischen jeweils einer Komponente der Referenzstruktur und einer Komponente der Vergleichsstruktur definiert werden.On the basis of this new reference set and this new comparison set, a first extended overlay allocation is now formed comprising the overlay allocation of the reference structure to the comparison structure in the previous iteration, in the sense that those allocations of components of the reference structure to components of the comparison structure described in US Pat previous iterations have been defined, and only to those components of the new reference set and the new comparison set, which were not taken into account in the overlay assignment in the previous iteration, new reversibly unique associations between each one component of the reference structure and a component of the comparison structure are defined ,

Gemäß einer bevorzugten Ausführungsform der Erfindung wird bei der Bildung der neuen Referenzmenge und der neuen Vergleichsmenge der ersten Referenzmenge und der ersten Vergleichsmenge jeweils genau eine weitere Komponente hinzugefügt. Die Anzahl der Komponenten in der neuen Referenzmenge und der neuen Vergleichsmenge ist also um 1 größer als die Anzahl der Komponenten in der ersten Referenzmenge und der ersten Vergleichsmenge.According to a preferred embodiment of the invention, when forming the new reference quantity and the new comparison quantity, respectively, exactly one further component is added to the first reference quantity and the first comparison quantity. The number of components in the new reference quantity and the new comparison quantity is therefore greater by 1 than the number of components in the first reference quantity and the first comparison quantity.

Diese neue Referenzmenge und diese neue Vergleichsmenge entsprechen der ersten Referenzmenge bzw. der ersten Vergleichsmenge der vorangehenden Iteration und die entsprechend erweiterte Überlagerungszuordnung entspricht der ersten Überlagerungszuordnung der vorangehenden Iteration.This new reference set and this new comparison set correspond to the first reference set or the first comparison set of the preceding iteration, and the correspondingly extended overlay allocation corresponds to the first overlay allocation of the preceding iteration.

Weiterhin werden für alle Paare von Vergleichsstrukturen und Referenzstrukturen, die in der vorangehenden Iteration betrachtet wurden und für die nicht festgestellt wurde, daß das Qualitätsmaß für alle erweiterten Überlagerungszuordnungen zu der Überlagerungszuordnung zwischen den Strukturen des Paars, die in der vorangehenden Iteration betrachtet wurde, das Qualitätskriterium nicht erfüllen kann, erweiterte Überlagerungszuordnungen in der gleichen Weise wie in der vorangehenden Iteration auf der Grundlage der Kompatibilitätsbeziehung ausgehend von der ersten erweiterten Überlagerung gebildet, sofern sich auch für alle Komponenten der neuen Referenzmenge bzw. der neuen Vergleichsmenge eine Kompatibilitätsbeziehung in dem vorangehend genannten Sinne herstellen läßt und mit der Maßgabe, daß die Zuordnung von Komponenten der zugehörigen Überlagerungszuordnung in der vorangehenden Iteration erhalten bleibt. Läßt sich für eine Überlagerungszuordnung einer Referenzstruktur und einer Vergleichsstruktur zu den Komponenten der neuen Referenzmenge und/oder der neuen Vergleichsmenge keine Kompatibilitätsbeziehung mehr herstellen oder führt diese Kompatibilitätsbeziehung, die vorzugsweise dieselbe ist wie in der vorangehenden Iteration, dazu, daß sich die Zuordnung von Komponenten gegenüber der entsprechenden Überlagerungszuordnung der vorangehenden Iteration ändern würde, wird in dieser Iteration zu dieser Überlagerungszuordnung keine erweiterte Überlagerungszuordnung bestimmt.Furthermore, for all pairs of comparison structures and reference structures considered in the previous iteration and for which it has not been determined that the quality measure for all the extended overlay assignments to the overlay mapping between the structures of the pair considered in the previous iteration is the quality criterion can not satisfy expanded overlay mappings in the same manner as in the previous iteration based on the compatibility relationship based on the first extended overlay, provided that all the components of the new reference set or compare set also have a compatibility relationship in the above sense and with the proviso that the assignment of components of the associated overlay assignment is retained in the preceding iteration. If no compatibility relationship can be established for a superimposition assignment of a reference structure and a comparison structure to the components of the new reference quantity and / or the new comparison quantity, this compatibility relationship, which is preferably the same as in the preceding iteration, leads to a situation where the assignment of components is greater would change the corresponding overlay map of the previous iteration, no extended overlay map is determined in this iteration for this overlay map.

Für die in dieser nachfolgenden Iteration festgelegte Überlagerungszuordnungen wird nun wiederum in der vorangehend beschriebenen Weise das Qualitätsmaß bestimmt bzw. abgeschätzt und es wird der entsprechende Wert des Qualitätsmaßes, zusammen mit der entsprechenden Überlagerungszuordnung, als einer der geltenden optimalen Werte, insbesondere einer der N geltenden optimalen Werte, des Qualitätsmaßes abgespeichert, wenn das Qualitätskriterium erfüllt ist.For the overlay assignments defined in this subsequent iteration, the quality measure is again determined or estimated in the manner described above, and the corresponding value of the quality measure, together with the corresponding overlay allocation, becomes one of the valid optimum values, in particular one of the optimal optimals Values of the quality measure are stored if the quality criterion is fulfilled.

Stellt man in einer Iteration fest, daß die Überlagerungszuordnung nicht mehr erweiterbar ist, z. B. weil bereits alle Komponenten der Referenzstruktur einer Komponente der Vergleichsstruktur bzw. alle Komponenten einer Vergleichsstruktur einer Komponente der Referenzstruktur zugeordnet worden sind, oder daß alle zugehörigen erweiterten Überlagerungszuordnungen das Qualitätskriterium nicht erfüllen können, kehrt das Verfahren zu der Überlagerungszuordnung zurück, für die festgestellt wurde, daß es mehr als eine mögliche erweiterte Überlagerungszuordnung hierzu gibt und zu der noch nicht für alle möglichen erweiterten Überlagerungszuordnungen entweder das Qualitätsmaß bestimmt oder abgeschätzt wurde oder festgestellt wurde, daß das Qualitätskriterium nicht erfüllt werden kann, z. B. weil das Qualitätsmaß nicht besser sein kann als die N besten ermittelten Werte des Qualitätsmaßes. Hiervon ausgehend wird dann eine bzw. die verbleibende erweiterte Überlagerungszuordnung gebildet und dann entsprechend verfahren.If it is found in an iteration that the overlay assignment is no longer expandable, eg. B. because all components of the reference structure of a component of the comparison structure or all components of a comparison structure of a component of the reference structure have been assigned, or that all associated extended overlay assignments can not meet the quality criterion, the method returns to the overlay assignment for which was determined in that there is more than one possible extended overlay allocation for this purpose and for which the quality measure has not yet been determined or estimated for all possible extended overlay allocations, or it has been established that the quality criterion can not be met, e.g. Because the quality measure can not be better than the N best determined values of the quality measure. On this basis, one or the remaining extended overlay allocation is then formed and then proceeded accordingly.

Gemäß einer Ausführungsform der Erfindung ist die sekundäre Referenzstruktur ein Konformer zu der ersten Referenzstruktur und die sekundäre Vergleichsstruktur ein Konformer zu der ersten Vergleichsstruktur.According to one embodiment of the invention, the secondary reference structure is a conformer to the first reference structure and the secondary comparison structure is a conformer to the first comparison structure.

Dabei kann vorgesehen sein, daß die Struktur jedes Konformers als starre Struktur behandelt wird, bei der jede Komponente, zum Beispiel jedes Atom, eine feste Position bezüglich den anderen Komponenten in dem Konformer besitzt. It can be provided that the structure of each conformer is treated as a rigid structure in which each component, for example each atom, has a fixed position relative to the other components in the conformer.

Gemäß einer bevorzugten Ausführungsform der Erfindung werden genau ein Referenzmolekül, aber mehrere Vergleichsmoleküle betrachtet und es werden Moleküle gesucht, die diesem Referenzmolekül ähnlich sind.According to a preferred embodiment of the invention, exactly one reference molecule but several comparison molecules are considered and molecules are sought which are similar to this reference molecule.

Die Erfindung kann vorsehen, daß das Verfahren zu einem vorgegeben Referenzmolekül ähnliche Moleküle ermittelt, wobei dem Verfahren Informationen zur dreidimensionalen Struktur eines oder mehrere Konformere des Referenzmoleküls, welche die Lage von Atomen, allerdings nicht notwendigerweise allen Atomen, in dem Konformer angeben und Informationen zu der dreidimensionalen Struktur eines oder mehrere Konformere mindestens eines Vergleichsmoleküls, vorzugsweise mehrerer Vergleichsmoleküle, welche die Lage von Atomen, allerdings nicht notwendigerweise aller Atome, in dem Konformer angeben, zugrunde liegen und mindestens eine Iteration des Verfahrens umfaßt:
Auswahl einer ersten Referenzmenge von Atomen des Referenzmoleküls, wobei die Anzahl der Atome in der ersten Referenzmenge kleiner als die Anzahl der Atome in dem Referenzmolekül ist,
Auswahl einer ersten Vergleichsmenge von Atomen eines Vergleichsmoleküls, welche die gleiche Anzahl von Atomen wie die erste Referenzmenge besitzt,
Bestimmung einer ersten Überlagerungszuordnung für ein erstes Konformer des Referenzmoleküls und ein erstes Konformer des Vergleichsmoleküls, welche jedem Atom der ersten Referenzmenge umkehrbar eindeutig genau ein Atom der ersten Vergleichsmenge zuweist,
Bestimmung einer Überlagerungszuordnung für ein zweites Konformer des Referenzmoleküls zu einem Konformer des Vergleichsmoleküls und/oder für ein Konformer des Referenzmoleküls zu einem zweiten Konformer des Vergleichsmoleküls, welche jedem Atom der ersten Referenzmenge umkehrbar eindeutig genau dasselbe Atom der ersten Vergleichsmenge wie die erste Überlagerungszuordnung zuweist.
The invention may provide that the method determines molecules which are similar to a given reference molecule, the method providing information about the three-dimensional structure of one or more conformers of the reference molecule which indicate the position of atoms, but not necessarily all atoms, in the conformer and information on this three-dimensional structure of one or more conformers of at least one comparison molecule, preferably a plurality of comparison molecules, which are based on the position of atoms, but not necessarily all atoms, in the conformer and comprise at least one iteration of the method:
Selecting a first reference set of atoms of the reference molecule, wherein the number of atoms in the first reference set is smaller than the number of atoms in the reference molecule,
Selecting a first comparison set of atoms of a comparison molecule having the same number of atoms as the first reference set,
Determining a first overlay assignment for a first conformer of the reference molecule and a first conformer of the comparison molecule, which reversibly assigns exactly one atom of the first comparison set to each atom of the first reference set,
Determining an overlay assignment for a second conformer of the reference molecule to a conformer of the comparison molecule and / or a conformer of the reference molecule to a second conformer of the comparison molecule, which reversibly assigns to each atom of the first reference set exactly the same atom of the first comparison set as the first overlay assignment.

Die Erfindung kann vorsehen, daß die Iteration folgendes umfaßt:
Bestimmen eines Qualitätsmaßes oder einer Abschätzung für das Qualitätsmaß für jede Überlagerungszuordnung,
Speichern des Werts des Qualitätsmaßes als geltender optimaler Wert zusammen mit der zugehörigen Überlagerungszuordnung, falls ein Qualitätskriterium für den geltenden optimalen Wert erfüllt ist.
The invention may provide that the iteration comprises:
Determining a quality measure or estimate for the quality measure for each overlay map,
Save the value of the quality measure as the valid optimal value together with the associated overlay assignment if a quality criterion for the applicable optimal value is fulfilled.

Das Qualitätskriterium kann dabei insbesondere die vorangehend genannte Bedingung (b) und/oder die vorangehend genannte Bedingung (c) enthalten, wobei die Zahl der geltenden optimalen Werte (N) eins ist. Es kann insbesondere vorgesehen sein, daß der Wert des Qualitätsmaßes als bislang geltender optimaler Wert gespeichert wird, wenn noch kein Qualitätsmaß für eine andere Überlagerungszuordnung berechnet wurde oder das Qualitätsmaß aller bisherigen Überlagerungszuordnungen schlechter war als das besagte Qualitätsmaß.The quality criterion may include, in particular, the above-mentioned condition (b) and / or the above-mentioned condition (c), where the number of valid optimal values (N) is one. In particular, it can be provided that the value of the quality measure is stored as the previously valid optimum value, if no quality measure for another superposition assignment has yet been calculated or the quality measure of all previous superposition assignments was worse than the said quality measure.

Gemäß einer bevorzugten Ausführungsform der Erfindung werden in der besagten Iteration alle Paare von Konformeren des Referenzmoleküls und Konformeren des Vergleichsmoleküls betrachtet, für welche nicht vorangehend festgestellt wurde, daß das Qualitätskriterium nicht erfüllt wird.According to a preferred embodiment of the invention, in the said iteration, all pairs of conformers of the reference molecule and conformers of the comparison molecule are considered, for which it has not previously been established that the quality criterion is not met.

Die Erfindung kann vorsehen, daß die Iteration, welche der besagten Iteration folgt, umfaßt:
Bestimmen einer erweiterten Überlagerungszuordnung für alle Paare von Konformeren des Referenzmoleküls und des Vergleichsmoleküls, für welche in einer früheren Iteration nicht festgestellt wurde, daß das Qualitätskriterium nicht erfüllt werden kann, wobei diese erweiterte Überlagerungszuordnung jeweils jedem Atom einer zweiten Referenzmenge von Atomen des Referenzmoleküls umkehrbar eindeutig jeweils genau ein Atom einer zweiten Vergleichsmenge von Atomen des Vergleichsmoleküls zuordnet, wobei die erste und die zweite Referenzmenge voneinander verschieden sind und alle Atome der ersten Referenzmenge in der zweiten Referenzmenge enthalten sind und die erste und die zweite Vergleichsmenge voneinander verschieden sind und alle Atome der ersten Vergleichsmenge in der zweiten Vergleichsmenge enthalten sind und
wobei gemäß der erweiterten Überlagerungszuordnung jedes Atom aus der ersten Referenzmenge einem Atom aus der ersten Vergleichsmenge entsprechend der ersten Überlagerungszuordnung zugeordnet ist.
The invention may provide that the iteration following said iteration comprises:
Determining an extended overlay mapping for all pairs of conformers of the reference molecule and the comparison molecule for which it has not been determined in an earlier iteration that the quality criterion can not be met, each extended overlap map unambiguously unique to each atom of a second reference set of atoms of the reference molecule assigns exactly one atom to a second comparison set of atoms of the comparison molecule, the first and second reference sets being different and all the atoms of the first reference set being included in the second reference set and the first and second comparison sets being different and all the atoms of the first comparison set are contained in the second comparison quantity and
wherein according to the extended overlay allocation, each atom of the first reference set is associated with an atom of the first comparison set corresponding to the first overlay map.

Gemäß einer Ausführungsform der Erfindung kann vorgesehen sein, daß verschiedene Paare aus einem Referenzmolekül und einem Vergleichsmolekül nacheinander abgearbeitet werden. In jeder Iteration wird also nur ein Paar aus einem Referenzmolekül und Vergleichsmolekül berücksichtigt und es wird erst dann zu einem neuen Paar aus Referenzmolekül und Vergleichsmolekül übergegangen, wenn alle möglichen Überlagerungszuordnungen zwischen allen Strukturen des Referenzmoleküls und allen Strukturen des Vergleichsmoleküls abgearbeitet worden sind, wobei das Abarbeiten auch und insbesondere beinhalten kann, daß eine Überlagerungszuordnung vorab ausgeschieden wird, weil festgestellt wurde, daß das Qualitätskriterium nicht erfüllt werden kann. Der beste Wert des Qualitätsmaßes (oder eine endliche Anzahl der besten Werte des Qualitätsmaßes) kann als Ergebnis des Vergleiches unabhängig von weiteren Vergleichen festgehalten werden.According to one embodiment of the invention it can be provided that different pairs of a reference molecule and a comparison molecule are processed sequentially. In each iteration, therefore, only one pair of a reference molecule and comparison molecule is taken into account and it is only then transferred to a new pair of reference molecule and comparison molecule, if all possible Overlay assignments between all structures of the reference molecule and all structures of the comparison molecule have been processed, wherein the processing can also include, in particular, that a superimposition allocation is excreted in advance, because it was determined that the quality criterion can not be met. The best value of the quality measure (or a finite number of the best values of the quality measure) can be recorded as a result of the comparison independently of further comparisons.

Für den Vergleich des nächsten Paars aus einem Referenzmolekül und einem Vergleichsmolekül kann vorgesehen sein, daß die N geltenden optimalen Werte zurückgesetzt werden. Es kann jedoch auch vorgesehen sein, z. B. wenn man nur an einem optimalen Paar von Referenzmolekül und Vergleichsmolekül interessiert ist, daß die N optimalen Werte des Qualitätsmaßes aus dem Vergleich eines anderen Paars von Referenzmolekül und Vergleichsmolekül, als Anfangswerte für die N optimalen Werte für das aktuelle Paar verwendet wird oder auf der Grundlage der jeweils optimalen Werte des Qualitätsmaßes aus einem oder mehreren Vergleichen eines Referenzmoleküls und eines Vergleichsmoleküls ein Schwellenwert bestimmt wird, der in das Qualitätskriterium für den Vergleich des aktuellen Paars aus Referenzmolekül und Vergleichsmolekül eingeht. Auf diese Weise ist es möglich, den Suchraum auf der Basis früherer Vergleiche eines Referenzmoleküls und eines Vergleichsmoleküls zu reduzieren.For the comparison of the next pair of a reference molecule and a comparison molecule it can be provided that the N valid optimal values are reset. However, it may also be provided, for. For example, if one is only interested in an optimal pair of reference molecule and comparison molecule, the N optimal values of the quality measure from the comparison of another pair of reference molecule and comparison molecule is used as initial values for the N optimal values for the current pair or Based on the respectively optimal values of the quality measure from one or more comparisons of a reference molecule and a comparison molecule, a threshold value is determined, which enters into the quality criterion for the comparison of the current pair of reference molecule and comparison molecule. In this way, it is possible to reduce the search space on the basis of previous comparisons of a reference molecule and a comparison molecule.

Dieser Schwellenwert kann beispielsweise der beste Wert des Qualitätsmaßes sein, der bislang bei einem Vergleich eines Referenzmoleküls mit einem Vergleichsmolekül aufgefunden wurde, der kleinste der M besten bislang aufgefundenen Werte des Qualitätsmaßes, wobei M eine ganze Zahl größer oder gleich 1 ist, oder in einem vorgegebenen Verhältnis zu diesen Werten stehen (z. B. um einen bestimmten Prozentsatz über oder unter dem entsprechenden Wert liegen). Es kann vorgesehen sein, daß ein solcher Schwellenwert erst dann vorgegeben wird, wenn bereits eine bestimmte Anzahl von Paaren aus einem Vergleichsmolekül und einem Referenzmolekül abgearbeitet worden sind.This threshold value may for example be the best value of the quality measure which has hitherto been found in a comparison of a reference molecule with a comparison molecule, the smallest of the M best values of the quality measure so far found, where M is an integer greater than or equal to 1, or within a predetermined value Ratio to these values (eg, by a certain percentage above or below the corresponding value). It can be provided that such a threshold value is not given until a certain number of pairs of a comparison molecule and a reference molecule has already been processed.

Es kann insbesondere vorgesehen sein, daß insgesamt nur ein Referenzmolekül betrachtet wird. Insbesondere kann vorgesehen sein, daß zu jedem Paar aus diesem Referenzmolekül und einem Vergleichsmolekül jeweils nur der optimale Wert des Qualitätsmaßes gespeichert wird.In particular, it may be provided that only one reference molecule is considered in total. In particular, it can be provided that only the optimum value of the quality measure is stored for each pair of this reference molecule and a comparison molecule.

Die Erfindung kann insbesondere vorsehen, daß zu jedem Paar eines Referenzmoleküls und eines Vergleichsmoleküls, ggf. geordnet nach dem jeweiligen Referenzmolekül, wenn mehrere Referenzmoleküle betrachtet werden, der optimale Wert des Qualitätsmaßes gespeichert wird und eine Liste oder Tabelle der Paare (bzw., falls nur ein Referenzmolekül betrachtet wird, der Vergleichsmoleküle) und der zugehörigen Werte des Qualitätsmaßes erstellt wird. In einer Ausführungsform kann diese Liste auf diejenigen Vergleichsmoleküle beschränkt sein, welche einen Wert aus einer vorgegebenen Anzahl von besten Werten des Qualitätsmaßes ergeben haben.In particular, the invention may provide that for each pair of a reference molecule and a comparison molecule, possibly arranged according to the respective reference molecule, when several reference molecules are considered, the optimal value of the quality measure is stored and a list or table of the pairs (or, if only a reference molecule is considered, the comparison molecules) and the associated values of the quality measure is created. In one embodiment, this list may be limited to those comparison molecules that have yielded a value from a predetermined number of best values of the quality measure.

Es kann vorgesehen sein, daß in dem Referenzmolekül die Komponenten der ersten Referenzmenge zusammen mit den Bindungen zwischen ihnen einen zusammenhängenden Teilabschnitt des Referenzmoleküls bilden und die Komponenten der ersten Vergleichsmenge zusammen mit den Bindungen zwischen ihnen in dem Vergleichsmolekül einen zusammenhängenden Teilabschnitt des Vergleichsmoleküls bilden.It may be provided that in the reference molecule, the components of the first reference amount together with the bonds between them form a contiguous subsection of the reference molecule and the components of the first comparison set together with the bonds between them in the Vergleichsmolekül form a contiguous subsection of the Vergleichsmoleküls.

Bei dieser Ausführungsform würden also die Komponenten der ersten Referenzmenge, wenn man sie aus dem Referenzmolekül zusammen mit den zwischen ihnen bestehenden Bindungen herauslösen würde, ein einziges zusammenhängendes (Teil)molekül bilden. Anders gesprochen kann man entlang den Bindungen zwischen den Komponenten der ersten Referenzmenge von jeder Komponente der ersten Referenzmenge zu einer beliebigen anderen Komponente der ersten Referenzmenge gelangen. Dies wäre von dem Fall zu unterscheiden, daß es eine oder mehrere Gruppen von Komponenten in der ersten Referenzmenge gibt, die nicht durch mindestens eine Bindung miteinander verbunden sind, so daß, wenn man diese Komponenten aus den Molekülen herauslösen würde, mehrere Teilmoleküle entstehen würden. Entsprechendes gilt gemäß dieser Ausführungsform auch für die Vergleichsmenge.In this embodiment, therefore, if the components of the first reference set were to be leached out of the reference molecule together with the bonds between them, they would form a single contiguous (part) molecule. In other words, along the bonds between the components of the first reference set, it is possible to get from each component of the first reference set to any other component of the first reference set. This would be different from the case where there are one or more groups of components in the first reference set that are not linked together by at least one bond, so that if one were to extract these components from the molecules, several partial molecules would result. The same applies according to this embodiment also for the comparison quantity.

Entsprechend kann bei dieser Ausführungsform auch vorgesehen sein, daß die Kompatibilitätsbeziehung zwischen den Komponenten der ersten Referenzmenge bzw. den Komponenten der ersten Vergleichsmenge zu den Komponenten der sekundären Referenzstruktur bzw. der sekundären Vergleichsstruktur beinhaltet, daß den Komponenten der ersten Referenzmenge bzw. der ersten Vergleichsmenge jeweils ein zusammenhängender Teil der sekundären Referenzstruktur bzw. der sekundären Vergleichsstruktur durch die Kompatibilitätsbeziehung zugewiesen wird, d. h. daß die entsprechenden Komponenten der sekundären Referenzstruktur bzw. der sekundären Vergleichsstruktur, die aufgrund der Kompatibilitätsbeziehung jeweils einer Komponente der ersten Referenzmenge bzw. der ersten Vergleichsmenge entsprechen, in der gleichen Weise zusammenhängen müssen wie die Komponenten der ersten Vergleichsmenge bzw. der ersten Referenzmenge.Accordingly, in this embodiment, it may also be provided that the compatibility relationship between the components of the first reference quantity and the components of the first comparison set to the components of the secondary reference structure and the secondary comparison structure, respectively, that the components of the first reference set and the first comparison set a related part of the secondary reference structure or the secondary comparison structure is assigned by the compatibility relationship, ie, that the corresponding components of the secondary reference structure and the secondary comparison structure corresponding to a respective component of the first reference quantity or the first comparison set due to the compatibility relationship in the equal Must be related as the components of the first comparison set or the first reference quantity.

Die Erfindung kann vorsehen, daß das Qualitätsmaß den Abstand einander durch die Überlagerungszuordnung zugeordneter Komponenten, insbesondere den Abstand der Atome, berücksichtigt, der sich ergibt, wenn die Referenzstruktur mit der Vergleichsstruktur optimal zur Deckung gebracht wird.The invention may provide that the quality measure takes into account the distance between components assigned to one another by the superimposition allocation, in particular the distance of the atoms, which results when the reference structure is optimally aligned with the comparison structure.

Hierbei können für das Kriterium, daß die Strukturen optimal zur Deckung gebracht worden sind, übliche Kriterien angewendet werden, beispielsweise daß der mittlere quadratische Abstand der Komponenten minimal ist oder dergleichen.Here, for the criterion that the structures have been optimally brought to coincidence, usual criteria are applied, for example, that the mean square spacing of the components is minimal or the like.

Es kann auch vorgesehen sein, daß in das Qualitätsmaß die Anzahl der Komponenten der Referenzstruktur eingeht, welche durch die Überlagerungszuordnung umkehrbar eindeutig jeweils einer Komponente der Vergleichsstruktur zugeordnet werden.It can also be provided that the number of components of the reference structure is received in the quality measure, which are assigned by the overlay allocation reversibly uniquely in each case a component of the comparison structure.

Die Erfindung kann auch vorsehen, daß weitere Kriterien in das Qualitätsmaß eingehen, beispielsweise die chemische Natur der einander überlagerten Komponenten. Betrachtet man größere Einheiten von Atomen als Komponenten des Referenzmoleküls, so kann a priori bereits ein Qualitätsmaß festgelegt werden, welches berücksichtigt, ob die Komponenten, die einander zugeordnet werden, identisch sind oder nicht oder, in einer Weiterentwicklung dieser Ausführungsform, inwieweit diese Komponenten, für sich genommen, d. h. unabhängig von ihrer Lage in dem Referenzmolekül bzw. in dem Vergleichsmolekül, räumlich zur Deckung gebracht werden können. Beispielsweise kann ein Beitrag zu dem Qualitätsmaß aufgrund des letzteren Kriteriums dadurch festgelegt werden, daß die Schwerpunkte der isolierten Komponenten aufeinander gelegt werden und betrachtet wird, inwieweit sich die relevanten Atome der beiden Komponenten räumlich zur Deckung bringen lassen. Hierfür kann ein pauschalierter Beitrag zu dem Qualitätsmaß bestimmt werden, der in den Iterationen des Verfahrens bei der Bestimmung des Qualitätsmaßes berücksichtigt wird, ohne daß in den jeweiligen Iterationen die Überlagerung der Atome der einander zugeordneten Komponenten betrachtet wird. Man geht dann vielmehr davon aus, daß die Lage jeder Komponente durch einen Satz von dreidimensionalen Koordinaten festgelegt ist.The invention may also provide that further criteria be included in the quality measure, for example the chemical nature of the superimposed components. Considering larger units of atoms than components of the reference molecule, a quality measure can already be determined a priori, which takes into account whether the components that are assigned to one another are identical or not, or, in a further development of this embodiment, to what extent these components are suitable for taken, d. H. regardless of their position in the reference molecule or in the Vergleichsmolekül, can be made spatially coincident. For example, a contribution to the quality measure based on the latter criterion can be determined by superimposing the focuses of the isolated components and considering the extent to which the relevant atoms of the two components can be spatially aligned. For this purpose, a flat-rate contribution to the quality measure can be determined, which is taken into account in the iterations of the method in the determination of the quality measure, without the superimposition of the atoms of the components assigned to one another being considered in the respective iterations. It is then assumed that the position of each component is determined by a set of three-dimensional coordinates.

Nach einer Ausführungsform der Erfindung ist das Qualitätsmaß durch die folgende Formel gegeben: SC = (NÜ/NMmm)C–rmsd, (1) wobei

NÜ
die Anzahl der Komponenten der Referenzstruktur ist, die durch die Überlagerungszuordnung jeweils einer Komponente der Vergleichsstruktur zugewiesen werden,
NMmm
den kleineren Wert aus dem Paar angibt, welches durch die Anzahl der zu vergleichenden Komponenten in dem Referenzmolekül und die Anzahl der zu vergleichenden Komponenten in dem Vergleichsmolekül gebildet wird, mit anderen Worten die Anzahl der zu vergleichenden Komponenten in dem kleineren der beiden Moleküle,
rmsd
der mittlere quadratische Abstand der einander durch die Überlagerungszuordnung zugeordneten Komponenten ist und
C
eine Konstante ist.
According to one embodiment of the invention, the quality measure is given by the following formula: SC = (N Ü / N Mmm ) C -rmsd , (1) in which
N Ü
the number of components of the reference structure that are assigned by the overlay assignment to one component of the comparison structure,
Nmmmm
indicates the smaller value of the pair formed by the number of components to be compared in the reference molecule and the number of components to be compared in the comparison molecule, in other words the number of components to be compared in the smaller of the two molecules;
rmsd
the mean square distance of the components associated with each other by the overlay allocation is and
C
is a constant.

Die Erfindung kann insbesondere vorsehen, daß rmsd der minimale mittlere quadratische Abstand ist, der erreicht werden kann, wenn die einander durch die Überlagerungszuordnung zugeordneten Komponenten der Referenzstruktur und der Vergleichsstruktur einander überlagert werden, d. h. wenn man versucht, die Lage dieser Komponenten in den beiden Strukturen möglichst gut zur Deckung zu bringen.In particular, the invention may provide that rmsd is the minimum mean square distance that can be achieved when the components of the reference structure and the comparison structure associated with each other by the overlay allocation are superimposed, i. H. if one tries to bring the position of these components in the two structures as well as possible to cover.

Der mittlere quadratische Abstand kann dabei durch die folgende Gleichung bestimmt werden:

Figure 00240001
wobei XRi den Ort der i-ten Komponente der Referenzstruktur und XVi den Ort der ihr zugehörigen i-ten Komponente der Vergleichsstruktur bezeichnet, die sich ergeben, wenn man versucht, unter Berücksichtigung der vorgegebenen Referenzstruktur und der vorgegebenen Vergleichsstruktur, für alle Komponenten, die einander in der Überlagerungsstruktur zugeordnet sind, möglichst nahe beieinander liegende Positionen, idealerweise identische Positionen zu finden. ∥ ∥ bezeichnet die euklidische Norm.The mean square distance can be determined by the following equation:
Figure 00240001
where X Ri denotes the location of the i-th component of the reference structure and X Vi the location of its i-th component of the comparison structure resulting from attempting, taking into account the given reference structure and the predetermined comparison structure, for all components, the each other are assigned in the overlay structure, as closely as possible lying positions, ideally to find identical positions. ∥ ∥ denotes the Euclidean norm.

Das Qualitätsmaß nach (1) ist so definiert, daß eine bessere Übereinstimmung der verglichenen Strukturen zu einem höheren Wert des Qualitätsmaßes führt, wobei der maximale Wert 1 ist. Ein Wert des Qualitätsmaßes ist also besser als ein anderer Wert, wenn er größer ist. Ein Qualitätsmaß kann jedoch auch so definiert sein, daß das Qualitätsmaß um so kleiner ist, je besser die Übereinstimmung der verglichenen Strukturen ist. In diesem Fall bedeutet ein besserer Wert des Qualitätsmaßes einen kleineren Wert.The quality measure according to (1) is defined so that a better match of the compared structures leads to a higher value of the quality measure, the maximum value being 1. One value of the quality measure is thus better than another value if it is larger. However, a quality measure can also be defined such that the better the agreement of the structures compared, the smaller the quality measure. In this case, a better value of the quality measure means a smaller value.

Nach einer bevorzugten Ausführungsform folgt das Verfahren einem Branch and Bound-Algorithmus.In a preferred embodiment, the method follows a branch and bound algorithm.

Die Erfindung kann vorsehen, daß für eine Überlagerungszuordnung einer Referenzstruktur zu einer Vergleichstruktur, bei welcher die Komponenten der Referenzstruktur, die Komponenten der Vergleichsstruktur zugeordnet werden, einen zusammenhängenden Teilabschnitt des Referenzmoleküls bilden, überprüft wird, welche erweiterten Überlagerungszuordnungen, bei denen die Zuordnung der Komponenten entsprechend der besagten Überlagerungszuordnung erhalten bleibt, existieren, bei denen die Komponenten eines zusammenhängenden Teils der Referenzstruktur einem zusammenhängenden Teil der Vergleichsstruktur zugeordnet werden, das Qualitätsmaß für diese möglichen erweiterten Überlagerungszuordnungen abgeschätzt wird und diese erweiterten Überlagerungszuordnungen in späteren Iterationen nicht berücksichtigt werden, wenn die Abschätzung ergibt, daß das Qualitätskriterium nicht erfüllt werden kann, zum Beispiel weil das Qualitätsmaß schlechter ist als die N besten Werte des Qualitätsmaßes, die bislang ermittelt wurden.The invention may provide that, for a superposition assignment of a reference structure to a comparison structure in which the components of the reference structure which are assigned components of the comparison structure form a contiguous subsection of the reference molecule, it is checked which extended superposition assignments in which the assignment of the components corresponds of the above overlay assignment, where the components of a contiguous portion of the reference structure are assigned to a contiguous portion of the compare structure, the quality measure for these possible extended overlay assignments is estimated and these extended overlay assignments are not taken into account in later iterations, if the estimate indicates that the quality criterion can not be met, for example because the quality measure is worse than the N best values of the quality measure that has been determined so far.

Dieses Abschneidekriterium ist zum Beispiel dann sinnvoll, wenn die Erweiterung der Überlagerungszuordnung entlang einer linearen Kette von Atomen, oder, allgemeiner gesprochen, Komponenten vorgenommen wird. In diesem Fall kann man absehen, mit wie vielen Erweiterungen um jeweils eine weitere Komponente bzw. ein weiteres Atom man zu dem Ende der Kette gelangt, an dem die Überlagerungszuordnung, jedenfalls in diese Richtung, nicht erweitert werden kann. In diesem Fall kann man die möglichen Erweiterungen der Überlagerungszuordnungen bestimmen und hierfür einfache Abschätzungen vornehmen. Wenn beispielsweise die vorangehend genannten Formel (1) verwendet wird, gilt in jedem Fall SC ≤ NÜ/NMmin. (2) This cut-off criterion is useful, for example, if the extension of the overlay assignment is made along a linear chain of atoms or, more generally, components. In this case, one can foresee with how many extensions one more component at a time or one further atom one arrives at the end of the chain at which the overlay assignment, at least in this direction, can not be extended. In this case, one can determine the possible extensions of the overlay mappings and make simple estimates for this. For example, when the above-mentioned formula (1) is used, in any case SC ≤ N Ü / N Mmin . (2)

Wenn rmsd den quadratischen mittleren Abstand für diejenige gegenseitige Orientierung der Referenzstruktur und der Vergleichsstruktur angibt, bei welcher alle Komponenten in der Überlagerungszuordnung mit NÜ überlagerten Komponenten bestmöglichst zur Deckung gebracht werden, so kann der Beitrag des Quadrats der Differenzen dieser Abstände zu dem quadratischen mittleren Abstand für eine erweiterte Überlagerungszuordnung, bei der m weitere Atome hinzugekommen sind, nur größer sein. Andererseits kann der Beitrag, den die hinzugekommenen Komponenten leisten, minimal 0 sein.If rmsd indicative of the square mean distance for that mutual orientation of the reference structure and the comparison structure in which all the components are brought to cover the best possible way in the overlay mapping with N Ü superimposed components, so the contribution of the square of the differences of the distances to the square average distance for an extended overlay assignment, in which m more atoms have been added, only be larger. On the other hand, the contribution made by the added components can be minimally zero.

Dementsprechend läßt sich der mittlere Abstand für eine Überlagerungszuordnung mit NÜ + m Komponenten, rmsd (NÜ + m), durch den quadratischen mittleren Abstand für eine Überlagerungszuordnung mit NÜ Komponenten, rmsd (NÜ), wie folgt abschätzen:

Figure 00260001
Correspondingly, the mean distance for an overlay assignment with N Ü + m components, rmsd (N Ü + m), can be estimated by the square mean distance for an overlay assignment with N Ü components, rmsd (N Ü ), as follows:
Figure 00260001

Mit (2) und/oder (3) kann man zum Beispiel das Qualitätsmaß SC nach oben abschätzen.With (2) and / or (3) it is possible, for example, to estimate the quality dimension SC upward.

Eine weitere Möglichkeit, den Beitrag von rmsd in (1) abzuschätzen, besteht darin, daß man den quadratischen mittleren Abstand durch die Differenz inneratomarer Abstände abschätzt. Es läßt sich zeigen, daß der Beitrag zum mittleren Abstand einer Überlagerungszuordnung zweier beliebiger Paare von Komponenten durch die Differenz der Abstände der jeweiligen Komponenten in dem jeweiligen Molekül nach unten abgeschätzt werden kann.Another way of estimating the contribution of rmsd to (1) is to estimate the mean squared distance by the difference of intra-atomic distances. It can be shown that the contribution to the mean distance of an overlay assignment of any two pairs of components can be estimated downwards by the difference in the distances of the respective components in the respective molecule.

Die Erfindung kann vorsehen, daß für alle Konformere des Referenzmoleküls bzw. der Vergleichsmoleküle für die Abstände der Atome in dem jeweiligen Molekül Abstandsintervalle gespeichert sind, welche die Obergrenze und die Untergrenze dieses Abstandes für alle Konformere angibt,
und daß bei der Abschätzung des Qualitätsmaßes für eine Überlagerungszuordnung eines Konformers eines Referenzmoleküls mit einem Konformer eines Vergleichsmoleküls eine Abschätzung des Qualitätsmaßes dadurch berechnet wird, daß auf der Grundlage der besagten Bereichsgrenzen das beste Qualitätsmaß berechnet wird, das sich für beliebige Werte innerhalb der Grenzen der Abstandsintervalle für die inneratomaren Abstände ergibt und überprüft wird, ob dieses bestmögliche Qualitätsmaß das Qualitätskriterium erfüllt, zum Beispiel indem dieses bestmögliche Qualitätsmaß mit dem geltenden optimalen Wert des Qualitätsmaßes bzw. den N geltenden optimalen Werten des Qualitätsmaßes verglichen wird.
The invention can provide that for all conformers of the reference molecule or the comparison molecules for the distances of the atoms in the respective molecule distance intervals are stored, which indicates the upper limit and the lower limit of this distance for all conformers,
and that in estimating the quality measure for an overlay assignment of a conformer of a reference molecule with a conformer of a comparison molecule, an estimate of the quality measure is calculated by calculating, on the basis of said area boundaries, the best quality measure that results for any values within the limits of the spacing intervals for the intra-atomic distances, and checking whether that best possible quality measure meets the quality criterion, for example by giving that best possible quality measure is compared with the applicable optimal value of the quality measure or the N applicable optimal values of the quality measure.

Ist dieser Wert schlechter, im Falle der Formel (1) beispielsweise kleiner als der beste gespeicherte Wert des Qualitätsmaßes SC, muß man das Qualitätsmaß für die einzelnen Paare von Konformeren nicht mehr berechnen. Ist dieser bestmögliche Wert besser als der beste gespeicherte Wert oder einer der N besten gespeicherten Werte, kann man unter den möglichen Paaren von Konformeren dasjenige ermitteln, welches den besten Wert des Qualitätsmaßes ergibt. Es kann dabei vorgesehen sein, innerhalb der besagten Abstandsintervalle Unterintervalle vorab zu definieren, welche nur den Wertebereich der Atomabstände für eine bestimmte Gruppe von Konformeren in dem Molekül abdecken. Stellt sich heraus, daß für ein solches Unterintervall der bestmögliche Wert schlechter als der beste Wert ist, muß das Paar von Konformeren mit dem besten Wert außerhalb dieser Gruppe liegen.If this value is worse, in the case of formula (1), for example, smaller than the best stored value of the quality measure SC, one no longer needs to calculate the quality measure for the individual pairs of conformers. If this best possible value is better than the best stored value or one of the N best stored values, one can determine among the possible pairs of conformers that which gives the best value of the quality measure. It may be provided to define in advance within the intervals mentioned subintervals, which cover only the range of values of the atomic distances for a particular group of conformers in the molecule. If it turns out that for such a subinterval the best possible value is worse than the best value, then the pair of conformers with the best value must be outside this group.

Die Erfindung stellt auch ein Computersystem zum Durchführen eines iterativen Verfahrens zum Auffinden von Molekülen mit strukturellen Ähnlichkeiten zu einem oder mehreren Referenzmolekülen, die mehrere Komponenten aufweist, zur Verfügung, welches umfaßt:
eine Einrichtung zum Speichern von Informationen zu einer oder mehreren Referenzstrukturen, welche jeweils eine Struktur eines Referenzmoleküls darstellen, wobei die besagten Informationen die Lage von Komponenten in dem Referenzmolekül gemäß dieser Referenzstruktur, insbesondere in einem dreidimensionalen Raum, angeben, und von Informationen zu mehreren Vergleichsstrukturen, welche jeweils eine Struktur eines Vergleichsmoleküls darstellen, wobei die zugehörigen Informationen die Lage von Komponenten in dem Vergleichsmolekül in dieser Vergleichsstruktur, insbesondere in einem dreidimensionalen Raum, angeben,
mit einer Einrichtung zum Vergleichen eines Teils eines Referenzmoleküls und eines Teils eines Vergleichsmoleküls in einer Iteration des Verfahrens, die jeweils einen Teil des Referenzmoleküls bzw. des Vergleichsmoleküls enthalten, die in einer früheren Iteration verglichen worden sind,
wobei das Computersystem eine Einrichtung zum Ausführen der folgenden Schritte in mindestens einer Iteration umfaßt:
Auswahl einer ersten Referenzmenge von Komponenten eines Referenzmoleküls, welche einen Teil der Komponenten des Referenzmoleküls enthält, wobei die Anzahl der Komponenten in der ersten Referenzmenge kleiner als die Gesamtzahl der zu vergleichenden Komponenten in dem Referenzmolekül ist,
Auswahl einer ersten Vergleichsmenge von Komponenten eines Vergleichsmoleküls, welche die gleiche Anzahl von Komponenten wie die erste Referenzmenge besitzt,
Bestimmen einer ersten Überlagerungszuordnung für eine erste Referenzstruktur, die dem besagten Referenzmolekül zugeordnet ist, und eine erste Vergleichsstruktur, welche dem besagten Vergleichsmolekül zugeordnet ist, wobei die erste Überlagerungszuordnung jeder Komponente der ersten Referenzmenge umkehrbar eindeutig genau eine Komponente der ersten Vergleichsmenge zuweist,
wobei für mindestens eine weitere, sekundäre Referenzstruktur, welche zumindest eine Teilstruktur aufweist, die zu der primären ersten Referenzstruktur in einer vorgegebenen Kompatibilitätsbeziehung steht, in welcher jede Komponente der ersten Referenzmenge umkehrbar eindeutig genau einer Komponente der besagten Teilstruktur entspricht,
und/oder für mindestens eine weitere, sekundäre Vergleichsstruktur, welche eine Teilstruktur aufweist, die zu der ausgewählten primären Vergleichsstruktur in einer vorgegebenen Kompatibilitätsbeziehung steht, in welcher jede Komponente der ersten Vergleichsmenge umkehrbar eindeutig genau einer Komponente der besagten Teilstruktur entspricht, bestimmt wird:
eine Überlagerungszuordnung für die sekundäre Referenzstruktur und die primäre Vergleichsstruktur, welche für jede Komponente der ersten Referenzmenge die entsprechende Komponente der sekundären Referenzstruktur derjenigen Komponente der ersten Vergleichsstruktur zuweist, welches die erste Überlagerungszuordnung der besagten Komponente der ersten Referenzmenge zuweist,
und/oder
eine Überlagerungszuordnung für die erste Referenzstruktur und die sekundäre Vergleichsstruktur, welche jeder Komponente der ersten Referenzmenge umkehrbar eindeutig genau die Komponente zuweist, welche aufgrund der Kompatibilitätsbeziehung der sekundären Vergleichsstruktur derjenigen Komponente der ersten Vergleichsmenge entspricht, welche die erste Überlagerungszuordnung der betreffenden Komponente der ersten Referenzmenge zuweist,
und/oder
eine Überlagerungszuordnung für die sekundäre Referenzstruktur und die sekundäre Vergleichsstruktur, welche für jede Komponente die ersten Referenzmengen die entsprechende Komponente der sekundären Referenzstruktur derjenigen Komponente der sekundären Vergleichsstruktur zuweist, welche der Komponente der ersten Vergleichsstruktur entspricht, welche die erste Überlagerungszuordnung der besagten Komponente der ersten Referenzmenge zuweist,
und das Computersystem weiterhin eine Einrichtung zum Bestimmen oder Abschätzen eines Qualitätsmaßes aufweist, wobei das Computersystem weiterhin dafür eingerichtet ist, in dieser Iteration für eine oder mehrere Referenzmoleküle den Wert des Qualitätsmaßes einer Überlagerungszuordnung einer Struktur dieses Referenzmoleküls mit einer Struktur eines Vergleichsmoleküls zusammen mit der zugehörigen Überlagerungszuordnung als geltenden optimalen Wert des Qualitätsmaßes oder als einen der geltenden optimalen Werte des Qualitätsmaßes zu speichern, falls ein Qualitätskriterium für den oder die geltenden optimalen Werte des Qualitätsmaßes erfüllt ist.
The invention also provides a computer system for performing an iterative method of finding molecules with structural similarities to one or more reference molecules having multiple components comprising:
a device for storing information on one or more reference structures, which each represent a structure of a reference molecule, said information indicating the position of components in the reference molecule according to this reference structure, in particular in a three-dimensional space, and information on a plurality of comparison structures, each representing a structure of a comparison molecule, the associated information indicating the position of components in the comparison molecule in this comparison structure, in particular in a three-dimensional space,
with a device for comparing a part of a reference molecule and a part of a comparison molecule in an iteration of the method, each containing a part of the reference molecule or of the comparison molecule which have been compared in an earlier iteration,
the computer system comprising means for performing the following steps in at least one iteration:
Selecting a first reference amount of components of a reference molecule containing a portion of the components of the reference molecule, wherein the number of components in the first reference set is less than the total number of components to be compared in the reference molecule,
Selecting a first comparison set of components of a comparison molecule having the same number of components as the first reference set,
Determining a first overlay mapping for a first reference structure associated with said reference molecule, and a first comparison structure associated with said comparison molecule, wherein the first overlay map of each component uniquely assigns exactly one component of the first comparison set to the first reference set reversibly;
wherein for at least one further, secondary reference structure having at least one substructure that is in a predetermined compatibility relationship with the primary first reference structure, in which each component of the first reference set is reversibly uniquely exactly corresponding to a component of said substructure,
and / or for at least one further secondary comparison structure having a substructure that is in a predetermined compatibility relationship with the selected primary comparison structure in which each component of the first comparison set is reversibly and uniquely exactly corresponding to a component of said substructure:
an overlay allocation for the secondary reference structure and the primary comparison structure, which for each component of the first reference set assigns the corresponding component of the secondary reference structure to that component of the first comparison structure which assigns the first overlay assignment of the said component to the first reference set,
and or
an overlay allocation for the first reference structure and the secondary comparison structure which reversibly assigns to each component of the first reference quantity exactly the component which, due to the compatibility relationship of the secondary comparison structure, corresponds to that component of the first comparison set which the first allocation assignment of the relevant component assigns to the first reference quantity,
and or
an overlay assignment for the secondary reference structure and the secondary comparison structure, which for each component the first reference sets the corresponding component of the secondary ones Assigns the reference structure to that component of the secondary comparison structure which corresponds to the component of the first comparison structure which assigns the first overlay assignment of said component to the first reference set,
and the computer system further comprises means for determining or estimating a quality measure, wherein the computer system is further adapted, in that iteration, for one or more reference molecules, the value of the quality measure of an overlay assignment of a structure of that reference molecule having a structure of a comparison molecule together with the associated overlay assignment to store as the applicable optimum value of the quality measure or as one of the applicable optimal values of the quality measure, if a quality criterion for the applicable or the applicable optimal values of the quality measure is fulfilled.

Ein Computersystem ist dabei als geeignete Datenverarbeitungseinrichtung anzusehen. Es kann insbesondere mehrere Computer umfassen, die miteinander zusammenwirken, aber auch nur aus einem Computer bestehen.A computer system is to be regarded as a suitable data processing device. In particular, it can comprise a plurality of computers which interact with one another, but also consist of only one computer.

Ein erfindungsgemäßes Computersystem kann eine oder mehrere Einrichtungen zum Durchführen eines Verfahrens wie vorangehend umschrieben aufweisen.A computer system according to the invention may include one or more devices for performing a method as described above.

Die Erfindung stellt auch ein Computerprogramm zur Verfügung, welches Anweisungen für ein Computersystem enthält, die, wenn sie auf einem Computersystem ausgeführt werden, das Computersystem veranlassen, ein Verfahren wie vorangehend beschrieben auszuführen.The invention also provides a computer program that includes instructions for a computer system that, when executed on a computer system, cause the computer system to perform a method as described above.

Die Erfindung stellt auch ein computerlesbares Speichermedium zur Verfügung, bei dem, insbesondere in maschinenlesbarer Form, ein Programm wie vorangehend beschrieben gespeichert ist.The invention also provides a computer readable storage medium in which, especially in machine readable form, a program as described above is stored.

Dieses computerlesbare Medium kann insbesondere computerlesbaren Programmcode enthalten, der, wenn er von einem Computer ausgeführt, den Computer veranlaßt, ein Verfahren wie vorangehend beschrieben auszuführen.In particular, this computer readable medium may contain computer readable program code which, when executed by a computer, causes the computer to perform a method as described above.

Das erfindungsgemäße Verfahren beruht auf der Erkenntnis, daß chemische Ähnlichkeiten der verglichenen Strukturen, etwa die strukturelle Ähnlichkeit von Konformeren, in vorteilhafter Weise benutzt werden können, um einerseits Rechenschritte, die sich für solche chemisch ähnlichen Strukturen wiederholen, einzusparen, indem die Verarbeitung von Paaren entsprechender Strukturen in dem gleichen Verfahrensabschnitt erfolgt, und andererseits aber auch, das Branch and Bound-Verfahren wesentlich effizienter zu gestalten, da zu erwarten ist, daß jedenfalls bis zu einem gewissen Grade derartige ähnliche Strukturen zu einem ähnlichen Qualitätsmaß führen und dementsprechend Abschätzungen für eine Gruppe von ähnlichen Paaren von Strukturen kollektiv für diese Gruppe durchgeführt werden können. Weiterhin kann in dem sogenannten Bound-Schritt des Branch and Bound-Verfahrens, in dem entschieden wird, ob eine Erweiterung der Teillösung zu einem besseren Ergebnis führt, häufig eine Gruppe von Paaren solcher ähnlicher Strukturen kollektiv ausgeschieden werden kann. Die Kompatibilitätsbeziehung läßt sich in geeigneter Weise definieren, beispielsweise daß die einander ähnlichen Strukturen Konformere sind, daß die relativen Abstände bestimmter Atome nur innerhalb einer bestimmten Bandbreite voneinander abweichen oder dergleichen. Bei dem erfindungsgemäßen Verfahren wird vorzugsweise nach einer geometrisch ähnlichen Struktur durch eine Überlagerung gesucht. Dabei versucht man, vereinfacht gesprochen, die jeweiligen Referenzstruktur und die jeweilige Vergleichsstruktur so gut wie möglich zur Deckung zu bringen. Bei einer Überlagerung wird zunächst eine Überlagerungszuordnung festgelegt, in der die Komponenten der einen Struktur den Komponenten der anderen Struktur zugeordnet werden. In einem zweiten Schritt müssen dann die ausgewählten und durch die Überlagerungszuordnung einander zugeordneten Paare von Komponenten bestmöglich zur Deckung gebracht werden, indem eine der Strukturen im dreidimensionalen Raum einer geeigneten Transformation (Translation und Rotation im dreidimensionalen Raum) unterzogen wird. Qualitätsmaß für diesen Schritt ist der mittlere quadratische Abstand der überlagerten Komponenten (rmsd).The inventive method is based on the recognition that chemical similarities of the structures compared, such as the structural similarity of conformers, can be used advantageously to one hand to save computational steps that repeat themselves for such chemically similar structures by the processing of pairs of corresponding Structures in the same part of the process, on the other hand, but also to make the branch and bound process much more efficient, since it is expected that at least to some extent similar structures lead to a similar quality measure and accordingly estimates for a group of similar pairs of structures can be collectively performed for this group. Furthermore, in the so-called bound step of the branch and bound method, in which it is decided whether an extension of the partial solution leads to a better result, often a group of pairs of such similar structures can be collectively eliminated. The compatibility relationship may be appropriately defined, for example, that the similar structures are more conformers, that the relative distances of particular atoms differ only within a certain range, or the like. In the method according to the invention is preferably searched for a geometrically similar structure by a superposition. At the same time, in simplified terms, attempts are made to bring the respective reference structure and the respective comparison structure as close as possible to one another. An overlay first determines an overlay mapping that maps the components of one structure to the components of the other structure. In a second step, the selected pairs of components, which are assigned to one another by the overlay allocation, must then be matched as best as possible by subjecting one of the structures in three-dimensional space to a suitable transformation (translation and rotation in three-dimensional space). Quality measure for this step is the mean square distance of the superposed components (rmsd).

Die Berechnung derjenigen Transformationen, die zu einer gegebenen Überlagerungszuordnung der Komponenten der einen Struktur zu den Komponenten der anderen Struktur den kleinstmöglichen mittleren quadratischen Abstand rmsd liefert, kann mit Verfahren nach dem Stand der Technik effizient gelöst werden, vgl. zum Beispiel S. Umeyama, Least-squares estimation of transformation Parameters between two-point patterns, IEEE Transactions an Pattern Analysis and Machine Intelligence, 13 (1991), S. 376–380.The calculation of those transformations which for a given overlay assignment of the components of one structure to the components of the other structure yields the smallest possible mean square distance rmsd can be solved efficiently with methods according to the prior art, cf. See, for example, S. Umeyama, Least-squares estimation of transformation Parameters between two-point patterns, IEEE Transactions on Pattern Analysis and Machine Intelligence, 13 (1991), pp. 376-380.

Gemäß einer bevorzugten Ausführungsform der Erfindung werden zwei Strukturen als einander ähnlich im Sinne des Vergleichs betrachtet, wenn zum einen die Überlagerung groß ist, d. h. wenn möglichst viele Komponenten der einen Struktur solchen der anderen zugeordnet werden können und andererseits diese Komponenten, wenn sie der vorangehend erwähnten Translation und Rotation unterzogen worden sind, um sie bestmöglich zur Deckung zu bringen, möglichst nahe beieinander liegen. Im allgemeinen sind diese Ziele nicht immer gleichzeitig zu erreichen, da rmsd tendenziell um so größer wird, je mehr Komponenten einander in einer Überlagerung zugeordnet werden.According to a preferred embodiment of the invention, two structures are considered to be similar to each other in the sense of comparison, on the one hand, the superposition is large, that is, as many as possible Components of one structure can be assigned to those of the other and, on the other hand, these components, when subjected to the above-mentioned translation and rotation in order to bring them as well as possible, are as close as possible to each other. In general, these goals are not always achievable at the same time, because rmsd tends to become larger the more components are allocated to each other in a superposition.

Das vorangehend genannte Qualitätsmaß SC gemäß Formel (1) trägt dieser Gegenläufigkeit Rechnung. Es berücksichtigt einerseits, daß möglichst viele Komponenten überlagert werden sollen und andererseits die geometrischen Abweichungen zwischen einander entsprechenden Komponenten nicht allzu groß sein dürfen, wenn die beiden Strukturen (Referenzstruktur und Vergleichsstruktur) in optimaler Weise zur Deckung gebracht worden sind.The aforementioned quality measure SC according to formula (1) takes account of this contradiction. It takes into account, on the one hand, that as many components as possible should be superimposed and, on the other hand, that the geometrical deviations between corresponding components should not be too great, if the two structures (reference structure and comparison structure) have been brought to coincidence in an optimum manner.

Erfindungsgemäß kann vorgesehen sein, daß außer der geometrischen Struktur in dem Qualitätsmaß und/oder bei der Kompatibilitätsbeziehung weitere Größen, beispielsweise chemische oder biochemische Größen, berücksichtigt werden, die es gestatten, chemisch nicht sinnvolle Lösungen von vornherein auszuscheiden. Dies kann die Rechenzeit noch einmal erheblich verkürzen.According to the invention it can be provided that, apart from the geometric structure in the quality measure and / or in the compatibility relationship, further variables, for example chemical or biochemical variables, are taken into account, which make it possible to exclude chemically meaningful solutions from the outset. This can reduce the computing time considerably.

Gemäß einem vorteilhaften Aspekt der Erfindung werden nicht alle möglichen Zuordnungen von Komponenten der einen Struktur zu Komponenten der anderen Struktur zum Vergleich zugelassen. Gemäß einer bevorzugten Ausführungsform wird als Eingabe zu jedem Molekül auch dessen Bindungsstruktur gespeichert. Dies wird ausgenutzt, um die Menge aller potentiellen Überlagerungszuordnungen dahingehend einzuschränken, daß bei der Überlagerung zusammenhängende Teilstrukturen, d. h. Teilstrukturen, bei denen zwischen den Komponenten Bindungen derart bestehen, daß jeder Teil der Teilstruktur mit dem Rest der Teilstruktur über wenigstens eine Bindung verbunden ist, auf zusammenhängende Teilstrukturen der anderen Struktur abgebildet werden.According to an advantageous aspect of the invention, not all possible assignments of components of one structure to components of the other structure are allowed for comparison. According to a preferred embodiment, the binding structure is also stored as input to each molecule. This is exploited to limit the set of all potential overlay mappings so that subset related substructures, i. H. Substructures in which bonds between the components are such that each part of the substructure is connected to the remainder of the substructure via at least one bond, to be mapped onto contiguous substructures of the other structure.

Mathematisch bedeutet dies eine gewisse Approximation. Aus chemischer oder biologischer Sicht sind jedoch in aller Regel die optimalen Paare von Strukturen solche, bei denen solche zusammenhängenden Teilstrukturen einander zugeordnet sind. Testrechnungen der Erfinder haben weiterhin gezeigt, daß selbst dann, wenn das Verfahren ohne die Einschränkung, daß nur Komponenten aus zusammenhängenden Teilstrukturen der jeweiligen Moleküle einander zugeordnet werden, nur in äußerst wenigen Fällen solche Überlagerungszuordnungen zu optimalen Lösungen führen, die diese Einschränkungen nicht erfüllen.Mathematically, this means a certain approximation. From a chemical or biological point of view, however, as a rule, the optimal pairs of structures are those in which such contiguous substructures are associated with each other. Test calculations of the inventors have further shown that even if the method without the restriction that only components of contiguous substructures of the respective molecules are assigned to each other, only in very few cases such overlay assignments lead to optimal solutions that do not meet these limitations.

Gemäß einer bevorzugten Ausführungsform der Erfindung, bei der das Kompatibilitätskriterium beinhaltet, daß die vergleichbare oder kompatible Struktur ein Konformer ist, kann der Suchraum wesentlich dadurch reduziert werden, daß die Überlagerungszuordnung der Atome nur anhand der Bindungsstruktur der Moleküle, simultan für alle Konformationspaare, betrachtet wird. Gewissermaßen werden hierbei verschiedene Enumerationsbäume, die jeweils einem Konformerpaar entsprechen, übereinandergelegt.According to a preferred embodiment of the invention in which the compatibility criterion implies that the comparable or compatible structure is a conformer, the search space can be substantially reduced by considering the overlay assignment of the atoms only on the basis of the bonding structure of the molecules, simultaneously for all conformational pairs , In a sense, different enumeration trees, each corresponding to a conformer pair, are superimposed.

Vorteilhafterweise wird die Enumeration der Atomzuordnungen so angelegt, daß jede mögliche Zuordnung nur genau einmal erzeugt wird und kein aufwendiges Zwischenspeichern von Teilzuordnungen während der Enumeration notwendig ist.Advantageously, the enumeration of the atomic mappings is designed so that each possible mapping is generated only once and no cumbersome caching of partial mappings during enumeration is necessary.

Beispielsweise kann wie folgt vorgegangen werden. Die Menge der zusammenhängenden Teilstrukturen, die sich sowohl in einer Referenzstruktur als auch in einer Vergleichsstruktur wiederfinden und also einander zugeordnet werden können, und die gleichzeitig dadurch gekennzeichnet sind, daß sie je eine eindeutig spezifizierte Komponente der Referenzstruktur bzw. der Vergleichsstruktur enthalten, können in eindeutiger Weise identifiziert werden mit einer Kollektion von Mengen, die ihrerseits dadurch gekennzeichnet sind, daß sie jeweils aus den Komponenten der Referenzstruktur bzw. der Vergleichsstruktur bestehen, die zu der eindeutig spezifizierten Komponente einen eindeutigen Abstand gemäß der Bindungsstruktur haben.For example, the procedure may be as follows. The set of contiguous substructures, which can be found both in a reference structure and in a comparison structure and thus can be assigned to one another, and which are simultaneously characterized in that they each contain a clearly specified component of the reference structure or the comparison structure, can be identified more clearly Be identified with a collection of sets, which in turn are characterized in that they each consist of the components of the reference structure or the comparison structure, which have a clear distance to the uniquely specified component according to the binding structure.

Diese Kollektion von Mengen läßt sich nun durch eine einfache Rekursion eindeutig erzeugen, und somit auch die entsprechenden zusammenhängenden Teilstrukturen, die diese eindeutig spezifizierten Komponenten enthalten.This collection of sets can now be uniquely generated by a simple recursion, and thus also the corresponding contiguous substructures containing these uniquely specified components.

Ist zusätzlich eine strikte Ordnung auf allen Paaren von Komponenten, eine aus der Referenzstruktur, eine aus der Vergleichsstruktur, definiert, so können alle diese Paare in einer eindeutigen Reihenfolge als die oben angesprochenen eindeutig spezifizierten Komponenten der Referenzstruktur bzw. der Vergleichsstruktur benutzt werden. Auf diese Weise kann dann in der Enumeration vermieden werden, daß die gleichen zusammenhängenden Teilstrukturen mehrfach erzeugt werden.In addition, if a strict order is defined on all pairs of components, one from the reference structure, one from the comparison structure, then all of these pairs can be used in a unique order as the uniquely specified components of the reference structure and the comparison structure discussed above. In this way it can then be avoided in the enumeration that the same contiguous substructures are generated multiple times.

Für das Ausscheiden von erweiterten Überlagerungszuordnungen können unter anderem die folgenden Abschätzungen verwendet werden:

  • 1. Keine Lösung kann besser sein als der Beitrag des ersten Terms in (1), d. h. die Anzahl der zugeordneten Atome muß groß genug sein (unabhängig von den Konformeren).
  • 2. Es wird angenommen, daß die noch nicht zugeordneten Atome alle verlustfrei, d. h. mit zusätzlichem rmsd = 0, zugeordnet werden können (unabhängig von den Konformeren).
  • 3. Der zu erwartende rmsd-Wert von noch nicht zugeordneten Atomen kann durch Betrachtung der interatomaren Abstände von je zwei Atomen in jedem Molekül (und für jedes noch aktuelle Konformer) nach unten abgeschätzt werden, d. h. man kann auf diese Weise den mindestens auftretenden zusätzlichen rmsd-Wert bestimmen. Allgemein läßt sich sagen, daß hohe Unterschiede der interatomaren Abstände in den Molekülen zu hohen rmsd-Werten führen. Dies macht man sich bei der erfindungsgemäßen Methode zunutze.
  • 4. Anstatt interatomare Abstände für alle Konformerpaare explizit zu betrachten, speichert man vor Beginn des Enumerationsprozesses für jedes Paar von Atomen in einem Molekül dasjenige Intervall, das alle auftretenden Abstände dieser beiden Moleküle über alle Konformere enthält (in dem später erläuterten Fallbeispiel (vgl. 3) sind zum Beispiel Atom 12 und Atom 4 immer mindestens 3,70 Å und höchstens 5,55 Å voneinander entfernt). Eine solche Information macht es möglich, ohne aufwendige Berechnungen zu entscheiden, ob eine Erweiterung der Zuordnung der Komponenten noch sinnvoll ist, so die betrachteten Intervalle in den beiden Molekülen z. B. disjunkt sind. In vielen Fällen kann der entstehende rmsd-Wert schon aufgrund einer solchen Abschätzung gut genug von unten abgeschätzt werden. Auch können die zugehörigen Distanzmatrizen im Laufe der Enumeration mit Informationen des vorherigen Schrittes (d. h. einzelne Konformerpaare sind als nicht mehr relevant ausgeschieden) aktualisiert werden, was zu präziseren Aussagen führt.
  • 5. Die Lage der noch nicht überlagerten Komponenten der Moleküle relativ zum bereits überlagerten Anteil (sowohl topologisch als auch geometrisch betrachtet) liefert zusätzliche Information über die Größe einer potentiell noch gewinnbringenden Erweiterung.
The following estimates can be used for exiting extended overlay mappings, among others:
  • 1. No solution can be better than the contribution of the first term in (1), ie the number of atoms assigned must be large enough (regardless of the conformers).
  • 2. It is assumed that the unassigned atoms can all be assigned without loss, ie with additional rmsd = 0 (independent of the conformers).
  • 3. The expected rmsd value of unassigned atoms can be estimated by observing the interatomic distances of every two atoms in each molecule (and for each still current conformer) down, ie, one can in this way determine the minimum additional rmsd Determine value. In general, high differences in the interatomic distances in the molecules lead to high rmsd values. This is made use of in the method according to the invention.
  • 4. Instead of explicitly considering interatomic distances for all pairs of conformers, one stores for each pair of atoms in a molecule the interval before the beginning of the enumeration process, which contains all occurring distances of these two molecules across all conformers (in the later explained case study (cf. 3 For example, atom 12 and atom 4 are always at least 3.70 Å and at most 5.55 Å apart. Such information makes it possible to decide without elaborate calculations whether an extension of the assignment of the components still makes sense, so the intervals considered in the two molecules z. B. disjoint are. In many cases, the resulting rmsd value can already be estimated well enough from below, based on such an estimate. Also, in the course of the enumeration, the associated distance matrices may be updated with information from the previous step (ie, individual conformer pairs are eliminated as no longer relevant), resulting in more precise statements.
  • 5. The position of the not yet superimposed components of the molecules relative to the already superimposed portion (both topologically and geometrically considered) provides additional information about the size of a potentially still profitable extension.

Um effizient zu enumerieren und den Suchraum stark einzuschränken, wird vorzugsweise die Reihenfolge der durchsuchten Möglichkeiten stark an der Zusammenhangsstruktur der Moleküle orientiert.In order to efficiently enumerate and severely limit the search space, preferably the order of the possibilities searched is strongly oriented to the relationship structure of the molecules.

Gelangt die Enumeration an Stellen, an denen alle Atome fest zugeordnet sind (entweder einem bestimmten Atom des anderen Moleküls oder eben keinem anderen Atom), kann eine Situation eintreten, in der für beide Moleküle noch mehrere Überlagerungszuordnungen, zum Beispiel mehrere Paare von Konformeren, zulässig sind. Eine exakte (aber aufwendige) Berechnung des Qualitätsmaßes ist in diesem Fall nicht unbedingt erforderlich. Man kann sich in dieser Situation Techniken bedienen, mit denen das Qualitätsmaß abgeschätzt wird und die denen zu Punkt 3 und 4 (s. o.) ähneln können. Auf diese Weise können einerseits schnell die aussichtsreichen exakten Berechnungen von (1) zuerst durchgeführt werden, andererseits kann so der Wert der bisher besten bekannten Lösung früher erhöht werden, was wiederum die Strategien für den Bound-Schritt effizienter macht.If the enumeration occurs at sites where all atoms are firmly assigned (either to a particular atom of the other molecule or not to any other atom), a situation may arise in which more overlay assignments, such as multiple pairs of conformers, are allowed for both molecules are. An exact (but expensive) calculation of the quality measure is not absolutely necessary in this case. In this situation one can use techniques with which the quality measure is estimated and which can be similar to those of items 3 and 4 (see above). In this way, on the one hand, the promising exact calculations of (1) can be performed first, on the other hand, on the other hand, the value of the best known solution so far can be increased earlier, which in turn makes the strategies for the bound step more efficient.

Gemäß einer weiteren Ausführungsform der Erfindung werden nur solche Überlagerungen gesucht, deren Qualitätsmaß besser als ein vorgegebener Wert des Qualitätsmaßes ist. Beispielsweise kann, wenn das Qualitätsmaß gemäß (1) verwendet wird, vorgegeben sein, daß die aufgefundene optimale Zuordnung einen Wert von SC aufweisen muß, der größer oder gleich als ein Minimalwert, SCmin, ist. Bei dieser Ausführungsform kann man bereits zu Beginn den Wert des Qualitätsmaßes auf den Wert für die gewünschte Mindestqualität setzen, also bei dem vorangehenden Beispiel auf den Wert SCmin. Dies beschleunigt die Enumeration erheblich.According to a further embodiment of the invention, only such overlays are sought whose quality measure is better than a predetermined value of the quality measure. For example, when the quality measure according to (1) is used, it may be set that the found optimal allocation must have a value of SC that is greater than or equal to a minimum value, SC min . In this embodiment, one can set the value of the quality measure to the value for the desired minimum quality already at the beginning, ie in the preceding example to the value SC min . This significantly speeds up the enumeration.

Das erfindungsgemäße Verfahren hat den Vorteil, daß auch sehr unterschiedlich große Moleküle miteinander verglichen werden können. Obwohl das benutzte Qualitätsmaß weder monoton noch additiv ist, was bedeutet, daß gute Teillösungen nicht notwendigerweise zu guten Lösungen erweiterbar sind oder umgekehrt und die Qualität einer Lösung sich nicht durch die Qualität der Teillösungen bestimmt, ist es möglich, in effizienter Weise global optimale Lösungen, die ein chemisch sinnvolles Ergebnis liefern, zu berechnen. Dadurch, daß simultan alle Paare von Konformeren zweier betrachteter Moleküle behandelt werden können, wird ein enormer Geschwindigkeitsgewinn bei der Verarbeitung erzielt. Beispielsweise kann bei etwa 100 Konformeren pro Molekül mit dem erfindungsgemäßen Verfahren die Rechenzeit um einen Faktor 10.000 gegenüber einem Verfahren verkürzt werden, bei dem die einzelnen Konformerpaare separat verglichen werden.The inventive method has the advantage that even very different sized molecules can be compared. Although the quality measure used is neither monotonic nor additive, which means that good partial solutions are not necessarily expandable to good solutions or vice versa and the quality of a solution is not determined by the quality of the partial solutions, it is possible to efficiently design globally optimal solutions. which provide a chemically meaningful result. By being able to treat simultaneously all pairs of conformers of two considered molecules, a tremendous speed gain in processing is achieved. For example, with about 100 conformers per molecule with the method according to the invention, the calculation time can be shortened by a factor of 10,000 compared to a method in which the individual pairs of conformers are compared separately.

Die Erfindung wird nachfolgend anhand eines modellhaften Ausführungsbeispiels mit weiteren Einzelheiten und anhand der beigefügten Zeichnungen näher erläutert.The invention will be explained in more detail below with reference to a model embodiment with further details and with reference to the accompanying drawings.

1 zeigt die als Eingabe bei dem Ausführungsbeispiel verwendeten Konformere für NCI ID 52050 (oben) und für NCI ID 95173 (unten). 1 shows the conformers used as input in the embodiment for NCI ID 52050 (above) and for NCI ID 95173 (below).

2 zeigt die optimale Überlagerung der Substanzen für das erörterte Ausführungsbeispiel. 2 shows the optimal superposition of the substances for the discussed embodiment.

3 zeigt die Strukturgraphen der Eingabemoleküle, 3 shows the structure graphs of the input molecules,

4 zeigt die ersten fünf Rekursionsschritte, wobei Punkte (...) noch nicht wahrgenommene Branch-Alternativen darstellen, 4 shows the first five recursion steps, where points (...) represent not yet perceived branch alternatives,

5 zeigt den Abstieg auf dem ersten Ast bis zum Ende, wobei die gestrichelten Kästen Branch-Alternativen darstellen, die abgeschnitten werden können, 5 shows the descent on the first branch to the end, with the dashed boxes representing branch alternatives that can be truncated,

6 zeigt einen zweiten Unterbaum der Überlagerung in Schritt 5, 6 shows a second subtree of the overlay in step 5,

7 zeigt die verbleibenden Schritte für das Überlagerungspaar 13A, 7 shows the remaining steps for the overlay pair 13A,

8 zeigt eine Situation, in der eine Überlagerung nicht sinnvoll erweiterbar ist, ohne die bereits überlagerten Atome komplett aus der momentanen Raumlage zu drehen. 8th shows a situation in which an overlay can not be meaningfully expanded without completely turning the already superimposed atoms out of the current spatial position.

Nachfolgend wird anhand eines einfachen Beispiels ein typischer Programmablauf eines erfindungsgemäßen Verfahrens erläutert.In the following, a typical program sequence of a method according to the invention will be explained with reference to a simple example.

Als Eingabe dienen die Substanzen NCI ID 52050 und NCI ID 95173 (Quelle: National Cancer Institute), wobei aus Gründen der Übersichtlichkeit nur zwei Konformere pro Substanz ausgewählt wurden. Als Zielfunktionskonstante wurde die Eulersche Zahl (e = 2,71828) gewählt. Beide Moleküle enthalten jeweils 14 Nichtwasserstoffatome, somit gibt es ca. 1,5 1012 mögliche Überlagerungen. Da insgesamt 4 Möglichkeiten bestehen, ein Paar von Konformeren auszuwählen, besitzt der Lösungsraum für diese Eingabe sogar die vierfache Größe.Inputs are the substances NCI ID 52050 and NCI ID 95173 (Source: National Cancer Institute), where for reasons of clarity only two conformers per substance were selected. The target function constant was the Euler number (e = 2.71828). Both molecules each contain 14 non-hydrogen atoms, so there are about 1.5 10 12 possible overlays. Since there are a total of 4 ways to select a pair of conformers, the solution space for this input is even four times larger.

Mit einer einfachen Implementierung des erfindungsgemäßen Verfahrens, welche auf aufwendige Programmierung verzichtet und lediglich erfindungsgemäße Branch-and-Bound-Kriterien und Heuristiken verwendet, wurde ein Ablaufprotokoll für die Eingabe erstellt. Die Implementation findet in lediglich 2753 Rekursionsschritten die optimale Lösung des Überlagerungsproblems mit einem Wert des Qualitätsmaßes von 0.4387. Mit Absicht wurde hierbei ein Beispiel gewählt, welches keine gute (und somit eventuell „offensichtliche”) Lösung besitzt. Die optimale Überlagerung der beiden Substanzen ist in 2 dargestellt. Man erkennt, daß die räumliche Übereinstimmung nur mäßig gut ist.With a simple implementation of the method according to the invention, which dispenses with complex programming and uses only branch-and-bound criteria and heuristics according to the invention, a protocol for the input has been created. The implementation finds in only 2753 recursion steps the optimal solution of the overlay problem with a value of the quality measure of 0.4387. By design, an example was chosen that does not have a good (and thus possibly "obvious") solution. The optimal superposition of the two substances is in 2 shown. It can be seen that the spatial agreement is only moderately good.

Die ersten 28 Rekursionsschritte, die das Verfahren auf dem Branch and Bound-Baum entlangläuft, umfassen bereits einen abgeschlossenen Teilbaum, in welchem konkrete Beispiele zu den verschiedenen Klassen von beschriebenen Bound-Kriterien zur Anwendung kommen. Eine vollständige Darstellung des Ablaufes würde den Rahmen dieser Beschreibung sprengen. Daher beschränkt sich die folgende Darstellung auf diese ersten 28 Rekursionsschritte, um verschiedene Einzelheiten des erfindungsgemäßen Verfahrens zu illustrieren.The first 28 recursion steps that the procedure traverses on the Branch and Bound tree already include a completed subtree that uses concrete examples of the various classes of bound criteria described. A full account of the process would go beyond the scope of this description. Therefore, the following presentation is limited to these first 28 recursion steps to illustrate various details of the method of the invention.

Für die Computerimplementierung wird die Molekularstruktur auf einen Graphen abgebildet. Jedes Atom der beiden Moleküle (Wasserstoffatome ausgenommen) wird mit einem Knoten des Graphen identifiziert, die Atombindungen stellen die Kanten dar. Die entsprechenden Graphen für NCI ID 52050 und NCI ID 95173 sind in dargestellt.For the computer implementation, the molecular structure is mapped to a graph. Each atom of the two molecules (excluding hydrogen atoms) is identified with a node of the graph, the atomic bonds represent the edges. The corresponding graphs for NCI ID 52050 and NCI ID 95173 are in shown.

Des weiteren werden für die einzelnen Konformere die interatomaren Distanzen aller Atompaare (ohne Berücksichtigung von Wasserstoffatomen) berechnet. Diese werden zu einer Matrix mit Intervallen möglicher Abstandswerte zusammengefaßt. In der nachfolgenden Tabelle ist die Distanzmatrix der beiden Konformere der Substanz NCI ID 52050 gezeigt, die bei diesem Ausführungsbeispiel betrachtet werden. Ein Eintrag (i, j) enthält den jeweils kleinsten und größten Wert des euklidischen Abstandes (in Å) der Atome i und j über alle Konformere. Tabelle 1

Figure 00380001
Figure 00390001
Furthermore, the interatomic distances of all atom pairs (without consideration of hydrogen atoms) are calculated for the individual conformers. These are combined into a matrix with intervals of possible distance values. The following table shows the distance matrix of the two conformers of the substance NCI ID 52050, which are considered in this embodiment. An entry (i, j) contains the smallest and largest value of the Euclidean distance (in Å) of the atoms i and j over all conformers. Table 1
Figure 00380001
Figure 00390001

Bemerkenswert ist, daß viele der Intervalle trotz der Beweglichkeit des gesamten Moleküls klein sind, weil lokal betrachtet starre Teilstrukturen, wie Kohlenstoffringe, existieren.It is noteworthy that many of the intervals, despite the mobility of the entire molecule, are small because, locally, rigid substructures such as carbon rings exist.

Das Branching startet mit einer undefinierten Überlagerung und legt schrittweise Zuordnungen von Atomen der einen Substanz zu Atomen der zweiten Substanz fest. Noch nicht überlagerte Atome werden als offene Fälle betrachtet, die gegebenenfalls noch überlagert werden können. Allerdings sind dabei nur Zuordnungen erlaubt, die keine bereits zuvor im Baum betrachtete Überlagerung ergeben können.The branching starts with an undefined superposition and establishes gradual assignments of atoms of one substance to atoms of the second substance. Not yet superimposed atoms are regarded as open cases, which can be superimposed if necessary. However, only assignments are allowed that can not result in overlaying previously considered in the tree.

Diese Einschränkung wird explizit bei der Auswertung aller Bound-Kriterien und Abschätzungen berücksichtigt. Wird an einer Stelle der Ausführung festgestellt, daß die aktuelle Überlagerung nicht mehr hinreichend erweitert oder verbessert werden kann, erfolgt ein Backtracking zur letzten offenen Alternative im Rekursionsbaum.This restriction is explicitly taken into account in the evaluation of all bound criteria and estimates. If it is determined at one point in the execution that the current overlay can no longer be sufficiently extended or improved, backtracking to the last open alternative in the recursion tree takes place.

Zu Beginn wird willkürlich eine Zuordnung eines Atoms festgelegt. Dann werden alle Erweiterungen dieser ersten partiellen Überlagerung gebildet, sofern sie nicht nach einem der erfindungsgemäß vorgesehenen Kriterien verworfen werden können. Dabei wird zuerst entlang gemeinsamer Kanten im Strukturgraphen erweitert (siehe 4). Als Qualitätsmaß (Score) wird die Größe SC, die durch (1) definiert ist, verwendet.At the beginning, an assignment of an atom is arbitrarily determined. Then, all extensions of this first partial overlay are formed, unless they can be discarded according to one of the criteria provided according to the invention. First of all, we extend along common edges in the structure graph (see 4 ). As the score, the size SC defined by (1) is used.

In diesem Beispiel wird mit der Auswahl des Paars 13A (d. h. Atom 13 von NCI ID 52050 wird Atom A von NCI ID 95173 zugeordnet) begonnen. Für einelementige Überlagerungen gilt trivialerweise rmsd = 0, somit ist der Score = 1/14 = 0,0714. In den nächsten vier Schritten wird die Überlagerung zu 2D 3C 4B 13A erweitert. Der Wert des Qualitätsmaßes (Scorewert) der partiellen Überlagerungen verbessert sich kontinuierlich auf 0,2397.In this example, selection of pair 13A (i.e., atom 13 of NCI ID 52050, atom A is assigned by NCI ID 95173) is begun. For single-element overlays, rmsd = 0 is trivially valid, so the score = 1/14 = 0.0714. In the next four steps, the overlay is extended to 2D 3C 4B 13A. The value of the quality measure (score value) of the partial overlays improves continuously to 0.2397.

Im fünften Schritt wird für das Konformerpaar (1,2) eine Differenz der Abstände der Atome 2 und 13 einerseits und D und A andererseits von 1,33409 Å festgestellt. Selbst bei optimaler Überlagerung des Paars 13A 2D ergibt sich ein Beitrag von 1/2 (1,334)2 = 0,8899 zu den Abstandsquadraten. Ohne die Überlagerung dieses Paars ergibt sich ein rmsd-Wert vom Betrag 0,208. Man kann leicht überprüfen, daß für alle erreichbaren Überlagerungsgrößen n gilt, daß

Figure 00400001
In the fifth step, a difference between the distances of atoms 2 and 13 on the one hand and D and A on the other hand of 1.33409 Å is determined for the conformer pair (1, 2). Even with optimal superposition of the pair 13A 2D, there is a contribution of 1/2 (1.334) 2 = 0.8899 to the squared distances. Without superimposing this pair, the rmsd value is 0.208. One can easily verify that for all obtainable overlay sizes n, that
Figure 00400001

Somit muß das Konformerpaar (1, 2) in Erweiterungen dieser Überlagerung nicht mehr betrachtet werden, da der Wert von rmsd eine durch die innermolekularen Atomabstände definierte untere Grenze aufweist, die eine Abschätzung des Qualitätsmaßes für alle zugehörigen erweiterten Überlagerungen gestattet.Thus, the conformer pair (1, 2) no longer needs to be considered in expansions of this overlay, since the value of rmsd has a lower bound defined by the intrinsic atomic distances that allows estimation of the quality measure for all associated extended overlays.

In den folgenden Schritten (5) wird die Überlagerung auf 0F 1E 2D 3C 4B 7G 13A erweitert. Man beachte dabei, daß sich der Score in Schritt 6 gegenüber Schritt 5 verschlechtert. Dies ist jedoch kein hinreichendes Bound-Kriterium, da sich der Score in größeren Überlagerungen wieder verbessern kann. Im Unterbaum von 6 ist nur noch das zweite Konformer der ersten Substanz relevant. Somit kann die Distanzmatrix verschärft werden, was im allgemeinen eine Verkleinerung der Intervalle bedeutet. Da hier nur noch ein weiteres Konformer dieser Substanz eingegeben wurde, werden in diesem Fall aus den Intervallen sogar Punkte.In the following steps ( 5 ) the overlay is extended to 0F 1E 2D 3C 4B 7G 13A. Note that the score deteriorates in step 6 compared to step 5. However, this is not a sufficient bound criterion because the score can improve again in larger overlays. In the subtree of FIG. 6, only the second conformer of the first substance is relevant. Thus, the distance matrix can be tightened, which generally means a reduction of the intervals. Since only one other conformer of this substance has been entered here, in this case the intervals even become points.

Durch Betrachtung der neuen Intervalle können alternative Unterbäume von Schritt 6 und 7 aufgrund der paarweisen Unterschiede in den interatomaren Distanzen komplett abgeschnitten werden.By considering the new intervals, alternative subtrees from step 6 and 7 can be completely cut off due to the pairwise differences in the interatomic distances.

Bis Schritt 8 kann keine Verbesserung gegenüber dem Score aus Schritt 5 mehr erreicht werden. Deshalb erfolgt ein Backtracking zur letzten offenen Alternative dieses Schrittes ( ). In diesem Unterbaum kann der Score auf 0,4273 verbessert werden.Until step 8, no improvement over the score from step 5 can be achieved. Therefore backtracking to the last open alternative of this step takes place ( ). In this subtree, the score can be improved to 0.4273.

Das Branching selbst kann beschleunigt werden, indem Abschätzungen des scores einer partiellen Überlagerung nach oben gemacht werden (Schritte 16 und 19). Beispielsweise kann der Wert von rmsd durch Betrachtung der interatomaren Distanzen nach unten beschränkt werden. Ist diese Schranke zu hoch, um ein neues Optimum zu bilden, kann auf die exakte Berechnung des rmsd-Wertes verzichtet werden.The branching itself can be accelerated by making estimates of the score of a partial overlay upwards (steps 16 and 19). For example, the value of rmsd may be limited by considering the interatomic distances down. If this barrier is too high to form a new optimum, the exact calculation of the rmsd value can be dispensed with.

Der rekursive Abstieg auf einem Ast des Baums kann beendet werden, wenn selbst beim Erweitern der Überlagerung mit allen noch potentiell freien Atomtupeln bei einem angenommenen rmsd-Wert von 0 kein neues Optimum mehr zu erreichen ist. Selbst wenn also alle noch verbleibenden Atome jeweils optimal, d. h. ohne quadratische Abweichung, überlagert werden könnten, also den Beitrag 0 zu dem Wert von rmsd liefern, würde dies immer noch nicht ausreichen, um eine bessere Überlagerung zu erzeugen.The recursive descent on a branch of the tree can be terminated if even with the expansion of the overlay with all still possible free atomic tuples with an assumed rmsd-value of 0 no new optimum can be reached anymore. So even if all remaining atoms are optimally each, d. H. without square deviation, thus providing the contribution 0 to the value of rmsd, this would still not be sufficient to produce a better overlay.

Als Beispiel betrachte man die Überlagerung 0I 1H 2D 3C 4B 7J 13A im Schritt 10, welche einen Score von 0,1865 ergibt (rmsd = 0,9862). Durch Betrachtung der Distanzintervalle wird festgestellt, daß diese Überlagerung maximal auf neun Atome erweiterbar ist. Dadurch verbessert sich der Score im besten Fall auf 0,2694. Der beste bereits gefundene Score (0,304) liegt über diesem Wert, die Rekursion wird hier also abgebrochen.For example, consider the overlay 0I 1H 2D 3C 4B 7J 13A in step 10, which gives a score of 0.1865 (rmsd = 0.9862). By considering the distance intervals it is determined that this superposition is maximally expandable to nine atoms. This improves the score to 0.2694 at best. The best already found score (0.304) is above this value, so the recursion is canceled here.

Nach Schritt 19 erfolgt ein Backtracking zur nächsten Alternative von Schritt 4. Der Score ist durch die Anzahl der überlagerten Atome nach oben beschränkt. Konkret ist der Score SC gemäß Formel (1) nach oben durch das Verhältnis NÜ/NMmin beschränkt. Soll das derzeitige Optimum von 0,4272 überschritten werden, müssen demnach 5 Atome überlagert werden. Deshalb erfolgt im Schritt 20 noch keine Berechnung eines Score-Wertes (vgl. 8). In den Schritten 21–22 muß das Konformerpaar (2,2) nicht zur Score-Berechnung hinzugenommen werden. Eine Abschätzung des erreichbaren Scores aufgrund der innermolekularen Atomabstände für die nächsten zwei Schritte ergibt, daß das Optimum nicht verbessert werden kann. Jedoch kann die Distanzmatrix nicht wie im Schritt 5 verschärft werden, da in einer hinreichend großen Überlagerung immer noch ein Optimum erreicht werden könnte.After step 19, backtracking to the next alternative of step 4 takes place. The score is limited by the number of superimposed atoms upwards. Specifically, the score SC according to formula (1) is limited upwards by the ratio N Ü / N Mmin . If the current optimum of 0.4272 is exceeded, then 5 atoms must be superimposed. Therefore, no calculation of a score value takes place in step 20 (cf. 8th ). In steps 21-22, the conformer pair (2, 2) need not be added to the score calculation. An estimate of the achievable score due to the intra-molecular atomic distances for the next two steps indicates that the optimum can not be improved. However, the distance matrix can not be sharpened as in step 5, since an optimum could still be achieved in a sufficiently large overlay.

Es verbleibt noch ein alternativer Unterbaum von Schritt 3, und zwar eine Erweiterung der Überlagerung 4B 5C 13A. Jedoch ist erkennbar, daß die nicht überlagerten Komponenten der Substanzen eine unterschiedliche Lage besitzen. Aufgrund der Topologie und der Geometrie der beiden Substanzen ist klar, daß eine weitergehende Überlagerung bereits aufgrund der Topologie zu einem derart geringen Wert des Qualitätsmaßes führen wird, daß die entsprechenden Lösungen ausscheiden. 8 zeigt, daß die Überlagerung von 4B 5C 13A nicht sinnvoll erweiterbar ist, ohne die bereits überlagerten Atome komplett aus der momentanen Raumlage zu drehen.There still remains an alternative subtree of step 3, namely an extension of the overlay 4B 5C 13A. However, it can be seen that the non-superimposed components of the substances have a different position. Due to the topology and the geometry of the two substances, it is clear that a further superimposition already due to the topology will lead to such a small value of the quality measure that the corresponding solutions are eliminated. 8th shows that the superimposition of 4B 5C 13A is not meaningfully expandable without completely turning the already superimposed atoms out of the current spatial position.

Bei NCI ID 95173 bilden die verbleibenden Atome eine zusammenhängende Struktur, die mit Atom C verbunden ist, wohingegen die verbleibende Komponente von NCI ID 52050 mit Atom 4 verbunden ist. Bei guter Überlagerung von 4B 5C 13A stehen die beiden Komponenten in unterschiedliche Bereiche des Raums ab (vgl. 8).In NCI ID 95173, the remaining atoms form a contiguous structure connected to atom C, whereas the remaining component of NCI ID 52050 is linked to atom 4. With good superposition of 4B 5C 13A, the two components stand in different areas of the room (see. 8th ).

Somit können die momentan überlagerten Atome in größeren Erweiterungen der betrachteten Teilüberlagerung nicht hinreichend gut aufeinander bewegt werden, ohne an anderer Stelle den rmsd-Wert zu verschlechtern. Da kleine unpassende Teile von Überlagerungen generell verworfen werden können, braucht dieser Teilbaum nicht mehr weiterverfolgt zu werden. Es müssen keine Erweiterungen zu dem Paar 13A mehr erzeugt werden; das Verfahren wird mit einem nächstem Paar fortgesetzt.Thus, the currently superimposed atoms in larger extensions of the considered partial overlay can not be moved sufficiently well on one another without worsening the rmsd value elsewhere. Since small inappropriate parts of overlays can generally be discarded, this subtree no longer needs to be traced. There is no need to create extensions to the pair 13A; the process continues with a next pair.

Bei Betrachtung tiefer Unterbäume ist zu erkennen, daß sich der Wert des Qualitätsmaßes in den „Blättern” gegenüber vorher betrachteten Unterbäumen verbessert (vgl. Unterbaum Schritt 9) oder dem bisherigem Optimum sehr nahe kommt (vgl. Unterbaum Schritt 23). Dies zeigt, daß die aufgestellten Bound-Kriterien gut sind. Des weiteren wird in den ersten 18 Schritten bereits ein Score von 0,4273 erreicht, was die Effektivität der Suchheuristik bestätigt.When looking at deep sub-trees, it can be seen that the value of the quality measure in the "leaves" improves in comparison to previously considered sub-trees (see sub-tree step 9) or comes very close to the previous optimum (see sub-tree step 23). This shows that the established bound criteria are good. Furthermore, a score of 0.4273 is already achieved in the first 18 steps, which confirms the effectiveness of the search heuristic.

Nachdem alle möglichen Paare von Konformeren des Referenzmoleküls und des Vergleichsmoleküls abgearbeitet worden sind, wird der beste aufgefundene Wert des Qualitätsmaßes zusammen mit den zugehörigen Konformeren und der zugehörigen Überlagerungszuordnung ausgegeben, abgespeichert oder in anderer Weise festgehalten.After all possible pairs of conformers of the reference molecule and the comparison molecule have been processed, the best value of the quality measure found together with the associated conformers and the associated overlay assignment is output, stored or otherwise recorded.

Danach wird, sofern die Liste der Vergleichsmoleküle noch nicht abgearbeitet ist, zu dem nächsten Vergleichsmolekül übergegangen. Für den Vergleich dieses Vergleichsmoleküls mit dem Referenzmolekül kann man, unabhängig von den vorangegangenen Vergleichen, in der gleiche Weise wie vorangehend beschrieben vorgehen, d. h. man beginnt mit der Zuordnung eines Atoms des Referenzmoleküls zu einem Atom des Vergleichsmoleküls, setzt den zugehörigen Wert des Qualitätsmaßes als den besten geltenden Wert und arbeitet dann die zugehörigen Erweiterungen dieser Zuordnung ab. Insbesondere wenn man schon eine größere Anzahl von Vergleichen zwischen demselben Referenzmolekül und verschiedenen Vergleichsmolekülen durchgeführt hat, bietet es sich an, die Bedingung zu stellen, daß der Wert des Qualitätsmaßes größer sein muß als der kleinste von M Werten (M ≥ 1), die bislang als jeweils bester Wert bei einem Vergleich des Referenzmoleküls mit einem Vergleichsmolekül ermittelt wurden. Der Rechenaufwand wird dadurch erheblich verkleinert, da eine größere Anzahl von Lösungen in dem Bound-Schritt des Branch-and Bound Verfahrens ausgeschieden werden kann. Gleichzeitig kann man solche Vergleichsmoleküle mit vergleichsweise geringem Aufwand ausscheiden, die gegenüber anderen Vergleichsmolekülen eine schlechtere Lösung darstellen.Thereafter, if the list of comparison molecules has not yet been processed, the next comparison molecule is transferred. For the comparison of this comparison molecule with the reference molecule one can proceed, independently of the previous comparisons, in the same way as described above, d. H. One begins by assigning an atom of the reference molecule to one atom of the comparison molecule, sets the associated value of the quality measure as the best valid value and then works off the associated extensions of this assignment. In particular, if one has already carried out a larger number of comparisons between the same reference molecule and different comparison molecules, it is appropriate to make the condition that the value of the quality measure must be greater than the smallest of M values (M ≥ 1), which hitherto were determined in each case the best value in a comparison of the reference molecule with a comparison molecule. The computational effort is thereby significantly reduced since a larger number of solutions can be eliminated in the bound-step of the branch-and-bound method. At the same time, such comparison molecules can be eliminated with comparatively little effort, which is a worse solution than other comparison molecules.

Die in den Ansprüchen, der Beschreibung und den Zeichnungen offenbarten Merkmale der Erfindung können sowohl einzeln als auch in beliebiger Kombination für die Verwirklichung der Erfindung in ihren verschiedenen Ausführungsformen wesentlich sein.The features of the invention disclosed in the claims, the description and the drawings may be essential both individually and in any combination for the realization of the invention in its various embodiments.

Claims (19)

Iteratives Verfahren zum computergestützten Auffinden eines oder mehrerer Moleküle mit Ähnlichkeiten zu einem oder mehreren Referenzmolekülen, die mehrere Komponenten aufweisen, auf der Grundlage von Informationen zu einer oder mehreren Referenzstrukturen, welche jeweils eine Struktur eines Referenzmoleküls darstellen, wobei die besagten Informationen die Lage von Komponenten in dem Referenzmolekül gemäß dieser Referenzstruktur angeben, und von Informationen zu mehreren Vergleichsstrukturen, welche jeweils eine Struktur eines Vergleichsmoleküls darstellen, wobei die besagten Informationen jeweils die Lage von Komponenten in dem Vergleichsmolekül in dieser Vergleichsstruktur angeben, bei dem in einer Iteration ein Teil eines Referenzmoleküls und ein Teil eines Vergleichsmoleküls verglichen werden, die jeweils einen Teil des Referenzmoleküls bzw. des Vergleichsmoleküls enthalten, die in einer früheren Iteration verglichen worden sind, wobei mindestens eine Iteration des Verfahrens umfaßt: Auswahl einer ersten Referenzmenge von Komponenten eines Referenzmoleküls, welche einen Teil der Komponenten des Referenzmoleküls enthält, wobei die Anzahl der Komponenten in der ersten Referenzmenge kleiner als die Gesamtzahl der zu vergleichenden Komponenten in dem Referenzmolekül ist, Auswahl einer ersten Vergleichsmenge von Komponenten eines Vergleichsmoleküls, welche die gleiche Anzahl von Komponenten wie die erste Referenzmenge besitzt, Bestimmen einer ersten Überlagerungszuordnung für eine erste Referenzstruktur, die dem besagten Referenzmolekül zugeordnet ist, und eine erste Vergleichsstruktur, welche dem besagten Vergleichsmolekül zugeordnet ist, wobei die erste Überlagerungszuordnung jeder Komponente der ersten Referenzmenge umkehrbar eindeutig genau eine Komponente der ersten Vergleichsmenge zuweist, wobei für mindestens eine weitere, sekundäre Referenzstruktur, welche zumindest eine Teilstruktur aufweist, die zu der ersten Referenzstruktur in einer vorgegebenen Kompatibilitätsbeziehung steht, in welcher jede Komponente der ersten Referenzmenge umkehrbar eindeutig genau einer Komponente der besagten Teilstruktur entspricht, und/oder für mindestens eine weitere, sekundäre Vergleichsstruktur, welche eine Teilstruktur aufweist, die zu der ersten Vergleichsstruktur in einer vorgegebenen Kompatibilitätsbeziehung steht, in welcher jede Komponente der ersten Vergleichsmenge umkehrbar eindeutig genau einer Komponente der besagten Teilstruktur entspricht, bestimmt wird: eine Überlagerungszuordnung für die sekundäre Referenzstruktur und die primäre Vergleichsstruktur, welche für jede Komponente der ersten Referenzmenge die entsprechende Komponente der sekundären Referenzstruktur gemäß der Ähnlichkeitsbeziehung für die sekundäre Referenzstruktur derjenigen Komponente der ersten Vergleichsstruktur zuweist, welches die erste Überlagerungszuordnung der besagten Komponente der ersten Referenzmenge zuweist, und/oder eine Überlagerungszuordnung für die erste Referenzstruktur und die sekundäre Vergleichsstruktur, welche jeder Komponente der ersten Referenzmenge umkehrbar eindeutig genau die Komponente zuweist, welche aufgrund der Kompatibilitätsbeziehung der sekundären Vergleichsstruktur derjenigen Komponente der ersten Vergleichsmenge entspricht, welche die erste Überlagerungszuordnung der betreffenden Komponente der ersten Referenzmenge zuweist, und/oder eine Überlagerungszuordnung für die sekundäre Referenzstruktur und die sekundäre Vergleichsstruktur, welche für jede Komponente der ersten Referenzmenge die entsprechende Komponente der sekundären Referenzstruktur derjenigen Komponente der sekundären Vergleichsstruktur zuweist, welche der Komponente der ersten Vergleichsstruktur entspricht, welche die erste Überlagerungszuordnung der besagten Komponente der ersten Referenzmenge zuweist, wobei für jede dieser Überlagerungszuordnungen für eine Referenzstruktur mit einer Vergleichsstruktur ein Qualitätsmaß oder eine Abschätzung eines Qualitätsmaßes für die Ähnlichkeit der beiden Strukturen bestimmt wird, und für eines oder mehrere Referenzmoleküle der Wert des Qualitätsmaßes einer Überlagerungszuordnung einer Struktur dieses Referenzmoleküls mit einer Struktur eines Vergleichsmoleküls zusammen mit der zugehörigen Überlagerungszuordnung als der geltende optimale Wert des Qualitätsmaßes oder als einer der geltenden optimalen Werte des Qualitätsmaßes gespeichert wird, falls ein Qualitätskriterium erfüllt ist.An iterative method of computer-assisted finding of one or more molecules having similarities to one or more reference molecules having multiple components based on information relating to one or more reference structures, each representing a structure of a reference molecule, said information indicating the location of components in indicate the reference molecule according to this reference structure, and information on a plurality of comparison structures, each representing a structure of a comparison molecule, wherein said information respectively indicate the position of components in the comparison molecule in this comparison structure, wherein in an iteration a portion of a reference molecule and a Part of a comparison molecule, each containing a portion of the reference molecule or the Vergleichsmoleküls, which have been compared in an earlier iteration, wherein at least one iteration of the Ve The method comprises selecting a first reference quantity of components of a reference molecule which contains a part of the components of the reference molecule, wherein the number of components in the first reference quantity is smaller than the total number of components to be compared in the reference molecule; selecting a first comparison quantity of components of one Comparative molecule having the same number of components as the first reference set, determining a first overlay assignment for a first reference structure associated with said reference molecule, and a first comparison structure associated with said comparison molecule, wherein the first overlay mapping of each component of the first Reference quantity reversibly assigns exactly one component to the first comparison quantity, wherein for at least one further, secondary reference structure having at least one substructure that is in a predetermined compatibility relationship with the first reference structure, in which each component of the first reference set reversibly uniquely corresponds to one component of said substructure, and / or for at least one other Secondary comparison structure, which has a partial structure that is in a predetermined compatibility relationship with the first comparison structure, in which each component of the first comparison set is reversibly uniquely exactly corresponding to a component of said partial structure, is determined: an overlay assignment for the secondary reference structure and the primary comparison structure in that for each component of the first reference set the corresponding component of the secondary reference structure according to the similarity relationship for the secondary reference structure of that component of the first assign a comparison structure that assigns the first overlay assignment of said component to the first reference set, and / or an overlay assignment for the first reference structure and the secondary comparison structure that reversibly assigns to each component of the first reference set the exact component due to the compatibility relationship of the secondary comparison structure corresponds to that component of the first comparison set which assigns the first overlay assignment of the relevant component of the first reference set, and / or an overlay assignment for the secondary reference structure and the secondary comparison structure, which for each component of the first reference set the corresponding component of the secondary reference structure that component of the secondary Assign comparison structure, which corresponds to the component of the first comparison structure, which the first overlay assignment of said Kom assigns the component of the first reference set, wherein for each of these overlay assignments for a reference structure with a comparison structure, a quality measure or an estimate of a quality measure for the similarity of the two structures is determined, and for one or more reference molecules, the value of the quality measure of an overlay assignment of a structure of this reference molecule a structure of a comparison molecule is stored together with the associated overlay allocation as the applicable optimal value of the quality measure or as one of the applicable optimal values of the quality measure, if a quality criterion is met. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Qualitätskriterium eine oder mehrere der folgenden Bedingungen beinhaltet: – der Wert des Qualitätsmaßes der besagten Überlagerungszuordnung ist besser als der geltende optimale Wert des Qualitätsmaßes oder besser als der schlechteste der geltenden optimalen Werte des Qualitätsmaßes, – der Wert des Qualitätsmaßes der besagten Überlagerungszuordnung ist besser als ein vorgegebener Schwellenwert des Qualitätsmaßes.Method according to claim 1, characterized in that the quality criterion includes one or more of the following conditions: The value of the quality measure of said overlay allocation is better than the applicable optimal value of the quality measure or better than the worst of the applicable optimal values of the quality measure, - the value of the quality measure of said overlay allocation is better than a predetermined threshold of the quality measure. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Kompatibilitätsbeziehung zwischen der primären Referenzstruktur und der sekundären Referenzstruktur darin besteht, daß die besagte Teilstruktur der sekundären Referenzstruktur die gleiche Konstitution oder Konfiguration aufweist wie die durch die erste Referenzmenge definierte Teilstruktur der ersten Referenzstruktur und/oder daß die Kompatibilitätsbeziehung zwischen der ersten Vergleichsstruktur und der sekundären Vergleichsstruktur darin besteht, daß die Teilstruktur der sekundären Vergleichsstruktur die gleiche Konstitution oder Konfiguration aufweist wie die durch die erste Vergleichsmenge definierte Teilstruktur der ersten Vergleichsstruktur.Method according to claim 1 or 2, characterized in that the compatibility relationship between the primary reference structure and the secondary reference structure consists in that said substructure of the secondary reference structure has the same constitution or configuration as the substructure of the first reference structure defined by the first reference set and / or that the compatibility relationship between the first comparison structure and the secondary comparison structure consists in that the substructure of the secondary comparison structure has the same constitution or configuration as the substructure of the first comparison structure defined by the first comparison set. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß in der besagten Iteration für alle Überlagerungszuordnungen, die in der Iteration bestimmt werden, entschieden wird, ob zu der jeweiligen Überlagerungszuordnung für alle erweiterten Überlagerungszuordnungen der betreffenden Referenzstruktur mit der betreffenden Vergleichsstruktur, welche zusätzlich zu den Zuordnungen der besagten Überlagerungszuordnung hinaus weitere Komponenten der Referenzstruktur umkehrbar eindeutig jeweils einer Komponente der Vergleichsstruktur zuordnen, das Qualitätskriterium nicht erfüllt werden kann, und daß in nachfolgenden Iterationen nur solche erweiterten Überlagerungszuordnungen berücksichtigt werden, für welche dies nicht der Fall ist.Method according to one of Claims 1 to 3, characterized in that, in the said iteration, it is decided for all overlay assignments which are determined in the iteration, whether for the respective overlay allocation for all the extended overlay allocations of the relevant reference structure with the relevant comparison structure, which additionally In addition to the assignments of the said overlay assignment, further components of the reference structure can be unambiguously assigned to one component of the comparison structure, the quality criterion can not be met, and that in subsequent iterations only those extended overlay assignments are taken into account for which this is not the case. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die sekundäre Referenzstruktur ein Konformer zu der ersten Referenzstruktur und die sekundäre Vergleichsstruktur ein Konformer zu der ersten Vergleichsstruktur ist. Method according to one of claims 1 to 4, characterized in that the secondary reference structure is a conformer to the first reference structure and the secondary comparison structure is a conformer to the first comparison structure. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß das Verfahren zu einem vorgegeben Referenzmolekül ähnliche Moleküle ermittelt, wobei dem Verfahren Informationen zur dreidimensionalen Struktur eines oder mehrere Konformere des Referenzmoleküls, welche die Lage von Atomen in dem Konformer angeben und Informationen zu der dreidimensionalen Struktur eines oder mehrere Konformere mindestens eines Vergleichsmoleküls, vorzugsweise mehrerer Vergleichsmoleküle, welche die Lage von Atomen in dem Konformer angeben, zugrunde liegen und mindestens eine Iteration des Verfahrens umfaßt: Auswahl einer ersten Referenzmenge von Atomen des Referenzmoleküls, wobei die Anzahl der Atome in der ersten Referenzmenge kleiner als die Anzahl der Atome in dem Referenzmolekül ist, Auswahl einer ersten Vergleichsmenge von Atomen eines Vergleichsmoleküls, welche die gleiche Anzahl von Atomen wie die erste Referenzmenge besitzt, Bestimmung einer ersten Überlagerungszuordnung für ein erstes Konformer des Referenzmoleküls und ein erstes Konformer des Vergleichsmoleküls, welche jedem Atom der ersten Referenzmenge umkehrbar eindeutig genau ein Atom der ersten Vergleichsmenge zuweist, Bestimmung einer Überlagerungszuordnung für ein zweites Konformer des Referenzmoleküls zu einem Konformer des Vergleichsmoleküls und/oder für ein Konformer des Referenzmoleküls zu einem zweiten Konformer des Vergleichsmoleküls, welche jedem Atom der ersten Referenzmenge umkehrbar eindeutig genau dasselbe Atom der ersten Vergleichsmenge wie die erste Überlagerungszuordnung zuweist.Method according to one of Claims 1 to 5, characterized in that the method determines molecules which are similar to a given reference molecule, wherein the method contains information on the three-dimensional structure of one or more conformers of the reference molecule which indicate the position of atoms in the conformer and information on the three-dimensional structure of one or more conformers of at least one comparison molecule, preferably a plurality of comparison molecules, which indicate the position of atoms in the conformer, and at least one iteration of the method comprises: Selecting a first reference set of atoms of the reference molecule, wherein the number of atoms in the first reference set is smaller than the number of atoms in the reference molecule, Selecting a first comparison set of atoms of a comparison molecule having the same number of atoms as the first reference set, Determining a first overlay assignment for a first conformer of the reference molecule and a first conformer of the comparison molecule, which reversibly assigns exactly one atom of the first comparison set to each atom of the first reference set, Determining an overlay assignment for a second conformer of the reference molecule to a conformer of the comparison molecule and / or a conformer of the reference molecule to a second conformer of the comparison molecule which reversibly assigns to each atom of the first reference set exactly the same atom of the first comparison set as the first overlay assignment. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Iteration folgendes umfaßt: Bestimmen eines Qualitätsmaßes oder einer Abschätzung für das Qualitätsmaß für jede Überlagerungszuordnung, Speichern des Werts des Qualitätsmaßes als geltender optimaler Wert zusammen mit der zugehörigen Überlagerungszuordnung, falls ein Qualitätskriterium für den geltenden optimalen Wert erfüllt ist.Method according to claim 6, characterized in that the iteration comprises: Determining a quality measure or estimate for the quality measure for each overlay map, Save the value of the quality measure as the valid optimal value together with the associated overlay assignment if a quality criterion for the applicable optimal value is fulfilled. Verfahren nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß die Iteration, welche der besagten Iteration folgt, umfaßt: Bestimmen einer erweiterten Überlagerungszuordnung für alle Paare von Konformeren des Referenzmoleküls und des Vergleichsmoleküls, für welche in einer früheren Iteration nicht festgestellt wurde, daß das Qualitätskriterium nicht erfüllt werden kann, wobei diese erweiterte Überlagerungszuordnung jeweils jedem Atom einer zweiten Referenzmenge von Atomen des Referenzmoleküls umkehrbar eindeutig jeweils genau ein Atom einer zweiten Vergleichsmenge von Atomen des Vergleichsmoleküls zuordnet, wobei die erste und die zweite Referenzmenge voneinander verschieden sind und alle Atome der ersten Referenzmenge in der zweiten Referenzmenge enthalten sind und die erste und die zweite Vergleichsmenge voneinander verschieden sind und alle Atome der ersten Vergleichsmenge in der zweiten Vergleichsmenge gehalten sind und wobei gemäß der weiteren Überlagerungszuordnung jedes Atom aus der ersten Referenzmenge einem Atom aus der ersten Vergleichsmenge entsprechend der ersten Überlagerungszuordnung zugeordnet ist.Method according to claim 6 or 7, characterized in that the iteration following said iteration comprises: Determining an extended overlay mapping for all pairs of conformers of the reference molecule and the comparison molecule for which it has not been determined in an earlier iteration that the quality criterion can not be met, each extended overlap map unambiguously unique to each atom of a second reference set of atoms of the reference molecule assigns exactly one atom to a second comparison set of atoms of the comparison molecule, the first and second reference sets being different and all the atoms of the first reference set being included in the second reference set and the first and second comparison sets being different and all the atoms of the first comparison set are held in the second comparison quantity and wherein, according to the further overlay allocation, each atom of the first reference set is associated with an atom of the first comparison set corresponding to the first overlay assignment. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß in dem Referenzmolekül die Komponenten der ersten Referenzmenge zusammen mit den Bindungen zwischen ihnen einen zusammenhängenden Teilabschnitt des Referenzmoleküls bilden und die Komponenten der ersten Vergleichsmenge zusammen mit den Bindungen zwischen ihnen in dem Vergleichsmolekül einen zusammenhängenden Teilabschnitt des Vergleichsmoleküls bilden.Method according to one of claims 1 to 8, characterized in that in the reference molecule, the components of the first reference amount together with the bonds between them form a contiguous subsection of the reference molecule and the components of the first comparative set, together with the bonds between them in the comparison molecule, form a contiguous one Part of the comparative molecule form. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß das Qualitätsmaß den Abstand einander durch die Überlagerungszuordnung zugeordneter Komponenten berücksichtigt, der sich ergibt, wenn die Referenzstruktur mit der Vergleichsstruktur optimal zur Deckung gebracht wird.Method according to one of Claims 1 to 9, characterized in that the quality measure takes into account the distance between components assigned to one another by the superposition allocation, which results when the reference structure is optimally coincided with the comparison structure. Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß in das Qualitätsmaß die Anzahl der Komponenten der Referenzstruktur eingeht, welche durch die Überlagerungszuordnung umkehrbar eindeutig jeweils einer Komponente der Vergleichsstruktur zugeordnet werden.Method according to one of Claims 1 to 10, characterized in that the number of components of the reference structure which are reversibly assigned to a component of the comparison structure by the overlay allocation is included in the quality measure. Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, daß das Qualitätsmaß durch die folgende Formel gegeben ist: SC = (NÜ/NMmin)C–rmsa, (1) wobei NÜ die Anzahl der Komponenten der Referenzstruktur ist, die durch die Überlagerungszuordnung jeweils einer Komponente der Vergleichsstruktur zugewiesen werden, Nmin den kleineren Wert aus dem Paar angibt, welches durch die Anzahl der Komponenten in dem Referenzmolekül und die Anzahl der Komponenten in dem Vergleichsmolekül gebildet wird, rmsd der mittlere quadratische Abstand der einander durch die Überlagerungszuordnung zugeordneten Komponenten ist und C eine Konstante ist.Method according to one of claims 1 to 11, characterized in that the quality measure is given by the following formula: SC = (N U / N Mmin ) C -rmsa , (1) where N Ü is the number of components of the reference structure that are allocated by the overlay allocation to a component of the comparison structure, N min indicates the smaller value of the pair formed by the number of components in the reference molecule and the number of components in the comparison molecule, rmsd is the mean square distance of the components associated with each other by the overlay assignment, and C is a constant. Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, daß das Verfahren einem Branch and Bound-Algorithmus folgt.Method according to one of Claims 1 to 12, characterized in that the method follows a branch and bound algorithm. Verfahren nach Anspruch 13, dadurch gekennzeichnet, daß für eine Überlagerungszuordnung einer Referenzstruktur zu einer Vergleichstruktur, bei welcher die Komponenten der Referenzstruktur, die Komponenten der Vergleichsstruktur zugeordnet werden, einen zusammenhängenden Teilabschnitt des Referenzmoleküls bilden, überprüft wird, welche erweiterten Überlagerungszuordnungen, bei denen die Zuordnung der Komponenten entsprechend der besagten Überlagerungszuordnung erhalten bleibt, existieren, bei denen die Komponenten eines zusammenhängenden Teils der Referenzstruktur einem zusammenhängenden Teil der Vergleichsstruktur zugeordnet werden, daß das Qualitätsmaß für diese möglichen erweiterten Überlagerungszuordnungen abgeschätzt wird und daß diese erweiterten Überlagerungszuordnungen in späteren Iterationen nicht berücksichtigt werden, wenn die Abschätzung ergibt, daß das Qualitätskriterium nicht erfüllt werden kann.Method according to Claim 13, characterized in that, for a superimposition assignment of a reference structure to a comparison structure, in which the components of the reference structure which are assigned to components of the comparison structure form a contiguous subsection of the reference molecule, it is checked which extended superposition assignments in which the assignment of the components according to said overlay allocation, the components of a contiguous part of the reference structure are assigned to a contiguous part of the comparison structure, the quality measure for these possible extended overlay assignments is estimated and these extended overlay assignments are not taken into account in later iterations, if the estimate shows that the quality criterion can not be met. Verfahren nach einem der Ansprüche 5 bis 14, dadurch gekennzeichnet, daß für alle Konformere des Referenzmoleküls und/oder der Vergleichsmoleküle für die Abstände der Atome in dem jeweiligen Molekül Abstandsintervalle gespeichert sind, welche die Obergrenze und die Untergrenze dieses Abstandes für alle Konformere angibt, und daß bei der Abschätzung des Qualitätsmaßes für eine Überlagerungszuordnung eines Konformers eines Referenzmoleküls mit einem Konformer eines Vergleichsmoleküls eine Abschätzung des Qualitätsmaßes dadurch berechnet wird, daß auf der Grundlage der besagten Bereichsgrenzen das bestmögliche Qualitätsmaß berechnet wird, das sich für beliebige Werte innerhalb der Grenzen der Abstandsintervalle für die inneratomaren Abstände ergibt und überprüft wird, ob dieses bestmögliche Qualitätsmaß das Qualitätskriterium erfüllt.Method according to one of claims 5 to 14, characterized in that for all conformers of the reference molecule and / or the comparison molecules for the distances of the atoms in the respective molecule distance intervals are stored indicating the upper limit and the lower limit of this distance for all conformers, and that in the estimation of the quality measure for a superposition assignment of a conformer of a reference molecule with a conformer of a comparison molecule, an estimate of the measure of quality is calculated by calculating on the basis of said range boundaries the best possible measure of quality which is within arbitrary values within the limits of the intervals results in the intra-atomic distances and checks whether this best possible quality measure meets the quality criterion. Computersystem zum Durchführen eines iterativen Verfahrens zum Auffinden von Molekülen mit strukturellen Ähnlichkeiten zu einem oder mehreren Referenzmolekülen, die mehrere Komponenten aufweisen, welches umfaßt: eine Einrichtung zum Speichern von Informationen zu einer oder mehreren Referenzstrukturen, welche jeweils eine Struktur eines Referenzmoleküls darstellen, wobei die besagten Informationen die Lage von Komponenten in dem Referenzmolekül gemäß dieser Referenzstruktur angeben, und von Informationen zu mehreren Vergleichsstrukturen, welche jeweils eine Struktur eines Vergleichsmoleküls darstellen, wobei die zugehörigen Informationen die Lage von Komponenten in dem Vergleichsmolekül in dieser Vergleichsstruktur angeben, mit einer Einrichtung zum Vergleichen eines Teils eines Referenzmoleküls und eines Teils eines Vergleichsmoleküls in einer Iteration des Verfahrens, die jeweils einen Teil des Referenzmoleküls bzw. des Vergleichsmoleküls enthalten, die in einer früheren Iteration verglichen worden sind, wobei das Computersystem eine Einrichtung zum Ausführen der folgenden Schritte in mindestens einer Iteration umfaßt: Auswahl einer ersten Referenzmenge von Komponenten eines Referenzmoleküls, welche einen Teil der Komponenten des Referenzmoleküls enthält, wobei die Anzahl der Komponenten in der ersten Referenzmenge kleiner als die Gesamtzahl der zu vergleichenden Komponenten in dem Referenzmolekül ist, Auswahl einer ersten Vergleichsmenge von Komponenten eines Vergleichsmoleküls, welche die gleiche Anzahl von Komponenten wie die erste Referenzmenge besitzt, Bestimmen einer ersten Überlagerungszuordnung für eine erste Referenzstruktur, die dem besagten Referenzmolekül zugeordnet ist, und eine erste Vergleichsstruktur, welche dem besagten Vergleichsmolekül zugeordnet ist, wobei die erste Überlagerungszuordnung jeder Komponente der ersten Referenzmenge umkehrbar eindeutig genau eine Komponente der ersten Vergleichsmenge zuweist, wobei für mindestens eine weitere, sekundäre Referenzstruktur, welche zumindest eine Teilstruktur aufweist, die zu der primären ersten Referenzstruktur in einer vorgegebenen Kompatibilitätsbeziehung steht, in welcher jede Komponente der ersten Referenzmenge umkehrbar eindeutig genau einer Komponente der besagten Teilstruktur entspricht, und/oder für mindestens eine weitere, sekundäre Vergleichsstruktur, welche eine Teilstruktur aufweist, die zu der ausgewählten primären Vergleichsstruktur in einer vorgegebenen Kompatibilitätsbeziehung steht, in welcher jede Komponente der ersten Vergleichsmenge umkehrbar eindeutig genau einer Komponente der besagten Teilstruktur entspricht, bestimmt wird: eine Überlagerungszuordnung für die sekundäre Referenzstruktur und die primäre Vergleichsstruktur, welche für jede Komponente der ersten Referenzmenge die entsprechende Komponente der sekundären Referenzstruktur derjenigen Komponente der ersten Vergleichsstruktur zuweist, welches die erste Überlagerungszuordnung der besagten Komponente der ersten Referenzmenge zuweist, und/oder eine Überlagerungszuordnung für die erste Referenzstruktur und die sekundäre Vergleichsstruktur, welche jeder Komponente der ersten Referenzmenge umkehrbar eindeutig genau die Komponente zuweist, welche aufgrund der Kompatibilitätsbeziehung der sekundären Vergleichsstruktur derjenigen Komponente der ersten Vergleichsmenge entspricht, welche die erste Überlagerungszuordnung der betreffenden Komponente der ersten Referenzmenge zuweist, und/oder eine Überlagerungszuordnung für die sekundäre Referenzstruktur und die sekundäre Vergleichsstruktur, welche für jede Komponente die ersten Referenzmengen die entsprechende Komponente der sekundären Referenzstruktur derjenigen Komponente der sekundären Vergleichsstruktur zuweist, welche der Komponente der ersten Vergleichsstruktur entspricht, welche die erste Überlagerungszuordnung der besagten Komponente der ersten Referenzmenge zuweist, und das Computersystem weiterhin eine Einrichtung zum Bestimmen oder Abschätzen eines Qualitätsmaßes aufweist, wobei das Computersystem weiterhin dafür eingerichtet ist, in dieser Iteration für eine oder mehrere Referenzmoleküle den Wert des Qualitätsmaßes einer Überlagerungszuordnung einer Struktur dieses Referenzmoleküls mit einer Struktur eines Vergleichsmoleküls zusammen mit der zugehörigen Überlagerungszuordnung als geltenden optimalen Wert des Qualitätsmaßes oder als einen der geltenden optimalen Werte des Qualitätsmaßes zu speichern, falls ein Qualitätskriterium erfüllt ist.A computer system for performing an iterative method of finding molecules having structural similarities to one or more reference molecules comprising a plurality of components comprising: means for storing information on one or more reference structures, each representing a structure of a reference molecule, said Information indicating the position of components in the reference molecule according to this reference structure, and information on a plurality of comparison structures, each representing a structure of a comparison molecule, the associated information indicating the position of components in the comparison molecule in this comparison structure, with a device for comparing a Part of a reference molecule and a part of a comparison molecule in an iteration of the method, each containing a part of the reference molecule or the Vergleichsmoleküls, in an early The computer system comprises means for performing the following steps in at least one iteration: selecting a first reference set of components of a reference molecule which contains a portion of the components of the reference molecule, the number of components in the first reference set being smaller as the total number of components to be compared in the reference molecule, selecting a first comparison set of components of a comparison molecule having the same number of components as the first reference set, determining a first overlay assignment for a first reference structure associated with said reference molecule, and a first comparison structure associated with said comparison molecule, wherein the first allocation map of each component of the first reference set reversibly assigns exactly one component of the first comparison set, wherein fü at least one further, secondary reference structure having at least one substructure that is in a predetermined compatibility relationship with the primary first reference structure, in which each component of the first reference set reversibly corresponds exactly to one component of said substructure, and / or for at least one other Secondary comparison structure, which has a substructure that is in a predetermined compatibility relationship with the selected primary comparison structure, in which each component of the first comparison set is reversibly uniquely corresponding to exactly one component of said substructure, is determined: an overlay mapping for the secondary reference structure and the primary comparison structure assigning, for each component of the first reference set, the corresponding component of the secondary reference structure to that component of the first compare structure that assigns the first overlay mapping of said component to the first reference set, and / or an overlay mapping for the first reference set first reference structure and the secondary comparison structure, which reversibly assigns to each component of the first reference quantity exactly the component which, due to the compatibility relationship of the secondary comparison structure, corresponds to that component of the first comparison set which the first allocation assignment of the relevant component assigns to the first reference quantity, and / or one Overlay assignment for the secondary reference structure and the secondary comparison structure, which are the first reference quantities for each component the corresponding component of the secondary reference structure assigns to the component of the secondary comparison structure which corresponds to the component of the first comparison structure which assigns the first overlay assignment of said component to the first reference set, and the computer system further comprises means for determining or estimating a quality measure; is further arranged to store in this iteration for one or more reference molecules the value of the quality measure of an overlay assignment of a structure of this reference molecule with a structure of a comparison molecule together with the associated overlay allocation as applicable optimal value of the quality measure or as one of the applicable optimal values of the quality measure if a quality criterion is met. Computersystem nach Anspruch 16, gekennzeichnet durch eine oder mehrere Einrichtungen zum Durchführen eines Verfahrens nach einem der Ansprüche 1 bis 15.Computer system according to claim 16, characterized by one or more devices for carrying out a method according to one of claims 1 to 15. Computerprogramm, welches Anweisungen für ein Computersystem enthält, die, wenn sie auf einem Computersystem ausgeführt werden, das Computersystem veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 15 auszuführen.A computer program containing instructions for a computer system that, when executed on a computer system, cause the computer system to perform a method as claimed in any one of claims 1 to 15. Computerlesbares Speichermedium, bei dem ein Programm gemäß Anspruch 18 gespeichert ist.A computer readable storage medium storing a program according to claim 18.
DE102005029437A 2005-06-24 2005-06-24 Method and apparatus for computer-aided finding of similar molecules Expired - Fee Related DE102005029437B4 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102005029437A DE102005029437B4 (en) 2005-06-24 2005-06-24 Method and apparatus for computer-aided finding of similar molecules
PCT/EP2006/006102 WO2006136453A2 (en) 2005-06-24 2006-06-23 Method and device for the computer-assisted detection of similar molecules

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102005029437A DE102005029437B4 (en) 2005-06-24 2005-06-24 Method and apparatus for computer-aided finding of similar molecules

Publications (2)

Publication Number Publication Date
DE102005029437A1 DE102005029437A1 (en) 2007-01-04
DE102005029437B4 true DE102005029437B4 (en) 2011-04-07

Family

ID=37087810

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102005029437A Expired - Fee Related DE102005029437B4 (en) 2005-06-24 2005-06-24 Method and apparatus for computer-aided finding of similar molecules

Country Status (2)

Country Link
DE (1) DE102005029437B4 (en)
WO (1) WO2006136453A2 (en)

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Datenbank PubMed bei NCBI, Adresse www.ncbi.nlm. nih.gov, Zusammenfassung zu: GOEDE, A. u.a.: SuperDrug: a conformational drug database, Bioinformatics (01.05.2005), Epub 02.02.2005) 21(9) 1751-3 [recherchiert am 15.11.2005] *
Datenbank PubMed bei NCBI, Adresse www.ncbi.nlm. nih.gov, Zusammenfassung zu: TERVO, A.J. u.a.: BRUTUS: optimization of a grid-based similarity function for rigid-body molecular superposition, 1. Alignment and virtual screening applications, J. Med. Chem. (16.06.2005)48(12)4076-86 [recherchiert am 15.11.2005] *
MICHALSKY, E. u.a.: SuperLigands - a database of ligand structures derived from the Protein Data Bank, BMC Bioinformatics (19.05.2005)6(1)122 *
THIMM, M. u.a.: Comparison of 2D similarity and 3D superposition, Application to searching a conformational drug database, J. Chem. Inf. Comput. Sci. (2004) 44(5)1816-22 *

Also Published As

Publication number Publication date
DE102005029437A1 (en) 2007-01-04
WO2006136453A3 (en) 2008-11-06
WO2006136453A2 (en) 2006-12-28

Similar Documents

Publication Publication Date Title
DE69122609T2 (en) Interpretation procedure for mass spectra of multiply charged ions
DE10151987C2 (en) Preparation of the selection of control variables for a dose distribution of a radiation device to be set in time and space
DE19612016A1 (en) Process for computer-aided geometry modeling
WO2019137665A1 (en) Method for the computer-assisted planning of a working sequence that can be carried out by a robot
EP2641061A1 (en) Method for automatically determining a boundary of a partial area of a total area
DE202019006019U1 (en) Techniques for analyzing vehicle design deviations using deep learning with neural networks
DE10017551C2 (en) Process for cyclic, interactive image analysis and computer system and computer program for executing the process
DE102005029437B4 (en) Method and apparatus for computer-aided finding of similar molecules
WO2012052106A1 (en) Method for classifying patterns in image data records
DE102009006765B4 (en) Method for controlling an image output device, method for determining tangential sectional planes, control module and sectional plane determination unit
WO2009124663A1 (en) Semi-global correspondence search in stereo images
EP3803357A1 (en) Method for evaluating core electron spectra
DE102010037904B4 (en) Fast Explicit Model Predictive Control
EP0846306B1 (en) Method of calculating and/or analysing and/or detecting a complex system
Pereira Structural Bioinformatics and Crystallography Tools for Automated Protein Model Building and Validation
EP1094415A2 (en) Method for identifying candidate molecules
DE102008022532A1 (en) Method for regulating distance between points in computer, involves determining skeletal volume elements adjacent to point volume elements, and determining distance between points as distance of vascular volume element
EP1451750B1 (en) Method for the identification of pharmacophores
WO2009033450A1 (en) Method and navigation device for determining a route
DE10291392B4 (en) Method, system and data carrier for generating correlations and / or interactions and / or knowledge from a plurality of searched data sets
Gronemann et al. Algorithm engineering im Graphenzeichnen
WO2014173455A1 (en) Method for assigning an object to a group
DE102014210640A1 (en) Method and device for visualizing a system of equations
DE10323917A1 (en) Process and system for elucidating the primary structure of biopolymers
DE10135817A1 (en) Method for comparing the similarity of two digital images made up of polygons

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8127 New person/name/address of the applicant

Owner name: THIMM, MARTIN, 81543 MUENCHEN, DE

Owner name: ZIEGLER, VALENTIN, 10315 BERLIN, DE

Owner name: HOUGARDY, STEFAN, 53115 BONN, DE

8120 Willingness to grant licences paragraph 23
R020 Patent grant now final
R020 Patent grant now final

Effective date: 20110823

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee