EP3642398A1 - Method and device for selecting a subassembly of molecules for use in predicting at least one property of a molecular structure - Google Patents

Method and device for selecting a subassembly of molecules for use in predicting at least one property of a molecular structure

Info

Publication number
EP3642398A1
EP3642398A1 EP18749450.5A EP18749450A EP3642398A1 EP 3642398 A1 EP3642398 A1 EP 3642398A1 EP 18749450 A EP18749450 A EP 18749450A EP 3642398 A1 EP3642398 A1 EP 3642398A1
Authority
EP
European Patent Office
Prior art keywords
molecules
molecule
descriptor
value
selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP18749450.5A
Other languages
German (de)
French (fr)
Inventor
Raphaël TERREUX
Charlotte ALLIOD
Roland Denis
Guy Jacob
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Centre National de la Recherche Scientifique CNRS
Universite Claude Bernard Lyon 1 UCBL
ArianeGroup SAS
Original Assignee
Centre National de la Recherche Scientifique CNRS
Universite Claude Bernard Lyon 1 UCBL
ArianeGroup SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Centre National de la Recherche Scientifique CNRS, Universite Claude Bernard Lyon 1 UCBL, ArianeGroup SAS filed Critical Centre National de la Recherche Scientifique CNRS
Publication of EP3642398A1 publication Critical patent/EP3642398A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation

Definitions

  • the invention relates to the general field of chemical molecules.
  • It relates more particularly to the prediction of properties of a molecule having a molecular structure.
  • the invention thus has a preferred but non-limiting application in the prediction of the toxicity of compounds, inert or energetic materials, or even highly energetic materials, which, in known manner, are capable of releasing energy in a very short time. Because of the energy released, such energetic materials are of interest to both military and civilian domains. They are nowadays commonly used in the manufacture of military machines, enter the constitution of gas (ex.propergol) necessary for the propulsion of missiles and space launchers, or are still used in the automobile industry for the manufacture of airbags, etc.
  • gas ex.propergol
  • QSAR Quantitative Structure Activity Relationship
  • a QSAR is applied directly to the entire database.
  • the database on which the QSAR is applied may contain molecules that are too different from the molecular substance whose biological activity is to be predicted, so that the resulting prediction can be made. prove wrong.
  • Each MACCS structural key 166 is more precisely a vector comprising 166 components or characteristics, having positive or zero values and reflecting the presence or absence of one of the 166 molecular fragments in the molecule in question: thus, a zero value reflects the absence of the corresponding fragment in the structure of the molecule, while a positive value indicates the number of times that the corresponding fragment is present within the molecule, or simply its presence within the molecule.
  • a metric conventionally used in combination with the structural keys MACCS 166 is the Tanimoto metric defined by:
  • - Xi ⁇ Vf is equal to 1 if the components X t and ⁇ are both positive, and to 0 otherwise; and - Xi v Y t is equal to 1 if at least one of the components X t and ( is non-zero, and at 0 otherwise.
  • this metric is applied by simplifying the MACCS structural key 166 of each molecule so as to obtain a binary vector, a zero component value reflecting the absence of the corresponding molecular fragment, while a component value equal to 1 translated the presence of this fragment.
  • the Tanimoto metric thus calculated thus provides the ratio between the number of components of the keys X and Y common to the two molecular structures on the total number of components of the keys X and Y expressed (ie to which a non-zero value has been assigned in the keys ) for these two molecular structures.
  • a structural similarity search is performed on the database, leading to the identification of a subset of molecules in the database having a minimal similarity to the molecular substance whose properties are to be predicted. Then a QSAR is applied on the subset of molecules thus identified. It is therefore clear that, depending on the similarity threshold that one sets to select the subset of molecules, it is possible to obtain a subset that does not contain enough molecules to apply the QSAR of in a relevant way, or on the contrary a subset which contains molecules too different from the molecular substance whose properties one seeks to predict. This can result in a false prediction.
  • One known strategy for improving the performance of the aforementioned strategy is to identify a subset of molecules in the database from another known subset of molecules (eg subset of high energy molecules used). by an industrialist), and to select the molecules of the database which have a minimum similarity with each of the molecules of the known subset.
  • a QSAR is then applied to the subset of the database thus identified from the known subset of molecules.
  • the invention proposes a strategy for predicting the properties of an alternative molecular substance to the strategies proposed in the state of the art and making it possible to obtain a better quality prediction.
  • the invention proposes an iterative method of selecting a subset of said reference molecules intended to be used for predicting at least one property of a so-called target molecular structure, the iterative process of selection comprising an initialization step associating with a so-called current molecule a value of a predetermined molecule descriptor, associated with the target molecular structure, and during each iteration of the selection method:
  • An evaluation step for each molecule of a base comprising a plurality of molecules each associated with a value of the descriptor, of a so-called overall similarity measure between the value of the descriptor associated with said molecule and the value of the associated descriptor; to the current molecule;
  • the invention is directed to a device for selecting a subset of said reference molecules intended to be used for predicting at least one property of a so-called target molecular structure, the selection device comprising a configured initialization module. for associating with a so-called current molecule a value of a predetermined molecule descriptor associated with the target molecular structure, said selection device being further configured to activate, during a plurality of successive iterations:
  • An evaluation module configured to evaluate, for each molecule of a base comprising a plurality of molecules each associated with a value of the descriptor, a so-called global similarity measure between the value of the descriptor associated with said molecule and the value of the descriptor associated with the current molecule;
  • a selection module configured to select molecules of the base having a global similarity measurement greater than a predetermined threshold, the selected molecules being added by said selection module to the reference subset;
  • An update module configured to update the value of the descriptor associated with the current molecule from the values of the descriptors associated with at least a part of the molecules belonging to the reference subset.
  • the invention also provides, according to a second aspect, a method for predicting at least one property of a so-called target molecular substance comprising: A selection step, by means of an iterative selection process according to the invention, of a subset of said reference molecules in a database comprising a plurality of molecules each associated with a value of a descriptor predetermined molecules;
  • the invention also relates to a prediction device configured to predict at least one property of a target molecular substance comprising:
  • a selection device configured to select a subset of said reference molecules in a database comprising a plurality of molecules each associated with a value of a predetermined molecule descriptor
  • a prediction module configured to predict at least one property of said target molecular substance from the subset of reference molecules selected.
  • This descriptor may be a descriptor comprising a plurality N of characteristics or components, N denoting an integer greater than or equal to 1, in which case the value of the descriptor is defined by the value of each of its N characteristics.
  • N characteristics can be, for example, structural characteristics making it possible to characterize each molecule and if possible to discriminate between them.
  • the values of the N characteristics of the molecule descriptor may reflect the presence or absence of N molecular fragments considered in the definition of a structural key MACCS 166.
  • descriptors may be envisaged, such as other known two-dimensional (or fingerprints) descriptors such as MolPrint2D fingerprints, BCI, or those defined by the companies Tripos and Scitegic. These fingerprints are in the form of bit vectors, each bit encoding the presence (bit equal to 1) or the absence (bit equal to 0) of certain predefined structural fragments in the molecule or other characteristics.
  • the invention also applies to other types of descriptors than 2D fingerprints.
  • a descriptor having the form of a simple variable that is, comprising a single component / characteristic
  • whose value can be a quantitative or qualitative numerical value
  • descriptors having more complex forms such as vector, matrix or even graphic forms.
  • a descriptor is for example a connectivity matrix between a plurality of predetermined atoms indicating for each pair of atoms the presence or absence of a bond in the molecule in question (the descriptor then comprises a plurality of characteristics or characteristics given by the components of the matrix).
  • the invention therefore proposes a new way of selecting the molecules of the initial database used to predict the properties of a molecular substance, and which makes it possible to select a larger subset of molecules similar to the molecular substance and relevant for the prediction of its properties.
  • This new way of selecting molecules is based on an iterative process of similarity search, initialized first with the target molecular substance whose properties are to be predicted. Then, over the iterations, "virtual" molecules are constructed from the descriptors of the molecules selected in the initial database during the iterations, and a new similarity search is performed from these virtual molecules.
  • the invention thus leads, thanks to this recursive selection and to the taking into account of the similarities with the molecules of the database, to a more complete and more careful selection of the molecules of the base intended to be used for predicting the biological properties. of the target molecular substance.
  • the prediction produced by the invention is advantageously adaptive. It can easily use public databases, regularly updated, and listing the properties of different molecules with regard to different tests performed on these molecules.
  • the number of iterations considered for selecting the subset of reference molecules can be fixed by means of a parameterizable stopping criterion.
  • the evaluation, selection and updating steps are then repeated until a predetermined stopping criterion is verified.
  • Different stopping criteria can be envisaged, for example:
  • the number of iterations and / or molecules of the reference subset can be calibrated empirically.
  • the choice of one or the other of the aforementioned criteria may depend on several parameters, such as, for example, the type of target molecular substance considered, a compromise between the number of molecules selected and the quality. prediction, the method that will be used to predict the properties of the target molecular substance from the properties of the selected molecules, etc.
  • the evaluation step comprises, for each molecule of the base, a step of calculating, for each of the N characteristics of the descriptor, a so-called local similarity measure between the value of this characteristic of the descriptor associated with said molecule and the value of this characteristic of the descriptor associated with the current molecule, the global similarity measure evaluated for said molecule being obtained from the local similarity measurements calculated for this molecule.
  • the calculation step includes for each descriptor feature:
  • Such a calculation step advantageously makes it possible to obtain a measurement of similarity that is more precise than in the state of the art. It can be easily applied to numerical values (eg integers) of descriptor characteristics that are positive or null, and not just binary. This gives an assessment of the similarity between two molecular substances more precise and more generic than in the state of the art.
  • the calculated distance denoted d, can verify:
  • a measure of similarity is defined as a real number between 0 and 1, taking conventionally the value 0 when the two molecules are considered totally different (ie not similar), and the value 1 when they are considered. as totally identical (ie similar). Intermediate values can be considered, representing shades of similarity between these two extremes. To comply with this definition, different conversion functions may be considered.
  • the conversion function can verify:
  • d denotes the distance to be converted and ⁇ a predetermined real number.
  • the overall similarity measure evaluated for said molecule is the ratio between:
  • This definition of the global similarity measure makes it possible to take into account several levels of expression of the same descriptor characteristic in the compared molecules: it is not limited to discerning only two levels of binary expression (absence or presence of the characteristic of the descriptor) unlike in particular the metric Tanimoto described above and considered in the state of the art.
  • this global similarity measure advantageously considers that the common non-expression of the same descriptor (i.e. null value for this descriptor for the two compared molecules) is a mark of similarity between the two compared molecules.
  • This current molecule is in a way the representative of the molecules of the reference subset used at the next iteration to complete the reference subset.
  • said at least part of the molecules belonging to the reference subset used for the update comprises the molecules selected during the selection step of this iteration that did not already belong to the reference set before this selection step.
  • this first variant only the newly selected molecules are taken into account during the current iteration.
  • This first variant may, however, lead to the selection in the reference set of molecules a little too far in terms of similarity of the target molecular structure.
  • the said at least part of the molecules belonging to the reference subset used for the update comprises the molecules selected during the step of selecting this iteration.
  • the said at least part of the molecules belonging to the reference subset used for the update all comprise the molecules belonging to the reference subset at the end of the step of selecting this iteration.
  • the inventors have found that the second and third variants above have a fairly similar behavior and lead to comparable results in terms of prediction. They also give better results than the first variant.
  • the value associated with the current molecule of each descriptor characteristic is updated with an arithmetic or weighted average of the values of this characteristic of the descriptor associated with the molecules of said descriptor. least part of the molecules belonging to the reference subset.
  • This first variant leads to values of the characteristics of the descriptor which are in some way "artificial", and do not correspond to characteristic values present in said at least part of the molecules of the subset used for the update.
  • the value associated with the current molecule of each feature of the descriptor is updated with the most frequent value of this characteristic of the descriptor among the values of this feature of the descriptor associated with the molecules of said at least a portion of the molecules belonging to the reference subset, or if a plurality of distinct values satisfy this condition, with the highest value among this plurality of distinct values.
  • the various steps of the selection method and / or the prediction method are determined by computer program instructions.
  • the invention also relates to a computer program on an information carrier, this program being capable of being implemented in a device of selection, respectively in a prediction device, or more generally in a computer, this program comprising instructions adapted to the implementation of the steps of a selection method, respectively of a prediction method, as described above .
  • This program can use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code, such as in a partially compiled form, or in any other form desirable shape.
  • the invention also relates to a computer readable information or recording medium, and comprising instructions of a computer program as mentioned above.
  • the information or recording medium may be any entity or device capable of storing the program.
  • the medium may comprise storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or a magnetic recording means, for example a hard disk.
  • the information or recording medium may be a transmissive medium such as an electrical or optical signal, which may be conveyed via an electrical or optical cable, by radio or by other means.
  • the program according to the invention can be downloaded in particular on an Internet type network.
  • the information or recording medium may be an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method in question.
  • the selection method, the prediction method, the selection device and the prediction device according to the invention present in combination all or part of the aforementioned characteristics.
  • FIG. 1 shows, schematically, a prediction device according to the invention, in a particular embodiment
  • FIG. 2 represents the hardware architecture of the prediction device of FIG. 1, in a particular embodiment
  • FIG. 3 illustrates the different steps of a selection method according to the invention
  • FIG. 4 illustrates the different steps of a prediction method according to the invention.
  • Annexes 1 to 6 show the performances achieved by the prediction method according to the invention. Detailed description of the invention
  • FIG. 1 represents, in its environment, a prediction device 1 according to the invention, in a particular embodiment.
  • the prediction device 1 is configured to predict at least one property of a substance called TARGm target unknown. It is assumed that this target substance has a mono-molecular structure from which it is possible to extract the value of a descriptor comprising a predetermined number N of (structural) characteristics for characterizing the target substance.
  • HEM high energy molecule
  • TARGm target substance By “prediction of at least one property of TARGm target substance” is meant here the prediction of its biological activity.
  • a property that we are trying to predict may be for example a toxicological property of TARGm target substance, in particular to meet the requirements of the European REACH Regulation.
  • the invention also applies to the prediction of other types of properties of a molecule, such as, for example, physico-chemical properties (logP or molecular weight), structural properties, absorption properties, distribution properties, of Metabolism, or Elimination (ADMET), therapeutic properties, etc.
  • the prediction device 1 comprises:
  • a selection device 2 according to the invention.
  • the prediction device 1 has the hardware architecture of a computer as represented in FIG. 2, and the selection device 2 and the prediction module 3 are software modules installed in a memory of the prediction device 1. More particularly, the prediction device 1 comprises in particular a processor 4, a random access memory 5, a read-only memory 6, a non-volatile flash memory 7, input / output interfaces 8 (such as a screen, a keyboard, etc. .), as well as means of communication 9.
  • the prediction device 1 comprises in particular a processor 4, a random access memory 5, a read-only memory 6, a non-volatile flash memory 7, input / output interfaces 8 (such as a screen, a keyboard, etc. .), as well as means of communication 9.
  • the databases 10 may be hosted on remote servers or stored in a memory of the prediction device 1 (for example in its non-volatile memory 7).
  • the communication means 9 of the prediction device 1 allow it to access or download them via a telecommunications network, or to obtain these databases via a recording medium such as a USB key (Universal Serial). Bus) or a CDROM. They can include for this purpose a USB port, a network card, a WIFI interface (WIreless FIdelity), etc.
  • the read-only memory 6 of the prediction device 1 constitutes a recording medium in accordance with the invention, readable by the processor 4 and on which is recorded here a computer program PROG according to the invention.
  • the computer program PROG defines functional modules (and software here), configured to implement the steps of the selection method and the prediction method according to the invention.
  • the two aforementioned methods can be defined by instructions from two different programs.
  • the functional modules defined by the program PROG rely on and / or control the hardware elements 4-9 of the prediction device 1 mentioned above. They include in particular here, as illustrated in FIG.
  • An initialization module 2A configured to associate with a current so-called CURm molecule updated during the selection process according to the invention, the value of the MACCS descriptor 166 associated with the target molecule TARGm (the value of the descriptor comprising here N characteristics) ;
  • An evaluation module 2B configured to evaluate so-called "global" similarity measurements between the values of the descriptors associated with a predetermined set of molecules (typically the molecules of a database 10) and the value of the descriptor associated with the current molecule CURm;
  • a selection module 2C configured to select molecules of the predetermined set considered having a global similarity measurement greater than a predetermined threshold, and to add the molecules thus selected to a so-called reference subset designated CREF;
  • a 2D update module configured to update the value of the descriptor associated with the current molecule CURm from the values of the descriptors associated with at least a part of the molecules belonging to the CREF reference subset.
  • Evaluation module 2B, selection module 2C and 2D update module are modules of selection device 2, and are configured for the implementation of a selection method according to the invention. They are activated by the selection device 2 repeatedly during a plurality of iterations, and more specifically in the embodiment described here, as long as a predetermined criterion (parameterizable) is not verified.
  • the program PROG here also defines the prediction module 3 of the prediction device 1.
  • the prediction module 3 is configured to predict at least one property of the target molecular substance TARGm from the molecules of the reference subset CREF selected by the selection device 2.
  • No limitation is attached to the prediction technique implemented by the prediction module 3. It may be for example a QSAR type relationship, a neural network, a prediction technique by principal component analysis, etc.
  • This prediction technique uses the experimental results achieved by the molecules of the reference subset CREF listed in the database 10 whose subset CREF was extracted.
  • the prediction device 3 predicts at least one property of the molecular substance TARGm from the properties listed in the databases 10 for a plurality of molecules.
  • the prediction made by the prediction device 3 is based on a prior selection by the selection device 2 of a reference subset CREF comprising a plurality of molecules extracted from the database 10.
  • FIG. 3 illustrates the main steps of the selection method according to the invention implemented by the selection device 2 in order to make this selection of the CREF reference subset.
  • the selection method is an iterative method, comprising an initialization step (step E10) and implementing a plurality of iterations.
  • the iterations are linked as long as a predetermined stop criterion CRU is not checked.
  • the different stopping criteria envisaged are described in more detail later.
  • the initialization module 2A of the selection device 2 initializes the reference subset CREF to an empty set.
  • MACCS (CURm, l),..., MACCS (CURm, N) are subsequently denoted as the values of the N MACCS characteristics associated with the current molecule CURm.
  • the selection device 2 then starts the iterations of the selection process (step E20 of incrementing the index iter).
  • S global similarity metric
  • This global similarity metric is more precisely calculated here between the N values of the N characteristics of the associated MACCS descriptor 166 in the base 10 of the MOLk molecule and the N values of the N characteristics of the MACCS descriptor 166 associated with the current molecule CURm (step E30 ).
  • local similarity measures are defined here from a local similarity function Is which at any pair of integer characteristic values (x, y) associates a real number ls (x, y) (denoted here ls (CURm, MOLk, n) for the nth characteristic), between 0 and 1 and satisfying the following properties:
  • ls (x, y) ls (y, x) for x and y any natural integers.
  • the function Is results from the composition of a function d comparable to a geometric distance between the values x and y, and a function f of converting the distance between x and y into a measurement local similarity, ie:
  • the evaluation module 2B uses the distance d thus defined:
  • evaluation module 2B uses as conversion function f, a standardized Gauss function defined
  • is a predetermined real number
  • a conversion function is preferably chosen, associating with any number of the real straight line a real value between 0 and 1 such that:
  • ls (CURm, MOLk, n) f (d (MACCS (CURm, n), MACCS (MOLk, n)) where MACCS (CURm, n) and MACCS (MOLk, n) respectively denote the value of the nth characteristic of the MACCS descriptor of the current molecule CURm and the value of the nth characteristic of the MACCS descriptor of the molecule of the MOLk molecule.
  • this expression of the overall similarity results from a search by the inventors of a similarity measure which, unlike the Tanimoto metric commonly used in the techniques of the prior art, makes it possible to take into account different levels of expression of the same characteristic of the descriptor (ie different values of the same characteristic) between two compared molecules, and which also considers the common non-expression of the same descriptor characteristic (ie null value of this characteristic) as a mark of similarity between the two compared molecules.
  • considering that the pairs of MOL-A and MOL-B molecules corresponding to different MACCS descriptor characteristics have empty intersections, and where w n , n 1, ..., N denote real weights. Then asking:
  • different real weights of 1 can be applied by the evaluation module 2.
  • these weights can be determined by expertise from a business knowledge of the relevance of each feature of the descriptor given the type of TARGm target molecule whose property is to be predicted.
  • These weights can also be determined using statistical methods, in particular classification methods such as Linear Discriminant Analysis (LDA), which makes it possible to determine weights leading to a better discrimination between the experimentally positive molecules. (ie who are considered to have responded positively to the toxicity test considered) and negative (ie who are considered to have responded negatively to the toxicity test considered).
  • LDA Linear Discriminant Analysis
  • the selection device 2 determines which molecules of the base 10 have measuring overall similarity greater than a predetermined threshold THRmin (or equivalently greater than or equal to a predetermined threshold THRmin ') and selects them (step E40).
  • the molecules thus selected form a set C (iter) of molecules considered to be similar to the current molecule CURm.
  • the threshold THRmin is a constant parameter here during the iterations of the selection process, and between 0 and 1. It may depend in particular on the type of target molecule TARGm whose properties are to be determined (eg high energy molecule, solvent, plasticizers, liquid, etc.). This threshold can be determined experimentally beforehand.
  • the inventors have determined by experimentation that a threshold
  • THRmin 0.85 (or greater than or equal to 0.85) leads to good predictions for different categories of molecules (fillers, plasticizers, liquids, etc.).
  • the THRmin threshold may change over the iterations.
  • the set of molecules C (iter) selected during the current iteration iter is then added by the selection module 2C to the set of reference CREF (step E50). It should be noted that certain molecules contained in the set C (iter) may already be present in the reference set CREF, in which case the addition of the molecules of the set C (iter) to the set of reference CREF is limited to add only the new molecules not already present in the CREF reference set.
  • the selection device 2 via its 2D update module, updates the value of the MACCS descriptor associated with the current molecule (step E60).
  • this update is carried out from the descriptor values of at least a part of the molecules present in the CREF reference subset at the end of step E50.
  • the update of the MACCS descriptor characteristic values of the current molecule CURm is based on the values of the characteristics of the MACCS descriptor of the molecules selected during the iterative iteration, ie on the molecules contained in the set C (iter).
  • the update of the MACCS descriptor characteristic values of the current molecule CURm is based on the MACCS descriptor characteristic values of all the molecules belonging to the CREF reference set at the end of step E50.
  • the updating of the MACCS descriptor characteristic values of the current molecule CURm is based solely on the values of the characteristics of the MACCS descriptor of the newly selected molecules during the selection step E40 implemented. during the current iteration iter, in other words on the values of the characteristics of the MACCS descriptor of the molecules belonging to the set C (iter) but which do not already belong to the set of reference CREF before the step E50.
  • the update module 2D uses the most frequent value of each characteristic among the values of this characteristic associated with the molecules considered for the update. In case of ambiguity, that is, if several distinct values satisfy this frequency condition, the 2D update module uses the highest value among this plurality of distinct values.
  • the 2D update module may use an average of the values of this characteristic associated with the molecules considered for updating (or the integer value closest to this average to obtain integer characteristics), this average possibly being an arithmetic or weighted average.
  • a new current molecule CURm is thus obtained on which a new search for similarity in the base 10 can be performed during the next iteration.
  • the selection device 2 verifies, at the end of step E60, whether the CRU stop criterion is verified (test step E70).
  • Different stopping criteria can be envisaged, for example:
  • This stopping criterion can be parameterizable.
  • the numbers ITERMAX and KMAX are also parameterizable, and depend in particular on the type of molecules considered.
  • step E20 a new iteration of the selection method is implemented (incrementation step E20), this iteration comprising the repetition of the steps E30 to E70 for the new current molecule CURm obtained during step E60.
  • the iterations of the selection method are interrupted and the reference set CREF is supplied to the prediction module 3 for the prediction of the properties of the molecule substance TARGm target.
  • the reference set CREF considered is preferably that obtained at the end of the iteration making it possible not to exceed the KMAX number.
  • FIG. 4 illustrates the different steps of the prediction method implemented by the prediction device 1.
  • step F10 repeats the steps of the selection method of the reference subset CREF previously described with reference to FIG. 3 and implemented by the selection device 2 of the prediction device 1.
  • the reference set CREF obtained by the selection device 2 is then supplied to the prediction module 3.
  • the latter is configured to predict at least one property of the target molecular substance TARGm from the molecules of the reference set CREF selected by the selection device 2 (step F20).
  • prediction technique implemented by the prediction module 3 for this purpose. It can in particular use a QSAR type relationship as described above and commonly used in the state of the art, or a neural network, a prediction technique by principal component analysis, etc.
  • This prediction technique uses the experimental results achieved by the molecules of the CREF reference set and listed in the database whose CREF set has been extracted. The use of such prediction techniques is known per se and is not described in more detail here.
  • the prediction device 1 then obtains at the end of step F20 a prediction of at least one biological property of TARGm target molecular substance. Other predictions can be made by the prediction device 1 from other databases corresponding to other biological tests.
  • the invention via the proposed new selection method, makes it possible to obtain a reliable prediction of the properties of a molecular substance from the properties of molecules of the same type listed in public databases in particular.
  • the inventors have observed an improvement in the predictions obtained with respect to the state of the art prediction techniques for different categories of molecules (fillers, plasticizers, oxidizers, liquids, stabilizers, pyrotechnic components, etc.) and for various regulatory tests known to those skilled in the art (eg AMES mutagenicity test, chromosome aberration test, UDS unscheduled DNA synthesis test, carcinogenicity test, etc.).
  • Some results are provided in Annexes 1 to 6 to illustrate the performance of the selection and prediction methods according to the invention.
  • Appendix 1 illustrates prediction results obtained for the AMES test using five different prediction methods.
  • the AMES test is, in a known manner, a mutagenicity test carried out on different bacterial cultures and aimed at determining whether a molecule has a mutagenic property (indicated in the table in Appendix 1 by a "+” symbol, a "-” symbol indicating that the molecule does not exhibit mutagenic property).
  • the table presents in its first column data which were obtained experimentally from the molecules tested. These data were validated at European level and were used as a reference to determine the relevance of the predictions made using the different prediction methods tested. For each of these methods, when a result obtained is between 0 and 0.4, it is considered negative, that is to say as reflecting the absence of mutagenic property in the molecule tested; when this result is between 0.4 and 0.6, it is considered doubtful; and when this result is greater than 0.6, it is considered to be negative, that is to say as reflecting the presence of the mutagenic property in the molecule tested.
  • the table given in Appendix 1 provides the prediction results obtained via the five methods tested for different charge-type molecules: the five prediction methods were each applied on a starting data base comprising 7723 reference molecules. More precisely :
  • the column of the table bearing the reference (1) corresponds to the application of a QSAR relation on the initial data base;
  • the column of the table bearing the reference (2) corresponds to the application of a QSAR relation on a database obtained by selecting in the starting database the molecules presenting a similarity metric (Tanimoto metric) of 0.8 ;
  • the column of the table bearing the reference (3) corresponds to the application of a QSAR relation on a database obtained by selecting in the starting database the molecules presenting a similarity metric (Tanimoto metric) of 0.8 ;
  • the column of the table bearing the reference (4) corresponds to the application of a QSAR relation on a database obtained by the iterative selection method according to the invention and applied on the basis of initial data (MACCS structural descriptors) 166).
  • the stopping criteria considered for the iterative process are a maximum of 5 iterations or 600 selected molecules in the starting base.
  • the local and global metrics described in the previously detailed embodiment have been used; and
  • the column of the table bearing reference (6) corresponds to the application of an automatic learning algorithm also commonly referred to as a "machine learning” algorithm on a database obtained by means of the iterative selection method according to the invention and applied on the basis of initial data (MACCS 166 structural descriptors).
  • the stopping criteria considered for the iterative process are a maximum of 5 iterations or 600 selected molecules in the starting base.
  • the local and global metrics described in the previously detailed embodiment have been used.
  • Appendix 2 reflects other prediction results obtained for the AMES test, for different categories of molecules (fillers, plasticizers, oxidants, liquids, stabilizers and pyrotechnic molecules), with the selection and prediction methods according to the invention ( column "prediction" of the different tables in Appendix 2).
  • column "prediction" of the different tables in Appendix 2 The same assumptions as those used in Annex 1 were considered (maximum number of iterations equal to 5, 600 molecules selected at most, local and global metrics detailed previously, MACCS 166 structural descriptors); the actual prediction step was carried out on the basis of molecules selected by the selection method according to the invention by applying a machine learning type algorithm.
  • the prediction method has led to a correct prediction for all the test molecules of the charge type (ie all the percentages reported are greater than 60%), for all the liquid-tested molecules, and for the whole tested molecules of the stabilizing type;
  • Annexes 3 to 5 reflect prediction results obtained via the prediction method according to the invention for other known regulatory tests (chromosome aberration test in Annex 3, UDS test in Annex 4, carcinogenicity test in Annex 5). .
  • the same assumptions as those used in Appendix 2 were considered for the implementation of the processes according to the invention and the interpretation of the results presented.
  • Appendix 6 compares the results obtained via the prediction method according to the invention and via another prior art prediction method known as ACD (Advanced Chemistry Development) Percepta (described in more detail on the web page https://www.acdlabs.com/products/percepta/).
  • ACD Advanced Chemistry Development
  • the results concerning the prediction method according to the invention were obtained from two different starting bases (referenced by "first test base” and "second test base”).
  • the first test basis is the one already used to generate the results reported in Appendices 2 to 5.
  • the first column of results in the table presented in Appendix 6 gives the rate of good predictions obtained via the prediction method according to the invention with respect to different molecules tested for the different tests considered.
  • This first column lists the different results shown in Appendices 2 to 6 for all categories of molecules considered together, and supplements these results for other known regulatory tests (Mouse Lymphoma Test (M LA), DLT, and Reprotoxicity Test).
  • AMES mutagenicity test Charge type molecules

Landscapes

  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The selection method according to the invention is iterative and comprises an initialisation step (E10) associating with a molecule, referred to as the current molecule, a predetermined descriptor value of molecules associated with the target molecular structure, and, during each iteration (E20) of the selection method: — a step (E30), for each molecule of a database comprising a plurality of molecules each associated with a value of said descriptor, of evaluating a degree of similarity, referred to as overall similarity, between the value of the descriptor associated with said molecule and the value of the descriptor associated with the current molecule; — a step (E40) of selecting molecules of the database having a degree of overall similarity greater than a predetermined threshold, the selected molecules being added (E50) to the reference subassembly; and — a step (E60) of updating the value of the descriptor associated with the current molecule based on values of descriptors associated with at least one portion of the molecules belonging to the reference subassembly.

Description

Procédé et dispositif de sélection d'un sous-ensemble de molécules destinées à être utilisées pour prédire au moins une propriété d'une structure moléculaire  Method and device for selecting a subset of molecules for use in predicting at least one property of a molecular structure
Arrière-plan de l'invention Background of the invention
L'invention se rapporte au domaine général des molécules chimiques.  The invention relates to the general field of chemical molecules.
Elle concerne plus particulièrement la prédiction de propriétés d'une molécule ayant une structure moléculaire.  It relates more particularly to the prediction of properties of a molecule having a molecular structure.
L'invention a ainsi une application privilégiée mais non limitative dans la prédiction de la toxicité des composés, matériaux inertes ou énergétiques, voire hautement énergétiques, qui, de façon connue, sont capables de libérer de l'énergie en un temps très court. Du fait de l'énergie dégagée, de tels matériaux énergétiques intéressent aussi bien les domaines militaires que civils. Ils sont aujourd'hui couramment utilisés dans la fabrication d'engins militaires, entrent dans la constitution de gaz (ex.propergol) nécessaire à la propulsion des missiles et des lanceurs spatiaux, ou sont encore utilisés dans l'industrie automobile pour la fabrication d'airbags, etc.  The invention thus has a preferred but non-limiting application in the prediction of the toxicity of compounds, inert or energetic materials, or even highly energetic materials, which, in known manner, are capable of releasing energy in a very short time. Because of the energy released, such energetic materials are of interest to both military and civilian domains. They are nowadays commonly used in the manufacture of military machines, enter the constitution of gas (ex.propergol) necessary for the propulsion of missiles and space launchers, or are still used in the automobile industry for the manufacture of airbags, etc.
L'entrée en vigueur en 2007 du règlement européen REACH (Registration Evaluation Autorisation of CHemicals) impose aux industriels de l'Espace Economique Européen qui fabriquent, importent ou utilisent des substances chimiques dans leur activité en quantité supérieure à 1 tonne par an d'enregistrer au niveau européen ces substances. Il s'agit, par ce biais, de recenser, d'évaluer et de contrôler toutes les substances chimiques fabriquées, importées ou mises sur le marché européen. Ce règlement a vocation à fournir à l'Union Européenne des moyens juridiques et techniques pour garantir un haut niveau de protection contre les risques liés aux substances chimiques. Il concerne toutes les substances chimiques, qu'il s'agisse de matériaux énergétiques ou de produits inertes (ex. additifs, stabilisants, plastifiants, colles, etc.).  The entry into force in 2007 of the European Regulation REACH (Registration Evaluation Authorization of CHemicals) requires European Economic Area (EEA) manufacturers who manufacture, import or use chemicals in their business in quantities of more than 1 tonne per year to register. at European level these substances. The aim is to identify, evaluate and control all chemical substances manufactured, imported or placed on the European market. This regulation is intended to provide the European Union with legal and technical means to guarantee a high level of protection against the risks associated with chemical substances. It concerns all chemical substances, whether energetic materials or inert products (eg additives, stabilizers, plasticisers, glues, etc.).
Il existe donc un besoin pour les industriels, afin de se conformer notamment à ce règlement, de disposer de techniques permettant d'identifier les effets toxiques que peut produire une substance chimique sur l'Homme ou sur l'environnement, et plus généralement d'identifier ses propriétés c'est-à-dire son activité biologique. On s'intéresse ici aux substances chimiques ayant des structures mono-moléculaires, de sorte qu'on utilise indifféremment par la suite les expressions substances chimiques (mono-)moléculaires, structures (mono-)moléculaires ou molécules pour désigner ces substances.  There is therefore a need for manufacturers, in order to comply in particular with this regulation, to have techniques for identifying the toxic effects that a chemical may produce on humans or on the environment, and more generally on identify its properties, that is, its biological activity. We are interested here in the chemical substances having mono-molecular structures, so that one uses indifferently thereafter the expressions chemical substances (mono-) molecular, structures (mono-) molecules or molecules to designate these substances.
Des techniques in vitro ou in vivo existent, mais elles sont généralement longues, complexes à mettre en œuvre et très coûteuses en termes de ressources, de réactifs et de méthodes de détection.  In vitro or in vivo techniques exist, but they are generally long, complex to implement and very expensive in terms of resources, reagents and detection methods.
Il existe par ailleurs d'autres techniques dites in silico qui s'appuient pour prédire les propriétés d'une substance chimique sur des outils informatiques (ex. modèles informatiques, moyens de calculs informatisés). Les techniques in silico les plus courantes utilisent des « relations structure-activité quantitatives » (aussi appelées QSAR pour Quantitative Structure Activity Relationship en anglais), qui sont des algorithmes (ou de façon équivalente des programmes) établissant une prédiction quantitative de l'activité biologique d'une substance chimique monomoléculaire à partir de sa structure chimique. L'activité biologique de la substance moléculaire traduite par les QSAR est basée sur des résultats expérimentaux et est propre à un test donné, corrélé typiquement aux exigences définies par le règlement REACH et/ou encore par l'OECD (Organization for the Economie Coopération and Development). There are also other so-called in silico techniques that are used to predict the properties of a chemical substance on computer tools (eg computer models, computerized calculation means). The most common in silico techniques use Quantitative Structure Activity Relationship (QSAR), which are algorithms (or equivalent programs) establishing a quantitative prediction of the biological activity of a monomolecular chemical substance from its chemical structure. The biological activity of the QSAR-mediated molecular substance is based on experimental results and is test-specific, typically correlated with the requirements of the REACH Regulation and / or the OECD (Organization for Economic Cooperation and Development). Development).
Pour déterminer l'activité biologique d'une substance moléculaire au moyen d'un QSAR, les techniques in silico utilisent des bases de données (par exemple des bases de données publiques), spécifiques au test considéré, et comprenant une pluralité de molécules diversifiées, harmonisées en conformité avec la réglementation REACH et/ou OECD (ex. base de données de molécules hautement énergétiques). Diverses stratégies peuvent alors être envisagées.  To determine the biological activity of a molecular substance by means of a QSAR, in silico techniques use databases (for example public databases), specific to the test under consideration, and comprising a plurality of diversified molecules, harmonized in accordance with the REACH and / or OECD regulations (eg database of high energy molecules). Various strategies can then be considered.
Selon une stratégie connue, un QSAR est appliqué directement sur l'ensemble de la base de données. Un des inconvénients de cette première stratégie est que la base de données sur laquelle est appliqué le QSAR peut contenir des molécules trop différentes de la substance moléculaire dont on tente de prédire l'activité biologique, de sorte que la prédiction qui en découle peut s'avérer erronée.  According to a known strategy, a QSAR is applied directly to the entire database. One of the drawbacks of this first strategy is that the database on which the QSAR is applied may contain molecules that are too different from the molecular substance whose biological activity is to be predicted, so that the resulting prediction can be made. prove wrong.
D'autres stratégies se basent sur une recherche de similarité structurale entre la substance moléculaire dont on cherche à prédire l'activité biologique et les molécules répertoriées dans la base de données. Cette recherche par similarité s'appuie sur le postulat que toutes les molécules de la base de données analogues à la substance moléculaire considérée possèdent des propriétés similaires, et notamment une activité biologique similaire.  Other strategies are based on a search for structural similarity between the molecular substance whose biological activity is to be predicted and the molecules listed in the database. This similarity search is based on the assumption that all molecules in the database analogous to the molecular substance under consideration have similar properties, including a similar biological activity.
Pour faciliter la recherche de similarité structurale dans la base de données, il est courant de représenter les molécules par des clefs ou empreintes structurales (aussi appelées « fingerprints » en anglais). Ces clefs sont des descripteurs constitués d'une pluralité de valeurs de caractéristiques structurales qui permettent de caractériser les structures moléculaires. L'une des meilleures clefs structurales connues pour caractériser une molécule est la clef structurale MACCS 166 (pour Molecuiar ACCess System), publiée par la société MDL Information Systems. Cette clef structurale caractérise chaque molécule en s'appuyant sur une table de 166 fragments moléculaires choisis suffisamment complexes pour espérer discriminer différentes molécules entre elles.  To facilitate the search for structural similarity in the database, it is common to represent the molecules by keys or structural fingerprints (also called "fingerprints" in English). These keys are descriptors consisting of a plurality of structural characteristic values which make it possible to characterize the molecular structures. One of the best structural keys known to characterize a molecule is the structural key MACCS 166 (for Molecuiar ACCess System), published by MDL Information Systems. This structural key characterizes each molecule by relying on a table of 166 molecular fragments chosen complex enough to hope to discriminate different molecules between them.
Chaque clef structurale MACCS 166 est plus précisément un vecteur comprenant 166 composantes ou caractéristiques, ayant des valeurs positives ou nulles et traduisant la présence ou l'absence d'un des 166 fragments moléculaires dans la molécule considérée : ainsi, une valeur nulle traduit l'absence du fragment correspondant dans la structure de la molécule, tandis qu'une valeur positive indique le nombre de fois où le fragment correspondant est présent au sein de la molécule, ou simplement sa présence au sein de la molécule.  Each MACCS structural key 166 is more precisely a vector comprising 166 components or characteristics, having positive or zero values and reflecting the presence or absence of one of the 166 molecular fragments in the molecule in question: thus, a zero value reflects the absence of the corresponding fragment in the structure of the molecule, while a positive value indicates the number of times that the corresponding fragment is present within the molecule, or simply its presence within the molecule.
Afin de comparer deux structures moléculaires entre elles, une mesure numérique de similarité entre les deux structures peut alors être calculée au moyen d'une métrique prédéterminée. Une métrique classiquement utilisée en combinaison avec les clefs structurales MACCS 166 est la métrique de Tanimoto définie par : In order to compare two molecular structures with each other, a numerical measure of similarity between the two structures can then be calculated using a metric predetermined. A metric conventionally used in combination with the structural keys MACCS 166 is the Tanimoto metric defined by:
où X et Y désignent les deux clefs structurales associées respectivement aux deux structures moléculaires comparées et où : where X and Y designate the two structural keys associated respectively with the two compared molecular structures and where:
— Xi Λ Vf est égal à 1 si les composantes Xt et ^ sont toutes les deux positives, et à 0 sinon ; et — Xi v Yt est égal à 1 si l'une au moins des composantes Xt et ( est non nulle, et à 0 sinon. - Xi Λ Vf is equal to 1 if the components X t and ^ are both positive, and to 0 otherwise; and - Xi v Y t is equal to 1 if at least one of the components X t and ( is non-zero, and at 0 otherwise.
On note que cette métrique est appliquée en simplifiant la clef structurale MACCS 166 de chaque molécule de sorte à obtenir un vecteur binaire, une valeur de composante nulle traduisant l'absence du fragment moléculaire correspondant, tandis qu'une valeur de composante égale à 1 traduit la présence de ce fragment. La métrique de Tanimoto ainsi calculée fournit donc le rapport entre le nombre de composantes des clefs X et Y communes aux deux structures moléculaires sur le nombre total de composantes des clefs X et Y exprimées (i.e. auxquelles on a attribué une valeur non nulle dans les clefs) pour ces deux structures moléculaires.  It is noted that this metric is applied by simplifying the MACCS structural key 166 of each molecule so as to obtain a binary vector, a zero component value reflecting the absence of the corresponding molecular fragment, while a component value equal to 1 translated the presence of this fragment. The Tanimoto metric thus calculated thus provides the ratio between the number of components of the keys X and Y common to the two molecular structures on the total number of components of the keys X and Y expressed (ie to which a non-zero value has been assigned in the keys ) for these two molecular structures.
Les stratégies proposées aujourd'hui dans l'état de la technique utilisent cette recherche de similarité structurale de deux façons différentes.  The strategies proposed today in the state of the art use this search for structural similarity in two different ways.
Selon une stratégie, une recherche de similarité structurale est effectuée sur la base de données, conduisant à identifier un sous-ensemble de molécules de la base de données présentant une similarité minimale avec la substance moléculaire dont on souhaite prédire les propriétés. Puis un QSAR est appliqué sur le sous-ensemble de molécules ainsi identifié. On comprend bien dès lors qu'en fonction du seuil de similarité que l'on se fixe pour sélectionner le sous-ensemble de molécules, il est possible d'obtenir un sous-ensemble qui ne contient pas suffisamment de molécules pour appliquer le QSAR de façon pertinente, ou au contraire un sous- ensemble qui contient des molécules trop différentes de la substance moléculaire dont on cherche à prédire les propriétés. Il peut alors en découler une prédiction erronée.  According to one strategy, a structural similarity search is performed on the database, leading to the identification of a subset of molecules in the database having a minimal similarity to the molecular substance whose properties are to be predicted. Then a QSAR is applied on the subset of molecules thus identified. It is therefore clear that, depending on the similarity threshold that one sets to select the subset of molecules, it is possible to obtain a subset that does not contain enough molecules to apply the QSAR of in a relevant way, or on the contrary a subset which contains molecules too different from the molecular substance whose properties one seeks to predict. This can result in a false prediction.
Une stratégie connue permettant d'améliorer les performances de la stratégie précitée consiste à identifier un sous-ensemble de molécules de la base de données à partir d'un autre sous-ensemble connu de molécules (ex. sous-ensemble de molécules hautement énergétiques utilisées par un industriel), et à sélectionner les molécules de la base de données qui présentent une similarité minimale avec chacune des molécules du sous-ensemble connu. Un QSAR est alors appliqué sur le sous-ensemble de la base de données ainsi identifié à partir du sous-ensemble de molécules connu. Bien que cette stratégie présente de meilleures performances, des erreurs de prédiction peuvent subsister. Qbiet et résumé de l'invention One known strategy for improving the performance of the aforementioned strategy is to identify a subset of molecules in the database from another known subset of molecules (eg subset of high energy molecules used). by an industrialist), and to select the molecules of the database which have a minimum similarity with each of the molecules of the known subset. A QSAR is then applied to the subset of the database thus identified from the known subset of molecules. Although this strategy has better performance, prediction errors may remain. Qbiet and summary of the invention
L'invention propose une stratégie de prédiction des propriétés d'une substance moléculaire alternative aux stratégies proposées dans l'état de la technique et permettant d'obtenir une prédiction de meilleure qualité.  The invention proposes a strategy for predicting the properties of an alternative molecular substance to the strategies proposed in the state of the art and making it possible to obtain a better quality prediction.
Plus précisément, l'invention propose selon un premier aspect, un procédé itératif de sélection d'un sous-ensemble de molécules dit de référence destinées à être utilisées pour prédire au moins une propriété d'une structure moléculaire dite cible, le procédé itératif de sélection comprenant une étape d'initialisation associant à une molécule dite courante une valeur d'un descripteur de molécules prédéterminé, associée à la structure moléculaire cible, et lors de chaque itération du procédé de sélection :  More precisely, according to a first aspect, the invention proposes an iterative method of selecting a subset of said reference molecules intended to be used for predicting at least one property of a so-called target molecular structure, the iterative process of selection comprising an initialization step associating with a so-called current molecule a value of a predetermined molecule descriptor, associated with the target molecular structure, and during each iteration of the selection method:
— une étape d'évaluation, pour chaque molécule d'une base comprenant une pluralité de molécules associée chacune à une valeur du descripteur, d'une mesure de similarité dite globale entre la valeur du descripteur associée à ladite molécule et la valeur du descripteur associée à la molécule courante ;  An evaluation step, for each molecule of a base comprising a plurality of molecules each associated with a value of the descriptor, of a so-called overall similarity measure between the value of the descriptor associated with said molecule and the value of the associated descriptor; to the current molecule;
— une étape de sélection de molécules de la base ayant une mesure de similarité globale supérieure à un seuil prédéterminé, les molécules sélectionnées étant ajoutées au sous- ensemble de référence ; et A step of selecting molecules of the base having a global similarity measurement greater than a predetermined threshold, the selected molecules being added to the reference subset; and
— une étape de mise à jour de la valeur du descripteur associée à la molécule courante à partir des valeurs des descripteurs associées à au moins une partie des molécules appartenant au sous-ensemble de référence.  A step of updating the value of the descriptor associated with the current molecule from the values of the descriptors associated with at least a part of the molecules belonging to the reference subset.
Corrélativement, l'invention vise un dispositif de sélection d'un sous-ensemble de molécules dit de référence destinées à être utilisées pour prédire au moins une propriété d'une structure moléculaire dite cible, le dispositif de sélection comprenant un module d'initialisation configuré pour associer à une molécule dite courante une valeur d'un descripteur de molécules prédéterminé associée à la structure moléculaire cible, ce dispositif de sélection étant en outre configuré pour activer, au cours d'une pluralité d'itérations successives :  Correlatively, the invention is directed to a device for selecting a subset of said reference molecules intended to be used for predicting at least one property of a so-called target molecular structure, the selection device comprising a configured initialization module. for associating with a so-called current molecule a value of a predetermined molecule descriptor associated with the target molecular structure, said selection device being further configured to activate, during a plurality of successive iterations:
— un module d'évaluation configuré pour évaluer, pour chaque molécule d'une base comprenant une pluralité de molécules associée chacune à une valeur du descripteur, une mesure de similarité dite globale entre la valeur du descripteur associée à ladite molécule et la valeur du descripteur associée à la molécule courante ;  An evaluation module configured to evaluate, for each molecule of a base comprising a plurality of molecules each associated with a value of the descriptor, a so-called global similarity measure between the value of the descriptor associated with said molecule and the value of the descriptor associated with the current molecule;
— un module de sélection configuré pour sélectionner des molécules de la base ayant une mesure de similarité globale supérieure à un seuil prédéterminé, les molécules sélectionnées étant ajoutées par ledit module de sélection au sous-ensemble de référence ; et  A selection module configured to select molecules of the base having a global similarity measurement greater than a predetermined threshold, the selected molecules being added by said selection module to the reference subset; and
— un module de mise à jour configuré pour mettre à jour la valeur du descripteur associée à la molécule courante à partir des valeurs des descripteurs associées à au moins une partie des molécules appartenant au sous-ensemble de référence.  An update module configured to update the value of the descriptor associated with the current molecule from the values of the descriptors associated with at least a part of the molecules belonging to the reference subset.
L'invention vise également, selon un deuxième aspect, un procédé de prédiction d'au moins une propriété d'une substance moléculaire dite cible comprenant : — une étape de sélection, au moyen d'un procédé itératif de sélection selon l'invention, d'un sous-ensemble de molécules dit de référence dans une base de données comprenant une pluralité de molécules associée chacune à une valeur d'un descripteur prédéterminé de molécules ; The invention also provides, according to a second aspect, a method for predicting at least one property of a so-called target molecular substance comprising: A selection step, by means of an iterative selection process according to the invention, of a subset of said reference molecules in a database comprising a plurality of molecules each associated with a value of a descriptor predetermined molecules;
— une étape de prédiction d'au moins une propriété de ladite substance moléculaire cible à partir du sous-ensemble de molécules de référence sélectionné. A step of predicting at least one property of said target molecular substance from the subset of reference molecules selected.
Corrélativement, l'invention concerne aussi un dispositif de prédiction, configuré pour prédire au moins une propriété d'une substance moléculaire dite cible comprenant :  Correlatively, the invention also relates to a prediction device configured to predict at least one property of a target molecular substance comprising:
— un dispositif de sélection conforme à l'invention, configuré pour sélectionner un sous-ensemble de molécules dit de référence dans une base de données comprenant une pluralité de molécules associée chacune à une valeur d'un descripteur de molécules prédéterminé ;  A selection device according to the invention, configured to select a subset of said reference molecules in a database comprising a plurality of molecules each associated with a value of a predetermined molecule descriptor;
— un module de prédiction, configuré pour prédire au moins une propriété de ladite substance moléculaire cible à partir du sous-ensemble de molécules de référence sélectionné.  A prediction module, configured to predict at least one property of said target molecular substance from the subset of reference molecules selected.
On note qu'aucune limitation n'est attachée au descripteur de molécules considéré dans l'invention pour décrire chaque molécule de la base ainsi que la substance moléculaire cible. Ce descripteur peut être un descripteur comprenant une pluralité N de caractéristiques ou composantes, N désignant un entier supérieur ou égal à 1, auquel cas la valeur du descripteur est définie par la valeur de chacune de ses N caractéristiques. Ces N caractéristiques peuvent être par exemple des caractéristiques structurales permettant de caractériser chaque molécule et si possible de les discriminer entre elles. Par exemple, les valeurs des N caractéristiques du descripteur de molécules peuvent traduire la présence ou l'absence de N fragments moléculaires considérés dans la définition d'une clef structurale MACCS 166.  It is noted that no limitation is attached to the molecule descriptor considered in the invention to describe each molecule of the base as well as the target molecular substance. This descriptor may be a descriptor comprising a plurality N of characteristics or components, N denoting an integer greater than or equal to 1, in which case the value of the descriptor is defined by the value of each of its N characteristics. These N characteristics can be, for example, structural characteristics making it possible to characterize each molecule and if possible to discriminate between them. For example, the values of the N characteristics of the molecule descriptor may reflect the presence or absence of N molecular fragments considered in the definition of a structural key MACCS 166.
En variante, d'autres descripteurs peuvent être envisagés, comme par exemple d'autres descripteurs à deux dimensions (ou fingerprints) connus tels que les fingerprints MolPrint2D, BCI, ou encore ceux définis par les sociétés Tripos et Scitegic. Ces fingerprints se présentent sous la forme de vecteurs de bits, chaque bit codant la présence (bit égal à 1) ou l'absence (bit égal à 0) de certains fragments structuraux prédéfinis dans la molécule ou d'autres caractéristiques. L'invention s'applique également à d'autres types de descripteurs que des fingerprints 2D. Ainsi par exemple, on peut considérer un descripteur ayant la forme d'une variable simple (autrement dit comprenant une unique composante/caractéristique), dont la valeur peut être une valeur numérique quantitative ou qualitative. L'invention s'applique aussi à des descripteurs ayant des formes plus complexes, telles que des formes vectorielles, matricielles, voire graphiques. Un tel descripteur est par exemple une matrice de connectivité entre une pluralité d'atomes prédéterminés indiquant pour chaque couple d'atomes la présence ou non d'une liaison dans la molécule considérée (le descripteur comprend alors une pluralité de caractéristiques ou caractéristiques données par les composantes de la matrice).  Alternatively, other descriptors may be envisaged, such as other known two-dimensional (or fingerprints) descriptors such as MolPrint2D fingerprints, BCI, or those defined by the companies Tripos and Scitegic. These fingerprints are in the form of bit vectors, each bit encoding the presence (bit equal to 1) or the absence (bit equal to 0) of certain predefined structural fragments in the molecule or other characteristics. The invention also applies to other types of descriptors than 2D fingerprints. For example, a descriptor having the form of a simple variable (that is, comprising a single component / characteristic), whose value can be a quantitative or qualitative numerical value, can be considered. The invention also applies to descriptors having more complex forms, such as vector, matrix or even graphic forms. Such a descriptor is for example a connectivity matrix between a plurality of predetermined atoms indicating for each pair of atoms the presence or absence of a bond in the molecule in question (the descriptor then comprises a plurality of characteristics or characteristics given by the components of the matrix).
Aucune limitation n'est attachée non plus à la technique utilisée pour prédire les propriétés de la substance moléculaire cible à partir des molécules du sous-ensemble de référence. Il peut s'agir d'une relation structure-activité quantitative (QSAR) comme décrite précédemment, d'un réseau de neurones, d'une méthode par analyse de composantes principales (ou PCA pour Principal Component Analysis) ou par moindres carrés partiels (ou Partial Least Squares), etc. No limitation is attached either to the technique used to predict the properties of the target molecular substance from the reference subset molecules. It may be a quantitative structure-activity relationship (QSAR) as previously described, a neural network, a Principal Component Analysis (PCA) method, or partial least squares ( or Partial Least Squares), etc.
L'invention propose donc une nouvelle façon de sélectionner les molécules de la base de données initiale utilisées pour prédire les propriétés d'une substance moléculaire, et qui permet de sélectionner un sous-ensemble plus important de molécules similaires à la substance moléculaire et pertinentes pour la prédiction de ses propriétés. Cette nouvelle façon de sélectionner les molécules est basée sur un processus itératif de recherche de similarité, initialisé en premier lieu avec la substance moléculaire cible dont on cherche à prédire les propriétés. Puis, au fil des itérations, des molécules « virtuelles » sont construites à partir des descripteurs des molécules sélectionnées dans la base de données initiale au cours des itérations, et une nouvelle recherche de similarité est réalisée à partir de ces molécules virtuelles. L'invention conduit ainsi, grâce à cette sélection récursive et à la prise en compte des similarités avec les molécules de la base de données, à une sélection plus complète et plus minutieuse des molécules de la base destinées à être utilisées pour prédire les propriétés biologiques de la substance moléculaire cible.  The invention therefore proposes a new way of selecting the molecules of the initial database used to predict the properties of a molecular substance, and which makes it possible to select a larger subset of molecules similar to the molecular substance and relevant for the prediction of its properties. This new way of selecting molecules is based on an iterative process of similarity search, initialized first with the target molecular substance whose properties are to be predicted. Then, over the iterations, "virtual" molecules are constructed from the descriptors of the molecules selected in the initial database during the iterations, and a new similarity search is performed from these virtual molecules. The invention thus leads, thanks to this recursive selection and to the taking into account of the similarities with the molecules of the database, to a more complete and more careful selection of the molecules of the base intended to be used for predicting the biological properties. of the target molecular substance.
On note que la prédiction réalisée par l'invention est avantageusement adaptative. Elle peut aisément utiliser des bases de données publiques, régulièrement mises à jour, et répertoriant les propriétés de différentes molécules au regard de différents tests effectués sur ces molécules.  It should be noted that the prediction produced by the invention is advantageously adaptive. It can easily use public databases, regularly updated, and listing the properties of different molecules with regard to different tests performed on these molecules.
Le nombre d'itérations considéré pour sélectionner le sous-ensemble de molécules de référence peut être fixé au moyen d'un critère d'arrêt paramétrable. Dans ce mode de réalisation, les étapes d'évaluation, de sélection et de mise à jour sont alors réitérées tant qu'un critère d'arrêt prédéterminé n'est pas vérifié. Différents critères d'arrêt peuvent être envisagés comme par exemple :  The number of iterations considered for selecting the subset of reference molecules can be fixed by means of a parameterizable stopping criterion. In this embodiment, the evaluation, selection and updating steps are then repeated until a predetermined stopping criterion is verified. Different stopping criteria can be envisaged, for example:
— un nombre prédéterminé d'itérations réalisé ;  A predetermined number of iterations carried out;
— un nombre de molécules prédéterminé atteint dans le sous-ensemble de référence ; A predetermined number of molecules reached in the reference subset;
— l'absence de molécules nouvellement sélectionnées lors de l'étape de sélection, c'est-à-dire de molécules n'appartenant pas déjà au sous-ensemble de référence avant l'étape de sélection. En d'autres mots, l'ensemble de référence n'est plus enrichi au fil des itérations, de sorte qu'il est inutile de continuer à itérer.  The absence of newly selected molecules during the selection step, that is to say of molecules not already belonging to the reference subset before the selection step. In other words, the reference set is no longer enriched over the iterations, so it is useless to continue to iterate.
Le nombre d'itérations et/ou de molécules du sous-ensemble de référence peut être calibré de manière empirique.  The number of iterations and / or molecules of the reference subset can be calibrated empirically.
Le choix de l'un ou l'autre des critères précités (ou d'un autre critère) peut dépendre de plusieurs paramètres, comme par exemple du type de substance moléculaire cible considérée, d'un compromis entre nombre de molécules sélectionnées et la qualité de la prédiction, de la méthode qui va être utilisée pour prédire les propriétés de la substance moléculaire cible à partir des propriétés des molécules sélectionnées, etc.  The choice of one or the other of the aforementioned criteria (or of another criterion) may depend on several parameters, such as, for example, the type of target molecular substance considered, a compromise between the number of molecules selected and the quality. prediction, the method that will be used to predict the properties of the target molecular substance from the properties of the selected molecules, etc.
Dans un mode particulier de réalisation dans lequel le descripteur de molécules comprend N caractéristiques où N désigne un entier supérieur à 1, l'étape d'évaluation comprend, pour chaque molécule de la base, une étape de calcul, pour chacune des N caractéristiques du descripteur, d'une mesure de similarité dite locale entre la valeur de cette caractéristique du descripteur associée à ladite molécule et la valeur de cette caractéristique du descripteur associée à la molécule courante, la mesure de similarité globale évaluée pour ladite molécule étant obtenue à partir des mesures de similarité locales calculées pour cette molécule. In a particular embodiment in which the molecule descriptor comprises N characteristics where N denotes an integer greater than 1, the evaluation step comprises, for each molecule of the base, a step of calculating, for each of the N characteristics of the descriptor, a so-called local similarity measure between the value of this characteristic of the descriptor associated with said molecule and the value of this characteristic of the descriptor associated with the current molecule, the global similarity measure evaluated for said molecule being obtained from the local similarity measurements calculated for this molecule.
Par exemple, l'étape de calcul comprend pour chaque caractéristique du descripteur : For example, the calculation step includes for each descriptor feature:
— un calcul d'une distance entre la valeur de la caractéristique du descripteur associée à ladite molécule et la valeur de la caractéristique du descripteur associée à la molécule courante ; etCalculating a distance between the value of the descriptor characteristic associated with said molecule and the value of the descriptor characteristic associated with the current molecule; and
— une conversion de la distance calculée en un nombre réel compris entre 0 et 1 au moyen d'une fonction de conversion prédéterminée, ledit nombre étant utilisé comme mesure de similarité locale pour ladite caractéristique du descripteur et ladite molécule. A conversion of the calculated distance into a real number between 0 and 1 by means of a predetermined conversion function, said number being used as a measure of local similarity for said descriptor characteristic and said molecule.
Une telle étape de calcul permet avantageusement d'obtenir une mesure de similarité plus précise que dans l'état de la technique. Elle peut être aisément appliquée à des valeurs numériques (ex. entières) de caractéristiques du descripteur qui sont positives ou nulles, et pas uniquement binaires. On obtient ainsi une évaluation de la similarité entre deux substances moléculaires plus précise et plus générique que dans l'état de la technique.  Such a calculation step advantageously makes it possible to obtain a measurement of similarity that is more precise than in the state of the art. It can be easily applied to numerical values (eg integers) of descriptor characteristics that are positive or null, and not just binary. This gives an assessment of the similarity between two molecular substances more precise and more generic than in the state of the art.
Différentes distances (algébriques) et fonctions de conversion peuvent être envisagées pour mettre en œuvre l'invention.  Different (algebraic) distances and conversion functions may be envisaged to implement the invention.
Un exemple de distance algébrique pouvant être considéré est d(x, y) = x - y où x et y désignent respectivement la valeur de la caractéristique considérée du descripteur associée à ladite molécule et y la valeur de la caractéristique considérée du descripteur associée à la molécule courante.  An example of algebraic distance that can be considered is d (x, y) = x-y where x and y respectively denote the value of the characteristic considered of the descriptor associated with said molecule and y the value of the characteristic considered of the descriptor associated with the current molecule.
Toutefois, une telle distance, bien que très simple à calculer, ne fait pas de distinction entre deux valeurs de caractéristiques du descripteur égales à 0 et 1, et deux valeurs de caractéristiques du descripteur égales à 10 et 11 présentant une même différence entre elles que les valeurs 0 et 1. Autrement dit, elle ne permet pas de tenir compte du fait que les deux molécules comparées ont dans ces deux cas des valeurs de caractéristiques du descripteur ayant des niveaux différents.  However, such a distance, although very simple to compute, does not distinguish between two descriptor characteristic values equal to 0 and 1, and two descriptor characteristic values equal to 10 and 11 having the same difference between them as the values 0 and 1. In other words, it does not allow to take into account the fact that the two molecules compared have in both cases descriptor characteristic values having different levels.
Pour tenir compte de telles subtilités et offrir une évaluation de la similarité entre deux substances moléculaires plus précise, dans un mode particulier de réalisation de l'invention, la distance calculée, notée d, peut vérifier : To take into account such subtleties and offer a more precise evaluation of the similarity between two molecular substances, in a particular embodiment of the invention, the calculated distance, denoted d, can verify:
où x et y désignent respectivement la valeur de la caractéristique du descripteur associée à ladite molécule et y la valeur de la caractéristique du descripteur associée à la molécule courante. where x and y respectively denote the value of the descriptor characteristic associated with said molecule and y the value of the descriptor characteristic associated with the current molecule.
Bien entendu ces exemples ne sont donnés qu'à titre illustratif. Par ailleurs, une mesure de similarité se définit comme un nombre réel compris entre 0 et 1, prenant notamment par convention la valeur 0 lorsque les deux molécules sont considérées comme totalement différentes (i.e. non similaires), et la valeur 1 lorsqu'elles sont considérées comme totalement identiques (i.e. similaires). Des valeurs intermédiaires peuvent être considérées, représentant des nuances de similarité entre ces deux extrêmes. Pour se conformer à cette définition, différentes fonctions de conversion peuvent être envisagées. Of course, these examples are given for illustrative purposes only. Moreover, a measure of similarity is defined as a real number between 0 and 1, taking conventionally the value 0 when the two molecules are considered totally different (ie not similar), and the value 1 when they are considered. as totally identical (ie similar). Intermediate values can be considered, representing shades of similarity between these two extremes. To comply with this definition, different conversion functions may be considered.
Ainsi, dans un mode particulier de réalisation, la fonction de conversion, notée f, peut vérifier : Thus, in a particular embodiment, the conversion function, noted f, can verify:
où d désigne la distance à convertir et σ un nombre réel prédéterminé. where d denotes the distance to be converted and σ a predetermined real number.
Dans un mode particulier de réalisation, lors de l'étape d'évaluation, la mesure de similarité globale évaluée pour ladite molécule est le ratio entre :  In a particular embodiment, during the evaluation step, the overall similarity measure evaluated for said molecule is the ratio between:
— la somme pondérée des N métriques de similarité locales calculées pour les N caractéristiques du descripteur pour cette molécule, et  The weighted sum of the N local similarity metrics calculated for the N characteristics of the descriptor for this molecule, and
— deux fois la somme des poids appliqués aux métriques de similarité locales dans ladite somme pondérée moins ladite somme pondérée.  - twice the sum of the weights applied to the local similarity metrics in said weighted sum minus said weighted sum.
Cette définition de la mesure de similarité globale permet de prendre en compte plusieurs niveaux d'expression d'une même caractéristique du descripteur dans les molécules comparées : elle ne se limite pas à discerner uniquement deux niveaux d'expression binaires (absence ou présence de la caractéristique du descripteur) contrairement notamment à la métrique de Tanimoto décrite précédemment et considérée dans l'état de la technique. En outre, cette mesure de similarité globale considère avantageusement que la non-expression commune d'un même descripteur (i.e. valeur nulle pour ce descripteur pour les deux molécules comparées) est une marque de similarité entre les deux molécules comparées.  This definition of the global similarity measure makes it possible to take into account several levels of expression of the same descriptor characteristic in the compared molecules: it is not limited to discerning only two levels of binary expression (absence or presence of the characteristic of the descriptor) unlike in particular the metric Tanimoto described above and considered in the state of the art. In addition, this global similarity measure advantageously considers that the common non-expression of the same descriptor (i.e. null value for this descriptor for the two compared molecules) is a mark of similarity between the two compared molecules.
Pour mettre à jour la molécule courante au cours de chaque itération du procédé de sélection, différentes stratégies peuvent être envisagées. Cette molécule courante est en quelque sorte le représentant des molécules du sous-ensemble de référence utilisée à l'itération suivante pour compléter le sous-ensemble de référence.  To update the current molecule during each iteration of the selection process, different strategies can be envisaged. This current molecule is in a way the representative of the molecules of the reference subset used at the next iteration to complete the reference subset.
Ainsi, dans une première variante, lors de l'étape de mise à jour mise en oeuvre lors d'une itération du procédé de sélection, ladite au moins une partie des molécules appartenant au sous-ensemble de référence utilisée pour la mise à jour comprend les molécules sélectionnées lors de l'étape de sélection de cette itération qui n'appartenaient pas déjà à l'ensemble de référence avant cette étape de sélection.  Thus, in a first variant, during the updating step implemented during an iteration of the selection method, said at least part of the molecules belonging to the reference subset used for the update comprises the molecules selected during the selection step of this iteration that did not already belong to the reference set before this selection step.
Autrement dit, selon cette première variante, on ne tient compte que des molécules nouvellement sélectionnées lors de l'itération courante. Cette première variante peut toutefois conduire à sélectionner dans l'ensemble de référence des molécules un peu trop éloignées en terme de similarité de la structure moléculaire cible. In other words, according to this first variant, only the newly selected molecules are taken into account during the current iteration. This first variant may, however, lead to the selection in the reference set of molecules a little too far in terms of similarity of the target molecular structure.
Dans une deuxième variante, lors de l'étape de mise à jour mise en œuvre lors d'une itération du procédé de sélection, ladite au moins une partie des molécules appartenant au sous- ensemble de référence utilisée pour la mise à jour comprend les molécules sélectionnées lors de l'étape de sélection de cette itération.  In a second variant, during the updating step implemented during an iteration of the selection process, the said at least part of the molecules belonging to the reference subset used for the update comprises the molecules selected during the step of selecting this iteration.
Selon une troisième variante encore, lors de l'étape de mise à jour mise en œuvre lors d'une itération du procédé de sélection, ladite au moins une partie des molécules appartenant au sous-ensemble de référence utilisée pour la mise à jour comprend toutes les molécules appartenant au sous-ensemble de référence à l'issue de l'étape de sélection de cette itération.  According to a third variant, during the updating step implemented during an iteration of the selection method, the said at least part of the molecules belonging to the reference subset used for the update all comprise the molecules belonging to the reference subset at the end of the step of selecting this iteration.
Les inventeurs ont constaté que la deuxième et la troisième variante précitées ont un comportement assez proches et conduisent à des résultats comparables en terme de prédiction. Elles donnent par ailleurs de meilleurs résultats que la première variante.  The inventors have found that the second and third variants above have a fairly similar behavior and lead to comparable results in terms of prediction. They also give better results than the first variant.
Outre différentes stratégies pour sélectionner les molécules prises en compte pour la mise à jour de la molécule courante, différentes stratégies peuvent être envisagées pour déterminer les valeurs des caractéristiques du descripteur associées à la molécule courante mise à jour.  In addition to different strategies for selecting the molecules taken into account for updating the current molecule, different strategies can be envisaged for determining the values of the characteristics of the descriptor associated with the updated current molecule.
Selon une première variante, lors de l'étape de mise à jour, la valeur associée à la molécule courante de chaque caractéristique du descripteur est mise à jour avec une moyenne arithmétique ou pondérée des valeurs de cette caractéristique du descripteur associées aux molécules de ladite au moins une partie des molécules appartenant au sous-ensemble de référence.  According to a first variant, during the updating step, the value associated with the current molecule of each descriptor characteristic is updated with an arithmetic or weighted average of the values of this characteristic of the descriptor associated with the molecules of said descriptor. least part of the molecules belonging to the reference subset.
Cette première variante conduit à des valeurs des caractéristiques du descripteur qui sont en quelque sorte « artificielles », et ne correspondent pas à des valeurs de caractéristiques présentes dans ladite au moins une partie des molécules du sous-ensemble utilisée pour la mise à jour.  This first variant leads to values of the characteristics of the descriptor which are in some way "artificial", and do not correspond to characteristic values present in said at least part of the molecules of the subset used for the update.
Pour remédier à cet aspect, selon une deuxième variante, lors de l'étape de mise à jour, la valeur associée à la molécule courante de chaque caractéristique du descripteur est mise à jour avec la valeur la plus fréquente de cette caractéristique du descripteur parmi les valeurs de cette caractéristique du descripteur associées aux molécules de ladite au moins une partie des molécules appartenant au sous-ensemble de référence, ou si une pluralité de valeurs distinctes vérifient cette condition, avec la valeur la plus élevée parmi cette pluralité de valeurs distinctes.  To remedy this aspect, according to a second variant, during the updating step, the value associated with the current molecule of each feature of the descriptor is updated with the most frequent value of this characteristic of the descriptor among the values of this feature of the descriptor associated with the molecules of said at least a portion of the molecules belonging to the reference subset, or if a plurality of distinct values satisfy this condition, with the highest value among this plurality of distinct values.
Dans un mode particulier de réalisation, les différentes étapes du procédé de sélection et/ou du procédé de prédiction sont déterminées par des instructions de programmes d'ordinateurs.  In a particular embodiment, the various steps of the selection method and / or the prediction method are determined by computer program instructions.
En conséquence, l'invention vise aussi un programme d'ordinateur sur un support d'informations, ce programme étant susceptible d'être mis en œuvre dans un dispositif de sélection, respectivement dans un dispositif de prédiction, ou plus généralement dans un ordinateur, ce programme comportant des instructions adaptées à la mise en œuvre des étapes d'un procédé de sélection, respectivement d'un procédé de prédiction, tel que décrit ci-dessus. Accordingly, the invention also relates to a computer program on an information carrier, this program being capable of being implemented in a device of selection, respectively in a prediction device, or more generally in a computer, this program comprising instructions adapted to the implementation of the steps of a selection method, respectively of a prediction method, as described above .
Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.  This program can use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code, such as in a partially compiled form, or in any other form desirable shape.
L'invention vise aussi un support d'informations ou d'enregistrement lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur tel que mentionné ci- dessus.  The invention also relates to a computer readable information or recording medium, and comprising instructions of a computer program as mentioned above.
Le support d'informations ou d'enregistrement peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple un disque dur.  The information or recording medium may be any entity or device capable of storing the program. For example, the medium may comprise storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or a magnetic recording means, for example a hard disk.
D'autre part, le support d'informations ou d'enregistrement peut être un support transmissibie tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.  On the other hand, the information or recording medium may be a transmissive medium such as an electrical or optical signal, which may be conveyed via an electrical or optical cable, by radio or by other means. The program according to the invention can be downloaded in particular on an Internet type network.
Alternativement, le support d'informations ou d'enregistrement peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.  Alternatively, the information or recording medium may be an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method in question.
On peut également envisager, dans d'autres modes de réalisation, que le procédé de sélection, le procédé de prédiction, le dispositif de sélection et le dispositif de prédiction selon l'invention présentent en combinaison tout ou partie des caractéristiques précitées. Brève description des dessins et des annexes  It can also be envisaged, in other embodiments, that the selection method, the prediction method, the selection device and the prediction device according to the invention present in combination all or part of the aforementioned characteristics. Brief description of drawings and annexes
D'autres caractéristiques et avantages de la présente invention ressortiront de la description faite ci-dessous, en référence aux dessins qui en illustrent un exemple de réalisation dépourvu de tout caractère limitatif, et aux Annexes 1 à 6.  Other features and advantages of the present invention will emerge from the description given below, with reference to the drawings which illustrate an embodiment having no limiting character, and to Annexes 1 to 6.
Sur les figures :  In the figures:
— la figure 1 représente, de façon schématique, un dispositif de prédiction conforme à l'invention, dans un mode particulier de réalisation ; - Figure 1 shows, schematically, a prediction device according to the invention, in a particular embodiment;
— la figure 2 représente l'architecture matérielle du dispositif de prédiction de la figure 1, dans un mode particulier de réalisation ;  FIG. 2 represents the hardware architecture of the prediction device of FIG. 1, in a particular embodiment;
— la figure 3 illustre les différentes étapes d'un procédé de sélection conforme à l'invention ; et — la figure 4 illustre les différentes étapes d'un procédé de prédiction conforme à l'invention.  FIG. 3 illustrates the different steps of a selection method according to the invention; and FIG. 4 illustrates the different steps of a prediction method according to the invention.
Les Annexes 1 à 6 présentent les performances atteintes par le procédé de prédiction selon l'invention. Description détaillée de l'invention Annexes 1 to 6 show the performances achieved by the prediction method according to the invention. Detailed description of the invention
La figure 1 représente, dans son environnement, un dispositif de prédiction 1 conforme à l'invention, dans un mode particulier de réalisation.  FIG. 1 represents, in its environment, a prediction device 1 according to the invention, in a particular embodiment.
Dans l'exemple envisagé à la figure 1, le dispositif de prédiction 1 est configuré pour prédire au moins une propriété d'une substance dite cible TARGm inconnue. On suppose que cette substance cible a une structure mono-moléculaire à partir de laquelle il est possible d'extraire la valeur d'un descripteur comprenant un nombre prédéterminé N de caractéristiques (structurales ici) permettant de caractériser la substance cible. Dans le mode de réalisation décrit ici, le descripteur est un vecteur comprenant N=166 caractéristiques (ou composantes) traduisant la présence ou l'absence dans la structure moléculaire considéré des 166 fragments moléculaires considérés dans la définition de la clef structurale MACCS 166. Autrement dit, la valeur d'une caractéristique du descripteur d'une substance moléculaire indique la présence ou l'absence du fragment moléculaire correspondant dans la substance moléculaire.  In the example envisaged in FIG. 1, the prediction device 1 is configured to predict at least one property of a substance called TARGm target unknown. It is assumed that this target substance has a mono-molecular structure from which it is possible to extract the value of a descriptor comprising a predetermined number N of (structural) characteristics for characterizing the target substance. In the embodiment described here, the descriptor is a vector comprising N = 166 characteristics (or components) reflecting the presence or absence in the molecular structure considered of the 166 molecular fragments considered in the definition of the MACCS structural key 166. Otherwise said, the value of a descriptor characteristic of a molecular substance indicates the presence or absence of the corresponding molecular fragment in the molecular substance.
En variante, d'autres descripteurs peuvent être envisagés pour la mise en oeuvre de l'invention, comme mentionné précédemment (ex. fingerprints 2D MolPrint2D, BCI, ou définis par les sociétés Tripos et Scitegic, variable simple dont la valeur peut être une valeur numérique quantitative ou qualitative, matrice de connectivité entre une pluralité d'atomes prédéterminés indiquant pour chaque couple d'atomes la présence ou non d'une liaison dans la molécule considérée, etc.)  Alternatively, other descriptors may be envisaged for the implementation of the invention, as mentioned previously (eg 2D fingerprints MolPrint2D, BCI, or defined by the companies Tripos and Scitegic, simple variable whose value can be a value quantitative or qualitative numerical, matrix of connectivity between a plurality of predetermined atoms indicating for each pair of atoms the presence or absence of a bond in the molecule in question, etc.)
Aucune limitation n'est attachée à la nature de la substance mono-moléculaire considérée. Il s'agit par exemple ici d'une molécule hautement énergétique (ou HEM), toutefois cet exemple n'est donné qu'à titre illustratif et l'invention s'applique à tout type de molécules.  No limitation is attached to the nature of the mono-molecular substance under consideration. This is for example here a high energy molecule (or HEM), however this example is given for illustrative purposes and the invention applies to all types of molecules.
Par « prédiction d'au moins une propriété de la substance cible TARGm», on entend ici la prédiction de son activité biologique. Ainsi une propriété que l'on tente de prédire peut être par exemple une propriété toxicologique de la substance cible TARGm, pour répondre notamment aux exigences du règlement européen REACH. L'invention s'applique toutefois également à la prédiction d'autres types de propriétés d'une molécule, comme par exemple des propriétés physico-chimiques (logP ou poids moléculaire), des propriétés structurales, des propriétés d'absorption, de Distribution, de Métabolisme, ou d'Elimination (ADMET), des propriétés thérapeutiques, etc.  By "prediction of at least one property of TARGm target substance" is meant here the prediction of its biological activity. Thus a property that we are trying to predict may be for example a toxicological property of TARGm target substance, in particular to meet the requirements of the European REACH Regulation. However, the invention also applies to the prediction of other types of properties of a molecule, such as, for example, physico-chemical properties (logP or molecular weight), structural properties, absorption properties, distribution properties, of Metabolism, or Elimination (ADMET), therapeutic properties, etc.
Pour prédire ces propriétés, le dispositif de prédiction 1 comprend :  To predict these properties, the prediction device 1 comprises:
— un dispositif de sélection 2, conforme à l'invention ; et  A selection device 2 according to the invention; and
— un module de prédiction 3.  A prediction module 3.
Dans le mode de réalisation décrit ici, le dispositif de prédiction 1 a l'architecture matérielle d'un ordinateur telle que représentée à la figure 2, et le dispositif de sélection 2 et le module de prédiction 3 sont des modules logiciels installés dans une mémoire du dispositif de prédiction 1. Plus particulièrement, le dispositif de prédiction 1 comprend notamment un processeur 4, une mémoire vive 5, une mémoire morte 6, une mémoire flash non volatile 7, des interfaces d'entrée/sortie 8 (comme par exemple un écran, un clavier, etc.), ainsi que des moyens de communication 9. In the embodiment described here, the prediction device 1 has the hardware architecture of a computer as represented in FIG. 2, and the selection device 2 and the prediction module 3 are software modules installed in a memory of the prediction device 1. More particularly, the prediction device 1 comprises in particular a processor 4, a random access memory 5, a read-only memory 6, a non-volatile flash memory 7, input / output interfaces 8 (such as a screen, a keyboard, etc. .), as well as means of communication 9.
Ces moyens de communication 9 permettent au dispositif de prédiction 1 d'accéder à ou de télécharger par exemple une ou plusieurs bases de données 10 répertoriant chacune une pluralité de molécules. Dans le mode de réalisation décrit ici, chaque base de données 10 considérée comprend, pour chaque molécule qu'elle contient, son nom, sa structure moléculaire, les valeurs des N caractéristiques structurales de la clef structurale MACCS 166 (autrement dit, les valeurs associées aux N=166 fragments moléculaires considérés dans la clef structurale MACCS 166), et le résultat expérimental atteint par cette molécule à un test biologique donné.  These communication means 9 allow the prediction device 1 to access or download for example one or more databases 10 each listing a plurality of molecules. In the embodiment described here, each database 10 considered comprises, for each molecule it contains, its name, its molecular structure, the values of the N structural characteristics of the structural key MACCS 166 (in other words, the associated values N = 166 molecular fragments considered in structural key MACCS 166), and the experimental result reached by this molecule in a given biological test.
De telles bases de données sont connues en soi et ne sont pas décrites en détail ici. Chaque base de données correspond à un test biologique réalisé sur les molécules qu'elle contient. Des exemples de ces bases de données sont notamment décrits dans le document de DJ. Kirkland et al., intitulé « Testing stratégies in mutagenicity and genetic toxicology : an appraisal of the guidelines of the European Scientific Committe for Cosmetics and Non-Food Products for the évaluation of hair dyes », Mutât. Res. Toxicol. Environ. Mutagen, vol. 588, pages 88-105, 2005, ou dans le document de V. Thybaud et al. intitulé « Strategy for genotoxicity testing : hazard identification and risk assessment in relation to in vitro testing », Mutât. Res. Toxicol. Environ. Mutagen, vol. 627, pages 41-58, 2007.  Such databases are known per se and are not described in detail here. Each database corresponds to a biological test performed on the molecules it contains. Examples of these databases are described in particular in the DJ document. Kirkland et al., Entitled "Testing strategies in mutagenicity and genetic toxicology: an appraisal of the guidelines of the European Scientific Committee for Cosmetics and Non-Food Products for the Evaluation of Hair Diseases", Mutat. Res. Toxicol. About. Mutagen, vol. 588, pp. 88-105, 2005, or in the document by V. Thybaud et al. entitled "Strategy for genotoxicity testing: hazard identification and risk assessment in vitro testing", Mutat. Res. Toxicol. About. Mutagen, vol. 627, pp. 41-58, 2007.
Les bases de données 10 peuvent être hébergées sur des serveurs distants ou stockées dans une mémoire du dispositif de prédiction 1 (par exemple dans sa mémoire non volatile 7). Les moyens de communication 9 du dispositif de prédiction 1 lui permettent d'y accéder ou de les télécharger via un réseau de télécommunications, ou encore d'obtenir ces bases de données via un support d'enregistrement tel qu'une clé USB (Universal Sériai Bus) ou un CDROM. Ils peuvent comprendre à cet effet un port USB, une carte réseau, une interface WIFI (WIreless FIdelity), etc.  The databases 10 may be hosted on remote servers or stored in a memory of the prediction device 1 (for example in its non-volatile memory 7). The communication means 9 of the prediction device 1 allow it to access or download them via a telecommunications network, or to obtain these databases via a recording medium such as a USB key (Universal Serial). Bus) or a CDROM. They can include for this purpose a USB port, a network card, a WIFI interface (WIreless FIdelity), etc.
La mémoire morte 6 du dispositif de prédiction 1 constitue un support d'enregistrement conforme à l'invention, lisible par le processeur 4 et sur lequel est enregistré ici un programme d'ordinateur PROG conforme à l'invention.  The read-only memory 6 of the prediction device 1 constitutes a recording medium in accordance with the invention, readable by the processor 4 and on which is recorded here a computer program PROG according to the invention.
Le programme d'ordinateur PROG définit des modules fonctionnels (et logiciels ici), configurés pour mettre en œuvre les étapes du procédé de sélection et du procédé de prédiction selon l'invention. En variante, les deux procédés précités peuvent être définis par des instructions de deux programmes distincts.  The computer program PROG defines functional modules (and software here), configured to implement the steps of the selection method and the prediction method according to the invention. In a variant, the two aforementioned methods can be defined by instructions from two different programs.
Les modules fonctionnels définis par le programme PROG s'appuient sur et/ou commandent les éléments matériels 4-9 du dispositif de prédiction 1 cités précédemment. Ils comprennent notamment ici, comme illustré sur la figure 1 : — un module d'initialisation 2A configuré pour associer à une molécule dite courante CURm mise à jour au cours du procédé de sélection selon l'invention, la valeur du descripteur MACCS 166 associée à la molécule cible TARGm (la valeur du descripteur comprenant ici N caractéristiques) ; The functional modules defined by the program PROG rely on and / or control the hardware elements 4-9 of the prediction device 1 mentioned above. They include in particular here, as illustrated in FIG. An initialization module 2A configured to associate with a current so-called CURm molecule updated during the selection process according to the invention, the value of the MACCS descriptor 166 associated with the target molecule TARGm (the value of the descriptor comprising here N characteristics) ;
— un module d'évaluation 2B configuré pour évaluer des mesures de similarité dites « globales » entre les valeurs des descripteurs associées à un ensemble prédéterminé de molécules (typiquement les molécules d'une base de données 10) et la valeur du descripteur associée à la molécule courante CURm ; An evaluation module 2B configured to evaluate so-called "global" similarity measurements between the values of the descriptors associated with a predetermined set of molecules (typically the molecules of a database 10) and the value of the descriptor associated with the current molecule CURm;
— un module de sélection 2C configuré pour sélectionner des molécules de l'ensemble prédéterminé considéré ayant une mesure de similarité globale supérieure à un seuil prédéterminé, et pour ajouter les molécules ainsi sélectionnées à un sous-ensemble dit de référence noté CREF ; et  A selection module 2C configured to select molecules of the predetermined set considered having a global similarity measurement greater than a predetermined threshold, and to add the molecules thus selected to a so-called reference subset designated CREF; and
— un module de mise à jour 2D configuré pour mettre à jour la valeur du descripteur associée à la molécule courante CURm à partir des valeurs des descripteurs associées à au moins une partie des molécules appartenant au sous-ensemble de référence CREF.  A 2D update module configured to update the value of the descriptor associated with the current molecule CURm from the values of the descriptors associated with at least a part of the molecules belonging to the CREF reference subset.
Les modules d'évaluation 2B, de sélection 2C et de mise à jour 2D sont les modules du dispositif de sélection 2, et sont configurés pour la mise en œuvre d'un procédé de sélection selon l'invention. Ils sont activés par le dispositif de sélection 2 de façon répétée au cours d'une pluralité d'itérations, et plus précisément dans le mode de réalisation décrit ici, tant qu'un critère prédéterminé (paramétrable) n'est pas vérifié.  Evaluation module 2B, selection module 2C and 2D update module are modules of selection device 2, and are configured for the implementation of a selection method according to the invention. They are activated by the selection device 2 repeatedly during a plurality of iterations, and more specifically in the embodiment described here, as long as a predetermined criterion (parameterizable) is not verified.
Le programme PROG définit également ici le module de prédiction 3 du dispositif de prédiction 1. Le module de prédiction 3 est configuré pour prédire au moins une propriété de la substance moléculaire cible TARGm à partir des molécules du sous-ensemble de référence CREF sélectionné par le dispositif de sélection 2. Aucune limitation n'est attachée à la technique de prédiction mise en œuvre par le module de prédiction 3. Il peut s'agir par exemple d'une relation de type QSAR, d'un réseau de neurones, d'une technique de prédiction par analyse de composantes principales, etc. Cette technique de prédiction utilise les résultats expérimentaux atteints par les molécules du sous-ensemble de référence CREF répertoriés dans la base de données 10 dont le sous-ensemble CREF a été extrait.  The program PROG here also defines the prediction module 3 of the prediction device 1. The prediction module 3 is configured to predict at least one property of the target molecular substance TARGm from the molecules of the reference subset CREF selected by the selection device 2. No limitation is attached to the prediction technique implemented by the prediction module 3. It may be for example a QSAR type relationship, a neural network, a prediction technique by principal component analysis, etc. This prediction technique uses the experimental results achieved by the molecules of the reference subset CREF listed in the database 10 whose subset CREF was extracted.
Les différentes fonctions des modules 2A, 2B, 2C, 2D et 3 précités sont décrites maintenant en référence aux étapes du procédé de sélection et du procédé de prédiction selon l'invention.  The various functions of the modules 2A, 2B, 2C, 2D and 3 above are described now with reference to the steps of the selection method and the prediction method according to the invention.
Comme mentionné précédemment, le dispositif de prédiction 3 prédit au moins une propriété de la substance moléculaire TARGm à partir des propriétés répertoriées dans les bases de données 10 pour une pluralité de molécules. Par souci de simplification, on considère ici une unique base de données 10 comprenant une pluralité de molécules et les résultats expérimentaux atteints par ces molécules correspondant à un test biologique donné. Conformément à l'invention, la prédiction réalisée par le dispositif de prédiction 3 s'appuie sur une sélection préalable par le dispositif de sélection 2 d'un sous-ensemble de référence CREF comprenant une pluralité de molécules extraites de la base de données 10. La figure 3 illustre les principales étapes du procédé de sélection selon l'invention mises en uvre par le dispositif de sélection 2 pour opérer cette sélection du sous-ensemble de référence CREF. As mentioned previously, the prediction device 3 predicts at least one property of the molecular substance TARGm from the properties listed in the databases 10 for a plurality of molecules. For the sake of simplicity, here we consider a single database 10 comprising a plurality of molecules and the experimental results achieved by these molecules corresponding to a given biological test. According to the invention, the prediction made by the prediction device 3 is based on a prior selection by the selection device 2 of a reference subset CREF comprising a plurality of molecules extracted from the database 10. FIG. 3 illustrates the main steps of the selection method according to the invention implemented by the selection device 2 in order to make this selection of the CREF reference subset.
Comme mentionné précédemment, le procédé de sélection est un procédé itératif, comprenant une étape d'initialisation (étape E10) et mettant en uvre une pluralité d'itérations. Dans le mode de réalisation décrit ici les itérations s'enchaînent tant qu'un critère d'arrêt prédéterminé CRU n'est pas vérifié. Les différents critères d'arrêt envisagés sont décrits plus en détail ultérieurement.  As mentioned above, the selection method is an iterative method, comprising an initialization step (step E10) and implementing a plurality of iterations. In the embodiment described here, the iterations are linked as long as a predetermined stop criterion CRU is not checked. The different stopping criteria envisaged are described in more detail later.
Au cours de l'étape d'initialisation E10 (correspondant à l'itération iter=0), le module d'initialisation 2A du dispositif de sélection 2 initialise le sous-ensemble de référence CREF à un ensemble vide.  During the initialization step E10 (corresponding to the iteration iter = 0), the initialization module 2A of the selection device 2 initializes the reference subset CREF to an empty set.
Par ailleurs, il initialise la molécule courante CURm à la molécule cible TARGm dont on cherche à prédire les propriétés. Cette initialisation consiste plus particulièrement ici à associer à la molécule courante CURm la valeur de la clef structurale MACCS 166 associée à la molécule cible TARGm. Cette clé comprenant N=166 caractéristiques, l'initialisation consiste en d'autres mots à associer à la molécule courante les valeurs des N=166 caractéristiques de la clé structurale MACCS associée à la molécule cible TARGm (i.e. la valeur du descripteur est constituée des valeurs de ses N=166 caractéristiques). On désigne par la suite par MACCS(CURm,l),..., MACCS(CURm,N), les valeurs des N caractéristiques MACCS associées à la molécule courante CURm.  In addition, it initializes the current molecule CURm to TARGm target molecule whose properties are to be predicted. This initialization consists more particularly in associating with the current molecule CURm the value of the structural key MACCS 166 associated with the target molecule TARGm. Since this key comprises N = 166 characteristics, the initialization consists of other words to associate with the current molecule the values of the N = 166 characteristics of the MACCS structural key associated with the target molecule TARGm (ie the value of the descriptor consists of values of its N = 166 characteristics). MACCS (CURm, l),..., MACCS (CURm, N) are subsequently denoted as the values of the N MACCS characteristics associated with the current molecule CURm.
Le dispositif de sélection 2 démarre ensuite les itérations du procédé de sélection (étape E20 d'incrémentation de l'indice iter).  The selection device 2 then starts the iterations of the selection process (step E20 of incrementing the index iter).
Plus particulièrement, le dispositif de sélection 2 évalue, via son module d'évaluation 2B, pour chaque molécule MOLk de la base de données 10 considérée, k=l,...,K où K est un entier désignant le nombre de molécules répertoriées dans la base 10, une métrique de similarité dite globale notée S(CURm,MOLk), entre la valeur du descripteur MACCS 166 associée dans la base 10 à cette molécule MOLk et la valeur du descripteur MACCS 166 associée à la molécule courante CURm (étape E30). Cette métrique de similarité globale est plus précisément ici calculées entre les N valeurs des N caractéristiques du descripteur MACCS 166 associées dans la base 10 à la molécule MOLk et les N valeurs des N caractéristiques du descripteur MACCS 166 associées à la molécule courante CURm (étape E30).  More particularly, the selection device 2 evaluates, via its evaluation module 2B, for each molecule MOLk of the database 10 considered, k = l, ..., K where K is an integer designating the number of molecules listed. in the base 10, a so-called global similarity metric denoted S (CURm, MOLk), between the value of the MACCS descriptor 166 associated in the base 10 with this molecule MOLk and the value of the MACCS descriptor 166 associated with the current molecule CURm (step E30). This global similarity metric is more precisely calculated here between the N values of the N characteristics of the associated MACCS descriptor 166 in the base 10 of the MOLk molecule and the N values of the N characteristics of the MACCS descriptor 166 associated with the current molecule CURm (step E30 ).
Dans le mode de réalisation décrit ici, la métrique de similarité globale S(CURm,MOLk) entre chaque molécule MOLk de la base 10 et la molécule courante CURm est évaluée à partir de mesures de similarité dites locales ls(CURm,MOLk,n), n=l,...N calculées pour chacunes des N caractéristiques du descripteur MACCS 166 des molécules considérées.  In the embodiment described here, the global similarity metric S (CURm, MOLk) between each molecule MOLk of the base 10 and the current molecule CURm is evaluated from so-called local similarity measures ls (CURm, MOLk, n). , n = 1, ... N calculated for each of the N characteristics of the MACCS descriptor 166 of the considered molecules.
Ces mesures de similarité locales sont définies ici à partir d'une fonction de similarité locale Is qui à tout couple de valeurs de caractéristiques entières (x,y) associe un nombre réel ls(x,y) (noté ici ls(CURm,MOLk,n) pour la nième caractéristique), compris entre 0 et 1 et vérifiant les propriétés suivantes : These local similarity measures are defined here from a local similarity function Is which at any pair of integer characteristic values (x, y) associates a real number ls (x, y) (denoted here ls (CURm, MOLk, n) for the nth characteristic), between 0 and 1 and satisfying the following properties:
ls(x,x)=l pour tout entier naturel x ;  ls (x, x) = 1 for any natural integer x;
ls(x,y)=ls(y,x) pour x et y entiers naturels quelconques.  ls (x, y) = ls (y, x) for x and y any natural integers.
Dans le mode de réalisation décrit ici, la fonction Is résulte de la composition d'une fonction d assimilable à une distance géométrique entre les valeurs x et y, et d'une fonction f de conversion de la distance entre x et y en une mesure de similarité locale, soit :  In the embodiment described here, the function Is results from the composition of a function d comparable to a geometric distance between the values x and y, and a function f of converting the distance between x and y into a measurement local similarity, ie:
ls(x,y)=f(d(x,y))  ls (x, y) = f (d (x, y))
Différents choix sont possibles pour la distance algébrique d(x,y). Dans le mode de réalisation décrit ici, le module d'évaluation 2B utilise la distance d ainsi définie : Different choices are possible for the algebraic distance d (x, y). In the embodiment described here, the evaluation module 2B uses the distance d thus defined:
Par ailleurs, le module d'évaluation 2B utilise comme fonction de conversion f, une fonction de Gauss normalisée définie Furthermore, the evaluation module 2B uses as conversion function f, a standardized Gauss function defined
où σ un nombre réel prédéterminé. where σ is a predetermined real number.
Bien entendu, d'autres distances et d'autres fonctions de conversion peuvent être utilisées par le module d'évaluation 2B pour déterminer les métriques de similarité locales entre les N valeurs de caractéristiques du descripteur considéré de la molécule courante CURm et les N valeurs de caractéristiques du descripteur considéré de la molécule MOLk. On choisit toutefois préférentiellement une fonction de conversion associant à tout nombre de la droite réelle achevée une valeur réelle comprise entre 0 et 1 telle que :  Of course, other distances and other conversion functions can be used by the evaluation module 2B to determine the local similarity metrics between the N characteristic values of the considered descriptor of the current molecule CURm and the N values of characteristics of the relevant descriptor of the molecule MOLk. However, a conversion function is preferably chosen, associating with any number of the real straight line a real value between 0 and 1 such that:
(i) f(+/-∞)=0 (i.e. à une distance infinie entre deux valeurs d'une caractéristique on associe une valeur de similarité nulle) ; et  (i) f (+/- ∞) = 0 (i.e. at an infinite distance between two values of a characteristic we associate a zero similarity value); and
(ii) f(0)=l (i.e. à une distance nulle entre deux valeurs d'une caractéristique, on associe une valeur de similarité unitaire).  (ii) f (0) = 1 (i.e. at a zero distance between two values of a characteristic, we associate a unit similarity value).
Ainsi, au cours de l'étape d'évaluation E30, pour chaque molécule MOLk de la base de données 10, le module d'évaluation 2 calcule pour chaque caractéristique du descripteur MACCS 166 indexée par l'entier n, n=l,...,N, la métrique de similarité locale suivante :  Thus, during the evaluation step E30, for each molecule MOLk of the database 10, the evaluation module 2 calculates for each characteristic of the MACCS descriptor 166 indexed by the integer n, n = 1. .., N, the following local similarity metric:
ls(CURm,MOLk,n)=f(d(MACCS(CURm,n), MACCS(MOLk,n)) où MACCS(CURm,n) et MACCS(MOLk,n) désignent respectivement la valeur de la n-ième caractéristique du descripteur MACCS de la molécule courante CURm et la valeur de la n-ième caractéristique du descripteur MACCS de la molécule de la molécule MOLk.  ls (CURm, MOLk, n) = f (d (MACCS (CURm, n), MACCS (MOLk, n)) where MACCS (CURm, n) and MACCS (MOLk, n) respectively denote the value of the nth characteristic of the MACCS descriptor of the current molecule CURm and the value of the nth characteristic of the MACCS descriptor of the molecule of the MOLk molecule.
Puis le module d'évaluation 2 évalue la métrique de similarité globale S(CURm,MOLk) entre la molécule MOLk et la molécule courante CURm selon l'équation suivante : ∑n=i >s(M0L - A, 0L - B, n) Then the evaluation module 2 evaluates the global similarity metric S (CURm, MOLk) between the molecule MOLk and the current molecule CURm according to the following equation: Σn = i > s (M0L - A, 0L - B, n)
S(M0L - A, 0L - B) = " 1 ' S (M0L - A, 0L - B) = " 1 '
2∑n=i wn -∑n=i wnls(M0L - A, MOL - B, n) 2Σn = iw n -Σn = iw n ls (MOL-A, MOL-B, n)
avec MOL-A = CURm et MOL-B = MOLk et où w„, n=l,...,N désignent des poids réels. with MOL-A = CURm and MOL-B = MOLk and where w ", n = 1, ..., N denote real weights.
Il convient de noter que cette expression de la similarité globale résulte d'une recherche par les inventeurs d'une mesure de similarité qui, contrairement à la métrique de Tanimoto couramment utilisée dans les techniques de l'art antérieur, permet de tenir compte de différents niveaux d'expression d'une même caractéristique du descripteur (c'est-à-dire de différentes valeurs d'une même caractéristique) entre deux molécules comparées, et qui par ailleurs considère la non-expression commune d'une même caractéristique du descripteur (i.e. valeur nulle de cette caractéristique) comme une marque de similarité entre les deux molécules comparées.  It should be noted that this expression of the overall similarity results from a search by the inventors of a similarity measure which, unlike the Tanimoto metric commonly used in the techniques of the prior art, makes it possible to take into account different levels of expression of the same characteristic of the descriptor (ie different values of the same characteristic) between two compared molecules, and which also considers the common non-expression of the same descriptor characteristic (ie null value of this characteristic) as a mark of similarity between the two compared molecules.
Pour obtenir cette expression, les inventeurs ont eu l'idée judicieuse d'utiliser l'indice de Jaccard J(A,B) de deux ensembles A et B défini par :  To obtain this expression, the inventors had the judicious idea of using the Jaccard J index (A, B) of two sets A and B defined by:
Λ ' ) \A U B\ \A \ + \B\ - \A n B \ Λ ' ) \ AUB \ \ A \ + \ B \ - \ A n B \
où les symboles n et u désignent respectivement l'intersection et l'union des ensembles A et B, et |X| fait référence au cardinal d'un ensemble X. Ils ont ensuite appliqué cet indice de Jaccard à deux ensembles A et B constitués de l'ensemble des couples formés de chaque indice n de caractéristique, n=l,...,N et de la valeur de la caractéristique correspondante, associés à deux molécules distinctes notées MOL-A et MOL-B (par exemple ici MOL-A=CURm et MOL-B=MOLk). L'intersection des ensembles A et B peut alors s'écrire sous la forme : where the symbols n and u respectively denote the intersection and the union of the sets A and B, and | X | refers to the cardinal of a set X. They then applied this index of Jaccard to two sets A and B made up of the set of pairs formed of each index n of characteristic, n = 1, ..., N and of the value of the corresponding characteristic, associated with two distinct molecules denoted MOL-A and MOL-B (for example here MOL-A = CURm and MOL-B = MOLk). The intersection of the sets A and B can then be written in the form:
\A B\ =∑£=1 wn|{n, MACCS(MOL - A, n)} n {n, MACCS(MOL - B, n)}| en considérant que les couples des molécules MOL-A et MOL-B correspondant à des caractéristiques de descripteur MACCS différentes ont des intersections vides, et où wn, n=l,...,N désignent des poids réels. Puis en posant : \ AB \ = Σ £ = 1 w n | {n, MACCS (MOL - A, n)} n {n, MACCS (MOL - B, n)} | considering that the pairs of MOL-A and MOL-B molecules corresponding to different MACCS descriptor characteristics have empty intersections, and where w n , n = 1, ..., N denote real weights. Then asking:
|{n, MACCS(MOL— A, n) n {n, MACCS(MOL - B, n)}| = ls(MOL - A, MOL - B, n) on obtient que :  | n, MACCS (MOL-B, n) n {n, MACCS (MOL-B, n)} | = ls (MOL - A, MOL - B, n) we obtain that:
wnls(MOL - A, MOL - B, n) w n ls (MOL - A, MOL - B, n)
n=l  n =
En notant que |A| =|B| =N, on obtient à partir de la formule de l'indice de Jaccard : Noting that | A | = | B | = N, we obtain from the formula of the Jaccard index:
En appliquant aux molécules CURm et MOLk cet indice de Jaccard, les inventeurs ont obtenu la mesure de similarité globale utilisée par le module d'évaluation 2 au cours de l'étape By applying the Jaccard index to the CURm and MOLk molecules, the inventors obtained the overall similarity measure used by the evaluation module 2 during the step
E30. E30.
On note qu'une définition différente des ensembles A et B auxquels on applique l'indice de Jaccard A et B défini ci-dessus avec des poids w„=l pour n= l,...,N, permet d'obtenir la métrique de Tanimoto. Dans le mode de réalisation décrit ici, le module d'évaluation 2 utilise des poids wn, n=l,...,N tous égaux à 1. We note that a different definition of the sets A and B to which the Jaccard A and B index defined above with weights w "= 1 for n = 1, ..., N, is applied makes it possible to obtain the metric of Tanimoto. In the embodiment described here, evaluation module 2 uses weights w n , n = 1, ..., N all equal to 1.
En variante, des poids réels distincts de 1 peuvent être appliqués par le module d'évaluation 2. Différentes stratégies peuvent être considérées pour déterminer les poids wn, n=l,...,N. Par exemple, ces poids peuvent être déterminés par expertise à partir d'une connaissance métier de la pertinence de chaque caractéristique du descripteur compte tenu du type de la molécule cible TARGm dont on veut prédire la propriété. Ces poids peuvent être également déterminés au moyen de méthodes statistiques, en particulier de méthodes de classification comme l'analyse discriminante linéaire (ou LDA pour Linear Discriminant Analysis en anglais) qui permet de déterminer des poids conduisant à une meilleure discrimination entre les molécules expérimentalement positives (i.e. qui sont considérées comme ayant répondu positivement au test de toxicité considéré) et négatives (i.e. qui sont considérées comme ayant répondu négativement au test de toxicité considéré). Alternatively, different real weights of 1 can be applied by the evaluation module 2. Different strategies can be considered to determine the weights w n , n = 1, ..., N. For example, these weights can be determined by expertise from a business knowledge of the relevance of each feature of the descriptor given the type of TARGm target molecule whose property is to be predicted. These weights can also be determined using statistical methods, in particular classification methods such as Linear Discriminant Analysis (LDA), which makes it possible to determine weights leading to a better discrimination between the experimentally positive molecules. (ie who are considered to have responded positively to the toxicity test considered) and negative (ie who are considered to have responded negatively to the toxicity test considered).
Une fois les métriques de similarité globales S(CURm, MOLk) évaluées pour chaque molécule MOLk de la base de données 10, le dispositif de sélection 2, via son module de sélection 2C, détermine quelles sont les molécules de la base 10 qui ont une mesure de similarité globale supérieure à un seuil prédéterminé THRmin (ou de façon équivalente supérieure ou égale à un seuil THRmin' prédéterminé) et les sélectionne (étape E40).  Once the global similarity metrics S (CURm, MOLk) evaluated for each molecule MOLk of the database 10, the selection device 2, via its selection module 2C, determines which molecules of the base 10 have measuring overall similarity greater than a predetermined threshold THRmin (or equivalently greater than or equal to a predetermined threshold THRmin ') and selects them (step E40).
Les molécules ainsi sélectionnées forment un ensemble C(iter) de molécules considérées comme similaires à la molécule courante CURm. Le seuil THRmin est un paramètre constant ici au cours des itérations du procédé de sélection, et compris entre 0 et 1. Il peut dépendre notamment du type de molécule cible TARGm dont on cherche à déterminer les propriétés (ex. molécule hautement énergétique, solvant, plastifiants, liquide, etc.). Ce seuil peut être déterminé préalablement expérimentalement.  The molecules thus selected form a set C (iter) of molecules considered to be similar to the current molecule CURm. The threshold THRmin is a constant parameter here during the iterations of the selection process, and between 0 and 1. It may depend in particular on the type of target molecule TARGm whose properties are to be determined (eg high energy molecule, solvent, plasticizers, liquid, etc.). This threshold can be determined experimentally beforehand.
Les inventeurs ont ainsi par exemple déterminé par expérimentation qu'un seuil By way of example, the inventors have determined by experimentation that a threshold
THRmin=0.85 (ou supérieur ou égal à 0.85) conduit à de bonnes prédictions pour différentes catégories de molécules (charges, plastifiants, liquides, etc.). THRmin = 0.85 (or greater than or equal to 0.85) leads to good predictions for different categories of molecules (fillers, plasticizers, liquids, etc.).
En variante, le seuil THRmin peut évoluer au fil des itérations.  As a variant, the THRmin threshold may change over the iterations.
L'ensemble des molécules C(iter) sélectionné lors de l'itération courante iter est alors ajouté par le module de sélection 2C à l'ensemble de référence CREF (étape E50). On note que certaines molécules contenues dans l'ensemble C(iter) peuvent déjà être présentes dans l'ensemble de référence CREF auquel cas l'ajout des molécules de l'ensemble C(iter) à l'ensemble de référence CREF se borne à ajouter seulement les molécules nouvelles non déjà présentes dans l'ensemble de référence CREF.  The set of molecules C (iter) selected during the current iteration iter is then added by the selection module 2C to the set of reference CREF (step E50). It should be noted that certain molecules contained in the set C (iter) may already be present in the reference set CREF, in which case the addition of the molecules of the set C (iter) to the set of reference CREF is limited to add only the new molecules not already present in the CREF reference set.
Puis, dans le mode de réalisation décrit ici, le dispositif de sélection 2, via son module de mise à jour 2D, réalise une mise à jour de la valeur du descripteur MACCS associée à la molécule courante (étape E60). Ceci se traduit ici par une mise à jour des N valeurs des caractéristiques MACCS(CURm,l),...,MACCS(CURm,N) du descripteur associées à la molécule courante CURm. Il s'agit par ce biais de définir en quelque sorte une nouvelle molécule « virtuelle » courante pour l'itération suivante à partir de laquelle sera réalisée une nouvelle recherche de similarité dans la base de données 10. Then, in the embodiment described here, the selection device 2, via its 2D update module, updates the value of the MACCS descriptor associated with the current molecule (step E60). This results in an update of the N values of the MACCS characteristics (CURm, l), ..., MACCS (CURm, N) of the descriptor associated with the molecule. current CURm. In this way, it is a question of defining a new "virtual" molecule that is current for the next iteration, from which a new similarity search will be performed in the database 10.
Conformément à l'invention, cette mise à jour est réalisée à partir des valeurs des descripteurs d'au moins une partie des molécules présentes dans le sous-ensemble de référence CREF à l'issue de l'étape E50.  According to the invention, this update is carried out from the descriptor values of at least a part of the molecules present in the CREF reference subset at the end of step E50.
Différentes manières de mettre à jour les N valeurs des caractéristiques MACCS(CURm,n), n=l,...,N du descripteur MACCS peuvent être mises en œuvre par le module de mise à jour 2D. Ces manières peuvent se distinguer d'une part, par les molécules du sous- ensemble de référence CREF qui sont utilisées, et d'autre part, par la façon dont les valeurs des caractéristiques du descripteur de ces molécules sont combinées pour obtenir les valeurs mises à jour de la molécule courante CURm.  Different ways of updating the N MACCS characteristic values (CURm, n), n = 1, ..., N of the MACCS descriptor can be implemented by the 2D update module. These ways can be distinguished, on the one hand, by the molecules of the CREF reference subset that are used, and on the other hand, by the way in which the values of the characteristics of the descriptor of these molecules are combined to obtain the put values. current molecule CURm.
Dans le mode de réalisation décrit ici, la mise à jour des valeurs des caractéristiques du descripteur MACCS de la molécule courante CURm est basée sur les valeurs des caractéristiques du descripteur MACCS des molécules sélectionnées lors de l'itération courante iter, autrement dit sur les molécules contenues dans l'ensemble C(iter).  In the embodiment described here, the update of the MACCS descriptor characteristic values of the current molecule CURm is based on the values of the characteristics of the MACCS descriptor of the molecules selected during the iterative iteration, ie on the molecules contained in the set C (iter).
Dans un autre mode de réalisation, la mise à jour des valeurs des caractéristiques du descripteur MACCS de la molécule courante CURm est basée sur les valeurs des caractéristiques du descripteur MACCS de toutes les molécules appartenant à l'ensemble de référence CREF à l'issue de l'étape E50.  In another embodiment, the update of the MACCS descriptor characteristic values of the current molecule CURm is based on the MACCS descriptor characteristic values of all the molecules belonging to the CREF reference set at the end of step E50.
Dans un autre mode de réalisation encore, la mise à jour des valeurs des caractéristiques du descripteur MACCS de la molécule courante CURm est basée uniquement sur les valeurs des caractéristiques du descripteur MACCS des molécules nouvellement sélectionnées lors de l'étape de sélection E40 mise en oeuvre lors de l'itération courante iter, autrement dit sur les valeurs des caractéristiques du descripteur MACCS des molécules appartenant à l'ensemble C(iter) mais qui n'appartiennent pas déjà à l'ensemble de référence CREF avant l'étape E50.  In yet another embodiment, the updating of the MACCS descriptor characteristic values of the current molecule CURm is based solely on the values of the characteristics of the MACCS descriptor of the newly selected molecules during the selection step E40 implemented. during the current iteration iter, in other words on the values of the characteristics of the MACCS descriptor of the molecules belonging to the set C (iter) but which do not already belong to the set of reference CREF before the step E50.
Par ailleurs, dans le mode de réalisation décrit ici, pour mettre à jour chaque valeur MACCS(CURm,n) de caractéristique du descripteur MACCS de la molécule courante CURm, n=l,...,N, le module de mise à jour 2D utilise la valeur la plus fréquente de chaque caractéristique parmi les valeurs de cette caractéristique associées aux molécules considérées pour la mise à jour. En cas d'ambiguïté, c'est-à-dire si plusieurs valeurs distinctes vérifient cette condition de fréquence, le module de mise à jour 2D utilise la valeur la plus élevée parmi cette pluralité de valeurs distinctes.  Furthermore, in the embodiment described here, to update each MACCS value (CURm, n) of the MACCS descriptor characteristic of the current molecule CURm, n = 1,..., N, the update module 2D uses the most frequent value of each characteristic among the values of this characteristic associated with the molecules considered for the update. In case of ambiguity, that is, if several distinct values satisfy this frequency condition, the 2D update module uses the highest value among this plurality of distinct values.
En variante, pour mettre à jour chaque valeur MACCS(CURm,n) des caractéristiques du descripteur MACCS de la molécule courante CURm, n=l,...,N, le module de mise à jour 2D peut utiliser une moyenne des valeurs de cette caractéristique associées aux molécules considérées pour la mise à jour (ou la valeur entière la plus proche de cette moyenne pour obtenir des caractéristiques entières), cette moyenne pouvant être une moyenne arithmétique ou pondérée. A l'issue de cette étape E60, on obtient ainsi une nouvelle molécule courante CURm sur laquelle une nouvelle recherche de similarité dans la base 10 peut être effectuée au cours de l'itération suivante. Alternatively, to update each MACCS value (CURm, n) of the characteristics of the MACCS descriptor of the current molecule CURm, n = 1, ..., N, the 2D update module may use an average of the values of this characteristic associated with the molecules considered for updating (or the integer value closest to this average to obtain integer characteristics), this average possibly being an arithmetic or weighted average. At the end of this step E60, a new current molecule CURm is thus obtained on which a new search for similarity in the base 10 can be performed during the next iteration.
Dans le mode de réalisation décrit ici, le dispositif de sélection 2 vérifie, à l'issue de l'étape E60, si le critère d'arrêt CRU est vérifié (étape test E70). Différents critères d'arrêt peuvent être envisagés, comme par exemple :  In the embodiment described here, the selection device 2 verifies, at the end of step E60, whether the CRU stop criterion is verified (test step E70). Different stopping criteria can be envisaged, for example:
— un nombre prédéterminé ITERMAX d'itérations réalisé ;  A predetermined number ITERMAX of iterations carried out;
— un nombre KMAX de molécules atteint dans l'ensemble de référence CREF ;  A KMAX number of molecules reached in the CREF reference set;
— l'absence de molécules nouvellement sélectionnées dans l'ensemble C(iter) lors de l'étape de sélection E40.  The absence of newly selected molecules in the set C (iter) during the selection step E40.
Ce critère d'arrêt peut être paramétrable. Les nombres ITERMAX et KMAX sont également paramétrables, et dépendent notamment du type de molécules considérées.  This stopping criterion can be parameterizable. The numbers ITERMAX and KMAX are also parameterizable, and depend in particular on the type of molecules considered.
Si le critère d'arrêt n'est vérifié (réponse non à l'étape test E70), alors une nouvelle itération du procédé de sélection est mise en œuvre (étape d'incrémentation E20), cette itération comprenant la répétition des étapes E30 à E70 pour la nouvelle molécule courante CURm obtenue lors de l'étape E60.  If the stopping criterion is not checked (answer no to the test step E70), then a new iteration of the selection method is implemented (incrementation step E20), this iteration comprising the repetition of the steps E30 to E70 for the new current molecule CURm obtained during step E60.
Si le critère d'arrêt est vérifié (réponse oui à l'étape test E70), les itérations du procédé de sélection sont interrompues et l'ensemble de référence CREF est fourni au module de prédiction 3 pour la prédiction des propriétés de la substance molécule cible TARGm.  If the stopping criterion is checked (answer yes to the test step E70), the iterations of the selection method are interrupted and the reference set CREF is supplied to the prediction module 3 for the prediction of the properties of the molecule substance TARGm target.
On note que si le critère d'arrêt CRU considéré est un nombre KMAX de molécules atteint dans l'ensemble de référence CREF, l'ensemble de référence CREF considéré est préférentiellement celui obtenu à l'issue de l'itération permettant de ne pas dépasser le nombre KMAX.  It should be noted that if the CRU judgment criterion considered is a KMAX number of molecules reached in the CREF reference set, the reference set CREF considered is preferably that obtained at the end of the iteration making it possible not to exceed the KMAX number.
La figure 4 illustre les différentes étapes du procédé de prédiction mises en uvre par le dispositif de prédiction 1.  FIG. 4 illustrates the different steps of the prediction method implemented by the prediction device 1.
Sur cette figure l'étape F10 reprend les étapes du procédé de sélection du sous- ensemble de référence CREF décrites précédemment en référence à la figure 3 et mises en œuvre par le dispositif de sélection 2 du dispositif de prédiction 1.  In this figure, the step F10 repeats the steps of the selection method of the reference subset CREF previously described with reference to FIG. 3 and implemented by the selection device 2 of the prediction device 1.
Comme mentionné ci-dessus, l'ensemble de référence CREF obtenu par le dispositif de sélection 2 est alors fourni au module de prédiction 3. Celui-ci est configuré pour prédire au moins une propriété de la substance moléculaire cible TARGm à partir des molécules de l'ensemble de référence CREF sélectionné par le dispositif de sélection 2 (étape F20).  As mentioned above, the reference set CREF obtained by the selection device 2 is then supplied to the prediction module 3. The latter is configured to predict at least one property of the target molecular substance TARGm from the molecules of the reference set CREF selected by the selection device 2 (step F20).
Aucune limitation n'est attachée à la technique de prédiction mise en œuvre par le module de prédiction 3 à cet effet. Il peut notamment utiliser une relation de type QSAR telle que décrite précédemment et couramment utilisée dans l'état de la technique, ou un réseau de neurones, une technique de prédiction par analyse de composantes principales, etc. Cette technique de prédiction utilise les résultats expérimentaux atteints par les molécules de l'ensemble de référence CREF et répertoriés dans la base de données 10 dont l'ensemble CREF a été extrait. L'utilisation de telles techniques de prédiction est connue en soi et n'est pas décrite plus en détail ici. No limitation is attached to the prediction technique implemented by the prediction module 3 for this purpose. It can in particular use a QSAR type relationship as described above and commonly used in the state of the art, or a neural network, a prediction technique by principal component analysis, etc. This prediction technique uses the experimental results achieved by the molecules of the CREF reference set and listed in the database whose CREF set has been extracted. The use of such prediction techniques is known per se and is not described in more detail here.
Le dispositif de prédiction 1 obtient alors à l'issue de l'étape F20 une prédiction d'au moins une propriété biologique de la substance moléculaire cible TARGm. D'autres prédictions peuvent être effectuées par le dispositif de prédiction 1 à partir d'autres bases de données 10 correspondant à d'autres tests biologiques.  The prediction device 1 then obtains at the end of step F20 a prediction of at least one biological property of TARGm target molecular substance. Other predictions can be made by the prediction device 1 from other databases corresponding to other biological tests.
L'invention, via le nouveau procédé de sélection proposé, permet d'obtenir une prédiction fiable des propriétés d'une substance moléculaire à partir des propriétés de molécules de même type répertoriées dans des bases de données publiques notamment. Les inventeurs ont constaté une amélioration des prédictions obtenues par rapport aux techniques de prédiction de l'état de l'art, et ce pour différentes catégories de molécules (charges, plastifiants, oxydants, liquides, stabilisant, composants pyrotechniques, etc.) et pour différents tests réglementaires connus de l'homme du métier (ex. test AMES de mutagénicité, test d'aberration chromosomique, test UDS de synthèse non programmée de l'ADN, test de cancérogénicité, etc.). Quelques résultats sont fournis aux Annexes 1 à 6 pour illustrer les performances des procédés de sélection et de prédiction selon l'invention.  The invention, via the proposed new selection method, makes it possible to obtain a reliable prediction of the properties of a molecular substance from the properties of molecules of the same type listed in public databases in particular. The inventors have observed an improvement in the predictions obtained with respect to the state of the art prediction techniques for different categories of molecules (fillers, plasticizers, oxidizers, liquids, stabilizers, pyrotechnic components, etc.) and for various regulatory tests known to those skilled in the art (eg AMES mutagenicity test, chromosome aberration test, UDS unscheduled DNA synthesis test, carcinogenicity test, etc.). Some results are provided in Annexes 1 to 6 to illustrate the performance of the selection and prediction methods according to the invention.
L'Annexe 1 illustre des résultats de prédiction obtenus pour le test AMES en utilisant cinq méthodes de prédiction différentes. Le test AMES est de façon connue un test de mutagénicité réalisé sur différentes cultures bactériennes et qui vise à déterminer si une molécule présente une propriété mutagène (indiqué dans le tableau de l'annexe 1 par un symbole « + », un symbole « - » indiquant que la molécule ne présente pas de propriété mutagène).  Appendix 1 illustrates prediction results obtained for the AMES test using five different prediction methods. The AMES test is, in a known manner, a mutagenicity test carried out on different bacterial cultures and aimed at determining whether a molecule has a mutagenic property (indicated in the table in Appendix 1 by a "+" symbol, a "-" symbol indicating that the molecule does not exhibit mutagenic property).
Le tableau présente dans sa première colonne des données qui ont été obtenues expérimentalement à partir des molécules testées. Ces données ont été validées au niveau des instances européennes et ont servi de référence pour déterminer la pertinence des prédictions réalisées via les différentes méthodes de prédiction testées. Pour chacune de ces méthodes, lorsqu'un résultat obtenu est compris entre 0 et 0.4, il est considéré comme négatif c'est-à-dire comme reflétant l'absence de propriété mutagène chez la molécule testée; lorsque ce résultat est compris entre 0.4 et 0.6, il est considéré comme douteux ; et lorsque ce résultat est supérieur à 0.6, il est considéré comme négatif c'est-à-dire comme reflétant la présence de la propriété mutagène chez la molécule testée.  The table presents in its first column data which were obtained experimentally from the molecules tested. These data were validated at European level and were used as a reference to determine the relevance of the predictions made using the different prediction methods tested. For each of these methods, when a result obtained is between 0 and 0.4, it is considered negative, that is to say as reflecting the absence of mutagenic property in the molecule tested; when this result is between 0.4 and 0.6, it is considered doubtful; and when this result is greater than 0.6, it is considered to be negative, that is to say as reflecting the presence of the mutagenic property in the molecule tested.
Le tableau donné en Annexe 1 fournit les résultats de prédiction obtenus via les cinq méthodes testées pour différentes molécules de type charges : les cinq méthodes de prédiction ont chacune été appliquées sur une base de données de départ comprenant 7723 molécules de référence. Plus précisément :  The table given in Appendix 1 provides the prediction results obtained via the five methods tested for different charge-type molecules: the five prediction methods were each applied on a starting data base comprising 7723 reference molecules. More precisely :
— la colonne du tableau portant la référence (1) correspond à l'application d'une relation QSAR sur la base de données de départ ; — la colonne du tableau portant la référence (2) correspond à l'application d'une relation QSAR sur une base de données obtenue en sélectionnant dans la base de données de départ les molécules présentant une métrique de similarité (métrique de Tanimoto) de 0.8 ; The column of the table bearing the reference (1) corresponds to the application of a QSAR relation on the initial data base; The column of the table bearing the reference (2) corresponds to the application of a QSAR relation on a database obtained by selecting in the starting database the molecules presenting a similarity metric (Tanimoto metric) of 0.8 ;
— la colonne du tableau portant la référence (3) correspond à l'application d'une relation QSAR sur une base de données obtenue en sélectionnant dans la base de données de départ les molécules présentant une métrique de similarité (métrique de Tanimoto) de 0.8 ;  The column of the table bearing the reference (3) corresponds to the application of a QSAR relation on a database obtained by selecting in the starting database the molecules presenting a similarity metric (Tanimoto metric) of 0.8 ;
— la colonne du tableau portant la référence (4) correspond à l'application d'une relation QSAR sur une base de données obtenue grâce au procédé itératif de sélection selon l'invention et appliqué sur la base de données de départ (descripteurs structuraux MACCS 166). Les critères d'arrêt considérés pour le procédé itératif sont un maximum de 5 itérations ou 600 molécules sélectionnées dans la base de départ. Les métriques locale et globale décrites dans le mode de réalisation détaillé précédemment ont été utilisées ; et  The column of the table bearing the reference (4) corresponds to the application of a QSAR relation on a database obtained by the iterative selection method according to the invention and applied on the basis of initial data (MACCS structural descriptors) 166). The stopping criteria considered for the iterative process are a maximum of 5 iterations or 600 selected molecules in the starting base. The local and global metrics described in the previously detailed embodiment have been used; and
— la colonne du tableau portant la référence (6) correspond à l'application d'un algorithme d'apprentissage automatique aussi communément appelé algorithme de « machine learning » sur une base de données obtenue grâce au procédé itératif de sélection selon l'invention et appliqué sur la base de données de départ (descripteurs structuraux MACCS 166). Les critères d'arrêt considérés pour le procédé itératif sont un maximum de 5 itérations ou 600 molécules sélectionnées dans la base de départ. Les métriques locale et globale décrites dans le mode de réalisation détaillé précédemment ont été utilisées.  The column of the table bearing reference (6) corresponds to the application of an automatic learning algorithm also commonly referred to as a "machine learning" algorithm on a database obtained by means of the iterative selection method according to the invention and applied on the basis of initial data (MACCS 166 structural descriptors). The stopping criteria considered for the iterative process are a maximum of 5 iterations or 600 selected molecules in the starting base. The local and global metrics described in the previously detailed embodiment have been used.
II apparaît au vu des résultats obtenus pour différentes molécules que le procédé de prédiction selon l'invention, qu'il s'appuie sur une relation QSAR ou sur un algorithme d'apprentissage automatique, permet d'obtenir de très bons résultats de prédiction (respectivement 16 et 17 prédictions réalisées correctement sur les 17 effectuées), et de meilleures performances que les autres méthodes de l'état de la technique testées (correspondant aux colonnes (2) et (3)).  It appears from the results obtained for various molecules that the prediction method according to the invention, whether based on a QSAR or on an automatic learning algorithm, makes it possible to obtain very good prediction results ( respectively 16 and 17 predictions performed correctly on the 17 performed), and better performance than the other methods of the state of the art tested (corresponding to columns (2) and (3)).
L'Annexe 2 reflète d'autres résultats de prédiction obtenus pour le test AMES, pour différentes catégories de molécules (charges, plastifiants, oxydants, liquides, stabilisants et molécules pyrotechniques), avec les procédés de sélection et de prédiction selon l'invention (colonne « prédiction » des différents tableaux de l'annexe 2). Les mêmes hypothèses que celles retenues à l'annexe 1 ont été considérées (nombre d'itérations maximales égal à 5, 600 molécules sélectionnées au maximum, métriques locale et globale détaillées précédemment, descripteurs structuraux MACCS 166) ; l'étape de prédiction à proprement parler a été réalisée sur la base de molécules sélectionnées grâce au procédé de sélection selon l'invention en appliquant un algorithme de type apprentissage automatique (machine learning).  Appendix 2 reflects other prediction results obtained for the AMES test, for different categories of molecules (fillers, plasticizers, oxidants, liquids, stabilizers and pyrotechnic molecules), with the selection and prediction methods according to the invention ( column "prediction" of the different tables in Appendix 2). The same assumptions as those used in Annex 1 were considered (maximum number of iterations equal to 5, 600 molecules selected at most, local and global metrics detailed previously, MACCS 166 structural descriptors); the actual prediction step was carried out on the basis of molecules selected by the selection method according to the invention by applying a machine learning type algorithm.
Des données expérimentales obtenues pour les molécules testées sont fournies à titre indicatif (colonne « Exp. data »). Les pourcentages indiqués correspondent à la fiabilité de la prédiction réalisée grâce à l'invention. Lorsque que cette fiabilité est comprise entre 40 et 60%, le résultat de la prédiction est considéré comme douteux. Au-delà de 60%, la prédiction est considérée comme correcte. En deçà de 40%, la prédiction est considérée comme erronée. Experimental data obtained for the tested molecules are given as an indication (column "Exp. Data"). The percentages indicated correspond to the reliability of the prediction produced by the invention. When this reliability is between 40 and 60%, the result of the prediction is considered doubtful. Beyond 60%, the prediction is considered correct. Below 40%, the prediction is considered wrong.
Ainsi, les différents tableaux produits en Annexe 2 montrent que :  Thus, the different tables produced in Appendix 2 show that:
— le procédé de prédiction a conduit à une prédiction correcte pour l'ensemble des molécules testées de type charges (i.e. tous les pourcentages reportés sont supérieurs à 60%), pour l'ensemble des molécules testées de type liquides, et pour l'ensemble des molécules testées de type stabilisants ;  The prediction method has led to a correct prediction for all the test molecules of the charge type (ie all the percentages reported are greater than 60%), for all the liquid-tested molecules, and for the whole tested molecules of the stabilizing type;
— pour les ensembles de molécules testées de type pyrotechniques et oxydants, seule une molécule a conduit à une prédiction douteuse (correspondant à une fiabilité de 58% et 57 % respectivement).  For the sets of molecules tested of the pyrotechnic and oxidizing type, only one molecule led to a dubious prediction (corresponding to a reliability of 58% and 57% respectively).
Les Annexes 3 à 5 reflètent des résultats de prédiction obtenus via le procédé de prédiction selon l'invention pour d'autres tests réglementaires connus (test d'aberration chromosomique en Annexe 3, test UDS en Annexe 4, test de cancérogénicité en Annexe 5). Les mêmes hypothèses que celles retenues à l'annexe 2 ont été considérées pour la mise en œuvre des procédés selon l'invention et l'interprétation des résultats présentés.  Annexes 3 to 5 reflect prediction results obtained via the prediction method according to the invention for other known regulatory tests (chromosome aberration test in Annex 3, UDS test in Annex 4, carcinogenicity test in Annex 5). . The same assumptions as those used in Appendix 2 were considered for the implementation of the processes according to the invention and the interpretation of the results presented.
L'Annexe 6 compare les résultats obtenus via le procédé de prédiction selon l'invention et via un autre procédé de prédiction de l'état de la technique connu sous le nom de ACD (Advanced Chemistry Development) Percepta (décrit plus en détail sur la page web https://www.acdlabs.com/products/percepta/).  Appendix 6 compares the results obtained via the prediction method according to the invention and via another prior art prediction method known as ACD (Advanced Chemistry Development) Percepta (described in more detail on the web page https://www.acdlabs.com/products/percepta/).
Les résultats concernant le procédé de prédiction selon l'invention ont été obtenus à partir de deux bases de départ différentes (référencées par « première base de test » et « deuxième base de test »). La première base de test est celle déjà utilisée pour générer les résultats reportés aux Annexes 2 à 5. La première colonne de résultats du tableau présenté en Annexe 6 donne le taux de bonnes prédictions obtenues via le procédé de prédiction selon l'invention par rapport aux différentes molécules testées pour les différents tests considérés. Cette première colonne reprend les différents résultats illustrés aux Annexes 2 à 6 toutes catégories de molécules considérées confondues, et complète ces résultats pour d'autres tests réglementaires connus (tests M LA (Mouse Lymphoma Test), DLT, et test de reprotoxicité).  The results concerning the prediction method according to the invention were obtained from two different starting bases (referenced by "first test base" and "second test base"). The first test basis is the one already used to generate the results reported in Appendices 2 to 5. The first column of results in the table presented in Appendix 6 gives the rate of good predictions obtained via the prediction method according to the invention with respect to different molecules tested for the different tests considered. This first column lists the different results shown in Appendices 2 to 6 for all categories of molecules considered together, and supplements these results for other known regulatory tests (Mouse Lymphoma Test (M LA), DLT, and Reprotoxicity Test).
D'autres résultats obtenus sur une deuxième base de départ sont par ailleurs reportés dans le tableau de l'Annexe 6. Ces résultats permettent de comparer les performances obtenues sur la deuxième base de départ avec le procédé de prédiction selon l'invention (toujours selon les mêmes hypothèses que décrites précédemment) avec les performances obtenues sur cette même base avec le procédé ACD. On voit que le taux de bonnes prédictions obtenues avec le procédé de prédiction selon l'invention est d'environ 90% contre 55% pour le procédé ACD. Annexe 1 Other results obtained on a second base of departure are also reported in the table in Appendix 6. These results make it possible to compare the performances obtained on the second base with the prediction method according to the invention (always according to the same hypotheses as previously described) with the performances obtained on this same basis with the ACD process. It can be seen that the rate of good predictions obtained with the prediction method according to the invention is approximately 90% as against 55% for the ACD process. Annex 1
Test de mutagénicité AMES Molécules de type charges  AMES mutagenicity test Charge type molecules
Annexe 2 Annex 2
Test de mutagénicité AMES Différentes catégories de molécules  Mutagenicity test AMES Different categories of molecules
Annexe 3 Annex 3
Test d'aberration chromosomique Différentes catégories de molécules  Chromosome aberration test Different categories of molecules
Annexe 4 Annex 4
Test UDS  UDS test
Différentes catégories de molécules  Different categories of molecules
D - douteux D - doubtful
Annexe 5 Annex 5
Test de cancérogénicité Différentes catégories de molécules  Carcinogenicity test Different categories of molecules
Annexe 6 Annex 6
Comparaison des résultats obtenus avec le procédé de prédiction selon l'invention et le procédé ACD  Comparison of the results obtained with the prediction method according to the invention and the ACD method
Procédé Procédé Process Method
Invention Invention  Invention Invention
Procédé ACD appliqué sur la appliqué sur appliqué sur une  ACD method applied on the applied on applied on a
deuxième base de test une première deuxième base  second base test a first second base
base de test de test  test test base
39/45  39/45
39/45  39/45
Test d'Ames 59/61 (dont 1  Ames 59/61 test (of which 1
(dont 2 impossibles)  (2 of which impossible)
impossible)  impossible)
Test d'aberration 16/22  Aberration test 16/22
26/30 22/22  26/30 22/22
chromosomique (dont 1 impossible)  chromosomal (of which 1 impossible)
Test M LA 16/18 15/15 14/15  Test M LA 16/18 15/15 14/15
11/25  11/25
Test UDS 15/16 17/25  UDS test 15/16 17/25
(dont 2 impossibles)  (2 of which impossible)
11/12  11/12
Irréalisable (non développé Unrealizable (undeveloped
Test DLT 13/16 (dont 1 DLT 13/16 test (of which 1
par ACD)  by ACD)
impossible)  impossible)
19/38  19/38
Test Cancérogénité 30/32 34/38  Carcinogenicity test 30/32 34/38
(dont 5 impossibles)  (of which 5 impossible)
Test Reprotoxicité 18/21 23/27 1/27  Reprotoxicity test 18/21 23/27 1/27
Nombre de bonnes  Number of good
177/194 161/184 100/184  177/194 161/184 100/184
réponses  responses
Pourcentage (%) de  Percentage (%) of
91,2 87,5 54,4  91.2 87.5 54.4
bonnes réponses  correct answers

Claims

REVENDICATIONS
1. Procédé itératif de sélection d'un sous-ensemble de molécules (CREF) dit de référence destinées à être utilisées pour prédire au moins une propriété d'une structure moléculaire dite cible, le procédé itératif de sélection comprenant une étape d'initialisation (E10) associant à une molécule dite courante une valeur d'un descripteur de molécules prédéterminé associée à la structure moléculaire cible, et lors de chaque itération (E20) du procédé de sélection :An iterative method for selecting a subset of molecules (CREF) referred to as reference for use in predicting at least one property of a so-called target molecular structure, the iterative selection process comprising an initialization step ( E10) associating with a so-called current molecule a value of a predetermined molecule descriptor associated with the target molecular structure, and during each iteration (E20) of the selection method:
— une étape d'évaluation (E30), pour chaque molécule d'une base (10) comprenant une pluralité de molécules associée chacune à une valeur dudit descripteur, d'une mesure de similarité dite globale entre la valeur du descripteur associée à ladite molécule et la valeur du descripteur associée à la molécule courante ; An evaluation step (E30), for each molecule of a base (10) comprising a plurality of molecules each associated with a value of said descriptor, of a so-called overall similarity measure between the value of the descriptor associated with said molecule; and the value of the descriptor associated with the current molecule;
— une étape de sélection (E40) de molécules de la base ayant une mesure de similarité globale supérieure à un seuil prédéterminé, les molécules sélectionnées étant ajoutées (E50) au sous- ensemble de référence ; et  A step of selecting (E40) molecules of the base having an overall similarity measurement greater than a predetermined threshold, the selected molecules being added (E50) to the reference subset; and
— une étape de mise à jour (E60) de la valeur du descripteur associée à la molécule courante à partir des valeurs des descripteurs associées à au moins une partie des molécules appartenant au sous-ensemble de référence. A step of updating (E60) the value of the descriptor associated with the current molecule from the values of the descriptors associated with at least a part of the molecules belonging to the reference subset.
2. Procédé de sélection selon la revendication 1 dans lequel le descripteur de molécules comprend N caractéristiques où N désigne un entier supérieur à 1, et dans lequel l'étape d'évaluation (E20) comprend, pour chaque molécule de la base, une étape de calcul, pour chacune des N caractéristiques du descripteur, d'une mesure de similarité dite locale entre la valeur de cette caractéristique du descripteur associée à ladite molécule et la valeur de cette caractéristique du descripteur associée à la molécule courante, la mesure de similarité globale évaluée pour ladite molécule étant obtenue à partir des mesures de similarité locales calculées pour cette molécule. A selection method according to claim 1 wherein the molecule descriptor comprises N characteristics where N denotes an integer greater than 1, and wherein the evaluation step (E20) comprises, for each molecule of the base, a step calculating, for each of the N characteristics of the descriptor, a so-called local similarity measure between the value of this characteristic of the descriptor associated with said molecule and the value of this characteristic of the descriptor associated with the current molecule, the global similarity measure evaluated for said molecule being obtained from the local similarity measurements calculated for this molecule.
3. Procédé de sélection selon la revendication 2 dans lequel l'étape de calcul comprend pour chaque caractéristique du descripteur : 3. Selection method according to claim 2 wherein the calculation step comprises for each descriptor feature:
— un calcul d'une distance entre la valeur de cette caractéristique du descripteur associée à ladite molécule et la valeur de cette caractéristique du descripteur associée à la molécule courante ; et  A calculation of a distance between the value of this characteristic of the descriptor associated with said molecule and the value of this characteristic of the descriptor associated with the current molecule; and
— une conversion de la distance calculée en un nombre réel compris entre 0 et 1 au moyen d'une fonction de conversion prédéterminée, ledit nombre étant utilisé comme mesure de similarité locale pour ladite caractéristique du descripteur et ladite molécule.  A conversion of the calculated distance into a real number between 0 and 1 by means of a predetermined conversion function, said number being used as a measure of local similarity for said descriptor characteristic and said molecule.
4. Procédé de sélection selon la revendication 3 dans lequel la distance calculée, notée d, vérifie : 4. Selection method according to claim 3 wherein the calculated distance, noted d, verifies:
où x et y désignent respectivement la valeur de la caractéristique du descripteur associée à ladite molécule et y la valeur de la caractéristique du descripteur associée à la molécule courante. where x and y respectively denote the value of the descriptor characteristic associated with said molecule and y the value of the descriptor characteristic associated with the current molecule.
5. Procédé de sélection selon la revendication 3 ou 4 dans lequel la fonction de conversion, notée f, vérifie : The selection method according to claim 3 or 4 wherein the conversion function, denoted f, verifies:
f = exp (^)  f = exp (^)
où d désigne la distance à convertir et σ un nombre réel prédéterminé. where d denotes the distance to be converted and σ a predetermined real number.
6. Procédé de sélection selon l'une quelconque des revendications 2 à 5 dans lequel lors de l'étape d'évaluation (E20), la mesure de similarité globale évaluée pour ladite molécule est le ratio entre : 6. A selection method according to any one of claims 2 to 5 wherein during the evaluation step (E20), the overall similarity measure evaluated for said molecule is the ratio between:
— la somme pondérée des N métriques de similarité locales calculées pour les N caractéristiques du descripteur pour cette molécule, et  The weighted sum of the N local similarity metrics calculated for the N characteristics of the descriptor for this molecule, and
— deux fois la somme des poids appliqués aux métriques de similarité locales dans ladite somme pondérée moins ladite somme pondérée.  - twice the sum of the weights applied to the local similarity metrics in said weighted sum minus said weighted sum.
7. Procédé de sélection selon l'une quelconque des revendications 2 à 6 dans lequel les valeurs des N caractéristiques du descripteur traduisent la présence ou l'absence de N fragments moléculaires considérés dans la définition d'une clef structurale MACCS 166. 7. Selection process according to any one of claims 2 to 6 wherein the values of the N characteristics of the descriptor reflect the presence or absence of N molecular fragments considered in the definition of a structural key MACCS 166.
8. Procédé de sélection selon l'une quelconque des revendications 1 à 7 dans lequel lors de l'étape de mise à jour (E60), la valeur associée à la molécule courante de chaque caractéristique du descripteur est mise à jour avec une moyenne arithmétique ou pondérée des valeurs de cette caractéristique du descripteur associées aux molécules de ladite au moins une partie des molécules appartenant au sous-ensemble de référence. The selection method according to any one of claims 1 to 7 wherein during the updating step (E60), the value associated with the current molecule of each feature of the descriptor is updated with an arithmetic mean. or weighted values of this feature of the descriptor associated with the molecules of said at least a portion of the molecules belonging to the reference subset.
9. Procédé de sélection selon l'une quelconque des revendications 1 à 8 dans lequel le descripteur de molécules comprend N caractéristiques où N désigne un nombre supérieur ou égal à 1, et dans lequel, lors de l'étape de mise à jour (E60), la valeur associée à la molécule courante de chaque caractéristique du descripteur est mise à jour avec la valeur la plus fréquente de cette caractéristique du descripteur parmi les valeurs de cette caractéristique du descripteur associées aux molécules de ladite au moins une partie des molécules appartenant au sous-ensemble de référence, ou si une pluralité de valeurs distinctes vérifient cette condition, avec la valeur la plus élevée parmi cette pluralité de valeurs distinctes. A selection method according to any one of claims 1 to 8 wherein the molecule descriptor comprises N characteristics wherein N denotes a number greater than or equal to 1, and wherein, in the updating step (E60 ), the value associated with the current molecule of each feature of the descriptor is updated with the most frequent value of this feature of the descriptor among the values of this descriptor characteristic associated with the molecules of said at least part of the molecules belonging to the descriptor. subset of reference, or if a plurality of distinct values satisfy this condition, with the highest value among this plurality of distinct values.
10. Procédé de sélection selon l'une quelconque des revendications 1 à 9 dans lequel lors de l'étape de mise à jour (E60) mise en œuvre lors d'une itération du procédé de sélection, ladite au moins une partie des molécules appartenant au sous-ensemble de référence comprend les molécules sélectionnées lors de l'étape de sélection de cette itération qui n'appartenaient pas déjà à l'ensemble de référence avant cette étape de sélection. 10. Selection method according to any one of claims 1 to 9 wherein during the updating step (E60) implemented during an iteration of the selection process, said at least a part of the molecules belonging to the reference subset comprises the molecules selected during the step of selecting this iteration that did not already belong to the reference set before this selection step.
11. Procédé de sélection selon l'une quelconque des revendications 1 à 9 dans lequel lors de l'étape de mise à jour (E60) mise en oeuvre lors d'une itération du procédé de sélection, ladite au moins une partie des molécules appartenant au sous-ensemble de référence comprend les molécules sélectionnées lors de l'étape de sélection de cette itération. 11. A selection method according to any one of claims 1 to 9 wherein during the updating step (E60) implemented during an iteration of the selection process, said at least a part of the molecules belonging to the reference subset comprises the molecules selected during the step of selecting this iteration.
12. Procédé de sélection selon l'une quelconque des revendications 1 à 9 dans lequel lors de l'étape de mise à jour (E60) mise en œuvre lors d'une itération du procédé de sélection, ladite au moins une partie des molécules appartenant au sous-ensemble de référence comprend toutes les molécules appartenant au sous-ensemble de référence à l'issue de l'étape de sélection de cette itération. 12. A selection method according to any one of claims 1 to 9 wherein during the updating step (E60) implemented during an iteration of the selection process, said at least a part of the molecules belonging to the reference subset comprises all the molecules belonging to the reference subset at the end of the step of selecting this iteration.
13. Procédé de sélection selon l'une quelconque des revendications 1 à 12 dans lequel les étapes d'évaluation, de sélection et de mise à jour sont réitérées tant qu'un critère d'arrêt (CRU) prédéterminé n'est pas vérifié (E70), ledit critère d'arrêt étant choisi parmi : 13. Selection method according to any one of claims 1 to 12 wherein the evaluation, selection and updating steps are repeated until a predetermined stopping criterion (CRU) is verified ( E70), said stopping criterion being chosen from:
— un nombre prédéterminé d'itérations réalisé ;  A predetermined number of iterations carried out;
— un nombre de molécules prédéterminé atteint dans le sous-ensemble de référence ; A predetermined number of molecules reached in the reference subset;
— une absence de molécules sélectionnées lors de l'étape de sélection n'appartenant pas déjà au sous-ensemble de référence.  An absence of molecules selected during the selection step that does not already belong to the reference subset.
14. Procédé de prédiction d'au moins une propriété d'une substance moléculaire dite cible comprenant : A method of predicting at least one property of a so-called target molecular substance comprising:
— une étape de sélection (F10), au moyen d'un procédé itératif de sélection selon l'une quelconque des revendications 1 à 13, d'un sous-ensemble de molécules dit de référence dans une base de données comprenant une pluralité de molécules associée chacune à une valeur d'un descripteur de molécules prédéterminé ;  A selection step (F10), by means of an iterative selection process according to any one of claims 1 to 13, of a subset of said reference molecules in a database comprising a plurality of molecules; each associated with a value of a predetermined molecule descriptor;
— une étape de prédiction (F20) d'au moins une propriété de ladite substance moléculaire cible à partir dudit sous-ensemble de molécules de référence sélectionné. A step of predicting (F20) at least one property of said target molecular substance from said selected subset of reference molecules.
15. Programme d'ordinateur (PROG) comportant des instructions pour l'exécution des étapes du procédé de sélection selon l'une quelconque des revendications 1 à 13 ou pour l'exécution des étapes du procédé de prédiction selon la revendication 14 lorsque ledit programme est exécuté par un ordinateur. Computer program (PROG) comprising instructions for executing the steps of the selection method according to any one of claims 1 to 13 or for performing the steps of the prediction method according to claim 14 when said program is executed by a computer.
16. Support d'enregistrement (6) lisible par un ordinateur sur lequel est enregistré un programme d'ordinateur comprenant des instructions pour l'exécution des étapes du procédé de sélection selon l'une quelconque des revendications 1 à 13 ou pour l'exécution des étapes du procédé de prédiction selon la revendication 14. 16. Recording medium (6) readable by a computer on which is recorded a computer program comprising instructions for executing the steps of the selection method according to any one of claims 1 to 13 or for execution steps of the prediction method according to claim 14.
17. Dispositif de sélection (2) d'un sous-ensemble de molécules (CREF) dit de référence destinées à être utilisées pour prédire au moins une propriété d'une structure moléculaire dite cible, le dispositif de sélection comprenant un module d'initialisation (2A) configuré pour associer à une molécule dite courante une valeur d'un descripteur de molécules prédéterminé associée à la structure moléculaire cible, ledit dispositif de sélection étant en outre configuré pour activer, au cours d'une pluralité d'itérations successives : 17. A selection device (2) for a reference subset of molecules (CREF) intended to be used for predicting at least one property of a so-called target molecular structure, the selection device comprising an initialization module (2A) configured to associate with a so-called current molecule a value of a predetermined molecule descriptor associated with the target molecular structure, said selection device being further configured to activate, during a plurality of successive iterations:
— un module d'évaluation (2B) configuré pour évaluer, pour chaque molécule d'une base comprenant une pluralité de molécules associée chacune à une valeur du descripteur, une mesure de similarité dite globale entre la valeur du descripteur associée à ladite molécule et la valeur du descripteur associée à la molécule courante ;  An evaluation module (2B) configured to evaluate, for each molecule of a base comprising a plurality of molecules each associated with a value of the descriptor, a so-called overall similarity measure between the value of the descriptor associated with said molecule and the value of the descriptor associated with the current molecule;
— un module de sélection (2C) configuré pour sélectionner des molécules de la base ayant une mesure de similarité globale supérieure à un seuil prédéterminé, les molécules sélectionnées étant ajoutées par ledit module de sélection au sous-ensemble de référence ; et  A selection module (2C) configured to select molecules of the base having a global similarity measurement greater than a predetermined threshold, the selected molecules being added by said selection module to the reference subset; and
— un module de mise à jour (2D) configuré pour mettre à jour la valeur du descripteur associée à la molécule courante à partir des valeurs des descripteurs associées à au moins une partie des molécules appartenant au sous-ensemble de référence.  An update module (2D) configured to update the value of the descriptor associated with the current molecule from the values of the descriptors associated with at least part of the molecules belonging to the reference subset.
18. Dispositif de prédiction (1), configuré pour prédire au moins une propriété d'une substance moléculaire dite cible comprenant : A prediction device (1), configured to predict at least one property of a so-called target molecular substance comprising:
— un dispositif de sélection (2) conforme à la revendication 17, configuré pour sélectionner un sous-ensemble de molécules dit de référence dans une base de données (10) comprenant une pluralité de molécules associée chacune à une valeur d'un descripteur prédéterminé de molécules ; A selection device (2) according to claim 17, configured to select a subset of said reference molecules in a database (10) comprising a plurality of molecules each associated with a value of a predetermined descriptor of molecules;
— un module de prédiction (3), configuré pour prédire au moins une propriété de ladite substance moléculaire cible à partir du sous-ensemble de molécules de référence sélectionné.  A prediction module (3), configured to predict at least one property of said target molecular substance from the subset of reference molecules selected.
EP18749450.5A 2017-06-22 2018-06-22 Method and device for selecting a subassembly of molecules for use in predicting at least one property of a molecular structure Pending EP3642398A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1700668A FR3068047B1 (en) 2017-06-22 2017-06-22 METHOD AND DEVICE FOR SELECTING A SUB-SET OF MOLECULES INTENDED TO BE USED TO PREDICT AT LEAST ONE PROPERTY OF A MOLECULAR STRUCTURE
PCT/FR2018/051529 WO2018234718A1 (en) 2017-06-22 2018-06-22 Method and device for selecting a subassembly of molecules for use in predicting at least one property of a molecular structure

Publications (1)

Publication Number Publication Date
EP3642398A1 true EP3642398A1 (en) 2020-04-29

Family

ID=60382254

Family Applications (1)

Application Number Title Priority Date Filing Date
EP18749450.5A Pending EP3642398A1 (en) 2017-06-22 2018-06-22 Method and device for selecting a subassembly of molecules for use in predicting at least one property of a molecular structure

Country Status (4)

Country Link
US (1) US20230154571A1 (en)
EP (1) EP3642398A1 (en)
FR (1) FR3068047B1 (en)
WO (1) WO2018234718A1 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118197481A (en) * 2018-09-13 2024-06-14 思科利康有限公司 Method and system for predicting chemical structure properties
CN115116553A (en) * 2021-03-19 2022-09-27 合肥本源量子计算科技有限责任公司 Method, device, medium, and electronic device for configuring parameters of molecule
JP2022150078A (en) * 2021-03-26 2022-10-07 富士通株式会社 Information processing program, information processing device and information processing method
CN114300065A (en) * 2021-12-10 2022-04-08 深圳晶泰科技有限公司 Method, device, equipment and storage medium for determining molecular design scheme
WO2023102923A1 (en) * 2021-12-10 2023-06-15 深圳晶泰科技有限公司 Determination method and apparatus for molecular design scheme, device, and storage medium

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185506B1 (en) * 1996-01-26 2001-02-06 Tripos, Inc. Method for selecting an optimally diverse library of small molecules based on validated molecular structural descriptors
US7219020B1 (en) * 1999-04-09 2007-05-15 Axontologic, Inc. Chemical structure similarity ranking system and computer-implemented method for same
US7472121B2 (en) * 2005-12-15 2008-12-30 International Business Machines Corporation Document comparison using multiple similarity measures
US20140156679A1 (en) * 2012-06-17 2014-06-05 Openeye Scientific Software, Inc. Secure molecular similarity calculations

Also Published As

Publication number Publication date
FR3068047B1 (en) 2021-02-12
WO2018234718A1 (en) 2018-12-27
US20230154571A1 (en) 2023-05-18
FR3068047A1 (en) 2018-12-28

Similar Documents

Publication Publication Date Title
EP3642398A1 (en) Method and device for selecting a subassembly of molecules for use in predicting at least one property of a molecular structure
Sessegolo et al. Transcriptome profiling of mouse samples using nanopore sequencing of cDNA and RNA molecules
Böcker et al. Towards de novo identification of metabolites by analyzing tandem mass spectra
FR3087921A1 (en) RECOMMENDED SYSTEMS AND METHODS USING AUTOMATIC CASCADE LEARNING MODELS
Gonnelli et al. A decoy-free approach to the identification of peptides
Annala et al. A linear model for transcription factor binding affinity prediction in protein binding microarrays
Kavak et al. Discovery and genotyping of novel sequence insertions in many sequenced individuals
CN110008973B (en) Model training method, method and device for determining target user based on model
Chen et al. RankMotif++: a motif-search algorithm that accounts for relative ranks of K-mers in binding transcription factors
Allen et al. Network analysis reveals underlying syntactic features in a vocally learnt mammalian display, humpback whale song
CN108780048A (en) A kind of method, detection device and the readable storage medium storing program for executing of determining detection device
Saeys et al. In search of the small ones: improved prediction of short exons in vertebrates, plants, fungi and protists
Rogers et al. CScape-somatic: distinguishing driver and passenger point mutations in the cancer genome
Delongchamp et al. Multiple-testing strategy for analyzing cDNA array data on gene expression
US20220236171A1 (en) Deformulation techniques for deducing the composition of a material from a spectrogram
Vukovic et al. Methodology of aiQSAR: a group-specific approach to QSAR modelling
Majidian et al. Hap10: reconstructing accurate and long polyploid haplotypes using linked reads
Hather et al. Estimating false discovery rates for peptide and protein identification using randomized databases
Černý et al. Statistical evaluation of character support reveals the instability of higher-level dinosaur phylogeny
WO2015180972A1 (en) Method of identification of a relationship between biological elements
Lim et al. Integrative deep learning for identifying differentially expressed (DE) biomarkers
De Camargo et al. PROTAX-Sound: A probabilistic framework for automated animal sound identification
Klingberg et al. Towards compound identification of synthetic opioids in nontargeted screening using machine learning techniques
Ruan et al. A dynamic programming algorithm for binning microbial community profiles
Yan et al. De novo peptide sequencing using CID and HCD spectra pairs

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20200113

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

RIN1 Information on inventor provided before grant (corrected)

Inventor name: ALLIOD, CHARLOTTE

Inventor name: DENIS, ROLAND

Inventor name: TERREUX, RAPHAEL

Inventor name: JACOB, GUY

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
RAP3 Party data changed (applicant data changed or rights of an application transferred)

Owner name: UNIVERSITE CLAUDE BERNARD LYON I

Owner name: CENTRE NATIONAL DE LA RECHERCHE SCIENTIFIQUE

Owner name: ARIANEGROUP SAS

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20230802