EP1384199A2 - Method for determining competing risks - Google Patents

Method for determining competing risks

Info

Publication number
EP1384199A2
EP1384199A2 EP01999919A EP01999919A EP1384199A2 EP 1384199 A2 EP1384199 A2 EP 1384199A2 EP 01999919 A EP01999919 A EP 01999919A EP 01999919 A EP01999919 A EP 01999919A EP 1384199 A2 EP1384199 A2 EP 1384199A2
Authority
EP
European Patent Office
Prior art keywords
time
learning
function
objective function
neurons
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP01999919A
Other languages
German (de)
French (fr)
Inventor
Ronald E. Kates
Nadia Harbeck
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of EP1384199A2 publication Critical patent/EP1384199A2/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Definitions

  • the invention relates to a method for determining competing risks after an initial event with the aid of systems capable of learning on the basis of data that has already been measured or can otherwise be objectified (training data).
  • Systems capable of learning such as neural networks, are increasingly being used for risk assessment because they are able to recognize and present complex, previously unknown relationships between raised factors and outcomes. This capability enables them to provide more reliable or more precise estimates of risk probabilities than conventional methods, which have to be based on a special form of the relationship, such as a linear dependency.
  • the factors of the data sets comprise a number of objectifiable parameters, on the values of which a person operating the learning system has no influence.
  • these parameters include, for example Age at the time of surgery, number of lymph nodes affected, laboratory value of the uPA factor, laboratory value of the PAI-1 factor, characteristic value for the tumor size, laboratory value of the estrogen receptor, laboratory value of the progesterone receptor.
  • the type of therapy actually used can be recorded as an indication, so that the relationship between therapy and outcome is also recognized.
  • the values are temporarily stored on a suitable storage medium and fed to the system capable of learning.
  • the individual details are usually associated with an unsharpness, analogous to signal noise. From these noisy individual signals, it is the task of the adaptive system to form refined signals that can lead to a risk assessment within the framework of a suitable probability representation.
  • a so-called “multilayer perceptron” (in the technical literature always abbreviated as "MLP") contains, for example, an input layer, a hidden layer, and an output layer.
  • MLP multilayer perceptron
  • the "hidden nodes” in the neural network perform the task of generating a signal for the probability of complex internal processes. They can therefore use the underlying, but not directly detectable, biological processes, which are ultimately decisive for the course of a disease will be, provide information.
  • Competing risks can also arise from the fact that a patient dies, for example, from a completely different illness or from a side effect of the treatment, so that the risk of the characteristic of interest to the doctor remains hidden.
  • an exclusive classification with a censoring rule can map the training data in such a way that for each possible output a neural network or a classification tree can be trained by recursive partitioning according to the state of the art. In the example with the outputs 1 to 3 one would have to train three completely independent neural networks or three different decision trees.
  • a problem with this use of the prior art is that the detection of a possible informative value of internal nodes with regard to one of the disease outlets is lost for the detection of its informative value with regard to the other disease outlets.
  • an internal biological process recognized by internal nodes in a neural network could contribute to several observable outputs, albeit with different weightings.
  • the biological "invasiveness" of a tumor is of different but significant importance for distant metastases or for local recurrences.
  • the independently trained networks must independently “discover" the meaningfulness of an internal connection represented by the node.
  • the object of the invention is to provide a method with which competing risks can be detected, identified and represented in their logical or causal context, in particular in such a way that the determination of a temporally variable statement is not impaired ,
  • the method according to the invention can be used to assign suitable characteristic values to the competing risks through the system capable of learning. These characteristic values are intended to enable the calculation of the conditional probability per unit of time for the occurrence of the respective event (provided that none of the possible end events has occurred to date). “Suitable” characteristic values in the sense of the invention can have the property that a maximum of the statistical “likelihood” regarding all outputs is aimed for.
  • data of the initial event and a follow-up observation up to a predetermined time are used for the method for the training data sets or are objectively recorded in some other way.
  • the method according to the invention can thus also make it possible to use other characteristic values in the context of a trained, learnable system, as long as these characteristic values can be formed from the follow-up observations in a manner analogous to the statistical likelihood.
  • the other characteristics are excluded. In this way, a manifestation of a failure can preferably be taken into account.
  • means the parameters of the system capable of learning.
  • LS stands for “learnable system”.
  • F LS ktX) (.) Denotes the failure rate of the expression k and S LS ⁇ kx) (t.) Den
  • a neural network is used as the learning system.
  • the above objective function L can have the form depending on P.
  • the adaptive system performs recursive partitioning, where
  • the partitioning is carried out in such a way that the objective function is optimized which statistically takes these frequencies or probabilities into account.
  • the learnable system is preferably used in the context of a decision-making aid.
  • a therapy strategy can thus be determined, for example, in a medical application of the present invention.
  • FIG. 1 shows a representation of a neural network in an implementation as an MLP
  • FIG. 2 shows a Venn diagram of competing risks
  • Figure 3 is an illustration of a trained neural network with three competing risks.
  • the additional dimension of the starting layer comprises at least two nodes
  • Each output node is assigned to a signal
  • the individual signals are each assigned to a risk function with regard to the possible events.
  • the system capable of learning is trained by using the values of the total signals for all data sets as a lens function for the system
  • a system trained in this way supports the attending physician and the patient, for example, in the decision for one of several different therapeutic approaches by determining which of the possible manifestations of the risk of recurrence should be directed to the therapy.
  • the goal of individualized patient prognosis with competing risks can be understood mathematically in such a way that several functions f ⁇ (x) f 2 (x) f 3 (x), ... with the system capable of learning, here with a neural network NN ⁇ (x), NN 2 (x), .... are approximated. More precisely, the neural network estimates the expected value E (y k
  • the neural network can first be represented schematically in the current implementation as an MLP in the exemplary embodiment as in FIG. 1.
  • raw patient characteristics for primary breast cancer, for example, uPA, PAI-1, number of affected lymph nodes, etc.
  • the middle neurons form the internal layer.
  • Several internal layers can also be provided. Each internal neuron processes the signals from the input neurons and passes on a signal. The mathematical relationship between the "inputs" to the internal neurons and their “outputs” is controlled by leveling out synaptic weights.
  • the lower neurons provide estimates for the desired parameters (e.g. expected value of survival) and form the starting layer.
  • the architecture used in the embodiment consists of a classic multilayer feedforward network. Neurons are organized in layers as described above. Connectors exist in the embodiment as follows
  • the activation function of the hidden layer is the hyperbolic tangent.
  • the invention can also be used using other activation functions such as the logistic function.
  • the factors are initially transformed univariate so that they are in an interval of the order of 1.
  • the median XMedian is subtracted and the values are scaled with a factor x Q : values above the median are scaled with the 75% quantile, values below the median with the 25% quantile.
  • the tanh function is then applied.
  • the input neurons have a static function and are therefore implemented as fields that pass on the transformed values.
  • the tanh function of equation (1a) can be seen as the activation function of the input layer.
  • w ih is the weight of the connector from the input neuron i to the hidden neuron h
  • Xi (j) represents the (scaled) response of the i-th input neuron.
  • b h is the bias of the hidden neuron h, which is mathematically optimized like any other weight of the network.
  • the nonlinear activation function F h is the hyperbolic tangent.
  • the signal z Q is initially generated: the bias of the neuron b 0 is subtracted, and the activation function of the output neuron o is applied to this result.
  • the output O 0 0) thus becomes
  • the activation function of the starting layer is chosen as the identity function in the exemplary embodiment.
  • the total bias is not freely optimized, but is chosen so that the median signal of all output neurons is zero. This is possible without restricting the generality of the model.
  • the number of parameters to be optimized is thus reduced by the number of bias parameters.
  • the second equation ⁇ 0 is regarded as a constant.
  • the time dependence is in the coefficient B.
  • lens function takes shape
  • a preferred class of lens functions of the shape (7th) can be understood as statistical likelihood functions, whereby for the embodiment
  • the functional dependency on the model is symbolically characterized by variable parameters ⁇ .
  • An example for the determination of ⁇ jk and ⁇ jk is given below.
  • the parameters denoted by ⁇ are the survival time scales ⁇ ok and the weights of the neural network.
  • the index j denotes the patient record.
  • the time integral for solving equation 6 is solved by the standard method “Romberg integration”. Any time dependencies of the functions B ⁇ (t) can thus be taken into account.
  • this size is given by the product of the individual probabilities:
  • the neural network comprises
  • An input layer with a plurality of input neurons j (i for “input neuron”)
  • At least one intermediate layer with intermediate neurons N h (h for “hidden neuron”)
  • An output layer with a plurality of output neurons N 0 (o for “output neuron”)
  • a two-dimensional starting layer is shown in order to illustrate the possibility for the simultaneous display of temporally variable and also competing risks.
  • the simplified representation of non-time-variable risks is the special case in which only the characteristic dimension is necessary.
  • the number of input neurons Ni initially used is usually chosen in accordance with the number of objectifiable information available for the patient collective. According to the state of the art, methods are available which either automatically reduce the number of input neurons in advance to a level that is acceptable for the respective computer system or automatically remove unnecessary input neurons in the course of the optimization, so that in both cases the determination of the ultimately input neurons used without intervention of the respective operator.
  • the original number of hidden neurons is determined by the original number of input neurons, i.e.
  • N h Ni (10.a)
  • methods are available according to the state of the art, which enable the connectors to be preassigned favorably.
  • the neurons of the output layer are analogously in a two-dimensional matrix with indices
  • N 0 N, i me x N ey (10.d)
  • the index J key designates signals of the respective form, while the index J, il ⁇ , e designates the signals relating to the respective time function (for example “fractional polynomials” or spline functions).
  • An output neuron designated by two indices J t i me , J k ey carries accordingly for determining the coefficient of the time function J tim e for the risk for the characteristic J key .
  • the indices J key or J t i me correspond analogously to the indices k or I of equations 4 to 7.
  • N ey or N time in the embodiment corresponding to the quantities K and L of these equations.
  • End nodes which are usually arranged in a one-dimensional row, are also available for use in the context of recursive partitioning. According to the prior art, each patient is assigned to such a node. According to the prior art, the node is assigned a risk that can be viewed as a (scalar) signal.
  • the invention now assigns a vector with N key indices to each end node instead of a scalar.
  • the aim of learning is to locate the highest possible value of this likelihood function in the parameter space, but at the same time superfluous parameters to avoid if possible.
  • learning through initialization, optimization steps and complexity reduction is as follows:
  • the univariate analyzes can be used to preset the weights that favor or at least not disadvantage non-linear configurations (see below).
  • an exponential survival model is determined with the only parameter ⁇ 0 . This model is used for initialization and also for control in the subsequent analysis.
  • the four parameters correspond to the time constant ( ⁇ 0 ), the weight and the bias to the hidden layer, and the weight to the starting layer. These are optimized and stored in a table together with the quality (likelihood) and significance for subsequent purposes.
  • the ranking of the univariate significant factors is determined according to the amounts of the linear weights.
  • the numbering of the input nodes for the subsequent analysis corresponds to this ranking. In the event that fewer input nodes are available as factors, this procedure allows an objective preselection of the "most important" factors.
  • initial values for the weights must first be set. A default value of zero is not sought.
  • the weights of the linear connectors are initially filled with small values as usual.
  • the time parameter is preset with the value ⁇ 0 determined from the 1-parameter model.
  • the number of hidden nodes H is chosen equal to the number of input nodes J.
  • the corresponding bias is preset analogously with the bias determined in this way.
  • the value of the weight obtained from the univariate optimization which we refer to as w h ⁇ , for the first neuron of the output layer is also available.
  • a second way of initialization which is more common for neural networks, is to assign small, random weights to all connectors. This means that at the beginning of the optimization, all links, including those via the hidden layer, are in the linear range. For small arguments, the "activation function" is almost linear, e.g., tanh (x) «x for small x.
  • the covariance matrix of all input factors is calculated and stored.
  • a linear regression of each factor on all other factors is also determined: X 2 »A Xi + B.
  • Eigenvectors and eigenvalues of the covariance matrix are calculated and recorded. The linear relationships are used in the embodiment for the various thinning processes.
  • the quality on the validation set if available, is used several times during the course of the optimization: The quality on the validation set provides an independent measure of the progress of the optimization based on the training set and also serves to avoid over-adjustment.
  • the optimization is about the search for a maximum of the likelihood function, based on the data of the training amount.
  • the search method implemented in the embodiment uses the construction of an n-fold simplex in this space according to the known method by Neider and Mead (1965).
  • the search requires the formation of an n-dimensional simplex in the parameter space.
  • a simplex can be determined by specifying n + 1 non-degenerate corners, i.e. the corresponding edges are all linearly independent of one another. It therefore comprises an n-dimensional point cloud in the parameter space.
  • the search for optimization takes place in epochs. During each epoch, the quality function on the training set is evaluated at various points in the parameter space, namely at the current location and at n further corners, which are defined by the combination of operations such as reflection, expansion / contraction in one direction, etc. The directions of these operations are automatically selected based on the values of the quality function at the corners defined in the previous epoch.
  • the decrease in the quality function in the embodiment is monotonic and the search always ends at a (at least local) minimum.
  • the validation set described above if available, is used to control the progress of the optimization and to avoid overfitting.
  • the variables minus log-like-iihood per sample of the two quantities are continuously calculated and output as key figures of the instantaneous quality of the optimization with regard to the training and validation quantities. While this key figure must decrease monotonically on the training set, temporary fluctuations in the corresponding key figure on the validation set are possible without an over-adjustment already taking place. However, a monotonous increase in the key figure on the validation set should stop further optimization and lead to a Lead complexity reduction. This type of abort presents a kind of emergency brake to avoid overfitting.
  • a possible termination criterion that can be carried out automatically is achieved by maintaining the exponentially smoothed quality of the validation quantity. If this smoothed parameter exceeds the previous minimum of the current optimization step by a fixed percentage (deterioration in quality), the optimization is terminated.
  • a percentage increase of about 1% tolerance was found as an empirical value for typical sizes of the training amount around 300 or more data records. With this tolerance and with roughly the same size of training and validation quantities, the training is stopped more often by reaching a minimum on the training quantity than by the deterioration in the quality on the validation quantity.
  • This "normal" termination is preferred because an (almost) monotonous improvement in the quality on the validation set is a sign that the neural network has recognized real underlying structures and not simply the noise.
  • the simplex optimization described for the embodiment results in a set of weights ⁇ wpj, ... w [n] ⁇ and other parameters which determine a local minimum of the negative log likelihood.
  • the numbering [1] ... [n] of the weights in this context does not include the topological order of the weights.
  • This minimum refers to the fixed number n of the weights and a fixed topology. In order to avoid overfitting, it is desirable to reduce the complexity by thinning the weights as far as this is possible without a significant loss in quality.
  • Thinning refers to the deactivation of connectors. For this purpose, their weights are “frozen” to a fixed value (zero in the embodiment, where one can also speak of "removing”). In principle, it is possible to remove individual weights or even entire knots. In the latter case, all weights are deactivated which either insert into the node to be removed or continue from the node.
  • a phase of complexity reduction in the network is carried out following an optimization phase (simplex method).
  • the first step in this is the "thinning" of individual connectors.
  • combinations of different Connectors tested for redundancy are tested for redundancy.
  • the consistency of the topology is checked and, if necessary, connectors or nodes are removed which, due to the previous removal of other connectors and nodes, can no longer contribute to the statement.
  • test variable log (likelihood ratio) is first formed in the embodiment. Two networks are envisaged for each weight w IA] :
  • the connector When deactivated, the connector is removed from the list of active connectors and the associated weight is frozen (mostly zero).
  • the number G of the removed connectors becomes a maximum number limited, where n is the number of connectors remaining.
  • Thinning or removal of individual connectors can result in isolation of a node from input signals, output signals, or (in the case of a hidden neuron) from both.
  • a deactivation flag is set for the node in the embodiment.
  • Isolation means that there are no active connectors either from the input layer or from the hidden layer. If all connectors from an input neuron to the hidden and to the output layer have been removed, the bias of the linear connectors must also be deactivated.
  • a hidden neuron that has been isolated from all inputs can still be connected to outputs.
  • the "frozen" contributions of such hidden neurons to the output are then redundant because, in principle, they only include the bias values of the other active connectors change. As a result, such neurons are deactivated and any remaining connectors to the output layer are removed.
  • the trained neural network is thus clearly determined.
  • the trained neural network can be used in accordance with the description above to generate the output values and thus the functions defined above for any data which contain the independent factors (“covariates”) x f k (t), ⁇ k (_), and S k (f) to obtain the covariates x.
  • covariates independent factors
  • first 1000 fictitious patient data sets with 9 factors (covariates) were generated by means of a random generator.
  • the first 7 factors were created as realizations of a multivariate Gaussian distribution.
  • mean values and variances of the factors and a covariance matrix were specified in the exemplary embodiment: Factor x'yj? 0 Xer X PJ xa . Q e ⁇ tum xujpa xpai
  • xlypo xer; xpr: xage: xtum; xupa: xpai xlypo 1.00 -0.06 -0.09 0.03 0.42 0.02 0.05 xer -0.06 1.00 0.54 0.29 -0.07 -0.18 -0.19 xpr -0.09 0.54 1.00 0.03 -0.06 -0.07 -0.14 xage 0.03 0.29 0.03 1.00 0.04 0.02 0.00 xtum 0.42 -0.07 - 0.06 0.04 1.00 0.03 0.06 xupa 0.02 -0.18 -0.07 0.02 0.03 1.00 0.54 xpai 0.05 -0.19 -0.14 0.00 0.06 0.54 1.00
  • the model assumed in the exemplary embodiment shows that only the factor "xlypo" is causally decisive for the failure of the third variant. Nevertheless, there is an indirect connection between the other factors and the observations of the third variant, because increased risks of the other factors may reduce the likelihood of observing the failure of the third variant, although this property of the model assumed is insignificant for the function of the invention, but illustrates a typical benefit.
  • the neural network trained according to the described method is illustrated in FIG. 3 ("xpai” and “xpail” are identical). Note that there is only one connector to the "O3" output, namely from the "xlypo" node (neuron).
  • the outputs 01 to 03 are assigned to the risks "risk (1)" to "risk (3)".
  • Table 2b Bias values (automatically 0 for inactive neurons)
  • N t i me 1 as used here.
  • the number of output neurons is then determined from equation 10.d.
  • the training would then be carried out in the manner previously described.
  • the possible temporal variations of the different forms could be determined independently of one another in the context of the model of equations 4 to 7, the task of recording competing risks in particular would not be affected thereby.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

The invention relates to a method for determining competing risks for objects after an initial event based on already measured or otherwise objectifiable training data sets, in which a number of signals obtained from an adaptive system are combined in an objective function in such a manner that the adaptive system can identify or predict the underlying probabilities of the respective competing risks.

Description

Verfahren zur Ermittlung konkurrierender Risiken Procedure for identifying competing risks
Gebiet der ErfindungField of the Invention
Die Erfindung betrifft ein Verfahren zur Ermittlung konkurrierender Risiken nach einem Anfangsereignis mit Hilfe lernfähiger Systeme auf Grundlage bereits gemessener oder sonst objektivierbarer Daten (Trainingsdaten).The invention relates to a method for determining competing risks after an initial event with the aid of systems capable of learning on the basis of data that has already been measured or can otherwise be objectified (training data).
Stand der TechnikState of the art
Lernfähige Systeme wie neuronale Netze werden zunehmend zur Risikoabschätzung eingesetzt, weil sie in der Lage sind, komplexe, nicht von vornherein bekannte Zusammenhänge zwischen erhobenen Faktoren und Ausgängen zu erkennen und darzustellen. Durch diese Fähigkeit können sie zuverlässigere bzw. genauere Abschätzungen von Risikowahrscheinlichkeiten liefern als herkömmliche Verfahren, welche von einer speziellen Gestalt des Zusammenhangs wie etwa einer linearen Abhängigkeit, ausgehen müssen.Systems capable of learning, such as neural networks, are increasingly being used for risk assessment because they are able to recognize and present complex, previously unknown relationships between raised factors and outcomes. This capability enables them to provide more reliable or more precise estimates of risk probabilities than conventional methods, which have to be based on a special form of the relationship, such as a linear dependency.
Im Bereich medizinischer Anwendungen, beispielsweise bei der Behandlung einer Krebserkrankung, ist es bekannt, lernfähige Systeme wie neuronale Netze oder rekursive Partitionierung (wie die bekannte Methode CART, „Classification and Regression Trees", siehe dazu z. B: L. Breiman et al., „Classification and Regression Trees", Chapman and Hall, New York (1984)) zur Bestimmung der Risikowahrscheinlichkeit eines Ereignisses auch bei zensierten Daten einzusetzen. (Von einem zensierten Datensatz spricht man, wenn bis zum letzten Beobachtungszeitpunkt das Ereignis noch nicht unbedingt eingetroffen ist.) Als Beispiel für die Anwendung lernfähiger Systeme bei einer Krebserkrankung dient die Bestimmung der Risikowahrscheinlichkeit (etwa für eine erneute Erkrankung (Rezidiv)) im Anschluß an der Primärbehandlung zur Unterstützung der Therapieentscheidung.In the field of medical applications, for example in the treatment of cancer, it is known to learn systems such as neural networks or recursive partitioning (such as the known method CART, "Classification and Regression Trees", see for example: L. Breiman et al. , "Classification and Regression Trees", Chapman and Hall, New York (1984)) to determine the risk probability of an event even with censored data. (One speaks of a censored data set if the event has not yet arrived by the last observation time.) The determination of the risk probability (for example, for a new illness (recurrence)) subsequently serves as an example for the use of adaptive systems for cancer primary treatment to support the therapy decision.
Die Faktoren der Datensätze umfassen eine Reihe von objektivierbaren Kenngrößen, auf deren Werte eine das lernfähige System bedienende Person keinen Einfluß hat. Im Falle eines primären Mammakarzinoms beinhalten diese Kenngrößen zum Beispiel Alter zum Zeitpunkt der Operation, Anzahl der befallenen Lymphknoten, Laborwert des Faktors uPA, Laborwert des Faktors PAI-1, Kennwert für die Tumorgröße, Laborwert des Estrogenrezeptors, Laborwert des Progesteronrezeptors.The factors of the data sets comprise a number of objectifiable parameters, on the values of which a person operating the learning system has no influence. In the case of primary breast cancer, these parameters include, for example Age at the time of surgery, number of lymph nodes affected, laboratory value of the uPA factor, laboratory value of the PAI-1 factor, characteristic value for the tumor size, laboratory value of the estrogen receptor, laboratory value of the progesterone receptor.
Die Art der tatsächlich verwendeten Therapie kann als Angabe erfaßt werden, so dass auch der Zusammenhang zwischen Therapie und Ausgang erkannt wird.The type of therapy actually used can be recorded as an indication, so that the relationship between therapy and outcome is also recognized.
Die Werte werden auf einem geeigneten Speichermedium zwischengespeichert und dem lernfähigen System zugeführt. Die einzelnen Angaben sind in der Regel allerdings zum einen mit einer Unscharfe, analog einem Signalrauschen, behaftet. Aus diesen verrauschten Einzelsignalen ist es Aufgabe des lernfähigen Systems, veredelte Signale zu bilden, die im Rahmen einer geeigneten Wahrscheinlichkeitsdarstellung zu einer Risikoabschätzung führen können.The values are temporarily stored on a suitable storage medium and fed to the system capable of learning. On the one hand, however, the individual details are usually associated with an unsharpness, analogous to signal noise. From these noisy individual signals, it is the task of the adaptive system to form refined signals that can lead to a risk assessment within the framework of a suitable probability representation.
Die Lernfähigkeit eines neuronalen Netzes auch für nichtlineare Zusammenhänge ist eine Konsequenz der Architektur und der Funktionsweise. Ein sog. „Multilayer Perzeptron" (in der Fachliteratur immer als „MLP" abgekürzt) enthält etwa eine Eingangsschicht, eine versteckte Schicht, und eine Ausgangsschicht. Die im neuronalen Netz vorhandenen „versteckten Knoten" erfüllen die Aufgabe, ein Signal für die Wahrscheinlichkeit komplexer interner Prozesse zu erzeugen. Sie können somit über die zugrunde liegenden, aber nicht von vornherein direkt abtastbaren, biologischen Prozesse, welche für den Verlauf einer Erkrankung letztendlich ausschlaggebend sein werden, Aufschluß geben.The ability of a neural network to learn, even for non-linear relationships, is a consequence of the architecture and the way it works. A so-called "multilayer perceptron" (in the technical literature always abbreviated as "MLP") contains, for example, an input layer, a hidden layer, and an output layer. The "hidden nodes" in the neural network perform the task of generating a signal for the probability of complex internal processes. They can therefore use the underlying, but not directly detectable, biological processes, which are ultimately decisive for the course of a disease will be, provide information.
Interne biologische Prozesse können parallel zu einander mit unterschiedlichen Raten stattfinden und auch miteinander in Wechselwirkung treten. Lernfähige Systeme können auch solche internen, nicht direkt beobachtbaren Prozesse erkennen und darstellen, wobei sich die Güte dieser Erkennung nachträglich und indirekt durch die Güte der Vorhersage der tatsächlich beobachteten Ereignisse bemerkbar macht. Durch rekursive Partitionierung (etwa CART) entstehen Zuordnungen, die in ihrer Fähigkeit zur Darstellung komplexer interner Zusammenhänge analog zu den Fähigkeiten der neuronalen Netze sind.Internal biological processes can take place in parallel with each other at different rates and can also interact with each other. Systems capable of learning can also recognize and represent such internal processes that cannot be observed directly, the quality of this detection being subsequently and indirectly noticeable through the quality of the prediction of the actually observed events. Recursive partitioning (such as CART) creates assignments that are analogous in their ability to represent complex internal relationships to the capabilities of the neural networks.
Der Verlauf einer Erkrankung kann zu unterschiedlichen kritischen Ereignissen führen, deren Vorbeugung eventuell unterschiedliche Therapieansätze erfordert. Im Falle des ersten Rezidivs bei Brustkrebs ist eine eindeutige Klassifikation der Befunde etwa in die gegenseitig exklusiven AusprägungenThe course of a disease can lead to different critical events, the prevention of which may require different therapeutic approaches. In the case of the first recurrence in breast cancer, the findings are clearly classified, for example, in the mutually exclusive manifestations
1. „Fernmetastasen in Knochengewebe",1. "distant metastases in bone tissue",
2. „Fernmetastasen, jedoch kein Befund im Knochengewebe"2. "Distant metastases, but no finding in the bone tissue"
3. „Loko-regionales" Rezidiv3. "Loko-regional" recurrence
möglich.possible.
Da aber der weitere Verlauf der Erkrankung nach einem dieser Befunde auch im Hinblick auf die Wahrscheinlichkeiten der übrigen Ausprägungen der Rezidivs beeinflußt werden kann, ist es im Rahmen der statistischen Behandlung solcher Daten oft sinnvoll, nur das Erstrezidiv zu untersuchen. Beispielsweise für eine Brustkrebspatientin, die 24 Monate nach der Primäroperation ein Lokalrezidiv erleidet und nach 48 Monaten den Befund „Knochenmetastase" hat, ist im Hinblick auf „Erstrezidiv" nur Kategorie 3 relevant. Die Nachbeobachtung Knochenmetastase wird im diesem Rahmen nicht verwendet, d.h., die Patientin ist im Hinblick auf den Befund 1 als „zensiert" zu betrachten, sobald ein anderer Befund (hier Lokalrezidiv) festgestellt worden ist.However, since the further course of the disease based on one of these findings can also be influenced with regard to the probabilities of the other forms of recurrence, it is often sensible in the context of statistical treatment of such data to examine only the first recurrence. For example, for a breast cancer patient who has a local recurrence 24 months after the primary surgery and who has the finding "bone metastasis" after 48 months, only category 3 is relevant with regard to "first recurrence". Follow-up observation of bone metastasis is not used in this context, i.e. the patient is to be regarded as "censored" with regard to finding 1 as soon as another finding (here local recurrence) has been determined.
Konkurrierende Risiken können auch dadurch entstehen, dass ein Patient etwa an einer völlig anderen Erkrankung oder an einer Nebenwirkung der Behandlung verstirbt, so dass das Risiko der den Arzt interessierenden Ausprägung verborgen bleibt.Competing risks can also arise from the fact that a patient dies, for example, from a completely different illness or from a side effect of the treatment, so that the risk of the characteristic of interest to the doctor remains hidden.
Es ist für Experten zwar relativ offensichtlich, dass eine ausschließliche Klassifikation mit Zensierungsvorschrift die Trainingsdaten in eine Gestalt so abbilden kann, dass für jeden möglichen Ausgang je ein neuronales Netz oder je ein Klassifkationsbaum durch rekursive Partitionierung nach Stand der Technik trainiert werden kann. Im Beispiel mit den Ausgängen 1 bis 3 müßte man hierfür drei vollkommen unabhängige neuronale Netze bzw. drei verschiedene Entscheidungsbäume trainieren.It is relatively obvious to experts that an exclusive classification with a censoring rule can map the training data in such a way that for each possible output a neural network or a classification tree can be trained by recursive partitioning according to the state of the art. In the example with the outputs 1 to 3 one would have to train three completely independent neural networks or three different decision trees.
Ein Problem bei dieser Nutzung des Standes der Technik besteht darin, dass die Erkennung einer möglichen Aussagekraft interner Knoten hinsichtlich eines der Erkrankungsausgänge für die Erkennung dessen Aussagekraft hinsichtlich der übrigen Erkrankungsausgänge verlorengeht. In Wirklichkeit aber könnte ein interner biologischer Prozess, der durch interne Knoten in einem neuronalen Netz erkannt worden ist, Beiträge zu mehreren beobachtbaren Ausgängen liefern, wenn auch mit unterschiedlicher Gewichtung. Beispielsweise ist die biologische „Invasionsfähigkeit" eines Tumors von unterschiedlicher, jedoch signifikanter Bedeutung für Fernmetastasen bzw. für lokale Rezidive. Die unabhängig trainierten Netze müssen die Aussagekraft eines durch den Knoten dargestellten internen Zusammenhang eigenständig „entdecken".A problem with this use of the prior art is that the detection of a possible informative value of internal nodes with regard to one of the disease outlets is lost for the detection of its informative value with regard to the other disease outlets. In reality, however, an internal biological process recognized by internal nodes in a neural network could contribute to several observable outputs, albeit with different weightings. For example, the biological "invasiveness" of a tumor is of different but significant importance for distant metastases or for local recurrences. The independently trained networks must independently "discover" the meaningfulness of an internal connection represented by the node.
Es versteht sich, dass die Anzahl der tatsächlichen Ereignisse, die einem lernfähigen System zur Verfügung stehen, analog zur Mächtigkeit eines statistischen Systems, die Erkennungsgüte mitbestimmen. In medizinischen Anwendungen ist diese Anzahl meist begrenzt. Infolgedessen ist die Wahrscheinlichkeit, dass sich interne Prozesse knapp hinsichtlich eines der Ausgänge bemerkbar machen, jedoch nicht hinsichtlich der übrigen Faktoren, relativ groß. In diesem Fall geht die potentielle Aussagekraft zur Unterscheidung der Faktoren, sowie das biologische Erklärungspotential der internen Knoten auch im Hinblick auf die weiteren Ausgänge, verloren.It goes without saying that the number of actual events that are available to a system capable of learning, similar to the size of a statistical system, also determine the quality of recognition. This number is usually limited in medical applications. As a result, the likelihood that internal processes will be barely noticeable on one of the outputs, but not on the other factors, is relatively high. In this case, the potential meaningfulness to differentiate the factors, as well as the biological explanatory potential of the internal nodes also with regard to the further outputs, is lost.
Da Therapien auch Nebenwirkungen haben, ist etwa eine Verringerung des Risikos einer Ausprägung einer Erkrankung auf Kosten einer Erhöhung eines anderen Risikos typisch für den medizinischen Entscheidungskontext. Hierfür ist die Notwendigkeit beim gegenwärtigen Stand der Technik, hinsichtlich jedes einzelnen Risikos ein völlig neues neuronale Netz trainieren zu müssen, unbefriedigend.Since therapies also have side effects, a reduction in the risk of developing a disease at the expense of an increase in another risk is typical of the medical decision-making context. For this, the need in the current state of the art to have to train a completely new neural network with regard to each individual risk is unsatisfactory.
Faktoren, deren Wirkung auf die Wahrscheinlichkeit der Ausgänge zeitlich variabel sind, können nach Stand der Technik durch verschiedene Knoten in der Ausgangsschicht dargestellt werden, denen verschiedene Zeitabhängigkeiten (etwa durch die bekannte Technik der „fraktionalen Polynomen") zugeordnet werden. Eine zeitlich variable Aussage zur Ereignisdichte ist beim Stand der Technik zwar möglich, jedoch ist das Problem der konkurrierenden Risiken nicht so formulierbar, dass die Bestimmung einer zeitlich variablen Aussage nicht beeinträchtigt wird.According to the prior art, factors whose effect on the probability of the outputs are variable in time can be represented by different nodes in the output layer, to which different time dependencies (for example by the known technique of "fractional polynomials") are assigned. A variable in time for Event density is possible in the prior art, but the problem is competing risks cannot be formulated in such a way that the determination of a time-variable statement is not impaired.
Angesichts der Nachteile des Standes der Technik liegt der Erfindung die Aufgabe zugrunde, ein Verfahren bereitzustellen, mit dem konkurrierenden Risiken in ihrem logischen bzw. ursächlichen Zusammenhang erfaßt, identifiziert und dargestellt werden können, insbesondere so, dass die Bestimmung einer zeitlich variablen Aussage nicht beeinträchtigt wird.In view of the disadvantages of the prior art, the object of the invention is to provide a method with which competing risks can be detected, identified and represented in their logical or causal context, in particular in such a way that the determination of a temporally variable statement is not impaired ,
Beschreibung der ErfindungDescription of the invention
Diese Aufgabe wird durch das Verfahren gemäß Patentanspruch 1 gelöst.This object is achieved by the method according to claim 1.
Durch das erfindungsgemäße Verfahren können den konkurrierenden Risiken durch das lernfähige System geeignete Kennwerte zugeordnet werden. Diese Kennwerte sollen die Berechnung der bedingten Wahrscheinlichkeit pro Zeiteinheit für das Eintreten des jeweiligen Ereignisses (unter der Voraussetzung, dass bisher keines der möglichen Endereignisse eingetreten ist) ermöglichen. „Geeignete" Kennwerte im Sinne der Erfindung können die Eigenschaft haben, dass ein Maximum der statistischen „Likelihood" betreffend aller Ausgänge angestrebt wird.The method according to the invention can be used to assign suitable characteristic values to the competing risks through the system capable of learning. These characteristic values are intended to enable the calculation of the conditional probability per unit of time for the occurrence of the respective event (provided that none of the possible end events has occurred to date). “Suitable” characteristic values in the sense of the invention can have the property that a maximum of the statistical “likelihood” regarding all outputs is aimed for.
Es versteht sich, dass dieses Verfahren in verschiedensten Bereichen, wie z. B. den Ingenieurs- und Wirtschaftswissenschaften, der Biologie oder Medizin, verwendet werden kann. Im Bereich der Medizin kann es sich dann bei den Objekten um Patienten handeln, die nach einer ersten Erkrankung, dem Ausgangsereignis, konkurrierenden Risiken unterliegen, eine erneute Erkrankung zu erleiden.It is understood that this method in various areas, such as. B. engineering and economics, biology or medicine can be used. In the field of medicine, the objects can then be patients who are subject to competing risks after a first illness, the initial event, of suffering another illness.
Vorteilhafterweise werden für das Verfahren für die Trainingsdatensätze gemessene oder in sonstiger Weise objektiv erfaßte Daten des Anfangsereignisses und einer Nachbeobachtung bis zu einem vorgegebenen Zeitpunkt verwendet.Advantageously, data of the initial event and a follow-up observation up to a predetermined time are used for the method for the training data sets or are objectively recorded in some other way.
Dabei ist es von Vorteil, wenn der letzte Zeitpunkt der Nachbeobachtung explizit in den Trainingsdatensätzen verwendet wird. Somit kann durch das erfindungsgemäße Verfahren auch die Nutzung anderer Kennwerte im Rahmen eines trainierten lernfähigen Systems ermöglicht werden, solange sich diese Kennwerte analog zur statistischen Likelihood aus den Nachbeobachtungen bilden lassen.It is advantageous if the last point in time of the follow-up is explicitly used in the training data records. The method according to the invention can thus also make it possible to use other characteristic values in the context of a trained, learnable system, as long as these characteristic values can be formed from the follow-up observations in a manner analogous to the statistical likelihood.
In einer vorteilhaften Ausführung werden bei der Beobachtung einer Versagensausprägungen zu einem Zeitpunkt die anderen Ausprägungen ausgeschlossen. Auf diese Weise kann eine Ausprägung eines Versagens bevorzugt berücksichtigt werden.In an advantageous embodiment, when observing one failure characteristic at a time, the other characteristics are excluded. In this way, a manifestation of a failure can preferably be taken into account.
Vorteilhafterweise ist die objektive Funktion L in Abhängigkeit einer Funktion P gegeben:The objective function L is advantageously given as a function of a function P:
Hier sind mit μ die Parameter des lernfähigen Systems gemeint. („LS" steht für „lernfähiges System".) fLS ktX )( .) bezeichnet die Versagensrate der Ausprägung k und SLS{k x )(t.) denHere, μ means the parameters of the system capable of learning. ("LS" stands for "learnable system".) F LS ktX) (.) Denotes the failure rate of the expression k and S LS {kx) (t.) Den
Erwartungswert des Anteils an Objekten j mit beobachteten Merkmalen x,-, welche kein Versagen der Ausprägung k zum Zeitpunkt tj erleiden. P wird aufgrund des logischen Zusammenhangs aus δjk bestimmt, wobei δjk =1, wenn ein Objekt j ein Versagen der Ausprägung /. zum Zeitpunkt _> erlitten hat und sonst δjk = 0.Expected value of the proportion of objects j with observed characteristics x, - which do not suffer a failure of the characteristic k at the time tj. P is determined on the basis of the logical relationship from δ jk , where δ jk = 1 if an object j fails the expression /. suffered at time _> and otherwise δ jk = 0.
Vorteilhafterweise wirdAdvantageously
L(μ-{x tjß}) = l[ fl[f k,Xj)( _ _,>('y)hL (μ- {x tj , δ ß }) = l [fl [f k , Xj) (_ _,>('y) h
7=1 k=\ als objektive Funktion verwendet, wobei εjk und ψj aufgrund des logischen Zusammenhangs aus δJk bestimmt werden.7 = 1 k = \ used as an objective function, where ε jk and ψ j are determined from δ Jk based on the logical relationship.
Es ist von Vorteil, wennIt is an advantage if
als objektive Funktion verwendet wird. is used as an objective function.
In einer bevorzugten Alternative wird ein neuronales Netz als lernfähiges System verwendet. In diesem Fall kann obige objektive Funktion L in Abhängigkeit von P die Form haben In a preferred alternative, a neural network is used as the learning system. In this case, the above objective function L can have the form depending on P.
Von besonderem Vorteil ist es, wenn ein neuronale Netz der Architektur MLP (multilayer Perzeptron) verwendet wird.It is particularly advantageous if a neural network of the MLP (multilayer perceptron) architecture is used.
In einer anderen bevorzugten Alternative führt das lernfähige System eine rekursive Partitionierung durch, wobeiIn another preferred alternative, the adaptive system performs recursive partitioning, where
jedem Objekt einem Knoten zugeordnet wird,a node is assigned to each object,
jedem Knoten die Häufigkeiten oder Wahrscheinlichkeiten aller Ausprägungen zugeordnet wird, undthe frequencies or probabilities of all occurrences are assigned to each node, and
die Partionierung so durchgeführt wird, dass die objektive Funktion optimiert wird, die diese Häufigkeiten oder Wahrscheinlichkeiten statistisch berücksichtigt.the partitioning is carried out in such a way that the objective function is optimized which statistically takes these frequencies or probabilities into account.
Vorzugsweise wird das lernfähige System im Rahmen einer Entscheidungshilfe verwendet.The learnable system is preferably used in the context of a decision-making aid.
Es ist von Vorteil, wenn den verschiedenen Wahrscheinlichkeitsfunktionen der konkurrierenden Risiken Werte zur Ermittelung einer Strategie zugeordnet werden. Damit kann beispielsweise bei einer medizinischen Anwendung der vorliegenden Erfindung eine Therapiestrategie ermittelt werden.It is advantageous if the various probability functions of the competing risks are assigned values to determine a strategy. A therapy strategy can thus be determined, for example, in a medical application of the present invention.
Im folgenden wird das erfindungsgemäße Verfahren zur Ermittlung konkurrierender Risiken unter Bezugnahme auf die Zeichnung weiter beschrieben. In der Zeichnung zeigen:The method according to the invention for determining competing risks is described further below with reference to the drawing. The drawing shows:
Figur 1 eine Darstellung eines neuronalen Netzes in einer Implementierung als MLP,FIG. 1 shows a representation of a neural network in an implementation as an MLP,
Figur 2 ein Venn-Diagramm konkurrierender Risiken, undFIG. 2 shows a Venn diagram of competing risks, and
Figur 3 eine Illustration eines trainierten neuronalen Netzes mit drei konkurrierenden Risiken.Figure 3 is an illustration of a trained neural network with three competing risks.
Die nachfolgend beschriebenen Ausführungsformen beziehen sich auf medizinische Answendungen, was aber nicht als Einschränkung zu verstehen ist. Die folgende Beschreibung bedient sich der Terminologie der neuronalen Netze der Architektur MLP. Die Anwendung auf andere Architekturen der neuronalen Netze sowie für Regressionsbäume ist aber analog und für Experten unmittelbar ohne weitere Beschreibung nachzuvollziehen.The embodiments described below relate to medical applications, but this should not be understood as a limitation. The following description uses the terminology of the MLP architecture neural networks. However, the application to other architectures of the neural networks as well as for regression trees is analogous and can be understood by experts without further description.
Insbesondere wird erfindungsgemäß eine zusätzliche Dimension der Ausgangsschicht des lernfähigen Systems eingeführt, wobeiIn particular, an additional dimension of the starting layer of the learning system is introduced according to the invention, wherein
• die zusätzliche Dimension der Ausgangsschicht mindestens zwei Knoten umfaßt• the additional dimension of the starting layer comprises at least two nodes
• die Knoten dieser zusätzlichen Dimension den verschiedenen Ausgangsereignissen entsprechen• The nodes of this additional dimension correspond to the different initial events
• jeder Ausgangsknoten einem Signal zugeordnet wird,Each output node is assigned to a signal,
• die einzelnen Signale jeweils einer Risikofunktion bezüglich der möglichen Ereignisse zugeordnet werden.• The individual signals are each assigned to a risk function with regard to the possible events.
• die Signale der Ausgangsfunktionen zu einem Gesamtsignal kombiniert werden• the signals of the output functions are combined to form an overall signal
• das lernfähige System trainiert wird, indem die Werte der Gesamtsignale für alle Datensätze als Objektivfunktion für das System herangezogen werden• The system capable of learning is trained by using the values of the total signals for all data sets as a lens function for the system
Ein auf diese Weise trainiertes System unterstützt den behandelnden Arzt und den Patienten beispielsweise bei der Entscheidung für einen aus mehreren unterschiedlichen Therapieansätzen, indem es feststellt, gegen welche der möglichen Ausprägungen der Rezidivgefahr die Therapie gerichtet werden soll.A system trained in this way supports the attending physician and the patient, for example, in the decision for one of several different therapeutic approaches by determining which of the possible manifestations of the risk of recurrence should be directed to the therapy.
Problemdarstellung und ÜberblickProblem description and overview
Das Ziel der individualisierten Patientenprognose mit konkurrierenden Risiken läßt sich mathematisch so auffassen, dass mehrere Funktionen fι(x) f2(x) f3(x), ... mit dem lernfähigen System, hier mit einem neuronalen Netz NNι(x), NN2(x), .... zu approximieren sind. Genauer gesagt, das neuronale Netz schätzt den Erwartungswert E(yk|x) der stochastischen Variablen yk bei beobachteten Merkmalen x:The goal of individualized patient prognosis with competing risks can be understood mathematically in such a way that several functions fι (x) f 2 (x) f 3 (x), ... with the system capable of learning, here with a neural network NNι (x), NN 2 (x), .... are approximated. More precisely, the neural network estimates the expected value E (y k | x) of the stochastic variable y k for observed features x:
NNk(x) fk(x) = E(yk \ x) . Schematisch läßt sich das neuronale Netz zunächst bei der aktuellen Implementierung als MLP im Ausführungsbeispiel wie in Figur 1 darstellen.NN k (x) f k (x) = E (y k \ x). The neural network can first be represented schematically in the current implementation as an MLP in the exemplary embodiment as in FIG. 1.
Alle Quadrate stellen hier Neuronen dar. Die oben im Bild dargestellten Neuronen liefern entwederAll squares represent neurons here. The neurons shown in the picture above either deliver
• rohe Patientenmerkmale (Beim primären Brustkrebs beispielsweise uPA, PAI-1, Zahl der befallene Lymphknoten, usw.) oder• raw patient characteristics (for primary breast cancer, for example, uPA, PAI-1, number of affected lymph nodes, etc.) or
• aus diesen Merkmalen bereits aufbereitete Größen (z.B. Werte bereinigt um Mittelwert oder Mediän und normiert durch Standardabweichung der Werteverteilung) oder• quantities already prepared from these characteristics (e.g. values adjusted for mean or median and standardized by standard deviation of the value distribution) or
• durch Vorkenntnisse oder andere statistische Methoden abgeleitete Größen. Diese Neuronen bilden zusammen die Eingangsschicht.• quantities derived from previous knowledge or other statistical methods. Together, these neurons form the input layer.
Die mittleren Neuronen bilden die interne Schicht. Es können auch mehrere interne Schichten vorgesehen sein. Jedes interne Neuron verarbeitet die Signale von den Eingangsneuronen und gibt ein Signal weiter. Die mathematische Beziehung zwischen den "Inputs" zu den internen Neuronen und ihren "Outputs" wird durch das Einpendeln von synaptischen Gewichten gesteuert.The middle neurons form the internal layer. Several internal layers can also be provided. Each internal neuron processes the signals from the input neurons and passes on a signal. The mathematical relationship between the "inputs" to the internal neurons and their "outputs" is controlled by leveling out synaptic weights.
Die unteren Neuronen liefern Schätzungen für die erwünschten Kenngrößen (z.B. Erwartungswert des Überlebens) und bilden die Ausgangsschicht.The lower neurons provide estimates for the desired parameters (e.g. expected value of survival) and form the starting layer.
Um dem Netz den unterstellten Zusammenhang fι(x) f2(x) f3(x), ... beizubringen, stehen m Patientinnen zur Verfügung. Jedem Patienten ist ein Datenmuster (x,y) zugeordnet, wobei für konkurrierende Risiken die Ausgangsvariablen y als „Vektoren" (y=[yι,y2,y3, ...]) zu verstehen sind. Das Netz muß also anhand der Menge der Datenmuster {(x1,y1),...,(xm,ym)} die zugrundeliegende Dynamik lernen. Der Index als Superskript bezieht sich auf den Patienten. Beim Lernen findet nun eine Anpassung der synaptischen Gewichte statt.In order to teach the network the assumed relationship fι (x) f 2 (x) f 3 (x), ..., m patients are available. A data pattern (x, y) is assigned to each patient, with the output variables y being to be understood as “vectors” (y = [yι, y 2 , y3, ...]) for competing risks. The network must therefore be based on the quantity the data pattern {(x 1 , y 1 ), ..., (x m , y m )} learn the underlying dynamics. The index as a superscript relates to the patient. During learning, the synaptic weights are now adjusted.
Die in der Ausführungsform verwendete Architektur besteht in einem klassischen mehrschichtigen Feedforward-Netz. Neuronen sind wie oben beschrieben in Schichten organisiert. Konnektoren bestehen in der Ausführungsform wie folgtThe architecture used in the embodiment consists of a classic multilayer feedforward network. Neurons are organized in layers as described above. Connectors exist in the embodiment as follows
• Eingangsschicht -> versteckte Schicht• Entry layer -> hidden layer
• Eingangsschicht - Ausgangsschicht• Entry layer - exit layer
• Versteckte Schicht -- Ausgangsschicht Die Verwendung von Konnektoren Eingangsschicht -> Ausgangsschicht ist zweckmäßig aber nicht zwingend zur Funktion der Erfindung, weil sie nicht unbedingt zur Darstellung einer Abbildung NN(x) notwendig sind.• Hidden layer - starting layer The use of connectors input layer -> output layer is expedient but not mandatory for the function of the invention, because they are not absolutely necessary for the representation of an image NN (x).
Funktion neuronaler NetzeFunction of neural networks
Neuronen als FunktionenNeurons as functions
Jedes Neuron empfängt ein Stimulationssignal S, verarbeitet dieses gemäß einer vorbestimmten Aktivierungsfunktion F(S) und gibt ein entsprechendes Antwortsignal A = F(S) aus, das allen nachfolgenden Neuronen zugeführt wird, welche noch mit ihm verbunden sind. In der Ausführungsform ist die Aktivierungsfunktion der versteckten Schicht der Tangens Hyperbolicus. Die Erfindung kann ebenso bei Verwendung anderer Aktivierungsfunktionen wie etwa der logistischen Funktion eingesetzt werden.Each neuron receives a stimulation signal S, processes it according to a predetermined activation function F (S) and outputs a corresponding response signal A = F (S), which is fed to all subsequent neurons that are still connected to it. In the embodiment, the activation function of the hidden layer is the hyperbolic tangent. The invention can also be used using other activation functions such as the logistic function.
Transformationen und EingangsneuronenTransformations and input neurons
Die Faktoren werden anfänglich univariat so transformiert, dass sie in einem Intervall der Größenordnung 1 liegen.The factors are initially transformed univariate so that they are in an interval of the order of 1.
D.h., zuerst wird der Mediän XMedian subtrahiert und eine Skalierung der Werte mit einem Faktor xQ vorgenommen: Werte über dem Mediän werden mit dem 75 %-Quantil skaliert, Werte unter dem Mediän mit dem 25 %-Quantil. Darauf wird noch die Funktion tanh angewandt.In other words, the median XMedian is subtracted and the values are scaled with a factor x Q : values above the median are scaled with the 75% quantile, values below the median with the 25% quantile. The tanh function is then applied.
Die Eingangsneuronen haben eine statische Funktion und werden deshalb als Felder implementiert, welche die so transformierten Werte weiterreichen. Konzeptuell kann man die tanh-Funktion der Gleichung (1a) als Aktivierungsfunktion der Eingabeschicht ansehen.The input neurons have a static function and are therefore implemented as fields that pass on the transformed values. Conceptually, the tanh function of equation (1a) can be seen as the activation function of the input layer.
Versteckte NeuronenHidden neurons
Gesucht ist der Ausgang des versteckten Knotens h für Patientin j. Zuerst wird überprüft, ob der versteckte Knoten h noch aktiv ist. Falls aktiv, werden die Eingangssignale mit den zugehörigen Gewichten multipliziert um die Summe wh -x, zu bilden. Genauer gesagt ist das Signal zum versteckten Knoten h bei Muster j eine gewichtete Summe der Eingänge der Gestalt zh(J) = ∑i wihχiU) ,We are looking for the exit of the hidden node h for patient j. First it is checked whether the hidden node h is still active. If active, the input signals are multiplied by the associated weights to form the sum w h -x. More specifically, the hidden node signal h at pattern j is a weighted sum of the shape's inputs z h (J) = ∑ i w ih χ iU),
wobei wih das Gewicht des Konnektors vom Eingangneuron i zum versteckten Neuron h, und Xi (j) die (skalierte) Antwort des i-ten Eingangsneurons darstellt. Die Antwort des versteckten Neurons h istwhere w ih is the weight of the connector from the input neuron i to the hidden neuron h, and Xi (j) represents the (scaled) response of the i-th input neuron. The answer of the hidden neuron h is
rh(j) = Fh(zh(j)-bh) . (2.a)r h (j) = F h (z h (j) -b h ). (2.a)
Hierbei ist bh das Bias des versteckten Neurons h, das rechentechnisch wie jedes andere Gewicht des Netzwerks optimiert wird. Im Ausführungsbeispiel ist die nichtlineare Aktivierungsfunktion Fh der Tangens hyperbolicus.Here b h is the bias of the hidden neuron h, which is mathematically optimized like any other weight of the network. In the exemplary embodiment, the nonlinear activation function F h is the hyperbolic tangent.
Ausgangsknotenoutput node
Gesucht ist der Ausgang des Ausgangsknotens o für Patientin j. Zuerst wird überprüft, ob der Ausgangsknoten o noch aktiv ist. Konnektoren sowohl von der versteckten Schicht wie auch von der Eingangsschicht sind möglich. Für jeden noch aktiven Konnektor werden die zugehörigen Eingangssignale mit den entsprechenden Gewichten multipliziert.We are looking for the exit of the starting node o for patient j. First, it is checked whether the output node o is still active. Connectors from the hidden layer as well as from the input layer are possible. For each connector that is still active, the associated input signals are multiplied by the corresponding weights.
Das Signal zQ wird zunächst gebildet: Das Bias des Neurons b0 wird abgezogen, und auf dieses Resultat wird die Aktivierungsfunktion des Ausgangsneurones o angewandt. Der Ausgang O00) wird somit zuThe signal z Q is initially generated: the bias of the neuron b 0 is subtracted, and the activation function of the output neuron o is applied to this result. The output O 0 0) thus becomes
00(j) = F0(z0(j)-b0)0 0 (j) = F 0 (z 0 (j) -b 0 )
Die Aktivierungsfunktion der Ausgangsschicht wird im Ausführungsbeispiel als die Identitätsfunktion gewählt.The activation function of the starting layer is chosen as the identity function in the exemplary embodiment.
Im Ausführungsbeispiel wird das Gesamtbias im Gegensatz zur versteckten Schicht nicht frei optimiert, sondern wird so gewählt, dass das Mediansignal aller Ausgangsneuronen gleich null ist. Dies ist möglich ohne Einschränkung der Allgemeinheit des Modells. Somit verringert sich die Anzahl der zu optimierenden Parameter um die Anzahl der Biasparameter.In the exemplary embodiment, in contrast to the hidden layer, the total bias is not freely optimized, but is chosen so that the median signal of all output neurons is zero. This is possible without restricting the generality of the model. The number of parameters to be optimized is thus reduced by the number of bias parameters.
Überlebensanalyse bei konkurrierenden, zeitvariablen Risiken im Rahmen lernfähiger ModelleSurvival analysis for competing, time-variable risks in Framework of models capable of learning
Bezug zum Lernfähigen SystemRelation to the system capable of learning
Vorgegeben sei ein Patientenkollektiv mit vorhandenen Kovariaten (prognostischen Faktoren) Xj, die zu einem Anfangszeitpunkt t=0 (etwa zum Zeitpunkt der Primäroperation) gemessen wurden, sowie Endpunkten tj. Bei bekanntem Versagen der Ausprägung k des j-ten Patienten zum Zeitpunkt tj wird δjk = 1 (k=1,2,3,...) definiert, falls zensiert (weiterer Verlauf nach t=tj unbekannt) wird δjk=0 definiert.A patient population with existing covariates (prognostic factors) X j , which were measured at an initial point in time t = 0 (approximately at the time of the primary operation) and end points t j . If the expression k of the jth patient fails at time t j , δ jk = 1 (k = 1,2,3, ...) is defined; if censored (further course after t = t j unknown), δ jk = 0 defined.
Sei Sk(f) der Erwartungswert des Anteils der Patienten zu einem Zeitpunkt t, welche kein Versagen der Ausprägung k erleiden, wobei Sk(∞) = 0 und Sk(0) = 1. Es ist zweckmäßig, jeweils eine Versagensrate fk(f) und eine „Hazardfunktion" λk(f) gemäßLet S k (f) be the expected value of the proportion of patients at a time t who do not experience a failure of the expression k, where S k (∞) = 0 and S k (0) = 1. It is advisable to have a failure rate f k (f) and a “hazard function” λ k (f) according to
4(0 Λ( (3.a)4 (0 Λ ( (3.a)
3.(0 zu definieren, so dass λk(t) = --[\ogSk(t)] (3.b)3. ( to define 0 such that λ k (t) = - [\ ogS k (t)] (3.b)
gilt.applies.
Die Interpretation dieser einzelnen Versagensraten ist wie folgt: Wäre es möglich, die übrigen Ausprägungen ohne Einfluß auf die Ausprägung k zu vermeiden, so würde fk(ή die beobachtete Versagensrate approximieren. In Wirklichkeit wird fk(f) zwar nicht direkt beobachtet. Für die Nutzung der Erfindung im Rahmen einer Entscheidungshilfe ist jedoch die Erfassung aller Ausprägungen fk(f) notwendig, damit die Wirksamkeit einer Verringerung einer Ausprägung im Hinblick auf das Gesamtwohl des Patienten berücksichtigt werden kann.The interpretation of these individual failure rates is as follows: If it were possible to avoid the other characteristics without influencing the characteristic k, f k (ή would approximate the observed failure rate. In reality f k (f) is not observed directly the use of the invention in the context of a decision-making aid, however, requires the recording of all forms f k (f), so that the effectiveness of reducing a form can be taken into account with regard to the overall well-being of the patient.
Bei bekanntem Verlauf der Hazardfunktionen λk (t) erhält man die Sk(ή durch Integration der Gl. (3.b) mit der Anfangsbedingung Sk(0) =1.If the course of the hazard functions λ k (t) is known, the S k (ή is obtained by integrating Eq. (3.b) with the initial condition S k (0) = 1.
Vom neuronalen Netz erhalten wir zu einem Zeitpunkt r nach der Primäroperation für eine Patientin mit Kovariaten x eine "Hazardfunktion" λk (t\x), die nun von Kovariaten x abhängt. Als Modell für die Hazardfunktion bei vorgegebenen Kovariaten x setzen wir λk(t \ x) = λkQ(t)hk(t \ x) (4.)At a point in time r after the primary operation for a patient with covariates x, we receive a "hazard function" λ k (t \ x) from the neural network, which now depends on covariates x. We set the model for the hazard function for given covariates x λ k (t \ x) = λ kQ (t) h k (t \ x) (4.)
mitWith
Die Funktionen Bt(t) werden dem Problem angepaßt gewählt. Möglich sind hier beipielsweise Spline-Funktionen. In dem Ausführungsbeispiel werden für Bt(t) fraktionelle Polynome bevorzugt, d.h. B, (t) = t(W) 2.The functions B t (t) are chosen to suit the problem. Spline functions are possible here, for example. In the exemplary embodiment, fractional polynomials are preferred for B t (t), ie B, (t) = t (W) 2 .
Somit erhält manSo you get
λok exp ∑NNu x)Bt(t) = - logfe(t)) . (6.)λ ok exp ∑NN u x) B t (t) = - logfe (t)). (6.)
Hierbei wird in der zweiten Gleichung λ0 als eine Konstante betrachtet. Die Zeitabhängigkeit steckt in den Koeffizienten B . Dieses Modell ist ein Proportional-hazards-Modell, falls Bi = 1 und alle anderen B| verschwinden. Abweichungen von „Proportional-hazards" können durch Berücksichtigung von Termen Bι mit l>1 modelliert werden.Here, the second equation λ 0 is regarded as a constant. The time dependence is in the coefficient B. This model is a proportional hazards model if Bi = 1 and all other B | disappear. Deviations from "proportional hazards" can be modeled by considering terms Bι with l> 1.
In einer breiten Klasse von Anwendungen wird eine Objektivfunktion der GestaltIn a wide class of applications, lens function takes shape
L(μΛxJ,tJjk}) (7-) optimiert, wobei die Schreibweise zum Ausdruck bringt, dass P (zunächst auf eine noch nicht näher spezifizierte Art und Weise) von den jeweiligen Überlebens- bzw. Versagenswahrscheinlichkeiten abhängen darf. Diese Abhängigkeit ist problembedingt und geht aus einem logischen Modell für das Auftreten der verschiedenen Ausprägungen hervor. Eine bevorzugte Klasse von Objektivfunktionen der Gestalt (7.) lassen sich als statistische Likelihoodfunktionen verstehen, wobei für die AusführungsformL (μΛx J , t J , δ jk }) (7-) optimized, whereby the spelling expresses that P (initially in a manner not yet specified) may depend on the respective survival or failure probabilities. This dependency is problem-related and emerges from a logical model for the occurrence of the different forms. A preferred class of lens functions of the shape (7th) can be understood as statistical likelihood functions, whereby for the embodiment
[ *_)('/ l jt (8.) gewählt wird. Die beiden Argumente fNN(k,x) und SNNΓJCX) sind eindeutig bestimmt unter der Voraussetzung, dass das neuronalen Netz oder das sonstige lernfähige Modell die entsprechenden Werte für die Ausgangsknoten liefert. Dies ist in der Ausführungsform stets der Fall.[ * _) (' / l jt (8.) is chosen. The two arguments fNN (k, x) and SNNΓJ CX ) are clearly determined provided that the neural network or the other model capable of learning supplies the corresponding values for the output nodes. This is always the case in the embodiment.
Hierbei sind εjk und ψjk aufgrund des logischen Zusammenhangs aus δj zu bestimmen, wobei δjk =1, wenn der Patient j ein Versagen der Ausprägung k zum Zeitpunkt tj erlitten hat und sonst δjk = 0. Zensierte Datensätze entsprechen Patienten, die gar kein Versagen erlitten haben, so dass δjk = 0 für alle k=1,2,3,.... Die funktionale Abhängigkeit vom Modell wird symbolisch durch veränderliche Parameter μ gekennzeichnet. Ein Beispiel zur Bestimmung von εjk und ψjk wird in der Folge angegeben.Here ε jk and ψ jk are to be determined from δ j on the basis of the logical relationship, where δ jk = 1 if patient j has suffered a failure of the expression k at time t j and otherwise δ jk = 0. Censored data records correspond to patients, that have not suffered any failure at all, so that δ jk = 0 for all k = 1,2,3, .... The functional dependency on the model is symbolically characterized by variable parameters μ. An example for the determination of ε jk and ψ jk is given below.
Die mit μ bezeichneten Parameter sind in der Ausführungsform die Überlebenszeitskalen λok und die Gewichte des neuronalen Netzwerkes. Der Index j bezeichnet den Patientendatensatz.In the embodiment, the parameters denoted by μ are the survival time scales λ ok and the weights of the neural network. The index j denotes the patient record.
In der Ausführungsform wird das Zeitintegral zur Lösung der Gleichung 6 durch die Standardmethode „Romberg-Integration" gelöst. Somit können beliebige Zeitabhängigkeiten der Funktionen Bι (t) berücksichtigt werden.In the embodiment, the time integral for solving equation 6 is solved by the standard method “Romberg integration”. Any time dependencies of the functions Bι (t) can thus be taken into account.
Zu einem Zeitpunkt t sei S(t) der Erwartungswert des Anteils der Patienten, welche kein Versagen irgendeiner der Ausprägungen k=1,...,K erlitten hat. In der Ausführungsform ist diese Größe durch das Produkt der einzelnen Wahrscheinlichkeiten geben:At a point in time t let S (t) be the expected value of the proportion of patients who have not suffered failure of any of the expressions k = 1, ..., K. In the embodiment, this size is given by the product of the individual probabilities:
Spezifikation der Ausführungsform für ein BeispielSpecification of the embodiment for an example
Für eine vollständige Spezifikation der Ausführungsform müssen nun die Größen ψ jk und ε jk angegeben werden. Im folgenden werden zur Veranschaulichung zwei Fälle der Ausführungsform hinsichtlich dieser Funktionen vollständig spezifiziert, die typisch für die Anwendung der Erfindung im Kontext der konkurrierenden Risiken sind.For a complete specification of the embodiment, the sizes müssen jk and ε jk must now be specified. In the following, two cases of the embodiment are fully specified with regard to these functions, which are typical for the application of the invention in the context of the competing risks.
Man betrachte eine Erkrankung, bei der das Versagen drei Ausprägungen hat. Der Patient wird im Monat t (.=1,2, ...) beobachtet. Hierbei kann im Monat t irgendeine Kombination der drei Ausprägungen oder gar kein Versagen beobachtet werden, so dass der Patient „zensiert" ist. Die Situation wird als Venn-Diagramm in der Abbildung 1 veranschaulicht. Im Falle der Krankheit Mammakarzinom könnten die drei Ausprägungen etwa Knochenmetastasen (B für "bone", k=1), sonstige Fernmetastasen (D für „distant", k=2), bzw. Lokal/regional (L für „local", k=3) sein. Ein gleichzeitiges Auftreten aller drei Ausprägungen im Beobachtungsmonat t ist möglich. Es kann aber sein, dass aus klinischen, pharmakologischen, oder datentechnischen Gründen die Nachbeobachtung im Monat t nach folgender Logik angegeben wird:Consider a disease in which failure has three forms. The patient is observed in month t (. = 1,2, ...). Any combination of the three characteristics or no failure at all can be observed in month t, so that the patient is "censored". The situation is illustrated as a Venn diagram in Figure 1. In the case of breast cancer, the three types could be bone metastases (B for "bone", k = 1), other distant metastases (D for "distant", k = 2), or local / regional (L for "local", k = 3). A simultaneous occurrence of all three forms in the observation month t is possible. However, it may be that for clinical, pharmacological or data-technical reasons, the follow-up in month t is given according to the following logic:
• Knochenmetastasen Qa/nein) ? o Falls ja, dann εji o Falls nein: sonstige Fernmetastasen Q'a/nein) ?• bone metastases Qa / no)? o If yes, then εji o If no: other distant metastases Q ' a / no)?
Falls ja, dann εji =0 εj2=1 εj3 =0 ψji =1 ψ j2 =0 ψj3=0 If yes, then ε j i = 0 ε j2 = 1 ε j3 = 0 ψ j i = 1 ψ j2 = 0 ψ j3 = 0
Falls nein: lokal/regional O'a/nein) If no: local / regional O ' a / no)
• Falls ja, dann εj =0 εj2=0 εj3=1 ψ ji =1 ψ j2 =1 ψj3=0• If yes, then ε j = 0 ε j2 = 0 εj 3 = 1 ψ ji = 1 ψ j2 = 1 ψ j3 = 0
• Falls nein, dann εj1 =0 εj2=0 j3=0 ψ ji =1 ψ j2 =1 ψ j3=1• If no, then ε j1 = 0 ε j2 = 0 j3 = 0 ψ j i = 1 ψ j2 = 1 ψ j3 = 1
In anderen Worten:In other words:
Bei dieser Zuordnung wird etwa der Beobachtung „Knochenmetastasen" eine Priorität eingeräumt, so dass nicht gefragt wird, ob die anderen Ausprägungen zum Zeitpunkt t vorkommen oder nicht. Deshalb ist bei Befund „Knochenmetastasen ja" der Beitrag zur Likelihoodfunktion (8) der j-ten Patientin gemäß dieser Logik offenbar allein durch den Term fuNflj) gegeben (kein Term mit S NNftD.)In this assignment, priority is given to the observation "bone metastases", for example, so that no question is asked as to whether or not the other manifestations occur at time t. Therefore, in the case of "bone metastases yes", the contribution to the likelihood function (8) is the jth According to this logic, the patient was apparently given solely by the term fuNfl j) (no term with S NNftD .)
Für den Fall „keine Knochenmetastasen, aber sonstige Fernmetastasen", geht aus der Zuordnung ein Beitrag fNN(2,j) x S NN(I,J) hervor.In the case of "no bone metastases, but other distant metastases", a contribution f N N (2, j) x S N N (I, J) emerges from the assignment.
Für den Fall „weder Knochen- noch sonstige Fernmetastasen, aber lokal/regionale Erkrankung" geht aus der Zuordnung ein Beitrag fm( i) x S NNO j> x S NN(_J) hervor.For the case "neither bone nor other distant metastases, but local / regional disease", a contribution f m (i) x S NNO j> x S NN (_J) results from the assignment.
Für den Fall „zensiert" geht aus der Zuordnung ein Beitrag SNN(i,j) X SNN<?J) X SNN(3(j) hervor.In the case of "censored", a contribution S N N (i, j) X SNN <? J) XS NN (3 (j) results from the assignment.
Eine Anwendung der Erfindung für Messungen, bei denen stets das Vorhandensein bzw. die Abwesenheit mehrerer Ausprägungen zum Zeitpunkt t beobachtet und berücksichtigt wird, ist möglich, wenn die obigen Gleichungen mit entsprechenden Gleichungen für die Wahrscheinlichkeit der gleichzeitigen Beobachtung mehrerer Ausprägungen bei geschätzten Werten der Versagenswahrscheinlichkeiten ersetzt werden.An application of the invention for measurements in which the presence or absence of several occurrences is always observed and taken into account at time t is possible if the above equations with corresponding equations for the Probability of simultaneous observation of several occurrences with estimated values of the failure probabilities are replaced.
Aufbau eines neuronalen Netzes zur Ermittlung konkurrierender RisikenBuilding a neural network to identify competing risks
Fig. 1 zeigt den Aufbau eines neuronalen Netzes mit der Architektur MLP. In diesem Fall umfaßt das neuronale Netz1 shows the structure of a neural network with the MLP architecture. In this case the neural network comprises
• eine Eingangsschicht mit einer Mehrzahl von Eingangsneuronen j (i für „input neuron")An input layer with a plurality of input neurons j (i for “input neuron”)
• wenigstens eine Zwischenschicht mit Zwischenneuronen Nh (h für „hidden neuron")At least one intermediate layer with intermediate neurons N h (h for “hidden neuron”)
• eine Ausgangsschicht mit einer Mehrzahl von Ausgangsneuronen N0 (o für „Output neuron")An output layer with a plurality of output neurons N 0 (o for “output neuron”)
• einer Vielzahl von Konnektoren, die jeweils zwei Neuronen unterschiedlicher Schichten miteinander verbinden.• A large number of connectors that connect two neurons from different layers.
In der Ausführungsform gemäß Fig. 1 wird eine zweidimensionale Ausgangsschicht dargestellt, um die durch die Erfindung vorhandene Möglichkeit zur gleichzeitigen Darstellung zeitlich variabler und auch konkurrierender Risiken zu veranschaulichen. Die vereinfachte Darstellung von nicht zeitlich variablen Risiken bildet hierbei den Sonderfall, bei dem nur die Ausprägungsdimension notwendig ist.In the embodiment according to FIG. 1, a two-dimensional starting layer is shown in order to illustrate the possibility for the simultaneous display of temporally variable and also competing risks. The simplified representation of non-time-variable risks is the special case in which only the characteristic dimension is necessary.
Die Anzahl der anfänglich eingesetzten Eingangs-Neuronen Ni wird üblicherweise entsprechend der Anzahl der für das Patientenkollektiv zur Verfügung stehenden objektivierbaren Angaben gewählt. Nach stand der Technik stehen Verfahren zur Verfügung, welche entweder vorab die Anzahl der Eingangs-Neuronen auf ein für die jeweilige Rechenanlage akzeptierendes Maß automatisch reduzieren oder aber im Laufe der Optimierung überflüssige Eingangs-Neuronen automatisch entfernen, so dass in beiden Fällen die Bestimmung der letztendlich verwendeten Eingangs-Neuronen ohne Eingriff der jeweiligen Bedienungsperson erfolgt.The number of input neurons Ni initially used is usually chosen in accordance with the number of objectifiable information available for the patient collective. According to the state of the art, methods are available which either automatically reduce the number of input neurons in advance to a level that is acceptable for the respective computer system or automatically remove unnecessary input neurons in the course of the optimization, so that in both cases the determination of the ultimately input neurons used without intervention of the respective operator.
In der Ausführungsform gemäß Fig. 1 wird die ursprüngliche Anzahl der versteckten Neuronen durch die ursprüngliche Anzahl der Eingangs-Neuronen bestimmt, d.h.,In the embodiment according to FIG. 1, the original number of hidden neurons is determined by the original number of input neurons, i.e.
Nh = Ni (10.a) Für diesen Fall stehen nach Stand der Technik Verfahren zur Verfügung, welche eine günstige Vorbelegung der Konnektoren ermöglichen.N h = Ni (10.a) For this case, methods are available according to the state of the art, which enable the connectors to be preassigned favorably.
Die Neuronen der Ausgangsschicht werden in der Ausführungsform gemäß Fig. 1 sinngemäß in einer zweidimensionalen Matrix mit IndizesIn the embodiment according to FIG. 1, the neurons of the output layer are analogously in a two-dimensional matrix with indices
Jtime = 1 N,ime (10.b) Jtime = 1 N, ime (10.b)
angeordnet, wobei die Anzahl der ursprünglich aktiven Neuronen der Ausgangsschicht gegeben ist durcharranged, the number of originally active neurons of the output layer being given by
N0 = N,ime x N ey (10.d)N 0 = N, i me x N ey (10.d)
Hierbei bezeichnet der Index Jkey Signale der jeweiligen Ausprägung, während der Index J,ilτ,e das Signale zur jeweiligen Zeitfunktion (etwa „fraktionelle Polynome" oder Splinefunktionen) bezeichnet. Ein mit zwei Indizes Jtime , Jkey bezeichnetes Ausgangsneuron trägt demgemäß zur Bestimmung des Koeffizients der Zeitfunktion Jtime beim Risiko für die Ausprägung Jkey . Die Indizes Jkey bzw. Jtime entsprechen in der Ausführungsform sinngemäß den Indizes k bzw. I der Gleichungen 4 bis 7. Hierbei entsprechen N ey bzw. Ntime in der Ausführungsform sinngemäß den Größen K bzw. L dieser Gleichungen.The index J key designates signals of the respective form, while the index J, ilτ , e designates the signals relating to the respective time function (for example “fractional polynomials” or spline functions). An output neuron designated by two indices J t i me , J k ey carries accordingly for determining the coefficient of the time function J tim e for the risk for the characteristic J key . In the embodiment, the indices J key or J t i me correspond analogously to the indices k or I of equations 4 to 7. Here, N ey or N time in the embodiment corresponding to the quantities K and L of these equations.
Für die Anwendung im Rahmen der rekursiven Partitionierung stehen ebenfalls Endknoten zur Verfügung, die üblicherweise in einer eindimensionalen Reihe angeordnet werden. Nach Stand der Technik wird jeder Patient einem solchen Knoten zugeordnet. Ebenfalls nach Stand der Technik wird dem Knoten ein Risiko zugeordnet, das als ein (skalares) Signal betrachtet werden kann. Die Erfindung ordnet nun jedem Endknoten statt eines Skalars ein Vektor mit Nkey Indizes zu.End nodes, which are usually arranged in a one-dimensional row, are also available for use in the context of recursive partitioning. According to the prior art, each patient is assigned to such a node. According to the prior art, the node is assigned a risk that can be viewed as a (scalar) signal. The invention now assigns a vector with N key indices to each end node instead of a scalar.
LernenLearn
Für das Ausführungsbeispiel ist es Ziel des Lernens (Trainings), einen möglichst hohen Wert dieser Likelihoodfunktion im Parameterraum zu orten, gleichzeitig aber überflüssige Parameter nach Möglichkeit zu vermeiden. In der Ausführungsform erfolgt das Lernen durch Initialisierung, Optimierungsschritte und Komplexitätsreduktion wie folgt:For the exemplary embodiment, the aim of learning (training) is to locate the highest possible value of this likelihood function in the parameter space, but at the same time superfluous parameters to avoid if possible. In the embodiment, learning through initialization, optimization steps and complexity reduction is as follows:
Initialisierung Univariate AnalyseInitialization of univariate analysis
Bevor das gesamte Netz mit allen Gewichten trainiert wird, ist es vorteilhaft, eine univariate Analyse für jeden Faktor durchzuführen. Diese Analyse hat mehrere Anwendungen:Before the entire network is trained with all weights, it is advantageous to carry out a univariate analysis for each factor. This analysis has several uses:
• Die univariate Stärke der Faktoren bzw. deren einzelne prognostische Güte steht für den Vergleich mit dem vollständigen Netz zur Verfügung.• The univariate strength of the factors or their individual prognostic quality is available for comparison with the complete network.
• Univariate Analyse dient zur Bestimmung einer Rangfolge der Faktoren für den Fall, dass weniger Eingangsknoten als Faktoren vorhanden sind.• Univariate analysis is used to determine a ranking of the factors in the event that there are fewer input nodes than factors.
• Eine Vorbesetzung der Gewichte, die nichtlineare Konfigurationen begünstigt, oder wenigstens nicht benachteiligt, läßt sich aus den univariaten Analysen bilden (siehe unten).• The univariate analyzes can be used to preset the weights that favor or at least not disadvantage non-linear configurations (see below).
Zunächst wird ein exponentielles Überlebensmodell mit dem einzigen Parameter λ0 bestimmt. Dieses Modell dient zur Initialisierung und in der nachfolgenden Analyse außerdem zur Kontrolle.First, an exponential survival model is determined with the only parameter λ 0 . This model is used for initialization and also for control in the subsequent analysis.
Lineare univariate ModelleLinear univariate models
Der nach Gl. (1a) transformierte Wert des j-ten Faktors Xj wird als einzelner Eingang in ein „Netzwerk" betrachtet, das aus genau einem linearen Konnektor von diesem Eingangsneuron zu einem Ausgangsknoten besteht (d.h., ohne versteckte Knoten). Die Zeitabhängigkeit dieses Ausgangsknotens entspricht dem „Proportional-Hazards-Modell" (K=1) für zensierte Daten. Das daraus resultierende Modell hat nur noch zwei freie Parameter: der Zeitparameter (λ0) und das Gewicht des Konnektors. Diese werden optimiert und zusammen mit der Güte (Likelihood) und der Signifikanz für nachfolgende Zwecke in einer Tabelle gespeichert.According to Eq. (1a) The transformed value of the jth factor Xj is regarded as a single input into a "network", which consists of exactly one linear connector from this input neuron to an output node (ie, without hidden nodes). The time dependence of this output node corresponds to the " Proportional hazards model "(K = 1) for censored data. The resulting model has only two free parameters: the time parameter (λ 0 ) and the weight of the connector. These are optimized and stored in a table together with the quality (likelihood) and significance for subsequent purposes.
Nichtlineare univariate ModelleNonlinear univariate models
Als nächstes wird jeweils für jeden Faktor eine Anpassung mit vier Parametern an ein nichtlineares univariates Modell vorgenommen. Hier wird die Transformation des j-ten Faktors mit dem Ergebnis Xj als „Eingangsneuron" betrachtet. Das univariate „Netzwerk" besteht nun aus diesem einen Eingangsneuron, einem einzigen versteckten Neuron, und einem einzigen Ausgangsneuron (ohne linearen Konnektor zwischen Eingangs- und Ausgangsneuron). Die Zeitabhängigkeit dieses Ausgangsknotens entspricht wie oben dem „Proportional-Hazards- Modell" (K=1) für zensierte Daten.Next, an adaptation with four parameters to a nonlinear univariate model is carried out for each factor. Here the transformation of the jth factor with the result Xj is considered to be an "input neuron". The univariate "network" now consists of this one input neuron, a single hidden neuron, and a single one Output neuron (without a linear connector between the input and output neurons). As above, the time dependency of this initial node corresponds to the "proportional hazards model" (K = 1) for censored data.
Die vier Parameter entsprechen jeweils der Zeitkonstante (λ0), dem Gewicht und dem Bias zur versteckten Schicht, sowie dem Gewicht zur Ausgangsschicht. Diese werden optimiert und zusammen mit der Güte (Likelihood) und der Signifikanz für nachfolgende Zwecke in einer Tabelle gespeichert.The four parameters correspond to the time constant (λ 0 ), the weight and the bias to the hidden layer, and the weight to the starting layer. These are optimized and stored in a table together with the quality (likelihood) and significance for subsequent purposes.
Rangfolge der EingangsvariablenRanking of the input variables
Nachdem für jeden Faktor die univariaten Modelle bestimmt worden sind, wird die Rangfolge der univariat signifikanten Faktoren gemäß der Beträge der linearen Gewichte bestimmt. Die Numerierung der Eingangsknoten für die nachfolgende Analyse entspricht dieser Rangfolge. Für den Fall, dass weniger Eingangsknoten als Faktoren zur Verfügung stehen, erlaubt diese Prozedur eine objektive Vorselektion der "wichtigsten" Faktoren.After the univariate models have been determined for each factor, the ranking of the univariate significant factors is determined according to the amounts of the linear weights. The numbering of the input nodes for the subsequent analysis corresponds to this ranking. In the event that fewer input nodes are available as factors, this procedure allows an objective preselection of the "most important" factors.
Vorbesetzung der GewichtePresetting the weights
Für die Optimierung des Netzes (Trainieren) müssen zunächst Anfangswerte für die Gewichte gesetzt werden. Hierbei wird eine Vorbesetzung mit dem genauen Wert Null nicht angestrebt. In der Ausführungsform werden zunächst die Gewichte der linearen Konnektoren wie üblich mit kleinen Werten vorbesetzt. Der Zeitparameter wird mit dem aus dem 1-parametrigen Modell bestimmten Wert λ0 vorbesetzt. Die Anzahl der versteckten Knoten H wird gleich der Anzahl der Eingangsknoten J gewählt. Nun wird der Konnektor von Eingangsneuron j zum versteckten Neuron mit dem gleichen Index h=j zunächst mit dem unter "nichtlineare univariate Modelle" bestimmten Gewicht vorbesetzt. Der entsprechende Bias wird analog mit dem so bestimmten Bias vorbesetzt. Diese beiden Größen werden dann um einen kleinen zufälligen Betrag versetzt. Daher entspricht jeder Ausgang eines versteckten Knotens etwa dem univariat optimalen nichtlinearen Wert.To optimize the network (training), initial values for the weights must first be set. A default value of zero is not sought. In the embodiment, the weights of the linear connectors are initially filled with small values as usual. The time parameter is preset with the value λ 0 determined from the 1-parameter model. The number of hidden nodes H is chosen equal to the number of input nodes J. Now the connector from input neuron j to the hidden neuron with the same index h = j is initially preset with the weight determined under "nonlinear univariate models". The corresponding bias is preset analogously with the bias determined in this way. These two sizes are then offset by a small random amount. Each output of a hidden node therefore corresponds approximately to the univariate optimal non-linear value.
Für jeden versteckten Knoten h steht der Wert des aus der univariaten Optimierung gewonnenen Gewichts, die wir hier als whι bezeichnen, zum ersten Neuron der Ausgangsschicht ebenso zur Verfügung. Um nun die Gewichte zur Ausgangsschicht zu Initialisieren, werden die Größen wM , h=1,...,H mit H Zufallszahlen gewichtet. Man wählt in der Ausführungsform dazu H Zahlen aus einer Gleichverteilung auf [0,1] und dividiert jede Zahl durch die Summe. Anschließend werden diese und alle übrigen Konnektoren (d.h., Gewichte von der versteckten Schicht zu Neuronen der Ausgangsschicht mit k=2, usw.) um einen kleinen zufälligen Betrag versetzt.For each hidden node h, the value of the weight obtained from the univariate optimization, which we refer to as w h ι, for the first neuron of the output layer is also available. To initialize the weights to the starting layer, the quantities w M , h = 1, ..., H are weighted with H random numbers. In the embodiment, one selects H numbers from an equal distribution to [0.1] and divides each number by the sum. Then these and all other connectors (ie, weights from the hidden layer to neurons of the output layer with k = 2, etc.) offset by a small random amount.
Eine zweite, für neuronale Netze üblichere Möglichkeit der Initialisierung besteht darin, allen Konnektoren kleine, zufällige Gewichte zuzuordnen. Damit befinden sich am Anfang der Optimierung alle Verknüpfungen, auch die über die versteckte Schicht, im linearen Bereich. Für kleine Argumente ist die "Aktivierungsfunktion" fast linear, z.B., tanh(x) « x für kleines x.A second way of initialization, which is more common for neural networks, is to assign small, random weights to all connectors. This means that at the beginning of the optimization, all links, including those via the hidden layer, are in the linear range. For small arguments, the "activation function" is almost linear, e.g., tanh (x) «x for small x.
Lineare Statistik der EingangsfaktorenLinear statistics of the input factors
In der Ausführungsform wird die Kovarianzmatrix aller Eingangsfaktoren berechnet und gespeichert. Bestimmt wird auch eine lineare Regression jedes Faktors auf alle andere Faktoren: X2 » A Xi + B. Eigenvektoren und Eigenwerte der Kovarianzmatrix werden berechnet und protokolliert. Die linearen Beziehungen werden in der Ausführungsform für die verschiedenen Ausdünnungsverfahren verwendet.In the embodiment, the covariance matrix of all input factors is calculated and stored. A linear regression of each factor on all other factors is also determined: X 2 »A Xi + B. Eigenvectors and eigenvalues of the covariance matrix are calculated and recorded. The linear relationships are used in the embodiment for the various thinning processes.
Zuordnung der Patientendaten in Trainings- und ValidierungsmengenAllocation of patient data in training and validation quantities
Für ein lernfähiges System ist es üblich, die vorhandenen Muster zufällig in Trainings- Validierungs- und Generalisierungsmengen zu unterteilen. Beispielsweise kann der Benutzer Prozentsätze (auch null) aller Muster vorgeben, die für die Validierung bzw. Generalisierung reserviert sind. Die Generalisierungsmenge wird zum Training überhaupt nicht berücksichtigt, um nachträglich eine vollständig unvoreingenommene Überprüfung der Güte zu ermöglichen. Die Güte auf der Validierungsmenge, falls vorhanden, wird im Laufe der Optimierung mehrfach zur Überprüfung verwendet: Die Güte auf der Validierungsmenge liefert ein unabhängiges Maß für den Fortschritt der Optimierung auf der Basis der Trainingsmenge und dient außerdem zur Vermeidung von Überanpassung.For a system capable of learning, it is customary to subdivide the existing patterns randomly into training, validation and generalization sets. For example, the user can specify percentages (even zero) of all patterns that are reserved for validation or generalization. The generalization set is not taken into account at all in training in order to subsequently enable a completely unbiased check of the quality. The quality on the validation set, if available, is used several times during the course of the optimization: The quality on the validation set provides an independent measure of the progress of the optimization based on the training set and also serves to avoid over-adjustment.
Wahl der FaktorenChoice of factors
In der Ausführungsform besteht die Möglichkeit, Untermengen der Faktoren heranzuziehen, um beispielsweise Modelle für solche zukünftigen Muster zu gewinnen, für die nur diese Untermenge der Faktoren zur Verfügung steht. NetzoptimierungIn the embodiment, it is possible to use subsets of the factors, for example to obtain models for future patterns for which only this subset of the factors is available. network optimization
Simplex-OptimierungSimplex Optimization
Bei der Optimierung geht es um die Suche nach einem Maximum der Likelihoodfunktion, bezogen auf die Daten der Trainingsmenge. Der Parameterraum der Suche besteht aus den n-K noch aktiven Netzgewichten zusammen mit den globalen Zeitkonstanten λfc_, k=1,...,K. Daraus ergibt sich ein n-dimensionaler Raum, in dem die Suche erfolgt.The optimization is about the search for a maximum of the likelihood function, based on the data of the training amount. The search parameter space consists of the network weights that are still active together with the global time constants λ f c_, k = 1, ..., K. This results in an n-dimensional space in which the search takes place.
Die in der Ausführungsform implementierte Methode der Suche bedient sich der Konstruktion von einem n-fachen Simplex in diesem Raum nach der bekannten Methode von Neider und Mead (1965). Die Suche erfordert die Bildung einer n-dimensionalen Simplex im Parameterraum. Eine Simplex läßt sich durch Vorgabe von n+1 nicht entarteten Ecken bestimmen, d.h., die entsprechenden Kanten sind alle linear unabhängig voneinander. Sie umfaßt somit eine n-dimensionale Punktwolke im Parameterraum. Die Optimierungssuche erfolgt in Epochen. Während jeder Epoche wird die Gütefunktion auf der Trainingsmenge an verschiedenen Stellen im Parameterraum ausgewertet, nämlich am aktuellen Ort sowie an n weiteren Ecken, die durch Zusammensetzung von Operationen wie Reflexion, Expansion/Kontraktion in einer Richtung, usw., definiert sind. Die Richtungen dieser Operationen werden auf der Basis der Werte der Gütefunktion an den zur vorigen Epoche definierten Ecken automatisch gewählt. Die Abnahme der Gütefunktion in der Ausführungsform ist monoton, und die Suche endet immer bei einem (wenigstens lokalen) Minimum.The search method implemented in the embodiment uses the construction of an n-fold simplex in this space according to the known method by Neider and Mead (1965). The search requires the formation of an n-dimensional simplex in the parameter space. A simplex can be determined by specifying n + 1 non-degenerate corners, i.e. the corresponding edges are all linearly independent of one another. It therefore comprises an n-dimensional point cloud in the parameter space. The search for optimization takes place in epochs. During each epoch, the quality function on the training set is evaluated at various points in the parameter space, namely at the current location and at n further corners, which are defined by the combination of operations such as reflection, expansion / contraction in one direction, etc. The directions of these operations are automatically selected based on the values of the quality function at the corners defined in the previous epoch. The decrease in the quality function in the embodiment is monotonic and the search always ends at a (at least local) minimum.
Berücksichtigung der ValidierungsmengeConsideration of the validation amount
Die oben beschriebene Validierungsmenge dient, falls vorhanden, zur Kontrolle des Optimierungsfortschritts und zur Vermeidung von Überanpassung.The validation set described above, if available, is used to control the progress of the optimization and to avoid overfitting.
Als Kennzahlen der augenblicklichen Güte der Optimierung bezüglich der Trainings- und Validierungsmengen werden in der Ausführungsform laufend die Größen Minus Log-likeiihood pro Muster der beiden Mengen berechnet und ausgegeben. Während diese Kennzahl auf der Trainingsmenge monoton abnehmen muß, sind vorübergehende Schwankungen der entsprechenden Kennzahl auf der Validierungsmenge möglich, ohne dass eine Überanpassung bereits stattgefunden hat. Ein monotoner Anstieg der Kennzahl auf der Validierungsmenge sollte jedoch zum Abbruch der weiteren Optimierung und zu einer Komplexitätsreduktion führen. Dieser Art der Abbruch stellt eine Art Notbremse für die Vermeidung von Überanpassung vor.In the embodiment, the variables minus log-like-iihood per sample of the two quantities are continuously calculated and output as key figures of the instantaneous quality of the optimization with regard to the training and validation quantities. While this key figure must decrease monotonically on the training set, temporary fluctuations in the corresponding key figure on the validation set are possible without an over-adjustment already taking place. However, a monotonous increase in the key figure on the validation set should stop further optimization and lead to a Lead complexity reduction. This type of abort presents a kind of emergency brake to avoid overfitting.
Ein mögliches Abbruchkriterium, das automatisch durchgeführt werden kann, wird durch die Führung der exponentieli geglätteten Güte der Validierungsmenge erreicht. Falls diese geglättete Kenngröße das bisherige Minimum des aktuellen Optimierungsschritts um einen festen Prozentsatz überschreitet (Verschlechterung der Güte), wird die Optimierung abgebrochen. Eine prozentuale Zunahme von etwa 1 % Toleranz wurde als Erfahrungswert für typische Größen der Trainingsmenge um die 300 oder mehr Datensätze festgestellt. Bei dieser Toleranz und bei etwa gleicher Größe von Trainings und Validierungsmengen wird das Training öfter durch die Erreichung eines Minimums auf der Trainingsmenge gestoppt als durch die Verschlechterung der Güte auf der Validierungsmenge. Dieser "normale" Abbruch ist bevorzugt, weil eine (fast) monotone Verbesserung der Güte auf der Validierungsmenge ein Zeichen darstellt, dass das neuronale Netz echte zugrunde liegenden Strukturen, und nicht einfach das Rauschen, erkannt hat.A possible termination criterion that can be carried out automatically is achieved by maintaining the exponentially smoothed quality of the validation quantity. If this smoothed parameter exceeds the previous minimum of the current optimization step by a fixed percentage (deterioration in quality), the optimization is terminated. A percentage increase of about 1% tolerance was found as an empirical value for typical sizes of the training amount around 300 or more data records. With this tolerance and with roughly the same size of training and validation quantities, the training is stopped more often by reaching a minimum on the training quantity than by the deterioration in the quality on the validation quantity. This "normal" termination is preferred because an (almost) monotonous improvement in the quality on the validation set is a sign that the neural network has recognized real underlying structures and not simply the noise.
Im Beispiel für die Ausführungsform wurde keine Validierungsmenge verwendet. Somit erfolgt der Abbruch allein aufgrund des Minimums auf der Trainingsmenge.No validation set was used in the example for the embodiment. Thus, the termination is based solely on the minimum on the training volume.
Strukturoptimierung und KomplexitätsreduktionStructure optimization and complexity reduction
Aus der für die Ausführungsform beschriebenen Simplexoptimierung resultiert ein Satz von Gewichten {wpj, ... w[n]} und anderen Parametern, welche ein lokales Minimum der negativen Log-Likelihood bestimmen. (Die Numerierung [1] ... [n] der Gewichte in diesem Zusammenhang beinhaltet nicht die topologische Ordnung der Gewichte.) Dieses Minimum bezieht sich auf die feste Zahl n der Gewichte und eine feste Topologie. Um Überanpassung zu vermeiden, ist es wünschenswert, durch eine Ausdünnung der Gewichte die Komplexität zu verringern, soweit dies ohne einen signifikanten Verlust der Güte möglich ist.The simplex optimization described for the embodiment results in a set of weights {wpj, ... w [n] } and other parameters which determine a local minimum of the negative log likelihood. (The numbering [1] ... [n] of the weights in this context does not include the topological order of the weights.) This minimum refers to the fixed number n of the weights and a fixed topology. In order to avoid overfitting, it is desirable to reduce the complexity by thinning the weights as far as this is possible without a significant loss in quality.
Ausdünnung (Pruning) bezeichnet die Deaktivierung von Konnektoren. Dazu werden deren Gewichte auf einen festen Wert "eingefroren" (in der Ausführungsform null, wobei man auch vom "Entfernen" sprechen kann). Es ist im Prinzip möglich, einzelne Gewichte oder auch ganze Knoten zu entfernen. Im letzteren Fall werden alle Gewichte deaktiviert, die entweder in den zu entfernenden Knoten einführen oder aus dem Knoten weiterführen.Thinning (pruning) refers to the deactivation of connectors. For this purpose, their weights are "frozen" to a fixed value (zero in the embodiment, where one can also speak of "removing"). In principle, it is possible to remove individual weights or even entire knots. In the latter case, all weights are deactivated which either insert into the node to be removed or continue from the node.
In der Ausführungsform wird eine Phase der Komplexitätsreduktion im Netz im Anschluß an einer Optimierungsphase (Simplex-Verfahren) durchgeführt. Der erste Schritt dazu ist die „Ausdünnung" einzelner Konnektoren. Im Anschluß werden Kombinationen aus verschiedenen Konnektoren im Hinblick auf Redundanz getestet. Schließlich wird die Konsistenz der Topologie überprüft und gegebenenfalls Konnektoren bzw. Knoten entfernt, die aufgrund der bisherigen Entfernung anderer Konnektoren und Knoten nicht mehr zur Aussage beitragen können. Diese Prozedur ist zwar nicht Gegenstand der Erfindung, gehört jedoch zur guten Praxis gemäß dem Stand der Technik.In the embodiment, a phase of complexity reduction in the network is carried out following an optimization phase (simplex method). The first step in this is the "thinning" of individual connectors. Subsequently, combinations of different Connectors tested for redundancy. Finally, the consistency of the topology is checked and, if necessary, connectors or nodes are removed which, due to the previous removal of other connectors and nodes, can no longer contribute to the statement. Although this procedure is not the subject of the invention, it is part of good practice according to the prior art.
Zur Komplexitätsreduktion werden in der Ausführungsform automatisch verschiedene statistische Hypothesen gebildet, die mittels eines Likelihood-ratio-tests bezüglich eines vorgegebenen Signifikanzniveaus überprüft werden. Bestimmte Gewichte bzw. Parameter werden hierbei als obligatorisch betrachtet werden, d.h., sie werden auf keinen Fall entfernt. Dazu gehören die globalen Zeitparameter λ0k.In order to reduce complexity, various statistical hypotheses are automatically formed in the embodiment, which are checked by means of a likelihood ratio test with regard to a predetermined level of significance. Certain weights or parameters will be considered mandatory, ie they will never be removed. These include the global time parameters λ 0k .
Rangfolge der KonnektorenRanking of the connectors
Um die Reihenfolge der zu überprüfenden Konnektoren festzustellen, wird in der Ausführungsform zunächst die Testgröße log(Likelihood-Ratio) gebildet. Dabei stellt man sich für jedes Gewicht wIA] zwei Netzwerke vor:In order to determine the order of the connectors to be checked, the test variable log (likelihood ratio) is first formed in the embodiment. Two networks are envisaged for each weight w IA] :
• Das Netz mit allen aktuellen Gewichten (n Freiheitsgrade), einschließlich w[A].• The network with all current weights (n degrees of freedom), including w [A] .
• Das Netz mit allen aktuellen Gewichten außer w[A], das deaktiviert wird (n-1 Freiheitsgrade).• The network with all current weights except w [A] , which is deactivated (n-1 degrees of freedom).
Beim Netz mit w[A] deaktiviert werden die übrigen Gewichte bei den aktuell optimierten Werten eingefroren.If the network is deactivated with w [A] , the other weights are frozen at the currently optimized values.
TestingTesting
Nachdem eine Rangfolge {wm, ... wι} der Gewichte gemäß dem "Likelihood-ratio" bekannt ist, werden in der Ausführungsform die in dieser Reihenfolge zwecks der Ausdünnung getestet, bis maximal Gmax Gewichte zu entfernen sind. Angenommen, A-1 Gewichte sind bereits entfernt worden, kann man für das A-te zusätzliche Gewicht der Reihenfolge w[A] zwei Hypothesen testen.After a ranking {w m , ... w ι} of the weights according to the "likelihood ratio" is known, in the embodiment they are tested in this order for the purpose of thinning until a maximum of G max weights can be removed. Assuming that A-1 weights have already been removed, two hypotheses can be tested for the A-th additional weight in the order w [A] .
• Teststatistik für die Hypothese HA-ι : Likelihood-Ratio für das Netz mit Gewichten {wm ... WrA-i] } deaktiviert (n-A+1 Freiheitsgrade)• Test statistics for the hypothesis H A -ι: likelihood ratio for the network with weights {w m ... Wr A -i ] } deactivated (n-A + 1 degree of freedom)
• Teststatistik für die Hypothesis HA : Likelihood-Ratio für das Netz mit Gewichten {wm ... w[A] } deaktiviert (n-A Freiheitsgrade)• Test statistics for the hypothesis H A : likelihood ratio for the network with weights {w m ... w [A] } deactivated (nA degrees of freedom)
Die Hypothese HA wird nun zweimal getestet: • HA versus HA-ι undThe H A hypothesis is now tested twice: • H A versus H A -ι and
• HA versus H.• H A versus H.
Die Signifikanz wird mit dem Chi-Quadrat-Test bezüglich des Likelihood-Ratios angewandt. Falls bei einer der beiden Vergleiche HA angenommen wird (Ausdünnung von A ergibt eine signifikante Verschlechterung), wird der Konnektor A nicht entfernt, und der Ausdünnungsschritt wird beendet.Significance is applied with the chi-square test regarding the likelihood ratio. If one of the two comparisons assumes H A (thinning of A results in a significant deterioration), connector A is not removed and the thinning step is ended.
Beim Deaktivieren wird der Konnektor aus der Liste der aktiven Konnektoren entfernt und das zugehörige Gewicht eingefroren (meinstens gleich null).When deactivated, the connector is removed from the list of active connectors and the associated weight is frozen (mostly zero).
Während einer Ausdünnungsphase wird in der Ausführungsform die Zahl G der entfernten Konnektoren auf eine maximale Zahl begrenzt, wobei n die Anzahl der verbleibenden Konnektoren ist.During a thinning phase, in the embodiment, the number G of the removed connectors becomes a maximum number limited, where n is the number of connectors remaining.
Weitere KomplexitätsreduktionFurther complexity reduction
In der Ausführungsform werden durch paarweise Analyse der Gewichte im Hinblick auf die Likelihood der Daten und unter Berücksichtigung verschiedener Korrelationseigenschaften weitere Konnektoren entfernt. Dieser Schritt ist jedoch nicht zwingend erforderlich für die Funktion des lernfähigen Modells und kann daher weggelassen werden. Ebenso ist es möglich, die Erfindung mit anderen Techniken zur Komplexitätsreduktion, die in verschiedenen lernfähigen Systemen eventuell bereits implementiert sind, zu verbinden.In the embodiment, further connectors are removed by analyzing the weights in pairs with regard to the likelihood of the data and taking into account various correlation properties. However, this step is not absolutely necessary for the function of the learnable model and can therefore be omitted. It is also possible to combine the invention with other techniques for reducing complexity, which may have already been implemented in various systems capable of learning.
Überprüfung der TopologieChecking the topology
Ausdünnung oder Entfernung einzelner Konnektoren kann zur Isolierung eines Knotens von Eingangssignalen, Ausgangssignalen, oder (im Falle eines versteckten Neurons) von beiden führen. In diesem Fall wird in der Ausführungsform ein Deaktivierungsflag für den Knoten gesetzt. Für Neuronen der Ausgangsschicht bedeutet z.B. "Isolierung", dass weder von der Eingangsschicht, noch von der versteckten Schicht aktive Konnektoren vorhanden sind. Falls alle Konnektoren von einem Eingangsneuron zur versteckten und zur Ausgangsschicht entfernt worden sind, ist der Bias der linearen Konnektoren auch zu deaktivieren.Thinning or removal of individual connectors can result in isolation of a node from input signals, output signals, or (in the case of a hidden neuron) from both. In this case, a deactivation flag is set for the node in the embodiment. For neurons of the starting layer e.g. "Isolation" means that there are no active connectors either from the input layer or from the hidden layer. If all connectors from an input neuron to the hidden and to the output layer have been removed, the bias of the linear connectors must also be deactivated.
Ein verstecktes Neuron, das von allen Eingängen isoliert worden ist, kann noch mit Ausgängen verbunden ist. Die "eingefrorenen" Beiträge solcher versteckter Neuronen zum Ausgang sind dann redundant, weil sie im Prinzip nur die Biaswerte der übrigen, aktiven Konnektoren verändern. Daher werden solche Neuronen deaktiviert, und verbleibende Konnektoren zur Ausgangsschicht werden entfernt.A hidden neuron that has been isolated from all inputs can still be connected to outputs. The "frozen" contributions of such hidden neurons to the output are then redundant because, in principle, they only include the bias values of the other active connectors change. As a result, such neurons are deactivated and any remaining connectors to the output layer are removed.
Die verschiedenen Überprüfungen können zur weiteren Isolierung von Knoten führen. Deshalb wird die Prozedur solange iteriert, bis die Topologie konstant bleibt.The various checks can lead to further isolation of nodes. Therefore, the procedure is iterated until the topology remains constant.
Beenden des Trainings und AusgabeStop training and issue
Wenn nach der letzten Simplex-Optimierung keine weiterere Komplexitätsreduktion möglich ist, wird in der Ausführungsform das Training beendet. Alle Gewichte und sonstige Parameter erhalten ihre endgültigen Werte, die in hierfür angelegten Dateien gespeichert werden.In the embodiment, if no further complexity reduction is possible after the last simplex optimization, the training is ended. All weights and other parameters receive their final values, which are saved in files created for this purpose.
Somit ist das trainierte neuronale Netz eindeutig bestimmt. Durch Einlesen dieser gespeicherten Werte kann entweder gleich anschließend oder zu einem zukünftigen Zeitpunkt das trainierte neuronale Netz gemäß der obigen Beschreibung verwendet werden, um für beliebige Daten, welche die unabhängigen Faktoren („Kovariaten") x enthalten, die Ausgabewerte und somit die oben definierten Funktionen fk(t), λk (_), und Sk(f), zu den Kovariaten x zu gewinnen. Mit diesen Funktionen ist das Wahrscheinlichkeitsmodell nun bestimmt.The trained neural network is thus clearly determined. By reading in these stored values, either immediately afterwards or at a future point in time, the trained neural network can be used in accordance with the description above to generate the output values and thus the functions defined above for any data which contain the independent factors (“covariates”) x f k (t), λ k (_), and S k (f) to obtain the covariates x. With these functions, the probability model is now determined.
Insbesondere ist es selbstverständlich möglich, den Verlauf dieser Funktionen in Abhängigkeit von gewählten Faktoren, auszurechnen. Eine solche abhängige Bestimmung ist zur Evaluierung der erwarteten Wirkung eines Therapiekonzeptes sinnvoll, wenn die zu bewertenden Therapien als „Faktoren" zum Training verwendet worden sind.In particular, it is of course possible to calculate the course of these functions depending on the selected factors. Such a dependent determination is useful for evaluating the expected effect of a therapy concept if the therapies to be evaluated have been used as "factors" for training.
Beispielexample
DatenData
Zur Veranschaulichung der Funktionsweise der Erfindung in der Ausführungsform wurden zunächst 1000 fiktive Patientendatensätze mit 9 Faktoren (Kovariaten) mittels eines Zufallsgenerators erzeugt. Die ersten 7 Faktoren wurden als Realisierungen einer multivariaten Gaußverteilung erzeugt. Hierfür wurden im Ausführungsbeispiel Mittelwerte und Varianzen der Faktoren und eine Kovarianzmatrix vorgegeben: Faktor x'yj?0 χer XPJ xa .Qe χtum xujpa xpaiTo illustrate the functioning of the invention in the embodiment, first 1000 fictitious patient data sets with 9 factors (covariates) were generated by means of a random generator. The first 7 factors were created as realizations of a multivariate Gaussian distribution. For this purpose, mean values and variances of the factors and a covariance matrix were specified in the exemplary embodiment: Factor x'yj? 0 Xer X PJ xa . Q e χ tum xujpa xpai
Mittelwert ÖΪ50 Ö45 Ö.45 5.5Ö Ö.5Ϊ Ö.5Ö Ö.5ÖAverage ÖΪ50 Ö45 Ö.45 5.5Ö Ö.5Ϊ Ö.5Ö Ö.5Ö
Varianz 0.071 0.087 0.097 0.083 0.083 0.084 0.083Variance 0.071 0.087 0.097 0.083 0.083 0.084 0.083
Die angenommene Kovarianzmatrix warThe assumed covariance matrix was
xlypo : xer ; xpr : xage : xtum ; xupa : xpai xlypo 1.00 -0.06 -0.09 0.03 0.42 0.02 0.05 xer -0.06 1.00 0.54 0.29 -0.07 -0.18 -0.19 xpr -0.09 0.54 1.00 0.03 -0.06 -0.07 -0.14 xage 0.03 0.29 0.03 1.00 0.04 0.02 0.00 xtum 0.42 -0.07 -0.06 0.04 1.00 0.03 0.06 xupa 0.02 -0.18 -0.07 0.02 0.03 1.00 0.54 xpai 0.05 -0.19 -0.14 0.00 0.06 0.54 1.00xlypo: xer; xpr: xage: xtum; xupa: xpai xlypo 1.00 -0.06 -0.09 0.03 0.42 0.02 0.05 xer -0.06 1.00 0.54 0.29 -0.07 -0.18 -0.19 xpr -0.09 0.54 1.00 0.03 -0.06 -0.07 -0.14 xage 0.03 0.29 0.03 1.00 0.04 0.02 0.00 xtum 0.42 -0.07 - 0.06 0.04 1.00 0.03 0.06 xupa 0.02 -0.18 -0.07 0.02 0.03 1.00 0.54 xpai 0.05 -0.19 -0.14 0.00 0.06 0.54 1.00
Um eine möglichst realistische Situation darzustellen wurden diese Werte in der Größenordnung so gewählt, wie sie in der wissenschaftlichen Literatur im Falle des Mammakarzinoms für bestimmte Faktoren bekannt sind. Für die Funktion der Erfindung sind die genauen Annahmen sowie die Interpretation der Faktoren jedoch völlig unerheblich.In order to represent a situation that is as realistic as possible, these values were chosen in the order of magnitude known for certain factors in the scientific literature in the case of breast cancer. However, the precise assumptions and the interpretation of the factors are completely irrelevant to the function of the invention.
Neben den sieben benannten Faktoren wurden zwei weitere binäre Faktoren („Therapien") „et" und „ht" zufällig erzeugt. Für ht wurden zufällig 50 % der Wert 1 , 50 % der Wert 0 zugeordnet. Im Ausführungsbeispiel für et wurden nur 1 % der Wert 1 , 99 % der Wert 0 zugeordnet. Somit ist zu erwarten, daß et nicht im neuronalen Netz als Einflußfaktor erkannt wird.In addition to the seven named factors, two further binary factors (“therapies”) “et” and “ht” were generated randomly. For ht, 50% were assigned the value 1, 50% the value 0. In the exemplary embodiment for et, only 1% assigned the value 1.99% to the value 0. It can therefore be expected that et will not be recognized as an influencing factor in the neural network.
Die ersten zehn der hieraus resultierenden Datensätze sind wie folgt:The first ten of the resulting records are as follows:
Patienten- xlypo xer xpr xage xtum xupa xpai et ht NummerPatient xlypo xer xpr xage xtum xupa xpai et ht number
1 0.07 0.89 1.41 0.36 0.49 0.31 0.22 0 11 0.07 0.89 1.41 0.36 0.49 0.31 0.22 0 1
2 0.25 0.23 0.98 0.15 0.10 0.31 0.05 0 02 0.25 0.23 0.98 0.15 0.10 0.31 0.05 0 0
3 0.56 0.52 0.79 0.09 0.22 -0.22 -0.07 0 13 0.56 0.52 0.79 0.09 0.22 -0.22 -0.07 0 1
4 0.61 0.83 1.10 0.73 0.56 0.21 0.44 0 14 0.61 0.83 1.10 0.73 0.56 0.21 0.44 0 1
5 0.97 0.38 0.70 0.61 0.51 0.97 0.72 0 05 0.97 0.38 0.70 0.61 0.51 0.97 0.72 0 0
6 0.44 0.22 0.07 0.90 0.80 0.60 0.55 0 16 0.44 0.22 0.07 0.90 0.80 0.60 0.55 0 1
7 0.46 0.24 0.47 0.14 0.60 0.57 0.31 0 07 0.46 0.24 0.47 0.14 0.60 0.57 0.31 0 0
8 0.42 0.60 0.41 0.36 0.54 0.23 0.47 0 08 0.42 0.60 0.41 0.36 0.54 0.23 0.47 0 0
9 -0.01 0.22 0.80 0.52 0.38 -0.13 0.41 0 09 -0.01 0.22 0.80 0.52 0.38 -0.13 0.41 0 0
10 0.80 0.41 0.19 0.11 0.45 0.40 0.51 0 010 0.80 0.41 0.19 0.11 0.45 0.40 0.51 0 0
Für den Einfluß der Faktoren auf einen Krankheitsverlauf wurden zunächst drei unabhängige Risikowahrscheinlichkeiten risk(i), i=1,3 erzeugt. Folgendes Modell wurde unterstellt: risk(1)=exp(r1+r2+r3+r4-rh) risk(2)=exp(rι+r3+r4) risk(3)=exp(r-ι) mit r-ι-2 (xlypo-median(xlypo)) r2=0,5 (xtum-median(xtum)) r3=0, 75 (xupa-median(xupa)) r4=1,5 (xpai-median(paimed)) und r = 1 falls ht=1.Three independent risk probabilities risk (i), i = 1.3 were initially generated for the influence of the factors on the course of the disease. The following model was assumed: risk (1) = exp (r 1 + r 2 + r 3 + r 4 -r h ) risk (2) = exp (rι + r 3 + r 4 ) risk (3) = exp (r-ι) with r -ι-2 (xlypo-median (xlypo)) r 2 = 0.5 (xtum-median (xtum)) r 3 = 0.75 (xupa-median (xupa)) r 4 = 1.5 (xpai-median (paimed)) and r = 1 if ht = 1.
Aus diesen Risikowerten wurden tatsächliche Versagenszeiten der drei Ausprägungen als zufällige Realisierungen einer Exponentialverteilung bzw. einer modifizierten Exponentialverteilung mit Zeitkonstante 200 Monate erzeugt. Für die 3. Ausprägung wurde zusätzlich angenommen, daß ein Versagen nach spätestens 24 Monaten möglich ist, um eine Situation mit konkurrierenden Risiken ähnlich dem Lokalrezidiv beim Mammakarzinom zu erzeugen. Diese Daten wurden gemäß einer simulierten „Studie" zensiert, und eine „Beobachtung" wurde nach dem Schema der unter Abbildung 1 dargestellten Priorität simuliert.From these risk values, the actual failure times of the three variants were generated as random realizations of an exponential distribution or a modified exponential distribution with a time constant of 200 months. For the third form, it was additionally assumed that failure after 24 months at the latest is possible in order to create a situation with competing risks similar to the local recurrence in breast cancer. This data was censored according to a simulated "study" and an "observation" was simulated according to the scheme of the priority shown in Figure 1.
Aus dem im Ausführungsbeispiel unterstellten Modell geht hervor, daß für das Versagen der 3. Ausprägung nur der Faktor „xlypo" kausal ausschlaggebend ist. Dennoch besteht ein indirekter Zusammenhang zwischen den übrigen Faktoren und den Beobachtungen der 3. Ausprägung, weil erhöhte Risiken der übrigen Faktoren die Wahrscheinlichkeit für eine Beobachtung des Versagens der 3. Ausprägung senken können. Diese Eigenschaft des unterstellten Modells ist zwar unerheblich für die Funktion der Erfindung, veranschaulicht aber einen typischen Nutzen.The model assumed in the exemplary embodiment shows that only the factor "xlypo" is causally decisive for the failure of the third variant. Nevertheless, there is an indirect connection between the other factors and the observations of the third variant, because increased risks of the other factors may reduce the likelihood of observing the failure of the third variant, although this property of the model assumed is insignificant for the function of the invention, but illustrates a typical benefit.
Trainiertes neuronales NetzTrained neural network
Die Neuronen der Ausgangsschicht werden gemäß den Gleichungen 4 bis 7 und 10 mit Ntime = 1 und Nkey = 3 zugeordnet, so daß 3 Neuronen der Ausgangsschicht ursprünglich aktiv sind. Für die Ausführungsform werden jeweils 9 Neuronen der Eingangs- bzw. der versteckten Schicht ursprünglich aktiviert. Das nach der beschriebenen Methode trainierte neuronale Netz wird in der Figur 3 veranschaulicht („xpai" und „xpail" sind identisch). Man beachte, dass zum Ausgang „O3" nur ein Konnektor vorhanden ist, und zwar vom Knoten (Neuron) „xlypo". Die Ausgänge 01 bis 03 sind den Risiken ,,risk(1)" bis ,,risk(3)" zugeordnet.The neurons of the output layer are assigned according to equations 4 to 7 and 10 with Nti m e = 1 and N key = 3, so that 3 neurons of the output layer are originally active. For the embodiment, 9 neurons of the input or the hidden layer are initially activated. The neural network trained according to the described method is illustrated in FIG. 3 ("xpai" and "xpail" are identical). Note that there is only one connector to the "O3" output, namely from the "xlypo" node (neuron). The outputs 01 to 03 are assigned to the risks "risk (1)" to "risk (3)".
Eine vollständige eindeutige Darstellung des trainierten neuronalen Netzes erfolgt durch Angabe der verbleibenden Konnektoren mit ihren zugehörigen Gewichten und Bias-Werten sowie durch die Überlebenszeitskalen. Hierfür werden in der Tabelle 2a für jedes Neuron, zu dem ein aktiver Konnektor führt („tgt"), alle Quellen („src") mit den entsprechenden Gewichten („wt") angegeben. Man beachte, daß viele Konnektoren nicht mehr aktiv sind.A complete clear representation of the trained neural network takes place by specifying the remaining connectors with their associated weights and bias values as well as the survival time scales. For this purpose, in Table 2a for each neuron which an active connector leads ("tgt"), all sources ("src") with the corresponding weights ("wt") are given. Note that many connectors are no longer active.
tgt src wt src wt src wt src wt src wt src wt src wt src wt src wt h1 ht 13.5 h6 xlypo 0.53 xupa -1.78 xtum 1.02 h7 xer 1.98 xpr -1.37 h8 xage 1.70 h9 xpr 2.31 o1 h1 -1.70 h6 0.30 ht -1.10 xlypo 0.19 xpai 0.72 xupa 0.63 xtum 0.22 o2 h1 2.03 h6 -0.68 h7 -0.86 h8 0.33 h9 -0.64 xlypo 0.64 xpail 0.91 xer 0.56 xage -0.42 o3 xlypo 2.39tgt src wt src wt src wt src wt src wt src wt src wt src wt src wt h1 ht 13.5 h6 xlypo 0.53 xupa -1.78 xtum 1.02 h7 xer 1.98 xpr -1.37 h8 xage 1.70 h9 xpr 2.31 o1 h1 -1.70 h6 0.30 h 1.10 xlypo 0.19 xpai 0.72 xupa 0.63 xtum 0.22 o2 h1 2.03 h6 -0.68 h7 -0.86 h8 0.33 h9 -0.64 xlypo 0.64 xpail 0.91 xer 0.56 xage -0.42 o3 xlypo 2.39
Tabelle 2aTable 2a
Die Bias-Werte sind wie in der Tabelle 2b angegeben:The bias values are as given in Table 2b:
ht xlypo xpai xupa xtum et xer xage xpr h1 h2 h3 h4 h5 h6 h7 h8 h9 o1 o2 o3 0.17 0.16 Ö Ö (5 Ö Ö Ö 0 -0.94 Ö Ö Ö 0 0.86 1.31 0 2.07 1.03 0.66 -0.11ht xlypo xpai xupa xtum et xer xage xpr h1 h2 h3 h4 h5 h6 h7 h8 h9 o1 o2 o3 0.17 0.16 Ö Ö (5 Ö Ö Ö 0 -0.94 Ö Ö Ö 0 0.86 1.31 0 2.07 1.03 0.66 -0.11
Tabelle 2b: Bias Werte (automatisch 0 für inaktive Neuronen)Table 2b: Bias values (automatically 0 for inactive neurons)
Die Werte der für die Spezifikation des Modells der Gleichung 6 notwendigen Überlebenszeitskalen λ0k sind schließlich der Tabelle 2c zu entnehmen (die Einheiten dieser Angaben entsprechen sinnvollerweise der obigen Zeitkonstante von 200 Monaten):The values of the survival time scales λ 0 k necessary for the specification of the model of equation 6 can finally be found in Table 2c (the units of this information appropriately correspond to the above time constant of 200 months):
λ_1 ^02 Λ03λ_1 ^ 02 Λ03
0.53/200 0.13/200 0.27/2000.53 / 200 0.13 / 200 0.27 / 200
Tabelle 2cTable 2c
Zeitliche VariationTemporal variation
Um zeitlich variierende Ausgangsneuronen zu verwenden, könnte statt Ntime = 1 wie hier verwendet ein höherer Wert eingesetzt werden. Die Anzahl der Ausgangsneuronen bestimmt sich dann aus der Gleichung 10.d. Im Falle Nkey = 3 und time = 2 wäre dann z.B. N0 = 6. Das Training würde auf die bisher beschriebene Weise erfolgen. Die eventuellen zeitlichen Variationen der verschiedenen Ausprägungen könnten im Rahmen des Modells der Gleichungen 4 bis 7 unabhängig von einander bestimmt werden, die Aufgabe der Erfassung konkurrierender Risiken würde hierdurch insbesondere keinesfalls beeinträchtigt werden. In order to use time-varying output neurons , a higher value could be used instead of N t i me = 1 as used here. The number of output neurons is then determined from equation 10.d. In the case of N key = 3 and time = 2, for example, N 0 = 6. The training would then be carried out in the manner previously described. The possible temporal variations of the different forms could be determined independently of one another in the context of the model of equations 4 to 7, the task of recording competing risks in particular would not be affected thereby.

Claims

Patentansprüche claims
1. Verfahren zur Ermittlung konkurrierender Risiken für Objekte nach einem Anfangsereignis auf Grundlage bereits gemessener oder sonst objektivierbarer Trainingsdatensätze, in welchem mehrere aus einem lernfähigen System gewonnene Signale in einer objektiven Funktion so kombiniert werden, dass das lernfähige System die zugrunde liegenden Wahrscheinlichkeiten der jeweiligen konkurrierenden Risiken erkennen oder vorhersagen kann.1.Procedure for determining competing risks for objects after an initial event based on already measured or otherwise objectifiable training data sets, in which several signals obtained from a system capable of learning are combined in an objective function in such a way that the system capable of learning the underlying probabilities of the respective competing risks can recognize or predict.
2. Verfahren nach Anspruch 1 , in welchem für die Trainingsdatensätze gemessene oder in sonstiger Weise objektiv erfaßte Daten des Anfangsereignisses und einer Nachbeobachtung bis zu einem vorgegebenen Zeitpunkt verwendet werden.2. The method of claim 1, in which measured for the training data sets or in any other way objectively recorded data of the initial event and a follow-up to a predetermined point in time are used.
3. Verfahren nach Anspruch 2, in welchem der letzte Zeitpunkt der Nachbeobachtung explizit in den Trainingsdatensätzen verwendet wird.3. The method according to claim 2, in which the last point in time of the follow-up is used explicitly in the training data records.
4. Verfahren nach einem der vorangegangenen Ansprüche, in welchem bei der Beobachtung einer Versagensausprägung zu einem Zeitpunkt die anderen Ausprägungen ausgeschlossen werden.4. The method according to any one of the preceding claims, in which the observation of one failure characteristic at a time excludes the other characteristics.
5. Verfahren nach einem der vorangegangenen Ansprüche, in welchem die objektive Funktion L in Abhängigkeit einer Funktion P gegeben ist:5. The method according to any one of the preceding claims, in which the objective function L is given as a function of a function P:
wobei μ die Parameter des lernfähigen Systems, fLS(k x (ty ) die Versagensrate der Ausprägung k und Sω(fc x } (t. ) den Erwartungswert des Anteils an Objekten j mit beobachteten Merkmalen x;-, welche kein Versagen der Ausprägung k zum Zeitpunkt tj erleiden, bezeichnen und P aufgrund des logischen Zusammenhangs aus δjk bestimmt wird, mit δjk =1, wenn ein Objekt; ein Versagen der Ausprägung k zum Zeitpunkt ty erlitten hat und sonst δjk = 0. where μ is the parameter of the system capable of learning, f LS (kx (t y ) the failure rate of the expression k and S ω (fc x} (t.) the expected value of the proportion of objects j with observed features x ; -, which do not fail Sufficiency k at time t j , denote and P is determined on the basis of the logical relationship from δ jk , with δ jk = 1 if an object has suffered a failure of the expression k at time ty and otherwise δ jk = 0.
6. Verfahren nach Anspruch 5, in welchem als objektive Funktion verwendet wird, wobei εJk und ψjk aufgrund des logischen Zusammenhangs aus δjk bestimmt werden.6. The method of claim 5, in which is used as an objective function, where ε Jk and ψ jk are determined from δ jk on the basis of the logical relationship.
7. Verfahren nach Anspruch 6, in welchem7. The method according to claim 6, in which
Uμ;{τJ,tJJt}) itj)} }Jk als objektive Funktion verwendet wird.Uμ; {τ J , t J , δ Jt }) it j )} } Jk is used as an objective function.
8. Verfahren nach einem der vorangegangenen Ansprüche, in welchem ein neuronales Netz als lernfähiges System verwendet wird.8. The method according to any one of the preceding claims, in which a neural network is used as a learning system.
9. Verfahren nach Anspruch 8, in welchem ein neuronales Netz der Architektur MLP (multilayer Perzeptron) verwendet wird.9. The method according to claim 8, in which a neural network of the MLP (multilayer perceptron) architecture is used.
10. Verfahren nach einem der Ansprüche 1 - 7, in welchem das lernfähige System eine rekursive Partitionierung durchführt, wobei10. The method according to any one of claims 1-7, in which the adaptive system performs a recursive partitioning, wherein
jedem Objekt einem Knoten zugeordnet wird,a node is assigned to each object,
jedem Knoten die Häufigkeiten oder Wahrscheinlichkeiten aller Ausprägungen zugeordnet wird, undthe frequencies or probabilities of all occurrences are assigned to each node, and
die Partionierung so durchgeführt wird, dass die objektive Funktion optimiert wird, die diese Häufigkeiten oder Wahrscheinlichkeiten statistisch berücksichtigt.the partitioning is carried out in such a way that the objective function is optimized which statistically takes these frequencies or probabilities into account.
11. Verfahren nach einem der vorangegangenen Ansprüche, in welchem das lernfähige System im Rahmen einer Entscheidungshilfe verwendet wird.11. The method according to any one of the preceding claims, in which the learning system is used in the context of a decision aid.
12. Verfahren nach einem der vorangegangenen Ansprüche, in welchem den verschiedenen Wahrscheinlichkeitsfunktionen der konkurrierenden Risiken Werte zur Ermittlung einer Strategie zugeordnet werden. 12. The method according to any one of the preceding claims, in which the various probability functions of the competing risks are assigned values for determining a strategy.
EP01999919A 2000-12-07 2001-12-07 Method for determining competing risks Withdrawn EP1384199A2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10060928 2000-12-07
DE10060928 2000-12-07
PCT/EP2001/014411 WO2002047026A2 (en) 2000-12-07 2001-12-07 Method for determining competing risks

Publications (1)

Publication Number Publication Date
EP1384199A2 true EP1384199A2 (en) 2004-01-28

Family

ID=7666201

Family Applications (1)

Application Number Title Priority Date Filing Date
EP01999919A Withdrawn EP1384199A2 (en) 2000-12-07 2001-12-07 Method for determining competing risks

Country Status (4)

Country Link
US (1) US7395248B2 (en)
EP (1) EP1384199A2 (en)
AU (1) AU2002216080A1 (en)
WO (1) WO2002047026A2 (en)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1388812A1 (en) * 2002-07-04 2004-02-11 Ronald E. Dr. Kates Method for training a learning-capable system
US7485390B2 (en) 2003-02-12 2009-02-03 Symyx Technologies, Inc. Combinatorial methods for preparing electrocatalysts
EP1530780A1 (en) * 2003-09-10 2005-05-18 Swiss Reinsurance Company System and method for the automated establishment of experience ratings and/or risk reserves
WO2005055011A2 (en) * 2003-11-29 2005-06-16 American Board Of Family Medicine, Inc. Computer architecture and process of user evaluation
US20070239496A1 (en) * 2005-12-23 2007-10-11 International Business Machines Corporation Method, system and computer program for operational-risk modeling
US7747551B2 (en) * 2007-02-21 2010-06-29 Neurovista Corporation Reduction of classification error rates and monitoring system using an artificial class
DE102007044919A1 (en) * 2007-09-19 2009-04-02 Hefter, Harald, Prof. Dr. med. Dr. rer. nat. Method for the determination of secondary treatment failure
US8949671B2 (en) * 2008-01-30 2015-02-03 International Business Machines Corporation Fault detection, diagnosis, and prevention for complex computing systems
DE102009009228A1 (en) * 2009-02-17 2010-08-26 GEMAC-Gesellschaft für Mikroelektronikanwendung Chemnitz mbH Agglutination-based detection of disease comprises adding substrate of buffer, measuring initial intensity of buffer, diluting blood sample with buffer, measuring reference intensity and originating test person with disease to diagnose
EP2585957A4 (en) 2010-06-24 2014-12-24 Valtion Teknillinen State inference in a heterogeneous system
US8620720B2 (en) * 2011-04-28 2013-12-31 Yahoo! Inc. Embedding calendar knowledge in event-driven inventory forecasting
US9235799B2 (en) * 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
US8738421B1 (en) * 2013-01-09 2014-05-27 Vehbi Koc Foundation Koc University Driver moderator method for retail sales prediction
US20150032681A1 (en) * 2013-07-23 2015-01-29 International Business Machines Corporation Guiding uses in optimization-based planning under uncertainty
EP3852019A1 (en) 2015-03-27 2021-07-21 Equifax, Inc. Optimizing neural networks for risk assessment
CA3039182C (en) 2016-11-07 2021-05-18 Equifax Inc. Optimizing automated modeling algorithms for risk assessment and generation of explanatory data
US11093830B2 (en) 2018-01-30 2021-08-17 D5Ai Llc Stacking multiple nodal networks
US11321612B2 (en) 2018-01-30 2022-05-03 D5Ai Llc Self-organizing partially ordered networks and soft-tying learned parameters, such as connection weights
US11461655B2 (en) 2018-01-30 2022-10-04 D5Ai Llc Self-organizing partially ordered networks
US11468315B2 (en) 2018-10-24 2022-10-11 Equifax Inc. Machine-learning techniques for monotonic neural networks
US10558913B1 (en) * 2018-10-24 2020-02-11 Equifax Inc. Machine-learning techniques for monotonic neural networks

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5862304A (en) * 1990-05-21 1999-01-19 Board Of Regents, The University Of Texas System Method for predicting the future occurrence of clinically occult or non-existent medical conditions
DE4224621C2 (en) * 1992-07-25 1994-05-05 Boehringer Mannheim Gmbh Method for analyzing a component of a medical sample using an automatic analysis device
US5943663A (en) * 1994-11-28 1999-08-24 Mouradian; Gary C. Data processing method and system utilizing parallel processing
US5701400A (en) * 1995-03-08 1997-12-23 Amado; Carlos Armando Method and apparatus for applying if-then-else rules to data sets in a relational data base and generating from the results of application of said rules a database of diagnostics linked to said data sets to aid executive analysis of financial data
US5812992A (en) * 1995-05-24 1998-09-22 David Sarnoff Research Center Inc. Method and system for training a neural network with adaptive weight updating and adaptive pruning in principal component space
US6125105A (en) * 1997-06-05 2000-09-26 Nortel Networks Corporation Method and apparatus for forecasting future values of a time series
DE19940577A1 (en) * 1999-08-26 2001-03-01 Wilex Biotechnology Gmbh Method for training a neural network
US6606615B1 (en) * 1999-09-08 2003-08-12 C4Cast.Com, Inc. Forecasting contest
US20040122702A1 (en) * 2002-12-18 2004-06-24 Sabol John M. Medical data processing system and method
JP4177228B2 (en) * 2003-10-24 2008-11-05 三菱電機株式会社 Prediction device

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None *
See also references of WO0247026A3 *

Also Published As

Publication number Publication date
WO2002047026A3 (en) 2003-11-06
AU2002216080A1 (en) 2002-06-18
US20040073096A1 (en) 2004-04-15
WO2002047026A2 (en) 2002-06-13
US7395248B2 (en) 2008-07-01

Similar Documents

Publication Publication Date Title
EP1384199A2 (en) Method for determining competing risks
DE112020000281T5 (en) COMBINING MODELS THAT HAVE RESPECTIVE TARGET CLASSES WITH DISTILLATION
DE102016203546B4 (en) ANALYZER FOR BEHAVIORAL ANALYSIS AND PARAMETRIZATION OF NEURONAL STIMULATION
DE112018002822T5 (en) CLASSIFY NEURONAL NETWORKS
DE112011101370T5 (en) Neural network with canonical pulsed neurons for a spatiotemporal associative memory
DE112020005610T5 (en) IDENTIFYING OPTIMAL WEIGHTS TO IMPROVE PREDICTIVE ACCURACY IN MACHINE LEARNING METHODS
DE102005046747B3 (en) Computer-aided learning of neural networks involves changing cross-links between first and second layers of neurons of neural network based on variable state of neural network which is determined using feature instances and categories
DE102007001026A1 (en) Technical system e.g. gas turbine, controlling and/or regulating method, involves executing learning and/or optimizing procedure based on concealed states in state space to control and/or regulate system
DE10296704T5 (en) Fuzzy inference network for the classification of high-dimensional data
WO2003054794A2 (en) Evaluation of images of the brain obtained by means of functional magnetic resonance tomography
DE102018204514A1 (en) HANDLING OF SIGNAL SATURATION IN PULSED NEURONAL NETWORKS
EP1232478B1 (en) Method for training a neural network
DE112021003761T5 (en) PREDICTIVE MODELS WITH DECOMPOSABLE HIERARCHICAL LEVELS CONFIGURED TO PRODUCE INTERPRETABLE RESULTS
DE102021124256A1 (en) MOBILE AI
EP3739592A1 (en) Locally controlled imaging-based acquisition of patient data
EP0978052B1 (en) Computer-aided selection of training data for neural networks
DE112018006656T5 (en) 3 GENERATE NEURON MODELS FOR PERSONALIZED DRUG THERAPY
DE112022001973T5 (en) PREDICTING MEDICAL EVENTS USING A PERSONALIZED TWO-CHANNEL COMBINATOR NETWORK
EP1227425A2 (en) System for discovering the source of diseaseattacks
DE112020004025T5 (en) Adversarial and cooperative imitation learning for dynamic treatment
EP1359539A2 (en) Neurodynamic model of processing visual information
DE102019216973A1 (en) LEARNING PROCEDURES FOR NEURAL NETWORKS BASED ON EVOLUTIONARY ALGORITHMS
DE102021205097A1 (en) Computer-implemented method and system for determining a cost function
Taha et al. A new quantum radial wavelet neural network model applied to analysis and classification of EEG signals
EP1114398A2 (en) Method for training a neural network, method for classifying a sequence of input parameters using a neural network, neural network and array for training a neural network

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20030704

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

17Q First examination report despatched

Effective date: 20100319

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20180817