EP1384199A2 - Verfahren zur ermittlung konkurrierender risiken - Google Patents

Verfahren zur ermittlung konkurrierender risiken

Info

Publication number
EP1384199A2
EP1384199A2 EP01999919A EP01999919A EP1384199A2 EP 1384199 A2 EP1384199 A2 EP 1384199A2 EP 01999919 A EP01999919 A EP 01999919A EP 01999919 A EP01999919 A EP 01999919A EP 1384199 A2 EP1384199 A2 EP 1384199A2
Authority
EP
European Patent Office
Prior art keywords
time
learning
function
objective function
neurons
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP01999919A
Other languages
English (en)
French (fr)
Inventor
Ronald E. Kates
Nadia Harbeck
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of EP1384199A2 publication Critical patent/EP1384199A2/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Definitions

  • the invention relates to a method for determining competing risks after an initial event with the aid of systems capable of learning on the basis of data that has already been measured or can otherwise be objectified (training data).
  • Systems capable of learning such as neural networks, are increasingly being used for risk assessment because they are able to recognize and present complex, previously unknown relationships between raised factors and outcomes. This capability enables them to provide more reliable or more precise estimates of risk probabilities than conventional methods, which have to be based on a special form of the relationship, such as a linear dependency.
  • the factors of the data sets comprise a number of objectifiable parameters, on the values of which a person operating the learning system has no influence.
  • these parameters include, for example Age at the time of surgery, number of lymph nodes affected, laboratory value of the uPA factor, laboratory value of the PAI-1 factor, characteristic value for the tumor size, laboratory value of the estrogen receptor, laboratory value of the progesterone receptor.
  • the type of therapy actually used can be recorded as an indication, so that the relationship between therapy and outcome is also recognized.
  • the values are temporarily stored on a suitable storage medium and fed to the system capable of learning.
  • the individual details are usually associated with an unsharpness, analogous to signal noise. From these noisy individual signals, it is the task of the adaptive system to form refined signals that can lead to a risk assessment within the framework of a suitable probability representation.
  • a so-called “multilayer perceptron” (in the technical literature always abbreviated as "MLP") contains, for example, an input layer, a hidden layer, and an output layer.
  • MLP multilayer perceptron
  • the "hidden nodes” in the neural network perform the task of generating a signal for the probability of complex internal processes. They can therefore use the underlying, but not directly detectable, biological processes, which are ultimately decisive for the course of a disease will be, provide information.
  • Competing risks can also arise from the fact that a patient dies, for example, from a completely different illness or from a side effect of the treatment, so that the risk of the characteristic of interest to the doctor remains hidden.
  • an exclusive classification with a censoring rule can map the training data in such a way that for each possible output a neural network or a classification tree can be trained by recursive partitioning according to the state of the art. In the example with the outputs 1 to 3 one would have to train three completely independent neural networks or three different decision trees.
  • a problem with this use of the prior art is that the detection of a possible informative value of internal nodes with regard to one of the disease outlets is lost for the detection of its informative value with regard to the other disease outlets.
  • an internal biological process recognized by internal nodes in a neural network could contribute to several observable outputs, albeit with different weightings.
  • the biological "invasiveness" of a tumor is of different but significant importance for distant metastases or for local recurrences.
  • the independently trained networks must independently “discover" the meaningfulness of an internal connection represented by the node.
  • the object of the invention is to provide a method with which competing risks can be detected, identified and represented in their logical or causal context, in particular in such a way that the determination of a temporally variable statement is not impaired ,
  • the method according to the invention can be used to assign suitable characteristic values to the competing risks through the system capable of learning. These characteristic values are intended to enable the calculation of the conditional probability per unit of time for the occurrence of the respective event (provided that none of the possible end events has occurred to date). “Suitable” characteristic values in the sense of the invention can have the property that a maximum of the statistical “likelihood” regarding all outputs is aimed for.
  • data of the initial event and a follow-up observation up to a predetermined time are used for the method for the training data sets or are objectively recorded in some other way.
  • the method according to the invention can thus also make it possible to use other characteristic values in the context of a trained, learnable system, as long as these characteristic values can be formed from the follow-up observations in a manner analogous to the statistical likelihood.
  • the other characteristics are excluded. In this way, a manifestation of a failure can preferably be taken into account.
  • means the parameters of the system capable of learning.
  • LS stands for “learnable system”.
  • F LS ktX) (.) Denotes the failure rate of the expression k and S LS ⁇ kx) (t.) Den
  • a neural network is used as the learning system.
  • the above objective function L can have the form depending on P.
  • the adaptive system performs recursive partitioning, where
  • the partitioning is carried out in such a way that the objective function is optimized which statistically takes these frequencies or probabilities into account.
  • the learnable system is preferably used in the context of a decision-making aid.
  • a therapy strategy can thus be determined, for example, in a medical application of the present invention.
  • FIG. 1 shows a representation of a neural network in an implementation as an MLP
  • FIG. 2 shows a Venn diagram of competing risks
  • Figure 3 is an illustration of a trained neural network with three competing risks.
  • the additional dimension of the starting layer comprises at least two nodes
  • Each output node is assigned to a signal
  • the individual signals are each assigned to a risk function with regard to the possible events.
  • the system capable of learning is trained by using the values of the total signals for all data sets as a lens function for the system
  • a system trained in this way supports the attending physician and the patient, for example, in the decision for one of several different therapeutic approaches by determining which of the possible manifestations of the risk of recurrence should be directed to the therapy.
  • the goal of individualized patient prognosis with competing risks can be understood mathematically in such a way that several functions f ⁇ (x) f 2 (x) f 3 (x), ... with the system capable of learning, here with a neural network NN ⁇ (x), NN 2 (x), .... are approximated. More precisely, the neural network estimates the expected value E (y k
  • the neural network can first be represented schematically in the current implementation as an MLP in the exemplary embodiment as in FIG. 1.
  • raw patient characteristics for primary breast cancer, for example, uPA, PAI-1, number of affected lymph nodes, etc.
  • the middle neurons form the internal layer.
  • Several internal layers can also be provided. Each internal neuron processes the signals from the input neurons and passes on a signal. The mathematical relationship between the "inputs" to the internal neurons and their “outputs” is controlled by leveling out synaptic weights.
  • the lower neurons provide estimates for the desired parameters (e.g. expected value of survival) and form the starting layer.
  • the architecture used in the embodiment consists of a classic multilayer feedforward network. Neurons are organized in layers as described above. Connectors exist in the embodiment as follows
  • the activation function of the hidden layer is the hyperbolic tangent.
  • the invention can also be used using other activation functions such as the logistic function.
  • the factors are initially transformed univariate so that they are in an interval of the order of 1.
  • the median XMedian is subtracted and the values are scaled with a factor x Q : values above the median are scaled with the 75% quantile, values below the median with the 25% quantile.
  • the tanh function is then applied.
  • the input neurons have a static function and are therefore implemented as fields that pass on the transformed values.
  • the tanh function of equation (1a) can be seen as the activation function of the input layer.
  • w ih is the weight of the connector from the input neuron i to the hidden neuron h
  • Xi (j) represents the (scaled) response of the i-th input neuron.
  • b h is the bias of the hidden neuron h, which is mathematically optimized like any other weight of the network.
  • the nonlinear activation function F h is the hyperbolic tangent.
  • the signal z Q is initially generated: the bias of the neuron b 0 is subtracted, and the activation function of the output neuron o is applied to this result.
  • the output O 0 0) thus becomes
  • the activation function of the starting layer is chosen as the identity function in the exemplary embodiment.
  • the total bias is not freely optimized, but is chosen so that the median signal of all output neurons is zero. This is possible without restricting the generality of the model.
  • the number of parameters to be optimized is thus reduced by the number of bias parameters.
  • the second equation ⁇ 0 is regarded as a constant.
  • the time dependence is in the coefficient B.
  • lens function takes shape
  • a preferred class of lens functions of the shape (7th) can be understood as statistical likelihood functions, whereby for the embodiment
  • the functional dependency on the model is symbolically characterized by variable parameters ⁇ .
  • An example for the determination of ⁇ jk and ⁇ jk is given below.
  • the parameters denoted by ⁇ are the survival time scales ⁇ ok and the weights of the neural network.
  • the index j denotes the patient record.
  • the time integral for solving equation 6 is solved by the standard method “Romberg integration”. Any time dependencies of the functions B ⁇ (t) can thus be taken into account.
  • this size is given by the product of the individual probabilities:
  • the neural network comprises
  • An input layer with a plurality of input neurons j (i for “input neuron”)
  • At least one intermediate layer with intermediate neurons N h (h for “hidden neuron”)
  • An output layer with a plurality of output neurons N 0 (o for “output neuron”)
  • a two-dimensional starting layer is shown in order to illustrate the possibility for the simultaneous display of temporally variable and also competing risks.
  • the simplified representation of non-time-variable risks is the special case in which only the characteristic dimension is necessary.
  • the number of input neurons Ni initially used is usually chosen in accordance with the number of objectifiable information available for the patient collective. According to the state of the art, methods are available which either automatically reduce the number of input neurons in advance to a level that is acceptable for the respective computer system or automatically remove unnecessary input neurons in the course of the optimization, so that in both cases the determination of the ultimately input neurons used without intervention of the respective operator.
  • the original number of hidden neurons is determined by the original number of input neurons, i.e.
  • N h Ni (10.a)
  • methods are available according to the state of the art, which enable the connectors to be preassigned favorably.
  • the neurons of the output layer are analogously in a two-dimensional matrix with indices
  • N 0 N, i me x N ey (10.d)
  • the index J key designates signals of the respective form, while the index J, il ⁇ , e designates the signals relating to the respective time function (for example “fractional polynomials” or spline functions).
  • An output neuron designated by two indices J t i me , J k ey carries accordingly for determining the coefficient of the time function J tim e for the risk for the characteristic J key .
  • the indices J key or J t i me correspond analogously to the indices k or I of equations 4 to 7.
  • N ey or N time in the embodiment corresponding to the quantities K and L of these equations.
  • End nodes which are usually arranged in a one-dimensional row, are also available for use in the context of recursive partitioning. According to the prior art, each patient is assigned to such a node. According to the prior art, the node is assigned a risk that can be viewed as a (scalar) signal.
  • the invention now assigns a vector with N key indices to each end node instead of a scalar.
  • the aim of learning is to locate the highest possible value of this likelihood function in the parameter space, but at the same time superfluous parameters to avoid if possible.
  • learning through initialization, optimization steps and complexity reduction is as follows:
  • the univariate analyzes can be used to preset the weights that favor or at least not disadvantage non-linear configurations (see below).
  • an exponential survival model is determined with the only parameter ⁇ 0 . This model is used for initialization and also for control in the subsequent analysis.
  • the four parameters correspond to the time constant ( ⁇ 0 ), the weight and the bias to the hidden layer, and the weight to the starting layer. These are optimized and stored in a table together with the quality (likelihood) and significance for subsequent purposes.
  • the ranking of the univariate significant factors is determined according to the amounts of the linear weights.
  • the numbering of the input nodes for the subsequent analysis corresponds to this ranking. In the event that fewer input nodes are available as factors, this procedure allows an objective preselection of the "most important" factors.
  • initial values for the weights must first be set. A default value of zero is not sought.
  • the weights of the linear connectors are initially filled with small values as usual.
  • the time parameter is preset with the value ⁇ 0 determined from the 1-parameter model.
  • the number of hidden nodes H is chosen equal to the number of input nodes J.
  • the corresponding bias is preset analogously with the bias determined in this way.
  • the value of the weight obtained from the univariate optimization which we refer to as w h ⁇ , for the first neuron of the output layer is also available.
  • a second way of initialization which is more common for neural networks, is to assign small, random weights to all connectors. This means that at the beginning of the optimization, all links, including those via the hidden layer, are in the linear range. For small arguments, the "activation function" is almost linear, e.g., tanh (x) «x for small x.
  • the covariance matrix of all input factors is calculated and stored.
  • a linear regression of each factor on all other factors is also determined: X 2 »A Xi + B.
  • Eigenvectors and eigenvalues of the covariance matrix are calculated and recorded. The linear relationships are used in the embodiment for the various thinning processes.
  • the quality on the validation set if available, is used several times during the course of the optimization: The quality on the validation set provides an independent measure of the progress of the optimization based on the training set and also serves to avoid over-adjustment.
  • the optimization is about the search for a maximum of the likelihood function, based on the data of the training amount.
  • the search method implemented in the embodiment uses the construction of an n-fold simplex in this space according to the known method by Neider and Mead (1965).
  • the search requires the formation of an n-dimensional simplex in the parameter space.
  • a simplex can be determined by specifying n + 1 non-degenerate corners, i.e. the corresponding edges are all linearly independent of one another. It therefore comprises an n-dimensional point cloud in the parameter space.
  • the search for optimization takes place in epochs. During each epoch, the quality function on the training set is evaluated at various points in the parameter space, namely at the current location and at n further corners, which are defined by the combination of operations such as reflection, expansion / contraction in one direction, etc. The directions of these operations are automatically selected based on the values of the quality function at the corners defined in the previous epoch.
  • the decrease in the quality function in the embodiment is monotonic and the search always ends at a (at least local) minimum.
  • the validation set described above if available, is used to control the progress of the optimization and to avoid overfitting.
  • the variables minus log-like-iihood per sample of the two quantities are continuously calculated and output as key figures of the instantaneous quality of the optimization with regard to the training and validation quantities. While this key figure must decrease monotonically on the training set, temporary fluctuations in the corresponding key figure on the validation set are possible without an over-adjustment already taking place. However, a monotonous increase in the key figure on the validation set should stop further optimization and lead to a Lead complexity reduction. This type of abort presents a kind of emergency brake to avoid overfitting.
  • a possible termination criterion that can be carried out automatically is achieved by maintaining the exponentially smoothed quality of the validation quantity. If this smoothed parameter exceeds the previous minimum of the current optimization step by a fixed percentage (deterioration in quality), the optimization is terminated.
  • a percentage increase of about 1% tolerance was found as an empirical value for typical sizes of the training amount around 300 or more data records. With this tolerance and with roughly the same size of training and validation quantities, the training is stopped more often by reaching a minimum on the training quantity than by the deterioration in the quality on the validation quantity.
  • This "normal" termination is preferred because an (almost) monotonous improvement in the quality on the validation set is a sign that the neural network has recognized real underlying structures and not simply the noise.
  • the simplex optimization described for the embodiment results in a set of weights ⁇ wpj, ... w [n] ⁇ and other parameters which determine a local minimum of the negative log likelihood.
  • the numbering [1] ... [n] of the weights in this context does not include the topological order of the weights.
  • This minimum refers to the fixed number n of the weights and a fixed topology. In order to avoid overfitting, it is desirable to reduce the complexity by thinning the weights as far as this is possible without a significant loss in quality.
  • Thinning refers to the deactivation of connectors. For this purpose, their weights are “frozen” to a fixed value (zero in the embodiment, where one can also speak of "removing”). In principle, it is possible to remove individual weights or even entire knots. In the latter case, all weights are deactivated which either insert into the node to be removed or continue from the node.
  • a phase of complexity reduction in the network is carried out following an optimization phase (simplex method).
  • the first step in this is the "thinning" of individual connectors.
  • combinations of different Connectors tested for redundancy are tested for redundancy.
  • the consistency of the topology is checked and, if necessary, connectors or nodes are removed which, due to the previous removal of other connectors and nodes, can no longer contribute to the statement.
  • test variable log (likelihood ratio) is first formed in the embodiment. Two networks are envisaged for each weight w IA] :
  • the connector When deactivated, the connector is removed from the list of active connectors and the associated weight is frozen (mostly zero).
  • the number G of the removed connectors becomes a maximum number limited, where n is the number of connectors remaining.
  • Thinning or removal of individual connectors can result in isolation of a node from input signals, output signals, or (in the case of a hidden neuron) from both.
  • a deactivation flag is set for the node in the embodiment.
  • Isolation means that there are no active connectors either from the input layer or from the hidden layer. If all connectors from an input neuron to the hidden and to the output layer have been removed, the bias of the linear connectors must also be deactivated.
  • a hidden neuron that has been isolated from all inputs can still be connected to outputs.
  • the "frozen" contributions of such hidden neurons to the output are then redundant because, in principle, they only include the bias values of the other active connectors change. As a result, such neurons are deactivated and any remaining connectors to the output layer are removed.
  • the trained neural network is thus clearly determined.
  • the trained neural network can be used in accordance with the description above to generate the output values and thus the functions defined above for any data which contain the independent factors (“covariates”) x f k (t), ⁇ k (_), and S k (f) to obtain the covariates x.
  • covariates independent factors
  • first 1000 fictitious patient data sets with 9 factors (covariates) were generated by means of a random generator.
  • the first 7 factors were created as realizations of a multivariate Gaussian distribution.
  • mean values and variances of the factors and a covariance matrix were specified in the exemplary embodiment: Factor x'yj? 0 Xer X PJ xa . Q e ⁇ tum xujpa xpai
  • xlypo xer; xpr: xage: xtum; xupa: xpai xlypo 1.00 -0.06 -0.09 0.03 0.42 0.02 0.05 xer -0.06 1.00 0.54 0.29 -0.07 -0.18 -0.19 xpr -0.09 0.54 1.00 0.03 -0.06 -0.07 -0.14 xage 0.03 0.29 0.03 1.00 0.04 0.02 0.00 xtum 0.42 -0.07 - 0.06 0.04 1.00 0.03 0.06 xupa 0.02 -0.18 -0.07 0.02 0.03 1.00 0.54 xpai 0.05 -0.19 -0.14 0.00 0.06 0.54 1.00
  • the model assumed in the exemplary embodiment shows that only the factor "xlypo" is causally decisive for the failure of the third variant. Nevertheless, there is an indirect connection between the other factors and the observations of the third variant, because increased risks of the other factors may reduce the likelihood of observing the failure of the third variant, although this property of the model assumed is insignificant for the function of the invention, but illustrates a typical benefit.
  • the neural network trained according to the described method is illustrated in FIG. 3 ("xpai” and “xpail” are identical). Note that there is only one connector to the "O3" output, namely from the "xlypo" node (neuron).
  • the outputs 01 to 03 are assigned to the risks "risk (1)" to "risk (3)".
  • Table 2b Bias values (automatically 0 for inactive neurons)
  • N t i me 1 as used here.
  • the number of output neurons is then determined from equation 10.d.
  • the training would then be carried out in the manner previously described.
  • the possible temporal variations of the different forms could be determined independently of one another in the context of the model of equations 4 to 7, the task of recording competing risks in particular would not be affected thereby.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Ermittlung konkurrierender Risiken für Objekte nach einem Anfangsereignis auf Grundlage bereits gemessener oder sonst objektivierbarer Trainingsdatensätze, in welchem mehrere aus einem lernfähigen System gewonnene Signale in einer objektiven Funktion so kombiniert werden, dass das lernfähige System die zugrunde liegenden Wahrscheinlichkeiten der jeweiligen konkurrierenden Risiken erkennen oder vorhersagen kann.

Description

Verfahren zur Ermittlung konkurrierender Risiken
Gebiet der Erfindung
Die Erfindung betrifft ein Verfahren zur Ermittlung konkurrierender Risiken nach einem Anfangsereignis mit Hilfe lernfähiger Systeme auf Grundlage bereits gemessener oder sonst objektivierbarer Daten (Trainingsdaten).
Stand der Technik
Lernfähige Systeme wie neuronale Netze werden zunehmend zur Risikoabschätzung eingesetzt, weil sie in der Lage sind, komplexe, nicht von vornherein bekannte Zusammenhänge zwischen erhobenen Faktoren und Ausgängen zu erkennen und darzustellen. Durch diese Fähigkeit können sie zuverlässigere bzw. genauere Abschätzungen von Risikowahrscheinlichkeiten liefern als herkömmliche Verfahren, welche von einer speziellen Gestalt des Zusammenhangs wie etwa einer linearen Abhängigkeit, ausgehen müssen.
Im Bereich medizinischer Anwendungen, beispielsweise bei der Behandlung einer Krebserkrankung, ist es bekannt, lernfähige Systeme wie neuronale Netze oder rekursive Partitionierung (wie die bekannte Methode CART, „Classification and Regression Trees", siehe dazu z. B: L. Breiman et al., „Classification and Regression Trees", Chapman and Hall, New York (1984)) zur Bestimmung der Risikowahrscheinlichkeit eines Ereignisses auch bei zensierten Daten einzusetzen. (Von einem zensierten Datensatz spricht man, wenn bis zum letzten Beobachtungszeitpunkt das Ereignis noch nicht unbedingt eingetroffen ist.) Als Beispiel für die Anwendung lernfähiger Systeme bei einer Krebserkrankung dient die Bestimmung der Risikowahrscheinlichkeit (etwa für eine erneute Erkrankung (Rezidiv)) im Anschluß an der Primärbehandlung zur Unterstützung der Therapieentscheidung.
Die Faktoren der Datensätze umfassen eine Reihe von objektivierbaren Kenngrößen, auf deren Werte eine das lernfähige System bedienende Person keinen Einfluß hat. Im Falle eines primären Mammakarzinoms beinhalten diese Kenngrößen zum Beispiel Alter zum Zeitpunkt der Operation, Anzahl der befallenen Lymphknoten, Laborwert des Faktors uPA, Laborwert des Faktors PAI-1, Kennwert für die Tumorgröße, Laborwert des Estrogenrezeptors, Laborwert des Progesteronrezeptors.
Die Art der tatsächlich verwendeten Therapie kann als Angabe erfaßt werden, so dass auch der Zusammenhang zwischen Therapie und Ausgang erkannt wird.
Die Werte werden auf einem geeigneten Speichermedium zwischengespeichert und dem lernfähigen System zugeführt. Die einzelnen Angaben sind in der Regel allerdings zum einen mit einer Unscharfe, analog einem Signalrauschen, behaftet. Aus diesen verrauschten Einzelsignalen ist es Aufgabe des lernfähigen Systems, veredelte Signale zu bilden, die im Rahmen einer geeigneten Wahrscheinlichkeitsdarstellung zu einer Risikoabschätzung führen können.
Die Lernfähigkeit eines neuronalen Netzes auch für nichtlineare Zusammenhänge ist eine Konsequenz der Architektur und der Funktionsweise. Ein sog. „Multilayer Perzeptron" (in der Fachliteratur immer als „MLP" abgekürzt) enthält etwa eine Eingangsschicht, eine versteckte Schicht, und eine Ausgangsschicht. Die im neuronalen Netz vorhandenen „versteckten Knoten" erfüllen die Aufgabe, ein Signal für die Wahrscheinlichkeit komplexer interner Prozesse zu erzeugen. Sie können somit über die zugrunde liegenden, aber nicht von vornherein direkt abtastbaren, biologischen Prozesse, welche für den Verlauf einer Erkrankung letztendlich ausschlaggebend sein werden, Aufschluß geben.
Interne biologische Prozesse können parallel zu einander mit unterschiedlichen Raten stattfinden und auch miteinander in Wechselwirkung treten. Lernfähige Systeme können auch solche internen, nicht direkt beobachtbaren Prozesse erkennen und darstellen, wobei sich die Güte dieser Erkennung nachträglich und indirekt durch die Güte der Vorhersage der tatsächlich beobachteten Ereignisse bemerkbar macht. Durch rekursive Partitionierung (etwa CART) entstehen Zuordnungen, die in ihrer Fähigkeit zur Darstellung komplexer interner Zusammenhänge analog zu den Fähigkeiten der neuronalen Netze sind.
Der Verlauf einer Erkrankung kann zu unterschiedlichen kritischen Ereignissen führen, deren Vorbeugung eventuell unterschiedliche Therapieansätze erfordert. Im Falle des ersten Rezidivs bei Brustkrebs ist eine eindeutige Klassifikation der Befunde etwa in die gegenseitig exklusiven Ausprägungen
1. „Fernmetastasen in Knochengewebe",
2. „Fernmetastasen, jedoch kein Befund im Knochengewebe"
3. „Loko-regionales" Rezidiv
möglich.
Da aber der weitere Verlauf der Erkrankung nach einem dieser Befunde auch im Hinblick auf die Wahrscheinlichkeiten der übrigen Ausprägungen der Rezidivs beeinflußt werden kann, ist es im Rahmen der statistischen Behandlung solcher Daten oft sinnvoll, nur das Erstrezidiv zu untersuchen. Beispielsweise für eine Brustkrebspatientin, die 24 Monate nach der Primäroperation ein Lokalrezidiv erleidet und nach 48 Monaten den Befund „Knochenmetastase" hat, ist im Hinblick auf „Erstrezidiv" nur Kategorie 3 relevant. Die Nachbeobachtung Knochenmetastase wird im diesem Rahmen nicht verwendet, d.h., die Patientin ist im Hinblick auf den Befund 1 als „zensiert" zu betrachten, sobald ein anderer Befund (hier Lokalrezidiv) festgestellt worden ist.
Konkurrierende Risiken können auch dadurch entstehen, dass ein Patient etwa an einer völlig anderen Erkrankung oder an einer Nebenwirkung der Behandlung verstirbt, so dass das Risiko der den Arzt interessierenden Ausprägung verborgen bleibt.
Es ist für Experten zwar relativ offensichtlich, dass eine ausschließliche Klassifikation mit Zensierungsvorschrift die Trainingsdaten in eine Gestalt so abbilden kann, dass für jeden möglichen Ausgang je ein neuronales Netz oder je ein Klassifkationsbaum durch rekursive Partitionierung nach Stand der Technik trainiert werden kann. Im Beispiel mit den Ausgängen 1 bis 3 müßte man hierfür drei vollkommen unabhängige neuronale Netze bzw. drei verschiedene Entscheidungsbäume trainieren.
Ein Problem bei dieser Nutzung des Standes der Technik besteht darin, dass die Erkennung einer möglichen Aussagekraft interner Knoten hinsichtlich eines der Erkrankungsausgänge für die Erkennung dessen Aussagekraft hinsichtlich der übrigen Erkrankungsausgänge verlorengeht. In Wirklichkeit aber könnte ein interner biologischer Prozess, der durch interne Knoten in einem neuronalen Netz erkannt worden ist, Beiträge zu mehreren beobachtbaren Ausgängen liefern, wenn auch mit unterschiedlicher Gewichtung. Beispielsweise ist die biologische „Invasionsfähigkeit" eines Tumors von unterschiedlicher, jedoch signifikanter Bedeutung für Fernmetastasen bzw. für lokale Rezidive. Die unabhängig trainierten Netze müssen die Aussagekraft eines durch den Knoten dargestellten internen Zusammenhang eigenständig „entdecken".
Es versteht sich, dass die Anzahl der tatsächlichen Ereignisse, die einem lernfähigen System zur Verfügung stehen, analog zur Mächtigkeit eines statistischen Systems, die Erkennungsgüte mitbestimmen. In medizinischen Anwendungen ist diese Anzahl meist begrenzt. Infolgedessen ist die Wahrscheinlichkeit, dass sich interne Prozesse knapp hinsichtlich eines der Ausgänge bemerkbar machen, jedoch nicht hinsichtlich der übrigen Faktoren, relativ groß. In diesem Fall geht die potentielle Aussagekraft zur Unterscheidung der Faktoren, sowie das biologische Erklärungspotential der internen Knoten auch im Hinblick auf die weiteren Ausgänge, verloren.
Da Therapien auch Nebenwirkungen haben, ist etwa eine Verringerung des Risikos einer Ausprägung einer Erkrankung auf Kosten einer Erhöhung eines anderen Risikos typisch für den medizinischen Entscheidungskontext. Hierfür ist die Notwendigkeit beim gegenwärtigen Stand der Technik, hinsichtlich jedes einzelnen Risikos ein völlig neues neuronale Netz trainieren zu müssen, unbefriedigend.
Faktoren, deren Wirkung auf die Wahrscheinlichkeit der Ausgänge zeitlich variabel sind, können nach Stand der Technik durch verschiedene Knoten in der Ausgangsschicht dargestellt werden, denen verschiedene Zeitabhängigkeiten (etwa durch die bekannte Technik der „fraktionalen Polynomen") zugeordnet werden. Eine zeitlich variable Aussage zur Ereignisdichte ist beim Stand der Technik zwar möglich, jedoch ist das Problem der konkurrierenden Risiken nicht so formulierbar, dass die Bestimmung einer zeitlich variablen Aussage nicht beeinträchtigt wird.
Angesichts der Nachteile des Standes der Technik liegt der Erfindung die Aufgabe zugrunde, ein Verfahren bereitzustellen, mit dem konkurrierenden Risiken in ihrem logischen bzw. ursächlichen Zusammenhang erfaßt, identifiziert und dargestellt werden können, insbesondere so, dass die Bestimmung einer zeitlich variablen Aussage nicht beeinträchtigt wird.
Beschreibung der Erfindung
Diese Aufgabe wird durch das Verfahren gemäß Patentanspruch 1 gelöst.
Durch das erfindungsgemäße Verfahren können den konkurrierenden Risiken durch das lernfähige System geeignete Kennwerte zugeordnet werden. Diese Kennwerte sollen die Berechnung der bedingten Wahrscheinlichkeit pro Zeiteinheit für das Eintreten des jeweiligen Ereignisses (unter der Voraussetzung, dass bisher keines der möglichen Endereignisse eingetreten ist) ermöglichen. „Geeignete" Kennwerte im Sinne der Erfindung können die Eigenschaft haben, dass ein Maximum der statistischen „Likelihood" betreffend aller Ausgänge angestrebt wird.
Es versteht sich, dass dieses Verfahren in verschiedensten Bereichen, wie z. B. den Ingenieurs- und Wirtschaftswissenschaften, der Biologie oder Medizin, verwendet werden kann. Im Bereich der Medizin kann es sich dann bei den Objekten um Patienten handeln, die nach einer ersten Erkrankung, dem Ausgangsereignis, konkurrierenden Risiken unterliegen, eine erneute Erkrankung zu erleiden.
Vorteilhafterweise werden für das Verfahren für die Trainingsdatensätze gemessene oder in sonstiger Weise objektiv erfaßte Daten des Anfangsereignisses und einer Nachbeobachtung bis zu einem vorgegebenen Zeitpunkt verwendet.
Dabei ist es von Vorteil, wenn der letzte Zeitpunkt der Nachbeobachtung explizit in den Trainingsdatensätzen verwendet wird. Somit kann durch das erfindungsgemäße Verfahren auch die Nutzung anderer Kennwerte im Rahmen eines trainierten lernfähigen Systems ermöglicht werden, solange sich diese Kennwerte analog zur statistischen Likelihood aus den Nachbeobachtungen bilden lassen.
In einer vorteilhaften Ausführung werden bei der Beobachtung einer Versagensausprägungen zu einem Zeitpunkt die anderen Ausprägungen ausgeschlossen. Auf diese Weise kann eine Ausprägung eines Versagens bevorzugt berücksichtigt werden.
Vorteilhafterweise ist die objektive Funktion L in Abhängigkeit einer Funktion P gegeben:
Hier sind mit μ die Parameter des lernfähigen Systems gemeint. („LS" steht für „lernfähiges System".) fLS ktX )( .) bezeichnet die Versagensrate der Ausprägung k und SLS{k x )(t.) den
Erwartungswert des Anteils an Objekten j mit beobachteten Merkmalen x,-, welche kein Versagen der Ausprägung k zum Zeitpunkt tj erleiden. P wird aufgrund des logischen Zusammenhangs aus δjk bestimmt, wobei δjk =1, wenn ein Objekt j ein Versagen der Ausprägung /. zum Zeitpunkt _> erlitten hat und sonst δjk = 0.
Vorteilhafterweise wird
L(μ-{x tjß}) = l[ fl[f k,Xj)( _ _,>('y)h
7=1 k=\ als objektive Funktion verwendet, wobei εjk und ψj aufgrund des logischen Zusammenhangs aus δJk bestimmt werden.
Es ist von Vorteil, wenn
als objektive Funktion verwendet wird.
In einer bevorzugten Alternative wird ein neuronales Netz als lernfähiges System verwendet. In diesem Fall kann obige objektive Funktion L in Abhängigkeit von P die Form haben
Von besonderem Vorteil ist es, wenn ein neuronale Netz der Architektur MLP (multilayer Perzeptron) verwendet wird.
In einer anderen bevorzugten Alternative führt das lernfähige System eine rekursive Partitionierung durch, wobei
jedem Objekt einem Knoten zugeordnet wird,
jedem Knoten die Häufigkeiten oder Wahrscheinlichkeiten aller Ausprägungen zugeordnet wird, und
die Partionierung so durchgeführt wird, dass die objektive Funktion optimiert wird, die diese Häufigkeiten oder Wahrscheinlichkeiten statistisch berücksichtigt.
Vorzugsweise wird das lernfähige System im Rahmen einer Entscheidungshilfe verwendet.
Es ist von Vorteil, wenn den verschiedenen Wahrscheinlichkeitsfunktionen der konkurrierenden Risiken Werte zur Ermittelung einer Strategie zugeordnet werden. Damit kann beispielsweise bei einer medizinischen Anwendung der vorliegenden Erfindung eine Therapiestrategie ermittelt werden.
Im folgenden wird das erfindungsgemäße Verfahren zur Ermittlung konkurrierender Risiken unter Bezugnahme auf die Zeichnung weiter beschrieben. In der Zeichnung zeigen:
Figur 1 eine Darstellung eines neuronalen Netzes in einer Implementierung als MLP,
Figur 2 ein Venn-Diagramm konkurrierender Risiken, und
Figur 3 eine Illustration eines trainierten neuronalen Netzes mit drei konkurrierenden Risiken.
Die nachfolgend beschriebenen Ausführungsformen beziehen sich auf medizinische Answendungen, was aber nicht als Einschränkung zu verstehen ist. Die folgende Beschreibung bedient sich der Terminologie der neuronalen Netze der Architektur MLP. Die Anwendung auf andere Architekturen der neuronalen Netze sowie für Regressionsbäume ist aber analog und für Experten unmittelbar ohne weitere Beschreibung nachzuvollziehen.
Insbesondere wird erfindungsgemäß eine zusätzliche Dimension der Ausgangsschicht des lernfähigen Systems eingeführt, wobei
• die zusätzliche Dimension der Ausgangsschicht mindestens zwei Knoten umfaßt
• die Knoten dieser zusätzlichen Dimension den verschiedenen Ausgangsereignissen entsprechen
• jeder Ausgangsknoten einem Signal zugeordnet wird,
• die einzelnen Signale jeweils einer Risikofunktion bezüglich der möglichen Ereignisse zugeordnet werden.
• die Signale der Ausgangsfunktionen zu einem Gesamtsignal kombiniert werden
• das lernfähige System trainiert wird, indem die Werte der Gesamtsignale für alle Datensätze als Objektivfunktion für das System herangezogen werden
Ein auf diese Weise trainiertes System unterstützt den behandelnden Arzt und den Patienten beispielsweise bei der Entscheidung für einen aus mehreren unterschiedlichen Therapieansätzen, indem es feststellt, gegen welche der möglichen Ausprägungen der Rezidivgefahr die Therapie gerichtet werden soll.
Problemdarstellung und Überblick
Das Ziel der individualisierten Patientenprognose mit konkurrierenden Risiken läßt sich mathematisch so auffassen, dass mehrere Funktionen fι(x) f2(x) f3(x), ... mit dem lernfähigen System, hier mit einem neuronalen Netz NNι(x), NN2(x), .... zu approximieren sind. Genauer gesagt, das neuronale Netz schätzt den Erwartungswert E(yk|x) der stochastischen Variablen yk bei beobachteten Merkmalen x:
NNk(x) fk(x) = E(yk \ x) . Schematisch läßt sich das neuronale Netz zunächst bei der aktuellen Implementierung als MLP im Ausführungsbeispiel wie in Figur 1 darstellen.
Alle Quadrate stellen hier Neuronen dar. Die oben im Bild dargestellten Neuronen liefern entweder
• rohe Patientenmerkmale (Beim primären Brustkrebs beispielsweise uPA, PAI-1, Zahl der befallene Lymphknoten, usw.) oder
• aus diesen Merkmalen bereits aufbereitete Größen (z.B. Werte bereinigt um Mittelwert oder Mediän und normiert durch Standardabweichung der Werteverteilung) oder
• durch Vorkenntnisse oder andere statistische Methoden abgeleitete Größen. Diese Neuronen bilden zusammen die Eingangsschicht.
Die mittleren Neuronen bilden die interne Schicht. Es können auch mehrere interne Schichten vorgesehen sein. Jedes interne Neuron verarbeitet die Signale von den Eingangsneuronen und gibt ein Signal weiter. Die mathematische Beziehung zwischen den "Inputs" zu den internen Neuronen und ihren "Outputs" wird durch das Einpendeln von synaptischen Gewichten gesteuert.
Die unteren Neuronen liefern Schätzungen für die erwünschten Kenngrößen (z.B. Erwartungswert des Überlebens) und bilden die Ausgangsschicht.
Um dem Netz den unterstellten Zusammenhang fι(x) f2(x) f3(x), ... beizubringen, stehen m Patientinnen zur Verfügung. Jedem Patienten ist ein Datenmuster (x,y) zugeordnet, wobei für konkurrierende Risiken die Ausgangsvariablen y als „Vektoren" (y=[yι,y2,y3, ...]) zu verstehen sind. Das Netz muß also anhand der Menge der Datenmuster {(x1,y1),...,(xm,ym)} die zugrundeliegende Dynamik lernen. Der Index als Superskript bezieht sich auf den Patienten. Beim Lernen findet nun eine Anpassung der synaptischen Gewichte statt.
Die in der Ausführungsform verwendete Architektur besteht in einem klassischen mehrschichtigen Feedforward-Netz. Neuronen sind wie oben beschrieben in Schichten organisiert. Konnektoren bestehen in der Ausführungsform wie folgt
• Eingangsschicht -> versteckte Schicht
• Eingangsschicht - Ausgangsschicht
• Versteckte Schicht -- Ausgangsschicht Die Verwendung von Konnektoren Eingangsschicht -> Ausgangsschicht ist zweckmäßig aber nicht zwingend zur Funktion der Erfindung, weil sie nicht unbedingt zur Darstellung einer Abbildung NN(x) notwendig sind.
Funktion neuronaler Netze
Neuronen als Funktionen
Jedes Neuron empfängt ein Stimulationssignal S, verarbeitet dieses gemäß einer vorbestimmten Aktivierungsfunktion F(S) und gibt ein entsprechendes Antwortsignal A = F(S) aus, das allen nachfolgenden Neuronen zugeführt wird, welche noch mit ihm verbunden sind. In der Ausführungsform ist die Aktivierungsfunktion der versteckten Schicht der Tangens Hyperbolicus. Die Erfindung kann ebenso bei Verwendung anderer Aktivierungsfunktionen wie etwa der logistischen Funktion eingesetzt werden.
Transformationen und Eingangsneuronen
Die Faktoren werden anfänglich univariat so transformiert, dass sie in einem Intervall der Größenordnung 1 liegen.
D.h., zuerst wird der Mediän XMedian subtrahiert und eine Skalierung der Werte mit einem Faktor xQ vorgenommen: Werte über dem Mediän werden mit dem 75 %-Quantil skaliert, Werte unter dem Mediän mit dem 25 %-Quantil. Darauf wird noch die Funktion tanh angewandt.
Die Eingangsneuronen haben eine statische Funktion und werden deshalb als Felder implementiert, welche die so transformierten Werte weiterreichen. Konzeptuell kann man die tanh-Funktion der Gleichung (1a) als Aktivierungsfunktion der Eingabeschicht ansehen.
Versteckte Neuronen
Gesucht ist der Ausgang des versteckten Knotens h für Patientin j. Zuerst wird überprüft, ob der versteckte Knoten h noch aktiv ist. Falls aktiv, werden die Eingangssignale mit den zugehörigen Gewichten multipliziert um die Summe wh -x, zu bilden. Genauer gesagt ist das Signal zum versteckten Knoten h bei Muster j eine gewichtete Summe der Eingänge der Gestalt zh(J) = ∑i wihχiU) ,
wobei wih das Gewicht des Konnektors vom Eingangneuron i zum versteckten Neuron h, und Xi (j) die (skalierte) Antwort des i-ten Eingangsneurons darstellt. Die Antwort des versteckten Neurons h ist
rh(j) = Fh(zh(j)-bh) . (2.a)
Hierbei ist bh das Bias des versteckten Neurons h, das rechentechnisch wie jedes andere Gewicht des Netzwerks optimiert wird. Im Ausführungsbeispiel ist die nichtlineare Aktivierungsfunktion Fh der Tangens hyperbolicus.
Ausgangsknoten
Gesucht ist der Ausgang des Ausgangsknotens o für Patientin j. Zuerst wird überprüft, ob der Ausgangsknoten o noch aktiv ist. Konnektoren sowohl von der versteckten Schicht wie auch von der Eingangsschicht sind möglich. Für jeden noch aktiven Konnektor werden die zugehörigen Eingangssignale mit den entsprechenden Gewichten multipliziert.
Das Signal zQ wird zunächst gebildet: Das Bias des Neurons b0 wird abgezogen, und auf dieses Resultat wird die Aktivierungsfunktion des Ausgangsneurones o angewandt. Der Ausgang O00) wird somit zu
00(j) = F0(z0(j)-b0)
Die Aktivierungsfunktion der Ausgangsschicht wird im Ausführungsbeispiel als die Identitätsfunktion gewählt.
Im Ausführungsbeispiel wird das Gesamtbias im Gegensatz zur versteckten Schicht nicht frei optimiert, sondern wird so gewählt, dass das Mediansignal aller Ausgangsneuronen gleich null ist. Dies ist möglich ohne Einschränkung der Allgemeinheit des Modells. Somit verringert sich die Anzahl der zu optimierenden Parameter um die Anzahl der Biasparameter.
Überlebensanalyse bei konkurrierenden, zeitvariablen Risiken im Rahmen lernfähiger Modelle
Bezug zum Lernfähigen System
Vorgegeben sei ein Patientenkollektiv mit vorhandenen Kovariaten (prognostischen Faktoren) Xj, die zu einem Anfangszeitpunkt t=0 (etwa zum Zeitpunkt der Primäroperation) gemessen wurden, sowie Endpunkten tj. Bei bekanntem Versagen der Ausprägung k des j-ten Patienten zum Zeitpunkt tj wird δjk = 1 (k=1,2,3,...) definiert, falls zensiert (weiterer Verlauf nach t=tj unbekannt) wird δjk=0 definiert.
Sei Sk(f) der Erwartungswert des Anteils der Patienten zu einem Zeitpunkt t, welche kein Versagen der Ausprägung k erleiden, wobei Sk(∞) = 0 und Sk(0) = 1. Es ist zweckmäßig, jeweils eine Versagensrate fk(f) und eine „Hazardfunktion" λk(f) gemäß
4(0 Λ( (3.a)
3.(0 zu definieren, so dass λk(t) = --[\ogSk(t)] (3.b)
gilt.
Die Interpretation dieser einzelnen Versagensraten ist wie folgt: Wäre es möglich, die übrigen Ausprägungen ohne Einfluß auf die Ausprägung k zu vermeiden, so würde fk(ή die beobachtete Versagensrate approximieren. In Wirklichkeit wird fk(f) zwar nicht direkt beobachtet. Für die Nutzung der Erfindung im Rahmen einer Entscheidungshilfe ist jedoch die Erfassung aller Ausprägungen fk(f) notwendig, damit die Wirksamkeit einer Verringerung einer Ausprägung im Hinblick auf das Gesamtwohl des Patienten berücksichtigt werden kann.
Bei bekanntem Verlauf der Hazardfunktionen λk (t) erhält man die Sk(ή durch Integration der Gl. (3.b) mit der Anfangsbedingung Sk(0) =1.
Vom neuronalen Netz erhalten wir zu einem Zeitpunkt r nach der Primäroperation für eine Patientin mit Kovariaten x eine "Hazardfunktion" λk (t\x), die nun von Kovariaten x abhängt. Als Modell für die Hazardfunktion bei vorgegebenen Kovariaten x setzen wir λk(t \ x) = λkQ(t)hk(t \ x) (4.)
mit
Die Funktionen Bt(t) werden dem Problem angepaßt gewählt. Möglich sind hier beipielsweise Spline-Funktionen. In dem Ausführungsbeispiel werden für Bt(t) fraktionelle Polynome bevorzugt, d.h. B, (t) = t(W) 2.
Somit erhält man
λok exp ∑NNu x)Bt(t) = - logfe(t)) . (6.)
Hierbei wird in der zweiten Gleichung λ0 als eine Konstante betrachtet. Die Zeitabhängigkeit steckt in den Koeffizienten B . Dieses Modell ist ein Proportional-hazards-Modell, falls Bi = 1 und alle anderen B| verschwinden. Abweichungen von „Proportional-hazards" können durch Berücksichtigung von Termen Bι mit l>1 modelliert werden.
In einer breiten Klasse von Anwendungen wird eine Objektivfunktion der Gestalt
L(μΛxJ,tJjk}) (7-) optimiert, wobei die Schreibweise zum Ausdruck bringt, dass P (zunächst auf eine noch nicht näher spezifizierte Art und Weise) von den jeweiligen Überlebens- bzw. Versagenswahrscheinlichkeiten abhängen darf. Diese Abhängigkeit ist problembedingt und geht aus einem logischen Modell für das Auftreten der verschiedenen Ausprägungen hervor. Eine bevorzugte Klasse von Objektivfunktionen der Gestalt (7.) lassen sich als statistische Likelihoodfunktionen verstehen, wobei für die Ausführungsform
[ *_)('/ l jt (8.) gewählt wird. Die beiden Argumente fNN(k,x) und SNNΓJCX) sind eindeutig bestimmt unter der Voraussetzung, dass das neuronalen Netz oder das sonstige lernfähige Modell die entsprechenden Werte für die Ausgangsknoten liefert. Dies ist in der Ausführungsform stets der Fall.
Hierbei sind εjk und ψjk aufgrund des logischen Zusammenhangs aus δj zu bestimmen, wobei δjk =1, wenn der Patient j ein Versagen der Ausprägung k zum Zeitpunkt tj erlitten hat und sonst δjk = 0. Zensierte Datensätze entsprechen Patienten, die gar kein Versagen erlitten haben, so dass δjk = 0 für alle k=1,2,3,.... Die funktionale Abhängigkeit vom Modell wird symbolisch durch veränderliche Parameter μ gekennzeichnet. Ein Beispiel zur Bestimmung von εjk und ψjk wird in der Folge angegeben.
Die mit μ bezeichneten Parameter sind in der Ausführungsform die Überlebenszeitskalen λok und die Gewichte des neuronalen Netzwerkes. Der Index j bezeichnet den Patientendatensatz.
In der Ausführungsform wird das Zeitintegral zur Lösung der Gleichung 6 durch die Standardmethode „Romberg-Integration" gelöst. Somit können beliebige Zeitabhängigkeiten der Funktionen Bι (t) berücksichtigt werden.
Zu einem Zeitpunkt t sei S(t) der Erwartungswert des Anteils der Patienten, welche kein Versagen irgendeiner der Ausprägungen k=1,...,K erlitten hat. In der Ausführungsform ist diese Größe durch das Produkt der einzelnen Wahrscheinlichkeiten geben:
Spezifikation der Ausführungsform für ein Beispiel
Für eine vollständige Spezifikation der Ausführungsform müssen nun die Größen ψ jk und ε jk angegeben werden. Im folgenden werden zur Veranschaulichung zwei Fälle der Ausführungsform hinsichtlich dieser Funktionen vollständig spezifiziert, die typisch für die Anwendung der Erfindung im Kontext der konkurrierenden Risiken sind.
Man betrachte eine Erkrankung, bei der das Versagen drei Ausprägungen hat. Der Patient wird im Monat t (.=1,2, ...) beobachtet. Hierbei kann im Monat t irgendeine Kombination der drei Ausprägungen oder gar kein Versagen beobachtet werden, so dass der Patient „zensiert" ist. Die Situation wird als Venn-Diagramm in der Abbildung 1 veranschaulicht. Im Falle der Krankheit Mammakarzinom könnten die drei Ausprägungen etwa Knochenmetastasen (B für "bone", k=1), sonstige Fernmetastasen (D für „distant", k=2), bzw. Lokal/regional (L für „local", k=3) sein. Ein gleichzeitiges Auftreten aller drei Ausprägungen im Beobachtungsmonat t ist möglich. Es kann aber sein, dass aus klinischen, pharmakologischen, oder datentechnischen Gründen die Nachbeobachtung im Monat t nach folgender Logik angegeben wird:
• Knochenmetastasen Qa/nein) ? o Falls ja, dann εji o Falls nein: sonstige Fernmetastasen Q'a/nein) ?
Falls ja, dann εji =0 εj2=1 εj3 =0 ψji =1 ψ j2 =0 ψj3=0
Falls nein: lokal/regional O'a/nein)
• Falls ja, dann εj =0 εj2=0 εj3=1 ψ ji =1 ψ j2 =1 ψj3=0
• Falls nein, dann εj1 =0 εj2=0 j3=0 ψ ji =1 ψ j2 =1 ψ j3=1
In anderen Worten:
Bei dieser Zuordnung wird etwa der Beobachtung „Knochenmetastasen" eine Priorität eingeräumt, so dass nicht gefragt wird, ob die anderen Ausprägungen zum Zeitpunkt t vorkommen oder nicht. Deshalb ist bei Befund „Knochenmetastasen ja" der Beitrag zur Likelihoodfunktion (8) der j-ten Patientin gemäß dieser Logik offenbar allein durch den Term fuNflj) gegeben (kein Term mit S NNftD.)
Für den Fall „keine Knochenmetastasen, aber sonstige Fernmetastasen", geht aus der Zuordnung ein Beitrag fNN(2,j) x S NN(I,J) hervor.
Für den Fall „weder Knochen- noch sonstige Fernmetastasen, aber lokal/regionale Erkrankung" geht aus der Zuordnung ein Beitrag fm( i) x S NNO j> x S NN(_J) hervor.
Für den Fall „zensiert" geht aus der Zuordnung ein Beitrag SNN(i,j) X SNN<?J) X SNN(3(j) hervor.
Eine Anwendung der Erfindung für Messungen, bei denen stets das Vorhandensein bzw. die Abwesenheit mehrerer Ausprägungen zum Zeitpunkt t beobachtet und berücksichtigt wird, ist möglich, wenn die obigen Gleichungen mit entsprechenden Gleichungen für die Wahrscheinlichkeit der gleichzeitigen Beobachtung mehrerer Ausprägungen bei geschätzten Werten der Versagenswahrscheinlichkeiten ersetzt werden.
Aufbau eines neuronalen Netzes zur Ermittlung konkurrierender Risiken
Fig. 1 zeigt den Aufbau eines neuronalen Netzes mit der Architektur MLP. In diesem Fall umfaßt das neuronale Netz
• eine Eingangsschicht mit einer Mehrzahl von Eingangsneuronen j (i für „input neuron")
• wenigstens eine Zwischenschicht mit Zwischenneuronen Nh (h für „hidden neuron")
• eine Ausgangsschicht mit einer Mehrzahl von Ausgangsneuronen N0 (o für „Output neuron")
• einer Vielzahl von Konnektoren, die jeweils zwei Neuronen unterschiedlicher Schichten miteinander verbinden.
In der Ausführungsform gemäß Fig. 1 wird eine zweidimensionale Ausgangsschicht dargestellt, um die durch die Erfindung vorhandene Möglichkeit zur gleichzeitigen Darstellung zeitlich variabler und auch konkurrierender Risiken zu veranschaulichen. Die vereinfachte Darstellung von nicht zeitlich variablen Risiken bildet hierbei den Sonderfall, bei dem nur die Ausprägungsdimension notwendig ist.
Die Anzahl der anfänglich eingesetzten Eingangs-Neuronen Ni wird üblicherweise entsprechend der Anzahl der für das Patientenkollektiv zur Verfügung stehenden objektivierbaren Angaben gewählt. Nach stand der Technik stehen Verfahren zur Verfügung, welche entweder vorab die Anzahl der Eingangs-Neuronen auf ein für die jeweilige Rechenanlage akzeptierendes Maß automatisch reduzieren oder aber im Laufe der Optimierung überflüssige Eingangs-Neuronen automatisch entfernen, so dass in beiden Fällen die Bestimmung der letztendlich verwendeten Eingangs-Neuronen ohne Eingriff der jeweiligen Bedienungsperson erfolgt.
In der Ausführungsform gemäß Fig. 1 wird die ursprüngliche Anzahl der versteckten Neuronen durch die ursprüngliche Anzahl der Eingangs-Neuronen bestimmt, d.h.,
Nh = Ni (10.a) Für diesen Fall stehen nach Stand der Technik Verfahren zur Verfügung, welche eine günstige Vorbelegung der Konnektoren ermöglichen.
Die Neuronen der Ausgangsschicht werden in der Ausführungsform gemäß Fig. 1 sinngemäß in einer zweidimensionalen Matrix mit Indizes
Jtime = 1 N,ime (10.b)
angeordnet, wobei die Anzahl der ursprünglich aktiven Neuronen der Ausgangsschicht gegeben ist durch
N0 = N,ime x N ey (10.d)
Hierbei bezeichnet der Index Jkey Signale der jeweiligen Ausprägung, während der Index J,ilτ,e das Signale zur jeweiligen Zeitfunktion (etwa „fraktionelle Polynome" oder Splinefunktionen) bezeichnet. Ein mit zwei Indizes Jtime , Jkey bezeichnetes Ausgangsneuron trägt demgemäß zur Bestimmung des Koeffizients der Zeitfunktion Jtime beim Risiko für die Ausprägung Jkey . Die Indizes Jkey bzw. Jtime entsprechen in der Ausführungsform sinngemäß den Indizes k bzw. I der Gleichungen 4 bis 7. Hierbei entsprechen N ey bzw. Ntime in der Ausführungsform sinngemäß den Größen K bzw. L dieser Gleichungen.
Für die Anwendung im Rahmen der rekursiven Partitionierung stehen ebenfalls Endknoten zur Verfügung, die üblicherweise in einer eindimensionalen Reihe angeordnet werden. Nach Stand der Technik wird jeder Patient einem solchen Knoten zugeordnet. Ebenfalls nach Stand der Technik wird dem Knoten ein Risiko zugeordnet, das als ein (skalares) Signal betrachtet werden kann. Die Erfindung ordnet nun jedem Endknoten statt eines Skalars ein Vektor mit Nkey Indizes zu.
Lernen
Für das Ausführungsbeispiel ist es Ziel des Lernens (Trainings), einen möglichst hohen Wert dieser Likelihoodfunktion im Parameterraum zu orten, gleichzeitig aber überflüssige Parameter nach Möglichkeit zu vermeiden. In der Ausführungsform erfolgt das Lernen durch Initialisierung, Optimierungsschritte und Komplexitätsreduktion wie folgt:
Initialisierung Univariate Analyse
Bevor das gesamte Netz mit allen Gewichten trainiert wird, ist es vorteilhaft, eine univariate Analyse für jeden Faktor durchzuführen. Diese Analyse hat mehrere Anwendungen:
• Die univariate Stärke der Faktoren bzw. deren einzelne prognostische Güte steht für den Vergleich mit dem vollständigen Netz zur Verfügung.
• Univariate Analyse dient zur Bestimmung einer Rangfolge der Faktoren für den Fall, dass weniger Eingangsknoten als Faktoren vorhanden sind.
• Eine Vorbesetzung der Gewichte, die nichtlineare Konfigurationen begünstigt, oder wenigstens nicht benachteiligt, läßt sich aus den univariaten Analysen bilden (siehe unten).
Zunächst wird ein exponentielles Überlebensmodell mit dem einzigen Parameter λ0 bestimmt. Dieses Modell dient zur Initialisierung und in der nachfolgenden Analyse außerdem zur Kontrolle.
Lineare univariate Modelle
Der nach Gl. (1a) transformierte Wert des j-ten Faktors Xj wird als einzelner Eingang in ein „Netzwerk" betrachtet, das aus genau einem linearen Konnektor von diesem Eingangsneuron zu einem Ausgangsknoten besteht (d.h., ohne versteckte Knoten). Die Zeitabhängigkeit dieses Ausgangsknotens entspricht dem „Proportional-Hazards-Modell" (K=1) für zensierte Daten. Das daraus resultierende Modell hat nur noch zwei freie Parameter: der Zeitparameter (λ0) und das Gewicht des Konnektors. Diese werden optimiert und zusammen mit der Güte (Likelihood) und der Signifikanz für nachfolgende Zwecke in einer Tabelle gespeichert.
Nichtlineare univariate Modelle
Als nächstes wird jeweils für jeden Faktor eine Anpassung mit vier Parametern an ein nichtlineares univariates Modell vorgenommen. Hier wird die Transformation des j-ten Faktors mit dem Ergebnis Xj als „Eingangsneuron" betrachtet. Das univariate „Netzwerk" besteht nun aus diesem einen Eingangsneuron, einem einzigen versteckten Neuron, und einem einzigen Ausgangsneuron (ohne linearen Konnektor zwischen Eingangs- und Ausgangsneuron). Die Zeitabhängigkeit dieses Ausgangsknotens entspricht wie oben dem „Proportional-Hazards- Modell" (K=1) für zensierte Daten.
Die vier Parameter entsprechen jeweils der Zeitkonstante (λ0), dem Gewicht und dem Bias zur versteckten Schicht, sowie dem Gewicht zur Ausgangsschicht. Diese werden optimiert und zusammen mit der Güte (Likelihood) und der Signifikanz für nachfolgende Zwecke in einer Tabelle gespeichert.
Rangfolge der Eingangsvariablen
Nachdem für jeden Faktor die univariaten Modelle bestimmt worden sind, wird die Rangfolge der univariat signifikanten Faktoren gemäß der Beträge der linearen Gewichte bestimmt. Die Numerierung der Eingangsknoten für die nachfolgende Analyse entspricht dieser Rangfolge. Für den Fall, dass weniger Eingangsknoten als Faktoren zur Verfügung stehen, erlaubt diese Prozedur eine objektive Vorselektion der "wichtigsten" Faktoren.
Vorbesetzung der Gewichte
Für die Optimierung des Netzes (Trainieren) müssen zunächst Anfangswerte für die Gewichte gesetzt werden. Hierbei wird eine Vorbesetzung mit dem genauen Wert Null nicht angestrebt. In der Ausführungsform werden zunächst die Gewichte der linearen Konnektoren wie üblich mit kleinen Werten vorbesetzt. Der Zeitparameter wird mit dem aus dem 1-parametrigen Modell bestimmten Wert λ0 vorbesetzt. Die Anzahl der versteckten Knoten H wird gleich der Anzahl der Eingangsknoten J gewählt. Nun wird der Konnektor von Eingangsneuron j zum versteckten Neuron mit dem gleichen Index h=j zunächst mit dem unter "nichtlineare univariate Modelle" bestimmten Gewicht vorbesetzt. Der entsprechende Bias wird analog mit dem so bestimmten Bias vorbesetzt. Diese beiden Größen werden dann um einen kleinen zufälligen Betrag versetzt. Daher entspricht jeder Ausgang eines versteckten Knotens etwa dem univariat optimalen nichtlinearen Wert.
Für jeden versteckten Knoten h steht der Wert des aus der univariaten Optimierung gewonnenen Gewichts, die wir hier als whι bezeichnen, zum ersten Neuron der Ausgangsschicht ebenso zur Verfügung. Um nun die Gewichte zur Ausgangsschicht zu Initialisieren, werden die Größen wM , h=1,...,H mit H Zufallszahlen gewichtet. Man wählt in der Ausführungsform dazu H Zahlen aus einer Gleichverteilung auf [0,1] und dividiert jede Zahl durch die Summe. Anschließend werden diese und alle übrigen Konnektoren (d.h., Gewichte von der versteckten Schicht zu Neuronen der Ausgangsschicht mit k=2, usw.) um einen kleinen zufälligen Betrag versetzt.
Eine zweite, für neuronale Netze üblichere Möglichkeit der Initialisierung besteht darin, allen Konnektoren kleine, zufällige Gewichte zuzuordnen. Damit befinden sich am Anfang der Optimierung alle Verknüpfungen, auch die über die versteckte Schicht, im linearen Bereich. Für kleine Argumente ist die "Aktivierungsfunktion" fast linear, z.B., tanh(x) « x für kleines x.
Lineare Statistik der Eingangsfaktoren
In der Ausführungsform wird die Kovarianzmatrix aller Eingangsfaktoren berechnet und gespeichert. Bestimmt wird auch eine lineare Regression jedes Faktors auf alle andere Faktoren: X2 » A Xi + B. Eigenvektoren und Eigenwerte der Kovarianzmatrix werden berechnet und protokolliert. Die linearen Beziehungen werden in der Ausführungsform für die verschiedenen Ausdünnungsverfahren verwendet.
Zuordnung der Patientendaten in Trainings- und Validierungsmengen
Für ein lernfähiges System ist es üblich, die vorhandenen Muster zufällig in Trainings- Validierungs- und Generalisierungsmengen zu unterteilen. Beispielsweise kann der Benutzer Prozentsätze (auch null) aller Muster vorgeben, die für die Validierung bzw. Generalisierung reserviert sind. Die Generalisierungsmenge wird zum Training überhaupt nicht berücksichtigt, um nachträglich eine vollständig unvoreingenommene Überprüfung der Güte zu ermöglichen. Die Güte auf der Validierungsmenge, falls vorhanden, wird im Laufe der Optimierung mehrfach zur Überprüfung verwendet: Die Güte auf der Validierungsmenge liefert ein unabhängiges Maß für den Fortschritt der Optimierung auf der Basis der Trainingsmenge und dient außerdem zur Vermeidung von Überanpassung.
Wahl der Faktoren
In der Ausführungsform besteht die Möglichkeit, Untermengen der Faktoren heranzuziehen, um beispielsweise Modelle für solche zukünftigen Muster zu gewinnen, für die nur diese Untermenge der Faktoren zur Verfügung steht. Netzoptimierung
Simplex-Optimierung
Bei der Optimierung geht es um die Suche nach einem Maximum der Likelihoodfunktion, bezogen auf die Daten der Trainingsmenge. Der Parameterraum der Suche besteht aus den n-K noch aktiven Netzgewichten zusammen mit den globalen Zeitkonstanten λfc_, k=1,...,K. Daraus ergibt sich ein n-dimensionaler Raum, in dem die Suche erfolgt.
Die in der Ausführungsform implementierte Methode der Suche bedient sich der Konstruktion von einem n-fachen Simplex in diesem Raum nach der bekannten Methode von Neider und Mead (1965). Die Suche erfordert die Bildung einer n-dimensionalen Simplex im Parameterraum. Eine Simplex läßt sich durch Vorgabe von n+1 nicht entarteten Ecken bestimmen, d.h., die entsprechenden Kanten sind alle linear unabhängig voneinander. Sie umfaßt somit eine n-dimensionale Punktwolke im Parameterraum. Die Optimierungssuche erfolgt in Epochen. Während jeder Epoche wird die Gütefunktion auf der Trainingsmenge an verschiedenen Stellen im Parameterraum ausgewertet, nämlich am aktuellen Ort sowie an n weiteren Ecken, die durch Zusammensetzung von Operationen wie Reflexion, Expansion/Kontraktion in einer Richtung, usw., definiert sind. Die Richtungen dieser Operationen werden auf der Basis der Werte der Gütefunktion an den zur vorigen Epoche definierten Ecken automatisch gewählt. Die Abnahme der Gütefunktion in der Ausführungsform ist monoton, und die Suche endet immer bei einem (wenigstens lokalen) Minimum.
Berücksichtigung der Validierungsmenge
Die oben beschriebene Validierungsmenge dient, falls vorhanden, zur Kontrolle des Optimierungsfortschritts und zur Vermeidung von Überanpassung.
Als Kennzahlen der augenblicklichen Güte der Optimierung bezüglich der Trainings- und Validierungsmengen werden in der Ausführungsform laufend die Größen Minus Log-likeiihood pro Muster der beiden Mengen berechnet und ausgegeben. Während diese Kennzahl auf der Trainingsmenge monoton abnehmen muß, sind vorübergehende Schwankungen der entsprechenden Kennzahl auf der Validierungsmenge möglich, ohne dass eine Überanpassung bereits stattgefunden hat. Ein monotoner Anstieg der Kennzahl auf der Validierungsmenge sollte jedoch zum Abbruch der weiteren Optimierung und zu einer Komplexitätsreduktion führen. Dieser Art der Abbruch stellt eine Art Notbremse für die Vermeidung von Überanpassung vor.
Ein mögliches Abbruchkriterium, das automatisch durchgeführt werden kann, wird durch die Führung der exponentieli geglätteten Güte der Validierungsmenge erreicht. Falls diese geglättete Kenngröße das bisherige Minimum des aktuellen Optimierungsschritts um einen festen Prozentsatz überschreitet (Verschlechterung der Güte), wird die Optimierung abgebrochen. Eine prozentuale Zunahme von etwa 1 % Toleranz wurde als Erfahrungswert für typische Größen der Trainingsmenge um die 300 oder mehr Datensätze festgestellt. Bei dieser Toleranz und bei etwa gleicher Größe von Trainings und Validierungsmengen wird das Training öfter durch die Erreichung eines Minimums auf der Trainingsmenge gestoppt als durch die Verschlechterung der Güte auf der Validierungsmenge. Dieser "normale" Abbruch ist bevorzugt, weil eine (fast) monotone Verbesserung der Güte auf der Validierungsmenge ein Zeichen darstellt, dass das neuronale Netz echte zugrunde liegenden Strukturen, und nicht einfach das Rauschen, erkannt hat.
Im Beispiel für die Ausführungsform wurde keine Validierungsmenge verwendet. Somit erfolgt der Abbruch allein aufgrund des Minimums auf der Trainingsmenge.
Strukturoptimierung und Komplexitätsreduktion
Aus der für die Ausführungsform beschriebenen Simplexoptimierung resultiert ein Satz von Gewichten {wpj, ... w[n]} und anderen Parametern, welche ein lokales Minimum der negativen Log-Likelihood bestimmen. (Die Numerierung [1] ... [n] der Gewichte in diesem Zusammenhang beinhaltet nicht die topologische Ordnung der Gewichte.) Dieses Minimum bezieht sich auf die feste Zahl n der Gewichte und eine feste Topologie. Um Überanpassung zu vermeiden, ist es wünschenswert, durch eine Ausdünnung der Gewichte die Komplexität zu verringern, soweit dies ohne einen signifikanten Verlust der Güte möglich ist.
Ausdünnung (Pruning) bezeichnet die Deaktivierung von Konnektoren. Dazu werden deren Gewichte auf einen festen Wert "eingefroren" (in der Ausführungsform null, wobei man auch vom "Entfernen" sprechen kann). Es ist im Prinzip möglich, einzelne Gewichte oder auch ganze Knoten zu entfernen. Im letzteren Fall werden alle Gewichte deaktiviert, die entweder in den zu entfernenden Knoten einführen oder aus dem Knoten weiterführen.
In der Ausführungsform wird eine Phase der Komplexitätsreduktion im Netz im Anschluß an einer Optimierungsphase (Simplex-Verfahren) durchgeführt. Der erste Schritt dazu ist die „Ausdünnung" einzelner Konnektoren. Im Anschluß werden Kombinationen aus verschiedenen Konnektoren im Hinblick auf Redundanz getestet. Schließlich wird die Konsistenz der Topologie überprüft und gegebenenfalls Konnektoren bzw. Knoten entfernt, die aufgrund der bisherigen Entfernung anderer Konnektoren und Knoten nicht mehr zur Aussage beitragen können. Diese Prozedur ist zwar nicht Gegenstand der Erfindung, gehört jedoch zur guten Praxis gemäß dem Stand der Technik.
Zur Komplexitätsreduktion werden in der Ausführungsform automatisch verschiedene statistische Hypothesen gebildet, die mittels eines Likelihood-ratio-tests bezüglich eines vorgegebenen Signifikanzniveaus überprüft werden. Bestimmte Gewichte bzw. Parameter werden hierbei als obligatorisch betrachtet werden, d.h., sie werden auf keinen Fall entfernt. Dazu gehören die globalen Zeitparameter λ0k.
Rangfolge der Konnektoren
Um die Reihenfolge der zu überprüfenden Konnektoren festzustellen, wird in der Ausführungsform zunächst die Testgröße log(Likelihood-Ratio) gebildet. Dabei stellt man sich für jedes Gewicht wIA] zwei Netzwerke vor:
• Das Netz mit allen aktuellen Gewichten (n Freiheitsgrade), einschließlich w[A].
• Das Netz mit allen aktuellen Gewichten außer w[A], das deaktiviert wird (n-1 Freiheitsgrade).
Beim Netz mit w[A] deaktiviert werden die übrigen Gewichte bei den aktuell optimierten Werten eingefroren.
Testing
Nachdem eine Rangfolge {wm, ... wι} der Gewichte gemäß dem "Likelihood-ratio" bekannt ist, werden in der Ausführungsform die in dieser Reihenfolge zwecks der Ausdünnung getestet, bis maximal Gmax Gewichte zu entfernen sind. Angenommen, A-1 Gewichte sind bereits entfernt worden, kann man für das A-te zusätzliche Gewicht der Reihenfolge w[A] zwei Hypothesen testen.
• Teststatistik für die Hypothese HA-ι : Likelihood-Ratio für das Netz mit Gewichten {wm ... WrA-i] } deaktiviert (n-A+1 Freiheitsgrade)
• Teststatistik für die Hypothesis HA : Likelihood-Ratio für das Netz mit Gewichten {wm ... w[A] } deaktiviert (n-A Freiheitsgrade)
Die Hypothese HA wird nun zweimal getestet: • HA versus HA-ι und
• HA versus H.
Die Signifikanz wird mit dem Chi-Quadrat-Test bezüglich des Likelihood-Ratios angewandt. Falls bei einer der beiden Vergleiche HA angenommen wird (Ausdünnung von A ergibt eine signifikante Verschlechterung), wird der Konnektor A nicht entfernt, und der Ausdünnungsschritt wird beendet.
Beim Deaktivieren wird der Konnektor aus der Liste der aktiven Konnektoren entfernt und das zugehörige Gewicht eingefroren (meinstens gleich null).
Während einer Ausdünnungsphase wird in der Ausführungsform die Zahl G der entfernten Konnektoren auf eine maximale Zahl begrenzt, wobei n die Anzahl der verbleibenden Konnektoren ist.
Weitere Komplexitätsreduktion
In der Ausführungsform werden durch paarweise Analyse der Gewichte im Hinblick auf die Likelihood der Daten und unter Berücksichtigung verschiedener Korrelationseigenschaften weitere Konnektoren entfernt. Dieser Schritt ist jedoch nicht zwingend erforderlich für die Funktion des lernfähigen Modells und kann daher weggelassen werden. Ebenso ist es möglich, die Erfindung mit anderen Techniken zur Komplexitätsreduktion, die in verschiedenen lernfähigen Systemen eventuell bereits implementiert sind, zu verbinden.
Überprüfung der Topologie
Ausdünnung oder Entfernung einzelner Konnektoren kann zur Isolierung eines Knotens von Eingangssignalen, Ausgangssignalen, oder (im Falle eines versteckten Neurons) von beiden führen. In diesem Fall wird in der Ausführungsform ein Deaktivierungsflag für den Knoten gesetzt. Für Neuronen der Ausgangsschicht bedeutet z.B. "Isolierung", dass weder von der Eingangsschicht, noch von der versteckten Schicht aktive Konnektoren vorhanden sind. Falls alle Konnektoren von einem Eingangsneuron zur versteckten und zur Ausgangsschicht entfernt worden sind, ist der Bias der linearen Konnektoren auch zu deaktivieren.
Ein verstecktes Neuron, das von allen Eingängen isoliert worden ist, kann noch mit Ausgängen verbunden ist. Die "eingefrorenen" Beiträge solcher versteckter Neuronen zum Ausgang sind dann redundant, weil sie im Prinzip nur die Biaswerte der übrigen, aktiven Konnektoren verändern. Daher werden solche Neuronen deaktiviert, und verbleibende Konnektoren zur Ausgangsschicht werden entfernt.
Die verschiedenen Überprüfungen können zur weiteren Isolierung von Knoten führen. Deshalb wird die Prozedur solange iteriert, bis die Topologie konstant bleibt.
Beenden des Trainings und Ausgabe
Wenn nach der letzten Simplex-Optimierung keine weiterere Komplexitätsreduktion möglich ist, wird in der Ausführungsform das Training beendet. Alle Gewichte und sonstige Parameter erhalten ihre endgültigen Werte, die in hierfür angelegten Dateien gespeichert werden.
Somit ist das trainierte neuronale Netz eindeutig bestimmt. Durch Einlesen dieser gespeicherten Werte kann entweder gleich anschließend oder zu einem zukünftigen Zeitpunkt das trainierte neuronale Netz gemäß der obigen Beschreibung verwendet werden, um für beliebige Daten, welche die unabhängigen Faktoren („Kovariaten") x enthalten, die Ausgabewerte und somit die oben definierten Funktionen fk(t), λk (_), und Sk(f), zu den Kovariaten x zu gewinnen. Mit diesen Funktionen ist das Wahrscheinlichkeitsmodell nun bestimmt.
Insbesondere ist es selbstverständlich möglich, den Verlauf dieser Funktionen in Abhängigkeit von gewählten Faktoren, auszurechnen. Eine solche abhängige Bestimmung ist zur Evaluierung der erwarteten Wirkung eines Therapiekonzeptes sinnvoll, wenn die zu bewertenden Therapien als „Faktoren" zum Training verwendet worden sind.
Beispiel
Daten
Zur Veranschaulichung der Funktionsweise der Erfindung in der Ausführungsform wurden zunächst 1000 fiktive Patientendatensätze mit 9 Faktoren (Kovariaten) mittels eines Zufallsgenerators erzeugt. Die ersten 7 Faktoren wurden als Realisierungen einer multivariaten Gaußverteilung erzeugt. Hierfür wurden im Ausführungsbeispiel Mittelwerte und Varianzen der Faktoren und eine Kovarianzmatrix vorgegeben: Faktor x'yj?0 χer XPJ xa .Qe χtum xujpa xpai
Mittelwert ÖΪ50 Ö45 Ö.45 5.5Ö Ö.5Ϊ Ö.5Ö Ö.5Ö
Varianz 0.071 0.087 0.097 0.083 0.083 0.084 0.083
Die angenommene Kovarianzmatrix war
xlypo : xer ; xpr : xage : xtum ; xupa : xpai xlypo 1.00 -0.06 -0.09 0.03 0.42 0.02 0.05 xer -0.06 1.00 0.54 0.29 -0.07 -0.18 -0.19 xpr -0.09 0.54 1.00 0.03 -0.06 -0.07 -0.14 xage 0.03 0.29 0.03 1.00 0.04 0.02 0.00 xtum 0.42 -0.07 -0.06 0.04 1.00 0.03 0.06 xupa 0.02 -0.18 -0.07 0.02 0.03 1.00 0.54 xpai 0.05 -0.19 -0.14 0.00 0.06 0.54 1.00
Um eine möglichst realistische Situation darzustellen wurden diese Werte in der Größenordnung so gewählt, wie sie in der wissenschaftlichen Literatur im Falle des Mammakarzinoms für bestimmte Faktoren bekannt sind. Für die Funktion der Erfindung sind die genauen Annahmen sowie die Interpretation der Faktoren jedoch völlig unerheblich.
Neben den sieben benannten Faktoren wurden zwei weitere binäre Faktoren („Therapien") „et" und „ht" zufällig erzeugt. Für ht wurden zufällig 50 % der Wert 1 , 50 % der Wert 0 zugeordnet. Im Ausführungsbeispiel für et wurden nur 1 % der Wert 1 , 99 % der Wert 0 zugeordnet. Somit ist zu erwarten, daß et nicht im neuronalen Netz als Einflußfaktor erkannt wird.
Die ersten zehn der hieraus resultierenden Datensätze sind wie folgt:
Patienten- xlypo xer xpr xage xtum xupa xpai et ht Nummer
1 0.07 0.89 1.41 0.36 0.49 0.31 0.22 0 1
2 0.25 0.23 0.98 0.15 0.10 0.31 0.05 0 0
3 0.56 0.52 0.79 0.09 0.22 -0.22 -0.07 0 1
4 0.61 0.83 1.10 0.73 0.56 0.21 0.44 0 1
5 0.97 0.38 0.70 0.61 0.51 0.97 0.72 0 0
6 0.44 0.22 0.07 0.90 0.80 0.60 0.55 0 1
7 0.46 0.24 0.47 0.14 0.60 0.57 0.31 0 0
8 0.42 0.60 0.41 0.36 0.54 0.23 0.47 0 0
9 -0.01 0.22 0.80 0.52 0.38 -0.13 0.41 0 0
10 0.80 0.41 0.19 0.11 0.45 0.40 0.51 0 0
Für den Einfluß der Faktoren auf einen Krankheitsverlauf wurden zunächst drei unabhängige Risikowahrscheinlichkeiten risk(i), i=1,3 erzeugt. Folgendes Modell wurde unterstellt: risk(1)=exp(r1+r2+r3+r4-rh) risk(2)=exp(rι+r3+r4) risk(3)=exp(r-ι) mit r-ι-2 (xlypo-median(xlypo)) r2=0,5 (xtum-median(xtum)) r3=0, 75 (xupa-median(xupa)) r4=1,5 (xpai-median(paimed)) und r = 1 falls ht=1.
Aus diesen Risikowerten wurden tatsächliche Versagenszeiten der drei Ausprägungen als zufällige Realisierungen einer Exponentialverteilung bzw. einer modifizierten Exponentialverteilung mit Zeitkonstante 200 Monate erzeugt. Für die 3. Ausprägung wurde zusätzlich angenommen, daß ein Versagen nach spätestens 24 Monaten möglich ist, um eine Situation mit konkurrierenden Risiken ähnlich dem Lokalrezidiv beim Mammakarzinom zu erzeugen. Diese Daten wurden gemäß einer simulierten „Studie" zensiert, und eine „Beobachtung" wurde nach dem Schema der unter Abbildung 1 dargestellten Priorität simuliert.
Aus dem im Ausführungsbeispiel unterstellten Modell geht hervor, daß für das Versagen der 3. Ausprägung nur der Faktor „xlypo" kausal ausschlaggebend ist. Dennoch besteht ein indirekter Zusammenhang zwischen den übrigen Faktoren und den Beobachtungen der 3. Ausprägung, weil erhöhte Risiken der übrigen Faktoren die Wahrscheinlichkeit für eine Beobachtung des Versagens der 3. Ausprägung senken können. Diese Eigenschaft des unterstellten Modells ist zwar unerheblich für die Funktion der Erfindung, veranschaulicht aber einen typischen Nutzen.
Trainiertes neuronales Netz
Die Neuronen der Ausgangsschicht werden gemäß den Gleichungen 4 bis 7 und 10 mit Ntime = 1 und Nkey = 3 zugeordnet, so daß 3 Neuronen der Ausgangsschicht ursprünglich aktiv sind. Für die Ausführungsform werden jeweils 9 Neuronen der Eingangs- bzw. der versteckten Schicht ursprünglich aktiviert. Das nach der beschriebenen Methode trainierte neuronale Netz wird in der Figur 3 veranschaulicht („xpai" und „xpail" sind identisch). Man beachte, dass zum Ausgang „O3" nur ein Konnektor vorhanden ist, und zwar vom Knoten (Neuron) „xlypo". Die Ausgänge 01 bis 03 sind den Risiken ,,risk(1)" bis ,,risk(3)" zugeordnet.
Eine vollständige eindeutige Darstellung des trainierten neuronalen Netzes erfolgt durch Angabe der verbleibenden Konnektoren mit ihren zugehörigen Gewichten und Bias-Werten sowie durch die Überlebenszeitskalen. Hierfür werden in der Tabelle 2a für jedes Neuron, zu dem ein aktiver Konnektor führt („tgt"), alle Quellen („src") mit den entsprechenden Gewichten („wt") angegeben. Man beachte, daß viele Konnektoren nicht mehr aktiv sind.
tgt src wt src wt src wt src wt src wt src wt src wt src wt src wt h1 ht 13.5 h6 xlypo 0.53 xupa -1.78 xtum 1.02 h7 xer 1.98 xpr -1.37 h8 xage 1.70 h9 xpr 2.31 o1 h1 -1.70 h6 0.30 ht -1.10 xlypo 0.19 xpai 0.72 xupa 0.63 xtum 0.22 o2 h1 2.03 h6 -0.68 h7 -0.86 h8 0.33 h9 -0.64 xlypo 0.64 xpail 0.91 xer 0.56 xage -0.42 o3 xlypo 2.39
Tabelle 2a
Die Bias-Werte sind wie in der Tabelle 2b angegeben:
ht xlypo xpai xupa xtum et xer xage xpr h1 h2 h3 h4 h5 h6 h7 h8 h9 o1 o2 o3 0.17 0.16 Ö Ö (5 Ö Ö Ö 0 -0.94 Ö Ö Ö 0 0.86 1.31 0 2.07 1.03 0.66 -0.11
Tabelle 2b: Bias Werte (automatisch 0 für inaktive Neuronen)
Die Werte der für die Spezifikation des Modells der Gleichung 6 notwendigen Überlebenszeitskalen λ0k sind schließlich der Tabelle 2c zu entnehmen (die Einheiten dieser Angaben entsprechen sinnvollerweise der obigen Zeitkonstante von 200 Monaten):
λ_1 ^02 Λ03
0.53/200 0.13/200 0.27/200
Tabelle 2c
Zeitliche Variation
Um zeitlich variierende Ausgangsneuronen zu verwenden, könnte statt Ntime = 1 wie hier verwendet ein höherer Wert eingesetzt werden. Die Anzahl der Ausgangsneuronen bestimmt sich dann aus der Gleichung 10.d. Im Falle Nkey = 3 und time = 2 wäre dann z.B. N0 = 6. Das Training würde auf die bisher beschriebene Weise erfolgen. Die eventuellen zeitlichen Variationen der verschiedenen Ausprägungen könnten im Rahmen des Modells der Gleichungen 4 bis 7 unabhängig von einander bestimmt werden, die Aufgabe der Erfassung konkurrierender Risiken würde hierdurch insbesondere keinesfalls beeinträchtigt werden.

Claims

Patentansprüche
1. Verfahren zur Ermittlung konkurrierender Risiken für Objekte nach einem Anfangsereignis auf Grundlage bereits gemessener oder sonst objektivierbarer Trainingsdatensätze, in welchem mehrere aus einem lernfähigen System gewonnene Signale in einer objektiven Funktion so kombiniert werden, dass das lernfähige System die zugrunde liegenden Wahrscheinlichkeiten der jeweiligen konkurrierenden Risiken erkennen oder vorhersagen kann.
2. Verfahren nach Anspruch 1 , in welchem für die Trainingsdatensätze gemessene oder in sonstiger Weise objektiv erfaßte Daten des Anfangsereignisses und einer Nachbeobachtung bis zu einem vorgegebenen Zeitpunkt verwendet werden.
3. Verfahren nach Anspruch 2, in welchem der letzte Zeitpunkt der Nachbeobachtung explizit in den Trainingsdatensätzen verwendet wird.
4. Verfahren nach einem der vorangegangenen Ansprüche, in welchem bei der Beobachtung einer Versagensausprägung zu einem Zeitpunkt die anderen Ausprägungen ausgeschlossen werden.
5. Verfahren nach einem der vorangegangenen Ansprüche, in welchem die objektive Funktion L in Abhängigkeit einer Funktion P gegeben ist:
wobei μ die Parameter des lernfähigen Systems, fLS(k x (ty ) die Versagensrate der Ausprägung k und Sω(fc x } (t. ) den Erwartungswert des Anteils an Objekten j mit beobachteten Merkmalen x;-, welche kein Versagen der Ausprägung k zum Zeitpunkt tj erleiden, bezeichnen und P aufgrund des logischen Zusammenhangs aus δjk bestimmt wird, mit δjk =1, wenn ein Objekt; ein Versagen der Ausprägung k zum Zeitpunkt ty erlitten hat und sonst δjk = 0.
6. Verfahren nach Anspruch 5, in welchem als objektive Funktion verwendet wird, wobei εJk und ψjk aufgrund des logischen Zusammenhangs aus δjk bestimmt werden.
7. Verfahren nach Anspruch 6, in welchem
Uμ;{τJ,tJJt}) itj)} }Jk als objektive Funktion verwendet wird.
8. Verfahren nach einem der vorangegangenen Ansprüche, in welchem ein neuronales Netz als lernfähiges System verwendet wird.
9. Verfahren nach Anspruch 8, in welchem ein neuronales Netz der Architektur MLP (multilayer Perzeptron) verwendet wird.
10. Verfahren nach einem der Ansprüche 1 - 7, in welchem das lernfähige System eine rekursive Partitionierung durchführt, wobei
jedem Objekt einem Knoten zugeordnet wird,
jedem Knoten die Häufigkeiten oder Wahrscheinlichkeiten aller Ausprägungen zugeordnet wird, und
die Partionierung so durchgeführt wird, dass die objektive Funktion optimiert wird, die diese Häufigkeiten oder Wahrscheinlichkeiten statistisch berücksichtigt.
11. Verfahren nach einem der vorangegangenen Ansprüche, in welchem das lernfähige System im Rahmen einer Entscheidungshilfe verwendet wird.
12. Verfahren nach einem der vorangegangenen Ansprüche, in welchem den verschiedenen Wahrscheinlichkeitsfunktionen der konkurrierenden Risiken Werte zur Ermittlung einer Strategie zugeordnet werden.
EP01999919A 2000-12-07 2001-12-07 Verfahren zur ermittlung konkurrierender risiken Withdrawn EP1384199A2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10060928 2000-12-07
DE10060928 2000-12-07
PCT/EP2001/014411 WO2002047026A2 (de) 2000-12-07 2001-12-07 Verfahren zur ermittlung konkurrierender risiken

Publications (1)

Publication Number Publication Date
EP1384199A2 true EP1384199A2 (de) 2004-01-28

Family

ID=7666201

Family Applications (1)

Application Number Title Priority Date Filing Date
EP01999919A Withdrawn EP1384199A2 (de) 2000-12-07 2001-12-07 Verfahren zur ermittlung konkurrierender risiken

Country Status (4)

Country Link
US (1) US7395248B2 (de)
EP (1) EP1384199A2 (de)
AU (1) AU2002216080A1 (de)
WO (1) WO2002047026A2 (de)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1388812A1 (de) * 2002-07-04 2004-02-11 Ronald E. Dr. Kates Trainingsverfahren für lernfähiges System
US7485390B2 (en) 2003-02-12 2009-02-03 Symyx Technologies, Inc. Combinatorial methods for preparing electrocatalysts
WO2005024717A1 (de) * 2003-09-10 2005-03-17 Swiss Reinsurance Company System und verfahren zur automatisierten erfahrungstarifierung und/oder schadensreservierung
US8096811B2 (en) * 2003-11-29 2012-01-17 American Board Of Family Medicine, Inc. Computer architecture and process of user evaluation
US20070239496A1 (en) * 2005-12-23 2007-10-11 International Business Machines Corporation Method, system and computer program for operational-risk modeling
US7747551B2 (en) * 2007-02-21 2010-06-29 Neurovista Corporation Reduction of classification error rates and monitoring system using an artificial class
DE102007044919A1 (de) * 2007-09-19 2009-04-02 Hefter, Harald, Prof. Dr. med. Dr. rer. nat. Verfahren zur Bestimmung von sekundärem Therapieversagen
US8949671B2 (en) * 2008-01-30 2015-02-03 International Business Machines Corporation Fault detection, diagnosis, and prevention for complex computing systems
DE202009018243U1 (de) * 2009-02-17 2011-05-19 GEMAC-Gesellschaft für Mikroelektronikanwendung Chemnitz mbH, 09116 Vorrichtung zur agglutinationsbasierten Erkennung von spezifischen Erkrankungen über einen Bluttest
US20130096878A1 (en) 2010-06-24 2013-04-18 Valtion Teknillinen Tutkimuskeskus State inference in a heterogeneous system
US8620720B2 (en) * 2011-04-28 2013-12-31 Yahoo! Inc. Embedding calendar knowledge in event-driven inventory forecasting
US9235799B2 (en) * 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
US8738421B1 (en) * 2013-01-09 2014-05-27 Vehbi Koc Foundation Koc University Driver moderator method for retail sales prediction
US20150032681A1 (en) * 2013-07-23 2015-01-29 International Business Machines Corporation Guiding uses in optimization-based planning under uncertainty
AU2016243106B2 (en) 2015-03-27 2020-10-01 Equifax, Inc. Optimizing neural networks for risk assessment
US10535009B2 (en) 2016-11-07 2020-01-14 Equifax Inc. Optimizing automated modeling algorithms for risk assessment and generation of explanatory data
US11321612B2 (en) 2018-01-30 2022-05-03 D5Ai Llc Self-organizing partially ordered networks and soft-tying learned parameters, such as connection weights
US11461655B2 (en) * 2018-01-30 2022-10-04 D5Ai Llc Self-organizing partially ordered networks
US10832137B2 (en) 2018-01-30 2020-11-10 D5Ai Llc Merging multiple nodal networks
US10558913B1 (en) * 2018-10-24 2020-02-11 Equifax Inc. Machine-learning techniques for monotonic neural networks
US11468315B2 (en) 2018-10-24 2022-10-11 Equifax Inc. Machine-learning techniques for monotonic neural networks

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5862304A (en) * 1990-05-21 1999-01-19 Board Of Regents, The University Of Texas System Method for predicting the future occurrence of clinically occult or non-existent medical conditions
DE4224621C2 (de) * 1992-07-25 1994-05-05 Boehringer Mannheim Gmbh Verfahren zur Analyse eines Bestandteils einer medizinischen Probe mittels eines automatischen Analysegerätes
US5943663A (en) * 1994-11-28 1999-08-24 Mouradian; Gary C. Data processing method and system utilizing parallel processing
US5701400A (en) * 1995-03-08 1997-12-23 Amado; Carlos Armando Method and apparatus for applying if-then-else rules to data sets in a relational data base and generating from the results of application of said rules a database of diagnostics linked to said data sets to aid executive analysis of financial data
US5812992A (en) * 1995-05-24 1998-09-22 David Sarnoff Research Center Inc. Method and system for training a neural network with adaptive weight updating and adaptive pruning in principal component space
US6125105A (en) * 1997-06-05 2000-09-26 Nortel Networks Corporation Method and apparatus for forecasting future values of a time series
DE19940577A1 (de) * 1999-08-26 2001-03-01 Wilex Biotechnology Gmbh Verfahren zum Trainieren eines neuronalen Netzes
US6606615B1 (en) * 1999-09-08 2003-08-12 C4Cast.Com, Inc. Forecasting contest
US20040122702A1 (en) * 2002-12-18 2004-06-24 Sabol John M. Medical data processing system and method
JP4177228B2 (ja) * 2003-10-24 2008-11-05 三菱電機株式会社 予測装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None *
See also references of WO0247026A3 *

Also Published As

Publication number Publication date
US7395248B2 (en) 2008-07-01
US20040073096A1 (en) 2004-04-15
WO2002047026A3 (de) 2003-11-06
WO2002047026A2 (de) 2002-06-13
AU2002216080A1 (en) 2002-06-18

Similar Documents

Publication Publication Date Title
WO2002047026A2 (de) Verfahren zur ermittlung konkurrierender risiken
DE102016203546B4 (de) Analysator zur verhaltensanalyse und parametrisierung von neuronaler stimulation
DE112018002822T5 (de) Klassifizieren neuronaler netze
DE112011101370T5 (de) Neuronales Netz mit kanonischen gepulsten Neuronen für einen raumzeitlichen Assoziativspeicher
DE10237310A1 (de) Verfahren, Datenverarbeitungseinrichtung und Computerprogrammprodukt zur Datenverarbeitung
DE102007001026A1 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE10296704T5 (de) Fuzzy-Inferenznetzwerk zur Klassifizierung von hochdimensionalen Daten
DE102012009502A1 (de) Verfahren zum Trainieren eines künstlichen neuronalen Netzes
EP1934895A2 (de) Verfahren zum rechnergestützten lernen eines neuronalen netzes und neuronales netz
DE60125536T2 (de) Anordnung zur generierung von elementensequenzen
EP1456798A2 (de) Auswerten von mittels funktionaler magnet-resonanz-tomographie gewonnenen bildern des gehirns
DE102018204514A1 (de) Handhaben einer signalsättigung in gepulsten neuronalen netzen
EP1232478B1 (de) Verfahren zum trainieren eines neuronalen netzes
DE112021003761T5 (de) Prädiktive modelle mit zerlegbaren hierarchischen ebenen, die konfiguriert werden, um interpretierbare resultate zu erzeugen
DE102021124256A1 (de) Mobile ki
EP0890153B1 (de) Verfahren zur ermittlung von zur entfernung geeigneten gewichten eines neuronalen netzes mit hilfe eines rechners
EP3739592A1 (de) Dezentralisiert gesteuerte bildgebungsbasierte patientendatengewinnung
EP0978052B1 (de) Rechnergestütztes verfahren zur auswahl von trainingsdaten für ein neuronales netz
DE112022001973T5 (de) Vorhersage von medizinischen ereignissen mit hilfe eines personalisierten zweikanal-kombinator-netzwerks
DE112020004025T5 (de) Gegnerisches und koopoeratives Nachahmungslernen zur dynamischen Behandlung
EP1359539A2 (de) Neurodynamisches Modell der Verarbeitung visueller Informationen
EP1114398B1 (de) Verfahren zum trainieren eines neuronalen netzes, verfahren zur klassifikation einer folge von eingangsgrössen unter verwendung eines neuronalen netzes, neuronales netz und anordnung zum trainieren eines neuronalen netzes
DE102019216973A1 (de) Lernverfahren für neuronale netze basierend auf evolutionären algorithmen
DE102021205097A1 (de) Computerimplementiertes Verfahren und System zur Bestimmung einer Kostenfunktion
Taha et al. A new quantum radial wavelet neural network model applied to analysis and classification of EEG signals

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20030704

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

17Q First examination report despatched

Effective date: 20100319

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20180817