EP4298521A1 - Vorhersagen eines bevorstehenden auftretens einer funktionsstörung anhand einer log-daten analyse - Google Patents

Vorhersagen eines bevorstehenden auftretens einer funktionsstörung anhand einer log-daten analyse

Info

Publication number
EP4298521A1
EP4298521A1 EP22711907.0A EP22711907A EP4298521A1 EP 4298521 A1 EP4298521 A1 EP 4298521A1 EP 22711907 A EP22711907 A EP 22711907A EP 4298521 A1 EP4298521 A1 EP 4298521A1
Authority
EP
European Patent Office
Prior art keywords
log data
malfunction
combination
servers
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP22711907.0A
Other languages
English (en)
French (fr)
Inventor
Andreas Wilke
Ilya Komarov
Manfred Paeschke
Julia BAUR
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bundesdruckerei GmbH
Original Assignee
Bundesdruckerei GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bundesdruckerei GmbH filed Critical Bundesdruckerei GmbH
Publication of EP4298521A1 publication Critical patent/EP4298521A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/004Error avoidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Definitions

  • the invention relates to a method for analyzing log data, a computer system for analyzing log data and a distributed computer system which comprises a corresponding computer system for analyzing log data as a server.
  • the object of the invention is to create an improved method for predicting and avoiding malfunctions.
  • Embodiments include a method for analyzing log data of a computer system.
  • the procedure includes:
  • logging of log data comprising storing log data in a database, the log data being stored in each case with a time stamp
  • Monitoring the logged log data wherein the monitoring for logging a combination of log data having the stored characteristic feature combination includes predicting an impending occurrence of the malfunction.
  • Embodiments can have the advantage that a combination of one or more characteristic features can be determined based on the statistical analysis, which is characteristic for the occurrence of the malfunction. In other words, it can be determined which features occur before the malfunction that otherwise do not occur and therefore have a high probability of contributing to the causes of the malfunction.
  • statistical methods are used to analyze the log data. For example, additional log data is extracted from other time intervals as reference data, and statistically conspicuous or significant differences are determined between the log data associated with the malfunction and the reference data.
  • an outlier detection is used here in order to find a combination of features that deviates from the reference data Reference data
  • Time intervals with log data are selected which are similar to the log data related in time to the malfunction, but which are not directly related in time to a malfunction.
  • Log data is not directly related in terms of time to a malfunction if no malfunction has occurred during the time interval in which the corresponding log data was logged and within a further predefined time interval thereafter.
  • pattern recognition can be used to select similar log data.
  • a plurality of malfunctions are used for the statistical analysis.
  • the malfunctions used are, for example, identical or similar malfunctions.
  • log data is extracted that was logged within a time interval preceding the malfunction.
  • a plurality of data sets with log data is thus provided, to which pattern recognition can be applied.
  • matches between the data sets with log data are determined.
  • matches are taken into account which are not or only rarely found in reference data records which are not directly related in terms of time to a malfunction.
  • Log data or log data is automatically logged data of all or specific actions of processes on a computer system. For example, all actions that are or could be necessary for later analysis are logged. For example, in addition to the logged action, the corresponding log data includes a time stamp with the date and time of the corresponding action. In log data analysis, the log data from a computer system over a certain period of time is examined according to specific criteria.
  • the log data log errors are runtime errors that impede the functioning of an application, or unexpected program errors. Serious errors that lead to an application being terminated are also referred to as "fatals”. Warnings include, for example, calls to obsolete interfaces, incorrect calls to interfaces, user errors or unfavorable program states.
  • the characteristic combination of features is a characteristic data pattern, such as a characteristic sequence of specific log data.
  • the characteristic feature combination is assigned to the malfunction and used for further monitoring of the logged log data.
  • subsequently logged log data is checked to see whether the characteristic combination of features occurs, for example in the form of a characteristic sequence of certain log data. If an occurrence of the characteristic combination of features is detected, this can be used as a trigger for predicting an imminent occurrence of the malfunction.
  • an occurrence of a characteristic part of the combination of features can be used as a trigger for predicting the imminent occurrence of the malfunction.
  • the beginning of the sequence can be used as a trigger in order to be able to predict as early as possible the occurrence of the malfunction.
  • the time interval preceding the malfunction whose logged log data is used to determine the characteristic combination of features, is varied. For example, a time interval immediately preceding the malfunction is used first. This time interval can then, for example, be lengthened or shortened and/or moved back in time by the functional disorder until a characteristic combination of features is found which has a sufficient difference, for example sufficient statistical significance.
  • Embodiments may have the advantage of enabling effective prediction of a malfunction occurrence.
  • a malfunction is understood here to mean a disruption in the intended operation of a computer system.
  • Intended operation is the operation for which the computer system is technically designed and which it achieves under normal conditions.
  • Operating parameters that describe the intended operation or regular operation of the computer system include, for example, performance parameters such as instructions per cycle, instructions per second, floating point operations per second, data transfer rate, data throughput, response time, response rate, frames per second, processor clock, latency or access time.
  • the operating parameters include available software and hardware as well as physical condition parameters such as temperatures of components.
  • Malfunction can take very different forms depending on the complexity of the system and include for example Malfunction, such as software or hardware errors, as well as deviations from the intended operating parameters.
  • the malfunction is an error event.
  • the malfunction involves exceeding or falling below a predefined threshold value.
  • the predefined threshold value defines a minimum value for a line parameter, which should at least be met during regular operation of the computer system.
  • the predefined threshold value defines a maximum value for a load or capacity utilization of the computer system or individual components of the computer system, which should not be exceeded during regular operation of the computer system.
  • the predefined threshold value defines a maximum value for the temperature of the computer system or individual components of the computer system, which should not be exceeded during regular operation of the computer system.
  • the computer system itself performs the log data analysis.
  • the computer system itself monitors the log data.
  • the database is a database of the computer system. Embodiments may have the advantage that the computer system itself logs the log data, analyzes it and performs log data monitoring using the analysis results.
  • an analysis computer system i.e. another computer system, performs the log data analysis.
  • the computer system is a server of a distributed computer system that includes a plurality of servers.
  • one of the servers, acting as an analysis computer system carries out the log data analysis for one, several and/or all individual computer systems or servers of the distributed computer system.
  • the database is a database of the computer system.
  • the log data can be logged in the database, for example, locally on the individual servers by the corresponding servers, with the analysis computer system having access to the locally stored data.
  • the log data can be logged in one or more central databases to which both the computer system or server logging the computer and the analysis computer system have access.
  • the database is a database of the analysis computer system.
  • the computer system itself monitors the log data.
  • the analysis computer system sends the assignment to the computer system.
  • Embodiments can have the advantage that the monitoring can be done locally. This can, for example, enable a timely local prediction of the upcoming malfunction. If necessary, timely local countermeasures can also be initiated in order to prevent or mitigate the malfunction and/or to prevent or mitigate adverse consequences of the malfunction.
  • the log data can also be monitored by the analysis computer system or independently by the individual servers.
  • the computer system executing the analysis needs access to the log data to be analyzed.
  • This access can include, for example, access to the database in which the log data is stored.
  • the computer system sends the extracted log data and/or other logged log data to the analysis computer system for log data analysis.
  • the analysis computer system monitors the log data of the computer system.
  • the computer system sends the log data to the analysis computer system, for example.
  • the computer system executing the monitoring needs access to the log data to be monitored.
  • This access can include, for example, access to the database in which the log data is stored in the course of logging.
  • the log data to be monitored is sent to the analysis computer system.
  • Embodiments may have the advantage that a specifically configured analysis computer system can be used to perform the log data analysis.
  • a distributed computer system which comprises a plurality of individual computer systems, such as servers
  • one of the servers can, for example, perform log data analysis for the distributed computer system as an analysis computer system.
  • the analysis computer system can use log data from several or all servers in the system for log data analysis. This can have the advantage, for example, that a statistical analysis is made possible across a number of servers.
  • characteristic combinations of features across multiple servers can be taken into account and used to predict an imminent malfunction.
  • the characteristic feature combination comprises characteristic features from extracted combinations of log data from a number of computer systems, such as servers.
  • a characteristic combination of features can, for example, be the result of a statistical analysis of log data from a plurality of servers.
  • correlations between the log data of several servers can be determined and used in the form of the characteristic combination of features to predict imminent malfunctions.
  • Corresponding correlations can be based, for example, on causal relationships between events are based, which occur on different servers.
  • Corresponding correlations can be based, for example, on a causal connection between the malfunction and events occurring on different servers.
  • the malfunction is based on an interaction of the corresponding events.
  • the characteristic combination of features is a characteristic data pattern across multiple servers, such as a characteristic sequence of specific log data that is recorded on different servers.
  • the statistical analysis includes determining one or more statistical parameters.
  • the statistical parameters include a mean value, a variance, a standard deviation, a correlation or a measure of connection and/or a frequency, such as an absolute or relative frequency.
  • the arithmetic, the geometric and the quadratic mean can be calculated as the mean value, which represents a characteristic value for the central tendency of a distribution.
  • the variance or its square root, the standard deviation is a measure of the spread of a distribution or a probability density around its center of gravity.
  • a correlation or a measure of association such as the covariance, provides a measure of the strength and possibly the direction of a relationship between two statistical variables.
  • a warning is issued in response to the prediction of the impending malfunction.
  • the warning can be issued, for example, on the computer system that performs the log data analysis, on the computer system on which the malfunction is imminent, and/or on several or all individual computer systems of a distributed computer system.
  • the warning is generated by the computer system that performs the log data analysis and sent to one or more other computer systems for output.
  • the output can be visual or acoustic, for example, via an output device of a user interface.
  • the warning signal is output visually, for example on a display, or acoustically, for example via a loudspeaker.
  • Embodiments may have the advantage of informing users of the upcoming malfunction. Thus, users can be prevented from being surprised by the occurrence of the malfunction. Rather, they may be enabled to take action to prevent and/or mitigate the dysfunction. The users can adapt to the malfunction and its consequences if necessary.
  • countermeasures to be taken to avoid the malfunction are determined.
  • An assignment of the specific combination of characteristic features to the countermeasures is made stored together with the assignment of the specific combination of characteristic features to the malfunction.
  • the countermeasures are automatically carried out.
  • Embodiments can have the advantage that countermeasures to be carried out automatically can be stored.
  • Automated fault compensation or fault elimination or error compensation or error correction can thus be implemented. For example, data streams can be redirected, instructions diverted or their execution delayed. For example, additional capacities can be added and/or processes can be outsourced. For example, execution of instructions can be blocked. For example, execution of certain instructions can be prioritized while execution of other instructions can be deferred.
  • the assignment of the countermeasures to be executed is stored, for example, by the computer system.
  • Embodiments can have the advantage that the countermeasures to be carried out are stored locally and are therefore also available locally for immediate execution if required.
  • the assignment of the countermeasures to be carried out is stored, for example, by the analysis computer system.
  • the analysis computer system sends the countermeasures to be carried out, for example to those computer systems which are to carry out the corresponding countermeasures to be carried out.
  • Embodiments can be particularly advantageous in the case of a distributed computer system with a plurality of servers, since the analysis computer system can, for example, determine server-specific countermeasures using the countermeasures stored and can send one or more of the servers to be executed.
  • the stored countermeasures include information about which server has to carry out which countermeasures or specify criteria that can be used to determine which server has to carry out which of the countermeasures.
  • countermeasures can be stored for sending and/or receiving servers, with it being possible to specify which of the countermeasures are to be carried out by sending servers and which countermeasures are to be carried out by receiving servers.
  • the countermeasures to be taken are assigned to the malfunction, via which they are indirectly assigned to the specific combination of characteristic features.
  • Embodiments can have the advantage that, for example, different combinations of characteristic features can lead to the same malfunction.
  • the malfunction can, for example, make the same countermeasures necessary in each of these cases. For example, using the impending malfunction, the countermeasures to be taken are identified.
  • the countermeasures to be taken are directly assigned to the specific combination of characteristic features.
  • different combinations of characteristic features can lead to the same malfunction.
  • the malfunction can have different causes in different cases, for example, which are each characterized by a different combination of features.
  • different causes may require different countermeasures, although without the countermeasures, the different causes each result in the same malfunction.
  • Embodiments can have the advantage that the countermeasures to be carried out can be identified on the basis of the specific combination of characteristic features. Different countermeasures to be carried out can be identified for different characteristic feature combinations, although the different characteristic feature combinations are assigned the same malfunction.
  • the countermeasures to be executed comprise program instructions to be executed.
  • the countermeasures to be executed comprise program instructions to be executed by the computer system.
  • the countermeasures to be carried out include, for example, program instructions to be carried out by one or more other computer systems or servers of the distributed computer system.
  • Embodiments can have the advantage that, for example, the stored program instructions are called up and executed for the automatic execution of the countermeasures.
  • These program instructions can provide program routines for automated fault compensation or fault elimination or error compensation or error correction. For example, in the course of executing the corresponding program routines, sources of errors are eliminated and/or dependent processes are stopped.
  • a first tolerance range is assigned to the features of the characteristic feature combination.
  • a logged combination of log data has the stored characteristic feature combination if it has the features according to the characteristic feature combination and these features lie within the assigned first tolerance ranges.
  • Embodiments can have the advantage that possible deviations or fluctuations within the characteristic combination of features can also be taken into account, which nevertheless lead to the same malfunction.
  • a second tolerance range is assigned to the features of the characteristic feature combination. It is assumed that a logged combination of log data has the stored characteristic feature combination if it has a predetermined minimum number of features of the characteristic feature combination and these features are each within the assigned second tolerance ranges.
  • Embodiments can have the advantage that, in the course of monitoring the logged log data, an impending occurrence of the malfunction can also be predicted in the event that the logged log data does not have all the features of the characteristic feature combination, i.e. the deviations or There are fluctuations in the characteristics themselves.
  • the first tolerance range is identical to the second tolerance range for the same feature.
  • the first tolerance ranges are respectively larger than the second tolerance ranges for one or more features. According to embodiments, the first tolerance range is greater than the second tolerance range for the same feature.
  • Embodiments may have the advantage that in the case of detecting fewer characteristic features or indicators in the logged log data, more stringent requirements are set for a positive prediction that a malfunction is imminent than in the case of a greater number of characteristics or indicators for the impending occurrence of the functional disorder. If characteristics or indicators for the impending occurrence of the malfunction are detected, larger tolerance ranges can be selected for these, for example. In other words, given a sufficiently large number of features or indicators, it can be assumed that the interference function is imminent, even if some of the features or indicators deviate more than others.
  • storing the log data includes normalizing the log data.
  • the normalizing satisfies sixth normal form.
  • Embodiments can have the advantage that redundancies can be avoided.
  • Embodiments can have the advantage that a chronological classification of the log data is taken into account.
  • the log data can be stored in the form of relations or equivalent structures.
  • a relation is understood here in the sense of relational database theory as a set of tuples.
  • a tuple is a set of attribute values.
  • An attribute denotes a data type or one or more data associated property.
  • the number of attributes determines the degree, the number of tuples determines the cardinality of a relation.
  • a normalization in particular a normalization of a relational data model, is understood to mean a division of attributes into a plurality of relations according to a normalization rule, so that redundancies are reduced or minimized.
  • a relational data model can be implemented, for example, in table-like data structures in which the relations are implemented in the form of tables, the attributes in the form of table columns and the tuples in the form of table rows.
  • a relational data model can be brought into a normal form, for example, by progressively breaking down the relations of the data schema into simpler relations based on the functional dependencies that apply to the corresponding normal form.
  • 1st normal form INF
  • 2nd normal form 2NF
  • S. normal form SNF
  • Boyce-Codd normal form BCNF
  • 4th normal form 4NF
  • 5th normal form 5NF
  • 6th normal form 6NF
  • the normalization criteria increase from normal form to normal form and include the normalization criteria of the previous normal forms, i.e.
  • a relation is in first normal form if each attribute of the relation has an atomic range and the relation is free of repeating groups.
  • atomic is understood to mean the exclusion of composite, set-valued or nested value ranges for the attributes, i.e. relational attribute value ranges.
  • a freedom from repeating groups requires that attributes that contain the same or similar information are outsourced to different relations.
  • a relation is in second normal form if it satisfies the requirements of first normal form and no nonprimary attribute depends functionally on a proper subset of a candidate key.
  • a non-primary attribute is an attribute that is not part of a key candidate. This means that each non-primary attribute depends on all whole keys and not just on a part of a key. Relations in first normal form whose key candidates are not composite but consist of each consist of a single attribute, therefore automatically fulfill the second normal form.
  • a key candidate is understood here to be a minimal set of attributes that uniquely identifies the tuples of a relation.
  • a relation is in third normal form if it satisfies the requirements of second normal form and no non-key attribute transitively depends on a candidate key.
  • An attribute is transitively dependent on a candidate key if the corresponding attribute depends on the corresponding candidate key via another attribute.
  • a relation is in Boyce-Codd normal form if it satisfies the requirements of third normal form and every determinant is a super key.
  • a determinant is understood here as a set of attributes on which other attributes are functionally dependent. A determinant thus describes the dependency between attributes of a relation and determines which sets of attributes determine the value of the other attributes.
  • a super key is a set of attributes in a relation that uniquely identify the tuples in that relation. Consequently, the attributes of this set always include different values for pairs of tuples selected.
  • a key candidate is therefore a minimal subset of the attributes of a super key, which enables the tuples to be identified.
  • a relation is in fourth normal form if it satisfies the requirements of Boyce-Codd normal form and has no non-trivial multi-valued dependencies.
  • a relation is in fifth normal form if it satisfies the requirements of fourth normal form and has no multivalued dependencies that are dependent on each other.
  • Fifth normal form is thus given if every non-trivial join dependency is implied by the key candidates.
  • a join dependency is implied by the candidate keys of the source relation if each relation of the set of relations is a super key of the source relation.
  • a relation is in sixth normal form if it satisfies the requirements of fifth normal form and has no nontrivial join dependencies.
  • the database is a multi-model database with a multi-model database management system that uses a plurality of data models to store the log data.
  • the log data is stored in a first document-oriented data model.
  • a document-oriented data model means that the data model does not make any structural specifications for the data to be stored. Rather, the data is stored in documents or data containers in the form in which it was received. In this sense, the data stored in the document-oriented data model is raw data.
  • Raw data means that the data is stored in the form in which it is received, without any additional data processing by the database management system, in particular no restructuring of the data.
  • Embodiments can have the advantage that the entire information content of the received data can be retained (almost) completely without the assumptions of the database management system being included. This means that the original database can be accessed at any time and taken into account in further processing.
  • the data is normalized and an index is generated.
  • This index is, for example, a content-based multi-level index structure.
  • This index represents a second data model, which has the sixth normal form, for example. In this way, all fields and field contents can be transferred from the first data model to the normalized second data model without redundancy, which example has the form of a multidimensional key/value store (key/value store) or a multidimensional key-value database.
  • the transaction time and validity time of the data records are also stored bitemporally.
  • the transaction time indicates the point in time at which a data object in the database is changed.
  • the validity time specifies a point in time or a period of time in which a data object in the modeled image of the real world has the described state. If both validity and transaction time are relevant, it is called bitemporal.
  • bitemporal For each data record, not only the status of the data record at the last transaction or change is visible, but also its history. In this case one speaks of a bitemporal database, in which both the validity and the transaction time of the data records are taken into account.
  • a key-value data model enables storage, retrieval and management of associative data fields. Values are clearly identified using a key.
  • Embodiments can have the advantage that the log data can be stored in both data models and made available for analysis.
  • the computer system is a first server of a distributed computer system that includes a plurality of servers.
  • Log data is logged on each of the servers.
  • the logged log data is monitored.
  • Embodiments may have the advantage of being able to predict malfunctions on a distributed computing system.
  • the log data can be monitored locally on the individual servers or centrally.
  • the specific combination of characteristic features is assigned to the malfunction by the first server.
  • the specific combination of characteristic features is assigned to the malfunction by the first server.
  • the first server also monitors the log data logged by the servers of the server group. Upon logging a combination of log data, which has the stored combination of characteristic features, an imminent occurrence of the malfunction is predicted.
  • the resulting assignment is forwarded from the first server to a server group.
  • the server group includes one or more other servers of the plurality of servers.
  • the servers of the server group each store the forwarded assignment.
  • Monitoring is done locally on the servers in the server group.
  • the monitoring of log data by the servers of the server group includes a prediction of an impending occurrence of the malfunction by the corresponding server in each case after a combination of log data which has the stored characteristic feature combination is logged.
  • the server group includes all servers of the computer system in addition to the first server.
  • log data logged by the servers of the server group are extracted within the time interval preceding the malfunction.
  • the characteristic feature combination is determined by the first server using the extracted combination of log data of the server group and using a statistical analysis across the servers of the server group.
  • the assignment of the specific characteristic feature combination to the Malfunction is propagated to the servers of the server group.
  • the servers of the server group each store the forwarded assignment.
  • the monitoring of log data by the servers of the server group includes a prediction of an impending occurrence of the malfunction by the corresponding server in each case after a combination of log data which has the stored characteristic feature combination is logged.
  • the log data analysis is additionally performed using log data from the first server.
  • one or more first identifiers are also determined, which features include one or more servers on which the malfunction occurs, with an assignment of the specific characteristic feature combination to the identifier being stored together with the assignment of the specific characteristic feature combination to the malfunction .
  • Embodiments can have the advantage that, in addition to the characteristic combination of features, identifiers can be determined, based on which the servers of the distributed system on which the malfunction occurs can be determined.
  • the identifiers can be features of the feature combination, for example, which can be used to determine the corresponding server. For example, using the identifiers, those servers can be identified as servers on which the disruption function is imminent, which have a specific feature of the feature combination, i.e. on which specific log data has been logged.
  • the first identifiers are assigned to the malfunction, via which they are indirectly assigned to the specific combination of characteristic features.
  • Embodiments can have the advantage that, for example, different combinations of characteristic features can lead to the same malfunction.
  • the malfunction can occur with one or more servers that have the same characteristics or are identified by the same identifiers.
  • the first identifiers are assigned directly to the specific combination of characteristics.
  • Embodiments can have the advantage that, for example, different combinations of characteristic features can lead to the same malfunction.
  • the malfunction can, for example, have different causes in different cases, each of which is caused by a different combinations of features are characterized. Different causes can lead, for example, to the fact that the malfunction occurs in one or more servers, which have different characteristics depending on the respective cause.
  • one or more servers which are experiencing the malfunction are determined using the identifiers and an alert is issued for the specific servers, respectively.
  • the servers are determined centrally and the alerts are sent to the appropriate servers for delivery.
  • countermeasures to be taken to avoid the malfunction are determined for one or more servers.
  • One or more second identifiers are determined, which include features of the corresponding server on which the countermeasures are to be carried out, with an assignment of the specific characteristic feature combination to the countermeasures and the second identifier being stored together with the assignment of the specific characteristic feature combination to the malfunction becomes.
  • the countermeasures are automatically executed on the servers identified by the second identifiers.
  • Embodiments can have the advantage that additional identifiers can be determined, based on which the servers of the distributed system can be determined on which the countermeasures against the malfunction are to be executed. These servers, which at least partially cause the malfunction or contribute to it, differ, for example, from the servers on which the malfunction to be prevented is imminent. For example, the second identifiers therefore differ from the first identifiers.
  • the identifiers can be features of the feature combination, for example, which can be used to determine the corresponding servers on which the countermeasures are to be carried out. For example, the identifiers can be used to identify those servers that have a specific feature of the feature combination, i.e. on which specific log data was logged.
  • the countermeasures to be taken and second identifiers are assigned to the malfunction, via which they are indirectly assigned to the specific combination of characteristic features.
  • Embodiments can have the advantage that, for example, different characteristics Combinations of features can lead to the same dysfunction. However, in each of these cases, the malfunction can occur, for example, in one or more servers that have the same characteristics.
  • the countermeasures to be taken and identifiers are assigned directly to the specific combination of characteristic features.
  • Embodiments can have the advantage that, for example, different combinations of characteristic features can lead to the same malfunction.
  • the malfunction can, for example, have different causes in different cases, which are each characterized by a different combination of features. Different causes can lead, for example, to the fact that the malfunction occurs in one or more servers, which have different characteristics depending on the respective cause.
  • countermeasures are to be performed on the servers where the malfunction occurs, which is why the second identifiers are identical to the first identifiers. According to embodiments, countermeasures are to be carried out on servers on which no malfunction occurs but which cause or contribute to the malfunction. In this case, the second identifiers differ from the first identifiers, for example.
  • Embodiments further include a computer system having a processor and a memory, the memory storing program instructions. Execution of the program instruction by the processor causes the processor to control the computer system such that the computer system performs a method of analyzing log data.
  • the procedure includes:
  • logging of log data comprising storing log data in a database, the log data being stored in each case with a time stamp
  • monitoring the logged log data includes predicting an imminent occurrence of the malfunction.
  • the computer system is configured to execute any of the previously described embodiments of the method for analyzing log data.
  • the log data is log data from the computer system itself.
  • the log data is log data from another computer system, which the computer system receives or to which the computer system has access and which analyzes the first computer system. For example, the malfunction occurs on the computer system.
  • the malfunction occurs on another computer system that is connected to the computer system. If an imminent occurrence of the malfunction is predicted, the corresponding prediction and/or a warning is sent to the further computer system.
  • Embodiments further include a distributed computing system including a plurality of servers.
  • a first server of the plurality of servers is the computer system of one of the previously described embodiments.
  • Log data is logged on each of the servers and the logged log data is monitored.
  • the computer system is configured to execute any of the previously described embodiments of the method for analyzing log data.
  • the specific characteristic combination of features is assigned to the malfunction by the first server and is forwarded by the first server to a server group with one or more other servers from the plurality of servers.
  • the servers of the server group each store the forwarded assignment.
  • the monitoring of log data by the servers of the server group includes, in each case upon logging of a combination of log data which has the stored characteristic combination of features, by the corresponding server predicting an impending occurrence of the malfunction.
  • the specific characteristic feature combination is assigned to the malfunction, as is the monitoring of log data Servers of the server group by the first server.
  • a combination of log data, which has the stored characteristic feature combination is logged by the first server, an impending occurrence of the malfunction is predicted. For example, the prediction is sent to the servers that are about to experience the malfunction.
  • log data logged by the servers of the server group are extracted within the time interval preceding the malfunction.
  • the characteristic feature combination is determined by the first server using the extracted combination of log data from the server group.
  • the characteristic feature combination is determined using a statistical analysis across the servers of the server group.
  • the allocation of the specific characteristic combination of features to the malfunction is forwarded to the server of the server group.
  • the servers of the server group each store the forwarded assignment.
  • the monitoring of log data by the servers of the server group includes a prediction of an impending occurrence of the malfunction by the corresponding server in each case after a combination of log data which has the stored characteristic feature combination is logged.
  • log data logged by the servers of the server group within the time interval preceding the malfunction is extracted, for example from the first server.
  • the first server determines the characteristic feature combination using the extracted combination of server group log data.
  • the characteristic feature combination is determined using a statistical analysis across the servers of the server group.
  • the allocation of the specific combination of characteristic features to the malfunction is stored by the first server.
  • the monitoring of log data of the servers of the server group by the first server comprises in each case a logging of a combination of log data, which has the stored characteristic feature combination, by the corresponding server predicting an impending occurrence of the malfunction.
  • the first server has access to the log data logged by the servers in the server group.
  • the log data is stored in databases to which the first server has access and/or is sent from the servers in the server group to the first server.
  • a “database” is understood here as a stored amount of data. The amount of data can be structured, for example according to a structure specified for the database.
  • a “database management system” or data management software can be provided for managing the data in the database will.
  • a “database management system” is understood here to mean data management software running on a computer system for storing and retrieving data in a database.
  • the database management system specifies the structure to be used for storing the data.
  • the data can be stored in different forms or using different structures
  • the data will be stored in data sets each consisting of a number of data fields.
  • a "processor” is understood here and in the following to mean a logic circuit that is used to execute program instructions.
  • the logic circuit can be implemented on one or more discrete components, in particular on a chip.
  • a processor includes, for example, an arithmetic unit, a control unit, registers and Data lines for communication with other components.
  • a “processor” is understood to mean a microprocessor or a microprocessor system made up of a number of processor cores and/or a number of microprocessors.
  • a "memory” is understood here to mean both volatile and non-volatile electronic memories or digital storage media.
  • non-volatile memory is understood here as an electronic memory for the permanent storage of data, in particular static cryptographic keys, attributes or identifiers.
  • a non-volatile memory can be configured as a non-modifiable memory, which is also known as a read-only memory (ROM ) is referred to, or as changeable memory, which is also referred to as non-volatile memory (NVM).
  • ROM read-only memory
  • NVM non-volatile memory
  • this can be an EEPROM, for example a flash EEPROM, referred to as flash for short.
  • a non-volatile memory is characterized characterized in that the data stored on it are retained even after the power supply has been switched off.
  • An “interface” or “communications interface” is understood here to mean an interface via which data can be received and sent, with the communication interface being able to be configured as contact-based or contactless.
  • a communication interface can, for example, enable communication via a network.
  • a communication interface can, for example, be wireless communication based on a mobile radio standard, Bluetooth, RFID, WiFi and/or Provide NFC standard.
  • a communication interface can provide cable-based communication, for example.
  • Network is understood here to mean any transmission medium with a connection for communication, in particular a local connection or a local network, in particular a local area network (LAN), a private network, in particular an intranet, and a digital private network (Virtual Private Network - VPN).
  • a computer system can have a standard wireless interface for connecting to a WLAN. It can also be a public network, such as the Internet. Depending on the embodiment, this connection can also be established via a mobile network .
  • Figure 1 is a schematic diagram of a computer system for analyzing log data
  • FIG. 2 shows a schematic diagram of a distributed computer system with a server for analyzing log data
  • FIG. 3 shows a schematic diagram of a distributed computer system with a server for analyzing log data
  • Figures 4 shows a schematic diagram of a log data analysis
  • Figure 5 is a flow chart of an exemplary method for analyzing log data
  • FIG. 6 shows a flowchart of an exemplary method for monitoring log data.
  • Figure 1 shows a computer system 100 for analyzing log data 122.
  • the computer system 100 includes a processor 102, a memory 106 and a communication interface 118.
  • the processor 102 is configured to execute program instruction 104 computer system 100 to analyze log -Data 122 to control.
  • the computer system 100 logs log data 122.
  • the log data 122 is stored in a database 120.
  • FIG. Computer system 100 has access to database 122.
  • computer system 100 includes database 120.
  • database 120 is an external or remote database.
  • the logged log data 122 can be log data of the computer system 100 and/or are log data from one or more other computer systems, such as servers.
  • the log data 122 log errors, warnings and information, for example, which are recorded, for example, by an operating system and/or an analysis program of the computer system logging the log data 122 .
  • the log data 122 are each logged with a time stamp.
  • the log data 122 may include data collected using one or more sensors 116 of the computer system 100 to monitor the operation of the computer system 100 . Sensors 116 may be configured to sense temperatures, voltages, or currents, for example.
  • the computer system 100 Upon the occurrence of a malfunction, the computer system 100 extracts from the database 120 those log data which were logged within a time interval ⁇ t preceding the malfunction. The corresponding log data 122 within the time interval ⁇ t is identified, for example, using its timestamp.
  • the computer system 100 determines a characteristic feature combination 112, which comprises one or more characteristic features of the extracted combination of log data.
  • the characteristic feature combination 112 includes, for example, a characteristic combination and/or sequence of specific log data from the extracted combination of log data, which is characteristic of the extracted combination of log data.
  • These characteristic log data form, for example, the characteristic features of the characteristic feature 112. For example, the order or chronological sequence of the characteristic log data can also be characteristic for the extracted combination of log data.
  • the log data of the characteristic combination of features 112 only become characteristic based on their sequence or chronological sequence.
  • the characteristic feature combination 112 is determined, for example, using a statistical analysis.
  • the statistical analysis can be used, for example, to determine which log data or sequence of log data includes the extracted combination of log data that does not appear in the otherwise logged log data. If log data or a sequence of log data deviate in a statistically significant manner from log data that has been logged up to now without a malfunction having occurred, and which is therefore to be expected for the regular operation of computer system 100 , there is a high probability of a connection between the deviating log data or the deviating sequence of log data and the malfunction that occurs.
  • the computer system 100 creates an association between the specific combination of features 112 and the malfunction 110 that has occurred.
  • the association 108 is stored and used as a comparison data set for predicting an impending reoccurrence of the malfunction 110 .
  • the assignment can be stored in the memory 106 computer system 100 or in the database 120, for example.
  • Further log data 122 which are logged in the database 120, are continuously monitored by the computer system 100 or another computer system which has the assignment 108 and/or which has access to the assignment 108. When the characteristic combination of features 112 occurs in the logged log data 122, an imminent occurrence of the associated malfunction 110 is predicted.
  • a warning is output via the communication interface of the computer system 100 to other computer systems which are directly affected by the malfunction or indirectly affected when the malfunction occurs on the computer system 100 .
  • the other computer system is an admin computer system that is assigned to an administrator of computer system 100 .
  • the warning is output via a user interface of computer system 100 to an output device of computer system 100, such as a display.
  • countermeasures 114 to be carried out upon the occurrence of the malfunction 110 in order to avoid or limit the malfunction 110 can be added to the allocation 108 in a fixed manner.
  • the countermeasures include executable program instructions that are to be executed to avoid or limit the malfunction 110 .
  • the countermeasures 114 for example by the computer system 100 and/or other computer systems, are carried out automatically in response to the prediction of the imminent malfunction 110.
  • the countermeasures include, for example, blocking the execution of expected and potentially problematic instructions, delaying the execution of the corresponding instructions and/or outsourcing the execution of the corresponding instructions to an alternative component of the computer system 100 or an alternative computer system.
  • FIG. 2 shows a distributed computer system 198 with a server 100 for analyzing log data 152, 182.
  • the server 100 is, for example, the computer system from FIG. 1.
  • the computer system 100 itself does not record any log data.
  • the computer system 100 itself does not record any log data.
  • the analyzed log data 152, 182 is log data from servers 130, 160 of a server group 190 with a plurality of N servers in the distributed computer system 198, where N is a natural number greater than 1.
  • the servers 130, 160 of the server group 190 each include, for example, a processor 132, 162 for executing program instructions 134, 164, a memory 136, 166, and a communication interface 140, 170.
  • the servers 130, 160 are configured, for example, to log to log data 152, 182 in a database 150, 180.
  • the servers ISO, 160 additionally include one or more sensors 138, 168, for example.
  • the servers 150, 160 of the server group 190 communicate, for example, via a network 192 with one another and with the first server 100.
  • the network is, for example, a public network, such as the Internet, or a private network, such as an intranet and /or an internal communication network of the distributed computer system 198.
  • a fault message is sent to the first server 100, for example.
  • the error report indicates, for example, the type and time of the malfunction that occurred and the server or servers affected by the malfunction.
  • the first server 100 asks for log data to be extracted from the databases 150, 180, which were logged within a time interval At preceding the malfunction.
  • the first server 100 receives the extracted log data and determines a characteristic combination of features 112.
  • the first server 100 uses, for example, a statistical analysis of the servers 150, 160 of the server group 190 or the log recorded by them -Data on. For example, further data sets with server log data are used for statistical evaluation
  • the first server 100 creates, for example, an association 108 between the specific characteristic feature combination 112 and the malfunction 110 that has occurred. Furthermore, countermeasures against the malfunction that has occurred 110 can be defined and added to the association 108, for example.
  • the first server sends the assignment 108, for example, to the servers 150, 160 of the server group 190, which use the characteristic combination of features 112 to monitor the log data 152, 182 logged by them. If the characteristic combination of features 112 occurs in the logged log data 152, 182, an impending occurrence of the malfunction 110 is predicted. For example, the server 130, 160 predicting the malfunction 110 sends a warning about the impending malfunction 110 to the other servers in the server group 190 and/or to the first server 100. The server predicting the malfunction 110 also leads
  • one or more countermeasures defined by the mapping 108 took 114 out.
  • one or more of the alert recipients Servers of the server group 190 and/or the first server 100 also execute one or more countermeasures 114 defined by the association 108 .
  • FIG. 3 shows a distributed computer system 198 with a server 100 for analyzing log data 152, 182, the structure and function of which is analogous to the distributed computer system 198 of FIG.
  • the difference from the distributed computer system 198 in FIG. 2 is that the log data 152, 182 of the servers 150, 160 of the server group 190 are stored in a central database 194, to which the first server 100, for example, has access.
  • the first server 100 can therefore retrieve log data from the individual servers 150, 160, which were logged within a time interval At preceding the malfunction, from the central database 194 extract.
  • the first server 100 determines the characteristic combination of features 112 using the extracted log data and creates the assignment 108 between the characteristic combination of features 112, the malfunction 110 and, if necessary, countermeasures ll4 against the malfunction 110. Furthermore, for example, the first server 100 monitors the central database 194 logged log data 152, 182. If the characteristic combination of features 112 occurs in the logged log data 152, 182, an impending occurrence of the malfunction 110 is predicted by the first server 100. For example, the first server 100 sends a warning about the impending malfunction 110 to the servers 130, 150 of the server group 190. Furthermore, the first server 100 causes, for example, one or more countermeasures 114 defined by the assignment 108 to be carried out by one or more servers 130, 150 of the server group 190 and/or through the server 100.
  • FIG. 4A shows a chronological sequence of logged log data 196 of types "A", “B", “C” and "D".
  • the time is plotted on the x-axis, while the types of log data are plotted on the y-axis, for example.
  • a sequence "BABADCDBA” is logged, on which the occurrence of a malfunction 110 at time ts is recorded or logged Extracted log data
  • the extracted log data of the time interval ⁇ t are shown as an example in FIG.
  • the log data of type “A”, “B” is log data that occurs or is logged frequently, without a malfunction occurring.
  • FIG. 4C shows an exemplary sequence of log data 196 of type “A”, “B”, such as frequently occurs in the logged log data within a time interval At. This frequently The sequence of log data that occurs is thus, for example, not characteristic of the extracted log data. Rather, the remaining sequence of log data of type "D", "C” is characteristic of the extracted log data. As shown in FIG. 4A, this sequence is determined as a characteristic combination of features 112 with the sequence "DCD". has a be protruding malfunction 110 can occur. For example, countermeasures can be assigned to the characteristic feature combination 112 . For example, it can be determined that an impending occurrence of malfunction 110 is already predicted when a log data sequence "DC" is present and the countermeasures block, delay and/or outsource the execution of the action marked with log date D to another system component for execution.
  • Figure 5 shows an exemplary method for analyzing log data.
  • log data is logged.
  • a malfunction is detected, upon the detection of which in block 204 log data is extracted from the logged log data which was logged within a time interval ⁇ t preceding the malfunction.
  • a feature combination characteristic of the occurrence of the functional disorder is determined in the extracted log data, and in block 208 an assignment of the characteristic feature combination to the functional disorder detected in block 202 is created.
  • a statistical analysis for example, is used to determine the characteristic combination of features.
  • the mapping created is stored for monitoring future logged log data.
  • logged log data is monitored.
  • FIG. 6 shows an exemplary method for examining log data using a map created by a log data analysis method such as the method shown in FIG.
  • logged log data is monitored.
  • block 302 it is checked whether the logged log data includes the characteristic combination of features according to the assignment provided and/or according to an assignment from a plurality of assignments provided. If the characteristic combination of features is not detected, the monitoring of the log data in block 300 continues unchanged. If the characteristic combination of features is detected, the method continues in block 304 .
  • an impending occurrence of the malfunction is predicted, which is assigned to the detected combination of characteristic features.
  • a warning about the upcoming function is issued.
  • stored countermeasures are executed, which are also assigned to the characteristic combination of features and/or the predicted malfunction. reference list

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Analysieren von Log-Daten (122, 152, 182, 196) eines Computersystems (100). Das Verfahren umfasst ein Protokollieren von Log-Daten (122, 152, 182, 196), auf ein Auftreten einer Funktionsstörung (110) hin, ein Extrahieren der innerhalb eines der Funktionsstörung (110) vorangehenden Zeitintervalls (Δt) protokollierten Log-Daten (122, 152, 182, 196), ein Bestimmen einer charakteristischen Merkmalskombination (112), welche ein oder mehreren charakteristischen Merkmalen der extrahierten Kombination von Log-Daten (122, 152, 182, 196) umfasst, unter Verwendung einer statistischen Analyse, ein Speichern einer Zuordnung (108) der bestimmten charakteristischen Merkmalskombination (112) zu der Funktionsstörung (110), und ein Überwachen der protokollierten Log-Daten (122, 152, 182, 196), wobei das Überwachen auf ein Protokollieren einer Kombination von Log-Daten (122, 152, 182, 196) hin, welche die gespeicherte charakteristische Merkmalskombination (112) aufweist, ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung (110) umfasst.

Description

VORHERSAGEN EINES BEVORSTEHENDEN AUFTRETENS EINER FUNKTIONSSTÖRUNG ANHAND EINER LOG-DATEN ANALYSE
Die Erfindung betrifft ein Verfahren zum Analysieren von Log-Daten, ein Computersystem zum Analysieren von Log-Daten sowie ein verteiltes Computersystem, welches ein entspre chendes Computersystem zum Analysieren von Log-Daten als Server umfasst.
Im Zuge der zunehmenden Digitalisierung, Automatisierung und Vernetzung in allen Le bens- und Arbeitsbereichen werden hierfür Verwendeten Datenverarbeitungssystem im mer komplexe und die zu verarbeiteten Datenmengen immer größer. Dies führt dazu, dass die entsprechend Systeme fehleranfälliger werden. Funktionsstörungen, welche die Leis tung der Systeme negativ beeinflussen, können einem Zusammenspiel unterschiedlicher Einflussfaktoren unterliegen und sind insbesondere bei lediglich sporadischem Auftreten nur schwer nachzustellen. Mithin kann sich die Fehlerdiagnose und folglich die
Fehlerbehebung schwierig gestalten. Dennoch können die entsprechenden Fehler aber weitreichende Folgen für das System haben, wenn sie auftreten.
Der Erfindung liegt die Aufgabe zugrunde, ein verbessertes Verfahren zur Vorhersage und Vermeidung von Funktionsstörungen zu schaffen.
Die der Erfindung zugrunde liegende Aufgabe wird jeweils mit den Merkmalen der unab hängigen Patentansprüche gelöst. Ausführungsformen der Erfindung sind in den abhängi gen Patentansprüchen angegeben.
Ausführungsformen umfassen ein Verfahren zum Analysieren von Log-Daten eines Compu tersystems. Das Verfahren umfasst:
• Protokollieren von Log-Daten, wobei das Protokollieren der Log-Daten ein Speichern von Log-Daten in einer Datenbank umfasst, wobei die Log-Daten jeweils mit einem Zeitstempel gespeichert werden,
• auf ein Auftreten einer Funktionsstörung hin, Extrahieren der innerhalb eines der Funktionsstörung vorangehenden Zeitintervalls protokollierten Log-Daten,
• Bestimmen einer charakteristischen Merkmalskombination, welche ein oder meh rere charakteristische Merkmale der extrahierten Kombination von Log-Daten um fasst, unter Verwendung einer statistischen Analyse,
• Speichern einer Zuordnung der bestimmten charakteristischen Merkmalskombina tion zu der Funktionsstörung,
• Überwachen der protokollierten Log-Daten, wobei das Überwachen auf ein Proto kollieren einer Kombination von Log-Daten hin, welche die gespeicherte charakteris tische Merkmalskombination aufweist, ein Vorhersagen eines bevorstehenden Auf tretens der Funktionsstörung umfasst.
Ausführungsformen können den Vorteil haben, dass anhand der statistischen Analyse eine Kombination von ein oder mehreren charakteristischen Merkmalen ermittelt werden kann, welche charakteristisch für das Auftreten der Funktionsstörung ist. Mit anderen Worten kann bestimmt werden, welche Merkmale vor der Funktionsstörung auftreten, die sonst nicht auftreten und mithin eine hohe Wahrscheinlichkeit aufweisen, dass sie zu den Ursa chen der Funktionsstörung beitragen. In Zuge der statistischen Analyse werden statistische Methoden zur Analyse der Log-Daten verwendet. Beispielsweise werden zusätzlich Log-Da ten aus anderen Zeitintervallen als Referenzdaten extrahiert und statistisch auffällige bzw. signifikante Unterschiede zwischen den in zeitlichem Zusammenhang mit der Funktionsstö rung stehenden Log-Daten und den Referenzdaten bestimmt. Beispielsweise hierbei eine Außreisererkennung (engl. „Outlier Detection") verwendet, um eine Merkmalskombination zu finden, welche von den Referenzdaten abweicht. Beispielsweise werden als Referenzdaten Zeitintervalle mit Log-Daten ausgewählt, welche eine Ähnlichkeit zu den in zeitlichem Zusammenhang mit der Funktionsstörung stehenden Log-Daten aufweisen, wel che aber in keinem direkten zeitlichen Zusammenhang mit einer Funktionsstörung stehen. Log-Daten stehen in keinem direkten zeitlichen Zusammenhang mit einer Funktionsstö rung, falls während des Zeitintervalls, in welchem die entsprechenden Log-Daten protokol liert wurden, sowie innerhalb eines weiteren vordefinierten Zeitintervalls im Anschluss da ran keine Funktionsstörung aufgetreten ist. Zur Auswahl ähnlicher Log-Daten kann bei spielsweise eine Mustererkennung verwendet werden.
Nach Ausführungsformen werden für die statistische Analyse wird eine Mehrzahl von Funk tionsstörungen herangezogen. Bei den herangezogenen Funktionsstörungen handelt es sich beispielsweise um identische oder ähnliche Funktionsstörungen. Für jede der Funktionsstö rungen werden jeweils Log-Daten extrahiert, welche innerhalb eines der Funktionsstörung vorangehenden Zeitintervalls protokollierte wurden. Somit wird eine Mehrzahl von Datens ätzen mit Log-Daten bereitgestellt, auf welche eine Mustererkennung angewendet werden kann. Hierbei werden beispielsweise Übereinstimmungen zwischen den Datensätzen mit Log-Daten bestimmt. Für die Bestimmung der charakteristischen Merkmalskombination werden beispielsweise Übereinstimmungen berücksichtigt, welche sich nicht oder nur sel ten Referenzdatensätzen finden, welche in keinem direkten zeitlichen Zusammenhang mit einer Funktionsstörung stehen.
Log-Daten oder auch Protokolldaten bezeichnen automatisch protokollierte Daten aller oder bestimmter Aktionen von Prozessen auf einem Computersystem. So werden beispiels weise alle Aktionen protokolliert, welche für eine spätere Analyse erforderlich sind oder sein könnten. Beispielsweise umfassen die entsprechenden Log-Daten neben der protokol lierten Aktion einen Zeitstempel mit Datum und Uhrzeit der entsprechenden Aktion. Bei der Log-Datenanalyse werden die Log-Daten eines Computersystems eines gewissen Zeit raumes nach bestimmten Kriterien untersucht.
Die Log-Daten protokollieren beispielsweise Fehler, Warnungen und Infos. Bei Fehlern (engl. „Errors") handelt es sich um Laufzeitfehler, welcher die Funktion einer Anwendung behindert, oder um unerwarteter Programmfehler. Schwerwiegende Fehler, welche zu eine zur Terminierung einer Anwendung führt werden auch als „Fatals" bezeichnet. Warnungen (engl. „Warnings") umfassen beispielsweise Aufrufe veralteter Schnittstellen, fehlerhafte Aufrufe von Schnittstellen, Benutzerfehler oder ungünstige Programmzustände. Infos um fassen beispielsweise Laufzeitinformationen wie den Start und Stopp einer Anwendung, Be nutzeranmeldungen und -abmeldungen oder Datenübertragungen. Beispielsweise handelt es sich bei der charakteristischen Merkmalskombination um ein cha rakteristisches Datenmuster, etwa eine charakteristische Abfolge bestimmter Log-Daten.
Die charakteristische Merkmalskombination wird der Funktionsstörung zugeordnet und zur weiteren Überwachen der protokollierten Log-Daten verwendet. Im Zuge der Überwachung der Log-Daten werden nachfolgend protokollierte Log-Daten daraufhin überprüft, ob in die sen die charakteristische Merkmalskombination, etwa in Form einer charakteristischen Ab folge bestimmter Log-Daten, auftritt. Wird ein Auftreten der charakteristische Merkmals kombination erfasst, kann dies als Trigger zur Vorhersage eines bevorstehenden Auftretens der Funktionsstörung verwendet werden.
Nach Ausführungsformen kann ein Auftreten eines charakteristischen Teils der Merkmals kombination als Trigger zur Vorhersage bevorstehenden Auftretens der Funktionsstörung verwendet werden. Beispielsweise kann bei einer charakteristischen Abfolge bestimmter Log-Daten der Anfang der Abfolge als Trigger verwendet werden, um das eines bevorste henden Auftretens der Funktionsstörung möglichst früh Vorhersagen zu können.
Beispielsweise wird das der Funktionsstörung vorangehende Zeitintervall, dessen protokol lierten Log-Daten zum Bestimmen der charakteristische Merkmalskombination verwendet wird, variiert. Beispielsweise wird zunächst ein Zeitintervall, welches der Funktionsstörung unmittelbar vorangeht herangezogen. Dieser Zeitintervall kann dann beispielsweise verlän gert oder verkürzt werden und/oder von der Funktionsstörung in der Zeit zurückverscho ben werden, bis eine charakteristische Merkmalskombination gefunden ist, welche einen ausreichenden Unterschied, etwa eine ausreichende statistisch Signifikanz, aufweist.
Ausführungsformen können den Vorteil haben, dass sie ein effektives Vorhersagen eines Auftretens von Funktionsstörungen ermöglichen.
Unter einer Funktionsstörung wird hier eine Störung des bestimmungsgemäßen Betriebes eines Computersystems verstanden. Bestimmungsgemäßer Betrieb ist der Betrieb, für wel chen das Computersystem technisch ausgelegt und welchen es unter normal Bedingungen erreicht. Betriebsparameter, welche den bestimmungsgemäßen Betrieb bzw. Regelbetrieb des Computersystems beschreiben umfassen beispielsweise Leistungsparameter, wie etwa Instruktionen pro Zyklus, Instruktionen pro Sekunde, Geleitkommaoperationen pro Se kunde, Datenübertragungsrate, Datendurchsatz, Antwortzeit, Antwortrate, Bilder pro Se kunde, Prozessortakt, Latenzzeit oder Zugriffszeit. Ferner umfassen die Betriebsparameter zur Verfügung stehende Software und Hardware sowie physikalische Zustandsparameter, wie etwa Temperaturen von Komponenten. Funktionsstörung können je nach Komplexität des Systems sehr unterschiedliche Formen annehmen und umfassen beispielsweise Fehlfunktion, wie etwa Software- oder Hardwarefehler, ebenso wie Abweichungen von den bestimmungsgemäßen Betriebsparametern.
Nach Ausführungsformen handelt es sich bei der Funktionsstörung um ein Fehlerereignis. Nach Ausführungsformen handelt es sich bei der Funktionsstörung um ein Überschreiten oder Unterschreiten eines vordefinierten Schwellenwerts. Beispielsweise definiert der vor definierte Schwellenwert einen Mindestwert für einen Leitungsparameter, welcher im Re gelbetrieb des Computersystems mindestens erfüllt werden sollte. Beispielsweise definiert der vordefinierte Schwellenwert einen Maximalwert für eine Belastung oder Auslastung des Computersystems oder einzelner Komponenten des Computersystems, welche im Regelbe trieb des Computersystems nicht überschritten werden sollte. Beispielsweise definiert der vordefinierte Schwellenwert einen Maximalwert für Temperatur des Computersystems oder einzelner Komponenten des Computersystems, welche im Regelbetrieb des Compu tersystems nicht überschritten werden sollte.
Nach Ausführungsformen führt das Computersystem selbst die Log-Datenanalyse durch. Nach Ausführungsformen überwacht das Computersystem selbst die Log-Daten. Nach Aus führungsformen handelt es sich bei der Datenbank um eine Datenbank des Computersys tems. Ausführungsformen können den Vorteil haben, dass das Computersystem die Log- Daten selbst protokolliert, analysiert und unter Verwendung der Analyseergebnisse eine Log-Datenüberwachung ausführt.
Nach Ausführungsformen führt ein Analysecomputersystem, d.h. ein weiteres Computer system, die Log-Datenanalyse durch. Dies kann beispielsweise der Fall sein, falls es sich bei dem Computersystem um einen Server eines verteilten Computersystems handelt, welches eine Mehrzahl von Servern umfasst. Beispielsweise führt einer der Server als Analysecom putersystem die Log-Datenanalyse für ein, mehrere und/oder alle Einzelcomputersysteme bzw. Server des verteilten Computersystems durch. Nach Ausführungsformen handelt es sich bei der Datenbank um eine Datenbank des Computersystems. Das Protokollieren der Log-Daten in der Datenbank kann beispielsweise lokal auf den einzelnen Servern durch die entsprechenden Server erfolgen, wobei das Analysecomputersystem Zugriff auf die lokal gespeicherten Daten besitzt. Das Protokollieren der Log-Daten kann in einer oder mehreren zentralen Datenbanken erfolgen, auf welche sowohl das oder die protokollierenden Com putersysteme bzw. Server als auch das Analysecomputersystem Zugriff besitzen. Nach Aus führungsformen handelt es sich bei der Datenbank um eine Datenbank des Analysecompu tersystems.
Nach Ausführungsformen überwacht das Computersystem selbst die Log-Daten. Hierzu sendet beispielsweise das Analysecomputersystem die Zuordnung an das Computersystem. Ausführungsformen können den Vorteil haben, dass die Überwachung lokal erfolgen kann. Dies kann beispielsweise eine zeitnahe Lokale Vorhersage der bevorstehenden Funktions störung ermöglich. Gegebenenfalls können so auch zeitnahe lokale Gegenmaßnahmen ein geleitete werden, um die Funktionsstörung zu verhindern, abzuschwächen und/oder nach teilige Folgen Funktionsstörung zu verhindern oder abzuschwächen.
Die Überwachung der Log-Daten kann ebenfalls durch das Analysecomputersystem oder jeweils eigenständig durch die einzelnen Server erfolgen. Hierzu benötigt das die Analyse ausführende Computersystem Zugriff auf die zu analysierenden Log-Daten. Dieser Zugriff kann beispielsweise einen Zugriff auf die Datenbank umfassen, in welcher die Log-Daten gespeichert sind. Beispielsweise sendet das Computersystem die extrahierten Log-Daten und/oder weitere protokollierte Log-Daten zur Log-Datenanalyse an das Analysecomputer system. Nach Ausführungsformen überwacht das Analysecomputersystem die Log-Daten des Computersystems. Hierzu sendet beispielsweise das Computersystem die Log-Daten beispielsweise an das Analysecomputersystem. Hierzu benötigt das die Überwachung aus führende Computersystem Zugriff auf die zu überwachenden Log-Daten. Dieser Zugriff kann beispielsweise einen Zugriff auf die Datenbank umfassen, in welcher die Log-Daten im Zuge des Protokollierens gespeichert werden. Beispielsweise werden die zu überwachen den Log-Daten an das Analysecomputersystem gesendet.
Ausführungsformen können den Vorteil haben, dass ein spezifisch hierfür konfiguriertes Analysecomputersystem zum Ausführen der Log-Datenanalyse verwendet werden kann. In einem verteilten Computersystem, welches eine Mehrzahl von Einzelcomputersystemen, wie etwa Server umfasst, kann beispielsweise einer der Server als Analysecomputersystem eine Log-Datenanalyse für das verteilte Computersystem ausführen. Dabei kann das Analy secomputersystem zur Log-Datenanalyse Log-Daten von mehreren oder allen Servern des Systems verwendet. Dies kann beispielsweise den Vorteil haben, dass eine statistische Ana lyse über eine Mehrzahl von Servern hinweg ermöglicht wird. Ferner können bei der Über wachung charakteristische Merkmalskombination über mehrere Server hinweg berücksich tigt und zur Vorhersage einer bevorstehenden Funktionsstörung verwendet werden.
Nach Ausführungsformen umfasst die charakteristischen Merkmalskombination charakte ristischen Merkmalen aus extrahierten Kombinationen von Log-Daten mehrerer Computer systeme, wie etwa Servern. Eine solche charakteristische Merkmalskombination kann bei spielsweise Ergebnis einer statistischen Analyse über Log-Daten einer Mehrzahl von Ser vern hinweg sein. Somit können beispielsweise Korrelationen zwischen den Log-Daten der mehrerer Server bestimmt und in Form der charakteristischen Merkmalskombination zur Vorhersage bevorstehenden Funktionsstörungen verwendet werden. Entsprechende Korre lationen können beispielsweise auf kausalen Zusammenhängen zwischen Ereignissen beruhen, welche auf verschiedenen Servern auftreten. Entsprechende Korrelationen kön nen beispielsweise auf einem kausalen Zusammenhang der Funktionsstörung und Ereignis sen beruhen, welche auf verschiedenen Servern auftreten. Beispielsweise beruht die Funk tionsstörung auf einem Zusammenwirken der entsprechenden Ereignisse. Beispielsweise handelt es sich bei der charakteristischen Merkmalskombination um ein charakteristisches Datenmuster über mehrere Server hinweg, etwa eine charakteristische Abfolge bestimmter Log-Daten, welche auf verschiedenen Servern erfasst werden.
Nach Ausführungsformen umfasst die statistische Analyse ein Bestimmen ein oder mehre rer statistischer Kenngrößen. Beispielsweise umfassen die statistischen Kenngrößen einen Mittelwert, eine Varianz, eine Standardabweichung, eine Korrelation bzw. ein Zusammen hangmaß und oder eine Häufigkeit, etwa eine absolute oder relative Häufigkeit. Beispiels weise kann als Mittelwert, welcher Kennwert für die zentrale Tendenz einer Verteilung dar stellt, das arithmetische, das geometrische und das quadratische Mittel berechnet werden. Die Varianz bzw. deren Quadratwurzel die Standardabweichung ist ein Maß für die Streu ung einer Verteilung bzw. einer Wahrscheinlichkeitsdichte um ihren Schwerpunkt. Eine Kor relation bzw. ein Zusammenhangmaß, wie etwa die Kovarianz, stellt ein Maß für die Stärke und gegebenenfalls die Richtung eines Zusammenhangs zweier statistischer Variablen be reit.
Nach Ausführungsformen wird auf die Vorhersage der bevorstehenden Funktionsstörung hin ein Warnhinweis ausgegeben. Der Warnhinweis kann beispielsweise an dem Computer system ausgegeben werden, welches die Log-Datenanalyse ausführt, an dem Computersys tem, an welchem die Funktionsstörung bevorsteht, und/oder an mehreren oder allen Ein zelcomputersystemen eines verteilten Computersystems. Beispielsweise wird der Warnhin weis von dem Computersystem erstellt, welches die Log-Datenanalyse ausführt, und zum Ausgeben an ein oder mehrere weitere Computersysteme gesendet. Die Ausgabe kann bei spielsweise visuell oder akustisch über eine Ausgabevorrichtung einer Benutzerschnittstel len erfolgen. Beispielsweise wird das Warnsignal visuell, etwa auf einem Display, oder akus tisch, etwa über einen Lautsprecher, ausgegeben. Ausführungsformen können den Vorteil haben, dass Nutzer über die bevorstehende Funktionsstörung informiert werden. Es kann mithin verhindert werden, dass sie Nutzer von dem Auftreten der Funktionsstörung über rascht werden. Sie können vielmehr in die Lage versetzt werden, Maßnahmen zu ergreifen, die Funktionsstörung zu verhindern und/oder abzuschwächen. Die Nutzer können sich auf die Funktionsstörung und deren Folgen gegebenenfalls einstellen.
Nach Ausführungsformen werden auf das Auftreten der Funktionsstörung auszuführende Gegenmaßnahmen zur Vermeidung der Funktionsstörung festgelegt. Eine Zuordnung der bestimmten charakteristischen Merkmalskombination zu den Gegenmaßnahmen wird zusammen mit der Zuordnung der bestimmten charakteristischen Merkmalskombination zu der Funktionsstörung gespeichert. Auf die Vorhersage der bevorstehenden Funktionsstö rung hin, werden die Gegenmaßnahmen automatisch ausgeführt. Ausführungsformen kön nen den Vorteil haben, dass automatisch auszuführende Gegenmaßnahmen hinterlegt wer den können. Somit kann eine automatisierte Störungskompensation oder Störungsbehe bung bzw. Fehlerkompensation oder Fehlerkorrektur implementiert werden. Beispielsweise können Datenströme umgelenkt, Anweisungen umgelenkt oder deren Ausführung verzö gert werden. Beispielsweise können zusätzliche Kapazitäten zugeschaltet und/oder Pro zesse ausgelagert werden. Beispielsweise kann ein Ausführen von Anweisungen blockiert werden. Beispielsweise kann ein Ausführen bestimmter Anweisungen priorisiert werden, während ein Ausführen anderer Anweisungen zurückgestellt werden kann.
Nach Ausführungsformen erfolgt die Speicherung der Zuordnung der auszuführenden Ge genmaßnahmen beispielsweis durch das Computersystem. Ausführungsformen können den Vorteil haben, dass die auszuführenden Gegenmaßnahmen lokal hinterlegt werden und so mit im Bedarfsfall lokal zur sofortigen Ausführung bereitstehen. Nach Ausführungsformen erfolgt die Speicherung der Zuordnung der auszuführenden Gegenmaßnahmen beispiels weis durch das Analysecomputersystem. Das Analysecomputersystem sendet die auszufüh renden Gegenmaßnahmen beispielsweise an diejenigen Computersysteme, welche die ent sprechenden auszuführenden Gegenmaßnahmen ausführen sollen. Ausführungsformen können insbesondere im Falle eines verteilten Computersystems mit einer Mehrzahl von Servern von Vorteil sein, da das Analysecomputersystem beispielsweise serverindividuelle Gegenmaßnahmen unter Verwendung der hinterlegten Gegenmaßnahmen bestimmen und ein oder mehreren der Server zum Ausführen zusenden kann. Beispielsweise umfassen die hinterlegten Gegenmaßnahmen Angaben dazu, welche Server welche Gegenmaßnahmen auszuführen hat bzw. geben Kriterien an, anhand derer bestimmt werden kann, welcher Server welche der Gegenmaßnahmen auszuführen hat. Bei einer Funktionsstörung im Zuge von Datenübertragungen zwischen zwei oder mehr Servern können beispielsweise Gegen maßnahmen für sendende und/oder für empfangende Server hinterlegt sein, wobei ange geben sein kann, welche der Gegenmaßnahmen von senden Servern und welche Gegen maßnahmen von empfangenden Servern auszuführen sind.
Nach Ausführungsformen sind die auszuführenden Gegenmaßnahmen der Funktionsstö rung zugeordnet, über welches sie indirekt der bestimmten charakteristischen Merkmals kombination zugeordnet sind. Ausführungsformen können den Vorteil haben, dass bei spielsweise unterschiedliche charakteristische Merkmalskombinationen zu derselben Funk tionsstörung führen können. Die Funktionsstörung kann aber beispielsweise in jedem die ser Fälle dieselben Gegenmaßnahmen erforderlich machen. Beispielsweise können anhand der bevorstehenden Funktionsstörung die auszuführenden Gegenmaßnahmen identifiziert werden.
Nach Ausführungsformen sind die auszuführenden Gegenmaßnahmen der bestimmten charakteristischen Merkmalskombination direkt zugeordnet. Beispielsweise können unter schiedliche charakteristische Merkmalskombinationen zu derselben Funktionsstörung füh ren. Die Funktionsstörung kann beispielsweise in verschiedenen Fällen unterschiedliche Ur sachen haben, welche aber jeweils durch eine unterschiedliche Merkmalskombination cha rakterisiert sind. Unterschiedliche Ursachen können beispielsweise unterschiedlichen Ge genmaßnahmen erforderlich machen, obwohl die unterschiedlichen Ursachen ohne die Ge genmaßnahmen jeweils in derselben Funktionsstörung resultieren. Ausführungsformen können den Vorteil haben, dass anhand der bestimmten charakteristischen Merkmalskom bination die auszuführenden Gegenmaßnahmen identifiziert werden können. Dabei können für unterschiedliche charakteristische Merkmalskombination unterschiedliche auszuführen den Gegenmaßnahmen identifiziert werden, obwohl den unterschiedlichen charakteristi sche Merkmalskombination dieselbe Funktionsstörung zugeordnet ist.
Nach Ausführungsformen umfassen die auszuführenden Gegenmaßnahmen auszuführende Programminstruktionen. Nach Ausführungsformen umfassen die auszuführenden Gegen maßnahmen durch das Computersystem auszuführende Programminstruktionen. Im Falle eines verteilten Computersystems umfassen die auszuführenden Gegenmaßnahmen bei spielsweise durch ein oder mehrere weitere Computersysteme bzw. Server des verteilten Computersystems auszuführende Programminstruktionen. Ausführungsformen können den Vorteil haben, dass das zum automatischen Ausführen der Gegenmaßnahmen beispiels weise die hinterlegten Programminstruktionen aufgerufen und ausgeführt werden. Diese Programminstruktionen können Programmroutinen zur automatisierten Störungskompen sation oder Störungsbehebung bzw. Fehlerkompensation oder Fehlerkorrektur bereitstel len. Beispielsweise werden im Zuge des Ausführens der entsprechenden Programmrouti nen Fehlerquelle beseitigt und/oder abhängige Prozesse gestoppt.
Nach Ausführungsformen wird den Merkmalen der charakteristischen Merkmalskombina tion jeweils ein erster Toleranzbereich zugeordnet. Eine protokollierte Kombination von Log-Daten weist die gespeicherte charakteristische Merkmalskombination auf, falls sie die Merkmale gemäß der charakteristischen Merkmalskombination aufweist und diese Merk male jeweils innerhalb der zugeordneten ersten Toleranzbereiche liegen. Ausführungsfor men können den Vorteil haben, dass auch mögliche Abweichungen bzw. Schwankungen der innerhalb der charakteristischen Merkmalskombination berücksichtigt werden können, welche dennoch zu derselben Funktionsstörung führen. Nach Ausführungsformen wird den Merkmalen der charakteristischen Merkmalskombina tion jeweils ein zweiter Toleranzbereich zugeordnet. Es wird angenommen, dass eine proto kollierte Kombination von Log-Daten die gespeicherte charakteristische Merkmalskombina tion aufweist, falls sie eine vorbestimmte Mindestanzahl von Merkmalen der charakteristi schen Merkmalskombination aufweist und diese Merkmale jeweils innerhalb der zugeord neten zweiten Toleranzbereiche liegen. Ausführungsformen können den Vorteil haben, dass im Zuge einer Überwachung der protokollierten Log-Daten auch für den Fall ein bevor stehendes Auftreten der Funktionsstörung vorhergesagt werden kann, dass die protokol lierten Log-Daten nicht alle Merkmale der charakteristische Merkmalskombination aufwei sen, d.h. das Abweichungen bzw. Schwankungen in den Merkmalen selbst vorliegen.
Nach Ausführungsformen ist für dasselbe Merkmal der erste Toleranzbereich jeweils iden tisch mit dem zweiten Toleranzbereich.
Nach Ausführungsformen sind für ein oder mehrere Merkmale die ersten Toleranzbereiche jeweils größer als die zweiten Toleranzbereiche. Nach Ausführungsformen ist für dasselbe Merkmal der erste Toleranzbereich jeweils größer als der zweite Toleranzbereich. Ausfüh rungsformen können den Vorteil haben, dass im Falle eines Erfassens weniger charakteristi schen Merkmale bzw. Indikatoren in den protokollierten Log-Daten strengere Anforderun gen dafür vorgegeben werden, dass eine positive Vorhersage erfolgt, dass eine Funktions störung bevorsteht, als im Falle einer größeren Anzahl von Merkmalen bzw. Indikatoren für das bevorstehende Auftreten der Funktionsstörung. Merkmale bzw. Indikatoren für das be vorstehende Auftreten der Funktionsstörung erfasst, können für diese die Toleranzbereiche beispielsweise größere gewählt werde. Mit anderen Worten kann beispielsweise bei einer ausreichend großen Anzahl an Merkmalen bzw. Indikatoren ein Bevorstehen der Störfunk tion angenommen werden, auch wenn einzelne der Merkmale bzw. Indikatoren stärker ab weichen als andere.
Nach Ausführungsformen umfasst das Speichern der Log-Daten ein Normalisieren der Log- Daten. Nach Ausführungsformen erfüllt das Normalisieren die sechste Normalform erfüllt. Ausführungsformen können den Vorteil haben, dass Redundanzen vermieden werden kön nen. Ausführungsformen können den Vorteil haben, dass eine zeitliche Einordnung der Log- Daten berücksichtigt wird.
Nach Ausführungsformen können die Log-Daten in Form von Relationen oder äquivalenten Strukturen gespeichert sein. Unter einer Relation wird hier im Sinn der relationalen Daten banktheorie eine Menge von Tupel verstanden. Ein Tupel ist eine Menge von Attributwer ten. Ein Attribut bezeichnet einen Datentyp bzw. eine ein oder mehreren Daten zugeordnete Eigenschaft. Dabei bestimmt die Anzahl der Attribute den Grad, die Anzahl der Tupel die Kardinalität einer Relation.
Unter einer Normalisierung, insbesondere unter einer Normalisierung eines relationales Datenmodells, wird eine Aufteilung von Attributen in eine Mehrzahl von Relationen gemäß einer Normalisierungsregeln verstanden, sodass Redundanzen reduziert bzw. minimiert werden. Ein relationales Datenmodell lässt sich beispielsweise in tabellenartigen Daten strukturen implementieren, in denen die Relationen in Form von Tabellen, die Attribute in Form von Tabellenspalten und die Tupel in Form von Tabellenzeilen realisiert sind.
Datenredundanzen haben die Gefahr, dass es bei Änderungen von Daten, welche mehrfach umfasst sind, zu Inkonsistenzen kommen kann und Anomalien auftreten. Ferner steigt durch Redundanzen unnötiger Weise der Speicherplatzbedarf. Durch eine Normalisierung können solche Redundanzen verringert bzw. minimiert werden. Ein relationales Datenmo dell kann beispielsweise in eine Normalform gebracht werden, indem die Relationen des Datenschemas fortschreitend anhand der für die entsprechende Normalform geltenden funktionalen Abhängigkeiten in einfachere Relationen zerlegt.
Es können beispielsweise folgende Normalformen unterschieden werden: 1. Normalform (INF), 2. Normalform (2NF), S. Normalform (SNF), Boyce-Codd-Normalform (BCNF), 4. Nor malform (4NF), 5. Normalform (5NF), 6. Normalform (6NF).
Die Normalisierungskriterien nehmen dabei von Normalform zu Normalform zu und umfas sen jeweils die Normalisierungskriterien der vorhergehenden Normalformen, d.h.
INF c 2NF C BNF C ßCNF C 4NF C 5NF C 6NF.
Eine Relation ist in der ersten Normalform, falls jedes Attribut der Relation einen atomaren Wertebereich besitzt und die Relation frei von Wiederholungsgruppen ist. Unter atomar wird hier ein Ausschluss von zusammengesetzten, mengenwertigen oder geschachtelten Wertebereichen für die Attribute, d.h. relationenwertigen Attributwertebereichen, verstan den. Eine Freiheit von Wiederholungsgruppen erfordert es, dass Attribute, die gleiche bzw. gleichartige Information enthalten, in unterschiedliche Relationen ausgelagert werden.
Eine Relation ist in der zweiten Normalform, wenn sie die Anforderungen der ersten Nor malform erfüllt und kein Nichtprimärattribut funktional von einer echten Teilmenge eines Schlüsselkandidaten abhängt. Ein Nichtprimärattribut ist ein Attribut, welches nicht Teil ei nes Schlüsselkandidaten ist. Das bedeutet, dass jedes Nichtprimärattribut jeweils von allen ganzen Schlüsseln abhängig und nicht nur von einem Teil eines Schlüssels. Relationen in der ersten Normalform, deren Schlüsselkandidaten nicht zusammengesetzt sind, sondern aus jeweils einem einzelnen Attribut bestehen, erfüllen mithin automatisch die zweite Normal form. Unter einem Schlüsselkandidaten wird hierbei eine minimale Menge von Attributen verstanden, welche die Tupel einer Relation eindeutig identifiziert.
Eine Relation ist in der dritten Normalform, wenn sie die Anforderungen der zweiten Nor malform erfüllt und kein Nichtschlüsselattribut von einem Schlüsselkandidaten transitiv ab hängt. Ein Attribut ist von einem Schlüsselkandidaten transitiv abhängig, wenn das entspre chende Attribut von dem entsprechenden Schlüsselkandidaten über ein weiteres Attribut abhängig ist.
Eine Relation ist in der Boyce-Codd-Normalform, wenn sie die Anforderungen der dritten Normalform erfüllt und jede Determinante ein Superschlüssel ist. Unter einer Determinante wird hier eine Attributmenge verstanden, von welcher andere Attribute funktional abhän- gen sind. Eine Determinante beschreibt somit die Abhängigkeit zwischen Attributen einer Relation und legt fest, welche Attributmengen den Wert der übrigen Attribute bestimmen. Ein Superschlüssel ist eine Menge von Attributen in einer Relation, welche die Tupel in die ser Relation eindeutig identifizieren. Mithin umfassen die Attribute dieser Menge bei paar weise ausgewählten Tupeln immer unterschiedliche Werte. Schlüsselkandidat ist mithin eine minimale Teilmenge der Attribute eines Superschlüssels, welche die Identifizierung der Tupel ermöglicht.
Eine Relation ist in der vierten Normalform, wenn sie die Anforderungen der Boyce-Codd- Normalform erfüllt und keine nichttrivialen mehrwertigen Abhängigkeiten umfasst.
Eine Relation ist in der fünften Normalform, wenn sie die Anforderungen der vierten Nor malform erfüllt und keine mehrwertigen Abhängigkeiten umfasst, die voneinander abhän gig sind. Die fünfte Normalform liegt somit vor, falls jeder nichttriviale Verbund-Abhängig keit durch die Schlüsselkandidaten impliziert ist. Eine Verbund-Abhängigkeit ist durch die Schlüsselkandidaten der Ausgangsrelation impliziert, wenn jede Relation der Menge von Relationen ein Superschlüssel der Ausgangsrelation ist.
Eine Relation ist in der sechsten Normalform, wenn sie die Anforderungen der fünften Nor malform erfüllt und keine nichttrivialen Verbund-Abhängigkeiten umfasst.
Eine Relation genügt einer Verbund-Abhängigkeit (join dependency) von einer Mehrzahl von Relationen, falls sich die Relation als Ausgangsrelation verlustlos in die entsprechende Menge von Relationen zerlegen lässt. Die Verbund-Abhängigkeit ist trivial, falls eine der Re lationen der Menge von Relationen alle Attribute der Ausgangsrelation aufweist. Nach Ausführungsformen handelt es sich bei der Datenbank um eine Multi-Modell Daten bank mit einem Multi-Modell-Datenbankmanagementsystem, welches zum Speichern der Log-Daten eine Mehrzahl von Datenmodellen verwendet. Beispielsweise werden die Log- Daten in einem ersten dokumentenorientierten Datenmodellen gespeichert. Ein dokumen- tenorientiertes Datenmodell bedeutet, dass das Datenmodell keine strukturellen Vorgaben an die zu speichernden Daten stellt. Vielmehr werden die Daten in Dokumenten bzw. Da tencontainern in der Form gespeichert, in der empfangen werden. In diesem Sinne handelt es sich bei den in dem dokumentenorientierten Datenmodell gespeicherten Daten um Roh daten. Rohdaten bedeutet, dass die Daten in der Form abgespeichert werden, in der sie empfangen werden, ohne eine zusätzliche Datenverarbeitung durch das Datenbankmana gementsystem, insbesondere keine Umstrukturierung der Daten. Ausführungsformen kön nen den Vorteil haben, dass somit der gesamte Informationsgehalt der empfangenen Daten (nahezu) vollständig beibehalten werden kann, ohne dass Vorannahmen des Datenbankma nagementsystems einfließen. Somit kann jederzeit auf die ursprünglichen Datenbestände zurückgreifen und diese in bei der weiteren Verarbeitung berücksichtigen. Basierend auf diesem Datenpool an Rohdaten, welchen das dokumentenbasierte Datenmodell bereit stellt, wird die Normalisierung der Daten ausgeführt und ein Index erzeugt. Bei diesem In dex handelt es sich beispielsweise um eine inhaltsbasierte mehrstufige Indexstruktur. Die ser Index stellt ein zweites Datenmodellen dar, welches beispielsweise die sechste Normal form aufweist. So können alle Felder und Feldinhalte redundanzfrei von dem ersten Daten modell in das normalisierte zweite Datenmodell übertragen werden, welches beispiels weise die Form eines mehrdimensionalen Schlüssel/Wert-Speichers (Key/Value-Store) bzw. einer mehrdimensionalen Key-Value-Datenbanken aufweist.
Beispielsweise werden zusätzlich Transaktionszeit und Gültigkeitszeit der Datensätze bitem- poral gespeichert. Die Transaktionszeit gibt den Zeitpunkt an, zu dem eine Änderung eines Datenobjekt in der Datenbank erfolgt. Die Gültigkeitszeit gibt einen Zeitpunkt oder Zeit raum an, in dem ein Datenobjekt im modellierten Abbild der realen Welt den beschriebe nen Zustand aufweist. Sind sowohl Gültigkeits- als auch Transaktionszeit relevant, spricht man von bitemporal. Zu jedem Datensatz wird mithin nicht nur der Zustand des Datensat zes bei der letzten Transaktion bzw. Änderung ersichtlich, sondern auch dessen Historie. In diesem Fall spricht man von bitemporaler Datenbank, bei welcher sowohl Gültigkeits- als auch Transaktionszeit der Datensätze berücksichtigt werden.
Ein Schlüssel-Werte-Datenmodell ermöglicht ein Speichern, Abrufen und Verwalten von as soziativen Datenfeldern. Dabei werden Werte (Value) über einen Schlüssel (Key) eindeutig identifiziert. Ausführungsformen können den Vorteil haben, dass die Log-Daten in beiden Datenmodel len abgespeichert und für Analysen zur Verfügung gestellt werden können.
Nach Ausführungsformen handelt es sich bei dem Computersystem um einen ersten Server eines verteilten Computersystems, welches eine Mehrzahl von Servern umfasst. Auf jedem der Server werden jeweils Log-Daten protokolliert. Die protokollierten Log-Daten werden überwacht. Ausführungsformen können den Vorteil haben, dass Funktionsstörungen auf einem verteilten Computersystem vorhergesagt werden können. Die Überwachung der Log-Daten kann beispielsweise lokal auf den einzelnen Servern oder zentral erfolgen.
Nach Ausführungsformen erfolgt die Zuordnung der bestimmten charakteristischen Merk malskombination zu der Funktionsstörung durch den ersten Server.
Nach Ausführungsformen erfolgt die Zuordnung der bestimmten charakteristischen Merk malskombination zu der Funktionsstörung durch den ersten Server. Der erste Server über wacht ferner die von den Servern der Servergruppe protokollierten Log-Daten. Auf ein Pro tokollieren einer Kombination von Log-Daten, welche die gespeicherte charakteristische Merkmalskombination aufweist, erfolgt eine Vorhersage eines bevorstehenden Auftretens der Funktionsstörung.
Die resultierende Zuordnung wird von dem ersten Server an eine Servergruppe weitergelei tet. Die Servergruppe umfasst ein oder mehrere weitere Server der Mehrzahl von Servern. Die Server der Servergruppe speichern jeweils die weiteregeleitete Zuordnung. Das Über wachen erfolgt lokal auf den Servern der Servergruppe. Das Überwachen von Log-Daten durch die Server der Servergruppe umfasst jeweils auf ein Protokollieren einer Kombination von Log-Daten, welche die gespeicherte charakteristische Merkmalskombination aufweist, durch den entsprechenden Server hin ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung.
Nach Ausführungsformen umfasst die Servergruppe alle Server des Computersystems ne ben dem ersten Server.
Nach Ausführungsformen werden, auf ein Auftreten der Funktionsstörung in einem der Ser ver des verteilten Computersystems hin, von den Servern der Servergruppe jeweils inner halb des der Störfunktion vorangehenden Zeitintervalls protokollierte Log-Daten extrahiert. Das Bestimmen der charakteristischen Merkmalskombination erfolgt durch den ersten Ser ver unter Verwendung der extrahierten Kombination von Log-Daten der Servergruppe und unter Verwendung einer statistischen Analyse über die Server der Servergruppe hinweg.
Die Zuordnung der bestimmten charakteristischen Merkmalskombination zu der Funktionsstörung wird an die Server der Servergruppe weitergleitet. Die Server der Server gruppe speichern die weiteregeleitete Zuordnung jeweils. Das Überwachen von Log-Daten durch die Server der Servergruppe umfasst jeweils auf ein Protokollieren einer Kombination von Log-Daten, welche die gespeicherte charakteristische Merkmalskombination aufweist, durch den entsprechenden Server hin ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung.
Nach Ausführungsformen erfolgt die Log-Datenanalyse zusätzlich unter Verwendung von Log-Daten des ersten Servers.
Nach Ausführungsformen werden ferner ein oder mehrere erste Identifikatoren bestimmt, welche Merkmale ein oder mehrere Server umfassen, bei welchen die Funktionsstörung auftritt, wobei zusammen mit der Zuordnung der bestimmten charakteristischen Merk malskombination zu der Funktionsstörung eine Zuordnung der bestimmten charakteristi schen Merkmalskombination zu den Identifikatoren gespeichert wird.
Ausführungsformen können den Vorteil haben, dass zusätzlich zu der charakteristischen Merkmalskombination Identifikatoren bestimmten werden können, anhand derer die Ser ver des verteilten Systems bestimmt werden können, auf denen die Funktionsstörung auf tritt. Bei den Identifikatoren kann es sich beispielsweise um Merkmale der Merkmalskombi nation handeln, anhand derer die entsprechenden Server bestimmt werden können. Bei spielsweise können anhand der Identifikatoren diejenigen Server als Server identifiziert werden, auf denen ein Auftreten der Störfunktion bevorsteht, welche ein bestimmtes Merkmal der Merkmalskombination aufweisen, d.h. auf welchen bestimmte Log-Daten pro tokolliert wurden.
Nach Ausführungsformen werden die ersten Identifikatoren der Funktionsstörung zugeord net, über welches sie indirekt der bestimmten charakteristischen Merkmalskombination zu geordnet sind. Ausführungsformen können den Vorteil haben, dass beispielsweise unter schiedliche charakteristische Merkmalskombinationen zu derselben Funktionsstörung füh ren können. Die Funktionsstörung kann aber beispielsweise in jedem dieser Fälle bei ein oder mehreren Servern auftreten, welche dieselben Merkmale aufweisen bzw. durch die selben Identifikatoren identifiziert werden.
Nach Ausführungsformen werden die ersten Identifikatoren der bestimmten charakteristi schen Merkmalskombination direkt zugeordnet sind. Ausführungsformen können den Vor teil haben, dass beispielsweise unterschiedliche charakteristische Merkmalskombinationen zu derselben Funktionsstörung führen können. Die Funktionsstörung kann aber beispiels weise in verschiedenen Fällen unterschiedliche Ursachen haben, welche jeweils durch eine unterschiedliche Merkmalskombination charakterisiert sind. Unterschiedliche Ursachen können beispielsweise dazu führen, dass die Funktionsstörung jeweils bei einem oder meh reren Servern auftritt, welche in Abhängigkeit von der jeweiligen Ursache unterschiedliche Merkmale aufweisen.
Nach Ausführungsformen werden auf die Vorhersage der bevorstehenden Funktionsstö rung hin unter Verwendung der Identifikatoren ein oder mehrere Server bestimmt, bei wel chen die Funktionsstörung auftritt, und jeweils ein Warnhinweis für die bestimmten Server ausgegeben wird. Beispielsweise werden die Server zentral bestimmt und die Warnhin weise werden an die entsprechenden Server zum Ausgeben gesendet.
Nach Ausführungsformen werden auf das Auftreten der Funktionsstörung auszuführende Gegenmaßnahmen zur Vermeidung der Funktionsstörung für ein oder mehrere Server fest gelegt. Ein oder mehrere zweite Identifikatoren werden bestimmt, welche Merkmale der entsprechenden Server umfassen, auf welchen die Gegenmaßnahmen auszuführen sind, wobei zusammen mit der Zuordnung der bestimmten charakteristischen Merkmalskombi nation zu der Funktionsstörung eine Zuordnung der bestimmten charakteristischen Merk malskombination zu den Gegenmaßnahmen und den zweiten Identifikatoren gespeichert wird. Auf die Vorhersage der bevorstehenden Funktionsstörung hin werden die Gegenmaß nahmen auf den durch die zweiten Identifikatoren identifizierten Servern automatisch aus geführt.
Ausführungsformen können den Vorteil haben, dass zusätzlich Identifikatoren bestimmten werden können, anhand derer die Server des verteilten Systems bestimmt werden können, auf denen die Gegenmaßnahmen gegen die Funktionsstörung auszuführen sind. Diese Ser ver, welche die Funktionsstörung zumindest teilweise verursachen bzw. zu dieser beitra gen, sind beispielsweise unterschiedlich zu den Servern auf denen die zu verhindernden Funktionsstörung bevorsteht. Beispielsweise unterscheiden sich die zweiten Identifikatoren daher von den ersten Identifikatoren. Bei den Identifikatoren kann es sich beispielsweise um Merkmale der Merkmalskombination handeln, anhand derer die entsprechenden Ser ver, auf denen die Gegenmaßnahmen auszuführen sind, bestimmt werden können. Bei spielsweise können anhand der Identifikatoren diejenigen Server identifiziert werden, wel che ein bestimmtes Merkmal der Merkmalskombination aufweisen, d.h. auf welchen be stimmte Log-Daten protokolliert wurden.
Nach Ausführungsformen werden die auszuführenden Gegenmaßnahmen und zweiten Identifikatoren der Funktionsstörung zugeordnet, über welches sie indirekt der bestimmten charakteristischen Merkmalskombination zugeordnet sind. Ausführungsformen können den Vorteil haben, dass beispielsweise unterschiedliche charakteristische Merkmalskombinationen zu derselben Funktionsstörung führen können. Die Funktionsstö rung kann aber beispielsweise in jedem dieser Fälle bei ein oder mehreren Servern auftre- ten, welche dieselben Merkmale aufweisen.
Nach Ausführungsformen werden die auszuführenden Gegenmaßnahmen und Identifi kato- ren der bestimmten charakteristischen Merkmalskombination direkt zugeordnet. Ausfüh rungsformen können den Vorteil haben, dass beispielsweise unterschiedliche charakteristi sche Merkmalskombinationen zu derselben Funktionsstörung führen können. Die Funkti onsstörung kann aber beispielsweise in verschiedenen Fällen unterschiedliche Ursachen ha ben, welche jeweils durch eine unterschiedliche Merkmalskombination charakterisiert sind. Unterschiedliche Ursachen können beispielsweise dazu führen, dass die Funktionsstörung jeweils bei einem oder mehreren Servern auftritt, welche in Abhängigkeit von der jeweili gen Ursache unterschiedliche Merkmale aufweisen.
Nach Ausführungsformen sind Gegenmaßnahmen auf den Servern auszuführen, auf denen die Funktionsstörung auftritt, weshalb die zweiten Identifikatoren identisch mit den ersten Identifikatoren sind. Nach Ausführungsformen sind Gegenmaßnahmen auf Servern auszu führen, auf denen keine Funktionsstörung auftritt, sondern welche die Funktionsstörung verursachen bzw. zu dieser beitragen. In diesem Fall unterscheiden sich die zweiten Identi fikatoren beispielsweise von den ersten Identifikatoren.
Ausführungsformen umfassen ferner ein Computersystem mit einem Prozessor und einem Speicher, wobei in dem Speicher Programminstruktionen gespeichert sind. Ein Ausführen der Programminstruktion durch den Prozessor veranlasst den Prozessor dazu, das Compu tersystem so zu steuern, dass das Computersystem ein Verfahren zum Analysieren von Log- Daten ausführt. Das Verfahren umfasst:
• Protokollieren von Log-Daten, wobei das Protokollieren der Log-Daten ein Speichern von Log-Daten in einer Datenbank umfasst, wobei die Log-Daten jeweils mit einem Zeitstempel gespeichert werden,
• auf ein Auftreten einer Funktionsstörung hin, Extrahieren der innerhalb eines der Funktionsstörung vorangehenden Zeitintervalls protokollierten Log-Daten,
• Bestimmen einer charakteristischen Merkmalskombination, welche ein oder meh rere charakteristische Merkmale der extrahierten Kombination von Log-Daten um fasst, unter Verwendung einer statistischen Analyse,
• Speichern einer Zuordnung der bestimmten charakteristischen Merkmalskombina tion zu der Funktionsstörung,
• Überwachen der protokollierten Log-Daten, wobei das Überwachen auf ein Proto kollieren einer Kombination von Log-Daten hin, welche die gespeicherte charakteristische Merkmalskombination aufweist, ein Vorhersagen eines bevorste henden Auftretens der Funktionsstörung umfasst.
Nach Ausführungsformen ist das Computersystem dazu konfiguriert jede der zuvor be schriebenen Ausführungsformen des Verfahrens zum Analysieren von Log-Daten auszufüh ren.
Nach Ausführungsformen handelt es sich bei den Log-Daten um Log-Daten des Computer systems selbst. Nach Ausführungsformen handelt es sich bei den Log-Daten um Log-Daten eines weiteren Computersystems, welche das Computersystem empfängt bzw. auf welche das Computersystem Zugriff besitzt und welche das erste Computersystem analysiert. Bei spielsweise tritt die Funktionsstörung auf dem Computersystem auf.
Beispielsweise tritt die Funktionsstörung auf einem weiteren Computersystem auf, welches mit dem Computersystem verbunden ist. Im Falle eines Vorhersagens eines bevorstehen den Auftretens der Funktionsstörung wird die entsprechende Vorhersage und/oder ein Warnhinweis an das weitere Computersystem gesendet.
Ausführungsformen umfassen ferner ein verteiltes Computersystem, welches eine Mehr zahl von Servern umfasst. Bei einem ersten Server der Mehrzahl von Servern handelt es sich um das Computersystem einer der zuvor beschriebenen Ausführungsformen. Auf je dem der Server werden jeweils Log-Daten protokolliert und die protokollierten Log-Daten überwacht.
Nach Ausführungsformen ist das Computersystem dazu konfiguriert jede der zuvor be schriebenen Ausführungsformen des Verfahrens zum Analysieren von Log-Daten auszufüh ren.
Nach Ausführungsformen erfolgt die Zuordnung der bestimmten charakteristischen Merk malskombination zu der Funktionsstörung durch den ersten Server und wird von dem ers ten Server an eine Servergruppe mit ein oder mehreren weiteren Servern der Mehrzahl von Servern weitergeleitet. Die Server der Servergruppe speichern jeweils die weiteregeleitete Zuordnung. Das Überwachen von Log-Daten durch die Server der Servergruppe umfasst je weils auf ein Protokollieren einer Kombination von Log-Daten, welche die gespeicherte cha rakteristische Merkmalskombination aufweist, durch den entsprechenden Server hin ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung.
Nach Ausführungsformen erfolgt die Zuordnung der bestimmten charakteristischen Merk malskombination zu der Funktionsstörung ebenso wie das Überwachen von Log-Daten der Server der Servergruppe durch den ersten Server. Auf ein Protokollieren einer Kombination von Log-Daten, welche die gespeicherte charakteristische Merkmalskombination aufweist, durch den ersten Server hin erfolgt ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung. Die Vorhersage wird beispielsweise an die Server gesendet, auf denen das Auftreten der Funktionsstörung bevorsteht.
Nach Ausführungsformen werden auf ein Auftreten der Funktionsstörung in einem der Ser ver des verteilten Computersystems hin, von den Servern der Servergruppe jeweils inner halb des der Störfunktion vorangehenden Zeitintervalls protokollierte Log-Daten extrahiert. Das Bestimmen der charakteristischen Merkmalskombination erfolgt durch den ersten Ser ver unter Verwendung der extrahierten Kombination von Log-Daten der Servergruppe. Das Bestimmen der charakteristischen Merkmalskombination erfolgt unter Verwendung einer statistischen Analyse über die Server der Servergruppe hinweg. Die Zuordnung der be stimmten charakteristischen Merkmalskombination zu der Funktionsstörung wird an die Server der Servergruppe weitergleitet. Die Server der Servergruppe speichern jeweils die weiteregeleitete Zuordnung. Das Überwachen von Log-Daten durch die Server der Server gruppe umfasst jeweils auf ein Protokollieren einer Kombination von Log-Daten, welche die gespeicherte charakteristische Merkmalskombination aufweist, durch den entsprechenden Server hin ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung.
Nach Ausführungsformen werden auf ein Auftreten der Funktionsstörung in einem der Ser ver des verteilten Computersystems hin, von den Servern der Servergruppe jeweils inner halb des der Störfunktion vorangehenden Zeitintervalls protokollierte Log-Daten beispiels weise von dem ersten Server extrahiert. Der erste Server bestimmt die charakteristische Merkmalskombination unter Verwendung der extrahierten Kombination von Log-Daten der Servergruppe. Das Bestimmen der charakteristischen Merkmalskombination erfolgt unter Verwendung einer statistischen Analyse über die Server der Servergruppe hinweg. Die Zu ordnung der bestimmten charakteristischen Merkmalskombination zu der Funktionsstö rung wird durch den ersten Server gespeichert. Das Überwachen von Log-Daten der Server der Servergruppe durch den ersten Server umfasst jeweils auf ein Protokollieren einer Kom bination von Log-Daten, welche die gespeicherte charakteristische Merkmalskombination aufweist, durch den entsprechenden Server hin ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung. Beispielsweise besitzt der erste Server Zugriff auf die durch die Server der Servergruppe protokollierten Log-Daten. Die Log-Daten werden bei spielsweise im Zuge des Protokollierens auf Datenbanken gespeichert, auf welche der erste Server Zugriff besitz und/oder werden von den Servern der Servergruppe an den ersten Server gesendet. Unter einer „Datenbank" wird hier eine gespeicherte Menge von Daten verstanden. Die Menge von Daten kann strukturiert sei, beispielsweise gemäß einer für die Datenbank vor gegebenen Struktur. Ferner kann zur Verwaltung der Daten der Datenbank ein „Datenbank managementsystem" bzw. eine Datenverwaltungssoftware bereitgestellt werden. Unter ei nem „Datenbankmanagementsystem" wird hier eine auf einem Computersystem ausge führte Datenverwaltungssoftware zum Speichern und Wiedergewinnen von Daten in einer Datenbank verstanden. Beispielsweise gibt das Datenbankmanagementsystem die für die Speicherung der Daten zu verwendende Struktur vor. Je nach der verwendeten Datenver waltungssoftware können die Daten in unterschiedlicher Form bzw. unter Verwendung un terschiedlicher Strukturen gespeichert werden. Beispielsweise werden die Daten in Datens ätzen aus jeweils mehreren Datenfeldern gespeichert werden.
Unter einem „Prozessor" wird hier und im Folgenden eine Logikschaltung verstanden, die zur Ausführung von Programminstruktionen dient. Die Logikschaltung kann auf einem oder mehreren diskreten Bauelementen implementiert sein, insbesondere auf einem Chip. Ein Prozessor umfasst beispielsweise ein Rechenwerk, ein Steuerwerk, Register und Datenleitun gen zur Kommunikation mit anderen Komponenten. Insbesondere wird unter einem „Prozes sor" ein Mikroprozessor oder ein Mikroprozessorsystem aus mehreren Prozessorkernen und/oder mehreren Mikroprozessoren verstanden.
Unter einem „Speicher" werden hier sowohl flüchtige als auch nicht flüchtige elektronische Speicher bzw. digitale Speichermedien verstanden.
Unter einem „nichtflüchtigen Speicher" wird hier ein elektronischer Speicher zur dauerhaf ten Speicherung von Daten, insbesondere von statischen kryptographischen Schlüsseln, At tributen oder Kennungen, verstanden. Ein nichtflüchtiger Speicher kann als nichtänderbarer Speicher konfiguriert sein, der auch als Read-Only Memory (ROM) bezeichnet wird, oder als änderbarer Speicher, der auch als Non-Volatile Memory (NVM) bezeichnet wird. Insbeson dere kann es sich hierbei um ein EEPROM, beispielsweise ein Flash-EEPROM, kurz als Flash bezeichnet, handeln. Ein nichtflüchtiger Speicher zeichnet sich dadurch aus, dass die darauf gespeicherten Daten auch nach Abschalten der Energieversorgung erhalten bleiben.
Unter einer „Schnittstelle" bzw. „Kommunikationsschnittstelle" wird hier eine Schnittstelle verstanden, über die Daten empfangen und gesendet werden können, wobei die Kommuni kationsschnittstelle kontaktbehaftet oder kontaktlos konfiguriert sein kann. Eine Kommuni kationsschnittstelle kann beispielsweise eine Kommunikation über ein Netzwerk ermögli chen. Je nach Konfiguration kann eine Kommunikationsschnittstelle beispielsweise eine ka bellose Kommunikation nach einem Mobilfunkstandard, Bluetooth-, RFID-, WiFi und/oder NFC-Standard bereitstellen. Je nach Konfiguration kann eine Kommunikationsschnittstelle beispielsweise eine kabelbasierte Kommunikation bereitstellen.
Eine Kommunikation kann beispielsweise über ein Netzwerk erfolgen. Unter einem „Netz werk" wird hier jedes Übertragungsmedium mit einer Anbindung zur Kommunikation ver standen, insbesondere eine lokale Verbindung oder ein lokales Netzwerk, insbesondere ein Local Area Network (LAN), ein privates Netzwerk, insbesondere ein Intranet, und ein digita les privates Netzwerk (Virtual Private Network - VPN). Beispielsweise kann ein Computer system eine Standardfunkschnittstelle zur Anbindung an ein WLAN aufweisen. Ferner kann es sich um ein öffentliches Netzwerk, wie beispielsweise das Internet handeln. Je nach Aus führungsform kann diese Verbindung auch über ein Mobilfunknetz hergestellt werden.
Im Weiteren werden Ausführungsformen der Erfindung mit Bezugnahme auf die Zeichnun gen näher erläutert. Es zeigen:
Figur 1 ein schematisches Diagramm eines Computersystems zum Analysieren von Log- Daten,
Figur 2 ein schematisches Diagramm eines verteilten Computersystems mit einem Ser ver zum Analysieren von Log-Daten,
Figur 3 ein schematisches Diagramm eines verteilten Computersystems mit einem Ser ver zum Analysieren von Log-Daten,
Figuren 4 ein schematisches Diagramm einer Log-Datenanalyse,
Figur 5 ein Flussdiagramm eines exemplarischen Verfahrens zum Analysieren von Log- Daten und
Figur 6 ein Flussdiagramm eines exemplarischen Verfahrens zum Überwachen von Log- Daten.
Elemente der nachfolgenden Ausführungsformen, die einander entsprechen, werden mit denselben Bezugszeichen gekennzeichnet.
Figur 1 zeigt ein Computersystem 100 zum Analysieren von Log-Daten 122. Das Computer system 100 umfasst einen Prozessor 102, einen Speicher 106 und eine Kommunikations schnittstelle 118. Der Prozessor 102 ist dazu konfiguriert unter Ausführen von Programmin struktion 104 Computersystem 100 zum Analysieren von Log-Daten 122 zu steuern. Das Computersystem 100 protokolliert Log-Daten 122. Die Log-Daten 122 werden in einer Da tenbank 120 gespeichert. Das Computersystem 100 besitzt Zugriff auf die Datenbank 122. Beispielsweise umfasst das Computersystem 100 die Datenbank 120. Beispielsweise han delt es sich bei der Datenbank 120 um eine externe bzw. entfernte Datenbank. Bei den pro tokollierten Log-Daten 122 kann es sich um Log-Daten des Computersystems 100 und/oder um Log-Daten eines oder mehrerer weiterer Computersysteme, wie etwa Servern, handeln. Die Log-Daten 122 protokollieren beispielsweise Fehler, Warnungen und Infos, welche bei spielsweise durch ein Betriebssystem und/oder ein Analyseprogramm des die Log-Daten 122 protokollierenden Computersystem erfasst werden. Die Log-Daten 122 werden bei spielsweise jeweils mit einem Zeitstempel protokolliert. Ferner können die Log-Daten 122 Daten umfassen, welche unter Verwendung ein oder mehrerer Sensoren 116 des Compu tersystems 100 zur Überwachung des Betriebs des Computersystems 100 erfasst werden. Die Sensoren 116 können beispielsweise dazu konfiguriert sein, Temperaturen, Spannun gen oder Stromstärken zu erfassen.
Auf ein Auftreten einer Funktionsstörung hin, extrahiert das Computersystem 100 diejeni gen Log-Daten aus der Datenbank 120, welche innerhalb eines der Funktionsstörung voran gehenden Zeitintervalls At protokolliert wurden. Die entsprechenden Log-Daten 122 inner halb des Zeitintervalls At werden beispielsweise unter Verwendung ihrer Zeitstempel iden tifiziert. Das Computersystem 100 bestimmt eine charakteristische Merkmalskombination 112, welche ein oder mehrere charakteristische Merkmale der extrahierten Kombination von Log-Daten umfasst. Die charakteristische Merkmalskombination 112 umfasst beispiels weise eine charakteristische Kombination und/oder Abfolge bestimmter Log-Daten aus der der extrahierten Kombination von Log-Daten, welche charakteristisch für die extrahierten Kombination von Log-Daten sind. Diese charakteristischen Log-Daten bilden beispielsweise die charakteristischen Merkmale der charakteristische Merkmal 112. Beispielsweise kann Reihenfolge bzw. zeitliche Abfolge der charakteristischen Log-Daten ebenfalls charakteris tisch für die extrahierten Kombination von Log-Daten sein. Beispielsweise werden die Log- Daten der charakteristischen Merkmalskombination 112 erst aufgrund ihrer Reihenfolge bzw. zeitliche Abfolge charakteristisch. Die Bestimmung der charakteristische Merkmals kombination 112 erfolgt beispielsweise unter Verwendung einer statistischen Analyse. Mit tels der statistischen Analyse kann beispielsweise bestimmt werden, welche Log-Daten bzw. Abfolge von Log-Daten die extrahierte Kombination von Log-Daten umfasst, die in den ansonsten protokollierten Log-Daten nicht auftauchen. Weichen Log-Daten bzw. eine Ab folge von Log-Daten in statistisch signifikanter Weise von Log-Daten ab, welche bisher pro tokolliert wurden, ohne dass eine Funktionsstörung aufgetretenen ist, und welche mithin für den für den Regelbetrieb des Computersystems 100 zu erwarten sind, besteht eine hohe Wahrscheinlichkeit eines Zusammenhangs zwischen den abweichenden Log-Daten bzw. der abweichenden Abfolge von Log-Daten und der auftretenden Funktionsstörung.
Das Computersystem 100 erstellt eine Zuordnung zwischen der bestimmte Merkmalskom bination 112 und dem aufgetretenen Funktionsstörung 110. Die Zuordnung 108 wird ge speichert und als Vergleichsdatensatz für ein Vorhersagen eines bevorstehenden erneuten Auftretens der Funktionsstörung 110 verwendet. Die Zuordnung kann beispielsweise in dem Speicher 106 Computersystem 100 oder in der Datenbank 120 gespeichert werden. Weitere Log-Daten 122, welche in der Datenbank 120 protokolliert werden, werden von dem Computersystem 100 oder einem anderen Computersystem, welchem die Zuordnung 108 vorliegt und/oder welches Zugriff auf die Zuordnung 108 besitzt, kontinuierlich über wacht. Auf ein Auftreten der charakteristische Merkmalskombination 112 in den protokol lierten Log-Daten 122 wird ein bevorstehendes Auftreten der zugeordneten Funktionsstö rung 110 vorhergesagt. Beispielsweise wird auf die Vorhersage der bevorstehenden Funkti onsstörung hin ein Warnhinweis über die Kommunikationsschnittstelle des Computersys tem 100 an andere Computersysteme ausgegeben, welche von der Funktionsstörung direkt oder bei Auftreten der Funktionsstörung auf dem Computersystem 100 indirekt betroffen sind. Beispielsweise handelt es sich bei dem anderen Computersystem um ein Admin-Com- putersystem, welches einem Administrator des Computersystems 100 zugeordnet ist. Bei spielsweise wird der Warnhinweis über eine Nutzerschnittstelle des Computersystems 100 auf eine Ausgabevorrichtung des Computersystems 100, wie etwa einem Display, ausgege ben.
Ferner können auf das Auftreten der Funktionsstörung 110 auszuführende Gegenmaßnah men 114 zur Vermeidung oder Beschränkung der Funktionsstörung 110 festgelegt der Zu ordnung 108 hinzugefügt werden. Beispielsweise umfassen die Gegenmaßnahmen ausführ bare Programminstruktionen, welche zur Vermeidung oder Beschränkung der Funktionsstö rung 110 auszuführen sind. Auf die Vorhersage der bevorstehenden Funktionsstörung 110 hin werden die Gegenmaßnahmen 114, beispielsweise von dem Computersystem 100 und/oder weiteren Computersystemen, automatisch ausgeführt. Die Gegenmaßnahmen umfassen beispielsweise ein Blockieren eines Ausführens zu erwartenden und potentiell problematischen Instruktionen, ein Verzögern des Ausführens der entsprechenden Instruk tionen und/oder ein Auslagern des Ausführens der entsprechenden Instruktionen auf eine Ausweichkomponente des Computersystems 100 oder ein Ausweichcomputersystem.
Figur 2 zeigt ein verteiltes Computersystem 198 mit einem Server 100 zum Analysieren von Log-Daten 152, 182. Bei dem Server 100 handelt es sich beispielsweise um das Computer system aus Figur 1. Beispielsweise erfasst das Computersystem 100 selbst keine Log-Daten. Beispielsweise erfasst das Computersystem 100 auch selbst keine Log-Daten. Bei den analy sierten Log-Daten 152, 182 handelt es sich um Log-Daten von Servern 130, 160 einer Ser vergruppe 190 mit einer Mehrzahl von N Servern des verteilten Computersystems 198, wo bei N eine natürliche Zahl größer 1 ist. Die Server 130, 160 der Servergruppe 190 umfassen beispielsweise jeweils einen Prozessor 132, 162 zum Ausführen von Programminstruktio nen 134, 164, einen Speicher 136, 166, und eine Kommunikationsschnittstelle 140, 170. Die Servern 130, 160 sind beispielsweise dazu konfiguriert jeweils Log-Daten 152, 182 in einer Datenbank 150, 180 zu protokollieren. Zum Erfassen von der Log-Daten 152, 182 können die Servern ISO, 160 beispielsweise zusätzlich ein oder mehrere Sensoren 138, 168 umfas sen.
Die Server 150, 160 der Servergruppe 190 kommunizieren beispielsweise über ein Netz werk 192 untereinander und mit dem ersten Server 100. Bei dem Netzwerk handelt es sich beispielsweise um öffentliches Netzwerk, wie etwa das Internet, oder ein privates Netz werk, wie etwa ein Intranet und/oder ein internes Kommunikationsnetzwerk des verteilten Computersystems 198.
Auf ein Auftreten einer Funktionsstörung auf einem oder mehrerer der Server 150, 160 der Servergruppe 190 wird beispielsweise eine Störmeldung an den ersten Server 100 gesen det. Die Störungsmeldung gibt beispielsweise Art und Zeit der aufgetretenen Funktionsstö rung sowie den oder die von der Funktionsstörung betroffenen Server an. Der erste Server 100 fragt auf den Erhalt der Störmeldung hin ein Extrahieren von Log-Daten aus den Daten banken 150, 180, welche innerhalb eines der Funktionsstörung vorangehenden Zeitinter valls At protokolliert wurden. Der erste Server 100 empfängt auf seine Anfrage hin die ext rahieren von Log-Daten und bestimmt eine charakteristische Merkmalskombination 112. Hierzu wendet der erste Server 100 beispielsweise einer statistischen Analyse über die Ser ver 150, 160 der Servergruppe 190 bzw. den von diesen erfassten Log-Daten an. Beispiels weise werden zur statistischen Auswertung weitere Datensätze mit Log-Daten der Server
150. 160 der Servergruppe 190 angefragt zum Bestimmen zu erwartenden Log-Daten im Fall eines Regelbetriebs der Server 150, 160. Beispielsweise sind Angaben zu den zu erwar tenden Log-Daten im Fall eines Regelbetriebs der Server 150, 160 in dem ersten Server 100 hinterlegt. Beispielsweise werden die hinterlegten Angaben regelmäßig geupdated. Der erste Server 100 erstellt beispielsweise eine Zuordnung 108 zwischen der bestimmten cha rakteristischen Merkmalskombination 112 und der aufgetretenen Funktionsstörung 110. Ferner können beispielsweise Gegenmaßnahmen gegen die aufgetretenen Funktionsstö rung 110 festgelegt und der Zuordnung 108 hinzugefügt werden.
Der erste Server sendet die Zuordnung 108 beispielsweise an die Server 150, 160 der Ser vergruppe 190, welche die charakteristischen Merkmalskombination 112 zur Überwachung der von ihnen protokollierten Log-Daten 152, 182 verwenden. Tritt in den protokollierten Log-Daten 152, 182 die charakteristische Merkmalskombination 112 auf, wird ein bevorste hendes Auftreten der Funktionsstörung 110 vorhergesagt. Beispielsweise sendet der die Funktionsstörung 110 vorhersagende Server 130, 160 einen Warnhinweis über das bevor stehen der Funktionsstörung 110 an die weiteren Server der Servergruppe 190 und/oder an den ersten Server 100. Ferner führt der die Funktionsstörung 110 vorhersagende Server
130. 160 beispielsweise ein oder mehrere von der Zuordnung 108 definierte Gegenmaß nahmen 114 aus. Zusätzlich können ein oder mehrere der den Warnhinweis empfangenden Server der Servergruppe 190 und/oder der erste Server 100 ebenfalls ein oder mehrere von der Zuordnung 108 definierte Gegenmaßnahmen 114 ausführen.
Figur 3 zeigt ein verteiltes Computersystem 198 mit einem Server 100 zum Analysieren von Log-Daten 152, 182, dessen Aufbau und Funktionsweise analog zu dem verteiltes Compu tersystem 198 der Figur 2 ist. Der Unterschied zu dem verteilten Computersystem 198 der Figur 2 besteht darin, dass die Log-Daten 152, 182 der Server 150, 160 der Servergruppe 190 in einer zentralen Datenbank 194 gespeichert werden, auf welche beispielsweise der erste Server 100 Zugriff besitzt. Auf einen Empfang einer Störmeldung von einem der Ser ver 150, 160 der Servergruppe 190 kann der erste Server 100 mithin Log-Daten der einzel nen Server 150, 160, welche innerhalb eines der Funktionsstörung vorangehenden Zeitin tervalls At protokolliert wurden, aus der zentralen Datenbanken 194 extrahieren. Der erste Server 100 bestimmt die charakteristische Merkmalskombination 112 unter Verwendung der extrahierten Log-Daten und erstellt die Zuordnung 108 zwischen der charakteristischen Merkmalskombination 112, der Funktionsstörung 110 und gegebenenfalls Gegenmaßnah- menll4 gegen die Funktionsstörung 110. Ferner überwacht beispielsweise der erste Server 100 die in der zentralen Datenbank 194 protokollierten Log-Daten 152, 182. Tritt in den protokollierten Log-Daten 152, 182 die charakteristische Merkmalskombination 112 auf, wird ein bevorstehendes Auftreten der Funktionsstörung 110 von dem ersten Server 100 vorhergesagt. Beispielsweise sendet der erste Server 100 einen Warnhinweis über das be vorstehen der Funktionsstörung 110 an die Server 130, 150 der Servergruppe 190. Ferner Veranlasst der erste Server 100 beispielsweise ein Ausführen von ein oder mehrere von der Zuordnung 108 definierte Gegenmaßnahmen 114 durch ein oder mehrere Server 130, 150 der Servergruppe 190 und/oder durch den Server 100.
Die Figuren 4A bis 4C zeigen eine exemplarische Log-Datenanalyse. Das obere Diagramm der Figur 4A zeigt eine zeitliche Abfolge von protokollierten Log-Daten 196 der Typen „A", „B", „C" und „D". Beispielsweise ist auf der x-Achse ist die Zeit aufgetragen, während auf der y-Achse beispielsweise die Typen von Log-Daten aufgetragen sind. Beispielsweise wird eine Abfolge „B A B A D C D B A" protokolliert, auf welche ein Auftreten einer Funktionsstö rung 110 zum Zeitpunkt ts erfasst bzw. protokolliert wird. Aus den protokollierten Log-Da ten 196 werden die innerhalb eines dem Zeitpunkt ts des Auftretens der Funktionsstörung 110 vorangehenden Zeitintervalls At aufgetretenen Log-Daten extrahiert. Die extrahierten Log-Daten des Zeitintervalls At sind exemplarisch in Figur 4B dargestellt. Beispielsweise um fassen die extrahierten Log-Daten eine Abfolge „A D C D B A". Beispielsweise handelt es sich bei den Log-Daten des Typs „A", „B" um häufig auftretende bzw. protokollierte Log-Da ten, ohne dass es zum Auftreten einer Funktionsstörung kommt. In Figur 4C ist eine exemp larische Abfolge von Log-Daten 196 des Typs „A", „B" gezeigt, wie sie beispielsweise häufig in den protokollierten Log-Daten innerhalb eines Zeitintervalls At auftreten. Diese häufig auftretende Abfolge von Log-Daten ist somit beispielsweise nicht charakteristisch für die extrahierten Log-Daten. Charakteristisch für die extrahierten Log-Daten ist vielmehr die ver bleibende Abfolge der Log-Daten des Typs „D", „C". Diese Abfolge wird, wie in Figur 4A ge zeigt als charakteristische Merkmalskombination 112 mit der Abfolge „D C D" bestimmt. Werden Log-Daten im Zuge eines Log-Datenüberwachung protokolliert, welche innerhalb eines Zeitintervalls At eine Abfolge von Log-Daten der Form „D C D" aufweist kann ein be vorstehen der Funktionsstörung 110 auftreten. Beispielsweise können der charakteristi schen Merkmalskombination 112 Gegenmaßnahmen zugeordnet sein. Beispielsweise kann festgelegt werden, dass ein bevorstehendes Auftreten Funktionsstörung 110 bereits bei Vorliegen einer Log-Datenfolge „D C" vorhergesagt wird und die Gegenmaßnahmen ein Ausführen der mit Log-Datum D gekennzeichneten Aktion blockieren, verzögern und/oder auf eine andere Systemkomponenten zum Ausführen auslagern.
Figur 5 zeigt ein exemplarisches Verfahren zum Analysieren von Log-Daten. In Block 200 werden Log-Daten protokolliert. In Block 202 wird eine Funktionsstörung erfasst, auf deren Erfassen hin in Block 204 Log-Daten aus den protokollierten Log-Daten extrahiert werden, welche innerhalb eines der Funktionsstörung vorangehenden Zeitintervalls At protokolliert wurden. In Block 206 wird in den extrahierten Log-Daten eine für das Auftreten der Funkti onsstörung charakteristische Merkmalskombination bestimmt und in Block 208 eine Zuord nung der charakteristischen Merkmalskombination zu der in Block 202 erfassten Funktions störung erstellt. Zum Bestimmen der charakteristischen Merkmalskombination kommen beispielsweise eine statistische Analyse zum Einsatz. In Block 210 wird die erstellte Zuord nung für eine Überwachung zukünftig protokollierter Log-Daten gespeichert. In Block 212 werden protokollierte Log-Daten überwacht.
Figur 6 zeigt ein exemplarisches Verfahren zum Prüfen von Log-Daten unter Verwendung eines mittels eines Verfahrens zur Log-Datenanalyse, wie dem in Figur 5 gezeigten Verfah ren, erstellte Zuordnung. In Block 300 werden protokollierte Log-Daten überwacht. In Block 302 wird geprüft, ob die protokollierten Log-Daten die charakteristische Merkmalskombina tion gemäß bereitgestellter Zuordnung und/oder gemäß einer Zuordnung einer bereitge stellten Mehrzahl von Zuordnungen umfasst. Wird die charakteristische Merkmalskombina tion nicht erfasst, wird die Überwachung der Log-Daten in Block 300 unverändert fortge setzt. Wird die charakteristische Merkmalskombination erfasst, wird das Verfahren in Block 304 fortgesetzt. In Block 304 wird ein bevorstehendes Auftreten der Funktionsstörung vor hergesagt, welche der erfassten charakteristischen Merkmalskombination zu geordnet ist.
In Block 306 wird beispielsweise ein Warnhinweis über die bevorstehende Funktion ausge geben. In Block 306 werden beispielsweise hinterlegte Gegenmaßnahmen ausgeführt, wel che ebenfalls der charakteristische Merkmalskombination und/oder der vorhergesagten Funktionsstörung zugeordnet sind. Bezugszeichenliste
100 Computersystem
102 Prozessor
104 Programminstruktionen
106 Speicher
108 Zuordnung
110 Funktionsstörung
112 Merkmalskombination
114 Gegenmaßnahmen
116 Sensor
118 Kommunikationsschnittstelle
120 Datenbank
122 Log-Daten
130 Server
132 Prozessor
134 Programminstruktionen
136 Speicher
138 Sensor
140 Kommunikationsschnittstelle
150 Datenbank
152 Log-Daten
160 Server
162 Prozessor
164 Programminstruktionen
166 Speicher
168 Sensor
170 Kommunikationsschnittstelle
180 Datenbank
182 Log-Daten
190 Servergruppe
192 Netzwerk
194 Datenbank
196 Log-Datum
198 verteiltes Computersystem

Claims

P a t e n t a n s p r ü c h e
1. Verfahren zum Analysieren von Log-Daten (122, 152, 182, 196) eines Computersys tems (100), wobei das Verfahren umfasst:
• Protokollieren von Log-Daten (122, 152, 182, 196), wobei das Protokollieren der Log-Daten (122, 152, 182, 196) ein Speichern von Log-Daten (122, 152, 182, 196) in einer Datenbank (120, 150, 180, 194) umfasst, wobei die Log-Daten (122, 152, 182, 196) jeweils mit einem Zeitstempel gespeichert werden,
• auf ein Auftreten einer Funktionsstörung (110) hin, Extrahieren der innerhalb eines der Funktionsstörung (110) vorangehenden Zeitintervalls (At) protokollierten Log- Daten (122, 152, 182, 196),
• Bestimmen einer charakteristischen Merkmalskombination (112), welche ein oder mehrere charakteristische Merkmale der extrahierten Kombination von Log-Daten (122, 152, 182, 196) umfasst, unter Verwendung einer statistischen Analyse,
• Speichern einer Zuordnung (108) der bestimmten charakteristischen Merkmalskom bination (112) zu der Funktionsstörung (110),
• Überwachen der protokollierten Log-Daten (122, 152, 182, 196), wobei das Überwa chen auf ein Protokollieren einer Kombination von Log-Daten (122, 152, 182, 196) hin, welche die gespeicherte charakteristische Merkmalskombination (112) auf weist, ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung (110) umfasst.
2. Verfahren nach Anspruch 1, wobei auf die Vorhersage der bevorstehenden Funkti onsstörung (110) hin ein Warnhinweis ausgegeben wird.
3. Verfahren nach einem der vorangehenden Ansprüche, wobei auf das Auftreten der Funktionsstörung (110) auszuführende Gegenmaßnahmen (114) zur Vermeidung der Funk tionsstörung (110) festgelegt werden, wobei zusammen mit der Zuordnung (108) der be stimmten charakteristischen Merkmalskombination (112) zu der Funktionsstörung (110) eine Zuordnung der bestimmten charakteristischen Merkmalskombination (112) zu den Ge genmaßnahmen (114) gespeichert wird, wobei auf die Vorhersage der bevorstehenden Funktionsstörung (110) hin automatisch die Gegenmaßnahmen (114) ausgeführt werden.
4. Verfahren nach Anspruch 3, wobei die auszuführenden Gegenmaßnahmen (114) der Funktionsstörung (110) zugeordnet sind, über welches sie indirekt der bestimmten charak teristischen Merkmalskombination (112) zugeordnet sind.
5. Verfahren nach Anspruch 3, wobei die auszuführenden Gegenmaßnahmen (114) der bestimmten charakteristischen Merkmalskombination (112) direkt zugeordnet sind.
6. Verfahren nach einem der vorangehenden Ansprüche, wobei den Merkmalen der charakteristischen Merkmalskombination (112) jeweils ein erster Toleranzbereich zugeord net wird, wobei eine protokollierte Kombination von Log-Daten (122, 152, 182, 196) die ge speicherte charakteristische Merkmalskombination (112) aufweist, falls sie die Merkmale gemäß der charakteristischen Merkmalskombination (112) aufweist und diese Merkmale jeweils innerhalb der zugeordneten ersten Toleranzbereiche liegen.
7. Verfahren nach einem der vorangehenden Ansprüche, wobei Merkmalen der cha rakteristischen Merkmalskombination (112) jeweils ein zweiter Toleranzbereich zugeordnet wird, wobei angenommen wird, dass eine protokollierte Kombination von Log-Daten (122, 152, 182, 196) die gespeicherte charakteristische Merkmalskombination (112) aufweist, falls sie eine vorbestimmte Mindestanzahl von Merkmalen der charakteristischen Merk malskombination (112) aufweist und diese Merkmale jeweils innerhalb der zugeordneten zweiten Toleranzbereiche liegen.
8. Verfahren nach Anspruch 7, wobei für dasselbe Merkmal der erste Toleranzbereich jeweils identisch mit dem zweiten Toleranzbereich ist oder wobei für dasselbe Merkmal der erste Toleranzbereich jeweils größer als der zweite Toleranzbereich ist.
9. Verfahren nach einem der vorangehenden Ansprüche, wobei es sich bei der Funkti onsstörung (110) um ein Fehlerereignis handelt.
10. Verfahren nach einem der vorangehenden Ansprüche, wobei es sich bei der Funkti onsstörung (110) um ein Überschreiten oder Unterschreiten eines vordefinierten Schwel lenwerts handelt.
11. Verfahren nach einen der vorangehenden Ansprüche, wobei das Speichern der Log- Daten (122, 152, 182, 196) ein Normalisieren der Log-Daten (122, 152, 182, 196) umfasst.
12. Verfahren nach Anspruch 11, wobei das Normalisieren die sechste Normalform er füllt.
13. Verfahren nach einem der vorangehenden Ansprüche, wobei es sich bei dem Com putersystem (100) um einen ersten Server eines verteilten Computersystems (198) handelt, welches eine Mehrzahl von Servern (100, 130, 160) umfasst, wobei auf jedem der Server (100, 1B0, 160) jeweils Log-Daten (122, 152, 182, 196) protokolliert werden, wobei die pro tokollierten Log-Daten (122, 152, 182, 196) überwacht werden.
14. Verfahren nach Anspruch 13, wobei die Zuordnung (108) der bestimmten charakte ristischen Merkmalskombination (112) zu der Funktionsstörung (110) durch den ersten Ser ver (100) erfolgt und von dem ersten Server (100) an eine Servergruppe (190) mit ein oder mehreren weiteren Servern (130, 160) der Mehrzahl von Servern (100, 130, 160) weiterge leitet wird, wobei die Server (130, 160) der Servergruppe (190) die weiteregeleitete Zuord nung (108) jeweils speichern, wobei das Überwachen von Log-Daten (152, 182, 196) durch die Server (130, 160) der Servergruppe (190) jeweils auf ein Protokollieren einer Kombina tion von Log-Daten (152, 182, 196), welche die gespeicherte charakteristische Merkmals kombination (112) aufweist, durch den entsprechenden Server (130, 160) hin ein Vorhersa gen eines bevorstehenden Auftretens der Funktionsstörung (110) umfasst.
15. Verfahren nach Anspruch 13, wobei auf ein Auftreten der Funktionsstörung (110) in einem der Server (100, 130, 160) des verteilten Computersystems (198) hin, von den Ser vern (100, 130, 160) der Servergruppe (190) jeweils innerhalb des der Störfunktion voran gehenden Zeitintervalls (At) protokollierte Log-Daten (122, 152, 182, 196) extrahiert wer den, wobei das Bestimmen der charakteristischen Merkmalskombination (112) unter Ver wendung der extrahierten Kombination von Log-Daten (152, 182, 196) der Servergruppe (190) erfolgt, wobei das Bestimmen der charakteristischen Merkmalskombination (112) un ter Verwendung einer statistischen Analyse über die Server (130, 160) der Servergruppe (190) hinweg erfolgt, wobei die Zuordnung (108) der bestimmten charakteristischen Merk malskombination (112) zu der Funktionsstörung (110) an die Server (130, 160) der Server gruppe (190) weitergleitet wird, wobei die Server (130, 160) der Servergruppe (190) die weiteregeleitete Zuordnung (108) jeweils speichern, wobei das Überwachen von Log-Daten (152, 182, 196) durch die Server (130, 160) der Servergruppe (190) jeweils auf ein Protokol lieren einer Kombination von Log-Daten (122, 152, 182, 196), welche die gespeicherte cha rakteristische Merkmalskombination (112) aufweist, durch den entsprechenden Server (130, 160) hin ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung (110) umfasst.
16. Verfahren nach Anspruch 15, wobei die Log-Datenanalyse zusätzlich unter Verwen dung von Log-Daten (122) des ersten Servers (100) erfolgt.
17. Verfahren nach einem der Ansprüche 15 bis 16, wobei ferner ein oder mehrere erste Identifikatoren bestimmt werden, welche Merkmale ein oder mehrere Server (130, 160) umfassen, bei welchen die Funktionsstörung (110) auftritt, wobei zusammen mit der Zuordnung (108) der bestimmten charakteristischen Merkmalskombination (112) zu der Funktionsstörung (110) eine Zuordnung (108) der bestimmten charakteristischen Merk malskombination (112) zu den Identifikatoren gespeichert wird.
18. Verfahren nach Anspruch 17, wobei auf die Vorhersage der bevorstehenden Funkti onsstörung (110) hin unter Verwendung der Identifikatoren ein oder mehrere Server (130, 160) bestimmt werden, bei welchen die Funktionsstörung (110) auftritt, und jeweils ein Warnhinweis für die bestimmten Server (130, 160) ausgegeben wird.
19. Verfahren nach einem der Ansprüche 15 bis 18, wobei auf das Auftreten der Funkti onsstörung (110) auszuführende Gegenmaßnahmen (114) zur Vermeidung der Funktions störung (110) für ein oder mehrere Server (130, 160) festgelegt werden, wobei ein oder mehrere zweite Identifikatoren bestimmt werden, welche Merkmale der entsprechenden Server (130, 160) umfassen, auf welchen die Gegenmaßnahmen (114) auszuführen sind, wobei zusammen mit der Zuordnung (108) der bestimmten charakteristischen Merkmals kombination (112) zu der Funktionsstörung (110) eine Zuordnung (108) der bestimmten charakteristischen Merkmalskombination (112) zu den Gegenmaßnahmen (114) und den zweiten Identifikatoren gespeichert wird, wobei auf die Vorhersage der bevorstehenden Funktionsstörung (110) hin die Gegenmaßnahmen (114) auf den durch die zweiten Identifi katoren identifizierten Servern (130, 160) automatisch ausgeführt werden.
20. Computersystem (100) mit einem Prozessor (102) und einem Speicher (106), wobei in dem Speicher Programminstruktionen (104) gespeichert sind, wobei ein Ausführen der Programminstruktion (104) durch den Prozessor (102) den Prozessor (102) dazu veranlasst das Computersystem (100) so zu steuern, dass das Computersystem (100) ein Verfahren zum Analysieren von Log-Daten (122, 152, 182, 196) ausführt, wobei das Verfahren um fasst:
• Protokollieren von Log-Daten (122, 152, 182, 196), wobei das Protokollieren der Log-Daten (122, 152, 182, 196) ein Speichern von Log-Daten (122, 152, 182, 196) in einer Datenbank (120, 150, 180, 194) umfasst, wobei die Log-Daten (122, 152, 182, 196) jeweils mit einem Zeitstempel gespeichert werden,
• auf ein Auftreten einer Funktionsstörung (110) hin, Extrahieren der innerhalb eines der Funktionsstörung vorangehenden Zeitintervalls (At) protokollierten Log-Daten (122, 152, 182, 196),
• Bestimmen einer charakteristischen Merkmalskombination (112), welche ein oder mehrere charakteristische Merkmale der extrahierten Kombination von Log-Daten (122, 152, 182, 196) umfasst, unter Verwendung einer statistischen Analyse,
• Speichern einer Zuordnung (108) der bestimmten charakteristischen Merkmalskom bination (112) zu der Funktionsstörung (110), • Überwachen der protokollierten Log-Daten (122, 152, 182, 196), wobei das Überwa chen auf ein Protokollieren einer Kombination von Log-Daten (122, 152, 182, 196) hin, welche die gespeicherte charakteristische Merkmalskombination (112) auf weist, ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung (110) umfasst.
21. Verteiltes Computersystem (198), welches eine Mehrzahl von Servern (100, 130, 160) umfasst, wobei es sich bei einem ersten Server (100) der Mehrzahl von Servern (100, 130, 160) um das Computersystem (100) nach Anspruch 20 handelt, wobei auf jedem der Server (100, 130, 160) jeweils Log-Daten (122, 152, 182, 196) protokolliert und die proto kollierten Log-Daten (122, 152, 182, 196) überwacht werden.
22. Verteiltes Computersystem (198) nach Anspruch 21, wobei die Zuordnung (108) der bestimmten charakteristischen Merkmalskombination (112) zu der Funktionsstörung (110) durch den ersten Server (100) erfolgt und von dem ersten Server (100) an eine Server gruppe (190) mit ein oder mehreren weiteren Servern (130, 160) der Mehrzahl von Servern
(100. 130. 160) weitergeleitet wird, wobei die Server (130, 160) der Servergruppe (190) die weiteregeleitete Zuordnung (108) jeweils speichern, wobei das Überwachen von Log-Daten (152, 182, 196) durch die Server (130, 160) der Servergruppe (190) jeweils auf ein Protokol lieren einer Kombination von Log-Daten (122, 152, 182, 196), welche die gespeicherte cha rakteristische Merkmalskombination (112) aufweist, durch den entsprechenden Server
(130. 160) hin ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung (110) umfasst.
23. Verteiltes Computersystem (198) nach Anspruch 21, wobei auf ein Auftreten der Funktionsstörung (110) in einem der Server (130, 160) des verteilten Computersystems (198) hin, von den Servern (130, 160) der Servergruppe (190) jeweils innerhalb des der Störfunktion vorangehenden Zeitintervalls (At) protokollierte Log-Daten (122, 152, 182,
196) extrahiert werden, wobei das Bestimmen der charakteristischen Merkmalskombina tion (112) unter Verwendung der extrahierten Kombination von Log-Daten (152, 182, 196) der Servergruppe (190) erfolgt, wobei das Bestimmen der charakteristischen Merkmals kombination (112) unter Verwendung einer statistischen Analyse über die Server (130, 160) der Servergruppe (190) hinweg erfolgt, wobei die Zuordnung (108) der bestimmten charak teristischen Merkmalskombination (112) zu der Funktionsstörung (110) an die Server (130, 160) der Servergruppe (190) weitergleitet wird, wobei die Server (130, 160) der Server gruppe (190) die weiteregeleitete Zuordnung (108) jeweils speichern, wobei das Überwa chen von Log-Daten (152, 182, 196) durch die Server (130, 160) der Servergruppe (190) je weils auf ein Protokollieren einer Kombination von Log-Daten (122, 152, 182, 196), welche die gespeicherte charakteristische Merkmalskombination (112) aufweist, durch den entsprechenden Server (ISO, 160) hin ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung (110) umfasst.
EP22711907.0A 2021-02-26 2022-02-22 Vorhersagen eines bevorstehenden auftretens einer funktionsstörung anhand einer log-daten analyse Pending EP4298521A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102021104735.8A DE102021104735A1 (de) 2021-02-26 2021-02-26 Log-Daten Analyse
PCT/EP2022/054300 WO2022179996A1 (de) 2021-02-26 2022-02-22 Vorhersagen eines bevorstehenden auftretens einer funktionsstörung anhand einer log-daten analyse

Publications (1)

Publication Number Publication Date
EP4298521A1 true EP4298521A1 (de) 2024-01-03

Family

ID=80928624

Family Applications (1)

Application Number Title Priority Date Filing Date
EP22711907.0A Pending EP4298521A1 (de) 2021-02-26 2022-02-22 Vorhersagen eines bevorstehenden auftretens einer funktionsstörung anhand einer log-daten analyse

Country Status (3)

Country Link
EP (1) EP4298521A1 (de)
DE (1) DE102021104735A1 (de)
WO (1) WO2022179996A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022125396A1 (de) 2022-09-30 2024-04-04 Bundesdruckerei Gmbh Vorhersage eines wiederholten Auftretens einer Funktionsstörung
DE102022125399A1 (de) 2022-09-30 2024-04-04 Bundesdruckerei Gmbh Detektieren eines Angriffs auf ein zu schützendes Computersystem

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8291264B2 (en) 2009-08-03 2012-10-16 Siemens Aktiengesellschaft Method and system for failure prediction with an agent
US10127125B2 (en) * 2016-10-21 2018-11-13 Accenture Global Solutions Limited Application monitoring and failure prediction

Also Published As

Publication number Publication date
WO2022179996A1 (de) 2022-09-01
DE102021104735A1 (de) 2022-09-01

Similar Documents

Publication Publication Date Title
DE602004012900T2 (de) Verfahren zur Analyse von Leistungsinformation
DE69923435T2 (de) System und verfahren zur optimierung der leistungskontrolle von komplexen informationstechnologiesystemen
US7526508B2 (en) Self-managing database architecture
EP3324304A1 (de) Datenverarbeitungsverfahren, -vorrichtung und -system
EP4298521A1 (de) Vorhersagen eines bevorstehenden auftretens einer funktionsstörung anhand einer log-daten analyse
DE102012102770B4 (de) System und Verfahren zur Fehlereingrenzung und Fehlerabschwächung basierend auf einer Netzwerkmodellierung
DE112019001480B4 (de) Automatisches Optimieren der Ressourcennutzung in einemZieldatenbankverwaltungssystem zum Erhöhen der Arbeitslastleistung
DE112020004623T5 (de) Ml-basierte ereignishandhabung
DE10393571T5 (de) Verfahren und System zum Validieren logischer End-to-End-Zugriffspfade in Storage Area Netzwerken
DE112010004284T5 (de) Verfahren und System zum Verwalten von Sicherheitsobjekten
DE10211606A1 (de) Datenverarbeitungseinrichtung
US8140479B2 (en) Logical classification of objects on a computer system
DE102005020893A1 (de) System zur adaptiven Bestimmung von Operationseigenschaften einer ausführbaren Anwendung
EP2056201A2 (de) Verfahren, Rechnersystem und Computerprogrammprodukt
DE112020005227T5 (de) Speicherzustandsüberwachung für differenziertedatenwiederherstellungskonfigurationen
DE112019003288T5 (de) Verwenden eines moduls mit maschinellem lernen, um zu ermitteln, wann eine fehlerprüfung eines speicherelements durchzuführen ist
DE112013006588T5 (de) Verwaltungssystem zum Verwalten eines Computersystems und Verwaltungsverfahren hierfür
WO2015043823A1 (de) Verfahren und system zum bewerten von erhobenen messwerten eines systems
DE112011100168T5 (de) Erfassen von Diagnosedaten in einer Datenverarbeitungsumgebung
DE202016101711U1 (de) Kapazitätsplanungswerkzeug, insbesondere einer Informationstechnologie-Infrastruktur
DE112020004688T5 (de) Debuggen und erstellen von profilen von maschinenlernmodelltraining
DE102012210482A1 (de) Verfahren und System zum Migrieren von Geschäftsprozessinstanzen
DE102022125396A1 (de) Vorhersage eines wiederholten Auftretens einer Funktionsstörung
EP3367231A1 (de) Verfahren und speichersystem zum speichern von einer vielzahl von dateneinheiten
DE112016006818T5 (de) Vor-ort-system

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20230926

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS