DE102012220716A1 - Method, data processing device and program for identifying confidential data - Google Patents

Method, data processing device and program for identifying confidential data Download PDF

Info

Publication number
DE102012220716A1
DE102012220716A1 DE201210220716 DE102012220716A DE102012220716A1 DE 102012220716 A1 DE102012220716 A1 DE 102012220716A1 DE 201210220716 DE201210220716 DE 201210220716 DE 102012220716 A DE102012220716 A DE 102012220716A DE 102012220716 A1 DE102012220716 A1 DE 102012220716A1
Authority
DE
Germany
Prior art keywords
confidential
attribute
messages
variable
confidential attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE201210220716
Other languages
German (de)
Inventor
Sachiko Yoshihama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE102012220716A1 publication Critical patent/DE102012220716A1/en
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Storage Device Security (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

Zur Befähigung eines Servers oder Ähnlichem, vertrauliche Daten in einem akkumulierten Protokoll zu identifizieren. Eine Datenverarbeitungsvorrichtung weist auf: eine Cluster bildende Einheit 214, die so konfiguriert ist, dass sie Mitteilungen von einem Protokoll lesen und die gelesenen Mitteilungen gemäß Ähnlichkeiten der Mitteilungen in Cluster einteilen kann; eine Einheit zum Suchen variabler Abschnitte 216, die so konfiguriert ist, dass sie einen Abschnitt findet, der zwischen Mitteilungen variabel ist; eine Attributbestimmungseinheit 218, die so konfiguriert ist, dass sie ein vertrauliches Attribut des variablen Abschnittes unter Verwendung einer vordefinierten Regel schätzt und bestimmt; und eine Attributschätzungseinheit 220, die so konfiguriert ist, dass sie in einem Fall, in dem ein Abschnitt vorliegt, dessen vertrauliches Attribut unter Verwendung der Regeln nicht bestimmbar ist, das vertrauliche Attribut des Abschnittes mit dem nicht bestimmbaren vertraulichen Attribut unter Verwendung von entweder einer Entsprechung zwischen Erscheinungsorten in den Mitteilungen oder einer Beziehung eines gemeinsamen Auftretens eines Abschnittes zu einem bestimmten vertraulichen Attribut und dem Abschnitt mit dem nicht bestimmbaren vertraulichen Attribut bringt.To enable a server or the like to identify sensitive data in an accumulated log. A data processing device comprises: a clustering unit 214 configured to read messages from a log and to cluster the read messages into clusters according to similarities of the messages; a variable section search unit 216 configured to find a section variable between messages; an attribute determination unit 218 configured to estimate and determine a confidential attribute of the variable portion using a predefined rule; and an attribute estimation unit 220 configured to, in a case where there is a section whose confidential attribute is unidentifiable using the rules, obtain the confidential attribute of the unidentifiable confidential attribute section using either a correspondence between appearance locations in the messages or a relationship of joint occurrence of a section to a particular confidential attribute and the section with the indefinable confidential attribute.

Description

Technisches GebietTechnical area

Die vorliegende Erfindung betrifft ein Verfahren zum Identifizieren von vertraulichen Daten, und insbesondere betrifft sie ein Verfahren, mit dem eine Datenverarbeitungsvorrichtung vertrauliche Daten in akkumulierten Protokollen identifizieren kann.The present invention relates to a method for identifying confidential data, and more particularly relates to a method by which a data processing device can identify confidential data in accumulated protocols.

Hintergrund der TechnikBackground of the technique

Heutzutage werden verschiedene Arten von Daten über Netzwerke wie beispielsweise das Internet, ein Intranet und ein Nahverkehrsnetz (LAN) gemeinsam genutzt und sie werden demzufolge besser nutzbar und zugänglicher. Ein Server, der zum Verwalten von Inhalten und Ähnlichem bereitzustellen ist, wird zum Verwalten von Daten und Bereitstellen der Daten für die Nutzer des Internets oder Ähnlichem verwendet. Der Server akzeptiert einen Zugriff von einer Client-Einheit, die über ein Netzwerk mit dem Server verbunden ist und führt eine Datenverarbeitung wie beispielsweise Bereitstellung angeforderter Inhalte, Nutzerregistrierung oder Registrierung/Aktualisierung von persönlichen Daten durch.Today, different types of data are shared across networks such as the Internet, an intranet, and a local area network (LAN), making them more usable and accessible. A server to be provided for managing contents and the like is used for managing data and providing the data to users of the Internet or the like. The server accepts access from a client device connected to the server via a network and performs data processing such as providing requested content, user registration, or personal data registration / updating.

Vorstellbare Server, die mit dem Netzwerk verbunden sind, weisen einen Mail-Server auf, der das Senden/Empfangen von eMails unter Verwendung von SMTP ermöglicht; einen Webserver, der ein Common Gateway Interface (CGI) und Ähnliches zum Bereitstellen von Web-Diensten unter Verwendung des HTTP-Protokolls ausführt; einen FTP-Server; und einen Datenbank-Server, der verschiedene Arten von Daten verwaltet und die Daten in Reaktion auf eine Zugriffsanforderung bereitstellt. Jedes Mal, wenn diese Server Datenverarbeitung durchführen, akkumulieren die Server darin Daten über Nutzer, die auf die Server zugreifen, Authentifizierungsergebnisse, zur Verarbeitung gesendete Dateninhalte, Ausführungsergebnisse und Ähnliches. Die auf diese Weise akkumulierten Daten sind je nach den Typen der Server unterschiedlich, weisen hauptsächlich jedoch eine Quellen-IP-Adresse auf, einen Quellen-Domainnamen, einen Zugriffszeitstempel, den Namen einer Datei, auf die zugegriffen wurde, eine Verbindungsquellen-URL, einen Webbrowser-Namen und einen BS-Namen eines Besuchers, die für die Verarbeitung aufgewendete Zeit, die Anzahl an empfangenen Bytes, die Anzahl an übertragenen Bytes und einen Dienst-Statuscode und Ähnliches. Eine Datenverarbeitungsvorrichtung wie beispielsweise ein Server akkumuliert Daten über Operationen und zeichnet sie in einer Datei, Datenbank oder Ähnlichem auf, was im Folgenden einfach als Protokoll bezeichnet wird.Imaginable servers connected to the network have a mail server that allows sending / receiving e-mails using SMTP; a web server that executes a common gateway interface (CGI) and the like for providing web services using the HTTP protocol; an FTP server; and a database server that manages various types of data and provides the data in response to an access request. Each time these servers perform data processing, the servers therein accumulate data about users accessing the servers, authentication results, data contents sent for processing, execution results, and the like. The accumulated data in this manner varies depending on the types of the servers, but mainly has a source IP address, a source domain name, an access timestamp, the name of a file accessed, a connection source URL, a Web browser name and a visitor's BS name, the time spent processing, the number of bytes received, the number of bytes transferred and a service status code, and the like. A data processing device such as a server accumulates data about operations and records them in a file, database, or the like, which will be referred to simply as a protocol hereinafter.

Wie dies vorstehend beschrieben wurde, weisen von einem Server erstellte Protokolle größtenteils in einem hohen Maße nützliche Daten auf. Dementsprechend können über die Protokollanalyse die Protokolle beispielsweise auf das Prüfen einer Historie bösartiger Angriffe wie beispielsweise DDoS-Angriffe auf den Server, oder auf eine Historie unbefugten Zugriffs auf den Server angewendet werden, um eine Marktanalyse durch statistische Analyse von Daten über Zugriffe auf den Server und Ähnliches durchzuführen.As described above, logs created by a server are largely highly useful data. Accordingly, log analysis may apply the logs to, for example, checking a history of malicious attacks, such as DDoS attacks on the server, or an unauthorized access history to the server, to provide market analysis through statistical analysis of server access and data access data To do something similar.

Darüber hinaus können in Bezug auf illegale Zugriffe usw. auf Server, die neuerdings häufig auftreten, Protokolle auch verwendet werden, um zeit-sequenzierte Änderungen und Zielübergänge von Angreifern auf das Netzwerk umfassender durchzuführen, indem die bei vielen Organisationen bezogenen Protokolle quer analysiert werden. Da, wie dies vorstehend beschrieben wurde, ein Protokoll jedoch grundlegende Netzwerkinformationen und persönliche Daten enthält, besteht durch die Offenlegung von Protokollen das Risiko eines Datenverlustes an einen externen Analyselieferant zur Protokollanalyse oder über Offenlegung von Protokollen über eine Vielzahl von Domainen, selbst wenn die Domainen zuverlässig sind.In addition, with respect to illegal access, etc., to servers that are now commonplace, protocols can also be used to more comprehensively perform time-sequenced changes and target transitions of attackers to the network by cross-analyzing the protocols used by many organizations. However, as described above, since a protocol contains basic network information and personal data, the disclosure of protocols risks losing data to an external analysis vendor for protocol analysis or disclosure of protocols over a variety of domains, even if the domains are reliable are.

10 zeigt ein Beispiel eines Zugriffsprotokolls 1000 eines Webservers, der unter Verwendung von Apache 2.0 ausgeführt ist, sowie ein Transaktions-Protokoll 1100 eines FTP-Servers. In 10 werden Netzwerkinformationen, private Daten und Port-Informationen durch „*” ersetzt, um diese zu verstecken. Wie dies in 10 dargestellt ist, kann ein Protokoll zentrale Serverinformationen wie beispielsweise eine feste IP-Adresse eines Servers, eine verwendete Port-Nummer und eine hierarchische Verzeichnisstruktur aufweisen, und es kann des Weiteren auch private Daten wie beispielsweise eine Nutzer-ID und streng vertrauliche Daten wie zum Beispiel ein Passwort enthalten. Da in einem Protokoll jedoch eine große Bandbreite an Daten aufgezeichnet werden kann, ist der Ort von Zeichenketten in einem Protokoll, wo streng vertrauliche Daten enthalten sind, je nach Inhalt des Protokolls ein anderer. 10 shows an example of an access log 1000 a web server running Apache 2.0 and a transaction log 1100 an FTP server. In 10 Network information, private data, and port information are replaced by "*" to hide them. Like this in 10 For example, a protocol may include central server information such as a fixed IP address of a server, a port number used, and a hierarchical directory structure, and may further include private data such as a user ID and highly confidential data such as a password included. However, because a large amount of data can be recorded in a log, the location of strings in a log containing highly sensitive data is different depending on the content of the log.

So stellt beispielsweise die Offenlegung der unbearbeiteten Protokolle von 10 gegenüber einer externen Partei ein Risiko für ein Unternehmen dar, da dies die Offenlegung von Netzwerkinformationen, Serverinformationen, persönlichen Daten und Ähnlichem eines Unternehmens oder einer Organisation gegenüber Externen bedeutet. Gelangen darüber hinaus die Protokolle an bösartige Angreifer, besteht die Gefahr, dass von dem Unternehmen akkumulierte Daten mit hoher Wertschöpfung zerstört und durch Hacking plagiiert werden und dass das Unternehmen Ziel von DDoS-Angriffen oder Ähnlichem wird.For example, the disclosure of raw logs of 10 represents a risk to a business to an outside party, as it means disclosing network information, server information, personal information, and the likes of a business or organization to outsiders. In addition, if the logs are leaked to malicious attackers, there is a risk that high value-added data accumulated by the company will be destroyed and plagiarized, and that the company may become the target of DDoS attacks or the like.

Demzufolge können durch Bereitstellen eines unbearbeiteten Protokolls an einen externen Analyselieferanten, ein Unternehmen oder eine Organisation, die einen Server verwenden, nützliche Informationen erhalten, müssen jedoch auf der anderen Seite das hohe Risiko des Verlusts vertraulicher Daten, datenschutzrechtlicher Daten, Verlust von Daten durch einen unbefugten Zugriff auf den Server und Ähnliches in Kauf nehmen. Aus diesen Gründen ist, selbst wenn die Offenlegung eines Protokolls an einen Dritten eine Historie von Zugriffen auf einen Server zu analysieren beabsichtigt und die Analyseergebnisse zu den Funktionen des Servers wiedergegeben werden sollen, die Offenlegung immer noch einem großen Hindernis ausgesetzt, das größer ist, als die Einhaltung einer Geheimhaltungsvereinbarung, welche eine flexible Protokollanalyse verhindert. Des Weiteren können, wenn streng vertrauliche Daten in den Protokollinformationen gefunden werden können, die streng vertraulichen Daten in ihrer Gesamtheit durch Sternchen oder Ähnliches ersetzt werden. In solch einem Fall verliert das Protokoll jedoch mitunter Daten, die die Identität der zugreifenden Person oder die Identität der Daten anzeigen, auf die zugegriffen wird. Dementsprechend ist es vorzuziehen, dass Protokolldaten auf eine Weise versteckt werden, dass die Attribute der ursprünglichen Daten ebenso wie die Gleichheit der ursprünglichen Daten beibehalten wird. As a result, providing an unprocessed log to an external analytics vendor, company, or organization using a server can provide useful information, but at the same time, it must address the high risk of losing sensitive data, privacy, loss of data through an unauthorized person Access to the server and the like in purchase. For these reasons, even if the disclosure of a protocol to a third party intends to analyze a history of accesses to a server and to present the results of the analysis of the functions of the server, the disclosure is still subject to a major obstacle that is greater than adherence to a non-disclosure agreement that prevents flexible protocol analysis. Furthermore, if strictly confidential data can be found in the log information, the strictly confidential data in its entirety may be replaced with asterisks or the like. In such a case, however, the log sometimes loses data indicating the identity of the accessing person or the identity of the accessed data. Accordingly, it is preferable that log data be hidden in a manner that preserves the attributes of the original data as well as the equality of the original data.

Bislang sind Verfahren zum Beurteilen der Vertraulichkeitsstufe eines Protokolls bekannt. So zielt beispielsweise die Japanische Patentanmeldungsveröffentlichung Nr. 2009-116680 (Patentliteratur 1) auf das Bereitstellen eines Verfahrens zum einfachen und genauen Erfassen eines Datentyps von Eingabe-/Ausgabedaten eines Computers ab, wie zum Beispiel das Vorhandensein/Nicht-Vorhandensein von Vertraulichkeit, um zu einer geeigneten Verwaltung der Daten beizutragen. Das in der Patentliteratur 1 beschriebene Verfahren dient dem genauen Beurteilen von Datentypen dadurch, dass die Maschine lernt und weist auf; Lesemittel zum Lesen der Eingabe-/Ausgabedaten; Dateninhalts-Aufnahmemittel zum Aufnehmen einer Zeichenabfolge, die in den Eingabe-/Ausgabedaten enthalten ist; Merkmal-Entnahmemittel zum Entnehmen der Zeichenkette oder einer gegebenen Zeichengruppe als ein Merkmal, die in der Zeichenkette enthalten sind; und Datentyp-Beurteilungsmittel zum Beurteilen eines Datentyps des Merkmals durch Verweis auf gelernte Datentypergebnisse, die in einer externen Speichereinheit gespeichert sind und die durch die lernende Maschine unter Verwendung von Trainingsdaten erhalten werden, deren Datentypen vorher bekannt sind.So far, methods for assessing the level of confidentiality of a protocol are known. For example, the Japanese Patent Application Publication No. 2009-116680 (Patent Literature 1) to provide a method for easily and accurately detecting a data type of input / output data of a computer, such as the presence / absence of confidentiality, to contribute to proper management of the data. The method described in Patent Literature 1 is for accurately judging data types by learning and instructing the machine; Reading means for reading the input / output data; Data content recording means for recording a character sequence contained in the input / output data; Feature extracting means for extracting the character string or a given character group as a feature contained in the character string; and data type judging means for judging a data type of the feature by referring to learned data type results stored in an external storage unit and obtained by the learning machine using training data whose data types are previously known.

Das in der Patentliteratur 1 beschriebene Verfahren ermöglicht Beurteilen der Vertraulichkeit von Daten in einem Protokoll. Da jedoch die Trainingsdaten zur Beurteilung verwendet werden, ist es nicht möglich, Vertraulichkeit von Daten zu beurteilen, die nicht in den Trainingsdaten enthalten sind, wodurch die Gefahr bestehen bleibt, dass vertrauliche Daten verloren gehen. Darüber hinaus ist ein Verfahren zum Erfassen eines vertraulichen Wortes basierend auf regulären Ausdrücken und einer Wortliste keine ausreichende Lösung, da es aufgrund einer riesigen Menge an Aufwand zur Datenkonstruktion, Weglassung von Wörtern und Ähnlichem beim Registrieren der Typen von regulären Ausdrücken und Registrieren von Wörtern in einer Wortliste an Grenzen stößt. Es ist auch vorstellbar, vorab ein perfektes Schema für ein Protokoll zu definieren und vertrauliche Informationen in Übereinstimmung mit dem Schema zu anonymisieren; es ist jedoch nicht realistisch, eine Reihe verschiedener perfekter Schemen für eine Reihe verschiedener Protokolle, die erstellt werden müssen, zu erstellen. Des Weiteren gibt es, ungeachtet dessen wie viele Wörter oder Schemen hinzugefügt werden, eine Vielzahl von ungewöhnlichen Namen. Des Weiteren ist es auch notwendig, einem Protokoll beizukommen, das falsch eingegebene Daten wie beispielsweise eine oder ein falsch geschriebene/s Nutzer-ID/Passwort und Daten, die in einem falschen Feld eingegeben wurden, enthält.The method described in Patent Literature 1 makes it possible to judge the confidentiality of data in a protocol. However, since the training data is used for the assessment, it is not possible to judge confidentiality of data that is not included in the training data, thereby causing the risk of losing confidential data. Moreover, a method of acquiring a confidential word based on regular expressions and a word list is not a sufficient solution, because of a huge amount of data construction effort, omission of words and the like in registering the types of regular expressions and registering words in one Word list reaches its limits. It is also conceivable to define in advance a perfect scheme for a protocol and to anonymize confidential information in accordance with the scheme; however, it is not realistic to create a number of different perfect schemes for a number of different protocols that need to be created. Further, regardless of how many words or schemes are added, there are a variety of unusual names. Furthermore, it is also necessary to come to a log that contains mis-entered data such as a misspelled user ID / password and data entered in a wrong field.

Zitatlistequote list

Patentliteraturpatent literature

  • Japanische Patentanmeldungsveröffentlichung Nr. 2009-116680Japanese Patent Application Publication No. 2009-116680

Kurzdarstellung der ErfindungBrief description of the invention

Technisches ProblemTechnical problem

Die vorliegende Erfindung wurde in Anbetracht der vorstehend benannten Probleme des Standes der Technik gemacht und zielt auf das Bereitstellen eines Verfahrens und einer Datenverarbeitungsvorrichtung zum Identifizieren von vertraulichen Daten ab, die die Erweiterung und Nutzbarkeit von Protokollen ohne Beeinträchtigung der Nützlichkeit der Protokolle, durch Identifizieren von vertraulichen Daten, die in den Protokollen enthalten sind, verbessern. In einem Aspekt betrifft die Erfindung ein Verfahren, mit dem eine Datenverarbeitungsvorrichtung vertrauliche Daten in einem akkumulierten Protokoll identifizieren kann, wobei das Verfahren die Schritte aufweist des:

  • Lesens von Mitteilungen über Operationen von Datenverarbeitungsvorrichtungen aus dem Protokoll, und Klassifizierens der gelesenen Mitteilungen in Cluster gemäß Ähnlichkeiten der Mitteilungen;
  • Findens von Abschnitten, die zwischen den Mitteilungen variabel sind, in den Mitteilungen in jedem der Cluster;
  • Bestimmens eines vertraulichen Attributes der variablen Abschnitte unter Verwendung von vordefinierten Regeln; und
  • Bestimmens des vertraulichen Attributes des Abschnittes mit dem nicht bestimmbaren vertraulichen Attribut in einem Fall, in dem es einen Abschnitt gibt, dessen vertrauliches Attribut unter Verwendung der Regel nicht bestimmt werden kann, durch Schätzen des vertraulichen Attributes von einem anderen Abschnitt, der ein bestimmtes vertrauliches Attribut besitzt.
The present invention has been made in view of the above-mentioned problems of the prior art and aims at providing a method and a data processing apparatus for identifying confidential data that enhances the extension and usability of protocols without affecting the usefulness of the protocols by identifying confidential ones Improve data contained in the logs. In one aspect, the invention relates to a method by which a data processing device can identify confidential data in an accumulated protocol, the method comprising the steps of:
  • Reading messages about operations of data processing devices from the log, and classifying the read messages into clusters according to similarities of the messages;
  • Finding sections that are variable between the messages in the messages in each of the clusters;
  • Determining a confidential attribute of the variable portions using predefined rules; and
  • Determining the confidential attribute of the non-identifiable confidential attribute portion in a case where there is a portion whose confidential attribute can not be determined using the rule by estimating the confidential attribute of another portion having a certain confidential attribute has.

Gemäß einer Ausführungsform weist das Verfahren des Weiteren den Schritt des Erstellens eines sicheren Protokolls durch Ersetzen einer Darstellung des variablen Abschnittes in den Mitteilungen mit einer alternativen Darstellung gemäß dem auf diese Weise bestimmten vertraulichen Attribut auf.In one embodiment, the method further comprises the step of establishing a secure protocol by replacing a representation of the variable portion in the messages with an alternative representation according to the confidential attribute thus determined.

Gemäß einer Ausführungsform weist das Verfahren des Weiteren den Schritt des Ausgebens nur des sicheren Protokolls nach außerhalb der Datenverarbeitungsvorrichtung auf.According to an embodiment, the method further comprises the step of outputting only the secure protocol outside the data processing device.

Lösung für das ProblemSolution to the problem

Um die vorstehend benannten Probleme zu lösen, identifiziert die vorliegende Erfindung, ob es sich bei persönlichen Daten in einem Protokoll um vertrauliche Daten handelt oder nicht. Die Beurteilung dahingehend, ob die persönlichen Daten in dem Protokoll vertraulich sind, wird wie folgt durchgeführt. Genauer gesagt werden Mitteilungen in dem Protokoll in Cluster gemäß Ähnlichkeiten der Mitteilungen klassifiziert. Die Mitteilungen in jedem der Cluster werden miteinander verglichen, und feste Abschnitte und variable Abschnitte in den Mitteilungen werden basierend auf einem Unterschied zwischen den Mitteilungen identifiziert. Anschließend wird eine Vertraulichkeitsstufe eines jeden der variablen Abschnitte unter Bezugnahme auf Wörter, Zeichenketten oder Codeinformationen bestimmt, die mit einer Beurteilungsregel registriert sind. Anschließend wird ein Erscheinungsort der Wörter, Zeichenketten oder Codeinformationen, die basierend auf den Wörtern, Zeichenketten oder Codeinformationen, die mit der Beurteilungsregel registriert sind, als vertraulich bestimmt wurden, als ein vertraulicher Abschnitt in den Mitteilungen in dem Cluster bestimmt, und diese Beurteilung wird auf andere Mitteilungen in dem Cluster angewendet. Mit anderen Worten bedeutet dies, dass eine Zeichenkette, die sich in dem vertraulichen Abschnitt in jeder der anderen Mitteilungen in dem Cluster befindet, selbst dann als vertraulich bestimmt wird, wenn die Zeichenkette von der Beurteilungsregel nicht als vertraulich bestimmt wurde.In order to solve the above-mentioned problems, the present invention identifies whether or not personal data in a log is confidential data. The judgment as to whether the personal data in the log is confidential is made as follows. More specifically, messages in the protocol are classified into clusters according to similarities of the messages. The messages in each of the clusters are compared with each other, and fixed sections and variable sections in the messages are identified based on a difference between the messages. Subsequently, a confidentiality level of each of the variable portions is determined with reference to words, character strings or code information registered with a judgment rule. Subsequently, a place of appearance of the words, character strings or code information determined to be confidential based on the words, character strings or code information registered with the judgment rule is determined as a confidential portion in the messages in the cluster, and this judgment is made other messages are applied in the cluster. In other words, this means that a string located in the confidential section in each of the other messages in the cluster is determined to be confidential even if the string was not determined to be confidential by the assessment rule.

Des Weiteren wird die Zeichenkette, die sich in dem vertraulichen Abschnitt in jeder der anderen Mitteilungen in dem Cluster befindet, mit der Beurteilungsregel registriert. Dadurch wird es möglich, dieselbe Zeichenkette zu bestimmen, die in einer anderen Mitteilung als vertraulich erscheint.Furthermore, the character string that is in the confidential section in each of the other messages in the cluster is registered with the judgment rule. This makes it possible to determine the same string that appears confidential in another message.

Ein Bereich, der als ein vertraulicher Bereich beurteilt worden ist, wird durch eine andere Darstellung mit einem Format ersetzt, das für Daten in dem Bereich geeignet ist. Wenn zu diesem Zeitpunkt die Daten vollständig maskiert sind, wird die Menge an Daten sowie die Nutzbarkeit der Daten klein, wie dies in 10 dargestellt ist, da das Protokoll signifikant behindert wird. Um dem beizukommen, können die Daten durch eine andere Darstellung ersetzt werden, die einen möglichst ähnlichen Typ oder eine solche Bedeutung wie die der ursprünglichen Daten, d. h. dieselbe Semantik haben. Das Ersetzen durch eine andere Darstellung desselben Typs oder derselben Bedeutung wie die der ursprünglichen Daten ermöglicht das Ersetzen auf eine Weise, dass der Typ von Daten nach der Ersetzung identifiziert und bestimmt werden kann. So wird beispielsweise ein persönlicher Name auf einem anderen persönlichen Name abgebildet, z. B. „Alice” → „Cathy”, „Bob” → „David”.An area which has been judged to be a confidential area is replaced by another one having a format suitable for data in the area. If the data is completely masked at this time, the amount of data as well as the usability of the data becomes small as in 10 is shown because the protocol is significantly hindered. To overcome this, the data may be replaced by another representation that has as similar a type or meaning as the original data, ie the same semantics. Replacing with another representation of the same type or meaning as the original data allows replacement in such a way that the type of data after replacement can be identified and determined. For example, a personal name is mapped to another personal name, e.g. "Alice" → "Cathy", "Bob" → "David".

In dem Fall einer IP-Adresse wird, während ein spezieller Abschnitt einer Netzwerkstruktur der IP-Adresse unverändert beibehalten wird, der andere Abschnitt durch Codeinformationen oder Ähnliches ersetzt, die eine private IP-Adresse oder Ähnliches bilden und hat eine bestimmte Regel eines regulären Ausdrucks. Dadurch können vertrauliche Daten einschließlich eines geschätzten Abschnittes maskiert werden.In the case of an IP address, while a particular portion of a network structure of the IP address is kept unchanged, the other portion is replaced with code information or the like forming a private IP address or the like, and has a certain rule of regular expression. This can mask confidential data, including an estimated section.

Des Weiteren schätzt, in Bezug auf die Daten, die nicht mit der Beurteilungsregel registriert sind, die vorliegende Erfindung ein vertrauliches Attribut eines Bereiches, dessen vertrauliches Attribut anhand der Beurteilungsregel nicht bestimmt werden kann, unter Verwendung eines Erscheinungsortes des Bereiches in einer Mitteilung und seiner Beziehung des gemeinsamen Auftretens mit vertraulichen Wörtern. Dadurch kann die Nutzbarkeit eines Protokolls verbessert werden, während verhindert wird, dass ein vertraulicher Bereich des Protokolls an externe Parteien verloren geht.Further, with respect to the data not registered with the judgment rule, the present invention estimates a confidential attribute of an area whose confidential attribute can not be determined from the judgment rule by using a place of appearance of the area in a message and its relationship the common occurrence with confidential words. This can improve the usability of a protocol while preventing a confidential portion of the protocol from being lost to external parties.

Kurzbeschreibung der ZeichnungenBrief description of the drawings

1 ist eine Ansicht, die eine Ausführungsform eines Datenverarbeitungssystems 100 gemäß einer Ausführungsform der vorliegenden Erfindung darstellt. 1 is a view showing an embodiment of a data processing system 100 according to an embodiment of the present invention.

2 ist ein funktionales Blockschaltbild, das eine Einheit zum Erstellen eines sicheren Protokolls 200 darstellt, das in der Ausführungsform der vorliegenden Erfindung verwendet wird. 2 is a functional block diagram that is a unit for creating a secure protocol 200 which is used in the embodiment of the present invention.

3 ist eine Ansicht, die ein Protokoll 300 darstellt, das in der Ausführungsform der vorliegenden Erfindung analysiert werden soll. 3 is a view that is a log 300 which is to be analyzed in the embodiment of the present invention.

4 ist eine Ansicht, die eine Liste variabler Abschnitte, wie Wörter, Zeichenketten und reguläre Wörter zeigt, die mit einer Beurteilungsregel 224 der Ausführungsform der vorliegenden Erfindung registriert sind. 4 Figure 13 is a view showing a list of variable sections, such as words, strings, and regular words, with a rating rule 224 registered in the embodiment of the present invention.

5 ist eine Ansicht, die ein Flussdiagramm eines Verfahrens zur Protokollanalyse und zu Datenformaten der Protokollanalyse gemäß der Ausführungsform der vorliegenden Erfindung darstellt. 5 FIG. 10 is a view illustrating a flowchart of a protocol analysis method and data formats of protocol analysis according to the embodiment of the present invention. FIG.

6 ist ein Flussdiagramm der Datenverarbeitung anschließend an die Datenverarbeitung in 5. 6 is a flowchart of the data processing subsequent to the data processing in 5 ,

7 ist ein Flussdiagramm der Datenverarbeitung zur Schätzung der Vertraulichkeitsstufe, die in 6 beschrieben ist. 7 is a flowchart of the data processing for estimating the level of confidentiality, which in 6 is described.

8 ist eine Ansicht, die einen Modus der Beurteilung der Vertraulichkeitsstufe 800 der Ausführungsform der vorliegenden Erfindung darstellt, indem er einem zu beurteilenden Protokoll 810 zugeordnet wird. 8th is a view that provides a mode of assessment of the level of confidentiality 800 the embodiment of the present invention by providing a protocol to be assessed 810 is assigned.

9 ist eine Ansicht, die eine Ausführungsform der Datenverarbeitung des Ersetzens darstellt, die durch eine Darstellungsersetzungseinheit 230 der Ausführungsform der vorliegenden Erfindung durchgeführt wird. 9 FIG. 13 is a view illustrating an embodiment of the data processing of replacement performed by a presentation replacement unit 230 the embodiment of the present invention is performed.

10 ist eine Ansicht, die ein Zugriffsprotokoll 1000 eines Webservers darstellt, der beispielsweise unter Verwendung von Apache 2.0 und eines Transaktionsprotokolls 1100 eines FTP-Servers ausgeführt ist. 10 is a view that has an access log 1000 of a web server using, for example, Apache 2.0 and a transaction log 1100 an FTP server is running.

Beschreibung der AusführungsformenDescription of the embodiments

Im Folgenden wird eine Ausführungsform der vorliegenden Erfindung beschrieben; dennoch ist die vorliegende Erfindung nicht auf die im Folgenden beschriebene Ausführungsform beschränkt. 1 zeigt eine Ausführungsform eines Datenverarbeitungssystems 100, auf das ein Verfahren zum Identifizieren vertraulicher Daten der Ausführungsform der vorliegenden Erfindung angewendet wird. Eine Serverfunktionseinheit 120 ist mit einem Netzwerk 110 verbunden. Auf Anforderung von Client-Einheiten 112, die mit dem Netzwerk verbunden sind, stellt die Serverfunktionseinheit 120 den Client-Einheiten 112 Web-Dienste, Speicher-Dienste, Such-Dienste und andere Dienste bereit.Hereinafter, an embodiment of the present invention will be described; however, the present invention is not limited to the embodiment described below. 1 shows an embodiment of a data processing system 100 to which a method for identifying confidential data of the embodiment of the present invention is applied. A server functional unit 120 is with a network 110 connected. At the request of client devices 112 connected to the network represents the server functional unit 120 the client units 112 Web services, storage services, search services and other services ready.

Die Serverfunktion 120 weist eine Dienst-Einheit 122 und eine Datenbank 124 auf, deren Daten von einer Anwendung wie beispielsweise einer Datenbankanwendung verwaltet werden können, die von der Server-Einheit 122 ausgeführt wird. Die Datenbank 124 kann darin auch Inhalte speichern, die bereitgestellt werden sollen, sowie auch Sicherheitsinformationen wie beispielsweise Daten zur Benutzerregistrierung, Daten zur Benutzerdatenaktualisierung und Zugriffssteuerungsdaten.The server function 120 has a service unit 122 and a database 124 whose data can be managed by an application, such as a database application, by the server device 122 is performed. Database 124 It can also store content to be provisioned, as well as security information such as user registration data, user data update data, and access control data.

Die in 1 dargestellte Servereinheit 122 kann aus einer Datenverarbeitungsvorrichtung, wie beispielsweise einem Blade-Server, einem Gehäuseserver und einem vielseitig verwendbaren Computer gebildet sein und kann von einem Betriebssystem wie beispielsweise WINDOWS (eingetragene Handelsmarke) 200X, UNIX (eingetragene Handelsmarke), oder LINUX (eingetragene Handelsmarke) gesteuert sein. Darüber hinaus kann die Servereinheit 122 als Proxyserver oder Gateway-Server zur verteilten Datenverarbeitung oder als Webserver ausgeführt sein, so lange die Einheit in der Lage ist, Suchanfragen von den Client-Einheiten 112 zu verarbeiten und die Verarbeitungsergebnisse an die Client-Einheiten 112 zurückzusenden.In the 1 illustrated server unit 122 may be formed of a data processing device such as a blade server, a housing server, and a versatile computer, and may be controlled by an operating system such as WINDOWS (registered trademark) 200X, UNIX (registered trademark), or LINUX (registered trademark). In addition, the server unit 122 be executed as a proxy server or gateway server for distributed data processing or as a web server, as long as the unit is able to search queries from the client units 112 to process and process the results to the client units 112 returned.

Jede Client-Einheit 112 kann als Personalcomputer oder Workstation einschließlich eines Mikroprozessors wie beispielsweise ein Single-Core-Prozessor oder ein Dual-Core-Prozessor, ein Direktzugriffsspeicher (RAM) und ein Festplattenlaufwerk ausgeführt sein. Alternativ dazu kann die Client-Einheit 112 als ein PDA oder ein Smartphone ausgeführt sein. Die Client-Einheit 112 kann von einem jeden beliebigen Betriebssystem wie WINDOWS (eingetragene Handelsmarke) 200X, UNIX (eingetragene Handelsmarke), LINUX (eingetragene Handelsmarke) und ANDOROID (eingetragene Handelsmarke) gesteuert sein.Each client unit 112 may be implemented as a personal computer or workstation including a microprocessor such as a single-core processor or a dual-core processor, a random access memory (RAM) and a hard disk drive. Alternatively, the client unit 112 be executed as a PDA or a smartphone. The client unit 112 may be controlled by any operating system such as WINDOWS (registered trademark) 200X, UNIX (registered trademark), LINUX (registered trademark) and ANDOROID (registered trademark).

Die Client-Einheit 112 und die Serverfunktionseinheit 120 können über ein Netzwerk 110 unter Verwendung eines Transaktionsprotokolls wie beispielsweise TCP/IP miteinander verbunden sein. Des Weiteren können Datentransaktionen zwischen der Client-Einheit 112 und der Servereinheit 122 unter Verwendung einer verteilten Datenverarbeitungsumgebung wie beispielsweise Remote Method Invocation (RMI), Remote Procedure Call (RPC), Enterprise Java Beans (EJB), oder Common Object Request Broker Architecture (CORBA) hergestellt werden.The client unit 112 and the server functional unit 120 can over a network 110 using a transaction protocol such as TCP / IP. Furthermore, data transactions between the client unit 112 and the server unit 122 using a distributed computing environment such as Remote Method Invocation (RMI), Remote Procedure Call (RPC), Enterprise Java Beans (EJB), or Common Object Request Broker Architecture (CORBA).

In einer weiteren Ausführungsform können die Servereinheit 122 und die Client-Einheit 112 eine Konfiguration aufweisen, bei der sie das HTTP-Protokoll mit einem Webbrowser verwenden, der in der Client-Einheit 112 installiert ist, sowie Serverprogramme wie beispielsweise CGI, Servlet, und eine Datenbankanwendung, die in der Servereinheit 122 installiert ist. In noch einer weiteren Ausführungsform können die Servereinheit 122 und die Client-Einheit 112 eine Konfiguration aufweisen, bei der Datentransaktionen mit einer FTP-Serveranwendung durchgeführt werden, die in der Servereinheit 122 und der Client-Einheit 112 installiert ist, die als FTP-Client agiert.In a further embodiment, the server unit 122 and the client unit 112 have a configuration using the HTTP protocol with a web browser running in the client unit 112 and server programs such as CGI, servlet, and a database application running in the server unit 122 is installed. In yet another embodiment, the server unit 122 and the client unit 112 have a configuration in which data transactions are performed with an FTP server application residing in the server unit 122 and the client unit 112 is installed, which acts as an FTP client.

Die Servereinheit 122 speichert ein Protokoll 126 auf einem geeigneten Speicherplatz der Servereinheit 122 oder der Datenbank 124. In dieser Spezifikation wird eine Datei, die dadurch erstellt wird, dass einer Datenverarbeitungsvorrichtung wie beispielsweise einem Server ermöglicht wird, Mitteilungen über Operationen der Dateninformationsvorrichtung zu akkumulieren, einfach als Protokoll 126 bezeichnet. In einer bestimmten Ausführungsform wird das Protokoll 126 beispielsweise dadurch erzeugt, dass der Servereinheit 122 gestattet wird, sequenziell Informationen zu Operationen der Servereinheit 122 zwischen Transaktionen aufzuzeichnen, die zwischen der Servereinheit 122 und der Client-Einheit 112 ausgeführt werden.The server unit 122 saves a log 126 on a suitable storage space of the server unit 122 or the database 124 , In this specification, a file created by allowing a data processing device such as a server to accumulate messages about operations of the data information device is simply a protocol 126 designated. In a particular embodiment, the protocol becomes 126 for example, generated by the server unit 122 is allowed sequential information about operations of the server unit 122 to record between transactions made between the server unit 122 and the client unit 112 be executed.

Das Protokoll 126 weist Daten mit hoher Wertschöpfung auf, ist jedoch aufgrund der Tatsache, dass es oftmals textbasiert ist, auf verschiedenen Wegen von außen her zugänglich. Es ist im Hinblick auf Sicherheit nicht wünschenswert, dass unbearbeitete Protokolle für Personen zugänglich sind, die nicht Verantwortung tragende Personen in Unternehmen/Organisationen mit hoher Haftungsbeschränkung sind. Dementsprechend wird in der Ausführungsform der vorliegenden Erfindung, anstatt der Serverfunktionseinheit 120 einen direkten Zugriff auf das Protokoll zu ermöglichen, ein funktionales Mittel in der Servereinheit 122 ausgeführt, wobei das Mittel ein sicheres Protokoll durch Maskieren wichtiger grundlegender Informationen und persönlicher Daten erstellt, die in einem Protokoll enthalten sind und der Serverfunktionseinheit 120 der Zugriff auf das sichere Protokoll ermöglicht. In dieser Spezifikation zeigt das sichere Protokoll eine Datendatei an, die durch Identifizieren vertraulicher Daten, die in dem Protokoll 126 gemäß der vorliegenden Erfindung enthalten sind, und durch Modifizieren (Maskieren oder Ersetzen) der vertraulichen Daten erstellt wird, so dass die Daten nicht angezeigt werden sollten.The protocol 126 has high value-added data, but is externally accessible in a variety of ways due to the fact that it is often text-based. It is not desirable in terms of security that unprocessed logs be accessible to persons who are not responsible persons in companies / organizations with high liability limitations. Accordingly, in the embodiment of the present invention, rather than the server functional unit 120 to allow direct access to the protocol, a functional means in the server unit 122 wherein the means creates a secure protocol by masking important basic information and personal data contained in a protocol and the server functional unit 120 allows access to the secure protocol. In this specification, the secure log displays a data file by identifying sensitive data contained in the log 126 according to the present invention, and by modifying (masking or replacing) the confidential data so that the data should not be displayed.

2 ist ein funktionales Blockschaltbild einer Einheit zum Erstellen eines sicheren Protokolls 200, die in der Ausführungsform der vorliegenden Erfindung zum Identifizieren eines streng vertraulichen Bereiches in einem Protokoll verwendet wird. Die in 2 dargestellte Einheit zum Erstellen eines sicheren Protokolls 200 kann unter Verwendung eines Programms erstellt werden, das von der Servereinheit 122 ausgeführt werden kann, z. B. C++, Java (eingetragene Handelsmarke), Perl, Ruby, oder PHP. Die Einheit zum Erstellen eines sicheren Protokolls 200 kann in der Servereinheit 122 beispielsweise als Filterungsmodul ausgeführt sein, das so konfiguriert ist, dass es den Zugriff auf das Protokoll unter Verwendung eines Verfahrens mit Ausnahme von Verschlüsselung steuert. 2 is a functional block diagram of a secure protocol creation unit 200 used in the embodiment of the present invention for identifying a strictly confidential area in a protocol. In the 2 presented unit for creating a secure protocol 200 can be created using a program that comes from the server unit 122 can be executed, for. C ++, Java (registered trademark), Perl, Ruby, or PHP. The unit to create a secure log 200 can in the server unit 122 for example, as a filtering module configured to control access to the protocol using a method other than encryption.

Die in 2 dargestellte Einheit zum Erstellen eines sicheren Protokolls 200 ist so konfiguriert, dass sie über eine geeignete Eingabeschnittstelle das von der Servereinheit 122 erstellte Protokoll 126 von einem Speicherplatz liest, der das Protokoll darin speichert, streng vertrauliche Daten in dem Protokoll 126 identifiziert und die identifizierten Daten über die Anwendung verschiedener Prozesse maskiert. Die Datendatei, in der die vertraulichen Daten maskiert werden, kann über eine Ausgabeschnittstelle und Ähnliches als ein sicheres Protokoll 126a ausgegeben werden. Wird das Protokoll 126 verschlüsselt, kann das Protokoll durch Eingeben eines Passwortes oder eines Entschlüsselungsschlüssels, der erstellt wurde, um die Einheit zum Erstellen eines sicheren Protokolls 200 anzurufen, ausgelesen werden. Die Art und Weise des Ausgebens des sicheren Protokolls 126a weist auf: Anzeigen auf einem Desktopbildschirm; Erstellung eines strukturierten Dokumentes wie beispielsweise eines HTML-Dokumentes oder eines XML-Dokumentes; Erstellung eines Textdokumentes; Speicherung der erstellten Datei in einem externen Speichermedium wie einem Festplattenlaufwerk; und Übertragung der erstellten Datei über ein Netzwerk, jedoch ist dies keine Beschränkung darauf. Es gilt zu beachten, dass die Eingabe-/Ausgabeschnittstellen im Sinne einer praktischen Erläuterung nicht in 2 dargestellt sind.In the 2 presented unit for creating a secure protocol 200 is configured to have the appropriate input interface from the server unit 122 created log 126 from a storage location that stores the log in it, reads strictly confidential data in the log 126 identifies and disguises the identified data about the application of various processes. The data file in which the confidential data is masked can via an output interface and the like as a secure protocol 126a be issued. Will the log 126 Encrypted, the log can be entered by entering a password or decryption key that was created to the unit to create a secure log 200 call, be read out. The way of issuing the secure protocol 126a Indicates: Ads on a desktop screen; Creation of a structured document such as an HTML document or an XML document; Creation of a text document; Storing the created file in an external storage medium such as a hard disk drive; and transferring the created file over a network, but this is not a limitation. It should be noted that the input / output interfaces are not in the sense of a practical explanation 2 are shown.

Die Einheit zum Erstellen eines sicheren Protokolls 200 der Ausführungsform der vorliegenden Erfindung wird weiter in Bezug auf 2 beschrieben. Die Einheit zum Erstellen eines sicheren Protokolls 200 kann eine Identifizierungseinheit für vertrauliche Daten 210 und eine Darstellungsersetzungseinheit 230 aufweisen. Die Identifizierungseinheit für vertrauliche Daten 210 ist so konfiguriert, dass sie in dem Protokoll 126 enthaltene vertrauliche Daten identifiziert, und die Darstellungsersetzungseinheit 230 ist so konfiguriert, dass sie eine Darstellung der vertraulichen Daten in dem Protokoll 126, die auf diese Weise von der Identifizierungseinheit für vertrauliche Daten 210 identifiziert wurde, durch andere Zeichen oder Ähnliches ersetzt.The unit to create a secure log 200 The embodiment of the present invention will be further described with reference to FIG 2 described. The unit to create a secure log 200 can be a confidential data identification unit 210 and a presentation replacement unit 230 exhibit. The identification unit for confidential data 210 is configured to be in the log 126 identified confidential data, and the presentation replacement unit 230 is configured to present a representation of the confidential data in the log 126 that way from the confidential data identification unit 210 has been replaced by other characters or the like.

Die Identifizierungseinheit für vertrauliche Daten 210 weist eine Mitteilungsanalysiereinheit 212, eine Cluster bildende Einheit 214 und eine Einheit zum Suchen eines variablen Abschnittes 216 auf. Die Mitteilungsanalysiereinheit 212 weist einen Parser auf, der so konfiguriert ist, dass er ein Protokoll parst, und sie ist in der Lage, Ähnlichkeiten von Mitteilungen in dem Protokoll 126 durch Vergleichen der Mitteilungen mit einer Vorlage und Sortieren der Mitteilungen in der Reihenfolge von Ähnlichkeiten für die anschließenden Prozesse zu quantifizieren. Die Cluster bildende Einheit 214 ist konfiguriert, um die Mitteilungen entsprechend den Ähnlichkeiten der Mitteilungen in Cluster zu klassifizieren. Die Einheit zur Suche eines variablen Abschnitt 216 ist durch Vergleichen der Mittelungen untereinander dazu konfiguriert, einen festen Abschnitt, der ein fester und invariabler Bereich und einen variablen Abschnitt, der ein variabler Bereich zwischen Mitteilungen in den in einem gegebenen Cluster enthalten Mitteilungen ist, zu finden, und dadurch in jeder Mitteilung in dem Cluster einen Ort des variablen Bereichs zu identifizieren, der als Variable zu verarbeiten ist. Nachfolgend wird hierin in den Mitteilungen ein Bereich, der zwischen Mitteilungen variabel ist, als variabler Abschnitt bezeichnet, und ein Abschnitt, der zwischen Mitteilungen nicht variabel ist, wird als fester Abschnitt bezeichnet.The identification unit for confidential data 210 has a message analysis unit 212 , a cluster forming unit 214 and a unit for searching a variable portion 216 on. The message analysis unit 212 has a parser configured to parse a log, and it is capable of similarities of messages in the log 126 by quantifying the messages with a template and sorting the messages in the order of similarities for the subsequent processes. The cluster forming unit 214 is configured to the Classify messages according to the similarities of messages in clusters. The unit for searching a variable section 216 is configured by comparing the averaging with each other to find a fixed portion that is a fixed and invariable range and a variable portion that is a variable range between messages in the messages contained in a given cluster, and thereby in each message in the message Cluster to identify a location of the variable area to process as a variable. Hereinafter, in the messages, a range variable between messages is referred to as a variable portion, and a portion that is not variable between messages is called a fixed portion.

Die Identifizierungseinheit für vertrauliche Daten 210 weist des Weiteren eine Attributbestimmungseinheit 218 und eine Attributschätzungseinheit 220 auf. Die Attributbestimmungseinheit 218 ist so konfiguriert, dass sie unter Bezugnahme auf eine Beurteilungsregel 224 vertraulichkeitsrelevante Attribute eines Wortes, einer Zeichenkette, von Codeinformationen beurteilt, die einen bestimmten regulären Ausdruck und Ähnliches aufweisen, die als variable Abschnitte in den Mitteilungen identifiziert worden sind. So führt die Attributbestimmungseinheit 218 beispielsweise eine Suche durch, um zu beurteilen, ob jedes von einem Wort, einer Zeichenkette und einem regulären Ausdruck in den als variable Abschnitte identifizierten Bereichen mit der Beurteilungsregel registriert ist. Wenn der variable Abschnitt, der beurteilt wird, mit der Beurteilungsregel als vertraulich registriert ist, wird solch ein variabler Abschnitt als ein Abschnitt markiert, der als vertrauliche Daten maskiert oder ersetzt werden muss.The identification unit for confidential data 210 further comprises an attribute determination unit 218 and an attribute estimation unit 220 on. The attribute determination unit 218 is configured to reference a rating rule 224 confidence-relevant attributes of a word, a string, judged by code information having a certain regular expression and the like which have been identified as variable portions in the messages. So leads the attribute determination unit 218 For example, a search is made to judge whether each of a word, a character string and a regular expression is registered in the areas identified as variable portions with the judgment rule. When the variable portion that is judged is registered as confidential with the judgment rule, such a variable portion is marked as a portion to be masked or replaced as confidential data.

Die Attributschätzungseinheit 220 ist so konfiguriert, dass sie die Vertraulichkeit von Variablen schätzt und beurteilt, die nicht mit der Beurteilungsregel 224 registriert sind. In einer ersten Ausführungsform der Schätzung und der Beurteilung schätzt die Attributschätzungseinheit 220 die Vertraulichkeit solcher Variablen auf eine Weise, dass eine Variable, die an demselben Ort in einer Mitteilung wie ein variabler Abschnitt erscheint, der gemäß der Beurteilungsregel 224 als vertraulich beurteilt wurde, dieselbe Vertraulichkeitsstufe wie der variable Abschnitt hat. Unterdessen wird in einer zweiten Ausführungsform der Schätzung und Beurteilung eine Vertraulichkeitsstufe eines variablen Abschnittes, der ein unbekanntes Attribut aufweist, gemäß einer Beziehung des gemeinsamen Auftretens zwischen einem variablen Abschnitt, der als vertraulich beurteilt ist und dem variablen Abschnitt, der ein unbekanntes Attribut aufweist, geschätzt.The attribute estimation unit 220 is configured to value and assess the confidentiality of variables that do not comply with the assessment rule 224 are registered. In a first embodiment of the estimation and the assessment, the attribute estimation unit estimates 220 the confidentiality of such variables in such a way that a variable appearing in the same place in a message as a variable portion, according to the judgment rule 224 was considered confidential, has the same level of confidentiality as the variable section. Meanwhile, in a second embodiment of the estimation and judgment, a confidentiality level of a variable portion having an unknown attribute is estimated according to a relationship of joint occurrence between a variable portion judged to be confidential and the variable portion having an unknown attribute ,

Die Attributschätzungseinheit 220 der Ausführungsform der vorliegenden Erfindung schätzt die Vertraulichkeitsstufe unter Verwendung von nicht nur der Beurteilungsregel 224 sondern auch eines Ergebnisses des Parsens einer Mitteilung. Dadurch ist die Attributschätzungseinheit 220 in der Lage, nicht nur ein Wort, eine Zeichenkette und einen regulären Ausdruck zu verarbeiten, die mit der Beurteilungsregel 224 registriert sind, sondern auch ein Wort, eine Zeichenkette und einen regulären Ausdruck, deren Vertraulichkeitsstufen nicht von der Beurteilungsregel 224 beurteilt werden können (diese werden im Folgenden in der Ausführungsform der vorliegenden Erfindung als unbekannter Abschnitt bezeichnet). Hierbei gilt zu beachten, dass in einer weiteren Ausführungsform die Attributschätzungseinheit 220 eine Datenbankfunktion zum Ausführen des, nach Bestimmen eines vertraulichen Attributs eines Wortes, einer Zeichenkette, einer numerischen Kette, von Codeinformationen oder Ähnlichem, die an einem Ort eines unbekannten Abschnittes erscheinen, dessen vertrauliches Attribut geschätzt werden soll, zusätzlichen Registrierens der auf diese Weise mit der Bewertungsregel 224 beurteilten Daten aufweist. Gemäß der vorstehend beschriebenen Ausführungsform ist die Identifizierungseinheit für vertrauliche Daten 210 auch in der Lage, die Datenverarbeitung der Beurteilung vertraulicher Daten zu rationalisieren, indem der Beurteilungsregel 224 gestattet wird, die Akkumulierung der Datenverarbeitung zu prüfen.The attribute estimation unit 220 The embodiment of the present invention estimates the level of confidentiality using not only the judgment rule 224 but also a result of parsing a message. This is the attribute estimation unit 220 being able to process not just a word, a string and a regular expression that complies with the assessment rule 224 but also a word, a string and a regular expression whose levels of confidentiality are not subject to the assessment rule 224 can be judged (these are hereinafter referred to as the unknown portion in the embodiment of the present invention). It should be noted that in a further embodiment, the attribute estimation unit 220 a database function of performing, after determining a confidential attribute of a word, a string, a numeric string, code information or the like, which appear at a location of an unknown portion whose confidential attribute is to be estimated, additionally registering with the valuation rule 224 assessed data. According to the embodiment described above, the confidential data identifying unit is 210 also able to streamline the data processing of the assessment of confidential data by the assessment rule 224 allowed to check the accumulation of data processing.

Die Darstellungsersetzungseinheit 230 ersetzt die ursprüngliche Darstellung eines variablen Abschnittes, der als vertraulich geschätzt oder beurteilt wurde, durch eine alternative Darstellung, wie beispielsweise ein alternatives Wort, eine Zeichenkette oder einen regulären Ausdruck, unter Beibehaltung der Semantik des variablen Abschnittes. Hier bedeutet „unter Beibehaltung der Semantik” das Auswählen eines Ersatzwortes, das die Bedeutung oder das Konzept hat, die oder das dem ursprünglichen Wort des variablen Abschnittes entspricht oder diesem ähnlich ist. In dem Fall eines persönlichen Namens wird beispielsweise „Alice” durch „Cathy” ersetzt, und „Bob” wird durch „David” ersetzt. Unterdessen wird ein regulärer Ausdruck einer IP-Adresse durch Codeinformationen ersetzt; so wird beispielsweise „192.168.1.1” durch „192.1.1.2” ersetzt, und „10.1.5.6” wird durch „167.5.7.8.” ersetzt. Ein Ortsname, ein Name eines charakteristischen Bauwerkes und andere variable Abschnitte werden ebenfalls durch dieselben oder ähnliche Ersatzwörter ersetzt.The presentation replacement unit 230 replaces the original representation of a variable portion that has been estimated as confidential by an alternative representation, such as an alternative word, string, or regular expression, while preserving the semantics of the variable portion. Here, "preserving the semantics" means selecting a replacement word having the meaning or concept that corresponds or is similar to the original word of the variable portion. For example, in the case of a personal name, "Alice" is replaced by "Cathy", and "Bob" is replaced by "David". Meanwhile, a regular expression of an IP address is replaced with code information; for example, "192.168.1.1" is replaced by "192.1.1.2", and "10.1.5.6" is replaced by "167.5.7.8.". A place name, a name of a characteristic building and other variable sections are also replaced by the same or similar replacement words.

Hierbei ist zu beachten, dass, wenn ein falscher Name und ein alternativer numerischer Wert verwendet werden, um eine eMail-Adresse und eine Port-Nummer zu ersetzen, die eMail-Adresse nach dem Ersetzen von einem Dritten verwendet werden könnte, und die Port-Nummer nach dem Ersetzen in der Tat von einem Server verwendet werden könnte; um dem beizukommen, kann die Ausführungsform der vorliegenden Erfindung, wenn Daten wie eine eMail-Adresse oder eine Port-Nummer ersetzt werden, die ursprünglichen Daten durch Zeichen, Sternchen, #-Zeichen oder andere geeignete Symbole mit Ausnahme von numerischen Werten ersetzen, während genügend Spurendaten gelassen werden, um zu schlussfolgern, dass die Daten nach dem Ersetzen ursprünglich eine eMail-Adresse oder eine Port-Nummer sind.Note that if an incorrect name and numeric value are used to replace an e-mail address and a port number, the e-mail address could be used after replacement by a third party, and the port number Number could indeed be used by a server after replacing; To cope with this, the embodiment of the present invention, when data such as e-mail address or a port number, replace the original data with characters, asterisks, # characters, or other appropriate symbols other than numeric values while leaving enough track data to conclude that the data is original after replacement an email address or port number.

Darüber hinaus kann jegliches beliebige Anonymisierungsverfahren und Verfahren zum Verstecken von Daten wie beispielsweise Verschlüsselung und andere Ersetzungsverfahren für das Ersetzen verwendet werden. Darüber hinaus wird es bei dem Ersetzen eines variablen Abschnittes bevorzugt, dasselbe Ersatzwort oder denselben Ersatzwert den variablen Abschnitten desselben Wortes oder des Ersatzwertes zuzuweisen, um die identischen Wörter in dem ursprünglichen Protokoll zu identifizieren.In addition, any anonymization method and method for hiding data such as encryption and other substitution methods may be used for replacement. Moreover, when replacing a variable portion, it is preferable to assign the same substitute word or substitute value to the variable portions of the same word or substitute value to identify the identical words in the original protocol.

Nachdem variable Abschnitte, die als vertraulich beurteilt wurden, durch die Darstellungsersetzungseinheit 230 ersetzt wurden, können die Daten nach dem Ersetzen als eine Datendatei ausgegeben werden, die als sicheres Protokoll 126a angezeigt wird. Das sichere Protokoll 126a, das von der Darstellungsersetzungseinheit 230 erstellt wurde, kann durch Senden des Protokolls über eine geeignete Ausgabeschnittstelle als Übertragungsmedium wie beispielsweise eine Datei oder durch Speichern des Protokolls in einem tragbaren Speichermedium wie beispielsweise einem Festplattenlaufwerk, einem USB-Speicher oder einer flexiblen Platte ausgegeben werden.After variable sections that were judged to be confidential, by the presentation replacement unit 230 After replacement, the data can be output as a data file as a secure log 126a is shown. The secure protocol 126a that from the presentation replacement unit 230 can be issued by sending the protocol via an appropriate output interface as a transmission medium such as a file or by storing the protocol in a portable storage medium such as a hard disk drive, a USB memory or a flexible disk.

Das auf diese Weise erstellte sichere Protokoll kann das Risiko des Verlusts von vertraulichen Daten mindern, selbst wenn externe Lieferanten zur Protokollanalyse auf das Protokoll zugreifen, oder wenn die Protokolldatei externen Parteien zur Verfügung gestellt wird. Dadurch werden die Erhöhung der Nutzbarkeit von Protokollen und die Verbesserung von Netzwerksystemen ermöglicht. Im Übrigen kann eine andere zuverlässige Anwendung für den Zugriff auf ein unbearbeitetes Protokoll verwendet werden, um sowohl Zugänglichkeit des Protokolls als auch Vertraulichkeit der Protokollanalyse sicherzustellen; dies ist jedoch nicht der Hauptinhalt der vorliegenden Anmeldung und wird demzufolge nicht ausführlich beschrieben.The secure protocol created in this way can reduce the risk of losing confidential data, even if external suppliers access the protocol for log analysis, or if the log file is made available to external parties. This makes it possible to increase the usability of protocols and to improve network systems. Incidentally, another reliable application can be used to access an unprocessed protocol to ensure both protocol accessibility and protocol analysis confidentiality; however, this is not the main content of the present application and will therefore not be described in detail.

3 zeigt ein Protokoll 300, das in der Ausführungsform der vorliegenden Erfindung analysiert werden soll. Das in 3 dargestellte Protokoll 300 weist einen persönlichen Namen 310, einen Städtenamen 320 und eine eMail-Adresse 330 auf. Des Weiteren weisen Mitteilungen, die in dem Protokoll 300 beispielhaft dargestellt sind, Login-Mitteilungen und eine Ortsangabe wie „Tokyo” und „Osaka” sowie Informationen zur eMail-Adressenaktualisierung auf, die bestimmten persönlichen Namen zugeordnet sind. Des Weiteren weist das Protokoll 300 „Sachiko” 340 auf, bei dem es sich um eine Zeichenkette handelt, die wahrscheinlich ein japanischer Name ist. Aufgrund der Verschiedenartigkeit von Typen von Protokollen und der Programmierarbeit, die zum Erstellen der Beurteilungsregel 224 erforderlich ist, ist es unrealistisch für die Beurteilungsregel 224, alle persönlichen Daten, Daten, die möglicherweise persönliche Daten sind und Daten, die in Zusammenhang mit den persönlichen Daten vertraulich sein sollten, aufzuweisen. 3 shows a log 300 to be analyzed in the embodiment of the present invention. This in 3 illustrated protocol 300 has a personal name 310 , a city name 320 and an email address 330 on. Furthermore, notifications contained in the protocol 300 by way of example, login messages and a location such as "Tokyo" and "Osaka" as well as information on email address updating associated with particular personal names. Furthermore, the protocol indicates 300 "Sachiko" 340 which is a string that is probably a Japanese name. Due to the diversity of types of protocols and the programming work involved in creating the assessment rule 224 is necessary, it is unrealistic for the appraisal rule 224 any personal data, data that may be personal information and data that should be confidential in relation to the personal information.

Darüber hinaus könnte, ungeachtet dessen, wie viele Wörter mit der Beurteilungsregel 224 registriert sind, beispielsweise die Zeichenkette „Sachiko”, bei der es sich wahrscheinlich um einen japanischen Namen handelt, als ein unbekannter Abschnitt klassifiziert werden, dessen Vertraulichkeitsstufe unbekannt ist, wenn nur westliche Namen, wie beispielsweise „Alice” 310 und „Bob” mit der Beurteilungsregel registriert sind. Dementsprechend kann die bloße Verwendung der Beurteilungsregel nicht garantieren, dass alle vertraulichen Daten in dem Protokoll erfasst werden. Die Ausführungsform der vorliegenden Erfindung verbessert die Erfassung der Vertraulichkeit des Protokolls 300 durch Schätzen der Vertraulichkeitsstufe des unbekannten Abschnittes durch eine Mitteilungsstrukturanalyse.In addition, regardless of how many words with the appraisal rule 224 For example, if the string "Sachiko", which is probably a Japanese name, is classified as an unknown section whose confidentiality level is unknown, if only Western names such as "Alice" are registered. 310 and "Bob" are registered with the appraisal rule. Accordingly, the mere use of the assessment rule can not guarantee that all confidential data will be recorded in the log. The embodiment of the present invention improves the detection of the confidentiality of the protocol 300 by estimating the level of confidentiality of the unknown section by a message structure analysis.

4 zeigt eine Liste mit variablen Abschnitten wie beispielsweise Wörtern, Zeichenketten und regulären Ausdrücken, die mit der Beurteilungsregel 224 der Ausführungsform der vorliegenden Erfindung registriert sind. In der Beurteilungsregel 224 wird jede Aufzeichnung eines variablen Abschnittes Feldern zugeordnet, d. h. Attributen und einer Darstellung eines Bereiches, wie beispielsweise ein Wort, eine Zeichenkette oder ein regulärer Ausdruck. Das Attribut ist eine Kategorie, die der Semantik des variablen Abschnittes entspricht. Ein Ersatzwort für einen bestimmten variablen Abschnitt kann basierend auf der Kategorie des variablen Abschnittes ausgewählt werden. Eine IP-Adresse wird unter Verwendung eines regulären Ausdruckes geschrieben. So kann eine IP-Adresse beispielsweise durch eine andere private Adresse, die teilweise die ursprüngliche IP-Adresse aufweist, ersetzt werden. 4 shows a list of variable sections such as words, strings, and regular expressions that match the assessment rule 224 registered in the embodiment of the present invention. In the assessment rule 224 For example, each record of a variable portion is assigned to fields, ie, attributes and a representation of a range, such as a word, a string, or a regular expression. The attribute is a category that corresponds to the semantics of the variable section. A replacement word for a particular variable section may be selected based on the category of the variable section. An IP address is written using a regular expression. For example, an IP address may be replaced by another private address, some of which has the original IP address.

Die Liste in 4 weist des Weiteren eine eMail-Adresse als Attribut auf. Beim Ersetzen der eMail-Adresse kann ein Ersatzwort durch bloßes zufälliges Ersetzen einer Zeichenkette links von der „@”-Markierung eine eMail-Adresse sein, die tatsächlich verwendet wird; demzufolge kann die eMail-Adresse anonymisiert werden, indem die Zeichenkette durch „*” (Sternchen) oder „!” (Ausrufezeichen) auf eine Weise ersetzt wird, dass das Ersatzwort als eine eMail-Adresse erkannt werden kann.The list in 4 also has an eMail address as an attribute. When replacing the e-mail address, a replacement word can be an e-mail address that is actually used merely by accidentally replacing a string to the left of the "@"mark; consequently, the e-mail address can be anonymized by replacing the string with "*" (asterisk) or "!" (exclamation mark) in a way that the replacement word can be recognized as an e-mail address.

Des Weiteren kann auch eine nicht-vertrauliche Mitteilung mit der Beurteilungsregel 224 registriert werden. Die nicht-vertrauliche Mitteilung stellt keine essentiellen Daten für die Beurteilungsregel 224 dar, kann jedoch registriert werden, um das Parsen durch einen Parser zu rationalisieren. Furthermore, a non-confidential message with the appraisal rule can also be used 224 be registered. The non-confidential message does not provide any essential data for the assessment rule 224 However, it can be registered to streamline parsing by a parser.

Die Datenverarbeitung zur Identifizierung vertraulicher Daten und die Datenverarbeitung zur Erstellung eines sicheren Protokolls gemäß der Ausführungsform der vorliegenden Erfindung werden unter Verwendung eines Flussdiagramms und von Datenformaten der Protokollanalyse von 5 beschrieben. Die Datenverarbeitung von 5 beginnt in Schritt S500. In Schritt S501 liest die Mitteilungsanalysiereinheit 212 Protokolldaten je Mitteilung, unterteilt die Protokolldaten in Mitteilungen und berechnet einen Bearbeitungsabstand pro Mitteilung. In Schritt S502 werden die Mitteilungen gemäß Ähnlichkeiten der Mitteilungen unter Verwendung der berechneten Bearbeitungsabstände sortiert. Eine Mitteilungsstruktur 510, die in Schritt S502 erhalten wird, wird durch Sortieren der Mitteilungen entsprechend der Ähnlichkeiten der Mitteilungen erstellt, die basierend auf den Bearbeitungsabständen der Mitteilungen bestimmt wurden. In der Ausführungsform von 5 werden Benutzerprofil-Aktualisierungsmitteilungen und Login-Mitteilungen aufgrund fehlender Ähnlichkeit als unterschiedliche Arten von Mitteilungen erkannt. In der Mitteilungsstruktur 510 werden die variablen Abschnitte in den Mitteilungen 512 und 514 veranschaulicht, und Zeichenketten „Benutzerprofil für” und „wird aktualisiert” sind feste Abschnitte.The confidential data identification data processing and the secure protocol preparation data processing according to the embodiment of the present invention are described using a flowchart and data formats of the protocol analysis of FIG 5 described. The data processing of 5 begins in step S500. In step S501, the message analyzing unit reads 212 Log data per message, divides the log data into messages and calculates a processing distance per message. In step S502, the messages are sorted according to similarities of the messages using the calculated processing intervals. A message structure 510 obtained in step S502 is prepared by sorting the messages according to the similarities of the messages determined based on the processing intervals of the messages. In the embodiment of 5 For example, user profile update messages and login messages are recognized as different types of messages due to lack of similarity. In the message structure 510 become the variable sections in the messages 512 and 514 and "user profile for" and "updating" strings are fixed sections.

Genauer gesagt, handelt es sich bei dem Wort „Alice”, das zwischen die Sätze „Benutzerprofil für” und „wird aktualisiert” geschoben wird, um einen persönlichen Namen, und die Wörter „Tokyo” und „alice@foo.com” sind jeweils eine Stadt und eine eMail-Adresse. Diese werden zusammen mit ihren variablen Namen als variable Abschnitte identifiziert. Wie dies anhand der Mitteilungsstruktur 510 ersichtlich ist, weisen die Mitteilungen hoher Ähnlichkeit die variablen Abschnitte auf, die in ihrer Satzstruktur in derselben Reihenfolge erscheinen.More specifically, the word "Alice" pushed between the sentences "User Profile for" and "Being Updated" is a personal name, and the words "Tokyo" and "alice@foo.com" are respectively a city and an email address. These are identified together with their variable names as variable sections. Like this, based on the message structure 510 As can be seen, the high-similarity messages have the variable portions which appear in their sentence structure in the same order.

Unter erneuter Bezugnahme auf das Flussdiagramm gruppiert in Schritt S503 die Cluster bildende Einheit 214 die sortierten Mitteilungen in Cluster entsprechend den Ähnlichkeiten der Mitteilungen, die anhand der Bearbeitungsabstände bestimmt wurden. Das Bilden der Cluster wird in Abhängigkeit davon durchgeführt, wie genau die Mitteilungen in der Reihenfolge ihrer Ähnlichkeit durch das Sortieren in Rangfolge gebracht werden, und ist demzufolge auch nicht unbedingt notwendig; dennoch kann das Erkennen von variablen Abschnitten und festen Abschnitten auf einer Cluster-Basis dafür sorgen, dass die variablen Abschnitte besser erkennbar sind und dass die variablen Abschnitte genauer erkannt werden. 5 zeigt eine Cluster-Struktur 520, die durch Clusterbildung der Mitteilungsstruktur 510 in Schritt S503 erstellt wurde. In der beschriebenen Ausführungsform werden ein Cluster, der die Benutzerprofil-Aktualisierungsmitteilung aufweist und ein Cluster, der die Login-Mitteilungen aufweist, identifiziert.Referring again to the flowchart, the cluster forming unit groups in step S503 214 the sorted messages in clusters according to the similarities of messages determined by the processing intervals. The formation of the clusters is performed depending on how exactly the messages are ranked by the sorting in the order of their similarity, and therefore is not necessarily necessary; however, recognizing variable sections and fixed sections on a cluster basis can make the variable sections more recognizable and more accurately recognize the variable sections. 5 shows a cluster structure 520 by clustering the message structure 510 was created in step S503. In the described embodiment, a cluster having the user profile update message and a cluster having the login messages are identified.

Des Weiteren wird in Schritt S503 die Struktur der festen Abschnitte und der variablen Abschnitte in den Mitteilungen, die jeden Cluster bilden, als eine Vorlagen-Struktur 530 registriert. Genauer gesagt, wird eine Vorlage zum Zuordnen der Orte der variablen Abschnitte, d. h. Variable in jeder Mitteilung in demselben Cluster, erstellt und an einem geeigneten Arbeitsspeicherplatz gespeichert. Zu diesem Zeitpunkt kann der Cluster aus Mitteilungen beispielsweise als [Cluster-Identifikationswert, Bearbeitungsabstand, Vorlagen-Identifikationswert] indexiert werden, und der Cluster-Index kann in einem geeigneten Speicherbereich der Beurteilungsregel 224 registriert werden.Further, in step S503, the structure of the fixed portions and the variable portions in the messages forming each cluster becomes a template structure 530 registered. More specifically, a template for associating the locations of the variable sections, ie, variables in each message in the same cluster, is created and stored in a suitable working memory space. At this time, for example, the cluster of messages may be indexed as [cluster identification value, processing distance, template identification value], and the cluster index may be in a suitable memory area of the judgment rule 224 be registered.

Die Vorlagenstruktur kann mit jeder Ausführung der Protokoll-Datenverarbeitung erstellt werden. Da jedoch ähnliche Mitteilungen in vielen Fällen anhand einer Serverfunktionseinheit 120 erzeugt werden könnten, kann die Vorlagenstruktur auf folgende Weise ausgeführt sein. Genauer gesagt wird, sobald ein Cluster-Index erstellt ist, die Vorlagenstruktur mit der Beurteilungsregel 224 als Mitteilungsvorlagen im Zusammenhang mit Cluster-Identifikationswerten registriert. Bei dem Laden einer zu verarbeitenden Mitteilung wird ein Cluster, in dem die Mitteilung zu klassifizieren ist, anhand des Bearbeitungsabstandes der Mitteilung identifiziert, und es wird unmittelbar unter Verwendung der identifizierten Cluster eine Vertraulichkeitsstufe eines variablen Abschnittes in der Mitteilung bewertet.The template structure can be created with each execution of the log data processing. However, because similar messages in many cases based on a server functional unit 120 could be generated, the template structure can be carried out in the following manner. More specifically, as soon as a cluster index is created, the template structure with the judgment rule 224 registered as message templates in connection with cluster identification values. When loading a message to be processed, a cluster in which the message is to be classified is identified based on the processing distance of the message, and a confidentiality level of a variable portion in the message is immediately evaluated using the identified clusters.

In der in 5 dargestellten Vorlagenstruktur 530 wird jeder variable Abschnitt als „<?>;” dargestellt, jedoch ist solch eine Darstellung des variablen Abschnittes in der Vorlagenstruktur 530 von 5 lediglich ein Beispiel und bedeutet nicht, dass jeder variabler Abschnitt durch ein Merkmal eines strukturierten Dokumentes identifiziert wird. Die Einheit zum Suchen variabler Abschnitte 216 ist so konfiguriert, dass sie variable Abschnitte in der Vorlage identifiziert und ein Verfahren zum Identifizieren der variablen Abschnitte je nach Bedarf über das Programmieren eines bestimmten Ziels auswählen kann, wie beispielsweise die Verwendung einer Anzahl von Wörtern oder die Anzahl von Leerzeichen ab Beginn einer Mitteilung, oder das Finden eines doppelten Anführungszeichens, das zum Identifizieren einer Variable verwendet wird. In Schritt S504 werden die identifizierten variablen Abschnitte als Suchschlüssel zur Überprüfung mit der Beurteilungsregel 224 gesetzt, und die Datenverarbeitung geht in die nächste Datenverarbeitung von Punkt A über.In the in 5 illustrated template structure 530 For example, each variable portion is represented as "<?>;", but such a representation of the variable portion is in the template structure 530 from 5 merely an example and does not mean that each variable section is identified by a feature of a structured document. The unit for searching variable sections 216 is configured to identify variable portions in the template and to select a method of identifying the variable portions as needed by programming a particular destination, such as the use of a number of words or the number of spaces from the beginning of a message; or finding a double quotation mark used to identify a variable. In step S504, the identified variable portions are used as a search key for checking with the judgment rule 224 set, and the data processing goes to the next data processing from point A.

6 ist ein Flussdiagramm der Datenverarbeitung nach der Datenverarbeitung von 5. In 6 wird in Schritt S601 eine Vertraulichkeitsstufe eines jeden variablen Abschnittes beurteilt, indem der Attributbestimmungseinheit 218 gestattet wird, die Beurteilungsregel 224 zu durchsuchen. Anschließend wird in Schritt S602 die durch die Suche erhaltene Vertraulichkeitsstufe der entsprechenden Vorlage zugeordnet, wenn die Vertraulichkeitsstufe für variable Abschnitte, die sich an derselben Position wie der variable Abschnitt befindet, beurteilt wird. Die Vertraulichkeitsstufe kann der Vorlage als ein strukturiertes Dokument wie beispielsweise ein XML durch Parsen und Umwandeln der Vorlage in eine aus Ebenen gebildete Struktur aus Wort/Zeichenkette/regulärem Ausdruck, oder noch einfacher, durch Registrieren der Vertraulichkeitsstufe in einer Tabelle, die eine Struktur aus beispielsweise [Vorlagen-Identifikationswert, die Anzahl an Wörtern ab Beginn, vertraulich, die Anzahl an Wörtern ab Beginn, nicht-vertraulich, die Anzahl an Wörtern ab Beginn, vertraulich] aufweist, zugeordnet werden. 6 is a flowchart of the data processing of the data processing of 5 , In 6 In step S601, a confidentiality level of each variable portion is judged by the attribute determination unit 218 is allowed, the assessment rule 224 to browse. Subsequently, in step S602, the confidentiality level obtained by the search is assigned to the corresponding original when the variable-portion confidentiality level located at the same position as the variable portion is judged. The level of confidentiality may be to template as a structured document such as an XML by parsing and converting the template into a layered structure of word / string / regular expression, or more simply, by registering the level of confidentiality in a table constituting a structure of, for example [Template identification value, the number of words from the beginning, confidential, the number of words from the beginning, non-confidential, the number of words from the beginning, confidentially] assigned.

6 zeigt ein Ergebnis der Beurteilung einer Vertraulichkeitsstufe eines jeden variablen Abschnittes durch die Attributbestimmungseinheit 218 unter Verwendung von Vorlagen. In einer Mitteilungsstruktur 610 wurden die Wörter „Alice” und „Bob” nach der Zeichenkette „Benutzerprofil für” bereits mit der Beurteilungsregel registriert, und sind demzufolge als vertraulich beurteilt. Auf der anderen Seite wurde das Wort „Sachiko” in der beschriebenen Ausführungsform noch nicht mit der Beurteilungsregel 224 registriert, und dementsprechend sendet die Attributbestimmungseinheit 218 einen Wert „falsch” als Suchergebnis zurück. 6 shows a result of judgment of a confidentiality level of each variable portion by the attribute determination unit 218 using templates. In a message structure 610 For example, the words "Alice" and "Bob" after the string "User profile for" have already been registered with the assessment rule, and are therefore judged to be confidential. On the other hand, in the described embodiment, the word "Sachiko" has not yet been judged by the judgment rule 224 registered, and accordingly, the attribute determination unit sends 218 return a value "false" as the search result.

Dasselbe trifft auf Login-Mitteilungen zu. Gibt die Attributbestimmungseinheit 218 in Schritt S602 einen Wert = falsch zurück, ruft die Einheit zum Erstellen eines sicheren Protokolls 200 die Attributschätzungseinheit 220 auf. In Schritt S603 beurteilt und findet die Attributschätzungseinheit 220 einen Ort in der entsprechenden Vorlage des variablen Abschnittes, dessen vertrauliches Attribut unbekannt ist. Anschließend stellt die Attributschätzungseinheit 220 die Vertraulichkeitsstufe ein, die dem gefundenen Erscheinungsort der Vorlage zugewiesen wird, als eine Vertraulichkeitsstufe, die von der Attributbestimmungseinheit 218 zugewiesen werden soll. Die auf diese Weise gesetzte Vertraulichkeitsstufe wird zur Datenverarbeitung der Darstellungsersetzungseinheit 230 verwendet, die zu einem späteren Zeitpunkt beschrieben wird. Die vorstehende Datenverarbeitung wird unter Verwendung einer Vorlagestruktur 620 beschrieben.The same applies to login messages. Returns the attribute determination unit 218 In step S602, a value = false returns the unit to create a secure protocol 200 the attribute estimation unit 220 on. In step S603, the attribute estimating unit judges and finds 220 a location in the corresponding template of the variable section whose confidential attribute is unknown. Subsequently, the attribute estimation unit presents 220 the level of confidentiality assigned to the found appearance of the template as a level of confidentiality that is determined by the attribute determination unit 218 should be assigned. The confidentiality level set in this way becomes the data processing of the presentation replacement unit 230 which will be described later. The above data processing is done using a template structure 620 described.

In einer Benutzerprofil-Aktualisierungsvorlage in der Vorlagestruktur 620 wurde der Ort des variablen Abschnittes, der als <rot> dargestellt ist, bereits als vertrauliches Attribut registriert. Wenn dementsprechend ein unbekannter Abschnitt an dem Ort von <rot> erscheint, kann ein vertrauliches Attribut des unbekannten Abschnittes als vertraulich gesetzt werden. Auf ähnliche Weise wird ein vertrauliches Attribut eines unbekannten Abschnittes, der an einem Ort erscheint, der als <rot> beispielsweise in einer Login-Vorlage erscheint, als vertraulich gesetzt.In a user profile update template in the template tree 620 For example, the location of the variable portion shown as <red> has already been registered as a confidential attribute. Accordingly, when an unknown section appears at the location of <red>, a confidential attribute of the unknown section may be set as confidential. Similarly, a confidential attribute of an unknown section that appears in a location that appears as <red> in, for example, a login template is set as confidential.

Des Weiteren führt in Schritt S604 die Attributschätzungseinheit 220 die Datenverarbeitung zur Schätzung der Vertraulichkeitsstufe an einem variablen Abschnitt durch, der an einem nicht vorgeschriebenen Ort einer Mitteilung erscheint, unter Verwendung von Informationen, mit Ausnahme solcher wie Erscheinungsort. Bei der Datenverarbeitung zur Schätzung der Vertraulichkeitsstufe wird ein vertrauliches Attribut eines unbekannten Abschnittes, der an einem nicht vorgeschriebenen Ort einer Mitteilung erscheint, unter Verwendung des Vorhandenseins oder des Nicht-Vorhandenseins eines vertraulichen Abschnittes in der Mitteilung oder einer Beziehung des gemeinsamen Auftretens zwischen dem unbekannten Abschnitt und dem vertraulichen Abschnitt geschätzt. Die Datenverarbeitung zur Schätzung der Vertraulichkeitsstufe wird im späteren Verlauf ausführlicher beschrieben. Nach der Datenverarbeitung von Schritt S604 aktualisiert die Attributschätzungseinheit 220 in Schritt S605 die Einstellung der Vertraulichkeitsstufe des variablen Abschnittes in der Vorlage, dessen Vertraulichkeitsstufe unbekannt ist, und gibt anschließend die Datenverarbeitung weiter an die Darstellungsersetzungseinheit 230. In Schritt S606 ersetzt die Darstellungsersetzungseinheit 230 den variablen Abschnitt durch eine variable Darstellung mit Bezug auf die Beurteilungsregel 224, um ein sicheres Protokoll 126a zu erstellen. Anschließend wird in Schritt S607 das sichere Protokoll 126a über eine geeignete Ausgabeschnittselle ausgegeben, so dass es von einer anderen Einheit erreichbar ist, und die Datenverarbeitung endet.Further, in step S604, the attribute estimation unit 220 performing the data processing for estimating the level of confidentiality at a variable portion appearing at a non-prescribed location of a message using information other than appearance location. In the data processing for estimating the confidentiality level, a confidential attribute of an unknown portion appearing at a non-prescribed place of notice is used by the presence or absence of a confidential portion in the message or a relationship of the common occurrence between the unknown portion and the confidential section. The data processing for estimating the level of confidentiality will be described in more detail later. After the data processing of step S604, the attribute estimation unit updates 220 in step S605, the setting of the confidentiality level of the variable portion in the template whose confidentiality level is unknown, and then passes the data processing to the presentation replacement unit 230 , In step S606, the display replacement unit replaces 230 the variable portion by a variable representation with respect to the judgment rule 224 to get a secure log 126a to create. Subsequently, in step S607, the secure protocol 126a outputted via an appropriate output slot so that it can be reached by another unit, and the data processing ends.

7 ist ein Flussdiagramm der Datenverarbeitung zur Schätzung der Vertraulichkeitsstufe, die in Bezug auf 6 beschrieben ist. Die Datenverarbeitung zur Schätzung der Vertraulichkeitsstufe wird durch die Einheit zum Erstellen eines sicheren Protokolls 200, die in 2 dargestellt ist, ausgeführt, um eine Vertraulichkeitsstufe eines variablen Abschnittes an einem nicht vorgegebenen Ort zu schätzen, der in einer Mitteilung enthalten sein kann. Das Verfahren zum Identifizieren vertraulicher Daten der Ausführungsform der vorliegenden Erfindung weist zwei Ausführungsformen des Schätzens einer Vertraulichkeitsstufe auf. Ein erstes Schätzungsverfahren verwendet das Vorhandensein oder Nicht-Vorhandensein eines vertraulichen Abschnittes in einer Mitteilung (die Schritte S604-S700-S605), und ein zweites Schätzungsverfahren schlussfolgert effektiv ein vertrauliches Attribut eines unbekannten Abschnittes in einer Mitteilung unter Verwendung einer Beziehung des gemeinsamen Ortes zwischen einem vertraulichen Abschnitt und dem unbekannten Abschnitt (die Schritte S600-S710-S-711-S712-S605). Gemäß den vorliegenden Ausführungsformen bedeutet der Begriff „Beziehung des gemeinsamen Ortes”, dass zwei oder mehrere variable Abschnittswerte zur selben Zeit in den variablen Abschnitten derselben Mitteilung erscheinen. Darüber hinaus bedeutet der Begriff „Häufigkeit des gemeinsamen Ortes”, die Häufigkeit eines bestimmten Satzes an Werten eines variablen Abschnittes, die zur selben Zeit in der Mitteilung erscheinen. 7 is a flowchart of data processing to estimate the level of confidentiality related to 6 is described. Confidentiality level estimation processing is performed by the secure protocol creation unit 200 , in the 2 is executed to estimate a confidentiality level of a variable portion at a non-predetermined location, which may be included in a message. The method for identifying confidential data of the embodiment of the present invention includes two embodiments of estimating a level of confidentiality. A first estimation method uses the presence or absence of a confidential portion in a message (steps S604-S700-S605), and a second estimation method effectively infers a confidential attribute of an unknown portion in a message using a relationship of the common location between a confidential section and the unknown section (the steps S600-S710-S-711-S712-S605). According to the present embodiments, the term "common location relationship" means that two or more variable section values appear at the same time in the variable sections of the same message. Moreover, the term "common location frequency" means the frequency of a particular set of values of a variable section appearing at the same time in the message.

Genauer gesagt sei beispielsweise angenommen, dass ein individueller Name und ein bestimmtes Datum zur gleichen Zeit an den verschiedenen variablen Abschnitten in derselben Mitteilung erscheinen. Der individuelle Name ist der vertrauliche Abschnitt mit einer hohen Vertraulichkeitsstufe, und das bestimmte Datum, das direkt dahinter erscheint, könnte eine besondere Bedeutung für die Einzelperson haben, wie beispielsweise das Geburtsdatum der Einzelperson. Es ist vernünftig anzunehmen, dass der Geburtstag der Einzelperson identifiziert werden könnte, wenn solch ein gemeinsames Erscheinen auftritt, da die Wahrscheinlichkeit des gemeinsamen Auftretens der Variablen für unterschiedliche Einzelpersonen extrem niedrig sein sollte {(Wahrscheinlichkeit desselben Namens für andere Einzelperson)·(Wahrscheinlichkeit desselben Geburtstages für andere Einzelperson)}. Das heißt, von einem variablen Abschnitt, der zur gleichen Zeit in derselben Mitteilung erscheint, kann mit gutem Grund geschätzt werden, dass dieser „vertraulich” ist, selbst wenn sein vertrauliches Attribut unbekannt ist.More specifically, for example, assume that an individual name and a specific date appear at the same time on the various variable portions in the same message. The individual name is the confidential section with a high level of confidentiality, and the specific date that appears directly behind it could have a special meaning for the individual, such as the date of birth of the individual. It is reasonable to assume that the individual's birthday could be identified when such a joint show occurs, since the likelihood of the common occurrence of variables for different individuals should be extremely low {(probability of the same name for other individual) · (probability of the same birthday for other individual)}. That is, a variable portion appearing at the same time in the same message can be reasonably estimated to be "confidential," even if its confidential attribute is unknown.

Wenn dementsprechend die Vertraulichkeitsstufe unter Verwendung der Beziehung des gemeinsamen Auftretens in den vorliegenden Ausführungsformen geschätzt wird, wird die Vertraulichkeitsstufe von unbekannten Teilen unter Verwendung der Häufigkeit des gemeinsamen Auftretens basierend auf dem vertraulichen Teil und durch Setzen der Bedingung für die Häufigkeit des gemeinsamen Auftretens geschätzt. Die Bedingung kann dementsprechend eine bestimmte logische Bedingung über die Häufigkeit des gemeinsamen Auftretens sein.Accordingly, when the confidentiality level is estimated using the joint occurrence relationship in the present embodiments, the confidentiality level of unknown parts is estimated by using the frequency of joint occurrence based on the confidential part and setting the common occurrence frequency condition. The condition can accordingly be a certain logical condition about the frequency of the common occurrence.

Unter Bezugnahme auf 7 wird die vorliegende Ausführungsform der Datenverarbeitung zur Schätzung der Vertraulichkeitsstufe ausführlich beschrieben. Die Datenverarbeitung zur Schätzung der Vertraulichkeitsstufe startet, wenn die Verarbeitung von Schritt S603 weitergegeben wird. In der ersten Ausführungsform wird die Häufigkeit des gemeinsamen Auftretens für jede Mitteilungseinheit in Schritt S700 bestimmt. Liegt der vertrauliche Abschnitt vor, werden die in der Mitteilung vorhandenen variablen Abschnitte gemeinsam als vertraulich gesetzt, und anschließend geht die Datenverarbeitung in Schritt S605 über.With reference to 7 For example, the present embodiment of the data processing for estimating the level of confidentiality will be described in detail. The data processing for estimating the confidentiality level starts when the processing of step S603 is passed. In the first embodiment, the occurrence frequency of each notification unit is determined in step S700. If the confidential section is present, the variable sections existing in the message are set as confidential together, and then the data processing proceeds to step S605.

Im Folgenden wird die zweite Ausführungsform erläutert. In der zweiten Ausführungsform werden in Schritt S710 die in der Mitteilung enthaltenen variablen Abschnitte aus der Mitteilung aufgelistet. In Schritt S711 werden die variablen Abschnitte, die gemeinsam auftreten, mit den variablen Abschnitten, die gemäß denselben Eigenschaften innerhalb des Protokolls kategorisiert sind, aufgelistet; es werden die Häufigkeiten des gemeinsamen Auftretens berechnet und anschließend werden sie den variablen Abschnitten zugewiesen.In the following, the second embodiment will be explained. In the second embodiment, in step S710, the variable portions included in the message are listed from the message. In step S711, the variable portions which occur together are listed with the variable portions categorized according to the same characteristics within the protocol; the frequencies of the common occurrence are calculated and then assigned to the variable sections.

In Schritt S712 kann von dem aktuell bestimmten unbekannten variablen Abschnitt geschätzt werden, dass er vertraulich ist, wenn die Häufigkeiten des gemeinsamen Auftretens zwischen einer Zeichenkette in dem vertraulichen Abschnitt (A) und einer Zeichenkette in dem variablen Abschnitt (B), dessen Vertraulichkeitsstufe unbekannt ist, nicht weniger betragen als ein bestimmter Schwellenwert von TH1, und gleichzeitig die Häufigkeiten des gemeinsamen Auftretens zwischen der Zeichenkette in dem variablen Abschnitt (B) und der Zeichenkette mit Ausnahme derer in dem vertraulichen Abschnitt (A mit Strich oben) nicht mehr als der Schwellenwert TH2 betragen. Der Grund für die Annahme der entsprechenden Datenverarbeitung aufgrund der vorstehenden logischen Bedingung besteht beispielsweise darin, dass, wenn der Wert des variablen Abschnittes ein individueller Name ist, bei dem es sich um vertrauliche Daten handelt, die Zeichenketten (beispielsweise Geburtstag, eMail-Adresse, Passwort der Einzelperson), die in großer Häufigkeit zusammen mit dem individuellen Namen auftauchen, als vertraulich erachtet werden sollten.In step S712, the currently determined unknown variable portion may be estimated to be confidential if the frequencies of co-occurrence between a character string in the confidential portion (A) and a character string in the variable portion (B) whose confidentiality level is unknown are not less than a certain threshold of TH1, and at the same time, the frequencies of co-occurrence between the character string in the variable portion (B) and the character string except those in the confidential portion (A with the upper-line) are not more than the threshold value TH2 be. The reason for assuming the corresponding data processing based on the above logical condition is, for example, that if the value of the variable portion is an individual name that is confidential data, the strings (eg, birthday, e-mail address, password of the individual), which appear in large numbers together with the individual name, should be considered confidential.

7 zeigt beispielhafte Bedingungen, die für die Schätzung der Vertraulichkeitsstufe auf Basis der Häufigkeit des gemeinsamen Auftretens verwendet werden sollten. Die Bedingung 730 kann so in der ersten Ausführungsform verwendet werden, dass die variablen Abschnitte, die gemeinsam mit dem vertraulichen Abschnitt auftreten, vertraulich sind. Bei der Bedingung 730 wird von der Zeichenkette „Tokyo” und der eMail-Adresse „alice@foo.com”, die gemeinsam mit dem individuellen Namen „Alice” auftreten, geschätzt, dass sie ein variabler Bestandteil mit einer hohen Vertraulichkeitsstufe sind. Darüber hinaus ist die Bedingung 740 die Bedingung, die in Schritt S712 der zweiten Ausführungsform verwendet wird. 7 shows exemplary conditions that should be used to estimate the level of confidentiality based on the frequency of co-occurrence. The condition 730 Thus, in the first embodiment, it may be used that the variable portions that occur along with the confidential portion are confidential. At the condition 730 For example, the string "Tokyo" and the email address "alice@foo.com", together with the individual name "Alice", are estimated to be a variable component with a high level of confidentiality. In addition, the condition 740 the condition used in step S712 of the second embodiment.

Abgesehen davon ermöglicht die Bedingung 740 das Durchführen der Vertraulichkeitsschätzung auf genauere Weise basierend auf der Beziehung der vertraulichen Abschnitte zu unbekannten Abschnitte, während eine Vielzahl von Bestimmungen gleichzeitig auftreten müssen. Jede der vorstehend erwähnten Bestimmungsbedingungen kann je nach Typ der Protokolle und Aufgaben an der Datenverarbeitungsvorrichtung ausgeführt werden.Apart from that, the condition allows 740 making the confidentiality estimation more accurate based on the relationship of the confidential sections to unknown sections, while a plurality of determinations must occur simultaneously. Each of the above mentioned conditions of determination may be performed on the data processing device depending on the type of protocols and tasks.

Der Fall, der die Beurteilung wie beispielsweise die Bedingung 740 erfordert, weist die folgenden Fälle auf: das heißt, ein Teil der Zeichenkette, die zusammen mit einem vertraulichen variablen Abschnitt bei einer hohen Häufigkeit des gemeinsamen Auftretens erscheint, kann ein sehr übliches Wort sein, das auch in anderen Mitteilungen erscheint. So kann zum Beispiel der Name des Landes, in dem die Person lebt, zusammen mit dem Namen der Person mit einer hohen Häufigkeit des gemeinsamen Auftretens erscheinen, derselbe Landesname kann jedoch auch zusammen mit dem Namen vieler anderer Menschen auftreten, da sie auch in demselben Land leben. In solch einem Fall besteht kein großer Bedarf, den Landesnamen zu ersetzen, da er nicht streng vertraulich ist (d. h. in Anbetracht der großen Bevölkerungszahl in einem Land ist die Person nicht so leicht in dem Land zu identifizieren, und demzufolge gibt der Landesname nicht viel Privates über die Person preis.) Der Landesname erscheint in diesem Beispiel nicht nur mit dem bestimmten individuellen Namen „A”, sondern erscheint gleichzeitig auch mit einer Menge an individuellen Namen, abgesehen von „A”, auf das in dem „A” mit Strich oben verwiesen wurde, so dass von dem Landesnamen in diesem Beispiel geschätzt werden kann, dass er nicht vertraulich ist.The case of the judgment such as the condition 740 requires that the following cases occur: that is, a part of the string that appears along with a confidential variable portion at a high frequency of co-occurrence may be a very common word that also appears in other messages. For example, the name of the country in which the person lives may appear together with the name of the person having a high frequency of common occurrence, but the same country name may also appear along with the name of many other people since they are also in the same country Life. In such a case, there is no great need to replace the country name because it is not strictly confidential (ie, given the large population in a country, the person is not so easy to identify in the country, and thus the country name does not give much privacy over the person price.) The country name appears in this example not only with the specific individual name "A", but appears at the same time with a set of individual names, except for "A", on the "A" with a dash above has been referenced so that the country name in this example can be estimated to be non-confidential.

Alternativ dazu wird gemäß einer weiteren Ausführungsform die vorstehende Obergrenze wie erforderlich und auf eine Weise gesetzt, dass eine Vertraulichkeitsstufe auf geeignete Weise gemäß einem bestimmten Zweck gegeben werden kann, wodurch eine gewünschte Sicherheitsebene gewährleistet werden kann.Alternatively, according to another embodiment, the above upper limit is set as required and in a manner that a confidentiality level can be suitably given according to a specific purpose, whereby a desired level of security can be ensured.

An dieser Stelle wird eine weitere Ausführungsform der vorliegenden Erfindung gemäß dem Kontext aus 7 beschrieben. In dieser Ausführungsform startet die Datenverarbeitung zur Schätzung der Vertraulichkeitsstufe, wenn die Datenverarbeitung von Schritt S604 weitergegeben wird. In Schritt S700 kann die Attributschätzungseinheit 220 einen der zwei Modi wie folgt auswählen. In dem ersten Modus, bei dem es sich um den einfachsten Ansatz handelt, kann die Attributschätzungseinheit 220 alle variablen Abschnitte in der Mitteilung als vertraulich einschätzen, falls irgendeiner oder mehrere variable Abschnitte in der Mitteilung als vertraulich beurteilt wurden, und anschließend in die Datenverarbeitung in Schritt S605 übergehen. Hierbei handelt es sich um ein vereinfachtes Beurteilungsverfahren, das möglicherweise einige der variablen Abschnitte als vertraulich überklassifiziert, selbst wenn sie es nicht sind. Dennoch kann ein solches vereinfachtes Verfahren zugunsten der Datenverarbeitungsgeschwindigkeit ausgewählt werden. Wenn darüber hinaus der zweite Modus ausgewählt wird, listet die Attributschätzungseinheit 220 in Schritt S710 variable Abschnitte auf, die in den Mitteilungen enthalten sind. In Schritt S711 listet die Attributschätzungseinheit 220 die Sätze an variablen Abschnitten auf, die in jeder der Mitteilungen erscheinen, und berechnet anschließend die Häufigkeit des gemeinsamen Auftretens eines jeden der variablen Abschnitte.At this point, another embodiment of the present invention will be made according to the context 7 described. In this embodiment, the data processing starts to estimate the confidentiality level when the data processing of step S604 is passed. In step S700, the attribute estimation unit 220 select one of the two modes as follows. In the first mode, which is the simplest approach, the attribute estimation unit 220 evaluate all variable sections in the message as confidential if one or more variable sections in the message have been determined to be confidential, and then proceed to data processing in step S605. This is a simplified review process that may over-classify some of the variable sections as confidential, even if they are not. Nevertheless, such a simplified method can be selected in favor of the data processing speed. In addition, when the second mode is selected, the attribute estimation unit lists 220 in step S710, variable portions included in the messages. In step S711, the attribute estimation unit lists 220 the sets of variable sections appearing in each of the messages, and then calculate the frequency of common occurrence of each of the variable sections.

In dem Schritt 712 ist die Häufigkeit des gemeinsamen Auftretens eines unbekannten Abschnittes und des bestimmten vertraulichen Abschnittes höher als ein vorgegebener Schwellenwert TH1, und gleichzeitig sind die Häufigkeiten des gemeinsamen Auftretens zwischen der Zeichenkette in dem variablen Abschnitt (B) und den Zeichenketten mit Ausnahme jener in dem vertraulichen Abschnitt (A mit Strich oben) nicht höher als der Schwellenwert TH2, die Attributschätzungseinheit 220 bestimmt dann den variablen Abschnitt als vertraulich. Der Grund dafür, warum eine solche Verarbeitung verwendet wird, lautet wie folgt. Wenn es sich bei dem variablen Abschnitt beispielsweise um einen persönliche Namen handelt, der vertrauliche Daten darstellt, dann kann eine Zeichenkette, die mit einer hohen Häufigkeit des gemeinsamen Auftretens zusammen mit dem persönlichen Namen erscheint (z. B. Geburtstag, eMail-Adresse oder ein Passwort der Person) ebenfalls als vertraulich erachtet werden.In the step 712 the frequency of co-occurrence of an unknown portion and the particular confidential portion is higher than a predetermined threshold TH1, and at the same time, the frequencies of co-occurrence between the character string in the variable portion (B) and the character strings except those in the confidential portion (FIG. A dashed-up) not higher than the threshold value TH2, the attribute estimation unit 220 then determines the variable section as confidential. The reason why such processing is used is as follows. For example, if the variable portion is a personal name that represents confidential data, then a string that appears with a high frequency of co-occurrence along with the personal name (eg, birthday, e-mail address, or a Password of the person) are also considered confidential.

In dieser Ausführungsform entspricht der erste Modus dem Setzen des Schwellenwertes für die Häufigkeit des gemeinsamen Auftretens auf 0, wobei der Schwellenwert verwendet wird, um zu bestimmen, ob der unbekannte Abschnitt in einer Beziehung des gemeinsamen Auftretens zwischen dem vertraulichen Abschnitt und dem variablen Abschnitt „vertraulich” sein sollte oder nicht. Mit anderen Worten sollten alle die variablen Abschnitte, die mindestens ein Mal zusammen mit dem vertraulichen Abschnitt auftreten, vertraulich sein, wenn ein vertraulicher Abschnitt und ein unbekannter Abschnitt in derselben Mitteilung nebeneinander existieren, und wenn der vertrauliche Abschnitt und der unbekannte Abschnitt mindestens ein Mal oder öfter in derselben Mitteilung auftreten, wie dies in der ersten Ausführungsform der Fall ist. Wie in der ersten Ausführungsform handelt es sich bei dem ersten Modus um ein vereinfachtes Verfahren, das einige der variablen Abschnitte als vertraulich überklassifiziert. Dieses Verfahren erfordert jedoch keine Überprüfung der Häufigkeit des gemeinsamen Auftretens. Dementsprechend kann eine Ausführungsform die Datenverarbeitung der Attributschätzungseinheit 220 auswählen, wenn eine Verringerung des Systemaufwandes einer Datenverarbeitung erforderlich ist. Nach Schritt S712 geht die Attributschätzungseinheit 220 in die Datenverarbeitung in Schritt S605 über und beendet die Datenverarbeitung zur Schätzung der Vertraulichkeitsstufe von 7. Nebenbei bemerkt können gemäß einem Attribut eines Ziels eines variabeln Abschnittes unterschiedliche Werte als Schwellenwert zur Häufigkeit des gemeinsamen Auftretens für die Beurteilung des gemeinsamen Auftretens verwendet werden.In this embodiment, the first mode corresponds to setting the common occurrence frequency threshold value to 0, and the threshold value is used to determine whether the unknown portion is in a relationship of common occurrence between the confidential portion and the variable portion "confidential Should or should not be. In other words, all of the variable sections that occur at least once along with the confidential section should be confidential if a confidential section and an unknown section co-exist in the same message, and if the confidential section and the unknown section at least once or more often in the same message as in the first embodiment. As in the first embodiment, the first mode is a simplified method that over-classifies some of the variable portions as confidential. However, this method does not require a frequency of co-occurrence check. Accordingly, one embodiment may be the data processing of the attribute estimation unit 220 Select if a reduction in the overhead of a data processing is required. After step S712, the attribute estimation unit goes 220 in the data processing in step S605 and ends the data processing for estimating the confidentiality level of 7 , By the way, according to an attribute of a target of a variable portion, different values may be used as the common occurrence frequency threshold for the joint occurrence judgment.

Einige Mitteilungen können variable Abschnitte aufweisen, deren vertraulichen Attribute unter Verwendung der Beurteilungsregel 224 überhaupt nicht beurteilt werden können. In diesem Fall bestimmt zuerst die Einheit zum Identifizieren vertraulicher Daten ein vertrauliches Attribut eines unbekannten Abschnittes durch Schätzen des vertraulichen Attributes des unbekannten Abschnittes unter Verwendung eines Erscheinungsortes des unbekannten Abschnittes und verwendet dann eine Beziehung des gemeinsamen Auftretens, womit verhindert wird, dass vertrauliche Daten direkt in einem sicheren Protokoll angezeigt werden. Des Weiteren ist es gemäß einer weiteren Ausführungsform möglich, die Datenverarbeitung durch zusätzliches Registrieren mit der Beurteilungsregel 224 solcher Daten wie Wörtern, einer Zeichenkette, einer Buchstabenzeichenkette, einer numerischen Zeichenkette, Codeinformationen oder Ähnlichem, die an einem Ort aufgetreten sind, der als unbekannter Abschnitt identifiziert ist und dessen vertrauliches Attribut geschätzt worden ist, zur Beurteilung der vertraulichen Daten zu rationalisieren und dadurch der Beurteilungsregel 224 das Prüfen der Daten zu ermöglichen.Some messages may have variable sections whose confidential attributes using the assessment rule 224 can not be judged at all. In this case, first, the confidential data identifying unit determines a confidential attribute of an unknown portion by estimating the confidential attribute of the unknown portion using a location of the unknown portion, and then uses a relationship of co-occurrence, thereby preventing confidential data from entering directly into a secure log. Furthermore, according to another embodiment, it is possible to perform the data processing by additionally registering with the judgment rule 224 such data as words, a character string, a character string, a numeric character string, code information or the like which has occurred in a location identified as an unknown portion and whose confidential attribute has been estimated, to rationalize the judgment of the confidential data, and thereby judgment rule 224 to allow checking the data.

8 ist eine Ansicht, die einen Modus der Beurteilung der Vertraulichkeitsstufe 800 der Ausführungsform der vorliegenden Erfindung darstellt, indem er einem Protokoll 810, das beurteilt werden soll, zugeordnet wird. In 8 zeigt ein weißes Rechteck einen festen Abschnitt an, ein variabler Abschnitt in einer Cloud ist ein vertraulicher Bereich, ein variabler Abschnitt in einem schraffierten Rechteck ist ein geschätzter vertraulicher Bereich, und ein unterstrichener variabler Abschnitt ist ein vertraulicher Bereich, der unter Verwendung eines Erscheinungsortes in der entsprechenden Vorlage beurteilt wird. 8th is a view that provides a mode of assessment of the level of confidentiality 800 the embodiment of the present invention, by a protocol 810 which is to be judged, is assigned. In 8th For example, a white rectangle indicates a fixed portion, a variable portion in a cloud is a confidential region, a variable portion in a hatched rectangle is an estimated confidential region, and an underlined variable portion is a confidential region created using an appearance location in the cloud appropriate template is assessed.

Wie dies in 8 dargestellt ist, besteht ein Satz 820 aus einer festen Nachricht (nicht-vertraulich) und einem variablen Abschnitt in einer Cloud, dessen vertrauliches Attribut direkt unter Verwendung der Beurteilungsregel 224 beurteilt worden ist. Abgesehen davon besteht ein Satz 830 aus variablen Abschnitten, die von der Beurteilungsregel 224 als unbekannte Abschnitte klassifiziert worden sind. In der Ausführungsform der vorliegenden Erfindung wird ein vertrauliches Attribut eines jeden der variablen Abschnitte, die als die unbekannten Abschnitte klassifiziert worden sind, unter Verwendung einer Beziehung des gemeinsamen Auftretens des variablen Abschnittes und eines Erscheinungsortes des variablen Abschnittes in einer Mitteilung beurteilt.Like this in 8th is represented, there is a sentence 820 from a fixed message (non-confidential) and a variable section in a cloud, its confidential attribute directly using the appraisal rule 224 has been judged. Apart from that, there is a sentence 830 from variable sections, by the appraisal rule 224 classified as unknown sections. In the embodiment of the present invention, a confidential attribute of each of the variable portions classified as the unknown portions is judged using a relationship of the common occurrence of the variable portion and a place of appearance of the variable portion in a message.

Variable Abschnitte, deren vertrauliche Attribute unter Verwendung einer Beziehung des gemeinsamen Auftretens geschätzt worden sind, sind ein Datum und ein Städtename in Bezug auf einen persönlichen Namen. Indessen ist ein variabler Abschnitt, dessen vertrauliches Attribut unter Verwendung seines Erscheinungsortes beurteilt worden ist, der variable Abschnitt = passw0rd. Dieser variable Abschnitt stellt einen unbekannten Abschnitt dar, da ein Passwort aus Versehen in einen Abschnitt eingegeben wurde, in dem eine Benutzer-ID eingegeben werden sollte, und das eingegebene Passwort falsch geschrieben wurde. Natürlich wird diese Erläuterung nur im Sinne einer Erklärung gegeben, und der variable Abschnitt, der dem Passwort entspricht, kann möglicherweise nicht innerhalb der Beurteilungsregel registriert werden. In der Ausführungsform der vorliegenden Erfindung wird der unbekannte Abschnitt = passw0rd unter Verwendung eines Erscheinungsortes eines variablen Abschnittes in einer anderen Mitteilung desselben Clusters als vertraulich beurteilt, z. B. unter Verwendung der Tatsache, dass ein vertraulicher Bereich direkt nach einem variablen Abschnitt „Benutzer-ID” in der ersten Zeile des Protokolls 810 erscheint.Variable portions whose confidential attributes have been estimated using a relationship of common occurrence are a date and a city name with respect to a personal name. Meanwhile, a variable portion whose confidential attribute has been judged by using its appearance place is the variable portion = passwrd. This variable section represents an unknown section because a password was accidentally entered in a section where a user ID should be entered and the entered password was misspelled. Of course, this explanation will be given only for explanation, and the variable portion corresponding to the password may not be registered within the judgment rule. In the embodiment of the present invention, the unknown portion = passw0rd is judged to be confidential using a location of a variable portion in another message of the same cluster, e.g. B. using the fact that a confidential area immediately after a variable section "user ID" in the first line of the log 810 appears.

Wie dies beschrieben worden ist, ermöglicht die Ausführungsform der vorliegenden Erfindung das Setzen einer Vertraulichkeitsstufe eines variablen Abschnittes, der noch nicht mit der Beurteilungsregel 224 registriert worden ist, und dadurch Minderung des Unternehmens-/Organisationsrisikos und Verbesserung der Protokollnutzbarkeit.As has been described, the embodiment of the present invention makes it possible to set a confidentiality level of a variable portion that does not yet comply with the judgment rule 224 has been registered, thereby reducing company / organization risk and improving protocol usability.

9 zeigt eine Ausführungsform der Datenverarbeitung zum Ersetzen, das von der Darstellungsersetzungseinheit 230 der Ausführungsform der vorliegenden Erfindung durchgeführt wird. Ein ursprüngliches Protokoll 900 weist eine Vielzahl von vertraulichen Bereichen wie beispielsweise einen persönlichen Namen, einen Städtenamen und eine eMail-Adresse auf. Die Darstellungsersetzungseinheit 230 der Ausführungsform der vorliegenden Erfindung ersetzt variable Abschnitte einer jeden Mitteilung, die als vertraulich registriert worden sind, unter Einhaltung eines Standardprotokolls. Genauer gesagt ersetzt die Darstellungsersetzungseinheit 230 einen persönlichen Namen/einen Städtenamen durch einen anderen Wert desselben Attributes in der Beurteilungsregel 224. Hierbei ist zu beachten, dass, wenn ursprüngliche variable Abschnitte dieselben sind, solchen variablen Abschnitten dieselbe Darstellung zugewiesen wird. Darüber hinaus ersetzt die Darstellungsersetzungseinheit 230 eine eMail-Adresse mit einer alternativen Darstellung durch Ändern ihrer Alphabete auf andere Zeichen oder Nummern auf eine Weise, dass die alternative Darstellung als eMail-Adresse erkannt werden kann. 9 shows an embodiment of the data processing for replacement, that of the presentation replacement unit 230 the embodiment of the present invention is performed. An original protocol 900 has a variety of confidential areas such as a personal name, a city name, and an e-mail address. The presentation replacement unit 230 In the embodiment of the present invention, variable portions of each message that have been registered as confidential are replaced by a standard protocol. More specifically, the presentation replacement unit replaces 230 a personal name / city name by another value of the same attribute in the appraisal rule 224 , It should be noted that if original variable sections are the same, such variable sections will be assigned the same representation. In addition, the presentation replacement unit replaces 230 an email address with an alternate representation by changing its alphabets to other characters or numbers in a way that the alternate representation can be recognized as an email address.

Genauer gesagt werden persönliche Namen „Alice”, „Bob” und „Sachiko” in einem Protokoll 900 durch jeweils „Mary”, „Nic” und „John” in einem sicheren Protokoll 910 ersetzt. Städtenamen „Tokyo”, „Osaka” und „Naha” in dem Protokoll 900 werden jeweils durch „New York”, „Washington” und „Toronto” ersetzt. Indessen werden eMail-Adressen jeweils durch andere Zeichen ersetzt, während ihr Format ”****@***.***” so beibehalten wird, so dass bei dem Ersatzwort erkannt werden kann, dass es eine Darstellung unter Einhaltung des SMTP-Protokolls hat. In dieser Hinsicht kann ein Domainnamensbereich, der nicht zum Identifizieren einer Person verwendet wird, im Hinblick auf die Menge an Daten, die zu verarbeiten sind, unersetzt bleiben. More specifically, personal names "Alice", "Bob" and "Sachiko" are in a log 900 by each "Mary", "Nic" and "John" in a secure log 910 replaced. City names "Tokyo", "Osaka" and "Naha" in the log 900 are replaced by "New York", "Washington" and "Toronto" respectively. Meanwhile, e-mail addresses are replaced by other characters, while their format "****@***.***" is maintained so that the replacement word can be recognized as showing a representation in compliance with the SMTP protocol. Protocol has. In this regard, a domain name range that is not used to identify a person can remain irreplaceable in view of the amount of data to be processed.

Obgleich dies nicht in 9 dargestellt ist, wird das Ersetzen von vertraulichen Daten wie beispielsweise einer IP-Adresse beispielsweise durch Ersetzen einer globalen IP-Adresse mit einer geeigneten privaten IP-Adresse unter Verwendung eines Teils der ursprünglichen Zahlen durchgeführt. Hierbei ist zu beachten, dass die Ersetzungsregel als eine Tabelle oder Liste in einem geeigneten Speicherplatz gespeichert werden kann, der durch die Einheit zum Erstellen eines sicheren Protokolls 200 verwaltet wird, so dass erforderliche Daten umgekehrt konvertiert und zum Wiedergeben eines ursprünglichen Protokolls bei Aufforderung durch einen Administrator auf höherer Ebene wie beispielsweise einem Server-Administrator verwendet werden können.Although not in 9 is shown, the replacement of confidential data such as an IP address, for example, by replacing a global IP address with a suitable private IP address using a portion of the original numbers. It should be noted that the replacement rule may be stored as a table or list in a suitable memory space provided by the secure protocol creation unit 200 so that required data can be converted in reverse and used to play back an original protocol as requested by a higher level administrator such as a server administrator.

Zur Erleichterung des Verständnisses wurde die vorliegende Erfindung unter Verwendung spezieller funktioneller Mittel und der Datenverarbeitung beschrieben, die von den funktionellen Mitteln ausgeführt wird. Abgesehen jedoch davon, dass es den vorstehend erwähnten funktionellen Mitteln ermöglicht wird, die spezielle Datenverarbeitung auszuführen, kann die vorliegende Erfindung jegliche funktionellen Mittel einer Funktion zuweisen, um die vorstehende Datenverarbeitung auszuführen, unter Berücksichtigung der Verarbeitungseffizienz und Effizienz der Programmierung und Ähnlichem zur Ausführung.For ease of understanding, the present invention has been described using specific functional means and data processing performed by the functional agents. However, besides allowing the above-mentioned functional means to perform the special data processing, the present invention can assign a function to any functional means to carry out the above data processing considering the processing efficiency and efficiency of programming and the like for execution.

Die vorstehende Funktion der vorliegenden Erfindung kann durch ein von einer Vorrichtung ausführbares Programm, das in einer objektorientierten Programmiersprache wie beispielsweise C++, Java (eingetragene Handelsmarke), Java (eingetragene Handelsmarke) Beans, Java (eingetragene Handelsmarke) Applet, Java (eingetragene Handelsmarke) Script, Perl, Ruby und PYTHON und einer dedizierten Abfrage-Sprache wie SQL geschrieben ist, ausgeführt werden und kann durch Speichern auf einem von der Vorrichtung lesbaren Aufzeichnungsmedium oder durch Senden davon verteilt werden.The above function of the present invention may be accomplished by a device executable program written in an object oriented programming language such as C ++, Java (Registered Trade Mark), Java (Registered Trade Mark) Beans, Java (Registered Trade Mark) Applet, Java (Registered Trade Mark) Script , Perl, Ruby and PYTHON and a dedicated query language such as SQL, and can be distributed by storing on a device-readable recording medium or by transmitting it.

Die vorliegende Erfindung wurde unter Hinzuziehung der speziellen Ausführungsform beschrieben. Die vorliegende Erfindung ist jedoch nicht auf die vorstehende Ausführungsform beschränkt, es können Modifizierungen an der vorliegenden Erfindung vorgenommen werden, wie beispielsweise die Erstellung einer weiteren Ausführungsform, einer Hinzufügung, Änderung und Entfernung, so lange wie Fachleute zu solch einer Modifizierung gelangen können und jeglicher Modus in demThe present invention has been described with reference to the specific embodiment. However, the present invention is not limited to the above embodiment, modifications may be made to the present invention such as creation of another embodiment, addition, modification and removal as long as those skilled in the art can make such modification and any mode by doing

Umfang der vorliegenden Erfindung enthalten ist, so lange wie der Modus die Funktionsweise und den Effekt der vorliegenden Erfindung erfüllt.Scope of the present invention is included, as long as the mode satisfies the operation and the effect of the present invention.

BezugszeichenlisteLIST OF REFERENCE NUMBERS

100100
DatenverarbeitungssystemData processing system
102102
Clientclient
110110
Netzwerknetwork
112112
Client-EinheitClient unit
120120
ServerfunktionseinheitServer functional unit
122122
Server-EinheitServer unit
124124
DatenbankDatabase
126126
Protokollprotocol
126a126a
sicheres Protokollsecure protocol
200200
Einheit zum Erstellen eines sicheren ProtokollsUnit for creating a secure protocol
210210
Identifizierungseinheit für vertrauliche DatenIdentification unit for confidential data
212212
MitteilungsanalysiereinheitMitteilungsanalysiereinheit
214214
Cluster bildende EinheitCluster forming unit
216216
Einheit zum Suchen variabler AbschnitteUnit for searching variable sections
218218
AttributbestimmungseinheitAttribute determination unit
220220
AttributschätzungseinheitAttribute estimation unit
224224
Beurteilungsregeljudgment rule
230230
DarstellungsersetzungseinheitPresentation replacement unit

ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturCited patent literature

  • JP 2009-116680 [0009] JP 2009-116680 [0009]

Claims (15)

Verfahren, mit dem einer Datenverarbeitungsvorrichtung das Identifizieren vertraulicher Daten in einem akkumulierten Protokoll ermöglicht wird, wobei das Verfahren die Schritte aufweist des: Lesens von Mitteilungen über Operationen von Datenverarbeitungsvorrichtungen aus dem Protokoll, und Klassifizierens der gelesenen Mitteilungen in Cluster gemäß Ähnlichkeiten der Mitteilungen; Findens von Abschnitten, die zwischen den Mitteilungen variabel sind, in den Mitteilungen in jedem der Cluster; Bestimmens eines vertraulichen Attributes der variablen Abschnitte unter Verwendung von vordefinierten Regeln; und Bestimmens des vertraulichen Attributes des Abschnittes mit dem nicht bestimmbaren vertraulichen Attribut in einem Fall, in dem es einen Abschnitt gibt, dessen vertrauliches Attribut unter Verwendung der Regel nicht bestimmt werden kann, durch Schätzen des vertraulichen Attributes von einem anderen Abschnitt, der ein bestimmtes vertrauliches Attribut besitzt.A method of enabling a data processing device to identify confidential data in an accumulated log, the method comprising the steps of: Reading messages about operations of data processing devices from the log, and classifying the read messages into clusters according to similarities of the messages; Finding sections that are variable between the messages in the messages in each of the clusters; Determining a confidential attribute of the variable portions using predefined rules; and Determining the confidential attribute of the non-identifiable confidential attribute portion in a case where there is a portion whose confidential attribute can not be determined using the rule by estimating the confidential attribute of another portion having a certain confidential attribute has. Verfahren nach Anspruch 1, des Weiteren aufweisend den Schritt des Erstellens eines sicheren Protokolls durch Ersetzen einer Darstellung des variablen Abschnittes durch eine alternative Darstellung gemäß dem auf diese Weise bestimmten vertraulichen Attribut.The method of claim 1, further comprising the step of establishing a secure protocol by replacing a representation of the variable portion with an alternative representation according to the confidential attribute thus determined. Verfahren nach Anspruch 1, wobei der Schritt des Schätzens und Bestimmens des vertraulichen Attributes den Schritt des Schätzens des vertraulichen Attributes unter Verwendung einer Entsprechung zwischen einem Erscheinungsort in den Mitteilungen des Abschnittes zu dem nicht bestimmbaren vertraulichen Attribut und einem Erscheinungsort in den Mitteilungen des Abschnittes zu dem bestimmten vertraulichen Attribut aufweist.The method of claim 1, wherein the step of estimating and determining the confidential attribute comprises the step of estimating the confidential attribute using a correspondence between an appearance in the messages of the non-identifiable confidential attribute section and a publication location in the messages of the section certain confidential attribute. Verfahren nach Anspruch 1, wobei der Schritt des Schätzens und Bestimmens des vertraulichen Attributes den Schritt des Schätzens des vertraulichen Attributes des Abschnittes mit dem nicht bestimmbaren vertraulichen Attribut unter Verwendung einer Häufigkeit des gemeinsamen Auftretens des Abschnittes mit dem bestimmten vertraulichen Attribut und des Abschnittes mit dem nicht bestimmbaren vertraulichen Attributes aufweist.The method of claim 1, wherein the step of estimating and determining the confidential attribute comprises the step of estimating the confidential attribute of the non-identifiable confidential attribute portion using a frequency of co-occurrence of the particular confidential attribute portion and the non-sensitive portion has identifiable confidential attribute. Verfahren nach Anspruch 1, des Weiteren aufweisend den Schritt des Quantifizierens der Ähnlichkeiten der Mitteilungen unter Verwendung von Bearbeitungsabständen von Buchstaben, Zeichen und Leerzeichen, die die Mitteilungen bilden.The method of claim 1, further comprising the step of quantifying the similarities of the messages using processing distances of letters, characters and spaces forming the messages. Verfahren nach Anspruch 1, wobei der variable Abschnitt ein beliebiger aus Worten, Zeichenketten oder Codeinformationen ist, die die Nachrichten bilden, und die Wörter, Zeichenketten oder Codeinformationen gemäß einer Regel regulären Ausdrucks geschrieben werden.The method of claim 1, wherein the variable portion is any of words, strings or code information that make up the messages, and the words, strings or code information are written according to a rule of regular expression. Verfahren nach Anspruch 1, wobei die Regel gemäß der Semantik eines jeden der Abschnitte durch Klassifizieren und Registrieren jeglicher beliebigen von Wörtern, Zeichenketten oder Codeinformationen, die vertraulich sind, gebildet wird, wobei die Wörter, Zeichenketten oder Codeinformationen gemäß einer Regel regulären Ausdrucks geschrieben sind.The method of claim 1, wherein the rule is formed according to the semantics of each of the sections by classifying and registering any of words, strings or code information that is confidential, the words, strings or code information being written according to a rule of regular expression. Verfahren nach Anspruch 3, wobei der Schritt des Schätzens des vertraulichen Attributes unter Verwendung der Entsprechung zwischen dem Erscheinungsort in den Mitteilungen des Abschnittes zu dem nicht bestimmbaren vertraulichen Attribut und dem Erscheinungsort in den Mitteilungen des Abschnittes zu dem bestimmten vertraulichen Attribut die Schritte aufweisen des: Prüfens des Abschnittes mit dem nicht bestimmbaren vertraulichen Attribut in der Mitteilung mit einer Vorlage, in der ein vertrauliches Attribut einem Erscheinungsort eines jeden variablen Abschnittes in den Mitteilungen eines jeden der Cluster zugeordnet wird; und Bestimmens des vertraulichen Attributes eines variablen Abschnittes in der Mitteilung, wenn der variable Abschnitt an demselben Erscheinungsort in der Vorlage das vertrauliche Attribut hat.The method of claim 3, wherein the step of estimating the confidential attribute using the correspondence between the appearance in the messages of the non-identifiable confidential attribute section and the appearance in the messages of the specific confidential attribute section comprises the steps of: Checking the section with the indefinable confidential attribute in the message with a template in which a confidential attribute is assigned to a publication location of each variable section in the messages of each of the clusters; and Determining the confidential attribute of a variable portion in the message if the variable portion at the same place of appearance in the template has the confidential attribute. Verfahren nach Anspruch 1, wobei der Schritt des Schätzens und Bestimmens des vertraulichen Attributes den Schritt des Setzens des vertraulichen Attributes des Abschnittes, der das nicht bestimmbare vertrauliche Attribut aufweist, als vertraulich, in Abhängigkeit von einer Bedingung in einer Häufigkeit des gemeinsamen Auftretens eines Abschnittes, der vertraulich sein soll, und dem Abschnitt, der das nicht bestimmbare vertrauliche Attribut aufweist.The method of claim 1, wherein the step of estimating and determining the confidential attribute comprises the step of setting the confidential attribute of the portion having the unidentifiable confidential attribute as confidential, depending on a condition in a frequency of joint occurrence of a portion, which should be confidential and the section that has the indefinable confidential attribute. Verfahren nach Anspruch 1, des Weiteren die Schritte des Durchführens von Lernen durch zusätzliches Registrieren in der Regel von Daten auf dem Abschnitt, dessen vertrauliches Attribut geschätzt und bestimmt wird aufweisend.The method of claim 1, further comprising the steps of performing learning by additionally registering, as a rule, data on the portion whose confidential attribute is estimated and determined. Verfahren nach Anspruch 1, wobei in dem Schritt des Schätzens und Bestimmens des vertraulichen Attributes des variablen Abschnittes in der Vorlage, falls irgendeine der Mitteilungen in demselben Cluster wenigstens einen vertraulichen Abschnitt aufweist, das vertrauliche Attribut des variablen Abschnittes in der Vorlage als vertraulich geschätzt wird.The method of claim 1, wherein in the step of estimating and determining the confidential attribute of the variable portion in the template, if any of the messages in the same cluster has at least one confidential portion, the confidential attribute of the variable portion in the template is estimated as confidential. Verfahren nach Anspruch 2, wobei der Schritt des Erstellens des sicheren Protokolls durch Ersetzen der Darstellung des variablen Abschnittes in den Mitteilungen durch eine alternative Darstellung den Schritt des Auswählens einer alternativen Darstellung mit derselben Semantik wie die des variablen Abschnittes und des Ersetzen des variablen Abschnittes durch die ausgewählte alternative Darstellung aufweist.The method of claim 2, wherein the step of establishing the secure protocol by replacing the representation of the variable portion in the messages with an alternative representation comprising the step of selecting an alternative representation having the same semantics as that of the variable portion and replacing the variable portion with the selected alternative representation. Verfahren nach Anspruch 2, des Weiteren aufweisend den Schritt, wenn Abschnitte in mehr als zwei Mitteilungen ursprünglich dieselbe Darstellung haben, des Auswählens der identischen Darstellung als eine alternative Darstellung für die Abschnitte in dem sicheren Protokoll.The method of claim 2, further comprising the step of, if portions in more than two messages originally have the same representation, selecting the identical representation as an alternative representation for the portions in the secure protocol. Datenverarbeitungsvorrichtung zum Identifizieren vertraulicher Daten in einem Protokoll, wobei die Datenverarbeitungsvorrichtung aufweist: eine Cluster bildende Einheit, die so konfiguriert ist, dass sie Mitteilungen über Operationen der Datenverarbeitungsvorrichtung von dem Protokoll liest und die gelesenen Mitteilungen gemäß Ähnlichkeiten in den Mitteilungen in Cluster klassifiziert; eine Einheit zum Suchen variabler Abschnitte, die so konfiguriert ist, dass sie Abschnitte findet, die zwischen Mitteilungen in den Mitteilungen in jedem der Cluster variabel sind; eine Attributbestimmungseinheit, die so konfiguriert ist, dass sie unter Verwendung vordefinierter Regeln ein vertrauliches Attribut der variablen Abschnitte bestimmt; und eine Attributschätzungseinheit, die so konfiguriert ist, dass sie in einem Fall, in dem ein Abschnitt vorhanden ist, dessen vertrauliches Attribut unter Verwendung der Regel nicht bestimmt werden kann, das vertrauliche Attribut des Abschnittes mit dem nicht bestimmbaren vertraulichen Attribut bestimmt, durch Schätzen des vertraulichen Attributes unter Verwendung von entweder einer Entsprechung zwischen einem Erscheinungsort in den Mitteilungen des Abschnittes zu dem nicht bestimmbaren vertraulichen Attribut und einem Erscheinungsort in den Mitteilungen eines Abschnittes zu einem bestimmten vertraulichen Attribut, oder einer Häufigkeit des gemeinsamen Auftretens des Abschnittes mit dem bestimmten vertraulichen Attribut und dem Abschnitt mit dem nicht bestimmbaren vertraulichen Attribut.A data processing device for identifying confidential data in a log, the data processing device comprising: a clustering unit configured to read messages about operations of the computing device from the log and to classify the read messages according to similarities in the messages in clusters; a variable section searching unit configured to find sections variable between messages in the messages in each of the clusters; an attribute determination unit configured to determine a confidential attribute of the variable portions using predefined rules; and an attribute estimation unit configured to, in a case where there is a section whose confidential attribute can not be determined using the rule, determine the confidential attribute of the non-determinable confidential attribute section by estimating the confidential one An attribute using either a correspondence between a place of publication in the messages of the portion to the indeterminate confidential attribute and a place of publication in the notifications of a portion of a certain confidential attribute, or a frequency of co-occurrence of the portion of the particular confidential attribute and the Section with the indefinable confidential attribute. Von einer Vorrichtung ausführbares Programm, das eine Datenverarbeitungsvorrichtung zum Ausführen eines beliebigen der Verfahren gemäß Ansprüche 1 bis 13 veranlasst.A device executable program that causes a data processing device to carry out any of the methods according to claims 1 to 13.
DE201210220716 2011-11-28 2012-11-14 Method, data processing device and program for identifying confidential data Ceased DE102012220716A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011-258813 2011-11-28
JP2011258813 2011-11-28
JP2012-221514 2012-10-03
JP2012221514A JP2013137740A (en) 2011-11-28 2012-10-03 Secret information identification method, information processor, and program

Publications (1)

Publication Number Publication Date
DE102012220716A1 true DE102012220716A1 (en) 2013-05-29

Family

ID=47521406

Family Applications (1)

Application Number Title Priority Date Filing Date
DE201210220716 Ceased DE102012220716A1 (en) 2011-11-28 2012-11-14 Method, data processing device and program for identifying confidential data

Country Status (4)

Country Link
JP (1) JP2013137740A (en)
CN (1) CN103136189B (en)
DE (1) DE102012220716A1 (en)
GB (1) GB2497397A (en)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5948291B2 (en) * 2013-08-13 2016-07-06 日本電信電話株式会社 Monitoring information analyzing apparatus and method
US9582680B2 (en) 2014-01-30 2017-02-28 Microsoft Technology Licensing, Llc Scrubbe to remove personally identifiable information
JP6244992B2 (en) * 2014-03-07 2017-12-13 富士通株式会社 Configuration information management program, configuration information management method, and configuration information management apparatus
US9773117B2 (en) * 2014-06-04 2017-09-26 Microsoft Technology Licensing, Llc Dissolvable protection of candidate sensitive data items
US10326772B2 (en) * 2015-11-20 2019-06-18 Symantec Corporation Systems and methods for anonymizing log entries
JP2017162114A (en) * 2016-03-08 2017-09-14 富士通株式会社 Program, information processing method, and information processing apparatus
SG11201809476VA (en) * 2016-04-29 2018-11-29 Privitar Ltd Computer-implemented privacy engineering system and method
JP6794849B2 (en) * 2017-01-30 2020-12-02 セイコーエプソン株式会社 Authentication device and authentication program
WO2019066295A1 (en) * 2017-09-28 2019-04-04 큐비트시큐리티 주식회사 Web traffic logging system and method for detecting web hacking in real time
US10885204B2 (en) * 2018-07-08 2021-01-05 International Business Machines Corporation Method and system for semantic preserving location encryption
CN113228019A (en) * 2018-10-26 2021-08-06 艾利文Ai有限公司 Sensitive data detection and replacement
CN110377479B (en) * 2019-05-24 2022-12-09 平安普惠企业管理有限公司 Sensitive field monitoring method and device of log file and computer equipment
JP7421099B2 (en) * 2019-06-05 2024-01-24 キヤノンマーケティングジャパン株式会社 Server device, control method for server device, program, genuine product determination system, and control method for genuine product determination system
CN112306961B (en) * 2019-07-24 2024-03-19 中移动信息技术有限公司 Log processing method, device, equipment and storage medium
CN110826299B (en) * 2019-10-25 2023-05-23 上海工业自动化仪表研究院有限公司 General template log analysis method based on classification
EP4070218A1 (en) * 2019-12-06 2022-10-12 3M Innovative Properties Company Systems and methods for using natural pseudonymized text
CN115062338A (en) * 2019-12-31 2022-09-16 北京懿医云科技有限公司 Data desensitization method and device, electronic equipment and storage medium
CN113343699B (en) * 2021-06-22 2023-10-20 湖北华中电力科技开发有限责任公司 Log security risk monitoring method and device, electronic equipment and medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009116680A (en) 2007-11-07 2009-05-28 National Institute Of Information & Communication Technology Data kind detector and data kind detection method

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7827136B1 (en) * 2001-09-20 2010-11-02 Emc Corporation Management for replication of data stored in a data storage environment including a system and method for failover protection of software agents operating in the environment
US7676358B2 (en) * 2003-09-24 2010-03-09 International Business Machines Corporation System and method for the recognition of organic chemical names in text documents
US8752181B2 (en) * 2006-11-09 2014-06-10 Touchnet Information Systems, Inc. System and method for providing identity theft security
US20090144619A1 (en) * 2007-12-03 2009-06-04 Steven Francis Best Method to protect sensitive data fields stored in electronic documents
US8166313B2 (en) * 2008-05-08 2012-04-24 Fedtke Stephen U Method and apparatus for dump and log anonymization (DALA)
US8533193B2 (en) * 2010-11-17 2013-09-10 Hewlett-Packard Development Company, L.P. Managing log entries
JP5688279B2 (en) * 2010-12-08 2015-03-25 ニュアンス コミュニケーションズ,インコーポレイテッド Information processing apparatus, method, and program for filtering confidential information

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009116680A (en) 2007-11-07 2009-05-28 National Institute Of Information & Communication Technology Data kind detector and data kind detection method

Also Published As

Publication number Publication date
GB2497397A (en) 2013-06-12
JP2013137740A (en) 2013-07-11
GB201220817D0 (en) 2013-01-02
CN103136189A (en) 2013-06-05
CN103136189B (en) 2016-12-21

Similar Documents

Publication Publication Date Title
DE102012220716A1 (en) Method, data processing device and program for identifying confidential data
DE112018004946B4 (en) COGNITIVE DATA ANONYMIZATION
US20130152158A1 (en) Confidential information identifying method, information processing apparatus, and program
DE112019004913T5 (en) DETECTING INAPPROPRIATE ACTIVITY IN THE PRESENCE OF UNAUTHORIZED API REQUESTS USING ARTIFICIAL INTELLIGENCE
DE102013222384B4 (en) Context-based security screening for access to data
DE202020106393U1 (en) Data exchange
DE112016002395T5 (en) Access control for data resources
DE112020004623T5 (en) ML-BASED EVENT HANDLING
DE202008018623U1 (en) Control of communication within a container document
DE102008016197A1 (en) Identify an application user as the source of a database activity
DE10126752A1 (en) Virus checking and warning for search results from computer database involves accessing virus status information for result files, displaying results on basis of virus status information
DE112018005725T5 (en) DATA DEIDENTIFICATION BASED ON DETECTION OF PERMITTED CONFIGURATIONS FOR DATA DEIDENTIFICATION PROCESSES
DE112016005374T5 (en) Identify query patterns and associated aggregated statistics among search queries
DE102014116369A1 (en) MANAGEMENT OF LANGUAGE MARKERS IN INTERNATIONAL DATA STORAGE
DE112011101293T5 (en) Dynamic real-time reports based on social networks
DE102016100895A1 (en) Peer-to-peer storage in enterprises and procedures for managing a peer network storage
DE112019001433T5 (en) DATA ANONYMIZATION
US8620911B2 (en) Document registry system
DE102016204698A1 (en) Improving the detection of steganography at the perimeter
DE102021130396A1 (en) DATA ACCESS MONITORING AND CONTROL
DE102021123058A1 (en) MASKING SENSITIVE INFORMATION IN A DOCUMENT
DE112021002201T5 (en) Privacy-oriented data security in a cloud environment
DE102019209349A1 (en) Investigate web threats using advanced web crawling
DE102011077513A1 (en) Method for the secure processing of data
DE112020004806T5 (en) CLUSTER SECURITY BASED ON VIRTUAL MACHINE CONTENT

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final