CH712988B1 - Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust. - Google Patents

Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust. Download PDF

Info

Publication number
CH712988B1
CH712988B1 CH01309/16A CH13092016A CH712988B1 CH 712988 B1 CH712988 B1 CH 712988B1 CH 01309/16 A CH01309/16 A CH 01309/16A CH 13092016 A CH13092016 A CH 13092016A CH 712988 B1 CH712988 B1 CH 712988B1
Authority
CH
Switzerland
Prior art keywords
data
sensitive information
records
subset
categories
Prior art date
Application number
CH01309/16A
Other languages
English (en)
Other versions
CH712988A1 (de
Inventor
Lotzer Hans-Joachim
Gerhard Haller Klaus
Original Assignee
Swisscom Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Swisscom Ag filed Critical Swisscom Ag
Priority to CH01309/16A priority Critical patent/CH712988B1/de
Priority to EP17193574.5A priority patent/EP3301603A1/de
Priority to US15/723,883 priority patent/US11609897B2/en
Publication of CH712988A1 publication Critical patent/CH712988A1/de
Publication of CH712988B1 publication Critical patent/CH712988B1/de
Priority to US18/117,826 priority patent/US20230205755A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Durchsuchen von Daten zur Datenverlustverhinderung, wobei die Daten strukturierte und/oder halbstrukturierte Daten mit mehreren Datensätzen und mehreren Kategorien sind, wobei jeder Datensatz mehrere Felder umfasst, die jeweils einer unterschiedlichen der Kategorien angehören, wobei das Verfahren die folgenden Schritte umfasst: Auswählen, in einem Prozessor, einer Teilmenge von Datensätzen der Daten, wobei die ausgewählte Teilmenge mindestens zwei Datensätze umfasst, zwischen denen die Daten mehrere Datensätze, die nicht in der Teilmenge enthalten sind, umfassen; Scannen, im Prozessor, der Felder der ausgewählten Teilmenge von Kategorien auf sensible Informationen; Berechnen, im Prozessor, für jede Kategorie eine Wahrscheinlichkeit, die sensiblen Informationen zu enthalten, auf Basis des Scan-Ergebnisses; Auswählen, im Prozessor, einer Teilmenge von Kategorien auf Basis der berechneten Wahrscheinlichkeiten der Kategorien, die sensiblen Informationen zu enthalten; und Suchen, im Prozessor, der sensiblen Informationen in der ausgewählten Teilmenge von Kategorien.

Description

Beschreibung
Gebiet der Erfindung [0001] Die vorliegende Erfindung betrifft ein Verfahren, eine Vorrichtung und ein Speichermedium, aufweisend ein Computerprogramm zur Datenverlustverhinderung.
Beschreibung des Stands der Technik [0002] Der technische Schutz von Daten in einem Unternehmen oder einer beliebigen anderen Organisation wird immer wichtiger, da der Verlust von Daten zu einer Verletzung von gesetzlichen Bestimmungen oder zu einem Nachteil im Markt führen könnte. Es ist bekannt, dass Datenverlustverhinderungs(DLP)-Werkzeuge grosse Datenmengen verwalten und das Risiko für Datenlecks detektieren. DLP-Werkzeuge scannen Daten auf potenziell sensible Daten, z.B. durch Schlüsselwortsuchen oder regelbasierte Suchen. Das Risiko für Datenverluste ist für Daten im Ruhezustand, z.B. SharePoint-Ser-ver, Datenbanken oder andere Arten von Repositorien, für Daten in Bewegung, die innerhalb des Unternehmens und zu externen Empfängern über das Netzwerk transferiert werden, z.B. durch E-Mails, FTP oder soziale Medien, und für Daten an Endpunkten, wie Personal Computers, Laptops, Tablets, Smartphones usw., vorhanden. In Abhängigkeit vom DLP-Werkzeug zieht es Daten im Ruhezustand, z.B. grosse Datenbanken, Zentralrepositorien usw., in Betracht. Insbesondere sind Daten im Ruhezustand, z.B. grosse Datenbanken, und häufig auch Daten in Bewegung von Bedeutung. Das Scannen dieser Daten ist sehr umständlich und zeit- und ressourcenaufwändig. Daher scannen die meisten bestehenden DLP-Werkzeuge nur einen Teil der Daten, was den Nachteil aufweist, dass ein hohes Risiko von nicht detektierten sensiblen Daten verbleibt.
[0003] In US 2012/0 226 677 wird ein erster Block von strukturierten Daten analysiert, um die Art von im ersten Block gespeicherten Informationen zu detektieren. Wenn nach einer bestimmten Information in den strukturierten Daten gesucht wird, werden nur die Teile der anderen Blöcke durchsucht, die für die bestimmte Information relevant sind. Dieser Ansatz würde jedoch keine grosse Menge an sensiblen Daten detektieren, falls die strukturierten Daten zwei unterschiedliche Strukturen enthalten oder unterschiedliche Arten von Informationen in den gleichen Feldern speichern, z.B., wenn neue Veröffentlichungen einer Anwendung die Datenmodelle in der Datenbank umstellen.
Kurzfassung der Erfindung [0004] Es ist daher eine Aufgabe, ein Verfahren zum Durchsuchen von Daten zur Datenverlustverhinderung zu finden, das die Daten auf eine zuverlässigere und dennoch effiziente Weise durchsucht oder durchscannt.
[0005] Diese Aufgabe wird gelöst, indem eine statistisch repräsentative Teilmenge von Datensätzen ausgewählt wird, um Felder des Datensatzes auf sensible Informationen zu scannen. Dies erzielt eine zuverlässige Basis zum Detektieren der Kategorien, in denen potenzielle sensible Informationen enthalten sind. Zusätzlich dazu wird eine Wahrscheinlichkeit berechnet, wie wahrscheinlich eine sensible Information in jeder Kategorie enthalten ist. Auf Basis dieser Wahrscheinlichkeit kann die Suche nach den sensiblen Informationen auf eine Teilmenge von Kategorien reduziert werden, in der die gesamten Daten auf die sensiblen Informationen gescannt werden, ohne die Zuverlässigkeit der Ergebnisse zu verringern. [0006] Die abhängigen Ansprüche beziehen sich auf weitere vorteilhafte Ausführungsformen.
Kurze Beschreibung der Zeichnungen [0007] Die Erfindung wird mithilfe der Beschreibung einer Ausführungsform verständlicher, die lediglich als Beispiel dient und durch die Figuren veranschaulicht wird, in denen:
Fig. 1 ein Beispiel von strukturierten und/oder halbstrukturierten Daten darstellt.
Fig. 2 die Auswahl einer Teilmenge von Datensätzen der Daten im Beispiel von Fig. 1 darstellt.
Fig. 3 das Ergebnis des Scannens auf sensible Informationen im Beispiel von Fig. 1 darstellt.
Fig. 4 die Auswahl einer Teilmenge von Klassen im Beispiel von Fig. 1 darstellt.
Ausführliche Beschreibung von möglichen Ausführungsformen der Erfindung [0008] Das vorliegende Verfahren oder Computerprogramm zur Datenverlustverhinderung (DLP) kann bei allen möglichen strukturierten oder halbstrukturierten Daten angewendet werden. Beispiele für strukturierte Daten sind Datenbanken, Listen usw. Ein Beispiel für halbstrukturierte Daten sind XML-Daten. Die Daten weisen mehrere Datensätze und mehrere Kategorien auf. Die Anzahl von Datensätzen ist normalerweise sehr hoch, sodass die Datenmenge sehr hoch ist und einen grossen Aufwand erfordert, durch den gesamten Inhalt der Daten zu suchen, insbesondere, falls die gesuchten Informationen abstrakt sind. Vorzugsweise sind die Datensätze auf eine geordnete Art und Weise gespeichert, sodass der nachfolgende Datensatz (der direkt benachbarte Datensatz in eine Richtung) jedes Datensatzes wohl definiert ist. Jeder Datensatz umfasst mehrere Felder, die unterschiedlichen Kategorien angehören. Eine Kategorie von Feldern bezieht sich auf eine strukturelle Ähnlichkeit oder ein gemeinsames Attribut der Felder in unterschiedlichen Datensätzen. Vorzugsweise besitzen die Felder der gleichen Kategorie von Feldern für unterschiedliche Datensätze die gleiche Grösse. Es ist allerdings auch möglich, dass die Felder der gleichen Klasse von unterschiedlichen Datensätzen unterschiedliche Grössen besitzen. Es ist ferner möglich, dass manche Datensätze Felder von Kategorien aufweisen, die nicht allen Datensätzen gemein sind.
[0009] Fig. 1 stellt das Beispiel einer Liste von Daten dar. In diesem Fall entsprechen die Zeilen 21,22, 23,... Datensätzen und die Spalten 31,32, 33, 34, 35, 35, 37 entsprechen Kategorien von Feldern. Jeder Datensatz oder jede Zeile 21, 22, 23, ... weist ein Feld für jede Spalte 31, 32, 33, 34, 35, 35, 37 auf, und/oder umgekehrt. Selbstverständlich könnten die Spalten 31, 32, 33, 34, 35, 35, 37 Datensätze sein und die Zeilen 21, 22, 23, ... könnten auch Kategorien von Feldern sein. Die Erfindung wird am Beispiel der in Fig. 1 dargestellten Liste erläutert. Die Erfindung soll jedoch nicht auf Listen beschränkt sein und alles für die Liste 1, die Zeilen 21, 22, 23,... und die Spalten 31, 32, 33, 34, 35, 35, 37 Erwähnte soll gleichermassen sinngemäss für strukturierte und/oder halbstrukturierte Daten im Allgemeinen, Datensätze und Kategorien von Feldern gelten. Im dargestellten Beispiel hat die Liste 1 ihre Struktur im Laufe der Zeit geändert, um den Vorteil des vorliegenden Verfahrens besser aufzuzeigen. Die Erfindung ist jedoch auch bei Daten mit homogenen Strukturen anwendbar. Während in einem ersten Teil von Zeilen 21,22, ... eine erste Struktur verwendet wird, wird in einem zweiten Teil der Zeilen 21', 22', 23', ... eine zweite Struktur verwendet. Im ersten Teil bezieht sich die Spalte 36 auf «Flugblatt» und die Spalte 37 auf «Adresse», während dies im zweiten Teil von Zeilen 21', 22', 23', ... umgekehrt ist.
[0010] Die Daten, hier die Liste 1, sind in einem Speicher gespeichert. Für Daten im Ruhezustand könnte dies eine Festplatte, ein Speicherzentrum oder etwas Ähnliches sein. Für Daten in Bewegung könnte der Speicher ein Kurzzeitspeicher (Puffer) zum Puffern der Daten zur Analyse sein.
[0011] Das im Folgenden beschriebene Verfahren wird an den im Speicher gespeicherten Daten durch Schaltkreise oder einen Prozessor durchgeführt. Ein Prozessor und/oder Schaltkreise könnte bzw. könnten ein einzelner Prozessor oder eine einzelne Schaltung sein, könnte bzw. könnten aber auch mehrere Prozessoren und/oder Schaltungen umfassen, die miteinander verbunden sind, um das erwähnte Verfahren durchzuführen. Mehrere Prozessoren und/oder Schaltungen könnten sich nahe zueinander in einem gemeinsamen Gehäuse oder Gebäude befinden, könnten aber auch entfernt voneinander sein und eine Cloud von Prozessoren und/oder Schaltungen konstituieren. Die Begriffe «Prozessor» und/oder «Schaltung» werden vorliegend äquivalent verwendet und sollten beide die Bedeutung des jeweils anderen umfassen. Das Verfahren zur Datenverlustverhinderung (DLP) wird im Folgenden beschrieben.
[0012] In einem ersten Schritt wird eine Teilmenge von Datensätzen der Daten ausgewählt. Vorzugsweise sollte die Teilmenge statistisch alle Datensätze der Daten repräsentieren. Daher sollte die Teilmenge von Datensätzen eine Anzahl von nicht aufeinanderfolgenden Datensätzen sein. Vorzugsweise sollte die Teilmenge von Datensätzen mindestens zwei Datensätze umfassen, zwischen denen die Daten mehrere Datensätze umfassen, die nicht in der Teilmenge enthalten sind. Dies ermöglicht, eine statistisch repräsentative Teilmenge von Datensätzen zu erhalten. Vorzugsweise sollten die ausgewählten Datensätze der Teilmenge von Datensätzen gut über die Daten 1 verteilt sein. Dies könnte durch ein zufälliges Auswählen der Datensätze auf Basis einer bestimmten statistischen Verteilung erhalten werden. Beispielsweise könnte eine einheitliche Verteilung verwendet werden. Es ist allerdings auch möglich, die Datensätze durch eine feste Funktion auszuwählen, z.B., indem jeder zehnte Datensatz angenommen wird.
[0013] Fig. 2 stellt eine zufällige Auswahl der Zeilen 21,24,... als eine Teilmenge 40 von Datensätzen dar. Aufgrund dieser zufälligen Auswahl der Teilmenge 40 enthält sie die Zeilen 21, 24, ... des ersten Teils von Zeilen 21, 22, 23, ... und die Zeilen 22', ... des zweiten Teils von Zeilen 21', 22', ...
[0014] In einem zweiten Schritt werden die Felder der ausgewählten Teilmenge 40 von Kategorien auf sensible Informationen gescannt. Sensible Informationen sind zum Beispiel persönliche Informationen wie Namen, Adressen, Zahlungsangaben wie Kreditkartennummern und andere persönliche Informationen oder geheime Informationen. Die sensiblen Informationen können allgemein sein, d. h. eine Art von sensiblen Informationen wie Namen im Allgemeinen, oder können spezifisch sein, d. h. eine spezifische sensible Information wie eine spezifische Kreditkartennummer eines Kunden. Das Scannen auf sensible Informationen kann auf Regeln basieren (z.B. zum Detektieren im Allgemeinen einer Kreditkartennummer oder einer IBAN-Nummer) oder kann auf Schlüsselwörtern basieren. Schlüsselwörter und/oder Regeln sollten auch Suchphrasen/-begriffe, Suchlisten und/oder Suchmuster enthalten. Eine Namenssuche könnte zum Beispiel auch die Suchphrase oder das Schlüsselwort «Oil & Gas Ltd» umfassen. Für eine Art von Informationen wird allgemein eine Regel oder ein Satz von Schlüsselwörtern oder ein Wörterbuch (z.B. die geläufigsten Namen) durchsucht.
[0015] Bei einer bevorzugten Ausführungsform umfasst der Schritt des Scannens auf sensible Informationen die Suche von mindestens zwei Arten von sensiblen Informationen. In Fig. 3 ist ein Scan-Ergebnis dargestellt, wobei in der Teilmenge 40 von Kategorien Namen im Allgemeinen als eine erste Art von sensiblen Informationen, Kreditkartennummern im Allgemeinen als eine zweite Art von sensiblen Informationen, Standorte im Allgemeinen als eine dritte Art von sensiblen Informationen gesucht werden. Namen könnten gesucht werden, indem nach allen Schlüsselwörtern in einem Wörterbuch, das die geläufigsten Namen als Schlüsselwörter enthält, gesucht wird. Kreditkartennummern könnten durch eine Regel gesucht werden, die 16 Ziffern identifiziert. Standorte könnten gesucht werden, indem nach allen Schlüsselwörtern in einem Wörterbuch, das die geläufigsten Standorte als Schlüsselwörter enthält, gesucht wird. In der ersten Spalte 31 wurden Namen gefunden. In der zweiten Spalte 32 wurden Kreditkartennummern gefunden. In der vierten Spalte 34 wurde ein Feld gefunden, in dem das Schlüsselwort «Paris» gefunden wurde, was ein Name oder ein Standort sein könnte.
Im zweiten Teil von Zeilen wurden in der sechsten Spalte 36 Standorte gefunden und im ersten Teil der siebten Spalte 37 wurden auch Standorte gefunden. Da manche Schlüsselwörter und/oder Regeln unterschiedliche Arten von sensiblen Informationen angeben könnten, könnten diese Schlüsselwörter und/oder Regeln mit mehr als einer Art von sensiblen Informationen assoziiert sein. Das in der vierten Spalte 34 gefundene Schlüsselwort «Paris» könnte zum Beispiel einen Standort oder einen Namen angeben. Natürlich sind dies nur Beispiele für Arten von sensiblen Informationen, die die Erfindung nicht einschränken sollen.
[0016] Anstatt die Art von sensiblen Informationen zu suchen, ist es auch möglich, die Teilmenge von Datensätzen auf konkrete sensible Informationen wie die Namen und Informationen einer Kundendatenbank zu scannen.
[0017] In einem dritten Schritt wird für jede Kategorie eine Wahrscheinlichkeit, die sensiblen Informationen zu enthalten, auf Basis des Scan-Ergebnisses berechnet. Die Wahrscheinlichkeit, die sensiblen Informationen zu enthalten, könnte auf Basis der Felder der Teilmenge 40 von Datensätzen berechnet werden, die die sensiblen Informationen enthalten, z.B. die Anzahl von Feldern, die die sensiblen Informationen enthalten, dividiert durch die Anzahl von Datensätzen/Zeilen, die in der Teilmenge 40 von Datensätzen enthalten sind. Bei einer komplexeren Ausführungsform könnte für jedes Feld eine Wahrscheinlichkeit, sensible Informationen oder eine bestimmten Art von Information zu enthalten, bestimmt werden. Die Wahrscheinlichkeit, eine sensible Information zu enthalten, könnte dann auf Basis der Wahrscheinlichkeit jedes Felds der Teilmenge 40 von Datensätzen, die sensiblen Informationen zu enthalten, berechnet werden. Die Wahrscheinlichkeit für jedes Feld, sensible Informationen zu enthalten, kann zum Beispiel berechnet werden, indem zu jeder Regel und/oder jedem Schlüsselwort zum Suchen einer bestimmten Art von sensiblen Informationen eine Wahrscheinlichkeit, diese gesuchte Art von sensiblen Informationen zu enthalten, assoziiert wird. Falls ein Schlüsselwort und/oder eine Regel mit unterschiedlichen Arten von sensiblen Informationen assoziiert ist, könnten sich unterschiedliche Wahrscheinlichkeiten auf jede Assoziation beziehen. Im obigen Beispiel könnte «Paris» mit 20%-iger Wahrscheinlichkeit einen Namen und mit 70% einen Standort angeben. Auf Basis dieser Wahrscheinlichkeiten, dass ein Feld der Teilmenge 40 von Datensätzen eine bestimmte Art von sensiblen Informationen enthält, kann die Wahrscheinlichkeit, dass diese Art von sensiblen Informationen in einer Kategorie enthalten ist, verbessert werden. Die Wahrscheinlichkeit, eine bestimmte Art von sensiblen Informationen in einer Kategorie zu enthalten, könnte zusätzlich auf Basis von Metadaten, wie die Überschrift 20 jeder Kategorie, verbessert werden. Die Überschrift «Name» in Spalte 31 deutet z.B. stark darauf hin, dass die Spalte Namen enthält. Derartige Informationen werden z.B. durch manche Datenbankoptimierer ohne eine zusätzliche Datenverarbeitung bereitgestellt.
[0018] Bei einer Ausführungsform werden die Wahrscheinlichkeiten unterschiedlicher Arten von sensiblen Informationen, die in einer Kategorie oder einem Feld enthalten sind, zu einer Wahrscheinlichkeit, beliebige sensible Informationen in der Kategorie oder dem Feld zu enthalten, kombiniert. Bei einer anderen Ausführungsform werden die Wahrscheinlichkeiten für unterschiedliche Arten von sensiblen Informationen getrennt gehalten. In diesem Fall müssten die folgenden Schritte für jede Art von sensiblen Informationen durchgeführt werden. Beide Ausführungsformen könnten kombiniert werden, sodass eine Art von sensiblen Informationen getrennt gehalten wird (z.B. Kreditkartennummern), während andere Arten von sensiblen Informationen zu einer Wahrscheinlichkeit einer kombinierten Art von sensiblen Informationen, die in einer Kategorie enthalten sind, kombiniert werden.
[0019] In einem vierten Schritt wird eine Teilmenge von Kategorien auf Basis der berechneten Wahrscheinlichkeiten der Kategorien, die sensiblen Informationen zu enthalten, ausgewählt. Dies könnte zum Beispiel durch eine vorbestimmte Schwelle realisiert werden. Alle Kategorien, die eine Wahrscheinlichkeit, die sensiblen Informationen zu enthalten, von grösser als die Schwelle aufweisen, werden in der Teilmenge von Kategorien eingeschlossen. Die Schwelle könnte durch einen Benutzer konfigurierbar sein, um den Grad an Zuverlässigkeit des Verfahrens zu definieren. Fig. 4 stellt die Teilmenge 50 der Spalten 31, 32, 34, 36 und 37 dar, die potenziell die sensiblen Informationen enthält. Aufgrund der statistisch repräsentativen Teilmenge 40 von Zeilen wurde auch detektiert, dass die Spalte 36 potenziell Standorte enthält, obwohl sie im ersten Teil von Zeilen nur eine binäre Informationskennzeichnung enthält. Daher detektiert das Verfahren zuverlässig Kategorien mit potenziellen sensiblen Informationen. In dem Fall, dass unterschiedliche Wahrscheinlichkeiten pro Kategorie für unterschiedliche Arten von sensiblen Informationen berechnet werden, könnten unterschiedliche Teilmengen 50 von Kategorien für jede Art von sensiblen Informationen ausgewählt werden. Es könnten zum Beispiel eine erste Teilmenge, die die Spalte 32 für Kreditkarteninformationen enthält, und eine zweite Teilmenge, die die Spalten 31, 34, 36 und 37 für Namen und Standorte enthält, bestimmt werden.
[0020] In einem fünften Schritt werden die sensiblen Informationen in der ausgewählten Teilmenge 50 von Kategorien gesucht. Die gleichen Techniken, wie für den Scanschritt beschrieben, könnten zum Durchsuchen der Felder verwendet werden. Für bestimmte sensible Informationen, die nur in einer Spalte detektiert wurden, könnte es vorteilhaft sein, unterschiedliche Teilmengen für unterschiedliche Arten von sensiblen Informationen aufzuweisen, wie für die Kreditkarteninformationen in Spalte 32. Für bestimmte sensible Informationen wie Namen und Standorte ist eine kombinierte Teilmenge vorteilhafter, da Schlüsselwörter und/oder Regeln, die mit unterschiedlichen Arten von sensiblen Informationen assoziiert sind, nur einmal in dieser Teilmenge gesucht werden müssen, um zwei unterschiedliche Arten von sensiblen Informationen zu detektieren.
[0021] In einem optionalen Schritt könnte das Verfahren einen Datenverlustverhinderungsschritt umfassen, falls potenzielle sensible Informationen in den Daten gefunden werden. Mögliche Datenverlustverhinderungsschritte sind das Doku

Claims (11)

  1. mentieren, Benachrichtigen an einen Benutzer und/oder Blockieren oder Unter-Quarantäne-Stellen der gefundenen sensiblen Informationen. [0022] Der in dieser Anmeldung verwendete Begriff «Wahrscheinlichkeit» ist vorzugsweise ein Wert zwischen 0 und 1. Der Begriff «Wahrscheinlichkeit» sollte jedoch auch andere Werte abdecken, die einen wahrscheinlichkeitsartigen Wert angeben, z.B. eine Wertung oder ein Gewicht. Patentansprüche
    1. Verfahren zum Durchsuchen von Daten zur Verhinderung eines Datenverlusts, wobei die Daten strukturierte und/oder halbstrukturierte Daten mit mehreren Datensätzen und mehreren Kategorien sind, wobei jeder Datensatz mehrere Felder umfasst, die jeweils einer unterschiedlichen der Kategorien angehören, wobei das Verfahren die folgenden Schritte umfasst: Auswählen, in einem Prozessor, einer Teilmenge von Datensätzen der Daten, wobei die ausgewählte Teilmenge mindestens zwei Datensätze aufweist, zwischen denen die Daten mehrere Datensätze aufweisen, die nicht in der Teilmenge enthalten sind; Scannen der Felder der ausgewählten Teilmenge von Datensätzen auf sensible Informationen in dem Prozessor; Berechnen, in dem Prozessor, für jede Kategorie eine Wahrscheinlichkeit, die sensiblen Informationen zu enthalten, auf Basis des Scan-Ergebnisses; Auswählen, im Prozessor, einer Teilmenge von Kategorien auf Basis der berechneten Wahrscheinlichkeiten der Kategorien, die sensiblen Informationen zu enthalten; Suchen, im Prozessor, der sensiblen Informationen in der ausgewählten Teilmenge von Kategorien.
  2. 2. Verfahren nach Anspruch 1, wobei die Anzahl von Datensätzen der Teilmenge von Datensätzen auf Basis der Anzahl von Datensätzen und/oder der Anzahl von individuellen/Datensätzen in den Daten gewählt wird.
  3. 3. Verfahren nach Anspruch 1 oder 2, wobei die Anzahl von Datensätzen der Teilmenge von Datensätzen auf Basis eines technischen Parameters der Infrastruktur gewählt wird.
  4. 4. Verfahren nach Anspruch 3, wobei der technische Parameter eine Geschwindigkeit des Prozessors und/oder eine Bandbreite einer Kommunikationsverbindung zwischen einem Speicher der Daten und dem Prozessor ist.
  5. 5. Verfahren nach einem der Ansprüche 1 bis 4, wobei auf Basis des Scan-Ergebnisses Wahrscheinlichkeiten unterschiedlicher Arten von sensiblen Informationen, die in einer Kategorie oder einem Feld enthalten sind, berechnet und zu der Wahrscheinlichkeit, die sensiblen Informationen zu enthalten, kombiniert werden.
  6. 6. Verfahren nach einem der Ansprüche 1 bis 5, wobei die Felder der ausgewählten Teilmenge von Datensätzen auf sensible Informationen gescannt werden, indem mehrere Schlüsselwörter und/oder mindestens eine Regel in den Feldern der ausgewählten Teilmenge von Datensätzen detektiert wird bzw. werden, wobei jedes der mehreren Schlüsselwörter und/oder jede der mehreren Regeln mit einer Wahrscheinlichkeit, die sensiblen Informationen zu enthalten, assoziiert ist, und wobei die Wahrscheinlichkeit, die sensiblen Informationen in einer Kategorie zu enthalten, basierend auf der Wahrscheinlichkeit berechnet wird, die mit dem einen oder den mehreren in der Kategorie gefundenen Schlüsselwörtern und/oder der einen oder den mehreren in der Kategorie gefundenen Regeln assoziiert ist.
  7. 7. Verfahren nach einem der Ansprüche 1 bis 6, wobei die sensiblen Informationen mindestens zwei Arten von sensiblen Informationen umfassen.
  8. 8. Verfahren nach Anspruch 7, wobei jede der mindestens zwei Arten von sensiblen Informationen in der ausgewählten Teilmenge von Datensätzen gescannt wird, indem mehrere Schlüsselwörter und/oder mindestens eine Regel detektiert wird bzw. werden, wobei zumindest manche der Schlüsselwörter und/oder der mindestens einen Regel mit unterschiedlichen Wahrscheinlichkeiten zu den mindestens zwei Arten von sensiblen Informationen assoziiert sind, wobei die Wahrscheinlichkeit einer Kategorie, eine der mindestens zwei Arten von sensiblen Informationen in einem Feld zu enthalten, auf der Wahrscheinlichkeit der Schlüsselwörter und/oder der mindestens einen Regel basiert, die mit dieser Art von in dieser Kategorie gefundenen sensiblen Informationen assoziiert sind.
  9. 9. Verfahren nach Anspruch 8, wobei jedes Schlüsselwort und/oder jede Regel, das bzw. die mit mehreren der mindestens zwei Arten von sensiblen Informationen assoziiert ist/sind, nur einmal in der Teilmenge gesucht werden, um potenzielle Vorkommnisse aller Arten von sensiblen Informationen bezüglich des gesuchten Schlüsselwortes und/oder der gesuchten Regel zu detektieren.
  10. 10. Speichermedium, aufweisend ein Computerprogramm, das Anweisungen zum Durchführen der Schritte des Verfahrens nach einem der vorangegangenen Ansprüche aufweist, wenn es auf einem Prozessor ausgeführt wird.
  11. 11. Vorrichtung zum Durchsuchen von Daten zur Datenverlustverhinderung, umfassend: einen Speicher, der Daten umfasst, die strukturierte und/oder halbstrukturierte Daten mit mehreren Datensätzen und mehreren Kategorien sind, wobei jeder Datensatz mehrere Felder umfasst, die sich jeweils auf eine unterschiedliche Kategorie beziehen, eine Schaltung, die zum Durchführen der Schritte des Verfahrens nach einem der Ansprüche 1 bis 9 an den im Speicher gespeicherten Daten konfiguriert ist.
CH01309/16A 2016-10-03 2016-10-03 Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust. CH712988B1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CH01309/16A CH712988B1 (de) 2016-10-03 2016-10-03 Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust.
EP17193574.5A EP3301603A1 (de) 2016-10-03 2017-09-27 Verbesserte suche für die verhinderung von datenverlust
US15/723,883 US11609897B2 (en) 2016-10-03 2017-10-03 Methods and systems for improved search for data loss prevention
US18/117,826 US20230205755A1 (en) 2016-10-03 2023-03-06 Methods and systems for improved search for data loss prevention

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CH01309/16A CH712988B1 (de) 2016-10-03 2016-10-03 Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust.

Publications (2)

Publication Number Publication Date
CH712988A1 CH712988A1 (de) 2018-04-13
CH712988B1 true CH712988B1 (de) 2018-09-14

Family

ID=59982316

Family Applications (1)

Application Number Title Priority Date Filing Date
CH01309/16A CH712988B1 (de) 2016-10-03 2016-10-03 Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust.

Country Status (3)

Country Link
US (2) US11609897B2 (de)
EP (1) EP3301603A1 (de)
CH (1) CH712988B1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9584492B2 (en) * 2014-06-23 2017-02-28 Vmware, Inc. Cryptographic proxy service
US11431712B2 (en) * 2019-05-29 2022-08-30 International Business Machines Corporation System and method for personalized passenger auditing in aircrafts
EP3929787A1 (de) * 2020-06-22 2021-12-29 CA, Inc. Detektion von empfindlichen datenaufzeichnungen unter verwendung einer datenformatanalyse
US20230351045A1 (en) * 2022-04-29 2023-11-02 Microsoft Technology Licensing, Llc Scan surface reduction for sensitive information scanning

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4210961B1 (en) * 1971-10-08 1996-10-01 Syncsort Inc Sorting system
US7673344B1 (en) * 2002-09-18 2010-03-02 Symantec Corporation Mechanism to search information content for preselected data
US8752181B2 (en) * 2006-11-09 2014-06-10 Touchnet Information Systems, Inc. System and method for providing identity theft security
US9015499B2 (en) * 2010-11-01 2015-04-21 Cleversafe, Inc. Verifying data integrity utilizing dispersed storage
US8769200B2 (en) * 2011-03-01 2014-07-01 Xbridge Systems, Inc. Method for managing hierarchical storage during detection of sensitive information, computer readable storage media and system utilizing same
US20120226677A1 (en) * 2011-03-01 2012-09-06 Xbridge Systems, Inc. Methods for detecting sensitive information in mainframe systems, computer readable storage media and system utilizing same
US8856157B2 (en) * 2011-08-23 2014-10-07 Business Objects Software Limited Automatic detection of columns to be obfuscated in database schemas
WO2013106883A1 (en) * 2012-01-20 2013-07-25 WISE AS TRUSTEE FOR THE MMW FAMILY TRUST, Michelle Data management system and method
US9904579B2 (en) * 2013-03-15 2018-02-27 Advanced Elemental Technologies, Inc. Methods and systems for purposeful computing
US20160048575A1 (en) * 2013-03-24 2016-02-18 OSHREG TECHNOLGIES Ltd. System and method for topics extraction and filtering
US9785795B2 (en) * 2014-05-10 2017-10-10 Informatica, LLC Identifying and securing sensitive data at its source
US10691663B2 (en) * 2014-09-16 2020-06-23 Sap Se Database table copy

Also Published As

Publication number Publication date
US20180096021A1 (en) 2018-04-05
CH712988A1 (de) 2018-04-13
US20230205755A1 (en) 2023-06-29
EP3301603A1 (de) 2018-04-04
US11609897B2 (en) 2023-03-21

Similar Documents

Publication Publication Date Title
DE602004003361T2 (de) System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen
DE112020002600T5 (de) Entdecken einer semantischen bedeutung von datenfeldern anhand von profildaten der datenfelder
DE69811066T2 (de) Datenzusammenfassungsgerät.
DE102014204827A1 (de) Auflösen ähnlicher Entitäten aus einer Transaktionsdatenbank
DE60127889T2 (de) Verfahren zur Erkennung Doppelbildern in einem automatischen Albensystem
EP1877932B1 (de) System und verfahren zur aggregation und überwachung von dezentralisiert gespeicherten multimediadaten
DE102005032734B4 (de) Indexextraktion von Dokumenten
EP1783633B1 (de) Suchmaschine für eine ortsbezogene Suche
DE112017005638T5 (de) Systeme und Verfahren zur Bestimmung der Beziehung zwischen Datenelementen
DE69616246T2 (de) Automatisches Verfahren zum Identifizieren von Wegfallwörtern in der Abbildung eines Dokumentes ohne Verwendung vom OCR
DE112018002047T5 (de) Dokumentenanalyse mit mehreren faktoren
CH712988B1 (de) Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust.
DE102005032744A1 (de) Indexextraktion von Dokumenten
DE112018005725T5 (de) Daten-deidentifikation auf der grundlage eines erkennens von zulässigen konfigurationen für daten-deidentifikationsprozesse
DE112010004014T5 (de) Kompensation unausgeglichener Hierarchien beim Erzeugen von Olap-Abfragen aus Berichtsspezifikationen
DE112017007530T5 (de) Entitätsmodell-erstellung
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE112018001165T5 (de) Automatisierte dokumentenanalyse für unterschiedliche natürliche sprachen
DE102017005964A1 (de) Techniken zum Auswählen von Objekten in Bildern
DE102012214196A1 (de) Erkennen nicht eindeutiger Namen in einer Gruppe von Namen
DE60300984T2 (de) Methode und Computersystem für die Optimierung eines Boolschen Ausdrucks für Anfragebearbeitung
DE102021123058A1 (de) Maskieren von sensiblen informationen in einem dokument
DE112018002626T5 (de) Verfahren und Systeme zur optimierten visuellen Zusammenfassung von Sequenzen mit zeitbezogenen Ereignisdaten
EP3889806B1 (de) Bitsequenzbasiertes datenklassifikationssystem
DE112010004914T5 (de) Indexieren von Dokumenten

Legal Events

Date Code Title Description
PL Patent ceased