DE112021003761T5

DE112021003761T5 - Prädiktive modelle mit zerlegbaren hierarchischen ebenen, die konfiguriert werden, um interpretierbare resultate zu erzeugen

Info

Publication number: DE112021003761T5
Application number: DE112021003761.7T
Authority: DE
Inventors: Nianjun Zhou; Wesley M. Gifford; Ta-Hsin Li; Pietro Mazzoleni; Pavankumar Murali
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-07-14
Filing date: 2021-07-01
Publication date: 2023-05-04
Also published as: CN116249994A; JP2023534956A; GB2611983A; US20220019911A1; US11593680B2; WO2022012347A1

Abstract

Ein computerrealisiertes Verfahren zum Bereitstellen interpretierbarer Vorhersagen aus einem ML-Modell enthält ein Empfangen einer Datenstruktur, die für eine hierarchische Struktur eines Satzes von Merkmalen (X) steht, der durch ein oder mehrere prädiktive Modelle verwendet wird, um einen Satz von Vorhersagen (Y) zu erzeugen. Ein Interpretierbarkeitsmodell wird erzeugt, das den prädiktiven Modellen entspricht, indem einer jeden Vorhersage Yiauf Grundlage der hierarchischen Struktur eine Interpretierbarkeit zugewiesen wird. Ein Zuweisen der Interpretierbarkeit enthält ein Zerlegen von X in eine Mehrzahl von Segmenten Xjunter Verwendung der hierarchischen Struktur, wobeiX=U1NXj und N die Anzahl der Segmente ist. Des Weiteren wird jedes Segment unter Verwendung der hierarchischen Struktur so lange in eine Mehrzahl von Teilsegmenten zerlegt, bis unteilbare Teilsegmente erhalten werden. Für jedes Segment wird ein Score als eine Funktion der vorhergesagten Scores der Teilsegmente berechnet, wobei die vorhergesagten Scores für Interaktionen zwischen den Teilsegmenten stehen. Des Weiteren wird eine Interpretation einer Vorhersage ausgegeben.

Description

HINTERGRUND
Die vorliegende Offenbarung bezieht sich im Allgemeinen auf programmierbare Computer und im Besonderen auf programmierbare Computersysteme, die konfiguriert werden, um einen Satz von prädiktiven Modellen zu erzeugen und auszuführen, die zerlegbare hierarchische Strukturen von genutzten Merkmalen verwenden, die in verschiedene Granularitäten gruppiert werden, um einfacher interpretierbare Resultate zu erzeugen.
Viele Fachgebiete wie z.B. das Fachgebiet der Medizin versuchen, die Verwendung von prädiktiven Modellen mit maschinellem Lernen (ML) einzubinden, um Aufgaben durchzuführen, die die Analyse von Daten erfordern und die des Weiteren erfordern, die Resultate der betreffenden Analyse als Grundlage für künftige Aktionen zu verwenden. Im Allgemeinen werden prädiktive ML-Modelle durch neuronale Netzwerke oder andere ML-Algorithmen erzeugt und ausgeführt, die als programmierbare Computer realisiert werden können, die konfiguriert werden, um einen Satz von ML-Algorithmen auszuführen. Neuronale Netzwerke enthalten Wissen aus einer Vielfalt von Fachrichtungen wie z.B. Neurophysiologie, Kognitionswissenschaft/Psychologie, Physik (statistische Mechanik), Steuerungstheorie, Computerwissenschaft, künstliche Intelligenz, Statistik/Mathematik, Mustererkennung, Computer Vision, Parallelverarbeitung und Hardware (z.B. digital/analog/VLSI/optisch).
Die grundlegende Funktion von neuronalen Netzwerken und anderen ML-Algorithmen besteht darin, Muster zu erkennen, indem sie unstrukturierte Daten durch eine Art von maschineller Wahrnehmung interpretieren. Unstrukturierte Echtweltdaten in ihrer nativen Form (z.B. Bilder, Klänge, Text oder Zeitreihendaten) werden in eine numerische Form umgewandelt (z.B. einen Vektor mit einer Magnitude und einer Richtung), die durch einen Computer verstanden und verarbeitet werden kann. Der ML-Algorithmus führt so lange mehrere Iterationen einer auf Lernen beruhenden Analyse der Echtweltdaten-Vektoren durch, bis Muster (oder Beziehungen), die in den Echtweltdaten-Vektoren enthalten sind, festgestellt und gelernt werden. Die gelernten Muster/Beziehungen dienen als prädiktive Modelle, die verwendet werden können, um eine Vielfalt von Aufgaben durchzuführen, einschließlich zum Beispiel Vorhersagen von Echtweltdaten. Vorhersageaufgaben sind häufig von der Verwendung gekennzeichneter Datensätze abhängig, um das neuronale Netzwerk (d.h. das Modell) oder andere ML-Modelle zu trainieren, die Korrelation zwischen Kennzeichnungen und Daten zu erkennen. Dies ist als überwachtes Lernen bekannt.
Obwohl einfache Vorhersagemodelle unter Verwendung der generischen linearen Modelle oder Entscheidungsbaum-Modelle selbsterklärend sein können, können Resultate von ML-Modellen, die für kompliziertere Aufgaben erzeugt werden, für eine komplexere Modellstruktur schwer verständlich sein. Die zur Durchführung komplizierter Aufgaben (z.B. die Sentiment-Analyse von Online-Beiträgen) entwickelten ML-Modelle sind häufig insofern „Blackbox“-Modelle, als die Beziehung zwischen der Aufgabe, die dem Modell zugewiesen wird, und den Resultaten, die durch das Modell erzeugt werden, nicht klar ist. Mit zunehmender Komplexität der Aufgaben kann vielmehr die Beziehung zwischen den Resultaten des Modells und der Aufgabe, für deren Durchführung das Modell entworfen wurde, unklar werden.
KURZDARSTELLUNG
Ein computerrealisiertes Verfahren zum Bereitstellen interpretierbarer Vorhersagen aus einem ML-Modell enthält ein Empfangen einer Datenstruktur, die für eine hierarchische Struktur eines Satzes von Merkmalen (X) steht, der durch ein oder mehrere prädiktive Modelle verwendet wird, um einen Satz von Vorhersagen (Y) zu erzeugen. Das Verfahren enthält ein Erzeugen eines Interpretierbarkeitsmodells, das den prädiktiven Modellen entspricht, indem einer jeden Vorhersage Y_i des prädiktiven Modells auf Grundlage der hierarchischen Struktur eine Interpretierbarkeit zugewiesen wird. Ein Zuweisen der Interpretierbarkeit enthält ein Zerlegen des Satzes von Merkmalen (X) der Eingabedaten in eine Mehrzahl von Segmenten X_j unter Verwendung der hierarchischen Struktur, wobei $X = U_{1}^{N} X_{j}$
und N die Anzahl der Segmente ist. Des Weiteren wird jedes Segment unter Verwendung der hierarchischen Struktur so lange in eine Mehrzahl von Teilsegmenten zerlegt, bis unteilbare Teilsegmente erhalten werden. Für jedes Segment wird ein Score-Wert als eine Funktion der vorhergesagten Score-Werte der Teilsegmente berechnet, wobei die vorhergesagten Score-Werte für Interaktionen zwischen den Teilsegmenten stehen. Des Weiteren wird auf Grundlage des Interpretierbarkeitsmodells eine Interpretation einer Vorhersage ausgegeben, die durch das prädiktive Modell bereitgestellt wird. Die Interpretationsresultate stehen für eine Gewichtung des einen oder der mehreren Merkmale, die durch das prädiktive Modell verwendet werden, um die Vorhersage zu erzeugen.
Andere Ausführungsformen der vorliegenden Offenbarung realisieren Merkmale des oben beschriebenen Verfahrens in Computersystemen und Computerprogrammprodukten.
Durch die Methoden der vorliegenden Offenbarung werden zusätzliche technische Merkmale und Vorteile realisiert. Ausführungsformen und Aspekte der Offenbarung werden hierin ausführlich beschrieben und als Bestandteil der beanspruchten Erfindung betrachtet. Zum besseren Verständnis wird auf die ausführliche Beschreibung und die Zeichnungen verwiesen.
Figurenliste
Die Besonderheiten der hierin beschriebenen Ausschließlichkeitsrechte werden in den Ansprüchen am Ende der Beschreibung konkret aufgezeigt und eindeutig beansprucht. Die oben genannten und weitere Merkmale und Vorteile der Ausführungsformen der Offenbarung werden aus der folgenden ausführlichen Beschreibung in Verbindung mit den beigefügten Zeichnungen offensichtlich, wobei:

1 ein ML-System darstellt, das zum Realisieren von Aspekten der Erfindung verwendet werden kann;
2 eine Lernphase darstellt, die durch das in 1 gezeigte ML-System realisiert werden kann;
3 ein Blockschaubild einer Konfiguration von ML-Modellen und Komponenten darstellt, die gemäß einer oder mehreren Ausführungsformen der Erfindung konfiguriert und angeordnet werden;
4 eine Darstellung einer hierarchischen Beispielstruktur gemäß einer oder mehreren Ausführungsformen der Erfindung darstellt;
5 eine Darstellung einer hierarchischen Beispielstruktur gemäß einer oder mehreren Ausführungsformen der Erfindung darstellt;
6 eine Darstellung eines Beispiels für ein Aufmerksamkeitsmodell darstellt, das verwendet wird, um gemäß einer oder mehreren Ausführungsformen der Erfindung Vorhersagen mit einer bestimmten Granularität zu trainieren;
7 ein veranschaulichendes Beispiel für Trainingsmodelle unter Verwendung einer hierarchischen Struktur gemäß einer oder mehreren Ausführungsformen der Erfindung darstellt;
8 ein veranschaulichendes Beispiel für ein Quantifizieren der Interaktion von Faktoren auf Grundlage der Differenz zwischen dem groben Vorhersageniveau und dem unmittelbar darauffolgenden Vorhersageniveau gemäß einer oder mehreren Ausführungsformen der Erfindung darstellt;
9 gemäß einer oder mehreren Ausführungsformen der Erfindung ein veranschaulichendes Beispiel für ein Beispielsystem zum Erzeugen und Ausführen prädiktiver Modelle darstellt, die zerlegbare hierarchische Strukturen von genutzten Merkmalen verwenden, um einfacher interpretierbare Resultate zu erzeugen.
10 ein veranschaulichendes Beispiel für einen Pseudocode für einen Algorithmus darstellt, um gemäß einer oder mehreren Ausführungsformen der Erfindung eine Interpretierbarkeit mit zerlegbaren hierarchischen Strukturen hinzuzufügen;
11 einen Ablaufplan eines Verfahrens zum Bereitstellen einer Interpretierbarkeit für prädiktive Modelle unter Verwendung von zerlegbaren hierarchischen Strukturen gemäß einer oder mehreren Ausführungsformen der Erfindung darstellt; und
12 ein Blockschaubild eines Verarbeitungssystems zum Bereitstellen einer Interpretierbarkeit für prädiktive Modelle unter Verwendung von zerlegbaren hierarchischen Strukturen gemäß einer oder mehreren Ausführungsformen der Erfindung darstellt.

Die hierin abgebildeten Darstellungen dienen lediglich der Veranschaulichung. Es sind viele Abweichungen von den hierin beschriebenen Darstellungen bzw. Operationen möglich, ohne vom gedanklichen Wesensgehalt der Offenbarung abzuweichen. Zum Beispiel können die Aktionen in einer anderen Reihenfolge durchgeführt werden, oder Aktionen können hinzugefügt, gelöscht oder geändert werden. Darüber hinaus beschreiben der Begriff „verbunden“ und Variationen hiervon einen Datenübertragungspfad zwischen zwei Elementen und implizieren keine direkte Verbindung zwischen den Elementen ohne dazwischengeschaltete Elemente/Verbindungen. All diese Variationen werden als Bestandteil der Beschreibung betrachtet.
AUSFÜHRLICHE BESCHREIBUNG
Die vorliegende Offenbarung ist im Allgemeinen auf Systeme und Verfahren für prädiktive Modelle mit zerlegbaren hierarchischen Ebenen gerichtet, die konfiguriert werden, um interpretierbare Resultate zu erzeugen. Die hierin beschriebenen Systeme und Verfahren sind darauf gerichtet, neben Resultaten von ML-Modellen auch interpretierbare Resultate bereitzustellen, die für Benutzer wie z.B. Entscheidungsträger in beruflichen Tätigkeitsfeldern leicht verständlich sind. Das System kann interpretierte Resultate aus einem Eingabedatensatz erzeugen, die durch ML-Modelle erzeugt werden. Die interpretierten Resultate stellen einen Kontext bereit, indem sie z.B. die Faktoren identifizieren, die eine bestimmte Vorhersage beeinflusst haben, und stellen den Kontext und die Resultate der ML-Modelle auf eine klare und leicht verständliche Weise bereit. Das System verwendet einen Zerlegbarkeitsansatz, um jedem Schlüsselfaktor der durch die ML-Modelle erzeugten Resultate die Interpretierbarkeit hinzuzufügen. Die interpretierten Resultate können auf verschiedenen Granularitätsstufen betrachtet werden, sodass ein Benutzer zu einer höheren Granularitätsstufe der Resultate wechseln kann, die mit einer kontextbezogenen Schlussfolgerung und Begründung bereitgestellt wird.
Ausführungsformen der vorliegenden Offenbarung sind auf ein Bereitstellen einer Interpretierbarkeit für prädiktive Modelle unter Verwendung von zerlegbaren hierarchischen Strukturen und neuronalen Aufmerksamkeitsnetzwerken gerichtet. Ein nicht beschränkendes, computerrealisiertes Beispielverfahren enthält eine Verwendung einer hierarchischen Struktur, die durch einen oder mehrere Experten erzeugt wird, um für jede Ebene der hierarchischen Struktur mehrere prädiktive Modelle zu erzeugen. Jede Ebene der hierarchischen Struktur enthält einen Teilsatz von Merkmalen, wobei eine Stammebene sämtliche Merkmale enthält, die durch die hierarchische Struktur berücksichtigt werden. Jedes prädiktive Modell kann ein neuronales Aufmerksamkeitsnetzwerk verwenden, um unter Verwendung der Merkmale aus der entsprechenden Ebene eine Ausgabe vorherzusagen. Bei einer oder mehreren Ausführungsformen der vorliegenden Erfindung wird jede Ebene des Weiteren in Gruppen von Merkmalen segmentiert, und jedes Segment wird verwendet, um ein entsprechendes prädiktives Modell zu trainieren. Indem mehrere derartige prädiktive Modelle aus jeder Ebene trainiert werden, wird unter Verwendung eines Scores bzw. Score-Wertes, der jedem Segment zugewiesen wird, eine endgültige vorhergesagte Ausgabe erzeugt.
Eine oder mehrere Ausführungsformen der vorliegenden Erfindung enthalten ein computerrealisiertes Verfahren, das ein Segmentieren von Eingabedaten gemäß der hierarchischen Struktur enthält. Das Verfahren enthält des Weiteren ein Bereitstellen eines vorhergesagten Scores oder Werts für jedes Segment. Das Verfahren kann des Weiteren ein Zerlegen eines jeden Segments in Teilsegmente unter Verwendung der hierarchischen Struktur enthalten. Das Verfahren enthält des Weiteren ein Bereitstellen eines neuen vorhergesagten Scores oder Werts für jedes Teilsegment. Die Scores können unter Verwendung von neuronalen Aufmerksamkeitsnetzwerk-Modellen berechnet werden. Das Verfahren enthält des Weiteren ein Bereitstellen der Interpretierbarkeit einer bereitgestellten Vorhersage auf Grundlage der Eingabedaten unter Verwendung des Beitrags von Merkmalen (d.h. eines Merkmalssegments) zu dem Gesamt-Score oder Gesamtwert von prädiktiven Modellen. Die Interpretierbarkeit wird als die Interaktion von Scores oder Werten eines Segments und seiner Teilsegmente bestimmt.
Ausführungsformen der vorliegenden Erfindung enthalten Systeme, Computerprogrammprodukte und andere Arten von Realisierungen. Entsprechend sind eine oder mehrere hierin beschriebene Ausführungsformen der vorliegenden Erfindung darauf gerichtet, neben Resultaten, die durch neuronale Aufmerksamkeitsnetzwerk-Modelle erzeugt werden, interpretierbare Resultate bereitzustellen, um Kontext und Klarheit bereitzustellen. Indem Resultate bereitgestellt werden, die besser zugänglich und leichter verständlich als durch ML-Modelle erzeugte Resultate sind, können Benutzer auf Grundlage eines besseren Verständnisses der durch die ML-Modelle erzeugten Resultate Aktionen für die identifizierte Situation ausführen.
Gemäß Aspekten der Erfindung kann das System konfiguriert werden, um von Branchenkennern (z.B. fachkundigen Benutzern aus einem identifizierten Fachgebiet) Branchendaten (z.B. bewährte Praktiken, Identifikation von Attributen und Merkmalen, Beziehen zwischen Merkmalen usw.) zu empfangen. Gemäß Aspekten der Erfindung verwendet das System die Branchendaten zum Erstellen einer hierarchischen Struktur, die als ein Interpretierbarkeitsmodell des Systems verwendet werden kann, um Resultaten, die durch ML-Modelle erzeugt werden, eine Interpretierbarkeit hinzuzufügen.
In manchen Beispielen können Branchenkenner einen Satz von Merkmalen und/oder Attributen als ein „Segment“ identifizieren und kennzeichnen. Segmente können auch unter Verwendung von ML-Modellen entwickelt werden, indem historische Daten verarbeitet werden. Gemäß Aspekten der Erfindung wird ein Segment als ein Satz von eng verwandten Merkmalen konfiguriert. Zum Beispiel kann auf dem Gebiet der Medizin ein Segment von Patienten Merkmale und/oder Attribute enthalten, z.B. Symptome, Krankengeschichte, Alter, Geschlecht, Telefonnummer, Adresse und dergleichen. In manchen Beispielen kann ein additives Modell verwendet werden, um Beiträge von jedem Segment darzustellen, sodass letztlich der gesamte Satz von Merkmalen durch die hierarchische Struktur dargestellt wird.
Die hierin beschriebenen Systeme und Verfahren können einen zerlegbaren Ansatz verwenden, um Resultaten, die durch ML-Modelle erzeugt werden, eine Ebene einer Interpretierbarkeit hinzuzufügen. Gemäß Aspekten der Erfindung ermöglicht ein zerlegbarer Ansatz Benutzern, spezifische Segmente von Daten auf Grundlage der Resultate detaillierter zu betrachten, die mit der durch die hierarchische Struktur bereitgestellten Schlussfolgerung und Begründung bereitgestellt werden. Benutzer entwickeln künftige Aktionen auf Grundlage eines klareren Verständnisses der Resultate, die gemäß den Interpretationsdaten interpretiert werden können, die unter Verwendung der hierarchischen Struktur bereitgestellt werden.
Aus Gründen der Kürze werden herkömmliche Techniken, die sich auf die Herstellung und Verwendung von Aspekten der Erfindung beziehen, hier nicht notwendigerweise im Detail beschrieben. Im Besonderen sind verschiedene hier beschriebene Aspekte von Datenverarbeitungssystemen und spezifischen Computerprogrammen zum Realisieren der verschiedenen technischen Merkmale hinlänglich bekannt. Entsprechend werden im Interesse der Kürze viele herkömmliche Realisierungsdetails hier nur kurz erwähnt oder vollständig weggelassen, ohne Einzelheiten zu dem bekannten System und/oder Prozess bereitzustellen.
Viele der in dieser Beschreibung erläuterten Funktionseinheiten wurden als Module bezeichnet. Ausführungsformen der vorliegenden Erfindung sind auf eine breite Vielfalt von Modulrealisierungen anwendbar. So kann ein Modul zum Beispiel als eine Hardware-Schaltung konfiguriert werden, um angepasste VLSI-Schaltungen (Very Large Scale Integration, Integration in sehr großem Maßstab) oder Gate-Arrays, vorgefertigte Halbleiter wie Logikchips, Transistoren oder andere einzelne Komponenten zu enthalten. Ein Modul kann auch als programmierbare Hardware-Einheiten wie z.B. Field-Programmable-Gate-Arrays, programmierbare Array-Logik, programmierbare Logikeinheiten oder Ähnliches realisiert werden. Ein Modul kann auch in Software realisiert werden, um durch verschiedene Arten von Prozessoren ausgeführt zu werden. Ein identifiziertes Modul von ausführbarem Code kann zum Beispiel einen oder mehrere physische oder logische Blöcke von Computeranweisungen enthalten, die zum Beispiel als ein Objekt, eine Prozedur oder eine Funktion organisiert werden können. Dessen ungeachtet muss der ausführbare Code eines identifizierten Moduls nicht physisch an einer gemeinsamen Stelle vorliegen, sondern kann unterschiedliche Anweisungen enthalten, die an verschiedenen Stellen gespeichert werden und die, wenn sie logisch miteinander verbunden werden, das Modul enthalten und den vorgesehenen Zweck des Moduls erzielen.
Im Folgenden werden unter Bezugnahme auf die Figuren ausführliche Beschreibungen von Beispielsystemen zum Bereitstellen einer Interpretierbarkeit für prädiktive Modelle unter Verwendung von zerlegbaren hierarchischen Strukturen gemäß Ausführungsformen der Erfindung bereitgestellt. Ein Beispiel für ML-Methoden, die zum Realisieren von Aspekten der Erfindung verwendet werden können, wird unter Bezugnahme auf die 1 und 2 beschrieben. ML-Modelle, die gemäß Ausführungsformen der Erfindung konfiguriert und angeordnet werden, werden unter Bezugnahme auf 3 beschrieben. 4 stellt eine Darstellung einer hierarchischen Beispielstruktur dar. 6 stellt eine Darstellung eines Beispiels für ein Aufmerksamkeitsmodell dar, das verwendet wird, um Vorhersagen mit einer bestimmten Granularität zu trainieren. 7 stellt ein veranschaulichendes Beispiel für ein Trainieren von Modellen unter Verwendung einer hierarchischen Struktur dar. 8 stellt ein veranschaulichendes Beispiel für ein Quantifizieren der Interaktion von Faktoren auf Grundlage der Differenz zwischen dem groben Vorhersageniveau und dem unmittelbar darauffolgenden Vorhersageniveau gemäß einer oder mehreren Ausführungsformen dar. 9 stellt ein veranschaulichendes Beispiel für ein Beispielsystem zum Erzeugen und Ausführen prädiktiver Modelle dar, die zerlegbare hierarchische Strukturen von genutzten Merkmalen verwenden, um einfacher interpretierbare Resultate zu erzeugen. 10 stellt ein veranschaulichendes Beispiel für Pseudocode für einen Algorithmus dar, um eine Interpretierbarkeit mit zerlegbaren hierarchischen Strukturen hinzuzufügen. 11 stellt einen Ablaufplan eines Verfahrens zum Bereitstellen einer Interpretierbarkeit für prädiktive Modelle unter Verwendung von zerlegbaren hierarchischen Strukturen dar. Zusätzlich werden in Bezug auf 12 ausführliche Beschreibungen für ein Beispiel-Datenverarbeitungssystem und eine Netzwerkarchitektur bereitgestellt, die eine oder mehrere der hierin beschriebenen Ausführungsformen realisieren können.
1 stellt ein Blockschaubild dar, das ein System 100 zeigt, das verschiedene Aspekte der hierin beschriebenen Erfindung realisieren kann. Im Besonderen wird die Funktionalität des Systems 100 bei einer Ausführungsform der Erfindung verwendet, um die verschiedenen Modelle (z.B. ein prädiktives Modell 116 und ein in 3 gezeigtes Interpretierbarkeitsmodell 335) zu erzeugen. Das System 100 enthält mehrere Datenquellen 102, die über ein Netzwerk 104 mit einem Vorhersager 110 Daten austauschen. Gemäß manchen Aspekten der Erfindung können die Datenquellen 102 das Netzwerk 104 umgehen und Daten direkt in den Vorhersager 110 einspeisen. Die Datenquellen 102 stellen Eingabedaten 120 bereit, die Daten-/Informationseingaben enthalten, die durch den Vorhersager 110 gemäß Ausführungsformen der Erfindung evaluiert werden. Die Datenquellen 102 stellen außerdem Daten-/Informationseingaben bereit, die durch den Vorhersager 110 verwendet werden können, um das bzw. die Modelle 116, die durch den Vorhersager 110 erzeugt werden, zu trainieren und/oder zu aktualisieren. Die Datenquellen 102 können als eine breite Vielfalt von Datenquellen realisiert werden, z.B., ohne darauf beschränkt zu sein, Sensoren, die zum Erfassen von Echtzeitdaten konfiguriert werden, Daten-Repositorys (z.B. Trainingsdaten-Repositorys) und Ausgaben von anderen Vorhersagern. Das Netzwerk 104 kann jede Art von Datenübertragungsnetzwerk sein, z.B., ohne darauf beschränkt zu sein, lokale Netzwerke, Weitverkehrsnetzwerke, private Netzwerke, das Internet und dergleichen.
Der Vorhersager 110 kann ein programmierbarer Computer wie z.B. ein (in 12 gezeigtes) Computersystem 1100 sein, das einen oder mehrere Algorithmen ausführt. Wie in 1 gezeigt, enthält der Vorhersager 110 eine Folge von ML-Algorithmen 112; sowie ein oder mehrere der Modelle 116, bei denen es sich um Beziehungsalgorithmen (oder Vorhersagealgorithmen) handelt, die durch die ML-Algorithmen 112 erzeugt (oder gelernt) werden. Aus Gründen der Veranschaulichung und Erläuterung werden die Algorithmen und/oder Modelle 112, 116 des Vorhersagers 110 getrennt dargestellt. Bei Ausführungsformen der Erfindung können die Funktionen, die durch die verschiedenen Algorithmen 112, 116 des Vorhersagers 110 durchgeführt werden, anders als gezeigt verteilt werden. Wenn der Vorhersager 110 zum Beispiel konfiguriert wird, um eine Gesamtaufgabe mit Teilaufgaben durchzuführen, kann die Folge der ML-Algorithmen 112 so unterteilt werden, dass ein Teil der ML-Algorithmen 112 jede Teilaufgabe ausführt und ein Teil der ML-Algorithmen 112 die Gesamtaufgabe ausführt.
Die ML-Algorithmen 112 empfangen und evaluieren Eingabedaten (d.h. Trainingsdaten und in der Analyse befindliche Daten) von den Datenquellen 102. Die ML-Algorithmen 112 enthalten eine Funktionalität, die notwendig ist, um das Format der Eingabedaten zu interpretieren und zu verwenden. Wenn die Datenquellen 102 zum Beispiel Bilddaten enthalten, können die ML-Algorithmen 112 Software für eine visuelle Erkennung enthalten, die konfiguriert wird, um Bilddaten zu interpretieren. Die ML-Algorithmen 112 wenden ML-Methoden auf empfangene Trainingsdaten an (z.B. Daten, die von einer oder mehreren der Datenquellen 102 empfangen werden), um nach und nach ein oder mehrere der Modelle 116, die die Gesamtaufgabe sowie die Teilaufgaben modellieren, für deren Durchführung der Vorhersager 110 konzipiert wird, zu erzeugen/trainieren/aktualisieren.
Unter Bezugnahme auf 2 wird ein Beispiel für eine Lernphase 200 dargestellt, die durch die ML-Algorithmen 112 durchgeführt wird, um die oben beschriebenen Modelle 116 zu erzeugen. In der Lernphase 200 extrahiert der Vorhersager 110 Merkmale aus den Trainingsdaten 205 und wandelt die Merkmale in Vektordarstellungen um, die durch die ML-Algorithmen 112 erkannt und analysiert werden können. Die Trainingsdaten 205 können als Teil der Eingabedaten 120 von einer oder mehreren der Datenquellen 102 empfangen werden. Die Merkmalsvektoren 210 werden durch den ML-Algorithmus 112 analysiert, um unter Verwendung der Trainingsdaten und des Zielmodells (oder der Aufgabe des Modells) ein oder mehrere Resultate „vorherzusagen“. Der ML-Algorithmus 112 ermöglicht die Feststellung von Beziehungen zwischen den Merkmalen in den Trainingsdaten 205 sowie innerhalb davon. Beispiele für geeignete Realisierungen der ML-Algorithmen 112 enthalten neuronale Aufmerksamkeitsnetzwerke und allgemeine additive Modelle usw., ohne jedoch darauf beschränkt zu sein. Das durch die ML-Algorithmen 112 durchgeführte Lernen oder Trainieren kann bei einer oder mehreren Ausführungsformen der vorliegenden Erfindung überwacht werden.
Bei ausreichendem Training der Modelle 116 durch die ML-Algorithmen 112 wird auf die Datenquellen zugegriffen, die „Echtweltdaten“ erzeugen, und die „Echtweltdaten“ werden auf die Modelle 116 angewendet, um nutzbare Versionen der Eingabedaten 120 zu erzeugen. Bei manchen Ausführungsformen der Erfindung können die Eingabedaten 120 an den Vorhersager 110 zurückgemeldet und durch die ML-Algorithmen 112 als zusätzliche Trainingsdaten 205 verwendet werden, um die Modelle 116 zu aktualisieren und/oder zu verfeinern.
Gemäß Aspekten der Erfindung können die ML-Algorithmen 112 und die Modelle 116 konfiguriert werden, um auf verschiedene ihrer Resultate/Ermittlungen (z.B. die Eingabedaten 120) Konfidenzniveaus (Confidence Levels, CLs) anzuwenden und so die Genauigkeit des bestimmten Resultats/der bestimmten Ermittlung zu verbessern, die durch den Vorhersager 110 ausgegeben 130 wird. Wenn die ML-Algorithmen 112 und/oder die Modelle 116 eine Ermittlung vornehmen oder ein Resultat erzeugen, wonach der Wert von CL unter einem vorgegebenen Schwellenwert (TH) (d.h. CL < TH) liegt, kann das Vorhersageresultat 130 als Resultat mit einer ausreichend niedrigen „Konfidenz“ klassifiziert werden, um eine Schlussfolgerung zu rechtfertigen, dass das Vorhersageresultat 130 nicht gültig ist, und anhand dieser Schlussfolgerung kann ermittelt werden, wann, wie und/oder ob das Vorhersageresultat 130 bei der nachgeordneten Verarbeitung verwendet wird. Wenn CL > TH, kann das Vorhersageresultat 130 als gültig betrachtet werden, und anhand dieser Schlussfolgerung kann ermittelt werden, wann, wie und/oder ob die Vorhersageresultate 130 bei der nachgeordneten Verarbeitung verwendet werden. Es können viele unterschiedliche vorgegebene TH-Werte bereitgestellt werden. Die Ermittlungen/Resultate mit CL > TH können der Rangfolge nach von dem höchsten Wert für CL > TH zu dem niedrigsten Wert für CL > TH geordnet werden, um zu priorisieren, wann, wie und/oder ob die Ermittlungen/Resultate bei der nachgeordneten Verarbeitung verwendet werden.
Gemäß Aspekten der Erfindung kann der Vorhersager 110 konfiguriert werden, um die Konfidenzniveaus (CLs) auf die Eingabedaten 120 anzuwenden. Wenn der Vorhersager 110 ermittelt, dass ein CL in den Eingabedaten 120 unter einem vorgegebenen Schwellenwert (TH) liegt (d.h. CL < TH), können die Eingabedaten 120 mit ausreichend niedriger Vertrauenswürdigkeit klassifiziert werden, um eine Klassifikation als „keine Konfidenz“ in den Eingabedaten 120 zu rechtfertigen. Wenn CL > TH, können die Eingabedaten 120 mit ausreichend hoher Vertrauenswürdigkeit klassifiziert werden, um eine Ermittlung zu rechtfertigen, dass die Eingabedaten 120 gültig sind. Es können viele unterschiedliche vorgegebene TH-Werte bereitgestellt werden, sodass die Eingabedaten 120 mit CL > TH der Rangfolge nach von dem höchsten Wert für CL > TH zu dem niedrigsten Wert für CL > TH geordnet werden können.
Die durch den Vorhersager 110 und im Besonderen durch den ML-Algorithmus 112 durchgeführten Funktionen können als ein gewichteter, gerichteter Graph organisiert werden, wobei die Knoten künstliche Neuronen sind (z.B. nach Neuronen des menschlichen Gehirns modelliert werden) und wobei gewichtete, gerichtete Kanten die Knoten verbinden. Der gerichtete Graph des Vorhersagers 110 kann so organisiert werden, dass bestimmte Knoten Eingabeschicht-Knoten bilden, dass bestimmte Knoten Verborgene-Schicht-Knoten bilden und dass bestimmte Knoten Ausgabeschicht-Knoten bilden. Die Eingabeschicht-Knoten werden mit den Verborgene-Schicht-Knoten verbunden, die wiederum mit den Ausgabeschicht-Knoten verbunden werden. Jeder Knoten wird durch Verbindungspfade, die als Richtungspfeile mit jeweils einer Verbindungsstärke darstellbar sind, mit jedem Knoten in der benachbarten Schicht verbunden. Es können mehrere Eingabeschichten, mehrere verborgene Schichten und mehrere Ausgabeschichten bereitgestellt werden. Wenn mehrere verborgene Schichten bereitgestellt werden, kann der Vorhersager 110 ein unüberwachtes Deep Learning durchführen, um die eine bzw. mehreren zugewiesenen Aufgaben des Vorhersagers 110 auszuführen.
Ähnlich wie bei der Funktionalität eines menschlichen Gehirns empfängt jeder Eingabeschicht-Knoten Eingaben ohne Anpassungen der Verbindungsstärke und ohne Knotensummierung. Jeder Verborgene-Schicht-Knoten empfängt seine Eingaben von allen Eingabeschicht-Knoten gemäß den Verbindungsstärken, die den relevanten Verbindungspfaden zugehörig sind. Eine ähnliche Multiplikation der Verbindungsstärke und eine ähnliche Knotensummierung wird für die Verborgene-Schicht-Knoten und die Ausgabeschicht-Knoten durchgeführt.
Der gewichtete, gerichtete Graph des Vorhersagers 110 verarbeitet Datensätze (z.B. Ausgaben von den Datenquellen 102) Satz für Satz und „lernt“ durch Vergleichen einer anfänglich willkürlichen Vorhersage des Datensatzes mit einer bekannten, tatsächlichen Vorhersage des Datensatzes. Unter Verwendung einer als „Rückwärtspropagierung“ (d.h. „Rückwärtspropagierung von Fehlern“) bekannten Trainingsmethodik werden die Fehler aus der anfänglichen Vorhersage des ersten Datensatzes an die gewichteten, gerichteten Graphen des Vorhersagers 110 zurückgemeldet und verwendet, um die gewichteten Verbindungen des gewichteten, gerichteten Graphen in einem zweiten Durchgang zu modifizieren, und dieser Rückmeldungsvorgang wird für viele Iterationen fortgesetzt. In der Trainingsphase eines gewichteten, gerichteten Graphen des Vorhersagers 110 ist die korrekte Vorhersage für jeden Datensatz bekannt, und den Ausgabeknoten können daher „korrekte“ Werte zugewiesen werden. Zum Beispiel kann dies ein Knotenwert von „1“ (oder 0,9) für den Knoten sein, der der korrekten Klasse entspricht, und ein Knotenwert von „0“ (oder 0,19) für die anderen Knoten. Somit ist es möglich, die berechneten Werte des gewichteten, gerichteten Graphen für die Ausgabeknoten mit diesen „korrekten“ Werten zu vergleichen und für jeden Knoten einen Fehlerterm (d.h. die „Delta“-Regel) zu berechnen. Diese Fehlerterme werden dann verwendet, um die Gewichtungen in den verborgenen Schichten anzupassen, sodass bei der nächsten Iteration die Ausgabewerte näher bei den „korrekten“ Werten liegen.
Eine technische Herausforderung bei vorhandenen Systemen, die solche prädiktiven Daten auf Modellgrundlage realisieren, besteht darin, dass alle Merkmale in den Eingabedaten 120 verwendet werden, um ein einziges prädiktives Modell zu erzeugen. Da das prädiktive Modelle unter Verwendung von ML-Methoden erzeugt wird, ist die Interaktion zwischen den Merkmalen beim Erzeugen des Vorhersageresultats 130 womöglich nicht ohne Weiteres erkennbar. Des Weiteren kann das prädiktive System 100 bei vorhandenen Lösungen nicht programmiert werden, um die Interaktion zwischen einem oder mehreren Merkmalen zum Erzeugen des Vorhersageresultats 130 zu verwenden. Ausführungsformen der vorliegenden Erfindung lösen solche technischen Herausforderungen, indem sie eine hierarchische Struktur 113 verwenden. Die hierarchische Struktur 113 kann durch einen oder mehrere Experten oder durch ein genaues Auswählen einer Dateninterpretation durch einen oder mehrere Experten vordefiniert werden. Die Experten enthalten hierin Fachleute in dem Bereich/auf dem Gebiet der Eingabedaten 120, die der Vorhersager 110 verwendet, um auf Grundlage der prädiktiven Modelle 116 das Vorhersageresultat 130 zu erzeugen. Bei einer oder mehreren Ausführungsformen der vorliegenden Erfindung werden die prädiktiven Modelle 116 unter Verwendung der hierarchischen Struktur 113 erzeugt. Indem er die hierarchische Struktur 113 verwendet, kann der Vorhersager 110 des Weiteren eine Interpretierbarkeit der prädiktiven Modelle 116 bereitstellen, die zum Erzeugen des Vorhersageresultats 130 verwendet werden.
Die hierarchische Struktur 113 kann als Teil der Eingabedaten 120 in den Vorhersager 110 eingegeben werden. Alternativ oder zusätzlich hierzu wird die hierarchische Struktur 113 unabhängig von den Eingabedaten direkt in den Vorhersager 110 eingegeben.
3 stellt ein Blockschaubild einer Konfiguration von ML-Modellen und Komponenten des Systems 100 gemäß Ausführungsformen der Erfindung dar. 3 stellt eine andere Ansicht des in 1 dargestellten Systems 100 dar. Das System 100 kann auf vielfältige Weise realisiert werden. Wie weiter unten ausführlicher beschrieben wird, können ein oder mehrere der hierin beschriebenen Modelle bei Ausführung durch mindestens einen Prozessor einer Datenverarbeitungseinheit (z.B. das in 12 gezeigte Computersystem 1100) das System 100 in die Lage versetzen, unter Verwendung von zerlegbaren hierarchischen Strukturen eine Interpretierbarkeit für prädiktive Modelle bereitzustellen. Zum Beispiel und wie hierin ausführlicher beschrieben, kann das Beispielsystem 100 von einer oder mehreren der Datenquellen 102 historische Daten 310 empfangen. Die historischen Daten 310 können Daten enthalten, die aus einem oder mehreren Systemen in einer Branche gesammelt werden, z.B. Daten, die Benutzern, ausgeführten Aktionen und entsprechenden Resultaten zugehörig sind, Beziehungsdaten zwischen Merkmalen und/oder Attributen und dergleichen. Die historischen Daten 310 können über verschiedene Systeme oder Entitäten und dergleichen hinweg aus einer festgelegten Zeitspanne gesammelt werden. In manchen Beispielen können die historischen Daten 310 durch ein prädiktives Modul 315 verwendet werden, um eines oder mehrere der prädiktiven Modelle 116 trainieren. Die historischen Daten 310 enthalten aktuelle Daten, die verwendet werden können, um durch ein prädiktives Modell 116, das durch das prädiktive Modul 315 ausgeführt wird, eine oder mehrere Vorhersagen zu erzeugen.
In manchen Beispielen empfängt das prädiktive Modul 315 die historischen Daten 310 und/oder greift auf die historischen Daten 310 zu. Die historischen Daten 310 können durch das prädiktive Modul 315 in vordefinierten Teilen empfangen werden, oder sie können so empfangen werden, wie sie durch das System 100 empfangen werden. In manchen Beispielen kann das prädiktive Modul 315 verschiedene Arten der prädiktiven Modelle 116 trainieren, z.B. ein Mehrschicht-Perzeptron-Modell (Multilayer Perceptron, MLP), ein Aufmerksamkeitsmodell, ein neuronales Faltungsnetzwerk (Convolutional Neural Network, CNN) oder jede beliebige andere ML-Methode. Das prädiktive Modul 315 trainiert das eine oder die mehreren prädiktiven Modelle 116 unter Verwendung der Trainingsdaten 205, die erwartete Vorhersagen für spezifische Eingabewerte enthalten. Obwohl sie getrennt von den Eingabedaten 120 dargestellt werden, können die Trainingsdaten 205 ein Teil der Eingabedaten 120 sein. Die prädiktiven Modelle 116 verarbeiten jeweils Teilsätze der Merkmale der Eingabedaten 120, um entsprechende Vorhersagen zu erzeugen. Die Vorhersagen können kombiniert werden, um ein endgültiges Vorhersageresultat 130 zu erzeugen. Alternativ oder zusätzlich hierzu verarbeitet bei einer oder mehreren Ausführungsformen der vorliegenden Erfindung eines der prädiktiven Modelle 116 alle Merkmale, um das endgültige Vorhersageresultat 130 zu erzeugen, während die anderen prädiktiven Modelle 116 zum Ermitteln einer Interpretierbarkeit des Vorhersageresultats 130 verwendet werden. Die Trennung der Merkmale innerhalb der mehreren prädiktiven Modelle 116 wird auf Grundlage der hierarchischen Struktur 113 durchgeführt.
Bei einer oder mehreren Ausführungsformen der vorliegenden Erfindung verwendet das prädiktive Modul 315 die Expertenhierarchie 113 des Systems 100, um ein Interpretierbarkeitsmodell 335 zu erzeugen. Das Interpretierbarkeitsmodell 335 wird trainiert, um Score-Werte für Interaktionen zwischen einem oder mehreren der prädiktiven Modelle 116 zu ermitteln. Das Interpretierbarkeitsmodell 335 wird wiederum trainiert, um Interaktions-Scores für die Teilsätze der Merkmale zu ermitteln, die durch die betreffenden prädiktiven Modelle 116 verwendet werden.
Sobald die prädiktiven Modelle 116 und das Interpretierbarkeitsmodell 335 trainiert sind, wird das prädiktive Modul 315 verwendet, um unter Verwendung von „Live“-Daten, d.h. der Eingabedaten 120 mit unbekannten Resultaten, das Vorhersageresultat 130 zu erzeugen. Zum Beispiel können Benutzer aus einer Branche Branchendaten als Eingabe in das System 100 bereitstellen. Die Branchendaten können in einem Datenspeicher gespeichert und/oder direkt bereitgestellt werden. Die Branchendaten enthalten bewährte Praktiken einer Branche, Merkmale und Attribute verschiedener Aspekte einer Branche (z.B. demografische Benutzerdaten, Transaktionen, Interaktionen, Finanzinformationen, Risikoabschätzungen usw.) und dergleichen. Die Branchendaten 305 können auch Informationen zu Beziehungen zwischen den bereitgestellten Informationen enthalten.
Das System 100 empfängt die Branchendaten und/oder greift auf die Branchendaten zu und erzeugt die Modelleingaben mit unterschiedlichen Granularitäten für die prädiktiven Modelle 116 auf Grundlage der hierarchischen Struktur 113. Bei manchen Beispielen ist die hierarchische Struktur 113 eine Datenstruktur wie z.B. eine Baumstruktur. Jede Ebene der Baumstruktur enthält ein oder mehrere Segmente. Jedes Segment ist ein Satz von Merkmalen, die zu derselben Datenquelle gehören und/oder ähnliche Eigenschaften (z.B. Brancheneigenschaften, Datenattribute usw.) aufweisen. Es sollte klar sein, dass die Segmentierung auf Grundlage verschiedener Faktoren erfolgen kann, die bei verschiedenen Ausführungsformen variieren können, und dass nicht alle derartigen Faktoren hierin beschrieben werden. Verschiedene Ebenen der hierarchischen Struktur 113 stellen eine unterschiedliche Granularität ein und derselben Daten bereit. Die Merkmale ganz oben in der Baumstruktur der hierarchischen Struktur 113 können die Vereinigung aller verfügbaren Merkmale aus den verschiedenen Segmenten sein. Die Ebenen der hierarchischen Struktur 113 werden durch einen Benutzer benannt und/oder beruhen darauf, welche Tiefe die Schlussfolgerung aufweisen muss, um einen Kontext für die Zielresultate bereitzustellen, die durch die ML-Modelle wie beispielsweise die prädiktiven Modelle 116 erzeugt werden.
Bei einer oder mehreren Ausführungsformen der vorliegenden Erfindung enthält das Interpretierbarkeitsmodell 335 einen Satz von prädiktiven Aufmerksamkeitsmodellen, der die hierarchische Struktur 113 verwendet, um auf Grundlage der Eingabedaten 120 interpretierte Daten 340 zu erzeugen. Die interpretierten Daten 340 enthalten Informationen, die den prädiktiven Scores oder Ausgaben aus dem Satz der prädiktiven Modelle 116 zugehörig sind. Die interpretierten Daten 340 können des Weiteren die Segmente von Merkmalen in den Eingabedaten 120 und eine interpretierbare Schlussfolgerung, die dem Bilden der Segmente von Merkmalen auf Grundlage der hierarchischen Struktur 113 zugehörig ist, einen vorhergesagten Score oder vorhergesagte Werte, die für ein oder mehrere Segmente (und/oder Teilsegmente) von Merkmalen und/oder Attributen erzeugt werden, die in den Eingabedaten 120 auf Grundlage der hierarchischen Struktur 120 identifiziert werden, eine Identifikation von Faktoren, die die Eingabedaten 120 beeinflusst haben, und dergleichen enthalten. Die interpretierten
Daten 340 können einen Score, der Merkmalen oder Segmenten in der hierarchischen Struktur zugehörig ist, sowie eine kontextbezogene Schlussfolgerung und Erläuterungen bereitstellen, um zusätzlichen Kontext zu der Segmentierung der Eingabedaten 120 bereitzustellen. Benutzer des Systems können die interpretierten Daten 340 verwenden, um eine interpretierbare Aufmerksamkeit (z.B. Gewichtungen) zu erzeugen und geeignete steuerbare Aktionen aus der Aufmerksamkeit (bzw. den Gewichtungen) zu identifizieren, wie hierin beschrieben wird.
4 stellt eine Darstellung einer hierarchischen Beispielstruktur 114 gemäß einer oder mehreren Ausführungsformen der Offenbarung dar. Die hierarchische Struktur 113 ist eine Datenstruktur, die verwendet wird, um unter Verwendung eines zerlegbaren Ansatzes, der auf die Eingabedaten 120 angewendet wird, die durch die prädiktiven Modelle 116 zum Erzeugen des Vorhersageresultats 130 verwendet werden, in allen Ebenen der Hierarchie eine Interpretierbarkeit bereitzustellen. In manchen Beispielen beruht die hierarchische Struktur 113 auf bewährten Branchenpraktiken, die durch Benutzer aus einer Branche als Teil von Branchendaten bereitgestellt werden können, die durch das System 100 bereitgestellt werden und/oder unter Verwendung eines oder mehrerer der ML-Algorithmen 112 aus den historischen Daten 310 erzeugt werden.
In jeder Ebene der hierarchischen Struktur 113 gibt es mehrere Segmente oder Gruppen von Merkmalen. Jedes Merkmal ist einem Score zugehörig, um ein Resultat vorherzusagen. Der Gesamt-Score des Vorhersageresultats 130 kann ein gewichteter Durchschnittswert der Resultate eines jeden Segments (und Teilsegments) von Merkmalen sein.
In dem in 4 veranschaulichten Beispiel gibt der Stammknoten 410 der hierarchischen Struktur 113 alle Merkmale an, die in einer niedrigeren Ebene der Baumdatenstruktur in drei Segmente segmentiert werden - das Krankengeschichte-Segment 420, das Patientenprofil-Segment 430 und das Verhaltensprofil-Segment 440 des Patienten. Jedes der Segmente ist das übergeordnete Segment eines Satzes von verwandten Merkmalen. Zum Beispiel ist das Krankengeschichte-Segment 420 das übergeordnete Segment der folgenden Merkmale: Diagnose-Segment 422, Familiengeschichte-Segment 424 Medikamentenverwaltungs-Segment 426. Das Patientenprofil-Segment 430 enthält ein Personensegment 432 (das das übergeordnete Segment des Altersattributs 433 und des Geschlechtsattributs 434 ist) und das Kontosegment 436 (das das übergeordnete Segment des Versicherungsattributs 437 und des Praxisbesuchs-Attributs 438 ist). Das Patientenverhaltensprofil-Segment 440 ist das übergeordnete Segment des Nachuntersuchungssegments 442 und des Interaktionssegments 444. Jede der verschiedenen Ebenen der hierarchischen Struktur 113, d.h. 450, 460 und 470, steht für eine andere Granularitäts- und Detailstufe. Dabei ist zu beachten, dass sich „Ebenen“ von „Segmenten“ unterscheiden und dass eine Ebene mehrere Segmente enthalten kann. Zum Beispiel umfasst das Patientenprofil-Segment 430, das eines der Segmente in der Ebene 450 ist, verschiedene Aspekte eines Patienten, z.B. seine demografischen Informationen sowie seine Kontoinformationen. Alle Merkmale in Zusammenhang mit einem Patienten werden in der Ebene 450 durch das Patientenprofil-Segment 430 angegeben, aber da die Informationen weiter in niedrigere Ebenen (z.B. die Ebenen 460 und 470) aufgeteilt werden, werden die Informationen zu dem Patienten detaillierter. So werden zum Beispiel das Alter und Geschlecht des Patienten in der Ebene 470 gespeichert und gibt einen spezifischen Wert für das Alter bzw. Geschlecht des Patienten an. Die Anzahl von Ebenen in der hierarchischen Struktur kann durch einen Benutzer während der Erzeugung der hierarchischen Struktur festgelegt werden und kann davon abhängig sein, welche Tiefe die Schlussfolgerung aufweisen muss, um einen Kontext für das Vorhersageresultat 130 bereitzustellen, das durch die prädiktiven Modelle 116 ausgegeben wird.
Dabei ist zu erwähnen, dass die in 4 dargestellte hierarchische Struktur 113 ein mögliches Beispiel für ein Beispielszenario von Patientendaten ist und dass in demselben Beispielszenario verschiedene andere Darstellungen der hierarchischen Struktur 113 erzeugt werden können. Des Weiteren können in anderen Beispielszenarien, zum Beispiel bei Finanzdaten, betrieblichen Unternehmensdaten, Bilderkennungsdaten, Daten zum autonomen Fahren oder beliebigen anderen Arten von Daten, die durch maschinelles Lernen verarbeitet werden können, verschiedene hierarchische Strukturen erzeugt werden. In manchen Beispielen sind Benutzer in der Lage, neue Partitionen zu der hierarchischen Struktur 113 hinzuzufügen, indem sie z.B. ein vorhandenes Segment unter Verwendung eines anderen Datensatzes instantiieren.
5 stellt eine visuelle Darstellung der hierarchischen Struktur 113 gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung dar. Die dargestellte hierarchische Struktur 113 ist eine weitere Ansicht, die sich von der in 4 dargestellten Ansicht der Struktur unterscheidet. Die Darstellung wird hierin bereitgestellt, um zu zeigen, dass alle Ebenen (L0 - L4) eine unterschiedliche Granularität für dieselben Daten bereitstellen, und außerdem, dass jede Ebene auf unterschiedliche Weise segmentiert werden kann. Zum Beispiel steht L0 in 5 für eine oberste Ebene ohne jegliches Segment. Weitere Ebenen wie zum Beispiel L2, L3 und L4 haben Segmente. Die unterste Ebene, L4, enthält die unteilbaren Merkmale f_01, f_02, ..., f_13. „Unteilbare Merkmale“ steht hier für Daten, die nicht weiter zerlegt/unterteilt werden. Dabei ist darauf hinzuweisen, dass die Anzahl von Segmenten, die Anzahl von Teilsegmenten und die Anzahl von Ebenen in anderen Beispielen variieren können.

In diesem Beispiel gibt es vier Ebenen in der hierarchischen Struktur: L1, L2, L3 und L4. Jede Ebene hat eine entsprechende Anzahl von Segmenten, bei denen es sich um Merkmalsgruppen handelt. Jede Ebene hat ihr eigenes Aufmerksamkeitsmodell als ein prädiktives Modell aus der Menge der prädiktiven Modelle 116. Jedes betreffende prädiktive Modell 116 verwendet dieselben Eingabedaten, die jedoch in verschiedene Granularitäten gruppiert werden, um Ausgabe-Scores zu erzeugen. Die Ausgabe-Scores der Aufmerksamkeitsmodelle für jede Ebene stehen für eine Gewichtung eines jeden Segments aus dieser Ebene. Für eine bestimmte Instanz der Eingabedaten 120 erzeugt jedes prädiktive Modell einen Score für jede Ebene in der hierarchischen Struktur 113. Der Gesamt-Score ist der gewichtete Durchschnittswert der gewichteten Scores einer jeden Gruppe. Die unteilbaren Merkmale f_01 bis f_13 werden in der untersten Ebene (unterhalb von L4) dargestellt. Die Segmentierungen in jeder der Ebenen L1 bis L4 gruppieren diese Merkmale in verschiedenen Kombinationen. Die in 5 gezeigte Beispielgruppierung kann dargestellt werden, wie hierin in Tabelle 1 bereitgestellt. Tabelle 1 Beispiel für eine hierarchische Struktur und Merkmalssegmentierung

Prädiktive Aufmerksamkeitsmodelle	Merkmalsgruppierung	Anzahl der Merkmalsgruppen
Modell der obersten Ebene	(f_01, ..., f_13)	1
Modell der zweiten Ebene	(f1, ..., f04},{f_05, ..., f_08},	3
	(f_09, ..., f_13}
Modell der dritten Ebene	{f_01,f_02},{f_03,f_04}, {f_05,	5
	..., f_08},
	(f_10,f_f_11,f_12}{f_13}
Modell der vierten Ebene	{f_01},{f_02},{f_03,f_04},	7
	{f_05,f_06},{f_07, f_08},
	(f_10,f_f_11,f_12}{f_13}

Die erste Ebene, L1, enthält alle Merkmale f01 bis f13 in einer einzigen Gruppe, während die zweite Ebene, L2, die Merkmale in drei Gruppen aufteilt, die dritte Ebene, L3, die Merkmale in fünf Gruppen aufteilt und die vierte Ebene, L4, alle sieben Gruppen enthält. Wie ersichtlich ist, segmentieren die Gruppen in einer Ebene die Merkmale anders als die Segmente in einer weiteren Ebene.
6 stellt eine Darstellung eines Beispiels für ein Aufmerksamkeitsmodell 500 dar, das verwendet wird, um gemäß einer oder mehreren Ausführungsformen der Offenbarung Vorhersagen mit einer bestimmten Granularität zu trainieren. In manchen Beispielen kann das Interpretierbarkeitsmodell 335 ein Aufmerksamkeitsmodell 500 sein, das verwendet wird, um Vorhersagen auf festgelegten Granularitätsstufen der hierarchischen Struktur 113 zu trainieren. In manchen Beispielen kann das Interpretierbarkeitsmodell 335 ein Aufmerksamkeitsmodell 500 sein, in dem Eingabevariablen 510 Expertennetzwerke wie z.B. die Expertennetzwerke 505A, 505B, 505C (zusammengefasst 505) sein können. Die Expertennetzwerke 505 können neuronale Netzwerke sein. Bei einer oder mehreren Ausführungsformen der vorliegenden Erfindung sind die Expertennetzwerke 505 die prädiktiven Modelle 116. Das Aufmerksamkeitsmodell 500 kann ein Gating-Netzwerk verwenden, um eine glatte Soft-Attention-Funktion zu verwenden. Die Eingabevariablen 510 des Aufmerksamkeitsmodells 500 können eine Anzahl von Variablen für ein bestimmtes Expertennetzwerk enthalten. Jedes Expertennetzwerk 505 steht für ein Eingabeattribut oder eine Gruppe von Eingabeattributen. In manchen Beispielen können die Eingabevariablen 510 als ein Array von Arrays bereitgestellt werden. Die Expertennetzwerke 505 können Eingaben in eine oder mehrere Aktivierungsfunktionen 515A, 515B, 515C (zusammengefasst 515) sein. Eine Aktivierungsfunktion kann die Ausgabe bei einer bestimmten Eingabe oder einem Satz von Eingaben definieren, wie z.B. die Expertennetzwerke 505. Beispiele für die Aktivierungsfunktionen 515 enthalten die Tanh-Funktion, die ReLU-Funktion (Rectified Linear Unit) und die Softmax-Funktion (auch als Softargmax- oder normalisierte Exponentialfunktion bekannt), ohne jedoch darauf beschränkt zu sein. Die Ausgabe der Aktivierungsfunktionen 515 kann eine Anzahl von Variablen enthalten, die durch das Aufmerksamkeitsmodell 500 vorhersagt werden sollen. Das Aufmerksamkeitsmodell 500 kann eine automatische Hyperparameter-Optimierung 520 für die Ausgabe der Aktivierungsfunktionen 515 verwenden. Die automatische Hyperparameter-Optimierung 520 kann unter Verwendung eines Ensembles von Methoden durchgeführt werden, die Rastersuche, Zufallssuche und exponentielles Lernen unter Verwendung eines Validierungsdatensatzes enthalten können. Zu Trainingszwecken kann das Interpretierbarkeitsmodell 335 die besten Hyperparameter-Werte und einen stochastischen Gradientenansatz sowie mehrere Trainingsdatenströme verwenden, um eine Zufälligkeit bei der Initialisierung zu bewältigen. Bei einer oder mehreren Ausführungsformen der vorliegenden Erfindung wird das interpretierbare Resultat auf Grundlage von mindestens Folgendem berechnet: 1) eines Scores oder Werts eines Modells für ein einzelnes Merkmale ohne Berücksichtigung von Scores/Einflüssen anderer gruppierter Merkmale; und 2) des Beitrags eines jeden Satzes von gruppierten Merkmalen als das Produkt des Scores (Werts) und der entsprechenden Gewichtung. Die Interaktion der Gruppe von Merkmalen wird berechnet, indem die Ausgaben von zwei Modellen aus zwei Ebenen einer Merkmalsgruppierung miteinander verglichen werden (wobei die untere Ebene stärker segmentiert wird und eine weitere Ebene zusammengefasst wird).
7 stellt ein veranschaulichendes Beispiel für Trainingsmodelle 600 unter Verwendung einer hierarchischen Struktur gemäß einer oder mehreren Ausführungsformen der Erfindung dar. In manchen Beispielen wird das Modell 600 unter Verwendung eines Aufmerksamkeitsmodellierungs-Ansatzes und der hierarchischen Struktur 113 trainiert, um Merkmale in Segmente zu zerlegen und den Segmenten und Merkmalen eine Interpretierbarkeit bereitzustellen. Vorhersagen unter Verwendung des trainierten Modells können ein Mehrschicht-Perzeptron verwenden. Indem es das Modell trainiert und die Zerlegung der Merkmale durchführt, kann das System einem Benutzer eine Interpretierbarkeit der Merkmale bereitstellen. Die Zerlegung der Merkmale in Segmente in verschiedenen Ebenen ermöglicht eine Identifikation von Interaktionen zwischen Segmenten von Merkmalen und Ebenen sowie der Art und Weise, wie sich Segmente und/oder Merkmale unter Umständen auf die verschiedenen Ebenen von Merkmalen (z.B. Ebene 1, Ebene 2 usw. in 5) auswirken. In manchen Beispielen wird die Interaktion von Merkmalen durch einen Vergleich der Ausgaben von zwei Modellen für zwei Ebenen von Segmentgruppierungen berechnet (so sind niedrigere Ebenen z.B. stärker segmentiert usw.).
Die Ebene 1 (L1 in 5) des Modells steht für alle Merkmale des Trainingsmodells. Die Merkmale werden in L2 in zwei oder mehr Segmente von Merkmalen zerlegt (5). In diesem Fall werden zwei Segmente E1 610 und E2 620 dargestellt. Alle Merkmale werden durch einen Knoten 605 dargestellt. Die Merkmale werden in der Ebene 2 in E1 610 und E2 615 segmentiert. Bei dieser Anordnung werden die betreffenden prädiktiven Modelle 116 für eine Verwendung der drei Segmente trainiert: ein erstes prädiktives Modell für das Segment 605 für alle Merkmale, ein zweites prädiktives Modell für das Segment E1 610 und ein drittes prädiktives Modell für das Segment E2 615. Des Weiteren kann ein Aufmerksamkeitsmodell einen Ensemble-Ansatz für die verschiedenen zerlegten Segmente verwenden, um einen Gesamt-Score für den gesamten Merkmalssatz zu erhalten und zugleich sicherzustellen, dass für jedes Segment ein Score erzeugt wird, der für seinen Auswirkungs- oder Interaktionswert in dem Trainingsmodell steht. Das Aufmerksamkeitsmodell steht für das Interpretierbarkeitsmodell 335. Der Gesamt-Score kann berechnet werden, indem auf die verschiedenen Segmente Gewichtungen angewendet werden (z.B. 0,4 für E1 610 und 0,6 für E2 615). In manchen Beispielen sind die Gewichtungen nicht konstant und werden aus verschiedenen Gründen geändert oder modifiziert (z.B. Kundenanforderungen, Zielobjekt usw.). Das Trainingsmodell kann die Schritte für jede Ebene so lange wiederholen, bis (in 620) keine weiteren Faktoren zu zerlegen sind, d.h. bis L4 in der hierarchischen Beispielstruktur 113 aus 5. Dabei ist zu erwähnen, dass die Gewichtungswerte, die Anzahl von Segmenten und andere, hierin in den Figuren gezeigte Einzelheiten lediglich beispielhaft sind und dass bei anderen Ausführungsformen derartige Werte variieren können.
8 stellt ein veranschaulichendes Beispiel 700 für ein Quantifizieren der Interaktion von Faktoren auf Grundlage der Differenz zwischen dem aktuellen Vorhersageniveau und dem unmittelbar darauffolgenden Vorhersageniveau gemäß einer oder mehreren Ausführungsformen der Erfindung dar. In manchen Beispielen kann das System 100 unter Verwendung der hierarchischen Struktur 113 ein Interpretierbarkeitsmodell 335 trainieren. Das Interpretierbarkeitsmodell 335 quantifiziert die Interaktion von zwei oder mehr Faktoren (x₁ und x₂). „Faktoren“ kann hier Gruppen von Merkmalen enthalten, für die die Interaktion ermittelt wird. Zum Beispiel quantifiziert das Interpretierbarkeitsmodell die Interaktion des Segments E1 610 und des Segments E2 615 (siehe 7). Der Knoten 710 in der Ebene 1 steht für den gesamten Satz der Eingangsdaten 120, der durch ein prädiktives Modell 116 verwendet wird. Die Eingabedaten 120 können in verschiedene Segmente segmentiert werden, konkret in E1715 und E2 720. Wie in der Tabelle 702 veranschaulicht, steht die Ebene 1 für die Eingabedaten 120, und die Ebene 2 steht für die Segmente E1 715 und E2 720. Jedes Segment von Daten wird verarbeitet, um eine zugehörige Interpretierbarkeit von Resultaten zu ermittelt, die aus dem Segment resultieren. Bei einer oder mehreren Ausführungsformen der vorliegenden Erfindung kann sich das Interpretierbarkeitsmodell 335, das verwendet wird, um eine derartige Interpretierbarkeit zu ermitteln und einem ersten Segment zuzuweisen, von dem Interpretierbarkeitsmodell 335 unterscheiden, das für ein zweites Segment verwendet wird. Zum Feststellen der Interpretierbarkeit und der Interaktionen der Merkmale in den Eingabedaten 120 kann somit ein Satz von Interpretierbarkeitsmodellen 335 verwendet werden. Zum Beispiel enthält der Satz für jedes Segment jeweils getrennte Interpretierbarkeitsmodelle 335. Alternativ kann jedes Segment Interpretierbarkeitsinformationen zugehörig sein, wobei mehrere Interpretierbarkeitsmodelle 335 aus dem Satz verwendet werden.
In dem Beispiel aus 8 hat die hierarchische Struktur zwei Ebenen: L1 und L2. Die Eingabedaten 120 werden unter Verwendung eines Modells h₀(x₁, x₂) und einer Aufmerksamkeit (oder Gewichtung) von 1,0 verarbeitet. E1 715 der Ebene L2 wird unter Verwendung eines Modells f₁(x₁) und einer Aufmerksamkeit (Gewichtung) w₁ verarbeitet, während E2 720 von L2 unter Verwendung eines Modells g₁(x₂) und einer Aufmerksamkeit w₂ verarbeitet wird. h0, f1 und g1 stehen hier für die prädiktiven Modelle 116, die diesen Segmenten zugehörig sind. Die Interaktion zwischen den zwei Segmenten E1 715 und E2 720 lässt sich folgendermaßen veranschaulichen: Interaktion von E1 und E2 = h₀(x₁, x₂) - w₁ * f₁(x₁) - w₂ * g₁(x₂).
9 stellt gemäß einer oder mehreren Ausführungsformen der Erfindung ein veranschaulichendes Beispiel für ein Beispielsystem zum Erzeugen und Ausführen prädiktiver Modelle dar, die zerlegbare hierarchische Strukturen von genutzten Merkmalen verwenden, um einfacher interpretierbare Resultate zu erzeugen. Das System 100 wird als trainiert betrachtet, wobei die prädiktiven Modelle 116 trainiert werden, um ihre betreffenden Vorhersagen auf Grundlage der Gruppe von Merkmalen zu erzeugen, mit der sie trainiert werden. Auch die Interpretierbarkeitsmodelle 335 werden trainiert, um einen Score für Interaktionen zwischen jedem Segment in jeder der Ebenen in der hierarchischen Struktur 113 zu ermitteln. Die Branchendaten werden als die Eingabedaten 120 in das System 800 verwendet. Die Branchendaten 305 können in einem Datenspeicher gespeichert und/oder dem System 100 direkt bereitgestellt werden. Die Branchendaten können Informationen zu Beziehungen zwischen den bereitgestellten Merkmalsinformationen enthalten und werden auf eine vorgegebene Weise strukturiert, für deren Verarbeitung das System 100 trainiert wurde, um das Vorhersageresultat 130 zu erzeugen. Die hierarchische Struktur 113 wird ebenfalls dem System 100 bereitgestellt, um die Eingabedaten 120 zu segmentieren, sodass neben dem Vorhersageresultat 130 auch eine Interpretierbarkeit bereitgestellt werden kann.
Das prädiktive Modul 315 verwendet das eine oder die mehreren prädiktiven Modelle 116, um die Eingabedaten 120 zu verarbeiten und Vorhersagen und andere Resultate gemäß dem Training zu erzeugen. Die Vorhersagen von dem prädiktiven
Modul 315 können trotz ihrer Genauigkeit schwer verständlich sein und stellen möglicherweise keinen Kontext dazu bereit, wie das eine oder die mehreren Merkmale und/oder die Gruppen von Merkmalen (d.h. Segmente) in den Eingabedaten 120 durch die prädiktiven Modelle 116 verwendet wurden, um das Vorhersageresultat 130 zu erzeugen. Alternativ oder zusätzlich kann es schwierig sein, zu interpretieren, was das Vorhersageresultat 130 angibt.
Bei manchen Beispiel-Ausführungsformen kann das System 100 die Eingabedaten 120 empfangen und die Interpretierbarkeit hinzufügen. Das System 100 kann die durch das prädiktive Modul 315 erzeugten Eingabedaten 120 gemäß der hierarchischen Struktur 113 in Segmente von Merkmalen segmentieren. Die Eingabedaten 120 werden für jedes der Vorhersagemodelle 116 getrennt segmentiert. Wie bereits erwähnt, hat jedes Segment in jeder Ebene der hierarchischen Struktur 113 sein eigenes entsprechendes Vorhersagemodell 116. Des Weiteren kann jedes Segment in einer nächsten (darauffolgenden) Ebene bis zur letzten Ebene in Teilsegmente aufgeteilt werden, in der die Merkmale als unteilbar betrachtet werden. Entsprechend werden die Eingabedaten 120 bis zur letzten Ebene in der hierarchischen Struktur 113 in Sätze von Merkmalen, die sich gegenseitig ausschließend, weiter segmentiert. Wenn sie kombiniert werden (z.B. mit einer Vereinigungsoperation), stellen alle Segmente eine vollständige Abdeckung der Merkmale der Eingabedaten 120 bereit.
Das Interpretierbarkeitsmodell 335, kann in jeder Ebene der hierarchischen Struktur ein Aufmerksamkeitsmodell sein, das einen Vorhersage-Score für jedes Segment bereitstellen kann. Je nachdem, ob die Segmente unter Verwendung von Klassifikations- oder Regressionsmethoden erzeugt werden, kann das Interpretierbarkeitsmodell 335 für jedes Segment von gruppierten Merkmalen einen Score erzeugen. Der Vorhersage-Score eines Segments (d.h. einer Gruppe von Merkmalen) kann als ein quantifizierter Einfluss des Segments auf das endgültige Vorhersageresultat 130 interpretiert werden, ohne dass die anderen Merkmale in den Eingabedaten berücksichtigt werden. Das Interpretierbarkeitsmodell 335 kann auf Grundlage eines gewichteten Ansatzes einen Gesamt-Score des Vorhersageresultats 130 erzeugen, wobei jedes der Segmente (und Teilsegmente) gewichtet wird und alle gewichteten Scores verwendet werden, um den Gesamt-Score zu berechnen. Die auf die Segmente angewendete Gewichtung kann auf verschiedenen Faktoren beruhen und ist für jedes der Segmente ein nichtnegativer Wert. In manchen Beispielen ist die Summe der verschiedenen Gewichtungen, die für die verschiedenen Segmente verwendet werden, gleich Eins. In manchen Beispielen ist der Beitrag eines bestimmten Segments von Merkmalen zu dem endgültigen Vorhersageresultat 130 gleich seiner Gewichtung multipliziert mit seinem Score.
Wie in 9 dargestellt, empfängt das System 100 die Eingabedaten 120. Alle Merkmale aus den Eingabedaten 120 werden in einer Ebene L1 y₀ 815 dargestellt, die alle Merkmale der Eingabedaten 120 enthält. Das System 100 verarbeitet die Eingabedaten 120 für jede Ebene in der hierarchischen Struktur 113, z.B. durch Vorhersagemodelle und/oder das Interpretierbarkeitsmodell 335. Bei einer oder mehreren Ausführungsformen der vorliegenden Erfindung wird jede Ebene in den Eingabedaten 120 gemäß jeder Ebene in der hierarchischen Struktur 113 iterativ verarbeitet. Die Eingabedaten 120 werden in einer Ebene y₁ 820 in Teilsegmente zerlegt, die sich gegenseitig ausschließen, und für jedes Segment oder Teilsegment werden Scores erzeugt, während eine derartige Verarbeitung durchgeführt wird. Das System 100 verarbeitet die Eingabedaten 120, wobei es die Merkmale in verschiedenen Ebenen (z.B. y₀ 815, y₁ 820, y₂ 830 usw.) in Segmente und Teilsegmente zerlegt und für jedes Segment (und Teilsegment) so lange Scores erzeugt, bis diese nicht mehr weiter zerlegt werden können. Der Score und die Segmente von Merkmalen werden verwendet, um auf Grundlage der verschiedenen zerlegten Segmente und Teilsegmente, die aus den Eingabedaten 120 erzeugt werden, eine Interpretierbarkeit der Eingabedaten 120 auf verschiedenen Granularitätsstufen bereitzustellen.
10 stellt ein veranschaulichendes Beispiel für einen Pseudocode 900 für einen Algorithmus dar, um gemäß einer oder mehreren Ausführungsformen der Erfindung eine Interpretierbarkeit mit zerlegbaren hierarchischen Strukturen hinzuzufügen. Der Pseudocode 900 stellt dar, wie eine Zerlegung der Merkmale in Segmente ausgeführt wird, und berechnet Interaktionen zwischen Segmenten. Die Interaktionen stellen eine Interpretierbarkeit der Merkmale sowie die Art und Weise bereit, wie sich die verschiedenen Segmente auf andere Segmente und auf den Gesamt-Score für einen Merkmalssatz auswirken können.
Der Algorithmus kann ein Tree-Walk durch die hierarchische Struktur 113 mit einem Breitendurchlauf von oben nach unten sein. Der erste Schritt des Algorithmus kann ein Verwenden der hierarchischen Struktur 113 als ein Expertenmodell und ein Segmentieren der Trainingsdaten 205 gemäß der hierarchischen Struktur 113 enthalten. In dem nächsten Schritt werden die Trainingsdaten 205 zum Erzeugen der prädiktiven Modelle 116 verwendet. Für jedes Segment kann Y_ zugewiesen werden, wobei Y_ das WAHR-Ziel oder erwartete Vorhersageresultat für dieses Segment ist. Ein Segment soll den Merkmalssatz X∈ {x₁, x₂, ..., x_K} für i ∈ [1,k] enthalten, wobei k die Gesamtzahl der ausgewählten Merkmale in den Eingabedaten 120 ist. Ein prädiktives Modell 116 ([{X},{Y}]) kann mit einem vorhersagten Resultat Y₀ für das Segment erzeugt werden. Auf diese Weise können für jedes der jeweiligen Segmente mehrere prädiktive Modelle 116 erzeugt werden.
Der dritte Schritt kann ein iterativer Schritt sein, um den prädiktiven Modellen 116 die Interpretierbarkeit zuzuweisen. Zum Beispiel wird für das oberste Segment (das alle Merkmale enthält) ein prädiktives Modell 116 ausgewählt, das ein bekanntes Resultat hat (z.B. Y ← Y₀). Für das oberste Segment wird eine Zerlegungsschleife ausgeführt, indem ein Tree-Walk durch die hierarchische Struktur 113 initiiert wird. Die Zerlegungsschleife wird für jedes darauffolgende Segment iterativ wiederholt, das angetroffen wird. Es ist zu bemerken, dass aufgrund der Art und Weise, wie die hierarchische Struktur 113 segmentiert wird, alle darauffolgenden Segmente Teilsegmente des ersten Segments sind, das sich in der obersten Ebene (L0) befindet. Die Zerlegung der Merkmale in einem ausgewählten Segment enthält die folgenden Schritte:

1. Zerlege den Satz von Merkmalen $X = U_{1}^{N} X_{j} .$
1. a. Die Eingabe ist der Satz von Merkmalen in dem ausgewählten Segment, und die Merkmale werden in Teilsätze segmentiert, die sich gegenseitig ausschließen. X_j soll der Satz von Merkmalen für ein Segment j sein. Y₁ soll das erwartete Resultat für das Segment j sein.
2. b. Erzeuge das interpretierbare Modell 335 für das ausgewählte Segment unter Verwendung der verbleibenden Segmente in derselben Ebene und des ausgewählten Ziels Y₁.
2. Der obige Schritt kann für jede Ebene in dem Segment X iterativ wiederholt werden, indem die nächste Ebene in X_j ausgewählt wird. Weise zum Beispiel X <- X_j und Y <- Y_1j zu (Y_1j ist hier das erwartete Resultat von X_j in dieser nächsten Ebene, die gerade zerlegt wird).

Die obigen Schritte werden so lange wiederholt, bis die letzte Ebene in der hierarchischen Struktur 113 erreicht wird, sowie für jedes Segment.
Bei manchen Beispiel-Ausführungsformen wird ein von oben nach unten gerichteter Ansatz verwendet, wobei unter Verwendung eines additiven (oder logarithmisch additiven) Modellierungsansatzes ein aktuelles Modell mit einer Interpretierbarkeit verwendet wird. Jeder Faktor (z.B. ein Segment von Merkmalen) trägt zu dem endgültigen Score oder Wert (z.B. einer Vorhersage oder Wahrscheinlichkeit) bei. Der Beitrag eines jeden Faktors ist die Multiplikation einer Gewichtung und des Scores, der jedem Faktor zugehörig ist. In manchen Beispielen kann die für jeden Faktor verwendete Gewichtung ein konstanter Wert sein. In manchen Beispielen kann die Gewichtung auf Grundlage verschiedener Erfordernisse eines Kunden oder einer Stichprobe angepasst werden.
Eine Schwäche eines von oben nach unten gerichteten Ansatzes kann enthalten, dass das additive Modell üblicherweise eine beschränkte Modellarchitektur hat, was die Genauigkeit des Modells begrenzen kann. Bei zu vielen Faktoren (d.h. Segmenten) kann der Beitrag eines jeden der Faktoren durch andere Faktoren negativ beeinflusst werden. In manchen Fällen kann die gesammelte Auswirkung (z.B. Interaktion) mehrerer Faktoren, die in dieselbe Kategorie fallen, schwer zu identifizieren sein.
Bei manchen Beispiel-Ausführungsformen kann die Schwäche des additiven Modells abgemildert werden, indem die Interaktionen der Faktoren mit der hierarchischen Struktur 113 aufgenommen werden. Das additive Modell kann mit der Granularität verwendet werden, die von dem Branchenkenner gefordert wird.
In manchen Beispielen ermittelt das System 100 eine Auswahl der Eingabedaten 120, die zum Trainieren des Interpretierbarkeitsmodells 335 verwendet werden soll. Bei einer ersten Option wählt das System 100 zum Beispiel die Option einer Verwendung des Resultats von zuvor trainierten Modellen aus, die zwar die Ausreißer statistischer Resultate entfernt, sich jedoch von wahren (genauen) Resultaten entfernt. Bei einer zweiten Option wählt das System 100 das Resultat des MLP-Trainingsmodells aus. Dies stellt die genauesten Resultate der statistischen Auswertung unter Verwendung aller Merkmale der Eingabedaten 120 bereit, da es die Vorhersage auf Grundlage des gesamten bekannten Wissens widerspiegelt und bestimmte Rauschdaten aus dem WAHR-Ziel entfernt. Allerdings können die Resultate bestimmte „Rauschdaten“ oder Ausreißer enthalten. Die dritte Option kann das Interpretierbarkeitsmodell 335 in die Lage versetzen, die wahren Zieldaten zu verwenden, was sicherstellt, dass alle Merkmale des Segments einen Score oder eine Vorhersage haben, die auf das WAHR-Ziel abgestimmt ist. Allerdings können die Resultate bestimmte „Rauschdaten“ oder Ausreißer enthalten.
11 ist ein Ablaufplan eines weiteren Beispiels für das computerrealisierte Verfahren 1000 zum Bereitstellen einer Interpretierbarkeit für prädiktive Modelle mit zerlegbaren hierarchischen Ebenen, die konfiguriert werden, um interpretierbare Resultate zu erzeugen. Die in 11 gezeigten Schritte können durch jeden geeigneten computerausführbaren Code und/oder jedes geeignete Datenverarbeitungssystem durchgeführt werden. In einem Beispiel steht jeder der in 11 gezeigten Schritte für einen Algorithmus, dessen Struktur mehrere Teilschritte enthält und/oder dadurch dargestellt wird, wobei Beispiele hierfür weiter unten ausführlicher bereitgestellt werden.
Wie in 11 veranschaulicht können eines oder mehrere der hierin beschriebenen Systeme in einem Schritt 1002 eine hierarchische Struktur empfangen. Die hierin beschriebenen Systeme können den Schritt 1002 auf jede geeignete Weise durchführen. In manchen Beispielen empfängt das System 100 Daten wie z.B. Branchendaten von einer oder mehreren Datenquellen in Verbindung mit der hierarchischen Struktur 113, die zum Analysen der Eingabedaten verwendet wird. Alternativ oder zusätzlich hierzu stellt ein Benutzer Informationen zu einem oder mehreren Merkmalen bereit, die in eines oder mehrere Segmente in der hierarchischen Struktur 113 aufgenommen werden sollen. Die hierarchische Struktur 113 kann durch einen oder mehrere Experten genau ausgewählt werden und kann auf Informationen beruhen, die aus Branchendaten erhalten werden sollen, wozu Informationen wie bewährte Branchenpraktiken, Konfigurationen für identifizierte Anwendungsfälle und Benutzerinformationen, Beziehungen zwischen Attributen und/oder Merkmalen und dergleichen gehören können. Die hierarchische Struktur 113 kann als eine Datenstruktur empfangen und gespeichert werden, die zum Speichern einer Baumstruktur verwendet wird. Die hierarchische Struktur 113 identifiziert, wie die Eingabedaten in Segmente aufgeteilt werden sollen, die Sätze von Merkmalen enthalten und Zuordnungen zwischen den Segmenten erzeugen können.
Bei manchen Ausführungsformen ist die hierarchische Struktur 113 eine Datenstruktur, die unter Verwendung eines Satzes von Attributen erstellt wird. Auf Grundlage der Art der Eingabedaten 120, die durch das System analysiert werden sollen, können die Merkmale in der hierarchischen Struktur 113 zum Beispiel einen demografie-, finanz- und/oder transaktionsbezogenen Satz von Merkmalen enthalten. Merkmale sind ein Satz von eng verwandten oder einander zugehörigen Parametern, die aus einem Datensatz abgeleitet werden. In manchen Beispielen kann die hierarchische Struktur 113 zum Beispiel eine Baumstruktur sein, wobei jede Ebene der Baumstruktur ein oder mehrere Segmente enthalten kann. Jedes Segment kann einen Satz von Merkmalen enthalten, die zu derselben Datenquelle gehören und/oder dieselben Eigenschaften haben. Verschiedene Ebenen der hierarchischen Struktur 113 werden als ein Satz von Segmenten von Daten mit einer unterschiedlichen Granularitätsstufe dargestellt. Wie in den 4 und 5 dargestellt, sind höhere Ebenen in dem Baum zum Beispiel allgemeinere Klassifikationen von Daten, während die niedrigeren Ebenen des Baums eine feinere Datengranularität aufweisen. Somit steht der höchste in den 4 und 5 dargestellte Knoten für die Vereinigung aller verfügbaren Merkmale aus einem Datensatz.
Unter Bezugnahme auf den Ablaufplan in 11 enthält das Verfahren 1000 in einem Schritt 1004 die Eingabedaten 120, die durch eines oder mehrere der prädiktiven Modelle 116 analysiert werden sollen. In manchen Beispielen kann mindestens eines der prädiktiven Modelle 116, die durch das prädiktive Modul 315 ausgeführt werden, ein MLP-Modell sein.
In einem Schritt 1006 segmentieren eines oder mehrere der hierin beschriebenen Systeme die Eingabedaten in eine Gruppe von Merkmalen gemäß der hierarchischen Struktur 113. Die hierin beschriebenen Systeme können den Schritt 1006 auf jede geeignete Weise durchführen.
In manchen Beispielen werden die Eingabedaten 120 unter Verwendung der hierarchischen Struktur 113 in Sätze von Merkmalen zerlegt, die sich gegenseitig ausschließen. Das Segmentieren der Eingabedaten erfolgt auf Grundlage der Merkmalsgruppe, die in jeder bestimmten Ebene der hierarchischen Struktur 113 definiert wird. Das System 100 zerlegt die Eingabedaten 120 außerdem iterativ in die angegebene Anzahl von Ebenen der hierarchischen Struktur 113.
In einem Schritt 1008 werden ein vorgegebener Score und eine kontextbezogene Begründung für jedes Segment ermittelt. Die hierin beschriebenen Systeme können den Schritt 1008 auf jede geeignete Weise durchführen. Zum Beispiel erzeugt das Interpretierbarkeitsmodell 335 einen entsprechenden vorhergesagten Score und eine kontextbezogene Begründung für jedes Segment von Merkmalen aus den Eingabedaten 120. Die vorhergesagten Scores und die entsprechende kontextbezogene Begründung können die Eingabedaten 120 erweitern, um Kontextinformationen bereitzustellen und die Interpretierbarkeit des Vorhersageresultats 130 zu erhöhen. Indem die hierarchische Struktur 113 auf die Eingabedaten 120 angewendet wird, während die Eingabedaten 120 unter Verwendung des Interpretierbarkeitsmodells 335 verarbeitet werden, können die Eingabedaten 120 so organisiert und erweitert werden, dass ein Benutzer in der Lage ist, eine spezifische Ebene innerhalb der Resultate zu identifizieren und nicht nur die genauen Resultate, die durch die prädiktiven Modelle 116 in den Eingabedaten 120 erzeugt werden, sondern auch die Kontextdaten zu erhalten, die erläutern, wie die Merkmale in den Eingabedaten 120 miteinander interagieren, z.B. ein vorhergesagter Score und eine Erläuterung zu dem angegebenen Segment von Merkmalen.
In einem Schritt 1010 wird jedes Segment in Teilsegmente von Merkmalen zerlegt. Die hierin beschriebenen Systeme können den Schritt 1010 auf jede geeignete Weise durchführen. Zum Beispiel zerlegt das Interpretierbarkeitsmodell 335 die Segmente auf Grundlage der Merkmalsgruppe, die in einer bestimmten Ebene der hierarchischen Struktur 113 definiert wird, in Teilsegmente von Merkmalen.
In einem Schritt 1012 wird für jedes Teilsegment und Segment in der hierarchischen Struktur 113 ein Score berechnet. Die hierin beschriebenen Systeme können den Schritt 1012 auf jede geeignete Weise durchführen. Zum Beispiel erzeugt das Interpretierbarkeitsmodell 335 einen entsprechenden vorhergesagten Score oder Wert sowie eine kontextbezogene Begründung für jedes Teilsegment von Merkmalen aus einem übergeordneten Segment. Das Interpretierbarkeitsmodell 335 kann zu dem Schritt 1010 zurückkehren und die Teilsegmente iterativ so lange weiter in Teilsegmente von Merkmalen auf Grundlage der hierarchischen Struktur 113 zerlegen, bis sich die Merkmale nicht mehr weiter segmentieren lassen.
In manchen Beispielen identifiziert das System 100 eine empfohlene Aktion auf Grundlage des vorhergesagten Scores oder Werts für ein ausgewähltes Segment und/oder die Eingabedaten 120 und ermöglicht eine Ausführung der Aktion auf Grundlage einer Benutzereingabe. Wenn der vorhergesagte Score oder Wert zum Beispiel angibt, dass ein Patient für eine medizinische Studie für eine bestimmte Diagnose in Frage kommt, kann das System einem Benutzer des Systems eine Benachrichtigung, dass der Patient für die Studie in Frage kommt, sowie eine vorgeschlagene Aktion vorlegen, z.B. ein Erzeugen eines elektronischen Schreibens wie z.B. einer E-Mail an den Patienten, um dem Patienten die spezifische Art von medizinischer Behandlung darzulegen, die über die medizinische Studie verfügbar ist. Wenn der Benutzer sich dafür entscheidet, mit der Aktion fortzufahren, kann das System das elektronische Schreiben erzeugen und an den Patienten senden.
Ausführungsformen der vorliegenden Erfindung ermöglichen ein System und eine Vorrichtung, um einem oder mehreren prädiktiven Modellen unter Verwendung einer zerlegbaren hierarchischen Struktur eine Interpretierbarkeit bereitzustellen. Ausführungsformen der vorliegenden Erfindung können die Interaktion zwischen einem Branchenfachmann und einem Datenwissenschaftler ermöglichen, um ein Modell zu erzeugen, das die Interpretierbarkeit der Resultate eines prädiktiven Modells hat oder diese identifiziert. Ausführungsformen der vorliegenden Erfindung identifizieren und erzeugen des Weiteren eine hierarchische Struktur, wobei die richtige Zuweisung und die Segmente der Merkmale in einem Expertenmodell vorliegen, das durch Experten erzeugt wird. Ausführungsformen der vorliegenden Erfindung ermöglichen einen Interaktionsprozess, um Schlüsselfaktoren (Merkmale oder Gruppen von Merkmalen) aus der hierarchischen Struktur hinzuzufügen/zu entfernen/zu aktualisieren. Ausführungsformen der vorliegenden Erfindung ermöglichen des Weiteren ein Erzeugen des prädiktiven Modells als ein anfängliches Modell, das alle Merkmale enthält, die zum Erzeugen des Expertenmodells mit der hierarchischen Struktur verwendet werden sollen. Ausführungsformen der vorliegenden Erfindung ermöglichen des Weiteren ein Erzeugen eines interpretierbaren Modells unter Verwendung des Resultats aus einem übergeordneten Expertenresultat als Ziel und unter Verwendung dieser lokalen Ebene von Expertenmerkmalen zum Erzeugen der Interpretierbarkeit des Resultats. Ausführungsformen der vorliegenden Erfindung ermöglichen ein Ausgeben der vorhergesagten Scores für einen ausgewählten Faktor auf einer ausgewählten Granularitätsstufe. Ausführungsformen der vorliegenden Erfindung ermöglichen des Weiteren ein Gruppieren der vorhergesagten Scores in einer Aktion, um ein Auslösen einer Geschäftsaktion auf verschiedenen Granularitätsstufen zu ermöglichen.
Die offenbarten Ausführungsformen der vorliegenden Erfindung ermöglichen ein Bereitstellen eines Interpretierbarkeitsmodells auf Grundlage des Beitrags von Merkmalen oder eines Merkmalssegments zu dem Score und Wert eines Resultats. Es gibt eine zerlegbare hierarchische Struktur von Merkmalen als die Segmente von Merkmalen, die durch Fachgebietsexperten definiert werden. Für jede Ebene der hierarchischen Struktur von Merkmalen wird unter Verwendung eines neuronalen Aufmerksamkeitsnetzwerks und derselben Trainingsdaten ein prädiktives Modell erzeugt. Für jedes Segment der Segmente von Merkmalen wird unter Verwendung eines neuronalen Aufmerksamkeitsnetzwerk-Modells ein vorhergesagter Score oder Wert bereitgestellt. Jedes Segment der Segmente von Merkmalen wird unter Verwendung der hierarchischen Struktur in Teilsegmente zerlegt. Unter Verwendung eines weiteren neuronalen Aufmerksamkeitsnetzwerk-Modells wird für jedes Teilsegment der Teilsegmente ein neuer vorhergesagter Score oder Wert bereitgestellt. Durch die Iteration über die zerlegbare hierarchische Struktur hinweg und durch ein Anwenden des Aufmerksamkeitsmodells wird der Beitrag eines jeden Segments von Merkmalen bei einer unterschiedlichen Granularität identifiziert. Der Beitrag der Interaktion eines Merkmalssegments wird ermittelt, indem Scores eines Segments und dessen Teilsegments miteinander verglichen werden.
Unter Bezugnahme auf 12 wird allgemein ein Computersystem 1100 gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt. Das Computersystem 1100 kann ein elektronisches Computer-Framework sein, das eine beliebige Anzahl und Kombination von Datenverarbeitungseinheiten und Netzwerken aufweist und/oder verwendet und verschiedene Datenübertragungstechnologien nutzt, wie hierin beschrieben wird. Das Computersystem 1100 kann einfach skalierbar, erweiterbar und modular sein und über die Fähigkeit verfügen, zu verschiedenen Diensten zu wechseln oder manche Merkmale unabhängig von anderen neu zu konfigurieren. Das Computersystem 1100 kann zum Beispiel, ein Server, Desktop Computer, Laptop Computer, Tablet Computer oder Smartphone sein. In manchen Beispielen kann das Computersystem 1100 ein Cloud-Computing-Knoten sein. Das Computersystem 1100 lässt sich im allgemeinen Zusammenhang von Anweisungen beschreiben, die durch ein Computersystem ausführbar sind, wie z.B. Programmmodule, die durch ein Computersystem ausgeführt werden. Allgemein können Programmmodule Routinen, Programme, Objekte, Komponenten, Logik, Datenstrukturen und dergleichen enthalten, die bestimmte Aufgaben durchführen oder bestimmte abstrakte Datentypen realisieren. Das Computersystem 1100 kann in verteilten Cloud-Computing-Umgebungen eingesetzt werden, wo Aufgaben von entfernt angeordneten Verarbeitungseinheiten durchgeführt werden, die über ein Datenübertragungsnetzwerk miteinander verbunden werden. In einer verteilten Cloud-Computing-Umgebung können sich Programmmodule sowohl in lokalen als auch in entfernt angeordneten Computersystem-Speichermedien wie beispielsweise Arbeitsspeichereinheiten befinden.
Wie in 12 gezeigt, hat das Computersystem 1100 eine oder mehrere Zentraleinheiten (Central Processing Units, CPUs) 1101a, 1101b, 1101c usw. (die gemeinsam oder allgemein als der bzw. die Prozessoren 1101 bezeichnet werden). Die Prozessoren 1101 können ein Einzelkernprozessor, ein Mehrkernprozessor, ein Datenverarbeitungs-Cluster oder eine beliebige Anzahl von anderen Konfigurationen sein. Die auch als Verarbeitungsschaltungen bezeichneten Prozessoren 1101 werden außerdem über einen Systembus 1102 mit einem Systemarbeitsspeicher 1103 und verschiedenen anderen Komponenten verbunden. Der Systemarbeitsspeicher 1103 kann einen Festwertspeicher (Read-Only Memory, ROM) 1104 und einen Direktzugriffsspeicher (Random Access Memory, RAM) 1105 enthalten. Der ROM 1104 wird mit dem Systembus 1102 verbunden und kann ein Basic Input/Output System (BIOS) enthalten, das bestimmte grundlegende Funktionen des Computersystems 1100 steuert. Der RAM ist ein Lese-Schreib-Arbeitsspeicher, der mit dem Systembus 1102 verbunden wird, um durch die Prozessoren 1101 verwendet zu werden. Der Systemarbeitsspeicher 1103 stellt einen vorübergehenden Arbeitsspeicherplatz für Operationen der Anweisungen während des Betriebs bereit. Der Systemarbeitsspeicher 1103 kann einen Direktzugriffsspeicher (RAM), Festwertspeicher, Flash-Arbeitsspeicher oder beliebige andere geeignete Arbeitsspeichersysteme enthalten.
Das Computersystem 1100 weist einen Eingabe/Ausgabe(E/A)-Adapter 1106 und einen Datenübertragungsadapter 1107 auf, die mit dem Systembus 1102 verbunden werden. Der E/A-Adapter 1106 kann ein SCSI-Adapter (Small Computer System Interface) sein, der mit einer Festplatte 1108 und/oder einer anderen ähnlichen Komponente Daten austauscht. Der E/A-Adapter 1106 und die Festplatte 1108 werden hierin zusammenfassend als ein Massenspeicher 1110 bezeichnet.
Eine Software 1111 zur Ausführung auf dem Computersystem 1100 kann in dem Massenspeicher 1110 gespeichert werden. Der Massenspeicher 1110 ist ein Beispiel für ein physisches Speichermedium, das durch die Prozessoren 1101 lesbar ist, wobei die Software 1111 als Anweisungen zur Ausführung durch die Prozessoren 1101 gespeichert wird, um den Betrieb des Computersystems 1100 zu veranlassen, wie dies hierin im Folgenden unter Bezugnahme auf die verschiedenen Figuren beschrieben wird. Beispiele für ein Computerprogrammprodukt und die Ausführung einer solcher Anweisung werden hierin ausführlicher dargelegt. Der Datenübertragungsadapter 1107 verbindet den Systembus 1102 mit einem Netzwerk 1112, bei dem es sich um ein externes Netzwerk handeln kann, das dem Computersystem 1100 ermöglicht, mit anderen solchen Systemen Daten auszutauschen. Bei einer Ausführungsform speichern ein Bereich des Systemarbeitsspeichers 1103 und der Massenspeicher 1110 gemeinsam ein Betriebssystem, das ein beliebiges geeignetes Betriebssystem sein kann, wie z.B. das z/OS- oder AlX-Betriebssystem der IBM Corporation, um die Funktionen der verschiedenen in 12 gezeigten Komponenten zu koordinieren.
Zusätzliche Eingabe/Ausgabe-Einheiten werden wie gezeigt über einen Anzeigeadapter 1115 und einen Schnittstellenadapter 1116 mit dem System 1102 verbunden. Bei einer Ausführungsform können die Adapter 1106, 1107, 1115 und 1116 mit einem oder mehreren E/A-Bussen verbunden werden, die über eine (nicht gezeigte) zwischengeschaltete Busbrücke mit dem Systembus 1102 verbunden werden. Eine Anzeige 1119 (z.B. ein Bildschirm oder ein Anzeigemonitor) wird mit dem Systembus 1102 durch einen Anzeigeadapter 1115 verbunden, der einen Grafik-Controller zur Verbesserung der Leistung von grafikintensiven Anwendungen sowie einen Video-Controller enthalten kann. Eine Tastatur 1121, eine Maus 1122, ein Lautsprecher 1123 usw. können über den Schnittstellenadapter 1116, der zum Beispiel einen SIO-Chip (Super I/O) enthalten kann, der mehrere Einheitenadapter zu einer einzigen integrierten Schaltung zusammenfasst, mit dem Systembus 1102 zusammenschaltet werden. Geeignete E/A-Busse zum Verbinden von Peripherieeinheiten wie z.B. Festplatten-Controllern, Netzwerkadaptern und Grafikadaptern enthalten üblicherweise gemeinsame Protokolle wie beispielsweise das PCI-Protokoll (Peripheral Component Interconnect). Wie in 12 konfiguriert, enthält das Computersystem 1100 somit eine Verarbeitungsfähigkeit in Gestalt der Prozessoren 1101 und eine Speicherfähigkeit wie z.B. den Systemarbeitsspeicher 1103 und den Massenspeicher 1110, Eingabemittel wie z.B. die Tastatur 1121 und die Maus 1122 sowie eine Ausgabefähigkeit wie z.B. den Lautsprecher 1123 und die Anzeige 1119.
Bei manchen Ausführungsformen kann der Datenübertragungsadapter 1107 Daten unter Verwendung einer beliebigen geeigneten Schnittstelle oder eines beliebigen geeigneten Protokolls übertragen, wie z.B. das iSCSI-Protokoll (Internet Small Computer System Interface) und dergleichen. Das Netzwerk 1112 kann z.B. ein Mobilfunknetzwerk, ein Funknetzwerk, ein Weitverkehrsnetzwerk (Wide Area Network, WAN), ein lokales Netzwerk (Local Area Network, LAN) oder das Internet und dergleichen sein. Eine externe Datenverarbeitungseinheit kann über das Netzwerk 1112 mit dem Computersystem 1100 verbunden werden. In manchen Beispielen kann die externe Datenverarbeitungseinheit ein externer Web-Server oder ein Cloud-Computing-Knoten sein.
Es sollte klar sein, dass das Blockschaubild aus 2 nicht dahingehend zu verstehen ist, als müsse das Computersystem 1100 alle in 12 gezeigten Komponenten enthalten. Vielmehr kann das Computersystem 1100 eine geringere Anzahl von beliebigen geeigneten Komponenten oder aber zusätzliche geeignete Komponenten enthalten, die in 12 nicht veranschaulicht werden (z.B. zusätzliche Arbeitsspeicherkomponenten, eingebettete Controller, Module, zusätzliche Netzwerkschnittstellen usw.). Des Weiteren können die hierin in Bezug auf das Computersystem 1100 beschriebenen Ausführungsformen mit jeder geeigneten Logik realisiert werden, wobei die Logik, wie hierin erwähnt, jede geeignete Hardware (z.B. einen Prozessor einen eingebetteten Controller oder eine anwendungsspezifische integrierte Schaltung), Software (z.B. eine Anwendung und dergleichen), Firmware oder jede beliebige Kombination aus Hardware, Software und Firmware in verschiedenen Ausführungsformen enthalten kann.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt mit einem beliebigen möglichen Grad an technischer Integration handeln. Das Computerprogrammprodukt kann ein computerlesbares Speichermedium (oder computerlesbare Speichermedien) mit darauf gespeicherten computerlesbaren Programmanweisungen enthalten, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem computerlesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch eine Anweisungsausführungseinheit behalten und speichern kann. Bei dem computerlesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des computerlesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein RAM, ein ROM, ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer CD-ROM, eine DVD (Digital Versatile Disc), ein Speicher-Stick, eine Diskette, eine mechanisch kodierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein computerlesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. durch ein Lichtwellenleiterkabel geleitete Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene computerlesbare Programmanweisungen können von einem computerlesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetzwerk und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt computerlesbare Programmanweisungen aus dem Netzwerk und leitet die computerlesbaren Programmanweisungen zur Speicherung in einem computerlesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
Bei computerlesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction Set Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandseinstellende Daten, Konfigurationsdaten für eine integrierte Schaltung oder sowohl um Quellcode als auch um Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die computerlesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden werden, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetzwerk (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, im Feld programmierbare Gatter-Anordnungen (FPGA) oder programmierbare Logikanordnungen (PLA, Programmable Logic Arrays) die computerlesbare Programmanweisungen ausführen, indem sie Zustandsinformationen der computerlesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung werden hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaubildern mittels - computerlesbarer Programmanweisungen ausgeführt werden können.
Diese computerlesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, sodass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken des Ablaufplans und/oder des Blockschaubilds festgelegten Funktionen/Schritte erzeugen. Diese computerlesbaren Programmanweisungen können auch auf einem computerlesbaren Speichermedium gespeichert werden, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, sodass das computerlesbare Speichermedium, auf dem Anweisungen gespeichert werden, ein Herstellungsprodukt aufweist, darunter Anweisungen, die Aspekte der bzw. des in dem Block bzw. den Blöcken der Ablaufpläne und/oder Blockschaubilder angegebenen Funktion/Schritts umsetzen.
Die computerlesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Arbeitsschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um ein computerrealisiertes Verfahren zu erzeugen, sodass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaubilder festgelegten Funktionen/Schritte umsetzen.
Die Ablaufpläne und die Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion bzw. Funktionen aufweisen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, die die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung wurden zum Zwecke der Veranschaulichung vorgelegt und sind nicht als vollständig oder auf die offenbarten Ausführungsformen beschränkt zu verstehen. Der Fachmann weiß, dass zahlreiche Modifikationen und Abwandlungen möglich sind, ohne vom inhaltlichen Umfang und gedanklichen Wesensgehalt der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendete Begrifflichkeit wurde gewählt, um die Grundsätze der Ausführungsformen, die praktische Anwendung oder technische Verbesserung gegenüber marktgängigen Technologien bestmöglich zu erläutern bzw. anderen Fachleuten das Verständnis der hierin beschriebenen Ausführungsformen zu ermöglichen.
Verschiedene Ausführungsformen der Erfindung werden hierin unter Bezugnahme auf die zugehörigen Zeichnungen beschrieben. Alternative Ausführungsformen der Erfindung sind denkbar, ohne vom Umfang dieser Erfindung abzuweichen. In der folgenden Beschreibung und in den Zeichnungen werden verschiedene Verbindungen und Positionsbeziehungen (z.B. über, unter, neben usw.) zwischen Elementen dargelegt. Sofern nicht anderweitig genannt, können diese Verbindungen und/oder Positionsbeziehungen direkt oder indirekt sein, und die vorliegende Erfindung ist in diesem Zusammenhang nicht als Beschränkung zu verstehen. Entsprechend kann sich eine Verbindung von Einheiten entweder auf eine direkte oder eine indirekte Verbindung beziehen, und eine Positionsbeziehung zwischen Einheiten kann eine direkte oder indirekte Positionsbeziehung sein. Darüber hinaus können die verschiedenen hierin beschriebenen Aufgaben und Prozessschritte in eine umfassendere Verfahrensweise oder einen umfassenderen Prozess mit zusätzlichen Schritten oder einer zusätzlichen Funktionalität eingebettet werden, die hierin nicht im Detail beschrieben werden bzw. wird.
Für die Auslegung der Ansprüche und der Beschreibung sind die folgenden Definitionen und Abkürzungen zu verwenden. Wie hierin verwendet, sollen die Begriffe „weist auf“, „aufweisend“, „enthält“, „enthaltend“, „hat“, „mit“, „fasst“ oder „fassend“ bzw. jegliche andere Abwandlung hiervon einen nicht ausschließlichen Einschluss ausdrücken. Zum Beispiel ist eine Zusammensetzung, eine Mischung, ein Prozess, ein Verfahren, ein Gegenstand oder eine Vorrichtung, die bzw. der eine Liste von Elementen aufweist, nicht notwendigerweise auf diese Elemente beschränkt, sondern kann auch andere Elemente enthalten, die nicht ausdrücklich aufgeführt werden oder einer solchen Zusammensetzung, Mischung, einem solchen Prozessor, Verfahren, Artikel oder einer solchen Vorrichtung innewohnen.
Zusätzlich wird der Begriff „beispielhaft“ hierin im Sinne von „als Beispiel, exemplarisch oder zur Veranschaulichung dienend“ verwendet. Jede hierin als „beispielhaft“ beschriebene Ausführungsform oder Ausgestaltung ist nicht zwingend so zu verstehen, als sei sie gegenüber anderen Ausführungsformen oder Entwürfen bevorzugt oder vorteilhaft. Die Begriffe „mindestens einer“ und „einer oder mehrere“ können so verstanden werden, als enthielten sie jede Ganzzahl größer als oder gleich eins, d.h. eins, zwei, drei, vier usw. Der Begriff „eine Mehrzahl“ kann so verstanden werden, als enthielte er eine Ganzzahl größer als oder gleich zwei, d.h. zwei, drei, vier, fünf usw. Der Begriff „Verbindung“ kann sowohl eine indirekte „Verbindung“ als auch eine direkte „Verbindung“ enthalten.
Die Begriffe „circa“, „im Wesentlichen“, „ungefähr“ und Abwandlungen hiervon sollen den Grad an Fehlerhaftigkeit enthalten, der auf Grundlage der zum Zeitpunkt der Anmeldungseinreichung verfügbaren Ausstattung einer Messung der betreffenden Menge zugehörig ist. So kann „circa“ zum Beispiel einen Bereich von ± 8 % oder 5 % oder 2 % eines bestimmten Werts enthalten.
Aus Gründen der Kürze werden herkömmliche Techniken, die sich auf die Herstellung und Verwendung von Aspekten der Erfindung beziehen, hierin nicht notwendigerweise im Detail beschrieben. Im Besonderen sind verschiedene hierin beschriebene Aspekte von Datenverarbeitungssystemen und spezifischen Computerprogrammen zum Realisieren der verschiedenen technischen Merkmale hinlänglich bekannt. Entsprechend werden im Interesse der Kürze viele herkömmliche Realisierungsdetails hierin nur kurz erwähnt oder vollständig weggelassen, ohne Einzelheiten zu dem bekannten System und/oder Prozess bereitzustellen.

Claims

Computerrealisiertes Verfahren zum Bereitstellen interpretierbarer Vorhersagen aus einem Modell mit maschinellem Lernen (ML), wobei das Verfahren aufweist: Empfangen einer Datenstruktur, die für eine hierarchische Struktur eines Satzes von Merkmalen (X) steht, der durch ein oder mehrere prädiktive Modelle verwendet wird, um einen Satz von Vorhersagen (Y) zu erzeugen, durch einen Prozessor einer Datenverarbeitungseinheit; Erzeugen eines Interpretierbarkeitsmodells, das den prädiktiven Modellen entspricht, durch den Prozessor, indem einer jeden Vorhersage Y_i des prädiktiven Modells auf Grundlage der hierarchischen Struktur eine Interpretierbarkeit zugewiesen wird, wobei ein Zuweisen der Interpretierbarkeit aufweist: Zerlegen des Satzes von Merkmalen (X) der Eingabedaten in eine Mehrzahl von Segmenten X_j durch den Prozessor durch Verwenden der hierarchischen Struktur, wobei $X = U_{1}^{N} X_{j}$
und N die Anzahl der Segmente ist; Zerlegen eines jeden Segments aus den Segmenten in eine Mehrzahl von Teilsegmenten durch den Prozessor durch Verwenden der hierarchischen Struktur, bis unteilbare Teilsegmente erhalten werden; und Bestimmen eines Score-Wertes für jedes Teilsegment als eine Funktion der vorhergesagten Scores der Teilsegmente des jeden Segments durch den Prozessor, wobei die vorhergesagten Scores für Interaktionen zwischen den Teilsegmenten stehen; und Ausgeben einer Interpretation einer Vorhersage, die durch das prädiktive Modell bereitgestellt wird, auf Grundlage des Interpretierbarkeitsmodells durch den Prozessor, wobei die Interpretation für eine Gewichtung des einen oder der mehreren Merkmale steht, die durch das prädiktive Modell verwendet werden, um die Vorhersage zu erzeugen.
Computerrealisiertes Verfahren nach Anspruch 1, wobei die Segmente von Merkmalen Teilsätze der Eingabedaten sind, die sich gegenseitig ausschließen.
Computerrealisiertes Verfahren nach Anspruch 1, des Weiteren aufweisend ein Erzeugen eines Gesamt-Score-Wertes für die Eingabedaten auf Grundlage des vorhergesagten Scores für jedes Segment.
Computerrealisiertes Verfahren nach Anspruch 1, wobei ein Erzeugen der hierarchischen Struktur des Weiteren aufweist: Empfangen von Branchendaten, die durch einen oder mehrere Experten genau ausgewählt werden, durch den Prozessor; und Erzeugen der hierarchischen Struktur durch den Prozessor durch Verwenden der Branchendaten durch Erstellen eines Baummodells, indem die Branchendaten in die Segmente von Merkmalen aufgeteilt und Zuordnungen zwischen den Segmenten erzeugt werden.
Computerrealisiertes Verfahren nach Anspruch 1, des Weiteren aufweisend Identifizieren einer empfohlenen Aktion durch den Prozessor auf Grundlage des vorhergesagten Scores für ein ausgewähltes Merkmal.
Computerrealisiertes Verfahren nach Anspruch 1, wobei jedes Segment einem entsprechenden Interpretierbarkeitsmodell zugehörig ist.
Computerrealisiertes Verfahren nach Anspruch 1, wobei das Interpretierbarkeitsmodell ein Aufmerksamkeitsmodell ist.
System, aufweisend: mindestens einen Arbeitsspeicher, der computerausführbare Anweisungen speichert; und mindestens einen Prozessor, der konfiguriert wird, um auf den mindestens einen Arbeitsspeicher zuzugreifen und ein Verfahren zum Bereitstellen interpretierbarer Vorhersagen aus einem ML-Modell durchzuführen, wobei das Verfahren aufweist: Empfangen einer Datenstruktur, die für eine hierarchische Struktur eines Satzes von Merkmalen (X) steht, der durch ein oder mehrere prädiktive Modelle verwendet wird, um einen Satz von Vorhersagen (Y) zu erzeugen, durch einen Prozessor einer Datenverarbeitungseinheit; Erzeugen eines Interpretierbarkeitsmodells, das den prädiktiven Modellen entspricht, durch den Prozessor, indem einer jeden Vorhersage Y_i des prädiktiven Modells auf Grundlage der hierarchischen Struktur eine Interpretierbarkeit zugewiesen wird, wobei das Zuweisen der Interpretierbarkeit aufweist: Zerlegen des Satzes von Merkmalen (X) der Eingabedaten durch den Prozessor in eine Mehrzahl von Segmenten X_j durch Verwenden der hierarchischen Struktur, wobei $X = U_{1}^{N} X_{j}$
und N die Anzahl der Segmente ist; Zerlegen eines jeden Segments aus den Segmenten in eine Mehrzahl von Teilsegmenten durch den Prozessor durch Verwenden der hierarchischen Struktur, bis unteilbare Teilsegmente erhalten werden; und Bestimmen eines Score-Wertes für jedes Teilsegment als eine Funktion der vorhergesagten Scores der Teilsegmente des jeden Segments durch den Prozessor, wobei die vorhergesagten Scores für Interaktionen zwischen den Teilsegmenten stehen; und Ausgeben einer Interpretation einer Vorhersage, die durch das prädiktive Modell bereitgestellt wird, auf Grundlage des Interpretierbarkeitsmodells durch den Prozessor, wobei die Interpretation für eine Gewichtung des einen oder der mehreren Merkmale steht, die durch das prädiktive Modell verwendet werden, um die Vorhersage zu erzeugen.
System nach Anspruch 8, wobei die Segmente von Merkmalen Teilsätze der Eingabedaten sind, die sich gegenseitig ausschließen.
System nach Anspruch 8, wobei das Verfahren des Weiteren ein Erzeugen eines Gesamt-Scores für die Eingabedaten auf Grundlage des vorhergesagten Score-Wertes für jedes Segment aufweist.
System nach Anspruch 8, wobei ein Erzeugen der hierarchischen Struktur des Weiteren aufweist: Empfangen von Branchendaten, die durch einen oder mehrere Experten genau ausgewählt werden; und Erzeugen der hierarchischen Struktur durch Verwenden der Branchendaten durch Erstellen eines Baummodells, indem die Branchendaten in die Segmente von Merkmalen aufgeteilt und Zuordnungen zwischen den Segmenten erzeugt werden.
System nach Anspruch 8, wobei das Verfahren des Weiteren ein Identifizieren einer empfohlenen Aktion auf Grundlage des vorhergesagten Scores für ein ausgewähltes Merkmal aufweist.
System nach Anspruch 8, wobei jedes Segment einem entsprechenden Interpretierbarkeitsmodell zugehörig ist.
System nach Anspruch 8, wobei das Interpretierbarkeitsmodell ein Aufmerksamkeitsmodell ist.
Computerprogrammprodukt, aufweisend ein computerlesbares Speichermedium mit darauf enthaltenen Programmanweisungen, wobei die Programmanweisungen durch einen oder mehrere Prozessoren ausführbar sind, um den einen oder die mehreren Prozessoren zum Durchführen eines Verfahrens zu veranlassen, aufweisend: Empfangen einer Datenstruktur, die für eine hierarchische Struktur eines Satzes von Merkmalen (X) steht, der durch ein oder mehrere prädiktive Modelle verwendet wird, um einen Satz von Vorhersagen (Y) zu erzeugen, durch einen Prozessor einer Datenverarbeitungseinheit; Erzeugen eines Interpretierbarkeitsmodells, das den prädiktiven Modellen entspricht, durch den Prozessor, indem einer jeden Vorhersage Y_i des prädiktiven Modells auf Grundlage der hierarchischen Struktur eine Interpretierbarkeit zugewiesen wird, wobei das Zuweisen der Interpretierbarkeit aufweist: Zerlegen des Satzes von Merkmalen (X) der Eingabedaten in eine Mehrzahl von Segmenten X_j durch den Prozessor durch Verwenden der hierarchischen Struktur wobei $X = U_{1}^{N} X_{j}$
und N die Anzahl der Segmente ist; Zerlegen eines jeden Segments aus den Segmenten in eine Mehrzahl von Teilsegmenten durch Verwenden der hierarchischen Struktur, bis unteilbare Teilsegmente erhalten werden, durch den Prozessor; und Bestimmen eines Score-Wertes für jedes Teilsegment als eine Funktion der vorhergesagten Scores der Teilsegmente des jeden Segments durch den Prozessor, wobei die vorhergesagten Scores für Interaktionen zwischen den Teilsegmenten stehen; und Ausgeben einer Interpretation einer Vorhersage, die durch das prädiktive Modell bereitgestellt wird, auf Grundlage des Interpretierbarkeitsmodells durch den Prozessor, wobei die Interpretation für eine Gewichtung des einen oder der mehreren Merkmale steht, die durch das prädiktive Modell verwendet werden, um die Vorhersage zu erzeugen.
Computerprogrammprodukt nach Anspruch 15, wobei die Segmente von Merkmalen Teilsätze der Eingabedaten sind, die sich gegenseitig ausschließen.
Computerprogrammprodukt nach Anspruch 15, wobei das Verfahren des Weiteren ein Erzeugen eines Gesamt-Scores für die Eingabedaten auf Grundlage des vorhergesagten Scores für jedes Segment aufweist.
Computerprogrammprodukt nach Anspruch 15, wobei ein Erzeugen der hierarchischen Struktur des Weiteren aufweist: Empfangen von Branchendaten, die durch einen oder mehrere Experten genau ausgewählt werden; und Erzeugen der hierarchischen Struktur durch Verwenden der Branchendaten durch Erstellen eines Baummodells, indem die Branchendaten in die Segmente von Merkmalen aufgeteilt und Zuordnungen zwischen den Segmenten erzeugt werden.
Computerprogrammprodukt nach Anspruch 15, wobei jedes Segment einem entsprechenden Interpretierbarkeitsmodell zugehörig ist.
Computerprogrammprodukt nach Anspruch 15, wobei das Interpretierbarkeitsmodell ein Aufmerksamkeitsmodell ist.