DE112021000251T5

DE112021000251T5 - Verfahren zum auswählen von datensätzen zum aktualisieren eines moduls mit künstlicher intelligenz

Info

Publication number: DE112021000251T5
Application number: DE112021000251.1T
Authority: DE
Inventors: Rafal Bigaj; Lukasz Cmielowski; Pawel Slowikowski; Wojciech Sobala
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-03-26
Filing date: 2021-02-24
Publication date: 2022-09-08
Also published as: US20210304059A1; WO2021191703A1; GB202215364D0; CN115362452A; KR20220149541A; AU2021240437A1; JP2023518789A; GB2609143A

Abstract

Ein computerrealisiertes Verfahren zum Auswählen eines Datensatzes aus bestimmten Datensätzen für ein Aktualisieren eines Moduls mit künstlicher Intelligenz (Kl-Modul). Die bestimmten Datensätze weisen jeweils einen Eingabedatensatz und einen entsprechenden Ausgabedatensatz auf. Das computerrealisierte Verfahren weist auf: ein Erhalten von Werten von Parametern zum Definieren verschiedener Cluster der bestimmten Datensätze, ein Ermitteln einer Metrik eines jeden bestimmten Datensatzes, wobei die Metrik eines jeden bestimmten Datensatzes von einem Grad an Zugehörigkeit des betreffenden bestimmten Datensatzes zu einem der Cluster sowie von einem Abstand des betreffenden bestimmten Datensatzes zu einem Schwerpunkt desselben einen der Cluster abhängig ist, und ein Auswählen von mindestens einem der bestimmten Datensätze aus den bestimmten Datensätzen zum Aktualisieren des KI-Moduls auf Grundlage eines Vergleichs der Metriken der bestimmten Datensätze.

Description

HINTERGRUND
Die vorliegende Erfindung bezieht sich auf das Gebiet von digitalen Computersystemen und im Besonderen auf ein Verfahren zum Auswählen von Datensätzen für eine Anpassung eines Moduls mit künstlicher Intelligenz.
Künstliche Intelligenz (Kl) oder Maschinenintelligenz bezeichnet jede Einheit, die ihre Umgebung wahrnimmt und Aktionen durchführt, die die Wahrscheinlichkeit maximieren, dass sie ein Ziel erreicht. Unter künstlicher Intelligenz werden häufig Maschinen oder Computer verstanden, die „kognitive“ Funktionen nachahmen, die der Mensch mit dem menschlichen Geist in Verbindung bringt, z.B. Spracherkennung, Lernen, Schlussfolgern, Planen und Problemlösung. Als Teilsatz von künstlicher Intelligenz ermöglicht maschinelles Lernen (ML) einer Einheit, automatisch aus vergangenen Daten zu lernen, ohne explizite Anweisungen zu verwenden, und sich dabei stattdessen auf Muster und Inferenzen zu stützen. ML-Algorithmen erzeugen ein mathematisches Modell auf Grundlage von Beispieldaten, die auch als „Trainingsdaten“ bezeichnet werden, um Vorhersagen oder Entscheidungen zu treffen, ohne für die Durchführung der Aufgabe explizit programmiert zu werden. Die ML-Algorithmen werden aktualisiert oder neu trainiert, wenn neue Trainingsdaten verfügbar werden.
KURZDARSTELLUNG
Bei einer Anwendung eines trainierten Moduls mit künstlicher Intelligenz (KI-Modul) kann unter Umständen eine Verbesserung des KI-Moduls angestrebt werden. Eine solche Verbesserung kann durch ein Aktualisieren, vorzugsweise ein Neutrainieren, des KI-Moduls durchgeführt werden, indem zusätzliche Datensätze verwendet werden, die bis dahin zum Trainieren oder Validieren des KI-Moduls noch nicht verwendet wurden. Diese zusätzlichen Datensätze können gesammelt werden, indem auf das KI-Modul angewendete Eingabedatensätze in einer Protokolldatei protokolliert werden und indem entsprechende Ausgabedatensätze, die durch das KI-Modul auf Grundlage der Eingabedatensätze berechnet werden, in einer Protokolldatei protokolliert werden.
Verschiedene Ausführungsformen der vorliegenden Erfindung stellen ein computerrealisiertes Verfahren zum Auswählen eines Datensatzes aus bestimmten Datensätzen zum Aktualisieren eines Moduls mit künstlicher Intelligenz (Kl-Modul), ein Computerprogrammprodukt und ein Computersystem bereit, wie durch den Gegenstand der unabhängigen Ansprüche beschrieben wird. Vorteilhafte Ausführungsformen werden in den abhängigen Ansprüchen beschrieben. Ausführungsformen der vorliegenden Erfindung können frei miteinander kombiniert werden, sofern sie sich nicht gegenseitig ausschließen.
Gemäß einer Ausführungsform enthält die vorliegende Erfindung ein computerrealisiertes Verfahren zum Auswählen eines Datensatzes aus bestimmten Datensätzen zum Aktualisieren eines Moduls mit künstlicher Intelligenz (Kl-Modul), wobei die bestimmten Datensätze jeweils einen Eingabedatensatz und einen entsprechenden Ausgabedatensatz aufweisen. Das computerrealisierte Verfahren weist auf: ein Erhalten von Werten von Parametern zum Definieren verschiedener Cluster der bestimmten Datensätze, ein Ermitteln einer Metrik eines jeden bestimmten Datensatzes, wobei die Metrik eines jeden bestimmten Datensatzes von einem Grad an Zugehörigkeit des betreffenden bestimmten Datensatzes zu einem der Cluster sowie von einem Abstand des betreffenden bestimmten Datensatzes zu einem Schwerpunkt desselben einen der Cluster abhängig ist, und ein Auswählen von mindestens einem der bestimmten Datensätze aus den bestimmten Datensätzen zum Aktualisieren des KI-Moduls auf Grundlage eines Vergleichs der Metriken der bestimmten Datensätze.
Gemäß einer weiteren Ausführungsform enthält die vorliegende Erfindung ein Computerprogrammprodukt zum Auswählen eines Datensatzes aus bestimmten Datensätzen zum Aktualisieren eines Moduls mit künstlicher Intelligenz (Kl-Modul), wobei die bestimmten Datensätze jeweils einen Eingabedatensatz und einen entsprechenden Ausgabedatensatz aufweisen, wobei das Computerprogrammprodukt ein computerlesbares Speichermedium mit darin enthaltenem computerlesbarem Programmcode aufweist, wobei der computerlesbare Programmcode zum Realisieren eines Verfahrens konfiguriert wird, aufweisend: ein Erhalten von Werten von Parametern zum Definieren verschiedener Cluster der bestimmten Datensätze, ein Ermitteln einer Metrik eines jeden bestimmten Datensatzes, wobei die Metrik eines jeden bestimmten Datensatzes von einem Grad an Zugehörigkeit des betreffenden bestimmten Datensatzes zu einem der Cluster sowie von einem Abstand des betreffenden bestimmten Datensatzes zu einem Schwerpunkt desselben einen der Cluster abhängig ist, und ein Auswählen von mindestens einem der bestimmten Datensätze aus den bestimmten Datensätzen zum Aktualisieren des KI-Moduls auf Grundlage eines Vergleichs der Metriken der bestimmten Datensätze.
Gemäß einer weiteren Ausführungsform enthält die vorliegende Erfindung ein Computersystem zum Auswählen eines Datensatzes aus bestimmten Datensätzen zum Aktualisieren eines Moduls mit künstlicher Intelligenz (Kl-Modul), wobei die bestimmten Datensätze jeweils einen Eingabedatensatz und einen entsprechenden Ausgabedatensatz aufweisen, wobei das Computersystem einen oder mehrere Computerprozessoren, ein oder mehrere computerlesbare Speichermedien und Programmanweisungen aufweist, die zur Ausführung durch den einen oder die mehreren Computerprozessoren in dem einen oder den mehreren computerlesbaren Speichermedien gespeichert werden, um ein Verfahren zu realisieren, aufweisend:

ein Erhalten von Werten von Parametern zum Definieren verschiedener Cluster der bestimmten Datensätze, ein Ermitteln einer Metrik eines jeden bestimmten Datensatzes, wobei die Metrik eines jeden bestimmten Datensatzes von einem Grad an Zugehörigkeit des betreffenden bestimmten Datensatzes zu einem der Cluster sowie von einem Abstand des betreffenden bestimmten Datensatzes zu einem Schwerpunkt desselben einen der Cluster abhängig ist, und ein Auswählen von mindestens einem der bestimmten Datensätze aus den bestimmten Datensätzen zum Aktualisieren des KI-Moduls auf Grundlage eines Vergleichs der Metriken der bestimmten Datensätze.

Figurenliste
Im Folgenden werden Ausführungsformen der Erfindung lediglich beispielhaft in größerer Ausführlichkeit und unter Bezugnahme auf die Zeichnungen beschrieben, wobei:

1 ein erstes Computersystem zum Auswählen eines Datensatzes aus bestimmten Datensätzen zum Aktualisieren eines KI-Moduls sowie ein zweites Computersystem zum Ausführen des KI-Moduls darstellt;
2 einen Datenfluss des KI-Moduls darstellt, der Anforderungs-Eingabedatensätze und entsprechende Antwort-Ausgabedatensätze darstellt;
3 eine Protokolldatei zeigt, die bestimmte Datensätze aufweist, die aus den in 2 gezeigten Anforderungs-Eingabedatensätzen und den entsprechenden Antwort-Ausgabedatensätzen erzeugt werden;
4 einen verketteten Parameterraum zeigt, der die in 3 gezeigten bestimmten Datensätze aufweist, die durch entsprechende Datenpunkte in dem verketteten Parameterraum repräsentiert werden; und
5 einen Ablaufplan eines computerrealisierten Verfahrens zum Auswählen eines Datensatzes aus in 3 gezeigten bestimmten Datensätzen zum Aktualisieren des KI-Moduls darstellt.

AUSFÜHRLICHE BESCHREIBUNG
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung werden zum Zwecke der Veranschaulichung vorgelegt und sind nicht als vollständig oder auf die offenbarten Ausführungsformen beschränkt zu verstehen. Der Fachmann weiß, dass zahlreiche Modifikationen und Abwandlungen möglich sind, ohne vom inhaltlichen Umfang und gedanklichen Wesensgehalt der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendete Begrifflichkeit wurde gewählt, um die Grundsätze der Ausführungsformen, die praktische Anwendung oder technische Verbesserung gegenüber marktgängigen Technologien bestmöglich zu erläutern bzw. anderen Fachleuten das Verständnis der hierin offenbarten Ausführungsformen zu ermöglichen.
Das vorliegende Verfahren kann die Auswahl des mindestens einen der bestimmten Datensätze (im Folgenden als der ausgewählte Datensatz bezeichnet) ermöglichen, abhängig von den Metriken der bestimmten Datensätze zum Aktualisieren des KI-Moduls. Wie oben erwähnt, kann die Metrik eines jeden bestimmten Datensatzes von dem Grad an Zugehörigkeit des betreffenden bestimmten Datensatzes zu einem der Cluster (im Folgenden als der ausgewählte Cluster bezeichnet) sowie von einem Abstand des betreffenden bestimmten Datensatzes zu dem Schwerpunkt desselben einen der Cluster abhängig sein, z.B. zu dem Schwerpunkt des ausgewählten Clusters.
Die Eingabedatensätze der bestimmten Datensätze können n Dimensionen haben, und die Ausgabedatensätze der bestimmten Datensätze können k Dimensionen haben. Die n Dimensionen der Eingabedatensätze können einen Eingabeparameterraum umfassen, und die k Dimensionen der Ausgabedatensätze können einen Ausgabeparameterraum umfassen. Die n Dimensionen der Eingabedatensätze und die k Dimensionen der Ausgabedatensätze können gemeinsam einen verketteten Parameterraum umfassen. Der Eingabeparameterraum, der Ausgabeparameterraum und/oder der verkettete Parameterraum können jeweils mindestens eine Begrenzung haben. Die Eingabe- und Ausgabedatensätze der bestimmten Datensätze können Werte aufweisen, bei denen es sich bevorzugt um reelle Werte handelt.
Die bestimmten Datensätze können erzeugt werden, indem das KI-Modul in einem trainierten Zustand verwendet wird. Das trainierte KI-Modul kann Ausgabedatensätze jeweils auf Grundlage eines entsprechenden Eingabedatensatzes berechnen. Die entsprechenden Eingabedatensätze können jeweils für eine Anforderung eines Benutzers des trainierten KI-Moduls stehen und können als Anforderungs-Eingabedatensätze bezeichnet werden. Die Ausgabedatensätze können jeweils für eine Antwort des trainierten KI-Moduls auf die betreffenden Anforderungs-Eingabedatensätze stehen und können als Antwort-Ausgabedatensätze bezeichnet werden. Die bestimmten Datensätze können jeweils durch ein Verketten eines jeden Antwort-Ausgabedatensatzes mit dem betreffenden Anforderungs-Eingabedatensatz erzeugt werden. Die bestimmten Datensätze können durch eine Protokolldatei bereitgestellt werden. Die Protokolldatei kann durch Aufzeichnen des Antwort-Ausgabedatensatzes und des betreffenden Anforderungs-Eingabedatensatzes erzeugt werden, wenn das trainierte KI-Modul durch den Benutzer verwendet wird.
Die bestimmten Datensätze können jeweils durch einen Datenpunkt mit Koordinaten dargestellt werden, die gleich den Werten des betreffenden bestimmten Datensatzes entweder in dem Eingabeparameterraum, dem Ausgabeparameterraum oder dem verketteten Parameterraum sind, abhängig davon, auf welchen Teil der Datensätze eine Berechnung der Metrik angewendet wird. Der Ausdruck „beispielhafter Abstand eines beispielhaften Datensatzes zu einem beispielhaften Schwerpunkt“ bezeichnet den beispielhaften Abstand eines beispielhaften Datenpunkts des beispielhaften Datensatzes zu dem beispielhaften Schwerpunkt. Entsprechend bezeichnet der Ausdruck „an einem beispielhaften Schwerpunkt befindlicher beispielhafter Datensatz“ einen beispielhaften Datenpunkt, der sich an dem beispielhaften Schwerpunkt befindet, wobei der beispielhafte Datensatz für den beispielhaften Datenpunkt stehen kann.
Der Grad an Zugehörigkeit eines jeden bestimmten Datensatzes zu dem ausgewählten Cluster kann auf Grundlage des Abstands eines jeden bestimmten Datensatzes zu dem Schwerpunkt des ausgewählten Clusters sowie auf Grundlage weiterer Abstände des betreffenden bestimmten Datensatzes zu Schwerpunkten der verschiedenen Cluster mit Ausnahme des ausgewählten Clusters ermittelt werden. Zum Beispiel kann der Grad an Zugehörigkeit eines jeden bestimmten Datensatzes zu dem ausgewählten Cluster auf Grundlage eines Verhältnisses zwischen dem Abstand des betreffenden bestimmten Datensatzes zu dem Schwerpunkt des ausgewählten Clusters sowie auf Grundlage einer Summe der weiteren Abstände und des Abstands des betreffenden bestimmten Datensatzes zu dem Schwerpunkt des ausgewählten Clusters ermittelt werden.
Der ausgewählte Cluster kann aus mindestens zwei der verschiedenen Cluster der bestimmten Datensätze ausgewählt werden. Die Werte von Parametern zum Definieren der Cluster können Werte von Parametern eines jeden Clusters aufweisen, die diesen Cluster definieren. Die Werte der Parameter eines jeden Clusters können Werte von Koordinaten des Schwerpunkts eines jeden Clusters sein, der sich in dem Eingabeparameterraum, dem Ausgabeparameterraum oder dem verketteten Parameterraum befindet. Der ausgewählte Cluster kann manuell durch einen Experten für ein Anwendungsgebiet in Zusammenhang mit den bestimmten Datensätzen ausgewählt werden, z.B. einen Ingenieur oder einen Physiker. In einem Beispiel können die Werte von Parametern zum Definieren der Cluster erhalten werden, indem ein Clusteralgorithmus durchgeführt wird, der auf die bestimmten Datensätze, Trainingsdatensätze und/oder Testdatensätze angewendet wird. In einem weiteren Beispiel können die Werte von Parametern zum Definieren der Cluster aus einer Speichereinheit geladen werden. In diesem Fall können die Werte von Parametern zum Definieren der Cluster vor dem Durchführen des Verfahrens der vorliegenden Erfindung ermittelt werden.
Zum Beispiel kann der Experte auf eine Position in dem Eingabeparameterraum, dem Ausgabeparameterraum oder dem verketteten Parameterraum zeigen und dadurch die Werte der Koordinaten des Schwerpunkts des ausgewählten Clusters definieren. Dies kann auch in höheren Dimensionen möglich sein, indem zwei- oder dreidimensionale Teilräume in dem Eingabeparameterraum, dem Ausgabeparameterraum oder dem verketteten Parameterraum visualisiert werden.
In einem ersten Beispiel kann die Metrik eines jeden bestimmten Datensatzes durch das Produkt des Grads an Zugehörigkeit des betreffenden bestimmten Datensatzes zu dem ausgewählten Cluster und des Abstands des betreffenden bestimmten Datensatzes zu dem Schwerpunkt des ausgewählten Clusters berechnet werden. In diesem ersten Beispiel kann das Auswählen des ausgewählten Datensatzes so durchgeführt werden, dass der ausgewählte Datensatz der Datensatz der bestimmten Datensätze mit der höchsten Metrik sein kann.
Gemäß dem ersten Beispiel und unter der Annahme, dass der Grad an Zugehörigkeit des ausgewählten Datensatzes zu dem ausgewählten Cluster - zum Beispiel verglichen mit zehn anderen bestimmten Datensätzen - ein durchschnittlicher Grad ist, kann sich der ausgewählte Datensatz vergleichsweise weit entfernt von dem Schwerpunkt des ausgewählten Clusters befinden. In diesem Fall kann sich der ausgewählte Datensatz näher als die anderen zehn bestimmten Datensätze an einer Begrenzung des Eingabeparameterraums, des Ausgabeparameterraums und/oder des verketteten Parameterraums befinden. Dies kann bedeuten, dass der ausgewählte Datensatz neben den Informationen, die durch die zehn anderen bestimmten Datensätze bereitgestellt werden, womöglich zusätzliche Informationen enthält. Aus diesem Grund kann es von Interesse sein, den ausgewählten Datensatz zum Aktualisieren des KI-Moduls auszuwählen.
Der ausgewählte Datensatz kann zum Beispiel vorzugsweise durch den Experten oder ein zusätzliches KI-Modul untersucht werden. Ein Ergebnis einer Untersuchung des ausgewählten Datensatzes kann eine Bestätigung oder Zurückweisung des ausgewählten Datensatzes sein. Letzteres kann einen Fall darstellen, in dem das KI-Modul den ausgewählten Datensatz womöglich fehlerhaft berechnet hat. In jedem Fall kann der ausgewählte Datensatz zum Aktualisieren des KI-Moduls verwendet werden. In letzterem Fall kann der ausgewählte Datensatz vorzugsweise durch den Experten oder ein zusätzliches KI-Modul korrigiert werden. Ein Aktualisieren des KI-Moduls kann ein Neutrainieren des Kl-Moduls aufweisen, zum Beispiel ein Anwenden eines Rückwärtspropagierungsalgorithmus in dem KI-Modul unter Verwendung des ausgewählten Datensatzes. Da der ausgewählte Datensatz die zusätzlichen Informationen aufweisen kann, kann ein Aktualisieren des KI-Moduls dazu beitragen, die zusätzlichen Informationen in Gestalt geänderter Werte von Parametern des KI-Moduls zu speichern.
Bei einer weiteren Ausführungsform kann ein Aktualisieren des KI-Moduls ein Ändern einer der Begrenzungen des Eingabeparameterraums oder des Ausgabeparameterraums aufweisen. Zum Beispiel können die folgenden beiden Fälle in Betracht gezogen werden. In dem ersten Fall kann das Ergebnis der Untersuchung die Bestätigung sein. In dem zweiten Fall kann das Ergebnis der Untersuchung die Zurückweisung sein. In dem ersten Fall kann die Begrenzung des Eingabeparameterraums von dem ausgewählten Datensatz weiter weggeschoben werden. Dies kann den Vorteil haben, dass das KI-Modul für neue Datensätze verwendet werden kann, die sich innerhalb der angepassten Begrenzung des Eingabeparameterraums befinden. In dem zweiten Fall kann die Begrenzung des Eingabeparameterraums so verschoben werden, dass sich der ausgewählte Datensatz womöglich außerhalb der Begrenzung des Eingabeparameterraums befindet. Dies kann das Risiko mindern, dass das KI-Modul womöglich fehlerhafte neue Ausgabedatensätze für neue Datensätze berechnet, die sich außerhalb der geänderten Begrenzung des Eingabeparameterraums befinden.
Das Ändern der Begrenzung des Eingabeparameterraums gemäß dem zweiten Fall kann bereitstellen, dass die neuen Eingabedatensätze, die sich jenseits der geänderten Begrenzung des Eingabeparameterraums befinden, für eine Anwendung des KI-Moduls nicht akzeptiert werden. Eine Zurückweisung der neuen Eingabedatensätze, die sich jenseits der geänderten Begrenzung befinden, kann unter Verwendung eines Abfragemoduls automatisch durchgeführt werden, das als ein Zugangstor des KI-Moduls für alle eingehenden Eingabedatensätze dienen kann, wenn das KI-Modul womöglich verwendet wird. Das KI-Modul kann das Abfragemodul aufweisen. Das Abfragemodul kann Funktionen mit Parametern aufweisen, wobei die Funktionen ähnlich wie Filter arbeiten. Das Abfragemodul kann angepasst werden, indem Werte der Parameter des Abfragemoduls gemäß der geänderten Begrenzung des Eingabeparameterraums angepasst werden.
Ein Prozess, der die Bestätigung oder eine Korrektur des ausgewählten Datensatzes aufweist, wird hierin als Kennzeichnen bezeichnet. Das Kennzeichnen kann manuell oder automatisch durchgeführt werden, vorzugsweise unter Verwendung eines zusätzlichen KI-Moduls. Letzteres kann nützlich sein, wenn das zusätzliche KI-Modul nicht permanent verfügbar ist, eine bessere Leistung als das KI-Modul aufweist oder weniger mobil als das KI-Modul ist. Die Korrektur des ausgewählten Datensatzes kann eine Korrektur eines der Werte des Eingabe- und/oder des Ausgabedatensatzes des ausgewählten Datensatzes aufweisen.
Das vorliegende Verfahren kann ein Aktualisieren des KI-Moduls auf Grundlage des bzw. der ausgewählten Datensätze ermöglichen, nachdem die bestimmten Datensätze erzeugt wurden. Da das Auswählen des bzw. der Datensätze abhängig von den Metriken des bzw. der bestimmten Datensätze durchgeführt werden kann, kann die Position des bzw. der bestimmten Datensätze in dem Eingabe-, Ausgabe- oder verketteten Parameterraum in Bezug auf mindestens einen Schwerpunkt von mindestens einem der Cluster der bestimmten Datensätze in Betracht gezogen werden. Auf diese Weise kann es möglich sein, das KI-Modul auf Grundlage des bzw. der wichtigsten bestimmten Datensätze zu aktualisieren. Der ausgewählte Datensatz kann auch als der Datensatz der bestimmten Datensätze betrachtet werden, der die Informationen mit der größten Verschiedenheit enthält. Als Ergebnis kann ein Aktualisieren des KI-Moduls schneller erfolgen und eine Überanpassung des KI-Moduls kann vermieden werden.
Gemäß einer Ausführungsform weist das Verfahren des Weiteren ein Ermitteln einer Metrik eines jeden Clusters, wobei die Metrik eines jeden Clusters von einem Abstand eines Schwerpunkts des betreffenden Clusters zu den anderen Schwerpunkten der Cluster abhängig ist, ein Auswählen von mindestens einem der Cluster aus den Clustern auf Grundlage der Metriken der Cluster und ein Ermitteln der Metrik eines jeden bestimmten Datensatzes auf, wobei die Metrik eines jeden bestimmten Datensatzes von dem Grad an Zugehörigkeit des betreffenden bestimmten Datensatzes zu dem ausgewählten Cluster sowie von dem Abstand des betreffenden bestimmten Datensatzes zu dem Schwerpunkt des ausgewählten Clusters abhängig ist. Diese Ausführungsform kann den Vorteil eines automatischen Ermittelns des ausgewählten Clusters haben, indem die Metriken der Cluster verglichen werden, und kann im Folgenden als die erste Ausführungsform bezeichnet werden.
In einem Beispiel kann die Metrik eines jeden Clusters gleich einem Quotienten eines mittleren Abstands des Schwerpunkts des betreffenden Clusters zu den anderen Schwerpunkten der Cluster dividiert durch einen maximalen Abstand zwischen den Schwerpunkten der Cluster sein. In einem ersten Beispiel kann der ausgewählte Cluster der Cluster mit der höchsten Metrik sein. In diesem Beispiel können sich die bestimmten Datensätze, die einen höheren Grad an Zugehörigkeit zu dem ausgewählten Cluster als andere bestimmte Datensätze aufweisen, weiter entfernt von einem Gleichgewichtspunkt aller Schwerpunkte der Cluster befinden als die anderen bestimmten Datensätze. Da die Metriken der bestimmten Datensätze auf Grundlage des ausgewählten Clusters berechnet werden können, kann die Chance steigen, dass sich der ausgewählte Datensatz womöglich weiter entfernt von dem Gleichgewichtspunkt befindet als die anderen bestimmten Datensätze. Dies kann die Chance erhöhen, dass der ausgewählte Datensatz andere Informationen als die anderen bestimmten Datensätze aufweist.
Dies kann die Chance erhöhen, dass die früheren bestimmten Datensätze andere Informationen als die späteren bestimmten Datensätze aufweisen. Ein Berechnen der Metrik eines jeden bestimmten Datensatzes ist abhängig von dem ausgewählten Cluster.
Gemäß einer Ausführungsform weist ein Ermitteln der Metrik für jeden bestimmten Datensatz des Weiteren ein Ermitteln eines Satzes von Metriken für jeden bestimmten Datensatz auf, wobei jede Metrik des Satzes von Metriken des betreffenden bestimmten Datensatzes einem Cluster eines Teilsatzes der Cluster entspricht, wobei jede Metrik des Satzes von Metriken des betreffenden bestimmten Datensatzes von dem Grad an Zugehörigkeit des betreffenden bestimmten Datensatzes zu dem betreffenden Cluster sowie von dem Abstand des betreffenden bestimmten Datensatzes zu einem Schwerpunkt des betreffenden Clusters abhängig ist, sowie ein Auswählen von mindestens einem der bestimmten Datensätze aus den bestimmten Datensätzen zum Aktualisieren des KI-Moduls auf Grundlage eines Vergleichs des Satzes von Metriken der bestimmten Datensätze. In einem Beispiel kann der Teilsatz der Cluster alle Cluster aufweisen. In einem weiteren Beispiel kann der Teilsatz der Cluster nur einen Teil aller Cluster aufweisen, wobei der Teilsatz von Clustern ein geeigneter Teilsatz der Cluster ist.
Gemäß einem Beispiel kann der Satz von Metriken der bestimmten Datensätze verglichen werden, indem ein Normalwert eines jeden Satzes von Metriken berechnet wird. Der bzw. die ausgewählten Datensätze können diejenigen mit dem bzw. den höchsten Normalwerten sein. Diese Ausführungsform kann vorteilhaft sein, da der ausgewählte Datensatz unter Umständen nicht von einem einzigen ausgewählten Cluster abhängig ist. Somit können die Ergebnisse eines Clusteralgorithmus, z.B. des k-Means-Clusteralgorithmus oder des Fuzzy-c-Means-Clusteralgorithmus, verwendet werden, wobei mehrere Cluster berücksichtigt werden, um das Auswählen der bestimmten Datensätze durchzuführen.
Gemäß einer Ausführungsform weist das Verfahren des Weiteren ein Erzeugen der Werte der Parameter zum Definieren der Cluster als eine Funktion der Trainingsdatensätze auf, wobei das KI-Modul unter Verwendung der Trainingsdatensätze erzeugt wird. Diese Ausführungsform kann im Folgenden als die zweite Ausführungsform bezeichnet werden. Die Trainingsdatensätze können dieselbe Struktur wie die bestimmten Datensätze aufweisen, d.h. jeder der Trainingsdatensätze weist einen Eingabedatensatz und einen Ausgabedatensatz auf. Die Funktion der Trainingsdatensätze wird im Folgenden beschrieben und muss nicht auf diese Ausführungsform beschränkt sein.
Wie hierin verwendet, bezeichnet der Begriff „Modul“ jede bekannt oder in Zukunft entwickelte Hardware, Software wie beispielsweise ein ausführbares Programm, künstliche Intelligenz, Fuzzy-Logik oder jede mögliche Kombination hiervon zum Durchführen einer Funktion, die dem „Modul“ zugehörig ist oder die ein Ergebnis einer Durchführung der dem „Modul“ zugehörigen Funktion ist.
Das KI-Modul kann ein neuronales Netzwerk, ein neuronales Faltungsnetzwerk und/oder ein Radial-Basis-Funktionsnetzwerk sein. Der Eingabedatensatz und der Ausgabedatensatz der bestimmten Datensätze und der Trainingsdatensätze können Werte als Datenelemente aufweisen, bei denen es sich vorzugsweise um reelle Werte handelt. Eine Berechnung eines der Ausgabedatensätze der bestimmten Datensätze und der Trainingsdatensätze kann abhängig von dem betreffenden Eingabedatensatz und von Werten von Parametern des KI-Moduls durchgeführt werden. In einem bevorzugten Beispiel können die Werte eines jeden Ausgabedatensatzes der bestimmten Datensätze und der Trainingsdatensätze jeweils für eine Wahrscheinlichkeit mit mehreren Klassen stehen, in die der Eingabedatensatz der bestimmten Datensätze und der Trainingsdatensätze eingeteilt werden kann.
Das KI-Modul kann auf Grundlage der Trainingsdatensätze unter Verwendung von maschinellem Lernen erzeugt werden. Der Begriff „maschinelles Lernen“ bezeichnet einen Computeralgorithmus, der verwendet wird, um nützliche Informationen aus den Eingabedatensätzen und den Ausgabedatensätzen der Trainingsdatensätze zu extrahieren. Die Informationen können extrahiert werden, indem auf eine automatisierte Weise probabilistische Modelle erstellt werden. Das maschinelle Lernen kann unter Verwendung eines oder mehrerer bekannter ML-Algorithmen durchgeführt werden, z.B. lineare Regressions-, Rückwärtspropagierungs-, k-Means-, Klassifizierungsalgorithmen usw.
Ein probabilistisches Modell kann zum Beispiel eine Gleichung oder ein Satz von Regeln sein, mit der bzw. dem eine Kategorie auf Grundlage eines der Eingabedatensätze der Trainingsdatensätze vorhergesagt werden kann oder mit der eine Instanz, die einem der Eingabedatensätze der Trainingsdatensätze entspricht, einem Wert oder Werten des betreffenden Ausgabedatensatzes zugeordnet werden kann.
Der eine oder die mehreren bekannten ML-Algorithmen können die Werte der Parameter des KI-Moduls so anpassen, dass ein Trainingsfehler des KI-Moduls reduziert werden kann. Der Trainingsfehler kann auf Grundlage von Abweichungen berechneter Werte von Trainings-Ausgabedatensätzen des Kl-Moduls, die durch das KI-Modul berechnet werden, und der Werte eines jeden Ausgabedatensatzes der betreffenden Trainingsdatensätze berechnet werden. Jeder Trainings-Ausgabedatensatz des KI-Moduls kann auf Grundlage des Eingabedatensatzes des betreffenden Trainingsdatensatzes berechnet werden und kann somit dem betreffenden Trainingsdatensatz zugehörig sein. Die Trainings-Ausgabedatensätze des KI-Moduls können dieselbe Struktur wie die Ausgabedatensätze der Trainingsdatensätze haben, d.h. Arten von Elementen der Trainings-Ausgabedatensätze des KI-Moduls können mit Arten von Elementen der Ausgabedatensätze der Trainingsdatensätze übereinstimmen.
Ein Anpassen der Werte der Parameter des KI-Moduls auf Grundlage der Abweichungen kann den Trainingsfehler reduzieren. Wenn der Trainingsfehler einen bestimmten Schwellenwert erreicht, kann das KI-Modul als trainiert und im trainierten Zustand befindlich betrachtet werden. In dem trainierten Zustand kann das KI-Modul verwendet werden, um jeweils als Reaktion auf einen Anforderungs-Eingabedatensatz, der durch den Benutzer an das KI-Modul gesendet wird, die oben erwähnten Antwort-Ausgabedatensätze zu erzeugen.
Die Trainingsdatensätze können so ausgewählt werden, dass die Eingabedatensätze der Trainingsdatensätze möglichst gleichmäßig in dem Eingabeparameterraum verteilt werden und/oder dass sie für viele wichtige Anwendungsfälle stehen können, auf die das KI-Modul angewendet werden kann. Eine Verteilung der Trainingsdatensätze kann so entworfen werden, dass der Trainingsfehler möglichst gering ist. Dies kann bedeuten, dass in verschiedenen Bereichen des verketteten Parameterraums eine Dichte der Trainingsdatensätze unterschiedlich sein kann. Empfohlene unterschiedliche Dichten der Trainingsdatensätze in dem verketteten Parameterraum können unter Verwendung von Algorithmen für die Versuchsplanung (Design of Experiments, DOE) berechnet werden. Die unterschiedlichen Dichten können als Trainingscluster betrachtet werden.
Im Allgemeinen können die Trainingsdatensätze auf eine überwachte Weise erhalten werden, z.B. indem sie unter Berücksichtigung der empfohlenen Dichten erhalten werden, indem sie in überwachten und/oder geplanten Experimenten erhalten werden und/oder indem die Trainingsdatensätze aus einem Satz von experimentellen Datensätzen ausgewählt werden. Diese Art eines Überwachens kann durch den Experten durchgeführt werden. Aus diesem Grund können die Trainingsdatensätze ein Wissen des Experten effizienter repräsentieren als die bestimmten Datensätze. Zum Beispiel können die bestimmten Datensätze unter Verwendung des KI-Moduls in einem sehr kleinen Teilraum des verketten Parameterraums erzeugt werden, der nur sehr wenige unterschiedliche Anwendungsfälle des Kl-Moduls abdeckt.
Ein Erzeugen der Werte der Parameter zum Definieren der Cluster als eine Funktion der Trainingsdatensätze kann bereitstellen, dass die Cluster durch den Experten leicht verstanden werden können und ein aussagekräftiges Clustern des verketteten Parameterraums darstellen können. Zusätzlich können die Cluster die verschiedenen Dichten der Trainingsdatensätze in dem Eingabe-, Ausgabe- oder verketteten Parameterraum widerspiegeln. Darüber hinaus können die Clusteralgorithmen schneller durchgeführt werden, als dies der Fall ist, wenn nur die bestimmten Datensätze für das Clustern verwendet werden. Somit können in einer bevorzugten Ausführungsform die Werte der Parameter zum Definieren der Cluster erzeugt werden, indem nur die Trainingsdatensätze verwendet werden.
Gemäß einer Ausführungsform weist das Verfahren des Weiteren ein Erzeugen der Werte der Parameter zum Definieren der Cluster als eine Funktion der bestimmten Datensätze auf. Diese Ausführungsform kann im Folgenden als die dritte Ausführungsform bezeichnet werden. Die bestimmten Datensätze können für neue Anwendungsfälle des Kl-Moduls stehen, die nicht durch Trainingsdatensätze abgedeckt werden. Als Folge hiervon können die Cluster, die aus einem Clustern unter Verwendung der bestimmten Datensätze resultieren, für neue Bereiche des Eingabe-, Ausgabe- oder verketteten Parameterraums stehen, die die neuen Anwendungsfälle enthalten. Der ausgewählte Datensatz kann sich in einem der neuen Bereiche befinden und für einen der neuen Anwendungsfälle stehen. Somit kann das KI-Modul unter Verwendung des ausgewählten Datensatzes aktualisiert werden, der neue Informationen enthält, für die einer der neuen Anwendungsfälle steht.
Gemäß einer Ausführungsform weist das Verfahren des Weiteren ein Erzeugen der Werte der Parameter zum Definieren der Cluster als eine Funktion der Testdatensätze auf, wobei das KI-Modul unter Verwendung der Testdatensätze getestet wird. Diese Ausführungsform kann im Folgenden als die vierte Ausführungsform bezeichnet werden. Die Testdatensätze können dieselbe Struktur wie die Trainingsdatensätze aufweisen, d.h. jeder weist einen Eingabe- und einen Ausgabedatensatz auf. Der Testdatensatz kann aus dem Satz von experimentellen Datensätzen stammen und kann somit auf ähnliche Weise für das Wissen des Experten stehen wie die Trainingsdatensätze. Aus diesem Grund kann diese Ausführungsform dieselben Vorteile haben wie ein ausschließliches Verwenden der trainierten Datensätze für das Clustern. Wenn die Werte der Parameter zum Definieren der Cluster als eine Funktion von Testdatensätzen und der Trainingsdatensätze erzeugt werden, können mehr Informationen verwendet werden, und das Clustern kann das Wissen des Experten besser repräsentieren. Die Testdatensätze können für eine Validierung des KI-Moduls verwendet werden. Die Validierung kann im Folgenden beschrieben werden.
Ein Validierungsfehler kann auf Grundlage von Abweichungen berechneter Werte von Validierungs-Ausgabedatensätzen des Kl-Moduls, die durch das KI-Modul berechnet werden, und der Werte eines jeden Ausgabedatensatzes der betreffenden Testdatensätze berechnet werden. Jeder Validierungs-Ausgabedatensatz des KI-Moduls kann auf Grundlage des Eingabedatensatzes des betreffenden Testdatensatzes berechnet werden und kann somit dem betreffenden Testdatensatz zugehörig sein. Die Validierungs-Ausgabedatensätze des KI-Moduls können dieselbe Struktur wie die Ausgabedatensätze der Testdatensätze haben, d.h. Arten von Elementen der Validierungs-Ausgabedatensätze des KI-Moduls können mit Arten von Elementen der Ausgabedatensätze der Testdatensätze übereinstimmen.
Wenn der Validierungsfehler einen bestimmten Validierungsschwellenwert erreicht, kann das KI-Modul als validiert betrachtet werden. Wenn der Validierungsfehler nicht mit dem Validierungsschwellenwert übereinstimmt, kann einer der ML-Algorithmen wiederholt durchgeführt werden, um die Werte der Parameter des KI-Moduls erneut anzupassen. Die Werte der Parameter des KI-Moduls können in diesem Fall auf andere Art initialisiert werden. Wenn das KI-Modul validiert ist, kann es genügend Generalisierungseigenschaften bereitstellen, d.h. ausreichend genaue neue Ausgabedatensätze auf Grundlage neuer Eingabedatensätze berechnen.
Gemäß einer Ausführungsform weist das Verfahren des Weiteren ein Erzeugen der Werte der Parameter zum Definieren der Cluster als eine Funktion eines genehmigten oder korrigierten Datensatzes der bestimmten Datensätze auf (der im Folgenden als gekennzeichneter Datensatz bezeichnet wird). Eine Genehmigung oder Korrektur, d.h. die Kennzeichnung, des einen der zu kennzeichnenden bestimmten Datensätze kann manuell durch den Experten oder automatisch durchgeführt werden, zum Beispiel durch das zusätzliche KI-Modul. Die Genehmigung oder Korrektur kann eine Genehmigung oder Korrektur des Eingabedatensatzes und/oder des Ausgabedatensatzes des einen zu kennzeichnenden Datensatzes aufweisen. Ein Korrigieren des Eingabedatensatzes kann gerechtfertigt sein, wenn Werte des Eingabedatensatzes bekanntermaßen fehlerhaft sind, z.B. um einen bekannten Wert verschoben sind. Ein Korrigieren des Ausgabedatensatzes kann durchgeführt werden, um eine Vorhersage des KI-Moduls zu korrigieren. Ein Erzeugen der Werte der Parameter zum Definieren der Cluster in Abhängigkeit von dem gekennzeichneten Datensatz kann vorteilhaft sein, da das Clustern auf Grundlage neuer Informationen durchgeführt werden kann, die der gekennzeichnete Datensatz enthält.
Gemäß einer Ausführungsform weist das Verfahren des Weiteren ein Erzeugen der Werte der Parameter zum Definieren der Cluster als eine Funktion eines manuell genehmigten oder manuell korrigierten Datensatzes der bestimmten Datensätze auf. Diese Ausführungsform kann im Folgenden als die fünfte Ausführungsform bezeichnet werden. Bei dieser Ausführungsform kann der gekennzeichnete Datensatz manuell erzeugt werden, zum Beispiel - wie oben erwähnt - durch den Experten, und kann dadurch womöglich zuverlässiger und transparenter erzeugt werden.
Gemäß einer Ausführungsform weist das Verfahren des Weiteren ein Erzeugen der Werte von Parametern zum Definieren der Cluster auf, bei dem der Fuzzy-c-Means-Clusteralgorithmus durchgeführt wird. Diese Ausführungsform kann im Folgenden als die sechste Ausführungsform bezeichnet werden. Der Fuzzy-c-Means-Clusteralgorithmus kann auf die bestimmten Datensätze, die Trainingsdatensätze und/oder die Testdatensätze angewendet werden. Der Vorteil eines Verwendens des Fuzzy-c-Means-Clusteralgorithmus gegenüber dem Verwenden eines weiteren Clusteralgorithmus wie z.B. des k-Means-Clusteralgorithmus kann darin bestehen, dass eine Lösung des Clusterns weniger stark von einer anfänglichen Auswahl von Schwerpunkten der Cluster abhängig ist. Dies kann zu einer konsistenteren Lösung des Clusterns führen. Im Gegensatz zum k-Means-Clusteralgorithmus kann ein Durchführen des Fuzzy-c-Means-Clusteralgorithmus ein Zuweisen des Grads an Zugehörigkeit eines jeden bestimmten Datensatzes zu jedem Cluster aufweisen. Zum Durchführen des Fuzzy-c-Means-Clusteralgorithmus kann eine Anzahl von Clustern vorhanden sein.
Gemäß einer Ausführungsform weist das Verfahren des Weiteren ein Erhalten der Werte der Parameter zum Definieren der Cluster auf Grundlage der Eingabedatensätze der Trainingsdatensätze auf. Vorzugsweise kann das Clustern auf Grundlage lediglich der Eingabedatensätze der bestimmten Datensätze, der Trainingsdatensätze und/oder der Testdatensätze durchgeführt werden. Dies kann vorteilhaft sein, da die Lösung des Clusterns womöglich nicht von einer Genauigkeit des KI-Moduls abhängig ist. Hierdurch kann ein Experte die Lösung leichter interpretieren.
Gemäß einer Ausführungsform weist das Verfahren des Weiteren ein Erhalten der Werte der Parameter zum Definieren der Cluster auf Grundlage der Ausgabedatensätze der Trainingsdatensätze auf. Vorzugsweise kann das Clustern auf Grundlage lediglich der Ausgabedatensätze der bestimmten Datensätze, der Trainingsdatensätze und/oder der Testdatensätze durchgeführt werden. Häufig ist eine Anzahl von Werten eines jeden Ausgabedatensatzes des bestimmten Datensatzes oder Trainingsdatensatzes kleiner als eine Anzahl von Werten des betreffenden Eingabedatensatzes des bestimmten Datensatzes oder Trainingsdatensatzes. In diesem Fall kann diese Ausführungsform schlussfolgern, dass eine Anzahl der Cluster reduziert werden kann. In diesem Fall kann die Lösung des Clusterns leichter verständlich sein. Darüber hinaus kann es nützlich sein, das KI-Modul so zu aktualisieren, dass ein Fehler einer Vorhersage einer von mehreren Klassen, für die die Ausgabedatensätze des bestimmten Datensatzes oder Trainingsdatensatzes stehen, reduziert werden kann. In einem solchen Fall kann ein Clustern auf Grundlage lediglich der Ausgabedatensätze der bestimmten Datensätze, der Trainingsdatensätze und/oder der Testdatensätze effizienter sein. Einer der Cluster kann für dieselbe Klasse der mehreren Klassen stehen. Dieser Cluster kann manuell ausgewählt werden, sodass er der ausgewählte Cluster zum Auswählen des mindestens einen der bestimmten Datensätze ist.
Gemäß einer Ausführungsform weist das Verfahren des Weiteren ein Erhalten der Werte der Parameter zum Definieren der Cluster auf Grundlage der Eingabedatensätze und der Ausgabedatensätze der Trainingsdatensätze auf. Vorzugsweise kann das Clustern auf Grundlage der Ausgabe- und Eingabedatensätze der bestimmten Datensätze, der Trainingsdatensätze und/oder der Testdatensätze durchgeführt werden. Diese Ausführungsform kann zu Clustern führen, die für möglichst viele Informationen der bestimmten Datensätze, der Trainingsdatensätze und/oder der Testdatensätze stehen.
Unter Bezugnahme auf die letzten drei Ausführungsformen kann die Metrik der bestimmten Datensätze auf Grundlage lediglich der Eingabedatensätze der bestimmten Datensätze berechnet werden, wenn lediglich die Eingabedatensätze der bestimmten Datensätze, der Trainingsdatensätze und/oder der Testdatensätze für das Clustern verwendet werden. Entsprechend kann die Metrik der bestimmten Datensätze auf Grundlage lediglich der Ausgabedatensätze der bestimmten Datensätze berechnet werden, wenn lediglich die Ausgabedatensätze der bestimmten Datensätze, der Trainingsdatensätze und/oder der Testdatensätze für das Clustern verwendet werden. Auf dieselbe Art und Weise kann die Metrik der bestimmten Datensätze auf Grundlage der Ausgabe- und der Eingabedatensätze der bestimmten Datensätze berechnet werden, wenn die Eingabe- und die Ausgabedatensätze der bestimmten Datensätze, der Trainingsdatensätze und/oder der Testdatensätze für das Clustern verwendet werden.
Gemäß einer Ausführungsform weist das Verfahren des Weiteren ein Ermitteln der Metrik eines jeden Clusters auf Grundlage eines mittleren Abstands der bestimmten Datensätze zu dem Schwerpunkt des betreffenden Clusters auf. Diese Ausführungsform kann im Folgenden als die siebte Ausführungsform bezeichnet werden. Bei einer bevorzugten Ausführungsform kann die Metrik eines jeden Clusters so berechnet werden, dass ein höherer Wert des mittleren Abstands der bestimmten Datensätze zu dem Schwerpunkt des betreffenden Clusters einen niedrigeren Wert der Metrik des betreffenden Clusters hervorrufen kann. Wenn der Cluster mit der niedrigsten Metrik der ausgewählte Cluster ist, kann der ausgewählte Cluster in diesem Fall vielmehr derjenige der Cluster sein, in dem die bestimmten Datensätze innerhalb des betreffenden Clusters stärker verteilt sind.
Gemäß einer Ausführungsform weist das Verfahren des Weiteren ein Ermitteln der Metrik eines jeden Clusters auf Grundlage eines maximalen Abstands der bestimmten Datensätze zu dem Schwerpunkt des betreffenden Clusters auf. Diese Ausführungsform kann im Folgenden als die achte Ausführungsform bezeichnet werden. Bei einer bevorzugten Ausführungsform kann die Metrik eines jeden Clusters so berechnet werden, dass ein höherer Wert des mittleren Abstands der bestimmten Datensätze zu dem Schwerpunkt des betreffenden Clusters einen höheren Wert der Metrik des betreffenden Clusters hervorrufen kann. Wenn der Cluster mit der niedrigsten Metrik der ausgewählte Cluster ist, kann ein Ausreißer der bestimmten Datensätze, der sich weit entfernt von dem Schwerpunkt des betreffenden Clusters befindet, darauf hinweisen, dass dieser Cluster nicht der ausgewählte Cluster ist. Somit verhindert diese Ausführungsform, dass Ausreißer der bestimmten Datensätze einen starken Einfluss auf eine Ermittlung des ausgewählten Clusters ausüben. Wenn die maximalen Abstände der bestimmten Datensätze zu den Schwerpunkten und die mittleren Abstände der bestimmten Datensätze zu dem Schwerpunkt auf die oben beschriebene Weise gemeinsam verwendet werden, um den ausgewählten Cluster zu ermitteln, kann diese Ausführungsform angeben, dass die Auswirkung der Ausreißer der bestimmten Datensätze auf den Wert der mittleren Abstände durch ihre Auswirkung auf die maximalen Abstände ausgeglichen wird.
Gemäß einer Ausführungsform weist das Verfahren des Weiteren ein Ermitteln der Metrik eines jeden Clusters auf Grundlage eines mittleren Grads an Zugehörigkeit der bestimmten Datensätze zu dem betreffenden Cluster auf. Diese Ausführungsform kann im Folgenden als die neunte Ausführungsform bezeichnet werden. Vorzugsweise kann die Metrik eines jeden Clusters auf Grundlage eines mittleren Grads an Zugehörigkeit der bestimmten Datensätze und der Trainingsdatensätze zu dem betreffenden Cluster ermittelt werden. Bei einer bevorzugten Ausführungsform kann die Metrik eines jeden Clusters so berechnet werden, dass ein höherer Wert des mittleren Grads an Zugehörigkeit der bestimmten Datensätze und/oder der Trainingsdatensätze zu dem betreffenden Cluster einen höheren Wert der Metrik des betreffenden Clusters hervorrufen kann. Wenn der Cluster mit der niedrigsten Metrik der ausgewählte Cluster ist, kann der ausgewählte Cluster in diesem Fall vielmehr derjenige der Cluster sein, der vergleichsweise mehr der bestimmten Datensätze mit einem vergleichsweise geringeren Grad an Zugehörigkeit der bestimmten Datensätze zu dem betreffenden Cluster aufweist. Somit kann der ausgewählte Cluster betreffende bestimmte Datensätze enthalten, die sich weniger klar oder einfach klassifizieren lassen. Wenn der ausgewählte Datensatz aus dem auf diese Weise ermittelten Cluster stammt, kann die Chance erhöht werden, dass der ausgewählte Datensatz neue Informationen enthält.
Bei der siebten, achten und neunten Ausführungsform können die Werte der Parameter zum Definieren der Cluster vorzugsweise als eine Funktion der Trainingsdatensätze und manuell genehmigten oder manuell korrigierten Datensätze der bestimmten Datensätze erzeugt werden. Als Reaktion auf eine Erweiterung der bestimmten Datensätze können die Schritte gemäß der siebten, achten und neunten Ausführungsform wiederholt werden. Die bestimmten Datensätze können während einer Verwendung des KI-Moduls erweitert werden. Während dieser Verwendung kann die Protokolldatei so erweitert werden, dass neue bestimmte Datensätze in der Protokolldatei enthalten sein können. Wenn in einer ersten Iteration eines Durchführens der Schritte gemäß der siebten, achten und neunten Ausführungsform keine manuell gekennzeichneten Datensätze der bestimmten Datensätze vorhanden sind, können die Werte der Parameter zum Definieren der Cluster vorzugsweise als eine Funktion ausschließlich der Trainingsdatensätze erzeugt werden.
Gemäß einer Ausführungsform weist das Verfahren des Weiteren ein Ermitteln der Metrik eines jeden Clusters auf Grundlage eines mittleren Abstands der Trainingsdatensätze und der manuell genehmigten oder manuell korrigierten Datensätze der bestimmten Datensätze zu dem Schwerpunkt des betreffenden Clusters auf. Diese Ausführungsform kann im Folgenden als die zehnte Ausführungsform bezeichnet werden.
Gemäß einer Ausführungsform weist das Verfahren des Weiteren ein Ermitteln der Metrik eines jeden Clusters auf Grundlage eines maximalen Abstands der Trainingsdatensätze und manuell genehmigten oder manuell korrigierten Datensätze der bestimmten Datensätze zu dem Schwerpunkt des betreffenden Clusters auf. Diese Ausführungsform kann im Folgenden als die elfte Ausführungsform bezeichnet werden.
Gemäß einer Ausführungsform weist das Verfahren des Weiteren ein Ermitteln der Metrik eines jeden Clusters auf Grundlage eines mittleren Grads an Zugehörigkeit der Trainingsdatensätze und manuell genehmigten oder manuell korrigierten Datensätze der bestimmten Datensätze zu dem betreffenden Cluster auf. Diese Ausführungsform kann im Folgenden als die zwölfte Ausführungsform bezeichnet werden.
Die zehnte, elfte und zwölfte Ausführungsform kann ähnliche Vorteile wie die siebte, achte und neunte Ausführungsform haben. Ein Ermitteln der Metrik eines jeden Clusters auf Grundlage der Trainingsdatensätze und manuell genehmigten oder manuell korrigierten Datensätze der bestimmten Datensätze kann den Vorteil haben, dass der ausgewählte Cluster lediglich auf Grundlage von genehmigten und manuell korrigierten Datensätzen ermittelt werden kann. Als Ergebnis kann das Auswählen des Clusters durch den Experten einfach ermittelt werden. Allerdings kann ein Ermitteln der Metrik eines jeden Clusters auf Grundlage der bestimmten Datensätze die Chance erhöhen, dass der ausgewählte Cluster womöglich neue Informationen aufweist, die durch den ausgewählten Datensatz bereitgestellt werden.
Gemäß einer Ausführungsform weist das Verfahren des Weiteren ein Ermitteln der Metrik eines jeden Clusters auf Grundlage eines Verhältnisses einer ersten Summe der Anzahl der Trainingsdatensätze, die in dem betreffenden Cluster enthalten sind, und einer Anzahl von manuell genehmigten oder manuell korrigierten Datensätzen der bestimmten Datensätze, die in dem betreffenden Cluster enthalten sind, und einer zweiten Summe einer Gesamtzahl der Trainingsdatensätze und einer Gesamtzahl von manuell genehmigten oder manuell korrigierten Datensätzen der bestimmten Datensätze auf. Diese Ausführungsform kann im Folgenden als die dreizehnte Ausführungsform bezeichnet werden. Bei einer bevorzugten Ausführungsform kann die Metrik eines jeden Clusters so berechnet werden, dass ein höherer Wert des Verhältnisses einen höheren Wert der Metrik des betreffenden Clusters hervorrufen kann. Wenn der Cluster mit der niedrigsten Metrik der ausgewählte Cluster ist, kann der ausgewählte Cluster in diesem Fall vielmehr derjenige der Cluster sein, der vergleichsweise weniger manuell gekennzeichnete Datensätze und Trainingsdatensätze aufweist. Somit kann der ausgewählte Cluster vielmehr eine geringe Dichte von Datensätzen aufweisen.
Bei der zehnten, elften und zwölften und dreizehnten Ausführungsform können die Werte der Parameter zum Definieren der Cluster vorzugsweise als eine Funktion der Trainingsdatensätze, der Testdatensätze und der manuell genehmigten oder manuell korrigierten Datensätze der bestimmten Datensätze erzeugt werden.
Entsprechend den Schritten gemäß der siebten, achten und neunten Ausführungsform können die Schritte der zehnten, elften, zwölften und dreizehnten Ausführungsform als Reaktion auf eine Erweiterung der bestimmten Datensätze wiederholt werden. Wenn in einer ersten Iteration eines Durchführens der Schritte gemäß der zehnten, elften, zwölften und dreizehnten Ausführungsform keine manuell gekennzeichneten Datensätze der bestimmten Datensätze vorhanden sind, können die Werte der Parameter zum Definieren der Cluster vorzugsweise als eine Funktion ausschließlich der Trainingsdatensätze und der Testdatensätze erzeugt werden.
Gemäß einer Ausführungsform weisen die Eingabedatensätze der bestimmten Datensätze jeweils einen Wert eines Identifikationsparameters auf, und die Ausgabedatensätze der bestimmten Datensätze weisen jeweils einen Wert eines Leistungsindikators auf. Bei dieser Ausführungsform kann der Ausgabeparameterraum den Leistungsindikator aufweisen, und der Eingabeparameterraum kann den Identifikationsparameter aufweisen. Hierdurch kann der ausgewählte Datensatz gemäß jedem Wert des Leistungsindikators und/oder des Identifikationsparameters der bestimmten Datensätze ermittelt werden. Zusätzlich kann diese Ausführungsform ermöglichen, das KI-Modul gemäß Werten des Leistungsindikators zu aktualisieren.
Der Identifikationsparameter kann ermöglichen, dass jeder bestimmte Datensatz einer betreffenden Aktion einer Datenverarbeitung zugeordnet wird. Die betreffende Aktion einer Datenverarbeitung kann eine Erzeugung des betreffenden bestimmten Datensatzes aufweisen. In Bezug auf die Protokolldatei kann der Identifikationsparameter des betreffenden bestimmten Datensatzes zum Beispiel eine Identifikationszahl sein, die sich auf eine Instanz eines Verkettens des Eingabedatensatzes des betreffenden bestimmten Datensatzes mit dem Ausgabedatensatz des betreffenden bestimmten Datensatzes und eines Schreibens dieser Informationen in Form des betreffenden bestimmten Datensatzes in die Protokolldatei bezieht. In diesem Beispiel kann die Identifikationszahl immer dann erhöht werden, wenn die Protokolldatei um einen weiteren bestimmten Datensatz erweitert wird.
Der Eingabedatensatz des betreffenden bestimmten Datensatzes kann erste weitere Werte aufweisen, die sich auf die Instanz einer Erzeugung des betreffenden bestimmten Datensatzes beziehen können, vorzugsweise auf die Instanz einer Erzeugung der Ausgabedatensätze des betreffenden bestimmten Datensatzes. Die ersten weiteren Werte dieses Eingabedatensatzes können Informationen zu einem Zustand einer Umgebung aufweisen, die Werte des Ausgabedatensatzes, vorzugsweise den Wert des Leistungsindikators, des betreffenden bestimmten Datensatzes beeinflussen. Bei einer weiteren Ausführungsform kann der Wert des Identifikationsparameters unter Verwendung der ersten weiteren Werte berechnet werden, die sich auf die Instanz einer Erzeugung des betreffenden bestimmten Datensatzes beziehen können, vorzugsweise auf die Instanz einer Erzeugung der Ausgabedatensätze des betreffenden bestimmten Datensatzes. Der Wert des Identifikationsparameters kann durch eine erste Funktion berechnet werden, die eine Kombination der ersten weiteren Werte bijektiv auf den Wert des Identifikationsparameters abbilden kann.
Der Wert des Leistungsindikators kann mit einer Leistung einer Datenübertragung in Verbindung stehen. Wenn die Datenübertragung zum Beispiel erfolgreich ist, kann der Wert des Leistungsindikators gleich Eins bzw. alternativ gleich Null sein. Die Datenübertragung kann mit zweiten weiteren Werten des betreffenden bestimmten Datensatzes in Verbindung stehen. Die zweiten weiteren Werte können eine Aktion vorgeben, zum Beispiel die Datenübertragung. Die Datenübertragung kann zum Beispiel vorgegeben werden, indem angegeben wird, an welches Ziel der Eingabedatensatz des betreffenden bestimmten Datensatzes gesendet wurde, welche Art von Informationen der Eingabedatensatz des betreffenden bestimmten Datensatzes aufweist und/oder welche Art von Aktionen ein Senden des Eingabedatensatzes des betreffenden bestimmten Datensatzes hervorgerufen haben kann. Die zweiten weiteren Werte können in dem Eingabe- und/oder Ausgabedatensatz des betreffenden bestimmten Datensatzes enthalten sein.
1 zeigt ein erstes Computersystem 100 zum Auswählen eines Datensatzes aus (in 3 dargestellten) bestimmten Datensätzen 14 zum Aktualisieren eines (in 2 dargestellten) Moduls 1 mit künstlicher Intelligenz (Kl-Modul). Das erste Computersystem 100 kann geeignet sein, um Verfahrensschritte gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung durchzuführen. Das erste Computersystem 100 kann einen ersten Prozessor 102, einen ersten Arbeitsspeicher 103, eine erste E/A-Schaltung 104 und eine erste Netzwerkschnittstelle 105 enthalten, die über einen ersten Bus 106 miteinander verbunden werden.
Der erste Prozessor 102 kann für einen oder mehrere Prozessoren (z.B. Mikroprozessoren) stehen. Der erste Arbeitsspeicher 103 kann ein beliebiges flüchtiges Arbeitsspeicherelement oder eine Kombination von flüchtigen Arbeitsspeicherelementen (z.B. einen Direktzugriffsspeicher (Random Access Memory, RAM) wie beispielsweise einen DRAM, SRAM, SDRAM usw.)) und nicht flüchtigen Arbeitsspeicherelementen (z.B. einen ROM, einen löschbaren, programmierbaren Nur-Lese-Speicher (Erasable Programmable Read-Only Memory, EPROM), einen elektronisch löschbaren, programmierbaren Nur-Lese-Speicher (Electronically Erasable Programmable Read-Only Memory, EEPROM) und einen programmierbaren Nur-Lese-Speicher (Programmable Read-Only Memory, PROM) enthalten. Zu beachten ist, dass der erste Arbeitsspeicher 103 eine verteilte Architektur haben kann, bei der verschiedene Komponenten räumlich entfernt voneinander angeordnet werden, wobei der erste Prozessor 102 jedoch auf sie zugreifen kann.
Der erste Arbeitsspeicher 103 kann in Kombination mit einer ersten persistenten Speichereinheit 107 für eine lokale Speicherung von Daten und Anweisungen verwendet werden. Die erste Speichereinheit 108 enthält eine oder mehrere persistente Speichereinheiten und Medien, die durch die erste E/A-Schaltung 104 gesteuert werden. Die erste Speichereinheit 107 kann eine magnetische, optische, magnetooptische oder Halbleitervorrichtung für eine digitale Datenspeicherung enthalten, die zum Beispiel fest installierte oder entfernbare Medien hat. Beispieleinheiten enthalten Festplattenlaufwerke, optische Plattenlaufwerke und Diskettenlaufwerke. Beispielmedien enthalten Festplatten, CD-ROMS, DVD-ROMS, BD-ROMs, Disketten und dergleichen.
Der erste Arbeitsspeicher 103 kann ein oder mehrere getrennte Programme enthalten, von denen jedes ausführbare Anweisungen zum Realisieren logischer Funktionen aufweist, insbesondere von Funktionen, die in Beispielen enthalten sind. Die Software in dem ersten Arbeitsspeicher 103 kann üblicherweise auch ein erstes geeignetes Betriebssystem (Operating System, OS) 108 enthalten. Das erste OS 108 steuert im Wesentlichen die Ausführung anderer Computerprogramme, um mindestens Teile von Verfahren wie hier beschrieben zu realisieren.
Das erste Computersystem 100 kann konfiguriert werden, um Werte von Parametern zum Definieren verschiedener Cluster der bestimmten Datensätze 14 zu erhalten, im Folgenden als erste Funktionen bezeichnet. Die ersten Funktionen können ein Laden erster Werte, die Koordinaten von Schwerpunkten der verschiedenen Cluster angeben, sowie zweiter Werte aufweisen, die einen Grad an Zugehörigkeit eines jeden bestimmten Datensatzes zu jedem der Cluster angeben. Die ersten Funktionen können ein Durchführen eines Clusteralgorithmus wie z.B. des Fuzzy-c-Means-Clusteralgorithmus unter Verwendung der bestimmten Datensätze 14, der Trainingsdatensätze und/oder der Testdatensätze aufweisen.
Darüber hinaus kann das erste Computersystem 100 konfiguriert werden, um eine Metrik eines jeden bestimmten Datensatzes zu ermitteln, wobei die Metrik eines jeden bestimmten Datensatzes von einem jeden Grad an Zugehörigkeit des betreffenden bestimmten Datensatzes zu einem der Cluster sowie von einem Abstand des betreffenden bestimmten Datensatzes zu einem Schwerpunkt desselben einen der Cluster abhängig ist, im Folgenden als zweite Funktionen bezeichnet.
Darüber hinaus kann das erste Computersystem 100 für Funktionen wie z.B. ein Auswählen von mindestens einem der bestimmten Datensätze 14 aus den bestimmten Datensätzen 14 zum Aktualisieren des (in 2 dargestellten) KI-Moduls 1 auf Grundlage eines Vergleichs der Metriken der bestimmten Datensätze 14 konfiguriert werden, im Folgenden als dritte Funktionen bezeichnet.
Darüber hinaus kann das erste Computersystem 100 konfiguriert werden, um eine Metrik eines jeden Clusters zu ermitteln, wobei die Metrik eines jeden Clusters von einem Abstand eines Schwerpunkts des betreffenden Clusters zu anderen Schwerpunkten der Cluster abhängig ist, und um mindestens einen der Cluster auf Grundlage der Metriken der Cluster aus den Clustern auszuwählen, im Folgenden als vierte Funktionen bezeichnet. Die Metrik eines jeden bestimmten Datensatzes kann gemäß einem der oben beschriebenen Verfahren berechnet werden.
Darüber hinaus kann das erste Computersystem 100 konfiguriert werden, um die Werte der Parameter zum Definieren der Cluster gemäß der zweiten, dritten, vierten, fünften und sechsten Ausführungsform zu erzeugen, im Folgenden als fünfte, sechste, siebte, achte bzw. neunte Funktionen bezeichnet.
Darüber hinaus kann das erste Computersystem 100 konfiguriert werden, um die Metrik eines jeden Clusters gemäß der siebten, achten, neunten, zehnten, elften, zwölften und dreizehnten Ausführungsform zu ermitteln, im Folgenden als zehnte, elfte, zwölfte, dreizehnte, vierzehnte, fünfzehnte und sechzehnte Funktionen bezeichnet.
Das erste Computersystem 100 kann die ersten, zweiten, dritten, vierten, fünften, sechsten, siebten, achten, neunten, zehnten, elften, zwölften, dreizehnten, vierzehnten, fünfzehnten und sechzehnten Funktionen durchführen, indem ein erstes Programm 201, ein zweites Programm 202, ein drittes Programm 203, ein viertes Programm 204, ein fünftes Programm 205, ein sechstes Programm 206, ein siebtes Programm 207, ein achtes Programm 208, ein neuntes Programm 209, ein zehntes Programm 210, ein elftes Programm 211, ein zwölftes Programm 212, ein dreizehntes Programm 213, ein vierzehntes Programm 214, ein fünfzehntes Programm 215 bzw. ein sechzehntes Programm 216 ausgeführt werden. Der erste Prozessor 102 kann ein Hauptprogramm 200 ausführen. Das Hauptprogramm 200 kann eine Ausführung der Programme 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215 und 216 in dem ersten Programm 102 gemäß der bestimmten Ausführungsform veranlassen, bei der die Werte der Parameter zum Definieren der Cluster und die Metrik eines jeden Clusters ermittelt werden.
Wie hierin verwendet, bezeichnet der Begriff „Programm“ einen Satz von Anweisungen, der Befehle enthält, um Aktionen hervorzurufen, die durch den Prozessor 102 durchgeführt werden, wenn der Prozessor 102 die Befehle lesen kann. Der Satz von Anweisungen kann in Gestalt eines computerlesbaren Programms, einer computerlesbaren Routine, Teilroutine oder eines computerlesbaren Teils einer Bibliothek vorliegen, das bzw. die bzw. der durch den Prozessor 102 ausgeführt werden kann und/oder durch ein weiteres Programm aufgerufen werden kann, das durch den Prozessor 102 ausgeführt wird. Vorzugsweise können die Programme 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216 ausführbare Programme sein, die gemäß einer Art von Hardware-Plattform des Computersystems 100 kompiliert werden. Der erste Arbeitsspeicher 103 kann einen Bereich zum Speichern der Programme 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216 aufweisen, wobei der Bereich hierin im Folgenden als erster Funktionsarbeitsspeicher 115 bezeichnet wird.
1 zeigt ein zweites Computersystem 120. Das zweite Computersystem 120 kann geeignet sein, um das (in 2 dargestellte) KI-Modul 1 auszuführen.
Das zweite Computersystem 120 kann einen zweiten Prozessor 122, einen zweiten Arbeitsspeicher 123, eine zweite E/A-Schaltung 134 und eine Netzwerkschnittstelle 2, die als eine zweite Netzwerkschnittstelle entworfen werden kann, enthalten, die durch einen zweiten Bus 126 miteinander verbunden werden können.
Der zweite Prozessor 122 kann für einen oder mehrere Prozessoren (z.B. Mikroprozessoren) stehen. Der zweite Arbeitsspeicher 123 kann ein beliebiges flüchtiges Arbeitsspeicherelement oder eine Kombination von flüchtigen Arbeitsspeicherelementen (z.B. einen Direktzugriffsspeicher (RAM) wie beispielsweise einen DRAM, SRAM, SDRAM usw.)) und nicht flüchtigen Arbeitsspeicherelementen (z.B. einen ROM, einen löschbaren, programmierbaren Nur-Lese-Speicher (EPROM), einen elektronisch löschbaren, programmierbaren Nur-Lese-Speicher (EEPROM), einen programmierbaren Nur-Lese-Speicher (PROM) enthalten. Zu beachten ist, dass der zweite Arbeitsspeicher 123 eine verteilte Architektur haben kann, bei der verschiedene Komponenten räumlich entfernt voneinander angeordnet werden, wobei der zweite Prozessor 122 jedoch auf sie zugreifen kann.
Der zweite Arbeitsspeicher 123 kann in Kombination mit einer zweiten persistenten Speichereinheit 127 für eine lokale Speicherung von Daten und Anweisungen verwendet werden. Die zweite Speichereinheit 127 enthält eine oder mehrere persistente Speichereinheiten und Medien, die durch die zweite E/A-Schaltung 124 gesteuert werden. Die zweite Speichereinheit 127 kann eine magnetische, optische, magnetooptische oder Halbleitervorrichtung für eine digitale Datenspeicherung enthalten, die zum Beispiel fest installierte oder entfernbare Medien hat. Beispieleinheiten enthalten Festplattenlaufwerke, optische Plattenlaufwerke und Diskettenlaufwerke. Beispielmedien enthalten Festplatten, CD-ROMS, DVD-ROMS, BD-ROMs, Disketten und dergleichen.
Der zweite Arbeitsspeicher 123 kann ein oder mehrere getrennte Programme enthalten, von denen jedes ausführbare Anweisungen zum Realisieren von logischen Funktionen aufweist, insbesondere von Funktionen, die in Beispielen enthalten sind. Die Software in dem zweiten Arbeitsspeicher 123 kann üblicherweise auch ein zweites geeignetes Betriebssystem (OS) 128 enthalten. Das zweite OS 128 steuert im Wesentlichen die Ausführung anderer Computerprogramme, um mindestens Teile von Verfahren wie hier beschrieben zu realisieren.
Das zweite Computersystem 120 kann konfiguriert werden, um das (in 2 dargestellte) KI-Modul 1 in dem zweiten Computersystem 120 auszuführen, im Folgenden als siebzehnte Funktionen bezeichnet. Die siebzehnten Funktionen können ein Laden einer Struktur sowie von Werten von Parametern von Modellfunktionen eines neuronalen Netzwerks, eines neuronalen Faltungsnetzwerks und/oder eines Radial-Basis-Funktionsnetzwerks aus der zweiten Speichereinheit 127 in den zweiten Arbeitsspeicher 123 und ein Berechnen eines Antwort-Ausgabedatensatzes auf Grundlage eines entsprechenden Anforderungs-Eingabedatensatzes aufweisen. Der Anforderungs-Eingabedatensatz, auf dessen Grundlage der Antwort-Ausgabedatensatz berechnet werden kann, kann diesem Antwort-Ausgabedatensatz entsprechen und umgekehrt.
Wie in 2 gezeigt, kann das KI-Modul 1 einen Satz von Antwort-Ausgabedatensätzen 10 ähnlich dem Antwort-Ausgabedatensatz berechnen, wobei jeder der Antwort-Ausgabedatensätze auf Grundlage eines einzigen entsprechenden Anforderungs-Eingabedatensatzes eines Satzes von Anforderungs-Eingabedatensätzen 9 berechnet werden kann.
Darüber hinaus kann das zweite Computersystem 120 konfiguriert werden, um die Anforderungs-Eingabedatensätze 9 über die Schnittstelle 2 zu empfangen, im Folgenden als achtzehnte Funktion bezeichnet, und die Antwort-Ausgabedatensätze 10 über die Schnittstelle 2 zu senden, im Folgenden als neunzehnte Funktion bezeichnet.
Das zweite Computersystem 120 kann die siebzehnten, achtzehnten und neunzehnten Funktionen durchführen, indem ein siebzehntes Programm 217, ein achtzehntes Programm 218 bzw. ein neunzehntes Programm 219 ausgeführt werden. Eine Ausführung der Programme 217, 218, 219 kann veranlasst werden, indem ein zweites Hauptprogramm 220 in dem zweiten Prozessor 122 ausgeführt wird. Der zweite Arbeitsspeicher 123 kann einen Bereich zum Speichern der Programme 220, 217, 218, 219 aufweisen, wobei der Bereich hierin im Folgenden als zweiter Funktionsarbeitsspeicher 135 bezeichnet wird.
Das (in 2 dargestellte) KI-Modul 1 kann als eine Entität betrachtet werden, die die Struktur und die Werte der Parameter der Modellfunktionen sowie das Programm 217 zum Ausführen des neuronalen Netzwerks, des neuronalen Faltungsnetzwerks und/oder des Radial-Basis-Funktionsnetzwerks in dem zweiten Prozessor 122 aufweist, das in einen Cache des zweiten Prozessors 122 geladen wird.
Jeder der (in 3 dargestellten) bestimmten Datensätze 14 kann erzeugt werden, indem einer der (in 2 dargestellten) Antwort-Ausgabedatensätze 10 mit dem betreffenden einen der (in 2 dargestellten) Anforderungs-Eingabedatensätze 9 verkettet wird. Vorzugsweise kann jeder der bestimmten Datensätze 14 in einen Eingabe- und einen Ausgabedatensatz unterteilt werden. Jeder der Anforderungs-Eingabedatensätze 9 kann dieselben Werte wie einer der (in 3 dargestellten) Eingabedatensätze 11 der bestimmten Datensätze 14 aufweisen, und jeder der Antwort-Ausgabedatensätze 10 kann identisch mit einem der (in 3 dargestellten) Ausgabedatensätze 12 der bestimmten Datensätze 14 sein. Somit können in diesem Beispiel die Anforderungs-Eingabedatensätze 9 die Eingabedatensätze 11 der bestimmten Datensätze 14 werden, und die Antwort-Ausgabedatensätze können die Ausgabedatensätze 12 der bestimmten Datensätze 14 werden, wenn die bestimmten Datensätze 14 aus den Anforderungs-Eingabedatensätzen 9 und den Antwort-Ausgabedatensätzen 10 erzeugt werden.
Die bestimmten Datensätze 14 können durch eine Protokolldatei 13 wie in 3 gezeigt bereitgestellt werden. Die Protokolldatei 13 kann durch Speichern des Antwort-Ausgabedatensatzes 12 und der betreffenden Anforderungs-Eingabedatensätze 11 erzeugt werden, wenn das trainierte KI-Modul 1 durch einen Benutzer verwendet wird. Vorzugsweise kann die Protokolldatei 13 immer dann, wenn das KI-Modul 1 einen neuen Antwort-Ausgabedatensatz berechnet, um einen weiteren bestimmten Datensatz erweitert werden. In einem Beispiel kann die Protokolldatei 13 durch das zweite Computersystem 120 erzeugt und in dem zweiten Arbeitsspeicher 123 gespeichert werden. In einem weiteren Beispiel kann die Protokolldatei 13 durch das erste Computersystem 100 erzeugt werden, vorzugsweise durch ein getrenntes Lesen in den Anforderungs-Eingabedatensätzen 11 und den Antwort-Ausgabedatensätzen 12.
In einem Beispiel kann das KI-Modul 1 in dem ersten Prozessor 102 ausgeführt werden. Allerdings können Ausführungsformen der vorliegenden Erfindung auch durchgeführt werden, ohne Zugriff auf das KI-Modul 1 zu haben. Da dies häufiger vorkommen kann, wird dieses Beispiel in den 1 und 2 beschrieben. Unter Umständen müssen nur die bestimmten Datensätze 14 Ausführungsformen der vorliegenden Erfindung durchführen. Vorzugsweise können die bestimmten Datensätze in den ersten Arbeitsspeicher 103 geladen werden, indem die Protokolldatei 13 geladen wird. Um dies umzusetzen, kann die erste Netzwerkschnittstelle 105 über das World Wide Web 130 oder ein weiteres Netzwerk kommunikativ mit der Schnittstelle 2 gekoppelt werden.
In einem Beispiel können die Eingabedatensätze 11 jeweils einen ersten Wert, wie in 3 durch a₁, a_i, a_n gezeigt, und einen zweiten Wert aufweisen, wie in 3 durch b₁, b_i, b_n gezeigt, und die Ausgabedatensätze 12 können jeweils einen ersten Wert aufweisen, wie in 3 durch c₁, c_i, c_n gezeigt.
Die bestimmten Datensätze 14 können jeweils durch einen Datenpunkt in einem (in 4 dargestellten) Koordinatensystem 40 repräsentiert werden, wobei Koordinaten eines jeden Datenpunkts gleich Werten des betreffenden bestimmten Datensatzes sind. 4 zeigt einige beispielhafte Datenpunkte 41, die für die bestimmten Datensätze 14 stehen können. In diesem Fall kann das Koordinatensystem 40 für einen verketteten Parameterraum stehen, der einen Eingabeparameterraum und einen Ausgabeparameterraum der bestimmten Datensätze 14 aufweist. Der Eingabeparameterraum der bestimmten Datensätze 14 kann eine x-Achse 42 und eine y-Achse 43 umfassen und kann die ersten Werte a₁, a_i, a_n und die zweiten Werte b₁, b_i, b_n der Eingabedatensätze 11 aufweisen. Der Ausgabeparameterraum der bestimmten Datensätze 14 kann eine z-Achse 44 umfassen und kann die ersten Werte c₁, c_i, c_n der Ausgabedatensätze 12 aufweisen.
Das KI-Modul 1 kann sich in einem trainierten Zustand zum Durchführen des vorliegenden Verfahrens befinden. In einem untrainierten Zustand des KI-Moduls 1 können die Werte der Parameter der Modellfunktionen gleich Zufallswerten sein. Dies kann durch eine Initialisierung des KI-Moduls 1 erreicht werden, wobei die Werte der Parameter der Modellfunktionen auf Zufallswerte gesetzt werden können. Ein Trainieren des KI-Moduls 1 kann auf Grundlage von (in 4 dargestellten) Trainingsdatensätzen 46 durchgeführt werden, wobei jeder Trainingsdatensatz 46 einen Eingabedatensatz und einen Ausgabedatensatz aufweist.
Der Eingabe- und der Ausgabedatensatz der Trainingsdatensätze 46 kann Elemente haben. Diese Elemente können Werte sein, vorzugsweise reelle Werte. Die Eingabedatensätze der Trainingsdatensätze 46 können dieselbe Struktur wie die Eingabedatensätze 11 der bestimmten Datensätze 14 haben. Entsprechend können die Ausgabedatensätze der Trainingsdatensätze 46 dieselbe Struktur wie die Ausgabedatensätze 12 der bestimmten Datensätze 14 haben. Die Trainingsdatensätze 46 können für Informationen zu einem Klassifizierungsprogramm stehen, für das das KI-Modul 1 verwendet werden kann, nachdem es mit den Trainingsdatensätzen 46 trainiert wird. Unter Bezugnahme auf einen ersten Anwendungsfall können die ersten Werte a₁, a_i, a_n und die zweiten Werte b₁, b_i, b_n der betreffenden Eingabedatensätze 11 jeweils ein Wert eines Merkmals zum Gruppieren des betreffenden Eingabedatensatzes 11 in eine von mehreren unterschiedlichen Klassen sein. Eine Art einer jeden unterschiedlichen Klasse kann durch die ersten Werte c₁, c_i, c_n der betreffenden Ausgabedatensätze 12 angegeben werden. Die Werte eines jeden Eingabe- und Ausgabedatensatzes der Trainingsdatensätze 46 können dieselbe Struktur wie die bestimmten Datensätze 14 haben und können durch Experimente erhalten werden, vorzugsweise durch überwachte Experimente.
Das Trainieren des KI-Moduls 1 kann so durchgeführt werden, dass die Werte der Parameter der Modellfunktionen angepasst werden können, um einen Trainingsfehler des KI-Moduls 1 zu reduzieren. Der Trainingsfehler kann wie oben beschrieben unter Verwendung eines oder mehrerer lernenden Algorithmen reduziert werden, z.B. lineare Regression, Rückwärtspropagierung, k-Means usw.
5 zeigt einen Ablaufplan eines computerrealisierten Verfahrens zum Auswählen des Datensatzes aus den bestimmten Datensätzen 14 zum Aktualisieren des Kl-Moduls 1, wobei jeder (in 3 dargestellte) bestimmte Datensatz 14_i einen (in 3 dargestellten) Eingabedatensatz 11_i und einen entsprechenden (in 3 dargestellten) Ausgabedatensatz 12_i aufweist.
In einem Schritt 301 können die Werte der Parameter zum Definieren verschiedener Cluster 45 der bestimmten Datensätze 14 erhalten werden. Dies kann umgesetzt werden, indem das erste Programm 201 in dem ersten Prozessor 102 ausgeführt wird. Bei Ausführung des ersten Programms 201 kann der Fuzzy-c-Means-Clusteralgorithmus auf Grundlage der Trainingsdatensätze 46 durchgeführt werden. Dies kann ein Ermitteln von (in 4 dargestellten) Schwerpunkten 47 der Cluster 45 und des Grads an Zugehörigkeit eines jeden der bestimmten Datensätze 14_i zu einem jeden der Cluster 45 aufweisen.
In einem Schritt 302 kann die Metrik eines jeden bestimmten Datensatzes 14_i ermittelt werden. Die Metrik eines jeden bestimmten Datensatzes kann von dem Grad an Zugehörigkeit des betreffenden bestimmten Datensatzes 14_i zu einem der Cluster sowie von dem Abstand des betreffenden bestimmten Datensatzes 14_i zu dem Schwerpunkt desselben einen der Cluster abhängig sein.
In einem Schritt 303 kann mindestens einer der bestimmten Datensätze 14 aus den bestimmten Datensätzen 14 zum Aktualisieren des KI-Moduls 1 auf Grundlage des Vergleichs der Metriken der bestimmten Datensätze ausgewählt werden.
In einem ersten Beispiel kann eine Metrik eines jeden der Cluster 45 ermittelt werden. Die Metrik eines jeden Clusters der Cluster 45 kann von einem Abstand des Schwerpunkts des betreffenden Clusters der Cluster 45 zu anderen Schwerpunkten der Cluster 45 abhängig sein. Darüber hinaus kann einer der Cluster 45 auf Grundlage der Metriken der Cluster 45 aus den Clustern 45 ausgewählt werden. Gemäß diesem ersten Beispiel kann die Metrik eines jeden bestimmten Datensatzes 14_i so ermittelt werden, dass die Metrik eines jeden bestimmten Datensatzes 14_i von dem Grad an Zugehörigkeit des betreffenden bestimmten Datensatzes 14_i zu dem ausgewählten Cluster sowie von dem Abstand des betreffenden bestimmten Datensatzes 14_i zu dem Schwerpunkt des ausgewählten Clusters abhängig sein kann. Der Abstand des betreffenden bestimmten Datensatzes 14_i zu dem Schwerpunkt des ausgewählten Clusters kann gleich einem Abstand des betreffenden Datenpunkts, der für den betreffenden bestimmten Datensatz 14_i stehen kann, zu dem Schwerpunkt des ausgewählten Clusters sein.
Zum Beispiel kann die Metrik Mdat_i eines jeden bestimmten Datensatzes 14_i wie folgt berechnet werden: $M d a t_{i} = \frac{1}{2} (M + \frac{D}{M D})$
wobei D der Abstand des betreffenden bestimmten Datensatzes 14_i zu dem Schwerpunkt des ausgewählten Clusters sein kann, MD der maximale Abstand der bestimmten Datensätze 14 zu dem Schwerpunkt des ausgewählten Clusters sein kann und M der Wert der Zugehörigkeit des betreffenden bestimmten Datensatzes 14_i zu dem ausgewählten Cluster sein kann.
Gemäß einer ersten Abwandlung des ersten Beispiels kann die Metrik Mclust1_i eines jeden der Cluster 45, im Folgenden als Cluster 45_i bezeichnet, wie folgt ermittelt werden: $M c l u s t 1_{i} = \frac{1}{4} (R + (1 - \frac{M e a n D 1}{M a x D 1}) + M M 1 + M C D 1)$
wobei MeanD1 ein mittlerer Abstand der Trainingsdatensätze 46 zu dem Schwerpunkt des betreffenden Clusters 45_i oder der mittlere Abstand der Trainingsdatensätze 46 und gekennzeichneten Datensätze zu dem Schwerpunkt des betreffenden Clusters 45_i sein kann. Die gekennzeichneten Datensätze können jeweils ein genehmigter oder korrigierter Datensatz der bestimmten Datensätze 14 sein. Eine Genehmigung oder Korrektur, d.h. eine Kennzeichnung, eines der zu kennzeichnenden bestimmten Datensätze 14_i kann manuell durch einen Experten oder automatisch durchgeführt werden, wie weiter oben erwähnt.
Darüber hinaus kann MM1 der Mittelwert der Zugehörigkeit der Trainingsdatensätze 46 zu dem betreffenden Cluster 45_i oder der Mittelwert der Zugehörigkeit der Trainingsdatensätze 46 und der gekennzeichneten Datensätze zu dem betreffenden Cluster 45_i sein. Darüber hinaus kann MaxD1 der maximale Abstand der Trainingsdatensätze 46 zu den Schwerpunkten der Cluster 45 oder der maximale Abstand der Trainingsdatensätze 46 und der gekennzeichneten Datensätze zu den Schwerpunkten der Cluster 45 sein. Darüber hinaus kann MCD1 der mittlere Abstand von dem Schwerpunkt des betreffenden Clusters 45_i zu den anderen Clustern 45, dividiert durch den mittleren Abstand der Schwerpunkte der Cluster 45 sein. Darüber hinaus kann R das Verhältnis einer ersten Summe der Trainingsdatensätze 46 und der gekennzeichneten Datensätze, die in dem betreffenden Cluster 45_i enthalten sind, und einer zweiten Summe aller Trainingsdatensätze 46 und aller gekennzeichneten Datensätze sein.
Ein Ermitteln der Metrik Mclust1_i eines jeden der Cluster 45 gemäß der zweiten Abwandlung des ersten Beispiels kombinieren die oben erwähnte zehnte, elfte, zwölfte und dreizehnte Ausführungsform und kann die für diese Ausführungsformen beschriebenen Vorteile mit sich bringen. Die Programme 213, 214, 215 und 216 können in dem ersten Prozessor 102 ausgeführt werden, um die Metrik Mclust1_i eines jeden der Cluster 45 zu ermitteln, und können durch das Hauptprogramm 200 aufgerufen werden.
Gemäß der ersten Abwandlung des ersten Beispiels kann der ausgewählte Cluster derjenige sein, der den niedrigsten Wert der Metrik Mclust1_i aufweist. Das Clustern zum Erhalten der Schwerpunkte der Cluster 45 und der Werte der Zugehörigkeit eines jeden bestimmten Datensatzes 14_i zu jedem der Cluster 45 kann auf Grundlage der Trainingsdatensätze 46, der oben erwähnten Testdatensätze, der bestimmten Datensätze 14 und/oder der gekennzeichneten Datensätze durchgeführt werden. In diesem Fall können die Trainingsdatensätze 46, die oben erwähnten Testdatensätze, die bestimmten Datensätze 14 und/oder die gekennzeichneten Datensätze einen einzigen Satz von Datensätzen erzeugen, für den das Clustern durchgeführt werden kann.
Gemäß einer zweiten Abwandlung des ersten Beispiels kann die Metrik Mclust2_i eines jeden der Cluster 45 wie folgt ermittelt werden: $M c l u s t 2_{i} = \frac{1}{3} ((1 - \frac{M e a n D 2}{M a x D 2}) + M M 2 + M C D 2)$
wobei MeanD2 ein mittlerer Abstand der bestimmten Datensätze 14 zu dem Schwerpunkt der betreffenden Cluster 45_i sein kann. Darüber hinaus kann MM2 der Mittelwert der Zugehörigkeit der bestimmten Datensätze 14 zu dem betreffenden Cluster 45_i sein. Darüber hinaus kann MaxD2 der maximale Abstand der bestimmten Datensätze 14 zu den Schwerpunkten der Cluster 45 sein. Darüber hinaus kann MCD2 der mittlere Abstand von dem Schwerpunkt des betreffenden Clusters 45_i zu den anderen Clustern 45, dividiert durch den mittleren Abstand der Schwerpunkte der Cluster 45 sein.
Ein Ermitteln der Metrik Mclust2_i eines jeden der Cluster 45 gemäß der ersten Abwandlung des ersten Beispiels kombiniert die oben erwähnte siebte, achte und neunte Ausführungsform und kann die für diese Ausführungsformen beschriebenen Vorteile mit sich bringen. Die Programme 210, 211 und 212 können in dem ersten Prozessor 102 ausgeführt werden, um die Metrik Mclust2_i eines jeden der Cluster 45 zu ermitteln, und können durch das Hauptprogramm 200 aufgerufen werden.
Gemäß der zweiten Abwandlung des ersten Beispiels kann der ausgewählte Cluster derjenige sein, der den niedrigsten Wert der Metrik Mclust2_i aufweist. Das Clustern zum Erhalten der Schwerpunkte der Cluster 45 und der Werte der Zugehörigkeit eines jeden bestimmten Datensatzes 14_i zu jedem der Cluster 45 kann auf Grundlage der Trainingsdatensätze 46 und/oder der gekennzeichneten Datensätze durchgeführt werden. In diesem Fall können die Trainingsdatensätze 46 und/oder die gekennzeichneten Datensätze einen einzigen Satz von Datensätzen erzeugen, für den das Clustern durchgeführt werden kann.
Im Folgenden wird beschrieben, wie mehrere Datensätze auf Grundlage des Vergleichs der Metriken Mdat_i eines jeden bestimmten Datensatzes 14_i aus den bestimmten Datensätzen 14 ausgewählt werden können. In diesem Fall kann der ausgewählte Cluster gemäß der ersten oder zweiten Abwandlung des ersten Beispiels ermittelt werden. Der Mindestwert Min_Mdat_i der Metriken Mdat_i und der Höchstwert Max_Mdat_i der Metriken Mdat_i können durch den Vergleich der Metriken Mdat_i der bestimmten Datensätze 14_i ermittelt werden. Eine Spanne, die den Mindestwert Min_Mdat_i und den Höchstwert Max_Mdat_i als ihre Grenzwerte aufweist, kann in N gleiche Teilspannen unterteilt werden, wobei jede Teilspanne einen unteren und einen oberen Grenzwert aufweist. Die bestimmten Datensätze 14_i können gemäß ihrer Metrik Mdat_i und der unteren und oberen Grenzwerte der N Teilspannen N in verschiedene Gruppen gruppiert werden. Aus jeder der N verschiedenen Gruppen kann eine bestimmte Anzahl M der bestimmten Datensätze ausgewählt werden. Ein Auswählen der bestimmten Anzahl M von Datensätzen aus jeder der verschiedenen Gruppen kann den Vorteil haben, dass in Bezug auf das ausgewählte Cluster eine homogene Gruppe von ausgewählten Datensätzen aus den bestimmten Datensätze 14 ausgewählt wird.
Gemäß einem weiteren Beispiel kann der Datensatz ausgewählt werden, der die niedrigste Metrik Mdat_i aller bestimmten Datensätze 14_i aufweist, oder es kann eine bestimmte Anzahl L von Datensätzen ausgewählt werden, die die niedrigste Metrik Mdat_i aller bestimmten Datensätze 14_i aufweisen. In einem weiteren Beispiel kann der Datensatz ausgewählt werden, der die höchste Metrik Mdat_i aller bestimmten Datensätze 14_i aufweist, oder es kann eine bestimmte Anzahl L von Datensätzen ausgewählt werden, die die höchste Metrik Mdat_i aller bestimmten Datensätze 14_i aufweisen.
Unabhängig von dem Verfahren, mit dem der bzw. die Datensätze ausgewählt werden, können der bzw. die ausgewählten Datensätze manuell oder automatisch gekennzeichnet werden, um den bzw. die oben erwähnten gekennzeichneten Datensätze zu erzeugen. Auf Grundlage des bzw. der gekennzeichneten Datensätze kann das Clustern durchgeführt werden, wie weiter oben als Reaktion auf eine Erweiterung der Protokolldatei 13 durch neue bestimmte Datensätze beschrieben. Das Erzeugen der neuen bestimmten Datensätzen wird weiter oben beschrieben.
Der beschriebene Prozess eines Auswählens des bzw. der Datensätze und eines Kennzeichnens des bzw. der Datensätze kann wiederholt durchgeführt werden, wenn das KI-Modul 1 verwendet wird, wodurch wiederholt neue bestimmte Datensätze erzeugt werden und dadurch die Protokolldatei 13 erweitert und die Anzahl der bestimmten Datensätze 14 erhöht wird. Die gekennzeichneten Datensätze können zum Aktualisieren des KI-Moduls 1 verwendet werden. Das Aktualisieren kann in Gestalt eines Neutrainierens ähnlich dem oben beschriebenen Trainieren des KI-Moduls 1 durchgeführt werden, jedoch mindestens auf Grundlage der gekennzeichneten Datensätze. Das Neutrainieren kann auch auf Grundlage der Trainingsdatensätze und der gekennzeichneten Datensätze durchgeführt werden.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt mit einem beliebigen möglichen Grad an technischer Integration handeln. Das Computerprogrammprodukt kann ein computerlesbares Speichermedium (oder computerlesbare Speichermedien) mit darauf gespeicherten computerlesbaren Programmanweisungen enthalten, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen. Bei dem computerlesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch eine Anweisungsausführungseinheit behalten und speichern kann.
Bei dem computerlesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des computerlesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (Random Access Memory, RAM), ein Nur-Lese-Speicher (Read-Only Memory, ROM) ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer CD-ROM, eine DVD (Digital Versatile Disc), ein Speicher-Stick, eine Diskette, eine mechanisch kodierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert werden, und jede geeignete Kombination daraus. Ein computerlesbares Speichermedium soll in der Verwendung hierin nicht als transitorische Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene computerlesbare Programmanweisungen können von einem computerlesbaren Speichermedium auf jeweilige Datenverarbeitungs-/ Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk (Local Area Network, LAN), ein Weitverkehrsnetzwerk (Wide Area Network, WAN) und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/ Verarbeitungseinheit empfängt computerlesbare Programmanweisungen aus dem Netzwerk und leitet die computerlesbaren Programmanweisungen zur Speicherung in einem computerlesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/ Verarbeitungseinheit weiter.
Bei computerlesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction Set Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandseinstellende Daten, Konfigurationsdaten für eine integrierte Schaltung oder sowohl um Quellcode als auch um Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die computerlesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden werden, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetzwerk (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). Bei manchen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, im Feld programmierbare Gatter-Arrays (Field-Programmable Gate Arrays, FPGA) oder programmierbare Logik-Arrays (Programmable Logic Arrays, PLA) die computerlesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der computerlesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung werden hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaubildern mittels computerlesbarer Programmanweisungen ausgeführt werden können.
Diese computerlesbaren Programmanweisungen können einem Prozessor eines Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, sodass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block oder den Blöcken des Ablaufplans und/oder des Blockschaubilds festgelegten Funktionen/Schritte erzeugen. Diese computerlesbaren Programmanweisungen können auch auf einem computerlesbaren Speichermedium gespeichert werden, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, sodass das computerlesbare Speichermedium, auf dem Anweisungen gespeichert werden, ein Herstellungsprodukt aufweist, darunter Anweisungen, die Aspekte der bzw. des in dem Block bzw. den Blöcken der Ablaufpläne und/oder Blockschaubilder angegebenen Funktion/Schritts umsetzen.
Die computerlesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen computerrealisierten Prozess zu erzeugen, sodass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder Blockschaubilder festgelegten Funktionen/Schritte umsetzen.
Die Ablaufpläne und die Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion bzw. Funktionen aufweisen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zum Beispiel können zwei nacheinander gezeigte Blöcke in Wirklichkeit als ein Schritt erfolgen, gleichzeitig, im Wesentlichen gleichzeitig, teilweise oder vollständig zeitlich überlappend ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, die die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.

Claims

Computerrealisiertes Verfahren zum Auswählen eines Datensatzes aus bestimmten Datensätzen zum Aktualisieren eines Moduls mit künstlicher Intelligenz (Kl-Modul), wobei die bestimmten Datensätze jeweils einen Eingabedatensatz und einen entsprechenden Ausgabedatensatz aufweisen, wobei das Verfahren aufweist: Erhalten von Werten von Parametern zum Definieren verschiedener Cluster der bestimmten Datensätze; Ermitteln einer Metrik eines jeden bestimmten Datensatzes, wobei die Metrik eines jeden bestimmten Datensatzes von einem Grad an Zugehörigkeit des betreffenden bestimmten Datensatzes zu einem der Cluster sowie von einem Abstand des betreffenden bestimmten Datensatzes zu einem Schwerpunkt desselben einen der Cluster abhängig ist; und Auswählen von mindestens einem der bestimmten Datensätze aus den bestimmten Datensätzen zum Aktualisieren des KI-Moduls auf Grundlage eines Vergleichs der Metriken der bestimmten Datensätze.
Computerrealisiertes Verfahren nach Anspruch 1, des Weiteren aufweisend: Ermitteln einer Metrik eines jeden Clusters, wobei die Metrik eines jeden Clusters von einem Abstand eines Schwerpunkts des betreffenden Clusters zu anderen Schwerpunkten der Cluster abhängig ist; Auswählen von mindestens einem der Cluster aus den Clustern auf Grundlage der Metriken der Cluster; und Ermitteln der Metrik eines jeden bestimmten Datensatzes, wobei die Metrik eines jeden bestimmten Datensatzes von dem Grad an Zugehörigkeit des betreffenden bestimmten Datensatzes zu dem ausgewählten Cluster sowie von dem Abstand des betreffenden bestimmten Datensatzes zu dem Schwerpunkt des ausgewählten Clusters abhängig ist.
Computerrealisiertes Verfahren nach Anspruch 1, des Weiteren aufweisend ein Ermitteln der Metrik für jeden bestimmten Datensatz zumindest teilweise auf Grundlage eines: Ermittelns eines Satzes von Metriken für jeden bestimmten Datensatz, wobei jede Metrik des Satzes von Metriken des betreffenden bestimmten Datensatzes einem Cluster eines Teilsatzes der Cluster entspricht, wobei jede Metrik des Satzes von Metriken des betreffenden bestimmten Datensatzes von dem Grad an Zugehörigkeit des betreffenden bestimmten Datensatzes zu dem betreffenden Cluster sowie von dem Abstand des betreffenden bestimmten Datensatzes zu einem Schwerpunkt des betreffenden Clusters abhängig ist; und Auswählen von mindestens einem der bestimmten Datensätze aus den bestimmten Datensätzen zum Aktualisieren des KI-Moduls auf Grundlage eines Vergleichs des Satzes von Metriken der bestimmten Datensätze.
Computerrealisiertes Verfahren nach Anspruch 1, des Weiteren aufweisend: Erzeugen der Werte der Parameter zum Definieren der Cluster als eine Funktion von Trainingsdatensätzen, wobei das KI-Modul unter Verwendung der Trainingsdatensätze erzeugt wird.
Computerrealisiertes Verfahren nach Anspruch 1, des Weiteren aufweisend: Erzeugen der Werte der Parameter zum Definieren der Cluster als eine Funktion der bestimmten Datensätze.
Computerrealisiertes Verfahren nach Anspruch 1, des Weiteren aufweisend: Erzeugen der Werte der Parameter zum Definieren der Cluster als eine Funktion von Testdatensätzen, wobei das KI-Modul unter Verwendung der Testdatensätze getestet wird.
Computerrealisiertes Verfahren nach Anspruch 1, des Weiteren aufweisend: Erzeugen der Werte der Parameter zum Definieren der Cluster als eine Funktion eines genehmigten oder korrigierten Datensatzes der bestimmten Datensätze.
Computerrealisiertes Verfahren nach Anspruch 1, des Weiteren aufweisend: Erzeugen der Werte der Parameter zum Definieren der Cluster als eine Funktion eines manuell genehmigten oder manuell korrigierten Datensatzes der bestimmten Datensätze.
Computerrealisiertes Verfahren nach Anspruch 1, des Weiteren aufweisend: Erhalten der Werte von Parametern zum Definieren der Cluster unter Durchführung des Fuzzy-c-Means-Clusteralgorithmus.
Computerrealisiertes Verfahren nach Anspruch 2, des Weiteren aufweisend: Ermitteln der Metrik eines jeden Clusters auf Grundlage eines mittleren Abstands der bestimmten Datensätze zu dem Schwerpunkt des betreffenden Clusters.
Computerrealisiertes Verfahren nach Anspruch 2, des Weiteren aufweisend: Ermitteln der Metrik eines jeden Clusters auf Grundlage eines maximalen Abstands der bestimmten Datensätze zu dem Schwerpunkt des betreffenden Clusters.
Computerrealisiertes Verfahren nach Anspruch 2, des Weiteren aufweisend: Ermitteln der Metrik eines jeden Clusters auf Grundlage eines mittleren Grads an Zugehörigkeit der bestimmten Datensätze zu dem betreffenden Cluster.
Computerrealisiertes Verfahren nach Anspruch 4, des Weiteren aufweisend: Ermitteln der Metrik eines jeden Clusters auf Grundlage eines mittleren Abstands der Trainingsdatensätze und manuell genehmigten oder manuell korrigierten Datensätze der bestimmten Datensätze zu dem Schwerpunkt des betreffenden Clusters.
Computerrealisiertes Verfahren nach Anspruch 4, des Weiteren aufweisend: Ermitteln der Metrik eines jeden Clusters auf Grundlage eines maximalen Abstands der Trainingsdatensätze und manuell genehmigten oder manuell korrigierten Datensätze der bestimmten Datensätze zu dem Schwerpunkt des betreffenden Clusters.
Computerrealisiertes Verfahren nach Anspruch 4, des Weiteren aufweisend: Ermitteln der Metrik eines jeden Clusters auf Grundlage eines mittleren Grads an Zugehörigkeit der Trainingsdatensätze und manuell genehmigten oder manuell korrigierten Datensätze der bestimmten Datensätze zu dem betreffenden Cluster.
Computerrealisiertes Verfahren nach Anspruch 4, des Weiteren aufweisend: Ermitteln der Metrik eines jeden Clusters auf Grundlage eines Verhältnisses einer ersten Summe der Anzahl der Trainingsdatensätze, die in dem betreffenden Cluster enthalten sind, und einer Anzahl von manuell genehmigten oder manuell korrigierten Datensätzen der bestimmten Datensätze, die in dem betreffenden Cluster enthalten sind, und einer zweiten Summe einer Gesamtzahl der Trainingsdatensätze und einer Gesamtzahl von manuell genehmigten oder manuell korrigierten Datensätzen der bestimmten Datensätze.
Computerrealisiertes Verfahren nach Anspruch 4, des Weiteren aufweisend: Erhalten der Werte der Parameter zum Definieren der Cluster auf Grundlage der Ausgabedatensätze der Trainingsdatensätze.
Computerrealisiertes Verfahren nach Anspruch 1, wobei die Eingabedatensätze der bestimmten Datensätze jeweils einen Wert eines Identifikationsparameters aufweisen und die Ausgabedatensätze der bestimmten Datensätze jeweils einen Wert eines Leistungsindikators aufweisen.
Computerprogrammprodukt zum Auswählen eines Datensatzes aus bestimmten Datensätzen zum Aktualisieren eines Moduls mit künstlicher Intelligenz (Kl-Modul), wobei die bestimmten Datensätze jeweils einen Eingabedatensatz und einen entsprechenden Ausgabedatensatz aufweisen, wobei das Computerprogrammprodukt ein computerlesbares Speichermedium mit darin enthaltenem computerlesbarem Programmcode aufweist, wobei der computerlesbare Programmcode konfiguriert wird, um ein Verfahren zu realisieren, aufweisend: Erhalten von Werten von Parametern zum Definieren verschiedener Cluster der bestimmten Datensätze; Ermitteln einer Metrik eines jeden bestimmten Datensatzes, wobei die Metrik eines jeden bestimmten Datensatzes von einem Grad an Zugehörigkeit des betreffenden bestimmten Datensatzes zu einem der Cluster sowie von einem Abstand des betreffenden bestimmten Datensatzes zu einem Schwerpunkt desselben einen der Cluster abhängig ist; und Auswählen von mindestens einem der bestimmten Datensätze aus den bestimmten Datensätzen zum Aktualisieren des KI-Moduls auf Grundlage eines Vergleichs der Metriken der bestimmten Datensätze.
Computersystem zum Auswählen eines Datensatzes aus bestimmten Datensätzen zum Aktualisieren eines Moduls mit künstlicher Intelligenz (Kl-Modul), wobei die bestimmten Datensätze jeweils einen Eingabedatensatz und einen entsprechenden Ausgabedatensatz aufweisen, wobei das Computersystem einen oder mehrere Computerprozessoren, ein oder mehrere computerlesbare Speichermedien und Programmanweisungen aufweist, die zur Ausführung durch den einen oder die mehreren Computerprozessoren in dem einen oder den mehreren computerlesbaren Speichermedien gespeichert werden, um ein Verfahren zu realisieren, aufweisend: Erhalten von Werten von Parametern zum Definieren verschiedener Cluster der bestimmten Datensätze; Ermitteln einer Metrik eines jeden bestimmten Datensatzes, wobei die Metrik eines jeden bestimmten Datensatzes von einem Grad an Zugehörigkeit des betreffenden bestimmten Datensatzes zu einem der Cluster sowie von einem Abstand des betreffenden bestimmten Datensatzes zu einem Schwerpunkt desselben einen der Cluster abhängig ist; und Auswählen von mindestens einem der bestimmten Datensätze aus den bestimmten Datensätzen zum Aktualisieren des KI-Moduls auf Grundlage eines Vergleichs der Metriken der bestimmten Datensätze.