DE112021006984T5

DE112021006984T5 - Informationsverarbeitungseinrichtung, auswahlausgabe- verfahren und auswahlausgabeprogramm

Info

Publication number: DE112021006984T5
Application number: DE112021006984.5T
Authority: DE
Inventors: Jia Qu; Shoichi Shimizu
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2023-11-16
Also published as: US20240119723A1; JPWO2022168274A1; WO2022168274A1; CN116802651A

Abstract

Eine Informationsverarbeitungseinrichtung (100) umfasst eine Beschaffungseinheit (120), die gelernte Modelle (200a, 200b) zum Ausführen von Objekterfassung durch voneinander verschiedene Verfahren und eine Vielzahl von Teilen von unmarkierten Lerndaten als eine Vielzahl von Bildern, die ein Objekt enthalten, beschafft, eine Objekterfassungseinheit (140), die die Objekterfassung an jedem der Vielzahl von Teilen von unmarkierten Lerndaten unter Verwendung der gelernten Modelle (200a, 200b) durchführt, eine Berechnungseinheit (150), die auf Grundlage einer Vielzahl von Objekterfassungsergebnissen eine Vielzahl von Informationsmengenauswertungen berechnet, die Werte der Vielzahl von Teilen von unmarkierten Lerndaten angeben, und eine Auswahlausgabeeinheit (160), die eine vorgegebene Anzahl von Teilen unmarkierter Lerndaten aus der Vielzahl von Teilen unmarkierter Lerndaten auf der Grundlage der Vielzahl von Informationsmengenauswertungen auswählt und die ausgewählten unmarkierten Lerndaten ausgibt.

Description

GEBIET DER TECHNIK
Die vorliegende Offenbarung bezieht sich auf eine Informationsverarbeitungseinrichtung, ein Auswahlausgabeverfahren und ein Auswahlausgabeprogramm.
HINTERGUND ZUM STAND DER TECHNIK
Um eine hervorragende Leistung einer Einrichtung zu erzielen, die ein gelerntes Modell verwendet, führt die Einrichtung im Allgemeinen Deep Learning aus, indem sie eine große Menge an Trainingsdaten verwendet (z. B. auch als Lerndatensatz bezeichnet). Wenn zum Beispiel ein gelerntes Modell zur Erfassung eines Objekts in einem eingegebenen Bild erzeugt wird, enthalten die Trainingsdaten eine Region des Objekts als Erfassungsziel im Bild und eine Markierung, die den Typ des Objekts angibt. Die Trainingsdaten werden von einem Markierungsarbeiter bzw. Markierer erzeugt. Die vom Markierer ausgeführte Erzeugungsarbeit wird als Markieren bezeichnet. Die von dem Markierer durchgeführte Markierung erhöht die Belastung bzw. die Arbeitslast der Markierer. Unter diesen Umständen wurde das aktive Lernen entwickelt, um die Belastung des Markierers zu verringern. Beim aktiven Lernen werden als die Trainingsdaten Bilder verwendet, die markiert sind und einen hohen Lerneffekt aufweisen.
Hier wurde eine Technologie zur Auswahl von Daten vorgeschlagen, die für das aktive Lernen verwendet werden sollen (siehe Patentreferenz 1). Eine Aktives-Lernen-Einrichtung berechnet eine Klassifizierungsauswertung in Bezug auf unmarkierte Lerndaten, indem ein Klassifikator verwendet wird, der mit Hilfe von markierten Lerndaten gelernt wurde. Die Aktives-Lernen-Einrichtung erzeugt eine Vielzahl von Clustern, indem sie die unmarkierten Lerndaten in Cluster verpackt. Die Aktives-Lernen-Einrichtung wählt die für das aktive Lernen zu verwendenden Lerndaten aus den unmarkierten Lerndaten auf der Grundlage der Vielzahl von Clustern und der Klassifizierungsauswertung aus.
STAND DER TECHNIK
PATENTREFERENZ
Patentreferenz 1: Japanische Patentanmeldung, Veröffentlichungsnummer 2017-167834
KURZFASSUNG DER ERFINDUNG
DURCH DIE ERFINDUNG ZU LÖSENDES PROBLEM
In der oben beschriebenen Technologie werden die Lerndaten unter Verwendung eines Klassifikators ausgewählt, der durch Ausführen des Lernens in einem bestimmten Verfahren unter Verwendung von markierten Lerndaten und unmarkierten Lerndaten erhalten wird. Im Übrigen wird der Klassifikator im Folgenden als gelerntes Modell bezeichnet. Bei den ausgewählten Lerndaten handelt es sich um Lerndaten, die einen großen Lerneffekt haben, wenn das Lernen mit Hilfe eines bestimmten Verfahrens durchgeführt wird. Wird dagegen ein gelerntes Modell unter Verwendung eines anderen Verfahrens erzeugt, können die ausgewählten Lerndaten nicht unbedingt als Lerndaten mit großem Lerneffekt angesehen werden. Daher können Verfahren, die die oben beschriebene Technologie verwenden, nicht unbedingt als wünschenswert angesehen werden. Daher ist die Auswahl von Lerndaten mit gro-ßem Lerneffekt ein wichtiges Thema.
Ein Ziel der vorliegenden Offenbarung ist es, Lerndaten mit hohem Lerneffekt auszuwählen.
MITTEL ZUR LÖSUNG DES PROBLEMS
Eine Informationsverarbeitungseinrichtung gemäß einem Aspekt der vorliegenden Offenbarung wird bereitgestellt. Die Informationsverarbeitungseinrichtung umfasst eine Beschaffungseinheit, die eine Vielzahl von gelernten Modellen zum Ausführen von Objekterfassung durch voneinander verschiedene Verfahren und eine Vielzahl von Teilen von unmarkierten Lerndaten als eine Vielzahl von Bildern, die ein Objekt enthalten, beschafft, eine Objekterfassungseinheit, die die Objekterfassung an jedem der Vielzahl von Teilen von unmarkierten Lerndaten unter Verwendung der Vielzahl von gelernten Modellen durchführt, eine Berechnungseinheit, die auf Grundlage einer Vielzahl von Objekterfassungsergebnissen eine Vielzahl von Informationsmengenauswertungen berechnet, die Werte der Vielzahl von Teilen von unmarkierten Lerndaten angeben, und eine Auswahlausgabeeinheit, die eine vorgegebene Anzahl von Teilen unmarkierter Lerndaten aus der Vielzahl von Teilen unmarkierter Lerndaten auf der Grundlage der Vielzahl von Informationsmengenauswertungen auswählt und die ausgewählten unmarkierten Lerndaten ausgibt.
WIRKUNG DER ERFINDUNG
Gemäß der vorliegenden Offenbarung können Lerndaten mit hohem Lerneffekt ausgewählt werden.
KURZBESCHREIBUNG DER ZEICHNUNGEN

1 ist eine Blockdarstellung, die Funktionen einer Informationsverarbeitungseinrichtung in einer ersten Ausführungsform zeigt.
2 ist eine Darstellung, die in der Informationsverarbeitungseinrichtung in der ersten Ausführungsform enthaltene Hardware zeigt.
3(A) und 3(B) sind Diagramme zur Erläuterung von loU in der ersten Ausführungsform.
4 ist ein Diagramm, das eine Beziehung zwischen Precision (dt. etwa Genauigkeit), Recall (dt. etwa Wiederaufruf) und AP in der ersten Ausführungsform zeigt.
5(A) und 5(B) sind Darstellungen (Nr. 1), die Beispiele für die Ausgabe ausgewählter Bilder zeigen.
6(A) und 6(B) sind Darstellungen (Nr. 2), die Beispiele für die Ausgabe der ausgewählten Bilder zeigen.
7 ist eine Blockdarstellung, die Funktionen einer Informationsverarbeitungseinrichtung in einer zweiten Ausführungsform zeigt.
8 ist ein Flussdiagramm, das ein Beispiel für einen Prozess zeigt, der durch die Informationsverarbeitungseinrichtung in der zweiten Ausführungsform ausgeführt wird.

MODUS ZUR AUSFÜHRUNG DER ERFINDUNG
Ausführungsformen werden nachstehend unter Bezugnahme auf die Zeichnungen beschrieben. Die folgenden Ausführungsformen sind lediglich Beispiele und eine Vielzahl von Modifikationen sind im Rahmen der vorliegenden Offenbarung möglich.
Erste Ausführungsform
1 ist eine Blockdarstellung, die Funktionen einer Informationsverarbeitungseinrichtung in einer ersten Ausführungsform zeigt. Die Informationsverarbeitungseinrichtung 100 ist eine Einrichtung, die ein Auswahlausgabeverfahren ausführt. Die Informationsverarbeitungseinrichtung 100 umfasst eine erste Speichereinheit 111, eine zweite Speichereinheit 112, eine Beschaffungseinheit 120, Lerneinheiten 130a und 130b, eine Objekterfassungseinheit 140, eine Berechnungseinheit 150 und eine Auswahlausgabeeinheit 160.
Hier wird nachstehend Hardware beschrieben, die in der Informationsverarbeitungseinrichtung 100 enthalten ist.
2 ist eine Darstellung, die die in der Informationsverarbeitungseinrichtung in der ersten Ausführungsform enthaltene Hardware zeigt. Die Informationsverarbeitungseinrichtung 100 enthält einen Prozessor 101, eine flüchtige Speichereinrichtung 102 und eine nichtflüchtige Speichereinrichtung 103.
Der Prozessor 101 steuert die gesamte Informationsverarbeitungseinrichtung 100. Der Prozessor 101 ist zum Beispiel eine zentrale Verarbeitungseinheit (CPU), ein feldprogrammierbares Gate-Array (FPGA) oder dergleichen. Der Prozessor 101 kann auch ein Multiprozessor sein. Die Informationsverarbeitungseinrichtung 100 kann ferner eine Verarbeitungsschaltung umfassen. Bei der Verarbeitungsschaltung kann es sich entweder um eine einzelne Schaltung oder um eine kombinierte Schaltung handeln.
Die flüchtige Speichereinrichtung 102 ist ein Hauptspeicher der Informationsverarbeitungseinrichtung 100. Die flüchtige Speichereinrichtung 102 ist beispielsweise ein Direktzugriffsspeicher (Random Access Memory, RAM). Die nichtflüchtige Speichereinrichtung 103 ist ein Hilfsspeicher der Informationsverarbeitungseinrichtung 100. Die nichtflüchtige Speichereinrichtung 103 ist beispielsweise ein Festplattenlaufwerk (HDD) oder ein Solid-State-Laufwerk (SSD).
Es wird erneut auf 1 Bezug genommen, um die Funktionen der Informationsverarbeitungseinrichtung 100 nachfolgend zu beschreiben.
Die erste Speichereinheit 111 und die zweite Speichereinheit 112 können auch als in der flüchtigen Speichereinrichtung 102 oder in der nichtflüchtigen Speichereinrichtung 103 reservierte Speicherbereiche implementiert werden.
Die Beschaffungseinheit 120, die Lerneinheiten 130a und 130b, die Objekterfassungseinheit 140, die Berechnungseinheit 150 und die Auswahlausgabeeinheit 160 können teilweise oder vollständig von der Verarbeitungsschaltung implementiert werden. Ferner können die Beschaffungseinheit 120, die Lerneinheiten 130a und 130b, die Objekterfassungseinheit 140, die Berechnungseinheit 150 und die Auswahlausgabeeinheit 160 teilweise oder vollständig als Module eines Programms implementiert werden, das durch den Prozessor 101 ausgeführt wird. Das vom Prozessor 101 ausgeführte Programm wird beispielsweise auch als Auswahlausgabeprogramm bezeichnet. Das Auswahlausgabeprogramm ist z. B. auf einem Aufzeichnungsmedium aufgezeichnet worden.
Die Informationsverarbeitungseinrichtung 100 erzeugt gelernte Modelle 200a und 200b. Im Folgenden wird ein Prozess beschrieben, bis die gelernten Modelle 200a und 200b erzeugt sind.
Zunächst wird die erste Speichereinheit 111 beschrieben. Die erste Speichereinheit 111 kann markierte Lerndaten speichern. Die markierten Lerndaten umfassen ein Bild, mindestens eine Region eines Objekts als Erfassungsziel im Bild und eine Markierung, die den Typ des Objekts angibt. Informationen, die die Region des Objekts und die Markierung aufweisen, werden übrigens auch als Markierungsinformationen bezeichnet. Handelt es sich bei dem Bild um ein Bild mit einer Straße, so entspricht der Typ beispielsweise einem vierrädrigen Fahrzeug, einem zweirädrigen Fahrzeug, einem Lastwagen oder ähnlichem.
Die Beschaffungseinheit 120 beschafft die markierten Lerndaten. Die Beschaffungseinheit 120 beschafft die markierten Lerndaten zum Beispiel von der ersten Speichereinheit 111. Alternativ dazu beschafft die Beschaffungseinheit 120 die markierten Lerndaten zum Beispiel von einer externen Einrichtung (z. B. einem Cloud-Server).
Die Lerneinheiten 130a und 130b erzeugen die gelernten Modelle 200a und 200b, indem sie das Lernen der Objekterfassung mit voneinander verschiedenen Verfahren unter Verwendung der markierten Lerndaten durchführen. Jedes dieser Verfahren kann zum Beispiel Faster Regions with Convolutional Neural Networks (R-CNN), You Look Only Once (YOLO), Single Shot MultiBox Detector (SSD) oder ähnliches sein. Im Übrigen kann jedes Verfahren auch als Algorithmus bezeichnet werden.
Wie oben beschrieben, werden von den Lerneinheiten 130a und 130b die gelernten Modelle 200a und 200b für die Ausführung von Objekterfassung durch voneinander verschiedene Verfahren erzeugt. Zum Beispiel ist das gelernte Modell 200a ein gelerntes Modell für die Ausführung der Objekterfassung unter Verwendung von Faster R-CNN. Zum Beispiel ist das gelernte Modell 200b ein gelerntes Modell für die Ausführung der Objekterfassung unter Verwendung von YOLO.
In diesem Beispiel werden in 1 zwei Lerneinheiten gezeigt. Die Anzahl der Lerneinheiten ist nicht auf zwei beschränkt. Es wird die gleiche Anzahl von gelernten Modellen wie Lerneinheiten erzeugt. Somit ist die Anzahl der gelernten Modelle nicht auf zwei beschränkt. Außerdem kann jedes gelernte Modell auch als Erfasser oder Erfasserinformation bezeichnet werden.
Die erzeugten gelernten Modelle 200a und 200b können in der flüchtigen Speichereinrichtung 102 oder der nichtflüchtigen Speichereinrichtung 103 oder in einer externen Einrichtung gespeichert werden.
Im Folgenden wird ein Prozess beschrieben, der von der Informationsverarbeitungseinrichtung 100 nach der Erzeugung der gelernten Modelle 200a und 200b ausgeführt wird.
Als erstes wird die zweite Speichereinheit 112 beschrieben. Die zweite Speichereinheit 112 kann eine Vielzahl von Teilen von unmarkierten Lerndaten speichern. Jedes der Vielzahl von Teilen von unmarkierten Lerndaten enthält nicht die Markierungsinformationen. Die Vielzahl von Teilen von unmarkierten Lerndaten sind eine Vielzahl von Bildern. Jedes der Vielzahl von Bildern weist ein Objekt auf. Das Objekt ist beispielsweise ein Mensch, ein Tier oder dergleichen.
Die Beschaffungseinheit 120 beschafft eine Vielzahl von Teilen von unmarkierten Lerndaten. Die Beschaffungseinheit 120 beschafft zum Beispiel die Vielzahl von Teilen von unmarkierten Lerndaten von der zweiten Speichereinheit 112. Alternativ beschafft die Beschaffungseinheit 120 zum Beispiel die Vielzahl von Teilen von unmarkierten Lerndaten von einer externen Einrichtung.
Die Beschaffungseinheit 120 beschafft die gelernten Modelle 200a und 200b. Die Beschaffungseinheit 120 beschafft die gelernten Modelle 200a und 200b beispielsweise von der flüchtigen Speichereinrichtung 102 oder der nichtflüchtigen Speichereinrichtung 103. Alternativ beschafft die Beschaffungseinheit 120 zum Beispiel die gelernten Modelle 200a und 200b von einer externen Einrichtung.
Die Objekterfassungseinheit 140 führt die Objekterfassung an jedem der Vielzahl von Teilen von unmarkierten Lerndaten unter Verwendung der gelernten Modelle 200a, 200b durch. Wenn zum Beispiel die Anzahl von Teilen von unmarkierten Lerndaten zwei beträgt, führt die Objekterfassungseinheit 140 die Objekterfassung an ersten unmarkierten Lerndaten als einem der Vielzahl von unmarkierten Lerndaten durch, indem die gelernten Modelle 200a und 200b verwendet werden. Mit anderen Worten, die Objekterfassungseinheit 140 führt die Objekterfassung durch, indem sie die ersten unmarkierten Lerndaten und die gelernten Modelle 200a und 200b verwendet. Ferner führt die Objekterfassungseinheit 140 beispielsweise die Objekterfassung an zweiten unmarkierten Lerndaten als einem der Vielzahl von Teilen unmarkierter Lerndaten unter Verwendung der gelernten Modelle 200a, 200b durch.
Wie oben, führt die Objekterfassungseinheit 140 die Objekterfassung an jedem der Vielzahl von Teilen von unmarkierten Lerndaten unter Verwendung der gelernten Modelle 200a, 200b durch.
Im Folgenden wird zunächst ein Fall beschrieben, in dem die Objekterfassung unter Verwendung eines Teils unmarkierter Lerndaten und der gelernten Modelle 200a und 200b durchgeführt wird. Nachfolgend wird ferner ein Verfahren zur Berechnung einer Informationsmengenauswertung beschrieben, die dem einen Teil der unmarkierten Lerndaten entspricht.
Die Objekterfassungseinheit 140 führt die Objekterfassung durch, indem der eine Teil von unmarkierten Lerndaten und die gelernten Modelle 200a und 200b verwendet werden. Die Objekterfassungseinheit 140 führt die Objekterfassung durch, indem zum Beispiel die unmarkierten Lerndaten und das gelernte Modell 200a verwendet werden. Die Objekterfassungseinheit 140 führt ferner die Objekterfassung durch, indem zum Beispiel die unmarkierten Lerndaten und das gelernte Modell 200b verwendet werden. Dementsprechend wird die Objekterfassung mit voneinander verschiedenen Verfahren durchgeführt. Für jedes gelernte Modell wird ein Ergebnis der Objekterfassung ausgegeben. Das Objekterfassungsergebnis wird als D_i dargestellt. Im Übrigen ist i eine ganze Zahl von 1 bis N. Das Objekterfassungsergebnis D_i wird auch als Schlussfolgerungsmarkierung R_i bezeichnet. Die Schlussfolgerungsmarkierung R_i wird ausgedrückt als „(c, x, y, w, h)“. Der Parameter c gibt den Typ des Objekts an. Die Parameter x und y geben Koordinaten (x, y) eines Mittelpunkts einer Bildregion des Objekts an. Der Parameter w gibt die Breite des Objekts an. Der Parameter h gibt die Höhe des Objekts an.
Die Berechnungseinheit 150 berechnet unter Verwendung des Objekterfassungsergebnisses D_i die Informationsmengenauswertung. Die Informationsmengenauswertung gibt den Wert der unmarkierten Lerndaten an. Ein größerer Wert für die Informationsmengenauswertung gibt also an, dass die unmarkierten Lerndaten einen größeren Wert als Lerndaten aufweisen. Mit anderen Worten, die Informationsmengenauswertung variiert stark im Ergebnis des Typs in einer Bildregion mit hoher Ähnlichkeit. Alternativ dazu variiert die Informationsmengenauswertung in der Bildregion im Ergebnis desselben Typs stark.
Nachfolgend wird ein Verfahren zur Berechnung der Informationsmengenauswertung beschrieben. Bei der Berechnung der Informationsmengenauswertung wird die mean Average Precision (mAP, dt. etwa mittlere durchschnittliche Genauigkeit) @0,5 als Index für die Erfassungsgenauigkeit unter Berücksichtigung der Ähnlichkeit der Bildregion jedes Objekts und des Unterschieds im Typergebnis jedes Objekts verwendet. „0,5“ steht übrigens für einen Schwellenwert für Intersection over Union (IoU), auf den später noch eingegangen wird.
Wenn es zwei gelernte Modelle gibt, wird die Informationsmengenauswertung mit Hilfe von Ausdruck (1) berechnet. Hier wird das von dem gelernten Modell 200a ausgegebene Objekterfassungsergebnis als D₁ dargestellt. Das von dem gelernten Modell 200b ausgegebene Objekterfassungsergebnis wird als D₂ dargestellt.
${INFORMATIONSMENGENAUSWERTUNG}_{N = 2} = 1 - mAP@0,5 (D_{1}, D_{2})$
Darüber hinaus ist die mAP@0,5 eines der Bewertungsverfahren in der Objekterfassung, und die loU ist bekannt als ein Konzept, das für die Bewertung verwendet wird. Wenn die Objekterfassung unter Verwendung von markierten Lerndaten durchgeführt wurde, wird die IoU mit Hilfe von Ausdruck (2) dargestellt. Das Zeichen R_gt steht für eine Echter-Wert-Region. Das Zeichen R_d steht für eine Erfassungsregion. Das Zeichen A steht für einen Bereich.
$IoU (R_{gt}, R_{d}) = \frac{A (R_{gt} \cap R_{d})}{A (R_{gt} \cup R_{d})}$
Ein konkretes Beispiel für die Echter-Wert-Region R_gt und die Erfassungsregion R_d wird im Folgenden beschrieben.
3(A) und 3(B) sind Diagramme zur Erläuterung von loU in der ersten Ausführungsform. 3(A) zeigt ein konkretes Beispiel für die Echter-Wert-Region R_gt und die Erfassungsregion R_d. 3(A) zeigt ferner wie sehr sich die Echter-Wert-Region R_gt und die Erfassungsregion R_d überlappen.
Hier enthalten die unmarkierten Lerndaten keine Markierung. Es gibt also keinen wahren Wert. Dementsprechend kann die loU nicht direkt durch den Ausdruck (2) dargestellt werden. Daher wird die loU wie folgt dargestellt: Eine Region, die durch ein Objekterfassungsergebnis repräsentiert wird, wird als Echter-Wert-Region definiert. Dann wird eine Region, die durch ein anderes Objekterfassungsergebnis repräsentiert wird, als die Erfassungsregion definiert. In 3(B) ist beispielsweise eine Erfassungsregion R_gt1, die durch das Objekterfassungsergebnis D₁ dargestellt wird, als Echter-Wert-Region definiert. Eine Erfassungsregion R_d1, die durch das Objekterfassungsergebnis D₂ dargestellt wird, wird als die Erfassungsregion definiert. Wenn das Beispiel von 3(B) verwendet wird, wird die loU mit Hilfe von Ausdruck (3) dargestellt.
$IoU (R_{gt1}, R_{d1}) = \frac{A (R_{gt1} \cap R_{d1})}{A (R_{gt1} \cup R_{d1})}$
Richtig Positiv (engl.: True Positive, TP), Falsch Positiv (engl.: False Positive, FP) und Falsch Negativ (False Negative, FN) werden unter Verwendung der loU berechnet.
Übrigens, wenn die loU der Erfassungsregion R_gt1 in Bezug auf die Erfassungsregion R_d1 größer als oder gleich wie ein Schwellenwert ist, gibt das TP an, dass das gelernte Modell ein Objekt erfasst hat, das im Bild der unmarkierten Lerndaten existiert. Mit anderen Worten: Es gibt an, dass das gelernte Modell einen echten Wert erfasst hat, da die Erfassungsregion R_d1 und die Erfassungsregion R_gt1 im Wesentlichen an der gleichen Position untergebracht sind.
Wenn die IoU der Erfassungsregion R_gt1 in Bezug auf die Erfassungsregion R_d1 kleiner als der Schwellenwert ist, gibt das FP an, dass das gelernte Modell ein Objekt erfasst hat, das im Bild der unmarkierten Lerndaten nicht existiert. Mit anderen Worten, gibt es an, dass das gelernte Modell eine falsche Erfassung durchgeführt hat, da die Erfassungsregion R_gt1 an einer abweichenden Position untergebracht ist.
Wenn die IoU der Erfassungsregion R_d1 in Bezug auf die Erfassungsregion R_d1 kleiner als der Schwellenwert ist, gibt das FN an, dass das gelernte Modell nicht ein Objekt erfasst hat, das im Bild der unmarkierten Lerndaten existiert. Mit anderen Worten, gibt es an, dass das gelernte Modell nicht die Erfassung durchgeführt hat, da die Erfassungsregion R_gt1 an einer abweichenden Position untergebracht ist.
Außerdem wird die Precision durch die Verwendung von TP und FP dargestellt. Konkret wird die Precision mit Hilfe von Ausdruck (4) dargestellt. Die Precision gibt übrigens ein Verhältnis der tatsächlich positiven Daten aus Daten an, die als positiv eingeschätzt wurden. Die Precision wird übrigens auch als ein Precision-Verhältnis bezeichnet.
$Precision = \frac{TP}{TP + FP}$
Recall wird durch die Verwendung von TP und FP dargestellt. Konkret wird der Recall mit Hilfe von Ausdruck (5) dargestellt. Der Recall gibt übrigens ein Verhältnis von Daten an, die aus Daten, die tatsächlich positiv sind, positiv eingeschätzt wurden. Der Recall wird übrigens auch als Recall-Verhältnis bezeichnet.
$Recall = \frac{TP}{TP + FN}$
Ein Beispiel für eine Beziehung zwischen Precision, Recall und AP wird im Folgenden dargestellt.
4 ist eine grafische Darstellung, die die Beziehung zwischen Precision, Recall und AP in der ersten Ausführungsform zeigt. Die vertikale Achse stellt die Precision dar. Die horizontale Achse stellt den Recall dar. Die Average Precision (AP, dt. durchschnittliche Genauigkeit) wird anhand der Precision und des Recalls berechnet. Konkret wird der Bereich „AP“ in 4 als AP berechnet.
Wenn beispielsweise eine Vielzahl von Objekten in dem Bild der unmarkierten Lerndaten vorhanden ist, berechnet die Berechnungseinheit 150 das TP, das FP und das FN für jedes der Vielzahl von Objekten. Die Berechnungseinheit 150 berechnet die Precision und den Recall jedes der Vielzahl von Objekten unter Verwendung des Ausdrucks (4) und des Ausdrucks (5). Die Berechnungseinheit 150 berechnet die AP jedes Objekts (d. h. Klasse) auf Grundlage der Precision und des Recalls jedes der Vielzahl von Objekten. Wenn es sich bei der Vielzahl von Objekten zum Beispiel um eine Katze und einen Hund handelt, wird die AP „0,4“ der Katze und die AP „0,6“ des Hundes berechnet. Die Berechnungseinheit 150 berechnet den Durchschnitt der APs der Objekte als mAP. Wenn beispielsweise die AP der Katze „0,4“ und die AP des Hundes „0,6“ beträgt, berechnet die Berechnungseinheit 150 die mAP „0,5“. Wenn im Bild der unmarkierten Lerndaten nur ein Objekt vorhanden ist, wird übrigens eine AP berechnet. Dann dient die eine AP als mAP.
Die mAP wird wie oben beschrieben berechnet. Die Berechnungseinheit 150 berechnet unter Verwendung der mAP und des Ausdrucks (1) die Informationsmengenauswertung. Konkret berechnet die Berechnungseinheit 150 die Informationsmengenauswertung durch „1 - mAP“. Die Informationsmengenauswertung wird wie oben beschrieben berechnet.
Wenn es N (d. h. 3 oder mehr) gelernte Modelle gibt, wird die Informationsmengenauswertung mit Hilfe von Ausdruck (6) berechnet. Die Berechnungseinheit 150 erzeugt nämlich eine Vielzahl von Kombinationen von zwei gelernten Modellen unter Verwendung der N gelernten Modelle, berechnet einen Wert für jede Kombination unter Verwendung des Ausdrucks (1) und berechnet die Informationsmengenauswertung, indem die Gesamtsumme der berechneten Werte durch N geteilt wird.
${INFORMATIONSMENGENAUSWERTUNG}_{N > 2} = \frac{1}{N} \sum_{i,j \in (1, N)} (1 - mAP@0,5 (D_{i}, D_{j}))$
Wie oben beschrieben, berechnet die Berechnungseinheit 150 die Informationsmengenauswertung, die dem einen Teil der unmarkierten Lerndaten entspricht. Dann führt die Informationsverarbeitungseinrichtung 100 (d.h. die Objekterfassungseinheit 140 und die Berechnungseinheit 150) denselben Prozess auch für jedes der Vielzahl von Teilen von unmarkierten Lerndaten durch. Auf diese Weise ist die Informationsverarbeitungseinrichtung 100 in der Lage, die Informationsmengenauswertung für jedes der Vielzahl von Teilen von unmarkierten Lerndaten zu erhalten. Mit anderen Worten ist die Informationsverarbeitungseinrichtung 100 in der Lage, eine Vielzahl von Informationsmengenauswertungen entsprechend der Vielzahl von Teilen von unmarkierten Lerndaten zu erhalten. Wie oben beschrieben, berechnet die Informationsverarbeitungseinrichtung 100 die Vielzahl von Informationsmengenauswertungen auf der Grundlage einer Vielzahl von Objekterfassungsergebnissen. Insbesondere berechnet die Informationsverarbeitungseinrichtung 100 die Vielzahl von Informationsmengenauswertungen durch die Verwendung der mAPs und der Vielzahl von Objekterfassungsergebnissen.
Die Auswahlausgabeeinheit 160 wählt eine vorgegebene Anzahl von Teilen unmarkierter Lerndaten aus der Vielzahl von Teilen unmarkierter Lerndaten auf der Grundlage der Vielzahl von Informationsmengenauswertungen aus. Mit anderen Worten wählt die Auswahlausgabeeinheit 160 unmarkierte Lerndaten, die einen großen Lerneffekt haben, aus der Vielzahl von Teilen unmarkierter Lerndaten aus, die der Vielzahl von Informationsmengenauswertungen entsprechen, basierend auf der Vielzahl von Informationsmengenauswertungen. Dieser Satz kann auch wie folgt ausgedrückt werden: Die Auswahlausgabeeinheit 160 wählt aus der Vielzahl von Teilen von unmarkierten Lerndaten unmarkierte Lerndaten aus, von denen erwartet wird, dass sie zum Lernen beitragen.
Ein Beispiel für das Auswahlverfahren wird im Folgenden beschrieben. In erster Linie ist die Informationsmengenauswertung ein Wert in einer Spannbreite von 0 bis 1. Wenn die Informationsmengenauswertung „0“ ist, stimmen die Erfassungsergebnisse durch die gelernten Modelle 200a und 200b im Wesentlichen miteinander überein. Daher werden unmarkierte Lerndaten, die der Informationsmengenauswertung „0“ entsprechen, als wenig nützlich angesehen, da der Grad der Notwendigkeit, die unmarkierten Lerndaten für Lerndaten zu verwenden, gering ist. Im Gegensatz dazu weichen die Erfassungsergebnisse der gelernten Modelle 200a und 200b stark voneinander ab, wenn die Informationsmengenauswertung „1“ beträgt. Unmarkierte Lerndaten, die der Informationsmengenauswertung „1“ entsprechen, können jedoch auch als ein spezielles Beispiel betrachtet werden, das extrem schwer zu erfassen ist. Daher wird davon ausgegangen, dass das Hinzufügen vieler spezieller Beispiele zu den Lerndaten in einer Phase, in der die Menge der Lerndaten gering ist, nicht zur Verbesserung der Erfassungsleistung beiträgt. Somit schließt die Auswahlausgabeeinheit 160 solche unmarkierten Lerndaten, die der Informationsmengenauswertung „0“ oder „1“ entsprechen, aus der Vielzahl von Teilen unmarkierter Lerndaten aus, die der Vielzahl der Informationsmengenauswertungen entsprechen. Nach dem Ausschluss wählt die Auswahlausgabeeinheit 160 die obersten n (n ist eine positive ganze Zahl) Teile von unmarkierten Lerndaten aus der Vielzahl von Teilen von unmarkierten Lerndaten als unmarkierte Lerndaten mit großem Lerneffekt aus.
Die Auswahlausgabeeinheit 160 gibt die ausgewählten unmarkierten Lerndaten aus. Es ist auch möglich, dass die Auswahlausgabeeinheit 160 die Objekterfassungsergebnisse als Ergebnisse der Durchführung der Objekterfassung an den ausgewählten unmarkierten Lerndaten (im Folgenden als ausgewählte Bilder bezeichnet) als die Schlussfolgerungsmarkierungen ausgibt. Beispiele für die Ausgabe der ausgewählten Bilder werden nachstehend beschrieben.
5(A) und 5(B) sind Darstellungen (Nr. 1), die Beispiele für die Ausgabe der ausgewählten Bilder zeigen. 5(A) zeigt einen Fall, in dem die ausgewählten Bilder an die flüchtige Speichereinrichtung 102 oder die nichtflüchtige Speichereinrichtung 103 ausgegeben werden. Zum Beispiel führt der Markierer die Markierung der ausgewählten Bilder unter Verwendung der Informationsverarbeitungseinrichtung 100 durch.
5(B) zeigt einen Fall, in dem die ausgewählten Bilder und die Schlussfolgerungsmarkierungen an die flüchtige Speichereinrichtung 102 oder die nichtflüchtige Speichereinrichtung 103 ausgegeben werden. Zum Beispiel führt der Markierer die Markierung der ausgewählten Bilder unter Verwendung der Informationsverarbeitungseinrichtung 100 und der Schlussfolgerungsmarkierungen durch. Außerdem wird durch die Ausgabe der Schlussfolgerungsmarkierungen die Markierungsarbeitslast des Markierers leichter.
6(A) und 6(B) sind Darstellungen (Nr. 2), die Beispiele für die Ausgabe der ausgewählten Bilder zeigen. 6(A) zeigt einen Fall, in dem die ausgewählten Bilder an ein Markierungstool ausgegeben werden. Da die ausgewählten Bilder wie oben beschrieben an das Markierungstool ausgegeben werden, wird die Arbeitslast des Markierers leichter.
6(B) zeigt einen Fall, in dem die ausgewählten Bilder und die Schlussfolgerungsmarkierungen an das Markierungstool ausgegeben werden. Der Markierer führt die Markierung der ausgewählten Bilder unter Verwendung des Markierungstools durch, während die Schlussfolgerungsmarkierungen korrigiert werden.
In diesem Fall sind die von der Auswahlausgabeeinheit 160 ausgewählten Bilder Bilder, die unter Verwendung von gelernten Modellen ausgewählt werden, die ein Objekt mit voneinander verschiedenen Verfahren erfassen. Daher eignen sich die ausgewählten Bilder nicht nur als Lerndaten, die bei der Ausführung des Lernens nach einem bestimmten Verfahren verwendet werden, sondern auch als Lerndaten, die bei der Ausführung des Lernens durch ein anderes Verfahren verwendet werden. Somit können die ausgewählten Bilder als Lerndaten mit großem Lerneffekt betrachtet werden. Gemäß der ersten Ausführungsform ist die Informationsverarbeitungseinrichtung 100 in der Lage, Lerndaten mit großem Lerneffekt auszuwählen.
Außerdem werden die Lerndaten mit großem Lerneffekt automatisch von der Informationsverarbeitungseinrichtung 100 ausgewählt. Somit ist die Informationsverarbeitungseinrichtung 100 in der Lage, Lerndaten mit großem Lerneffekt effizient auszuwählen.
Zweite Ausführungsform
Im Folgenden wird eine zweite Ausführungsform beschrieben. In der zweiten Ausführungsform werden vor allem die Merkmale beschrieben, die sich von denen der ersten Ausführungsform unterscheiden. Bei der zweiten Ausführungsform entfällt die Beschreibung von Merkmalen, die mit der ersten Ausführungsform übereinstimmen.
7 ist eine Blockdarstellung, die Funktionen einer Informationsverarbeitungseinrichtung in der zweiten Ausführungsform zeigt. Jeder Komponente in 7, die mit einer in 1 dargestellten Komponente übereinstimmt, wird dasselbe Bezugszeichen wie in 1 zugewiesen.
Die Informationsverarbeitungseinrichtung 100 lernt die gelernten Modelle 200a und 200b neu. Die Details des Neulernens werden später beschrieben.
Nachfolgend wird ein Prozess, der von der Informationsverarbeitungseinrichtung 100 ausgeführt wird, anhand eines Flussdiagramms beschrieben.
8 ist ein Flussdiagramm, das ein Beispiel für den Prozess zeigt, der durch die Informationsverarbeitungseinrichtung in der zweiten Ausführungsform ausgeführt wird.
(Schritt S11) Die Beschaffungseinheit 120 beschafft die markierten Lerndaten. Im Übrigen kann die Datenmenge der markierten Lerndaten gering sein.
Die Lerneinheiten 130a und 130b erzeugen die gelernten Modelle 200a und 200b, indem sie das Lernen der Objekterfassung mit voneinander verschiedenen Verfahren unter Verwendung der markierten Lerndaten durchführen.
(Schritt S12) Die Beschaffungseinheit 120 beschafft eine Vielzahl von Teilen von unmarkierten Lerndaten.
Die Objekterfassungseinheit 140 führt die Objekterfassung durch, indem die Vielzahl von Teilen von unmarkierten Lerndaten und die gelernten Modelle 200a und 200b verwendet werden.
(Schritt S13) Die Berechnungseinheit 150 berechnet auf der Grundlage einer Vielzahl von Objekterfassungsergebnissen eine Vielzahl von Informationsmengenauswertungen, die der Vielzahl von Teilen von unmarkierten Lerndaten entsprechen.
(Schritt S14) Die Auswahlausgabeeinheit 160 wählt aus der Vielzahl von Teilen von unmarkierten Lerndaten, die einen großen Lerneffekt haben, unmarkierte Lerndaten auf der Grundlage der Vielzahl der Informationsmengenauswertungen aus.
(Schritt ST15) Die Auswahlausgabeeinheit 160 gibt die ausgewählten unmarkierten Lerndaten (d. h. ausgewählte Bilder) aus. Zum Beispiel gibt die Auswahlausgabeeinheit 160 die ausgewählten Bilder aus, wie in 5 oder 6 dargestellt.
Hier führt der Markierer die Markierung unter Verwendung der ausgewählten Bilder durch. Durch diese Markierung werden markierte Lerndaten erzeugt. Die markierten Lerndaten umfassen die ausgewählten Bilder, mindestens eine Region eines Objekts als Erfassungsziel in den Bildern und eine Markierung, die den Typ des Objekts angibt. Die markierten Lerndaten können in der ersten Speichereinheit 111 gespeichert werden. Die Markierungsarbeiten können übrigens auch von einer externen Einrichtung ausgeführt werden.
(Schritt S16) Die Beschaffungseinheit 120 beschafft die markierten Lerndaten. Die Beschaffungseinheit 120 beschafft die markierten Lerndaten zum Beispiel von der ersten Speichereinheit 111. Alternativ dazu beschafft die Beschaffungseinheit 120 die markierten Lerndaten zum Beispiel von der externen Einrichtung.
(Schritt ST7) Die Lerneinheiten 130a und 130b lernen die gelernten Modelle 200a und 200b unter Verwendung der markierten Lerndaten erneut.
(Schritt S18) Die Informationsverarbeitungseinrichtung 100 beurteilt, ob eine Abbruchbedingung des Lernens erfüllt ist oder nicht. Die Abbruchbedingung ist übrigens z.B. in der nichtflüchtigen Speichereinrichtung 103 gespeichert worden. Wenn die Abbruchbedingung erfüllt ist, wird der Prozess beendet. Wenn die Abbruchbedingung nicht erfüllt ist, geht der Prozess zum Schritt S12 über.
Gemäß der zweiten Ausführungsform ist die Informationsverarbeitungseinrichtung 100 in der Lage, die Objekterfassungsgenauigkeit der gelernten Modelle zu erhöhen, indem das Hinzufügen von markierten Lerndaten und das Neulernen wiederholt wird.
Merkmale in den vorstehend beschriebenen Ausführungsformen können in geeigneter Weise miteinander kombiniert werden.
BESCHREIBUNG VON BEZUGSZEICHEN
100: Informationsverarbeitungseinrichtung, 101: Prozessor, 102 flüchtige Speichereinrichtung, 103: nichtflüchtige Speichereinrichtung, 111: erste Speichereinheit, 112: zweite Speichereinheit, 120: Beschaffungseinheit, 130a und 130b: Lerneinheit, 140: Objekterfassungseinheit, 150: Berechnungseinheit, 160: Auswahlausgabeeinheit, 200a, 200b: gelerntes Modell.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2017167834 [0004]

Claims

Informationsverarbeitungseinrichtung, umfassend: eine Beschaffungseinheit, die eine Vielzahl von gelernten Modellen zum Ausführen von Objekterfassung durch voneinander verschiedene Verfahren und eine Vielzahl von Teilen von unmarkierten Lerndaten als eine Vielzahl von Bildern, die ein Objekt enthalten, beschafft; eine Objekterfassungseinheit, die die Objekterfassung an jedem der Vielzahl von Teilen von unmarkierten Lerndaten unter Verwendung der Vielzahl von gelernten Modellen durchführt; eine Berechnungseinheit, die auf Grundlage einer Vielzahl von Objekterfassungsergebnissen eine Vielzahl von Informationsmengenauswertungen berechnet, die Werte der Vielzahl von Teilen von unmarkierten Lerndaten angeben; und eine Auswahlausgabeeinheit, die eine vorgegebene Anzahl von Teilen unmarkierter Lerndaten aus der Vielzahl von Teilen unmarkierter Lerndaten auf der Grundlage der Vielzahl von Informationsmengenauswertungen auswählt und die ausgewählten unmarkierten Lerndaten ausgibt.
Informationsverarbeitungseinrichtung nach Anspruch 1, wobei die Auswahlausgabeeinheit Objekterfassungsergebnisse als Ergebnisse der Durchführung der Objekterfassung an den ausgewählten unmarkierten Lerndaten als Schlussfolgerungsmarkierungen ausgibt.
Informationsverarbeitungseinrichtung nach Anspruch 1 oder 2, wobei die Berechnungseinheit die Vielzahl von Informationsmengenauswertungen unter Verwendung der mean Average Precision (dt. etwa mittlere durchschnittliche Genauigkeit) und der Vielzahl von Objekterfassungsergebnissen berechnet.
Informationsverarbeitungseinrichtung nach einem der Ansprüche 1 bis 3, ferner umfassend eine Vielzahl von Lerneinheiten, wobei die Beschaffungseinheit markierte Lerndaten einschließlich der ausgewählten unmarkierten Lerndaten beschafft, und die Vielzahl von Lerneinheiten die Vielzahl von gelernten Modellen unter Verwendung der markierten Lerndaten neu lernen.
Auswahlausgabeverfahren, das von einer Informationsverarbeitungseinrichtung durchgeführt wird, wobei das Auswahlausgabeverfahren umfasst: Beschaffen einer Vielzahl von gelernten Modellen zum Ausführen von Objekterfassung durch voneinander verschiedene Verfahren und einer Vielzahl von Teilen von unmarkierten Lerndaten als eine Vielzahl von Bildern, die ein Objekt enthalten; Durchführen der Objekterfassung an jedem der Vielzahl von Teilen von unmarkierten Lerndaten unter Verwendung der Vielzahl von gelernten Modellen; Berechnen einer Vielzahl von Informationsmengenauswertungen, die Werte der Vielzahl von Teilen von unmarkierten Lerndaten angeben, auf Grundlage einer Vielzahl von Objekterfassungsergebnissen; Auswählen einer vorgegebenen Anzahl von Teilen unmarkierter Lerndaten aus der Vielzahl von Teilen unmarkierter Lerndaten auf der Grundlage der Vielzahl von Informationsmengenauswertungen; und Ausgeben der ausgewählten unmarkierten Lerndaten.
Auswahlausgabeprogramm, das eine Informationsverarbeitungseinrichtung veranlasst, einen Prozess auszuführen des: Beschaffen einer Vielzahl von gelernten Modellen zum Ausführen von Objekterfassung durch voneinander verschiedene Verfahren und einer Vielzahl von Teilen von unmarkierten Lerndaten als eine Vielzahl von Bildern, die ein Objekt enthalten; Durchführen der Objekterfassung an jedem der Vielzahl von Teilen von unmarkierten Lerndaten unter Verwendung der Vielzahl von gelernten Modellen; Berechnen einer Vielzahl von Informationsmengenauswertungen, die Werte der Vielzahl von Teilen von unmarkierten Lerndaten angeben, auf Grundlage einer Vielzahl von Objekterfassungsergebnissen; Auswählen einer vorgegebenen Anzahl von Teilen unmarkierter Lerndaten aus der Vielzahl von Teilen unmarkierter Lerndaten auf der Grundlage der Vielzahl von Informationsmengenauswertungen; und Ausgeben der ausgewählten unmarkierten Lerndaten.