DE102021207468A1

DE102021207468A1 - Verfahren zur Kodierung einer Abfolge von Videobildern

Info

Publication number: DE102021207468A1
Application number: DE102021207468.5A
Authority: DE
Inventors: Mehdi Noroozi; Mohsen Fayyaz; Nadine Behrmann
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2023-01-19
Also published as: US20230036743A1; CN115620027A

Abstract

Verfahren (100) zur Kodierung einer vorgegebenen zeitlichen Abfolge x von Videobildern in eine maschinell auswertbare Repräsentation ξ = (ψ, ϕ) aus stationären Merkmalen ψ und nicht stationären Merkmalen ϕ, mit den Schritten:• es wird mindestens eine mit trainierbaren Parametern θ parametrisierte Funktion fθ(x̃) bereitgestellt (110), die Abfolgen x̃ von Videobildern auf Repräsentationen fθ(x̃) = ξ = (ψ, ϕ) abbildet;• aus der Abfolge x von Videobildern werden N aneinander angrenzende, nicht überlappende Kurzausschnittexs(1),…,xs(N)sowie ein Langausschnitt xl, der alle N Kurzausschnittexs(1),…,xs(N)enthält, ausgewählt (120);• mit der parametrisierten Funktion fθwerden eine Repräsentation fθ(xl) = ξl= (ψl, (ϕl) des Langausschnitts xlsowie mehrere Repräsentationenƒθ(xs(i))=ξs(i)=(ψs(i),ϕs(i))der Kurzausschnittexs(i)für i = 1,..., N ermittelt (130);• die parametrisierte Funktion fθwird mit einer vorgegebenen Kostenfunktion L dahingehend bewertet (140), inwieweit die Repräsentation ξl= (ψl, ϕl) des Langausschnitts xlim Hinblick auf mindestens eine vorgegebene Konsistenzbedingung im Einklang mit den Repräsentationenξs(i)=(ψs(i),ϕs(i))der Kurzausschnittexs(i)steht;• die Parameter θ der Funktion fθwerden optimiert (150) mit dem Ziel, dass sich die Bewertung der Kostenfunktion für künftig ermittelte Repräsentationen fθ(xl) = (ξl= (ψ, ϕl) undƒθ(xs(i))=ξs(i)=(ψs(i),ϕs(i))voraussichtlich verbessert;• mit der durch die fertig optimierten Parametern θ* parametrisierten Funktionƒθ∗wird die vorgegebene zeitliche Abfolge x von Videobildern auf die gesuchte Repräsentationƒθ∗(x)=ξ=(ψ,ϕ)abgebildet (160).

Description

Die vorliegende Erfindung betrifft die Kodierung einer Abfolge von Videobildern in eine Repräsentation, die die nachgeschaltete maschinelle Auswertung erleichtert.
Stand der Technik
Beim Führen von Fahrzeugen im Straßenverkehr sind Beobachtungen des Fahrzeugumfelds eine wichtige Informationsquelle. Insbesondere das dynamische Verhalten anderer Verkehrsteilnehmer wird häufig aus einer Sequenz von Videobildern ausgewertet.
Die DE 10 2018 209 388 A1 offenbart ein Verfahren, mit dem aus Videobildern eine Region im Umfeld eines Fahrzeugs ermittelt werden kann, in der eine für die Fahrt und/oder Sicherheit dieses Fahrzeugs relevante Situation vorliegt.
Offenbarung der Erfindung
Im Rahmen der Erfindung wurde ein Verfahren zur Kodierung einer vorgegebenen zeitlichen Abfolge x von Videobildern in eine Repräsentation ξ = (ψ, ϕ) aus stationären Merkmalen ψ und nicht stationären Merkmalen ϕ entwickelt. Eine derartige Repräsentation ist in Bezug auf viele nachgeschaltete Aufgaben maschinell weiter auswertbar. Die Verarbeitung der Abfolge x von Videobildern zu der Repräsentation ξ = (ψ, ϕ) ist somit ein Stück weit analog zur Verarbeitung von kohlenstoffhaltigen und wasserstoffhaltigen Chemierohstoffen zu einem Synthesegas, das wiederum als universeller Grundstoff zur Herstellung einer Vielzahl von Produkten genutzt werden kann.
Im Rahmen des Verfahrens wird mindestens eine mit trainierbaren Parametern θ parametrisierte Funktion f_θ (x̃) bereitgestellt, die Abfolgen x̃ von Videobildern auf Repräsentationen f_θ (x̃) = ξ = (ψ, ϕ) abbildet. Diese Parameter θ werden anhand der vorgegebenen zeitlichen Abfolge x von Videobildern selbstüberwacht trainiert. Wenn die Parameter θ auf ihre endgültigen Werte θ* optimiert sind, liegt hiermit auch die Funktion fθ* fest, mit der die vorgegebene zeitliche Abfolge x von Videobildern auf die gesuchte Repräsentation $ƒ_{θ} * (x) = ξ = (ψ, ϕ)$
abgebildet wird.
Das selbstüberwachte Training beginnt damit, dass aus der Abfolge x von Videobildern N aneinander angrenzende, nicht überlappende Kurzausschnitte $x_{s}^{(1)}, \dots, x_{s}^{(N)}$
sowie ein Langausschnitt x_l, der alle N Kurzausschnitte $x_{s}^{(1)}, \dots, x_{s}^{(N)}$
enthält, ausgewählt werden. Mit der parametrisierten Funktion f_θ, deren Verhalten durch den aktuellen Zustand der Parameter θ charakterisiert ist, werden eine Repräsentation f_θ (x_l) = (ξ_l = (ψ_l, (ϕ_l) des Langausschnitts x_l sowie mehrere Repräsentationen $ƒ_{θ} (x_{s}^{(i)}) = ξ_{s}^{(i)} = (ψ_{s}^{(i)}, ϕ_{s}^{(i)})$
der Kurzausschnitte $x_{s}^{(i)}$
für i = 1, ..., N ermittelt. Die Parameter θ können beispielsweise zu Beginn des Trainings zufällig initialisiert werden und verändern sich dann im Laufe der Optimierung.
Die parametrisierte Funktion f_θ wird mit einer vorgegebenen Kostenfunktion L dahingehend bewertet, inwieweit die Repräsentation (ξ_l = (ψ_l, (ϕ_l) des Langausschnitts x_l im Hinblick auf mindestens eine vorgegebene Konsistenzbedingung im Einklang mit den Repräsentationen $ξ_{s}^{(i)} = (ψ_{s}^{(i)}, ϕ_{s}^{(i)})$
der Kurzausschnitte $x_{s}^{(i)}$
steht. Die selbstüberwachte Optimierung der Parameter θ ist auf das Ziel gerichtet, dass sich die Bewertung der Kostenfunktion für künftig ermittelte Repräsentationen f_θ(x_l) = (ξ_l = (ψ_l, ϕ_l) und $ƒ_{θ} = (x_{s}^{(i)}) = ξ_{s}^{(i)} = (ψ_{s}^{(i)}, ϕ_{s}^{(i)})$

voraussichtlich verbessert.
Der selbstüberwachte Charakter dieser Optimierung liegt darin, dass lediglich die mindestens eine Konsistenzbedingung zwischen der Repräsentation (ξ_l des Langausschnitts x_l einerseits und den Repräsentationen $ξ_{s}^{(i)}$
der Kurzausschnitte $x_{s}^{(i)}$
andererseits ausgenutzt wird, welche wiederum beide aus der gleichen vorgegebenen Abfolge x von Videobildern ermittelt werden. Es ist keine aus einer externen Quelle zugeführte „ground truth“ erforderlich, die beispielsweise Lern-Abfolgen von Videobildern mit Soll-Repräsentationen „labelt“, auf die die Funktion f_θ(x̃) diese Lern-Abfolgen idealerweise abbilden sollte. Zum einen erfordert ein solches Labeln in der Regel manuelle Zuarbeit und ist daher teuer. Zum anderen stellt sich bei einem derartigen überwachten Training die Frage, inwieweit das an einer Abfolge von Videobildern absolvierte Training auch auf Abfolgen von Videobildern übertragbar ist.
Im Folgenden sind einige Beispiele für Konsistenzbedingungen sowie Beiträgen zur Kostenfunktion L, in denen sich diese Konsistenzbedingungen manifestieren können, angegeben. Diese Konsistenzbedingungen enthalten jeweils Ähnlichkeitsvergleiche zwischen Merkmalen des Langausschnitts x_l einerseits und Merkmalen der Kurzausschnitte $x_{s}^{(i)}$
für i = 1, ...,N andererseits.
Für diese Ähnlichkeitsvergleiche wird ein Ähnlichkeitsmaß benötigt, das zwei Merkmale z₁ und z₂ auf einen Zahlenwert für die Ähnlichkeit abbildet. Ein Beispiel für ein solches Ähnlichkeitsmaß ist die Kosinusähnlichkeit ${sim}_{h} (z_{1}, z_{2}) = \frac{1}{τ} \frac{h {(z_{1})}^{T} h (z_{2})}{‖ h (z_{1}) ‖ ‖ h (z_{2}) ‖} .$
Hierin ist h eine vorgegebene Transformation, und τ ist ein Temperaturparameter für die Skalierung. Die Transformation h kann insbesondere beispielsweise eine gelernte Transformation sein.
Die von der Kostenfunktion L gemessene Ähnlichkeit kann hierbei insbesondere jeweils ins Verhältnis zu Ähnlichkeiten gesetzt werden, die ein Vergleich der jeweiligen Merkmale $ψ_{s}^{(i)}$
bzw. $g (ϕ_{s}^{(1)}, \dots, ϕ_{s}^{(N)})$
der Kurzausschnitte $x_{s}^{(i)}$
für i = 1, ...,N einerseits mit Merkmalen ψ̅_l bzw. ϕ̅_l einer zufällig generierten Abfolge x̅_l von Videobildern liefert. Die letztere Ähnlichkeit sollte idealerweise Null sein, ist es jedoch in der Praxis nicht. Die Messung des Verhältnisses durch die Kostenfunktion ist ein Stück weit zur Messung eines Signal-Rausch-Abstandes, statt lediglich einer Signalstärke, in der Nachrichtentechnik.
Aus einer zufällig generierten Abfolge x̅_l von Videobildern erzeugt die parametrisierte Funktion f_θ eine Repräsentation ξ_neg = (ψ_neg, (ϕ_neg). Die für eine vorgegebene Menge zufällig generierter Abfolgen x̅_l erhaltenen Repräsentationen ξ_neg lassen sich in einer Menge N zusammenfassen, wobei N_ψ die Menge aller stationären Merkmale ψ_neg und N_ϕ die Menge aller nicht stationären Merkmale ϕ_neg der Repräsentationen ξ_neg sind.
In einer besonders vorteilhaften Ausgestaltung beinhaltet die mindestens eine Konsistenzbedingung, dass die stationären Merkmale ψ_l des Langausschnitts x_l ähnlich zu den stationären Merkmalen $ψ_{s}^{(i)}$
der Kurzausschnitte $x_{s}^{(i)}$
für i = 1, ..., N sind. Wenn es sich tatsächlich um stationäre Merkmale handelt, dann müssen diese sowohl auf der Zeitskala der Kurzausschnitte $x_{s}^{(i)}$
als auch auf der Zeitskala des Langausschnitts x_l stationär bleiben. Diese Konsistenzbedingung kann beisoielsweise einen Beitrag $L_{s} = - log \frac{exp ({sim}_{h s} (ψ_{s}^{(i)}, ψ_{i}))}{Σ_{{\bar{ψ}}_{l} \in N_{ψ} \cup {ψ_{l}}} exp ({sim}_{h s} (ψ_{s}^{(i)}, {\bar{ψ}}_{i}))}$
zur Kostenfunktion L beisteuern. Hierbei ist in dem Ähnlichkeitsmaß sim_hs h_s eine gelernte Transformation h, die speziell für die Untersuchung der stationären Merkmale verwendet wird. $ψ_{s}^{(i)}$
ist ein stationäres Merkmal eines beliebigen zufällig ausgewählten Kurzausschnitts $x_{s}^{(i)}$
In einer weiteren besonders vorteilhaften Ausgestaltung beinhaltet die mindestens eine Konsistenzbedingung, dass die nicht stationären Merkmale ϕ_l des Langausschnitts x_l ähnlich zu einer mit einer Aggregationsfunktion g gebildeten Aggregation $g (ϕ_{s}^{(1)}, \dots, ϕ_{s}^{(N)})$
der nicht stationären Merkmale $ϕ_{s}^{(1)}, \dots, ϕ_{s}^{(N)}$
der Kurzausschnitte $x_{s}^{(1)}, \dots, x_{s}^{(N)}$
sind. Das Ergebnis der durch die nicht stationären Merkmale verursachten Änderungen im Videobild hängt nicht davon ab, ob die Abfolge der Videobilder in einem Zug abgespielt oder nach jedem Kurzausschnitt $x_{s}^{(i)}$
jeweils pausiert wird. Diese Konsistenzbedingung kann beispielsweise einen Beitrag $L_{n} = - log \frac{exp ({sim}_{h_{n}} (ϕ_{g}, ϕ_{i}))}{Σ_{{\bar{ϕ}}_{l} \in N_{ϕ} \cup {ϕ_{l}}} exp ({sim}_{h_{n}} (ϕ_{g}, {\bar{ϕ}}_{i}))}$
zur Kostenfunktion L beisteuern. Hierin ist $ϕ_{g} = g (ϕ_{s}^{(1)}, \dots, ϕ_{s}^{(N)})$
eine aggregierte Version der nicht stationären Merkmale. In dem Ähnlichkeitsmaß sim_hn ist h_n eine gelernte Transformation h, die speziell für die Untersuchung der nicht stationären Merkmale verwendet wird.
Die Aggregationsfunktion g kann insbesondere beispielsweise

• eine Summierung, und/oder
• eine lineare Abbildung, und/oder
• eine Abbildung durch ein mehrschichtiges Perzeptron, MLP, und/oder
• eine Abbildung durch ein rekurrentes neuronales Netzwerk, RNN, beinhalten.

In einer weiteren besonders vorteilhaften Ausgestaltung misst die Kostenfunktion L zusätzlich die Ähnlichkeit zwischen der Repräsentation ξ_l des Langausschnitts x_l einerseits und der hierzu korrespondierenden Repräsentation ξ̂_l für eine semantisch inhaltsgleiche Abwandlung x̂_l des Langausschnitts x_l. Dies kann beispielsweise in einem Beitrag $L_{i} = - log \frac{exp ({sim}_{h_{i}} (ξ_{l}, {\hat{ξ}}_{l}))}{Σ_{{\bar{ξ}}_{l} \in N \cup {{\hat{ξ}}_{l}}} exp ({sim}_{h_{i}} (ξ_{l}, {\bar{ξ}}_{l}))}$
zur Kostenfunktion L quantifiziert werden. Dieser Beitrag erfüllt die Funktion des üblichen kontrastiven Lernens in Bezug auf Bilder oder Videos. Die semantisch inhaltsgleichen Abwandlung x̂_l des Langausschnitts x_l entsprechen Positivbeispielen dessen, was als ähnlich zu der der Repräsentation ξ_l des Langausschnitts x_l gewertet werden sollte. Die für zufällig generierte Abfolgen x̅_l erhaltenen Repräsentationen ξ_l hingegen entsprechen Negativbeispiele dessen, was als nicht ähnlich zu der der Repräsentation ξ_l des Langausschnitts x_l gewertet werden sollte. In dem Ähnlichkeitsmaß sim_hi ist h_i eine gelernte Transformation h, die speziell für die den Vergleich mit der semantisch inhaltsgleichen Abwandlung x̂_l des Langausschnitts x_l verwendet wird.
Die semantisch inhaltsgleiche Abwandlung x̂_l kann insbesondere beispielsweise durch

• Auswahl eines zufälligen Bildausschnitts und Zurückvergrößern auf die Originalgröße, und/oder
• Spiegelung, und/oder
• Farbveränderung

_l

Wie zuvor erläutert, ist die selbstüberwacht gelernte Repräsentation $ƒ_{θ} * (x) = ξ = (ψ, ϕ)$

das Ausgangsmaterial für viele weitere Auswertungen der zeitlichen Abfolge x von Videobildern. In einer besonders vorteilhaften Ausgestaltung wird die Erkennung mindestens einer Aktion, die die zeitliche Abfolge x von Videobildern zeigt, aus der Repräsentation $ƒ_{θ} * (x) = ξ = (ψ, ϕ)$
ausgewertet. Alternativ oder auch in Kombination hierzu können beispielsweise unterschiedliche Aktionen, die die zeitliche Abfolge x von Videobildern zeigt, voneinander abgegrenzt werden. Hiermit können beispielsweise große Mengen Videomaterial automatisiert in Ausschnitte zerlegt werden, die bestimmte Aktionen zeigen. Wenn beispielsweise ein Film zusammengestellt werden soll, der bestimmte Aktionen zeigt, kann auf diese Weise automatisiert nach geeignetem Ausgangsmaterial gesucht werden. Gegenüber einer manuellen Suche kann dies in erheblichem Umfang Arbeitszeit einsparen.
In einer weiteren vorteilhaften Ausgestaltung wird anhand der Repräsentation $ƒ_{θ} * (x) = ξ = (ψ, ϕ)$
eine zu der vorgegebenen zeitlichen Abfolge x von Videobildern ähnliche Abfolge x* von Videobildern aus einer Datenbank ermittelt. Diese Suche arbeitet losgelöst von einfachen Features der Bilder, die in der Abfolge x enthalten sind, auf der Ebene der in der Abfolge x sichtbaren Aktionen. Auch diese Suche kann beispielsweise beim Zusammenstellen eines Videos viel Arbeitszeit für die manuelle Suche einsparen. Weiterhin können zu einer vorgegebenen Abfolge x von Videobildern ähnliche Abfolgen x* beispielsweise genutzt werden, um einen Trainingsdatensatz für einen Klassifikator oder eine andere Machine Learning-Anwendung zu vergrößern.
In einer weiteren vorteilhaften Ausgestaltung wird aus der Repräsentation $ƒ_{θ} * (x) = ξ = (ψ, ϕ),$
und/oder aus einem hieraus ausgewerteten Verarbeitungsprodukt, ein Ansteuersignal ermittelt. Ein Fahrzeug, ein System für die Qualitätskontrolle von Produkten, und/oder ein System für die Überwachung von Bereichen, mit diesem Ansteuersignal angesteuert. Wie zuvor erläutert, erleichtert die Verarbeitung der ursprünglichen Abfolge x von Videobildern zu der Repräsentation $ƒ_{θ} * (x) = ξ = (ψ, ϕ)$
die nachgeschaltete Verarbeitung. Daher ist die Wahrscheinlichkeit erhöht, dass die durch das Ansteuersignal am jeweils angesteuerten technischen System ausgelöste Reaktion der durch die Abfolge x von Videobildern repräsentierten Situation angemessen ist.
Das Verfahren kann insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebene Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Figurenliste
Es zeigt:

1 Ausführungsbeispiel des Verfahrens 100 zur Kodierung einer Abfolge x von Videobildern in eine maschinell auswertbare Repräsentation ξ = (ψ, ϕ);
2 Veranschaulichung des selbstüberwachten Lernens am Beispiel einer Szene 10 in einem chemischen Labor.

1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zur Kodierung einer Abfolge x von Videobildern in eine maschinell auswertbare Repräsentation ξ = (ψ, ϕ).
In Schritt 110 wird mindestens eine mit trainierbaren Parametern θ parametrisierte Funktion f_ϕ (x̃) bereitgestellt, die Abfolgen x̃ von Videobildern auf Repräsentationen f_ϕ (x̃) = ξ = (ψ, ϕ) abbildet.
In Schritt 120 werden aus der vorgegebenen Abfolge x von Videobildern werden N aneinander angrenzende, nicht überlappende Kurzausschnitte $x_{s}^{(1)}, \dots, x_{s}^{(N)}$
sowie ein Langausschnitt x_l, der alle N Kurzausschnitte $x_{s}^{(1)}, \dots, x_{s}^{(N)}$
enthält, ausgewählt. Hierbei kann insbesondere beispielsweise der Langausschnitt x_l der vollständigen Abfolge x von Videobildern entsprechen.
In Schritt 130 werden mit der parametrisierten Funktion f_θ eine Repräsentation f_θ (x_l) = (ξ_l = (ψ_l, (ϕ_l) des Langausschnitts x_l sowie mehrere Repräsentationen $ƒ_{θ} = (x_{s}^{(i)}) = ξ_{s}^{(i)} = (ψ_{s}^{(i)}, ϕ_{s}^{(i)})$
der Kurzausschnitte $x_{s}^{(i)}$
für i = 1, ..., N ermittelt. Wenn es mehrere solche parametrisierten Funktionen f_θ gibt, können der Langausschnitt x_l sowie verschiedene Kurzausschnitte $x_{s}^{(i)}$
auch mit verschiedenen Funktionen f_θ bearbeitet werden.
In Schritt 140 wird die parametrisierte Funktion f_θ mit einer vorgegebenen Kostenfunktion L dahingehend bewertet, inwieweit die Repräsentation ξ_l = (ψ_l, ϕ_l) des Langausschnitts x_l im Hinblick auf mindestens eine vorgegebene Konsistenzbedingung im Einklang mit den Repräsentationen $ξ_{s}^{(i)} = (ψ_{s}^{(i)}, ϕ_{s}^{(i)})$
der Kurzausschnitte $x_{s}^{(i)}$
steht.
Hierbei kann insbesondere beispielsweise gemäß Block 141 die mindestens eine Konsistenzbedingung beinhalten, dass die stationären Merkmale Ψ_l des Langausschnitts x_l ähnlich zu den stationären Merkmalen $ψ_{s}^{(i)}$
der Kurzausschnitte $x_{s}^{(i)}$
für i = 1,...,N sind.
Gemäß Block 142 kann die mindestens eine Konsistenzbedingung beispielsweise beinhalten, dass die nicht stationären Merkmale ϕ_l des Langausschnitts x_l ähnlich zu einer mit einer Aggregationsfunktion g gebildeten Aggregation $g (ϕ_{s}^{(1)}, \dots, ϕ_{s}^{(N)})$
der nicht stationären Merkmale $ϕ_{s}^{(1)}, \dots, ϕ_{s}^{(N)}$
der Kurzausschnitte $x_{s}^{(1)}, \dots, x_{s}^{(N)}$
sind. Als Aggregationsfunktion gkann hierbei gemäß Block 142a insbesondere beispielsweise

• eine Summierung, und/oder
• eine lineare Abbildung, und/oder
• eine Abbildung durch ein mehrschichtiges Perzeptron, MLP, und/oder
• eine Abbildung durch ein rekurrentes neuronales Netzwerk, RNN,

Gemäß Block 143 kann die Kostenfunktion L beispielsweise zusätzlich die Ähnlichkeit zwischen der Repräsentation ξ_l des Langausschnitts x_l einerseits und der hierzu korrespondierenden Repräsentation ξ_l für eine semantisch inhaltsgleiche Abwandlung x̂_l des Langausschnitts x_l messen. Hierbei kann gemäß Block 143a die semantisch inhaltsgleiche Abwandlung x̂_l insbesondere beispielsweise durch

_l

Gemäß Block 144 kann eine durch die Kostenfunktion L gemessene Ähnlichkeit jeweils ins Verhältnis zu Ähnlichkeiten gesetzt werden, die ein Vergleich der jeweiligen Merkmale $ψ_{s}^{(i)}$
bzw. $g (ϕ_{s}^{(1)}, \dots, ϕ_{s}^{(N)})$
der Kurzausschnitte $x_{s}^{(i)}$
für i = 1, ...,N einerseits mit Merkmalen ψ̅_l bzw. ϕ̅_l einer zufällig generierten Abfolge x̅_l von Videobildern liefert.
Gemäß Block 145 kann mindestens eine Ähnlichkeit zwischen Merkmalen z₁ und z₂ mit einer Kosinusähnlichkeit gemessen werden.
In Schritt 150 werden die Parameter θ der Funktion f_θ optimiert mit dem Ziel, dass sich die Bewertung der Kostenfunktion für künftig ermittelte Repräsentationen f_θ(x_l) = ξ_l = (ψ_,ϕ_l) und $ƒ_{θ} = (x_{s}^{(i)}) = ξ_{s}^{(i)} = (ψ_{s}^{(i)}, ϕ_{s}^{(i)})$
voraussichtlich verbessert.
In Schritt 160 wird mit der durch die fertig optimierten Parametern θ* parametrisierten Funktion $ƒ_{θ} *$
die vorgegebene zeitliche Abfolge x von Videobildern auf die gesuchte Repräsentation $ƒ_{θ} * (x) = ξ = (ψ, ϕ)$
abgebildet. Wie zuvor erläutert, lässt sich diese Repräsentation $ƒ_{θ} * (x) = ξ = (ψ, ϕ)$
analog zu einem Synthesegas in der Chemie zur Weiterverarbeitung in eine Vielzahl weiterer für die jeweilige Anwendung relevanter Resultate nutzen.
In Schritt 170 wird aus der Repräsentation $ƒ_{θ} * (x) = ξ = (ψ, ϕ)$
die Erkennung mindestens einer Aktion A, die die zeitliche Abfolge x von Videobildern zeigt, ausgewertet.
In Schritt 175 werden anhand von Änderungen der Repräsentation $ƒ_{θ} * (x) = ξ = (ψ, ϕ)$

unterschiedliche Aktionen A, B, C, die die zeitliche Abfolge x von Videobildern zeigt, voneinander abgegrenzt.
In Schritt 180 wird anhand der Repräsentation $ƒ_{θ} * (x) = ξ = (ψ, ϕ)$
eine zu der vorgegebenen zeitlichen Abfolge x von Videobildern ähnliche Abfolge x* von Videobildern aus einer Datenbank ermittelt.
In Schritt 190 wird aus der Repräsentation $ƒ_{θ} * (x) = ξ = (ψ, ϕ),$
und/oder aus einem hieraus ausgewerteten Verarbeitungsprodukt, ein Ansteuersignal 190a ermittelt.
In Schritt 195 wird ein Fahrzeug 50, ein System 60 für die Qualitätskontrolle von Produkten, und/oder ein System 70 für die Überwachung von Bereichen, mit diesem Ansteuersignal 190a angesteuert.
2 verdeutlicht das zuvor beschriebene selbstüberwachte Lernen am Beispiel einer Szene 10 in einem chemischen Labor.
Links in 2 ist die komplette zeitliche Abfolge x von Videobildern gezeichnet, die hier auch dem Langausschnitt x_l entspricht. Rechts in 2 sind drei Kurzausschnitte $x_{s}^{(1)}, x_{s}^{(2)}, x_{s}^{(3)}$
gezeichnet, in die die zeitliche Abfolge x zerlegt wurde.
Die Szene 10 umfasst das Einfüllen zweier Substanzen 11a, 12a aus Reagenzgläsern 11, 12 in ein Becherglas 13 und die anschließende Reaktion der Substanzen 11a, 12a zu einem Produkt 14. Zu Beginn der Szene 10 wird das Reagenzglas 11 aufgenommen und sein Inhalt 11a in das Becherglas 13 gefüllt. Dann wird das leere Reagenzglas 11 wieder hingestellt. Als Nächstes wird das Reagenzglas 12 aufgenommen und sein Inhalt 12a ebenfalls in das Becherglas 13 gefüllt, wo er sich zunächst oberhalb der dort bereits befindlichen Substanz 11a als separate Schicht lagert. Das leere Reagenzglas 12 wird wieder hingestellt, und die zwei Substanzen 11a und 12a durchmischen sich im Becherglas 13, um zum Produkt 14 zu reagieren.
Der stationäre Anteil s dieser Szene 10 ist, dass es überhaupt eine Laborszene mit zwei Reagenzgläsern 11 und 12 sowie einem Becherglas 13 gibt. Der nichtstationäre Anteil n besteht darin, dass die Reagenzgläser 11 und 12 aufgenommen, ihr jeweiliger Inhalt 11a bzw. 12a in das Becherglas 13 gefüllt wird und im Becherglas 13 die Reaktion zum Produkt 14 stattfindet.
Der Kurzausschnitt $x_{s}^{(1)}$
umfasst den Zeitraum, in dem das erste Reagenzglas 11 aufgenommen, die Substanz 11a in das Becherglas 13 gefüllt und das erste Reagenzglas 11 wieder hingestellt wird. Diese Handlungen repräsentieren dementsprechend den nicht stationären Anteil n des Kurzausschnitts $x_{s}^{(1)}$
Der Kurzausschnitt $x_{s}^{(2)}$
umfasst den Zeitraum, in dem das zweite Reagenzglas 12 aufgenommen, die Substanz 12a in das Becherglas 13 gefüllt und das zweite Reagenzglas 12 wieder hingestellt wird. Diese Handlungen repräsentieren dementsprechend den nicht stationären Anteil n des Kurzausschnitts $x_{s}^{(2)} .$
Der Kurzausschnitt $x_{s}^{(3)}$
umfasst den Zeitraum, in dem beide Reagenzgläser 11 und 12 an ihrem Platz stehen und innerhalb des Becherglases 13 die Reaktion der beiden Substanzen 11a und 12a zum Produkt 14 stattfindet. Diese Reaktion repräsentiert dementsprechend den nicht stationären Anteil n des Kurzausschnitts $x_{s}^{(3)} .$
Das zuvor beschriebene kontrastive Lernen belohnt es, wenn die Aggregation der nicht stationären Anteile n aller Kurzausschnitte $x_{s}^{(1)}, x_{s}^{(2)}, x_{s}^{(3)}$
mit der Aggregationsfunktion g ähnlich zum nicht stationären Anteil n des Langausschnitts x_l ist. Durch die Aufteilung des Langausschnitts x_l in Kurzausschnitte $x_{s}^{(1)}, x_{s}^{(2)}, x_{s}^{(3)}$
ändert sich schließlich nichts daran, was insgesamt im Verlauf der Szene 10 getan wird.
Ebenso belohnt es das kontrastive Lernen, wenn der stationäre Anteil s, nämlich das grundsätzliche Vorhandensein zweier Reagenzgläser 11, 12, eines Becherglases 13 und einer gewissen Menge Chemikalien 11a, 12a bzw. 14, in allen Kurzausschnitten $x_{s}^{(1)}, x_{s}^{(2)}, x_{s}^{(3)}$
dem stationären Anteil des Langausschnitts x_l entspricht.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102018209388 A1 [0003]

Claims

Verfahren (100) zur Kodierung einer vorgegebenen zeitlichen Abfolge x von Videobildern in eine maschinell auswertbare Repräsentation ξ = (ψ, ϕ) aus stationären Merkmalen ψ und nicht stationären Merkmalen ϕ, mit den Schritten: • es wird mindestens eine mit trainierbaren Parametern θ parametrisierte Funktion f_θ (x̃) bereitgestellt (110), die Abfolgen x̃ von Videobildern auf Repräsentationen f_θ (x̃) = ξ = (ψ, ϕ) abbildet; • aus der Abfolge x von Videobildern werden N aneinander angrenzende, nicht überlappende Kurzausschnitte $x_{s}^{(1)}, \dots, x_{s}^{(N)}$
sowie ein Langausschnitt x_l, der alle N Kurzausschnitte $x_{s}^{(1)}, \dots, x_{s}^{(N)}$
enthält, ausgewählt (120); • mit der parametrisierten Funktion f_θ werden eine Repräsentation f_θ(x_l) = (ξ_l = (ψ_l, (ϕ_l) des Langausschnitts x_l sowie mehrere Repräsentationen $ƒ_{θ} (x_{s}^{(i)}) = ξ_{s}^{(i)} = (ψ_{s}^{(i)}, ϕ_{s}^{(i)})$
der Kurzausschnitte $x_{s}^{(i)}$
für i = 1,...,N ermittelt (130); • die parametrisierte Funktion f_θ wird mit einer vorgegebenen Kostenfunktion L dahingehend bewertet (140), inwieweit die Repräsentation ξ_l = (ψ_l, ϕ_l) des Langausschnitts x_l im Hinblick auf mindestens eine vorgegebene Konsistenzbedingung im Einklang mit den Repräsentationen $ξ_{s}^{(i)} = (ψ_{s}^{(i)}, ϕ_{s}^{(i)})$
der Kurzausschnitte $x_{s}^{(i)}$
steht; • die Parameter θ der Funktion f_θ werden optimiert (150) mit dem Ziel, dass sich die Bewertung der Kostenfunktion für künftig ermittelte Repräsentationen f_θ (x_l) = (ξ_l = (ψ, ϕ_l) und $ƒ_{θ} (x_{s}^{(i)}) = ξ_{s}^{(i)} = (ψ_{s}^{(i)}, ϕ_{s}^{(i)})$
voraussichtlich verbessert; • mit der durch die fertig optimierten Parametern θ* parametrisierten Funktion $ƒ_{θ} *$
wird die vorgegebene zeitliche Abfolge x von Videobildern auf die gesuchte Repräsentation $ƒ_{θ} * (x) = ξ = (ψ, ϕ)$
abgebildet (160).
Verfahren (100) nach Anspruch 1, wobei die mindestens eine Konsistenzbedingung beinhaltet (141), dass die stationären Merkmale ψ_l des Langausschnitts x_l ähnlich zu den stationären Merkmalen $ψ_{s}^{(i)}$
der Kurzausschnitte $x_{s}^{(i)}$
für i = 1, ...,N sind.
Verfahren nach einem der Ansprüche 1 bis 2, wobei die mindestens eine Konsistenzbedingung beinhaltet (142), dass die nicht stationären Merkmale ϕ_l des Langausschnitts x_l ähnlich zu einer mit einer Aggregationsfunktion g gebildeten Aggregation $g (ϕ_{s}^{(1)}, \dots, ϕ_{s}^{(N)})$
der nicht stationären Merkmale $ϕ_{s}^{(1)}, \dots, ϕ_{s}^{(N)}$
der Kurzausschnitte $x_{s}^{(1)}, \dots, x_{s}^{(N)}$
sind.
Verfahren nach Anspruch 3, wobei die Aggregationsfunktion g • eine Summierung, und/oder • eine lineare Abbildung, und/oder • eine Abbildung durch ein mehrschichtiges Perzeptron, MLP, und/oder • eine Abbildung durch ein rekurrentes neuronales Netzwerk, RNN, beinhaltet (142a).
Verfahren (100) nach einem der Ansprüche 1 bis 4, wobei die Kostenfunktion L zusätzlich die Ähnlichkeit zwischen der Repräsentation ξ_l des Langausschnitts x_l einerseits und der hierzu korrespondierenden Repräsentation ξ̂_l für eine semantisch inhaltsgleiche Abwandlung x̂_l des Langausschnitts x_l misst (143).
Verfahren nach Anspruch 5, wobei die semantisch inhaltsgleiche Abwandlung x̂_l durch • Auswahl eines zufälligen Bildausschnitts und Zurückvergrößern auf die Originalgröße, und/oder • Spiegelung, und/oder • Farbveränderung aus dem Langausschnitt x_l erzeugt wird (143a).
Verfahren nach einem der Ansprüche 2 bis 6, wobei eine durch die Kostenfunktion L gemessene Ähnlichkeit jeweils ins Verhältnis zu Ähnlichkeiten gesetzt wird (144), die ein Vergleich der jeweiligen Merkmale $ψ_{s}^{(i)}$
bzw. $g (ϕ_{s}^{(1)}, \dots, ϕ_{s}^{(N)})$
der Kurzausschnitte $x_{s}^{(i)}$
für i = 1, ..., N einerseits mit Merkmalen ψ̅_l bzw. ϕ̅_l einer zufällig generierten Abfolge x̅_l von Videobildern liefert.
Verfahren nach einem der Ansprüche 2 bis 7, wobei mindestens eine Ähnlichkeit zwischen Merkmalen z₁ und z₂ mit einer Kosinusähnlichkeit der Form ${sim}_{h} (z_{1}, z_{2}) = \frac{1}{τ} \frac{h {(z_{1})}^{T} h (z_{2})}{‖ h (z_{1}) ‖ ‖ h (z_{2}) ‖}$
ermittelt wird (145), worin h eine vorgegebene Transformation und τ ein Temperaturparameter sind.
Verfahren (100) nach einem der Ansprüche 1 bis 8, wobei aus der Repräsentation $ƒ_{θ} * (x) = ξ = (ψ, ϕ)$
die Erkennung mindestens einer Aktion (A), die die zeitliche Abfolge x von Videobildern zeigt, ausgewertet wird (170).
Verfahren nach einem der Ansprüche 1 bis 9, wobei anhand der Repräsentation $ƒ_{θ} * (x) = ξ = (ψ, ϕ)$
eine zu der vorgegebenen zeitlichen Abfolge x von Videobildern ähnliche Abfolge x* von Videobildern aus einer Datenbank ermittelt wird (180).
Verfahren nach einem der Ansprüche 1 bis 10, wobei anhand von Änderungen der Repräsentation $ƒ_{θ} * (x) = ξ = (ψ, ϕ)$
unterschiedliche Aktionen (A, B, C), die die zeitliche Abfolge x von Videobildern zeigt, voneinander abgegrenzt werden (175).
Verfahren (100) nach einem der Ansprüche 1 bis 11, wobei • aus der Repräsentation $ƒ_{θ} * (x) = ξ = (ψ, ϕ),$
und/oder aus einem hieraus ausgewerteten Verarbeitungsprodukt, ein Ansteuersignal (190a) ermittelt wird (190) und • ein Fahrzeug (50), ein System (60) für die Qualitätskontrolle von Produkten, und/oder ein System (70) für die Überwachung von Bereichen, mit diesem Ansteuersignal (190a) angesteuert wird (195).
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das Verfahren (100) nach einem der Ansprüche 1 bis 12 auszuführen.
Maschinenlesbarer Datenträger und/oder Downloadprodukt mit dem Computerprogramm nach Anspruch 13.
Ein oder mehrere Computer mit dem Computerprogramm nach Anspruch 13, und/oder mit dem maschinenlesbaren Datenträger und/oder Downloadprodukt nach Anspruch 14.