DE102021207468A1 - Verfahren zur Kodierung einer Abfolge von Videobildern - Google Patents

Verfahren zur Kodierung einer Abfolge von Videobildern Download PDF

Info

Publication number
DE102021207468A1
DE102021207468A1 DE102021207468.5A DE102021207468A DE102021207468A1 DE 102021207468 A1 DE102021207468 A1 DE 102021207468A1 DE 102021207468 A DE102021207468 A DE 102021207468A DE 102021207468 A1 DE102021207468 A1 DE 102021207468A1
Authority
DE
Germany
Prior art keywords
representation
video images
function
sequence
long section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021207468.5A
Other languages
English (en)
Inventor
Mehdi Noroozi
Mohsen Fayyaz
Nadine Behrmann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102021207468.5A priority Critical patent/DE102021207468A1/de
Priority to US17/859,611 priority patent/US20230036743A1/en
Priority to CN202210820296.6A priority patent/CN115620027A/zh
Publication of DE102021207468A1 publication Critical patent/DE102021207468A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction

Abstract

Verfahren (100) zur Kodierung einer vorgegebenen zeitlichen Abfolge x von Videobildern in eine maschinell auswertbare Repräsentation ξ = (ψ, ϕ) aus stationären Merkmalen ψ und nicht stationären Merkmalen ϕ, mit den Schritten:• es wird mindestens eine mit trainierbaren Parametern θ parametrisierte Funktion fθ(x̃) bereitgestellt (110), die Abfolgen x̃ von Videobildern auf Repräsentationen fθ(x̃) = ξ = (ψ, ϕ) abbildet;• aus der Abfolge x von Videobildern werden N aneinander angrenzende, nicht überlappende Kurzausschnittexs(1),…,xs(N)sowie ein Langausschnitt xl, der alle N Kurzausschnittexs(1),…,xs(N)enthält, ausgewählt (120);• mit der parametrisierten Funktion fθwerden eine Repräsentation fθ(xl) = ξl= (ψl, (ϕl) des Langausschnitts xlsowie mehrere Repräsentationenƒθ(xs(i))=ξs(i)=(ψs(i),ϕs(i))der Kurzausschnittexs(i)für i = 1,..., N ermittelt (130);• die parametrisierte Funktion fθwird mit einer vorgegebenen Kostenfunktion L dahingehend bewertet (140), inwieweit die Repräsentation ξl= (ψl, ϕl) des Langausschnitts xlim Hinblick auf mindestens eine vorgegebene Konsistenzbedingung im Einklang mit den Repräsentationenξs(i)=(ψs(i),ϕs(i))der Kurzausschnittexs(i)steht;• die Parameter θ der Funktion fθwerden optimiert (150) mit dem Ziel, dass sich die Bewertung der Kostenfunktion für künftig ermittelte Repräsentationen fθ(xl) = (ξl= (ψ, ϕl) undƒθ(xs(i))=ξs(i)=(ψs(i),ϕs(i))voraussichtlich verbessert;• mit der durch die fertig optimierten Parametern θ* parametrisierten Funktionƒθ∗wird die vorgegebene zeitliche Abfolge x von Videobildern auf die gesuchte Repräsentationƒθ∗(x)=ξ=(ψ,ϕ)abgebildet (160).

Description

  • Die vorliegende Erfindung betrifft die Kodierung einer Abfolge von Videobildern in eine Repräsentation, die die nachgeschaltete maschinelle Auswertung erleichtert.
  • Stand der Technik
  • Beim Führen von Fahrzeugen im Straßenverkehr sind Beobachtungen des Fahrzeugumfelds eine wichtige Informationsquelle. Insbesondere das dynamische Verhalten anderer Verkehrsteilnehmer wird häufig aus einer Sequenz von Videobildern ausgewertet.
  • Die DE 10 2018 209 388 A1 offenbart ein Verfahren, mit dem aus Videobildern eine Region im Umfeld eines Fahrzeugs ermittelt werden kann, in der eine für die Fahrt und/oder Sicherheit dieses Fahrzeugs relevante Situation vorliegt.
  • Offenbarung der Erfindung
  • Im Rahmen der Erfindung wurde ein Verfahren zur Kodierung einer vorgegebenen zeitlichen Abfolge x von Videobildern in eine Repräsentation ξ = (ψ, ϕ) aus stationären Merkmalen ψ und nicht stationären Merkmalen ϕ entwickelt. Eine derartige Repräsentation ist in Bezug auf viele nachgeschaltete Aufgaben maschinell weiter auswertbar. Die Verarbeitung der Abfolge x von Videobildern zu der Repräsentation ξ = (ψ, ϕ) ist somit ein Stück weit analog zur Verarbeitung von kohlenstoffhaltigen und wasserstoffhaltigen Chemierohstoffen zu einem Synthesegas, das wiederum als universeller Grundstoff zur Herstellung einer Vielzahl von Produkten genutzt werden kann.
  • Im Rahmen des Verfahrens wird mindestens eine mit trainierbaren Parametern θ parametrisierte Funktion fθ (x̃) bereitgestellt, die Abfolgen x̃ von Videobildern auf Repräsentationen fθ (x̃) = ξ = (ψ, ϕ) abbildet. Diese Parameter θ werden anhand der vorgegebenen zeitlichen Abfolge x von Videobildern selbstüberwacht trainiert. Wenn die Parameter θ auf ihre endgültigen Werte θ* optimiert sind, liegt hiermit auch die Funktion fθ* fest, mit der die vorgegebene zeitliche Abfolge x von Videobildern auf die gesuchte Repräsentation ƒ θ ( x ) = ξ = ( ψ , ϕ )
    Figure DE102021207468A1_0010
    abgebildet wird.
  • Das selbstüberwachte Training beginnt damit, dass aus der Abfolge x von Videobildern N aneinander angrenzende, nicht überlappende Kurzausschnitte x s ( 1 ) , , x s ( N )
    Figure DE102021207468A1_0011
    sowie ein Langausschnitt xl, der alle N Kurzausschnitte x s ( 1 ) , , x s ( N )
    Figure DE102021207468A1_0012
    enthält, ausgewählt werden. Mit der parametrisierten Funktion fθ, deren Verhalten durch den aktuellen Zustand der Parameter θ charakterisiert ist, werden eine Repräsentation fθ (xl) = (ξl = (ψl, (ϕl) des Langausschnitts xl sowie mehrere Repräsentationen ƒ θ ( x s ( i ) ) = ξ s ( i ) = ( ψ s ( i ) , ϕ s ( i ) )
    Figure DE102021207468A1_0013
    der Kurzausschnitte x s ( i )
    Figure DE102021207468A1_0014
    für i = 1, ..., N ermittelt. Die Parameter θ können beispielsweise zu Beginn des Trainings zufällig initialisiert werden und verändern sich dann im Laufe der Optimierung.
  • Die parametrisierte Funktion fθ wird mit einer vorgegebenen Kostenfunktion L dahingehend bewertet, inwieweit die Repräsentation (ξl = (ψl, (ϕl) des Langausschnitts xl im Hinblick auf mindestens eine vorgegebene Konsistenzbedingung im Einklang mit den Repräsentationen ξ s ( i ) = ( ψ s ( i ) , ϕ s ( i ) )
    Figure DE102021207468A1_0015
    der Kurzausschnitte x s ( i )
    Figure DE102021207468A1_0016
    steht. Die selbstüberwachte Optimierung der Parameter θ ist auf das Ziel gerichtet, dass sich die Bewertung der Kostenfunktion für künftig ermittelte Repräsentationen fθ(xl) = (ξl = (ψl, ϕl) und ƒ θ = ( x s ( i ) ) = ξ s ( i ) = ( ψ s ( i ) , ϕ s ( i ) )
    Figure DE102021207468A1_0017
     
    Figure DE102021207468A1_0018
    voraussichtlich verbessert.
  • Der selbstüberwachte Charakter dieser Optimierung liegt darin, dass lediglich die mindestens eine Konsistenzbedingung zwischen der Repräsentation (ξl des Langausschnitts xl einerseits und den Repräsentationen ξ s ( i )
    Figure DE102021207468A1_0019
    der Kurzausschnitte x s ( i )
    Figure DE102021207468A1_0020
    andererseits ausgenutzt wird, welche wiederum beide aus der gleichen vorgegebenen Abfolge x von Videobildern ermittelt werden. Es ist keine aus einer externen Quelle zugeführte „ground truth“ erforderlich, die beispielsweise Lern-Abfolgen von Videobildern mit Soll-Repräsentationen „labelt“, auf die die Funktion fθ(x̃) diese Lern-Abfolgen idealerweise abbilden sollte. Zum einen erfordert ein solches Labeln in der Regel manuelle Zuarbeit und ist daher teuer. Zum anderen stellt sich bei einem derartigen überwachten Training die Frage, inwieweit das an einer Abfolge von Videobildern absolvierte Training auch auf Abfolgen von Videobildern übertragbar ist.
  • Im Folgenden sind einige Beispiele für Konsistenzbedingungen sowie Beiträgen zur Kostenfunktion L, in denen sich diese Konsistenzbedingungen manifestieren können, angegeben. Diese Konsistenzbedingungen enthalten jeweils Ähnlichkeitsvergleiche zwischen Merkmalen des Langausschnitts xl einerseits und Merkmalen der Kurzausschnitte x s ( i )
    Figure DE102021207468A1_0021
    für i = 1, ...,N andererseits.
  • Für diese Ähnlichkeitsvergleiche wird ein Ähnlichkeitsmaß benötigt, das zwei Merkmale z1 und z2 auf einen Zahlenwert für die Ähnlichkeit abbildet. Ein Beispiel für ein solches Ähnlichkeitsmaß ist die Kosinusähnlichkeit sim h ( z 1 , z 2 ) = 1 τ h ( z 1 ) T h ( z 2 ) h ( z 1 ) h ( z 2 ) .
    Figure DE102021207468A1_0022
  • Hierin ist h eine vorgegebene Transformation, und τ ist ein Temperaturparameter für die Skalierung. Die Transformation h kann insbesondere beispielsweise eine gelernte Transformation sein.
  • Die von der Kostenfunktion L gemessene Ähnlichkeit kann hierbei insbesondere jeweils ins Verhältnis zu Ähnlichkeiten gesetzt werden, die ein Vergleich der jeweiligen Merkmale ψ s ( i )
    Figure DE102021207468A1_0023
    bzw. g ( ϕ s ( 1 ) , , ϕ s ( N ) )
    Figure DE102021207468A1_0024
    der Kurzausschnitte x s ( i )
    Figure DE102021207468A1_0025
    für i = 1, ...,N einerseits mit Merkmalen ψ̅l bzw. ϕ̅l einer zufällig generierten Abfolge x̅l von Videobildern liefert. Die letztere Ähnlichkeit sollte idealerweise Null sein, ist es jedoch in der Praxis nicht. Die Messung des Verhältnisses durch die Kostenfunktion ist ein Stück weit zur Messung eines Signal-Rausch-Abstandes, statt lediglich einer Signalstärke, in der Nachrichtentechnik.
  • Aus einer zufällig generierten Abfolge x̅l von Videobildern erzeugt die parametrisierte Funktion fθ eine Repräsentation ξneg = (ψneg, (ϕneg). Die für eine vorgegebene Menge zufällig generierter Abfolgen x̅l erhaltenen Repräsentationen ξneg lassen sich in einer Menge N zusammenfassen, wobei Nψ die Menge aller stationären Merkmale ψneg und Nϕ die Menge aller nicht stationären Merkmale ϕneg der Repräsentationen ξneg sind.
  • In einer besonders vorteilhaften Ausgestaltung beinhaltet die mindestens eine Konsistenzbedingung, dass die stationären Merkmale ψl des Langausschnitts xl ähnlich zu den stationären Merkmalen ψ s ( i )
    Figure DE102021207468A1_0026
    der Kurzausschnitte x s ( i )
    Figure DE102021207468A1_0027
    für i = 1, ..., N sind. Wenn es sich tatsächlich um stationäre Merkmale handelt, dann müssen diese sowohl auf der Zeitskala der Kurzausschnitte x s ( i )
    Figure DE102021207468A1_0028
    als auch auf der Zeitskala des Langausschnitts xl stationär bleiben. Diese Konsistenzbedingung kann beisoielsweise einen Beitrag L s = log exp  ( sim h s ( ψ s ( i ) , ψ i ) ) Σ ψ ¯ l N ψ { ψ l } exp  ( sim h s ( ψ s ( i ) , ψ ¯ i ) )
    Figure DE102021207468A1_0029
    zur Kostenfunktion L beisteuern. Hierbei ist in dem Ähnlichkeitsmaß simhs hs eine gelernte Transformation h, die speziell für die Untersuchung der stationären Merkmale verwendet wird. ψ s ( i )
    Figure DE102021207468A1_0030
    ist ein stationäres Merkmal eines beliebigen zufällig ausgewählten Kurzausschnitts x s ( i )
    Figure DE102021207468A1_0031
  • In einer weiteren besonders vorteilhaften Ausgestaltung beinhaltet die mindestens eine Konsistenzbedingung, dass die nicht stationären Merkmale ϕl des Langausschnitts xl ähnlich zu einer mit einer Aggregationsfunktion g gebildeten Aggregation g ( ϕ s ( 1 ) , , ϕ s ( N ) )
    Figure DE102021207468A1_0032
    der nicht stationären Merkmale ϕ s ( 1 ) , , ϕ s ( N )
    Figure DE102021207468A1_0033
    der Kurzausschnitte x s ( 1 ) , , x s ( N )
    Figure DE102021207468A1_0034
    sind. Das Ergebnis der durch die nicht stationären Merkmale verursachten Änderungen im Videobild hängt nicht davon ab, ob die Abfolge der Videobilder in einem Zug abgespielt oder nach jedem Kurzausschnitt x s ( i )
    Figure DE102021207468A1_0035
    jeweils pausiert wird. Diese Konsistenzbedingung kann beispielsweise einen Beitrag L n = log exp  ( sim h n ( ϕ g , ϕ i ) ) Σ ϕ ¯ l N ϕ { ϕ l } exp  ( sim h n ( ϕ g , ϕ ¯ i ) )
    Figure DE102021207468A1_0036
    zur Kostenfunktion L beisteuern. Hierin ist ϕ g = g ( ϕ s ( 1 ) , , ϕ s ( N ) )
    Figure DE102021207468A1_0037
    eine aggregierte Version der nicht stationären Merkmale. In dem Ähnlichkeitsmaß simhn ist hn eine gelernte Transformation h, die speziell für die Untersuchung der nicht stationären Merkmale verwendet wird.
  • Die Aggregationsfunktion g kann insbesondere beispielsweise
    • • eine Summierung, und/oder
    • • eine lineare Abbildung, und/oder
    • • eine Abbildung durch ein mehrschichtiges Perzeptron, MLP, und/oder
    • • eine Abbildung durch ein rekurrentes neuronales Netzwerk, RNN, beinhalten.
  • In einer weiteren besonders vorteilhaften Ausgestaltung misst die Kostenfunktion L zusätzlich die Ähnlichkeit zwischen der Repräsentation ξl des Langausschnitts xl einerseits und der hierzu korrespondierenden Repräsentation ξ̂l für eine semantisch inhaltsgleiche Abwandlung x̂l des Langausschnitts xl. Dies kann beispielsweise in einem Beitrag L i = log exp  ( sim h i ( ξ l , ξ ^ l ) ) Σ ξ ¯ l N { ξ ^ l } exp  ( sim h i ( ξ l , ξ ¯ l ) )
    Figure DE102021207468A1_0038
    zur Kostenfunktion L quantifiziert werden. Dieser Beitrag erfüllt die Funktion des üblichen kontrastiven Lernens in Bezug auf Bilder oder Videos. Die semantisch inhaltsgleichen Abwandlung x̂l des Langausschnitts xl entsprechen Positivbeispielen dessen, was als ähnlich zu der der Repräsentation ξl des Langausschnitts xl gewertet werden sollte. Die für zufällig generierte Abfolgen x̅l erhaltenen Repräsentationen ξl hingegen entsprechen Negativbeispiele dessen, was als nicht ähnlich zu der der Repräsentation ξl des Langausschnitts xl gewertet werden sollte. In dem Ähnlichkeitsmaß simhi ist hi eine gelernte Transformation h, die speziell für die den Vergleich mit der semantisch inhaltsgleichen Abwandlung x̂l des Langausschnitts xl verwendet wird.
  • Die semantisch inhaltsgleiche Abwandlung x̂l kann insbesondere beispielsweise durch
    • • Auswahl eines zufälligen Bildausschnitts und Zurückvergrößern auf die Originalgröße, und/oder
    • • Spiegelung, und/oder
    • • Farbveränderung
    aus dem Langausschnitt xl erzeugt werden.
  • Wie zuvor erläutert, ist die selbstüberwacht gelernte Repräsentation ƒ θ ( x ) = ξ = ( ψ , ϕ )
    Figure DE102021207468A1_0039
     
    Figure DE102021207468A1_0040
    das Ausgangsmaterial für viele weitere Auswertungen der zeitlichen Abfolge x von Videobildern. In einer besonders vorteilhaften Ausgestaltung wird die Erkennung mindestens einer Aktion, die die zeitliche Abfolge x von Videobildern zeigt, aus der Repräsentation ƒ θ ( x ) = ξ = ( ψ , ϕ )
    Figure DE102021207468A1_0041
    ausgewertet. Alternativ oder auch in Kombination hierzu können beispielsweise unterschiedliche Aktionen, die die zeitliche Abfolge x von Videobildern zeigt, voneinander abgegrenzt werden. Hiermit können beispielsweise große Mengen Videomaterial automatisiert in Ausschnitte zerlegt werden, die bestimmte Aktionen zeigen. Wenn beispielsweise ein Film zusammengestellt werden soll, der bestimmte Aktionen zeigt, kann auf diese Weise automatisiert nach geeignetem Ausgangsmaterial gesucht werden. Gegenüber einer manuellen Suche kann dies in erheblichem Umfang Arbeitszeit einsparen.
  • In einer weiteren vorteilhaften Ausgestaltung wird anhand der Repräsentation ƒ θ ( x ) = ξ = ( ψ , ϕ )
    Figure DE102021207468A1_0042
    eine zu der vorgegebenen zeitlichen Abfolge x von Videobildern ähnliche Abfolge x* von Videobildern aus einer Datenbank ermittelt. Diese Suche arbeitet losgelöst von einfachen Features der Bilder, die in der Abfolge x enthalten sind, auf der Ebene der in der Abfolge x sichtbaren Aktionen. Auch diese Suche kann beispielsweise beim Zusammenstellen eines Videos viel Arbeitszeit für die manuelle Suche einsparen. Weiterhin können zu einer vorgegebenen Abfolge x von Videobildern ähnliche Abfolgen x* beispielsweise genutzt werden, um einen Trainingsdatensatz für einen Klassifikator oder eine andere Machine Learning-Anwendung zu vergrößern.
  • In einer weiteren vorteilhaften Ausgestaltung wird aus der Repräsentation ƒ θ ( x ) = ξ = ( ψ , ϕ ) ,
    Figure DE102021207468A1_0043
    und/oder aus einem hieraus ausgewerteten Verarbeitungsprodukt, ein Ansteuersignal ermittelt. Ein Fahrzeug, ein System für die Qualitätskontrolle von Produkten, und/oder ein System für die Überwachung von Bereichen, mit diesem Ansteuersignal angesteuert. Wie zuvor erläutert, erleichtert die Verarbeitung der ursprünglichen Abfolge x von Videobildern zu der Repräsentation ƒ θ ( x ) = ξ = ( ψ , ϕ )
    Figure DE102021207468A1_0044
    die nachgeschaltete Verarbeitung. Daher ist die Wahrscheinlichkeit erhöht, dass die durch das Ansteuersignal am jeweils angesteuerten technischen System ausgelöste Reaktion der durch die Abfolge x von Videobildern repräsentierten Situation angemessen ist.
  • Das Verfahren kann insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebene Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
  • Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
  • Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
  • Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
  • Figurenliste
  • Es zeigt:
    • 1 Ausführungsbeispiel des Verfahrens 100 zur Kodierung einer Abfolge x von Videobildern in eine maschinell auswertbare Repräsentation ξ = (ψ, ϕ);
    • 2 Veranschaulichung des selbstüberwachten Lernens am Beispiel einer Szene 10 in einem chemischen Labor.
  • 1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zur Kodierung einer Abfolge x von Videobildern in eine maschinell auswertbare Repräsentation ξ = (ψ, ϕ).
  • In Schritt 110 wird mindestens eine mit trainierbaren Parametern θ parametrisierte Funktion fϕ (x̃) bereitgestellt, die Abfolgen x̃ von Videobildern auf Repräsentationen fϕ (x̃) = ξ = (ψ, ϕ) abbildet.
  • In Schritt 120 werden aus der vorgegebenen Abfolge x von Videobildern werden N aneinander angrenzende, nicht überlappende Kurzausschnitte x s ( 1 ) , , x s ( N )
    Figure DE102021207468A1_0045
    sowie ein Langausschnitt xl, der alle N Kurzausschnitte x s ( 1 ) , , x s ( N )
    Figure DE102021207468A1_0046
    enthält, ausgewählt. Hierbei kann insbesondere beispielsweise der Langausschnitt xl der vollständigen Abfolge x von Videobildern entsprechen.
  • In Schritt 130 werden mit der parametrisierten Funktion fθ eine Repräsentation fθ (xl) = (ξl = (ψl, (ϕl) des Langausschnitts xl sowie mehrere Repräsentationen ƒ θ = ( x s ( i ) ) = ξ s ( i ) = ( ψ s ( i ) , ϕ s ( i ) )
    Figure DE102021207468A1_0047
    der Kurzausschnitte x s ( i )
    Figure DE102021207468A1_0048
    für i = 1, ..., N ermittelt. Wenn es mehrere solche parametrisierten Funktionen fθ gibt, können der Langausschnitt xl sowie verschiedene Kurzausschnitte x s ( i )
    Figure DE102021207468A1_0049
    auch mit verschiedenen Funktionen fθ bearbeitet werden.
  • In Schritt 140 wird die parametrisierte Funktion fθ mit einer vorgegebenen Kostenfunktion L dahingehend bewertet, inwieweit die Repräsentation ξl = (ψl, ϕl) des Langausschnitts xl im Hinblick auf mindestens eine vorgegebene Konsistenzbedingung im Einklang mit den Repräsentationen ξ s ( i ) = ( ψ s ( i ) , ϕ s ( i ) )
    Figure DE102021207468A1_0050
    der Kurzausschnitte x s ( i )
    Figure DE102021207468A1_0051
    steht.
  • Hierbei kann insbesondere beispielsweise gemäß Block 141 die mindestens eine Konsistenzbedingung beinhalten, dass die stationären Merkmale Ψl des Langausschnitts xl ähnlich zu den stationären Merkmalen ψ s ( i )
    Figure DE102021207468A1_0052
    der Kurzausschnitte x s ( i )
    Figure DE102021207468A1_0053
    für i = 1,...,N sind.
  • Gemäß Block 142 kann die mindestens eine Konsistenzbedingung beispielsweise beinhalten, dass die nicht stationären Merkmale ϕl des Langausschnitts xl ähnlich zu einer mit einer Aggregationsfunktion g gebildeten Aggregation g ( ϕ s ( 1 ) , , ϕ s ( N ) )
    Figure DE102021207468A1_0054
    der nicht stationären Merkmale ϕ s ( 1 ) , , ϕ s ( N )
    Figure DE102021207468A1_0055
    der Kurzausschnitte x s ( 1 ) , , x s ( N )
    Figure DE102021207468A1_0056
    sind. Als Aggregationsfunktion gkann hierbei gemäß Block 142a insbesondere beispielsweise
    • • eine Summierung, und/oder
    • • eine lineare Abbildung, und/oder
    • • eine Abbildung durch ein mehrschichtiges Perzeptron, MLP, und/oder
    • • eine Abbildung durch ein rekurrentes neuronales Netzwerk, RNN,
    zum Einsatz kommen.
  • Gemäß Block 143 kann die Kostenfunktion L beispielsweise zusätzlich die Ähnlichkeit zwischen der Repräsentation ξl des Langausschnitts xl einerseits und der hierzu korrespondierenden Repräsentation ξl für eine semantisch inhaltsgleiche Abwandlung x̂l des Langausschnitts xl messen. Hierbei kann gemäß Block 143a die semantisch inhaltsgleiche Abwandlung x̂l insbesondere beispielsweise durch
    • • Auswahl eines zufälligen Bildausschnitts und Zurückvergrößern auf die Originalgröße, und/oder
    • • Spiegelung, und/oder
    • • Farbveränderung
    aus dem Langausschnitt xl erzeugt werden.
  • Gemäß Block 144 kann eine durch die Kostenfunktion L gemessene Ähnlichkeit jeweils ins Verhältnis zu Ähnlichkeiten gesetzt werden, die ein Vergleich der jeweiligen Merkmale ψ s ( i )
    Figure DE102021207468A1_0057
    bzw. g ( ϕ s ( 1 ) , , ϕ s ( N ) )
    Figure DE102021207468A1_0058
    der Kurzausschnitte x s ( i )
    Figure DE102021207468A1_0059
    für i = 1, ...,N einerseits mit Merkmalen ψ̅l bzw. ϕ̅l einer zufällig generierten Abfolge x̅l von Videobildern liefert.
  • Gemäß Block 145 kann mindestens eine Ähnlichkeit zwischen Merkmalen z1 und z2 mit einer Kosinusähnlichkeit gemessen werden.
  • In Schritt 150 werden die Parameter θ der Funktion fθ optimiert mit dem Ziel, dass sich die Bewertung der Kostenfunktion für künftig ermittelte Repräsentationen fθ(xl) = ξl = (ψ,ϕl) und ƒ θ = ( x s ( i ) ) = ξ s ( i ) = ( ψ s ( i ) , ϕ s ( i ) )
    Figure DE102021207468A1_0060
    voraussichtlich verbessert.
  • In Schritt 160 wird mit der durch die fertig optimierten Parametern θ* parametrisierten Funktion ƒ θ
    Figure DE102021207468A1_0061
    die vorgegebene zeitliche Abfolge x von Videobildern auf die gesuchte Repräsentation ƒ θ ( x ) = ξ = ( ψ , ϕ )
    Figure DE102021207468A1_0062
    abgebildet. Wie zuvor erläutert, lässt sich diese Repräsentation ƒ θ ( x ) = ξ = ( ψ , ϕ )
    Figure DE102021207468A1_0063
    analog zu einem Synthesegas in der Chemie zur Weiterverarbeitung in eine Vielzahl weiterer für die jeweilige Anwendung relevanter Resultate nutzen.
  • In Schritt 170 wird aus der Repräsentation ƒ θ ( x ) = ξ = ( ψ , ϕ )
    Figure DE102021207468A1_0064
    die Erkennung mindestens einer Aktion A, die die zeitliche Abfolge x von Videobildern zeigt, ausgewertet.
  • In Schritt 175 werden anhand von Änderungen der Repräsentation ƒ θ ( x ) = ξ = ( ψ , ϕ )
    Figure DE102021207468A1_0065
     
    Figure DE102021207468A1_0066
    unterschiedliche Aktionen A, B, C, die die zeitliche Abfolge x von Videobildern zeigt, voneinander abgegrenzt.
  • In Schritt 180 wird anhand der Repräsentation ƒ θ ( x ) = ξ = ( ψ , ϕ )
    Figure DE102021207468A1_0067
    eine zu der vorgegebenen zeitlichen Abfolge x von Videobildern ähnliche Abfolge x* von Videobildern aus einer Datenbank ermittelt.
  • In Schritt 190 wird aus der Repräsentation ƒ θ ( x ) = ξ = ( ψ , ϕ ) ,
    Figure DE102021207468A1_0068
    und/oder aus einem hieraus ausgewerteten Verarbeitungsprodukt, ein Ansteuersignal 190a ermittelt.
  • In Schritt 195 wird ein Fahrzeug 50, ein System 60 für die Qualitätskontrolle von Produkten, und/oder ein System 70 für die Überwachung von Bereichen, mit diesem Ansteuersignal 190a angesteuert.
  • 2 verdeutlicht das zuvor beschriebene selbstüberwachte Lernen am Beispiel einer Szene 10 in einem chemischen Labor.
  • Links in 2 ist die komplette zeitliche Abfolge x von Videobildern gezeichnet, die hier auch dem Langausschnitt xl entspricht. Rechts in 2 sind drei Kurzausschnitte x s ( 1 ) , x s ( 2 ) , x s ( 3 )
    Figure DE102021207468A1_0069
    gezeichnet, in die die zeitliche Abfolge x zerlegt wurde.
  • Die Szene 10 umfasst das Einfüllen zweier Substanzen 11a, 12a aus Reagenzgläsern 11, 12 in ein Becherglas 13 und die anschließende Reaktion der Substanzen 11a, 12a zu einem Produkt 14. Zu Beginn der Szene 10 wird das Reagenzglas 11 aufgenommen und sein Inhalt 11a in das Becherglas 13 gefüllt. Dann wird das leere Reagenzglas 11 wieder hingestellt. Als Nächstes wird das Reagenzglas 12 aufgenommen und sein Inhalt 12a ebenfalls in das Becherglas 13 gefüllt, wo er sich zunächst oberhalb der dort bereits befindlichen Substanz 11a als separate Schicht lagert. Das leere Reagenzglas 12 wird wieder hingestellt, und die zwei Substanzen 11a und 12a durchmischen sich im Becherglas 13, um zum Produkt 14 zu reagieren.
  • Der stationäre Anteil s dieser Szene 10 ist, dass es überhaupt eine Laborszene mit zwei Reagenzgläsern 11 und 12 sowie einem Becherglas 13 gibt. Der nichtstationäre Anteil n besteht darin, dass die Reagenzgläser 11 und 12 aufgenommen, ihr jeweiliger Inhalt 11a bzw. 12a in das Becherglas 13 gefüllt wird und im Becherglas 13 die Reaktion zum Produkt 14 stattfindet.
  • Der Kurzausschnitt x s ( 1 )
    Figure DE102021207468A1_0070
    umfasst den Zeitraum, in dem das erste Reagenzglas 11 aufgenommen, die Substanz 11a in das Becherglas 13 gefüllt und das erste Reagenzglas 11 wieder hingestellt wird. Diese Handlungen repräsentieren dementsprechend den nicht stationären Anteil n des Kurzausschnitts x s ( 1 )
    Figure DE102021207468A1_0071
  • Der Kurzausschnitt x s ( 2 )
    Figure DE102021207468A1_0072
    umfasst den Zeitraum, in dem das zweite Reagenzglas 12 aufgenommen, die Substanz 12a in das Becherglas 13 gefüllt und das zweite Reagenzglas 12 wieder hingestellt wird. Diese Handlungen repräsentieren dementsprechend den nicht stationären Anteil n des Kurzausschnitts x s ( 2 ) .
    Figure DE102021207468A1_0073
  • Der Kurzausschnitt x s ( 3 )
    Figure DE102021207468A1_0074
    umfasst den Zeitraum, in dem beide Reagenzgläser 11 und 12 an ihrem Platz stehen und innerhalb des Becherglases 13 die Reaktion der beiden Substanzen 11a und 12a zum Produkt 14 stattfindet. Diese Reaktion repräsentiert dementsprechend den nicht stationären Anteil n des Kurzausschnitts x s ( 3 ) .
    Figure DE102021207468A1_0075
  • Das zuvor beschriebene kontrastive Lernen belohnt es, wenn die Aggregation der nicht stationären Anteile n aller Kurzausschnitte x s ( 1 ) , x s ( 2 ) , x s ( 3 )
    Figure DE102021207468A1_0076
    mit der Aggregationsfunktion g ähnlich zum nicht stationären Anteil n des Langausschnitts xl ist. Durch die Aufteilung des Langausschnitts xl in Kurzausschnitte x s ( 1 ) , x s ( 2 ) , x s ( 3 )
    Figure DE102021207468A1_0077
    ändert sich schließlich nichts daran, was insgesamt im Verlauf der Szene 10 getan wird.
  • Ebenso belohnt es das kontrastive Lernen, wenn der stationäre Anteil s, nämlich das grundsätzliche Vorhandensein zweier Reagenzgläser 11, 12, eines Becherglases 13 und einer gewissen Menge Chemikalien 11a, 12a bzw. 14, in allen Kurzausschnitten x s ( 1 ) , x s ( 2 ) , x s ( 3 )
    Figure DE102021207468A1_0078
    dem stationären Anteil des Langausschnitts xl entspricht.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • DE 102018209388 A1 [0003]

Claims (15)

  1. Verfahren (100) zur Kodierung einer vorgegebenen zeitlichen Abfolge x von Videobildern in eine maschinell auswertbare Repräsentation ξ = (ψ, ϕ) aus stationären Merkmalen ψ und nicht stationären Merkmalen ϕ, mit den Schritten: • es wird mindestens eine mit trainierbaren Parametern θ parametrisierte Funktion fθ (x̃) bereitgestellt (110), die Abfolgen x̃ von Videobildern auf Repräsentationen fθ (x̃) = ξ = (ψ, ϕ) abbildet; • aus der Abfolge x von Videobildern werden N aneinander angrenzende, nicht überlappende Kurzausschnitte x s ( 1 ) , , x s ( N )
    Figure DE102021207468A1_0079
    sowie ein Langausschnitt xl, der alle N Kurzausschnitte x s ( 1 ) , , x s ( N )
    Figure DE102021207468A1_0080
    enthält, ausgewählt (120); • mit der parametrisierten Funktion fθ werden eine Repräsentation fθ(xl) = (ξl = (ψl, (ϕl) des Langausschnitts xl sowie mehrere Repräsentationen ƒ θ ( x s ( i ) ) = ξ s ( i ) = ( ψ s ( i ) , ϕ s ( i ) )
    Figure DE102021207468A1_0081
    der Kurzausschnitte x s ( i )
    Figure DE102021207468A1_0082
    für i = 1,...,N ermittelt (130); • die parametrisierte Funktion fθ wird mit einer vorgegebenen Kostenfunktion L dahingehend bewertet (140), inwieweit die Repräsentation ξl = (ψl, ϕl) des Langausschnitts xl im Hinblick auf mindestens eine vorgegebene Konsistenzbedingung im Einklang mit den Repräsentationen ξ s ( i ) = ( ψ s ( i ) , ϕ s ( i ) )
    Figure DE102021207468A1_0083
    der Kurzausschnitte x s ( i )
    Figure DE102021207468A1_0084
    steht; • die Parameter θ der Funktion fθ werden optimiert (150) mit dem Ziel, dass sich die Bewertung der Kostenfunktion für künftig ermittelte Repräsentationen fθ (xl) = (ξl = (ψ, ϕl) und ƒ θ ( x s ( i ) ) = ξ s ( i ) = ( ψ s ( i ) , ϕ s ( i ) )
    Figure DE102021207468A1_0085
    voraussichtlich verbessert; • mit der durch die fertig optimierten Parametern θ* parametrisierten Funktion ƒ θ
    Figure DE102021207468A1_0086
    wird die vorgegebene zeitliche Abfolge x von Videobildern auf die gesuchte Repräsentation ƒ θ ( x ) = ξ = ( ψ , ϕ )
    Figure DE102021207468A1_0087
    abgebildet (160).
  2. Verfahren (100) nach Anspruch 1, wobei die mindestens eine Konsistenzbedingung beinhaltet (141), dass die stationären Merkmale ψl des Langausschnitts xl ähnlich zu den stationären Merkmalen ψ s ( i )
    Figure DE102021207468A1_0088
    der Kurzausschnitte x s ( i )
    Figure DE102021207468A1_0089
    für i = 1, ...,N sind.
  3. Verfahren nach einem der Ansprüche 1 bis 2, wobei die mindestens eine Konsistenzbedingung beinhaltet (142), dass die nicht stationären Merkmale ϕl des Langausschnitts xl ähnlich zu einer mit einer Aggregationsfunktion g gebildeten Aggregation g ( ϕ s ( 1 ) , , ϕ s ( N ) )
    Figure DE102021207468A1_0090
    der nicht stationären Merkmale ϕ s ( 1 ) , , ϕ s ( N )
    Figure DE102021207468A1_0091
    der Kurzausschnitte x s ( 1 ) , , x s ( N )
    Figure DE102021207468A1_0092
    sind.
  4. Verfahren nach Anspruch 3, wobei die Aggregationsfunktion g • eine Summierung, und/oder • eine lineare Abbildung, und/oder • eine Abbildung durch ein mehrschichtiges Perzeptron, MLP, und/oder • eine Abbildung durch ein rekurrentes neuronales Netzwerk, RNN, beinhaltet (142a).
  5. Verfahren (100) nach einem der Ansprüche 1 bis 4, wobei die Kostenfunktion L zusätzlich die Ähnlichkeit zwischen der Repräsentation ξl des Langausschnitts xl einerseits und der hierzu korrespondierenden Repräsentation ξ̂l für eine semantisch inhaltsgleiche Abwandlung x̂l des Langausschnitts xl misst (143).
  6. Verfahren nach Anspruch 5, wobei die semantisch inhaltsgleiche Abwandlung x̂l durch • Auswahl eines zufälligen Bildausschnitts und Zurückvergrößern auf die Originalgröße, und/oder • Spiegelung, und/oder • Farbveränderung aus dem Langausschnitt xl erzeugt wird (143a).
  7. Verfahren nach einem der Ansprüche 2 bis 6, wobei eine durch die Kostenfunktion L gemessene Ähnlichkeit jeweils ins Verhältnis zu Ähnlichkeiten gesetzt wird (144), die ein Vergleich der jeweiligen Merkmale ψ s ( i )
    Figure DE102021207468A1_0093
    bzw. g ( ϕ s ( 1 ) , , ϕ s ( N ) )
    Figure DE102021207468A1_0094
    der Kurzausschnitte x s ( i )
    Figure DE102021207468A1_0095
    für i = 1, ..., N einerseits mit Merkmalen ψ̅l bzw. ϕ̅l einer zufällig generierten Abfolge x̅l von Videobildern liefert.
  8. Verfahren nach einem der Ansprüche 2 bis 7, wobei mindestens eine Ähnlichkeit zwischen Merkmalen z1 und z2 mit einer Kosinusähnlichkeit der Form sim h ( z 1 , z 2 ) = 1 τ h ( z 1 ) T h ( z 2 ) h ( z 1 ) h ( z 2 )
    Figure DE102021207468A1_0096
    ermittelt wird (145), worin h eine vorgegebene Transformation und τ ein Temperaturparameter sind.
  9. Verfahren (100) nach einem der Ansprüche 1 bis 8, wobei aus der Repräsentation ƒ θ ( x ) = ξ = ( ψ , ϕ )
    Figure DE102021207468A1_0097
    die Erkennung mindestens einer Aktion (A), die die zeitliche Abfolge x von Videobildern zeigt, ausgewertet wird (170).
  10. Verfahren nach einem der Ansprüche 1 bis 9, wobei anhand der Repräsentation ƒ θ ( x ) = ξ = ( ψ , ϕ )
    Figure DE102021207468A1_0098
    eine zu der vorgegebenen zeitlichen Abfolge x von Videobildern ähnliche Abfolge x* von Videobildern aus einer Datenbank ermittelt wird (180).
  11. Verfahren nach einem der Ansprüche 1 bis 10, wobei anhand von Änderungen der Repräsentation ƒ θ ( x ) = ξ = ( ψ , ϕ )
    Figure DE102021207468A1_0099
    unterschiedliche Aktionen (A, B, C), die die zeitliche Abfolge x von Videobildern zeigt, voneinander abgegrenzt werden (175).
  12. Verfahren (100) nach einem der Ansprüche 1 bis 11, wobei • aus der Repräsentation ƒ θ ( x ) = ξ = ( ψ , ϕ ) ,
    Figure DE102021207468A1_0100
    und/oder aus einem hieraus ausgewerteten Verarbeitungsprodukt, ein Ansteuersignal (190a) ermittelt wird (190) und • ein Fahrzeug (50), ein System (60) für die Qualitätskontrolle von Produkten, und/oder ein System (70) für die Überwachung von Bereichen, mit diesem Ansteuersignal (190a) angesteuert wird (195).
  13. Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das Verfahren (100) nach einem der Ansprüche 1 bis 12 auszuführen.
  14. Maschinenlesbarer Datenträger und/oder Downloadprodukt mit dem Computerprogramm nach Anspruch 13.
  15. Ein oder mehrere Computer mit dem Computerprogramm nach Anspruch 13, und/oder mit dem maschinenlesbaren Datenträger und/oder Downloadprodukt nach Anspruch 14.
DE102021207468.5A 2021-07-14 2021-07-14 Verfahren zur Kodierung einer Abfolge von Videobildern Pending DE102021207468A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102021207468.5A DE102021207468A1 (de) 2021-07-14 2021-07-14 Verfahren zur Kodierung einer Abfolge von Videobildern
US17/859,611 US20230036743A1 (en) 2021-07-14 2022-07-07 Method for coding a sequence of video images
CN202210820296.6A CN115620027A (zh) 2021-07-14 2022-07-13 用于对视频图像序列进行编码的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102021207468.5A DE102021207468A1 (de) 2021-07-14 2021-07-14 Verfahren zur Kodierung einer Abfolge von Videobildern

Publications (1)

Publication Number Publication Date
DE102021207468A1 true DE102021207468A1 (de) 2023-01-19

Family

ID=84546802

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021207468.5A Pending DE102021207468A1 (de) 2021-07-14 2021-07-14 Verfahren zur Kodierung einer Abfolge von Videobildern

Country Status (3)

Country Link
US (1) US20230036743A1 (de)
CN (1) CN115620027A (de)
DE (1) DE102021207468A1 (de)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018209388A1 (de) 2018-06-13 2019-12-19 Robert Bosch Gmbh Erkennung fahrtrelevanter Situationen auf größere Entfernung

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018209388A1 (de) 2018-06-13 2019-12-19 Robert Bosch Gmbh Erkennung fahrtrelevanter Situationen auf größere Entfernung

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RECASENS, Adrià, et al. Broaden Your Views for Self-Supervised Video Learning. arXiv preprint arXiv:2103.16559v1, 31. Mai 2021
WANG, Jinpeng, et al. Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion. arXiv preprint arXiv:2009.05757v3, 16. Dezember 2020
WANG, Jue, et al. Long-short temporal contrastive learning of video transformers. arXiv preprint arXiv:2106.09212v2, 8. Juli 2021

Also Published As

Publication number Publication date
US20230036743A1 (en) 2023-02-02
CN115620027A (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
DE102018128289A1 (de) Verfahren und vorrichtung für eine autonome systemleistung und zur einstufung
DE102017218889A1 (de) Unscharf parametriertes KI-Modul sowie Verfahren zum Betreiben
DE102012206037A1 (de) Lernverfahren zur automatisierten Erkennung von Verkehrszeichen, Verfahren zur Bestimmung eines aktualisierten Parametersatzes für eine Klassifikation von einem Verkehrszeichen und Verkehrszeichenerkennungssystem
DE102019204139A1 (de) Training für künstliche neuronale Netzwerke mit besserer Ausnutzung der Lern-Datensätze
DE102018109276A1 (de) Bildhintergrundsubtraktion für dynamische beleuchtungsszenarios
DE102019209644A1 (de) Verfahren zum Trainieren eines neuronalen Netzes
DE102018220941A1 (de) Auswertung von Messgrößen mit KI-Modulen unter Berücksichtigung von Messunsicherheiten
WO2021228894A1 (de) Bildauswertungsverfahren in der mikroskopie
DE102021207468A1 (de) Verfahren zur Kodierung einer Abfolge von Videobildern
DE102019219734A1 (de) Auswertungssystem für Messdaten aus mehreren Domänen
DE69922995T2 (de) System und verfahren zur datenklassifizierung
Schmies et al. Classification of fracture characteristics and fracture mechanisms using deep learning and topography data
DE102021204040A1 (de) Verfahren, Vorrichtung und Computerprogramm zur Erstellung von Trainingsdaten im Fahrzeug
DE102017219269A1 (de) Klassifizierung mit automatischer Auswahl aussichtsreicher Lerndaten
DE102021114287A1 (de) Mikroskopiesystem und Verfahren zum Erzeugen stilisierter Kontrastbilder
EP3435056B1 (de) Druckinspektionsvorrichtung zur optischen inspektion eines druckbildes eines druckobjekts
DE102020129018A1 (de) Tiefe benutzermodellierung durch verhalten
DE102020206990A1 (de) Vorrichtung zur Verarbeitung von Sensordaten und Trainingsverfahren
DE102022201161A1 (de) Objektklassifizierung mit einem einstufigen metabasierten Objektdetektor unter Verwendung von Klassenprototypen
EP2282285A2 (de) Einrichtung und Verfahren zur Transformation von Objektklassifikations-Ergebnissen
DE102021214465A1 (de) Analyse des Verhaltens von Bildklassifikatoren
DE102022111179A1 (de) Verfahren und vorrichtung zur erzeugung eines auf künstlicher intelligenz beruhenden prädiktors sowie dessen verwendung, und computerprogramm
DE102020216054A1 (de) Ermitteln der Wirkung des Eingabe-Bildes eines Bildklassifikators auf ein durch Faltungsschichten gebildetes Zwischenprodukt
DE102022203000A1 (de) Prüfung synthetischer Messdaten auf Verwendbarkeit als Trainings-Messdaten für einen Klassifikator und/oder Regressor
WO2024013158A1 (de) Objektklassifikation anhand von messdaten aus mehreren perspektiven unter nutzung von pseudo-labels

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009660000

Ipc: G06V0030194000

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06V0030194000

Ipc: G06V0010700000

R016 Response to examination communication