DE102020134888A1 - Bildkorrekturverfahren und system basierend auf deep learning - Google Patents

Bildkorrekturverfahren und system basierend auf deep learning Download PDF

Info

Publication number
DE102020134888A1
DE102020134888A1 DE102020134888.6A DE102020134888A DE102020134888A1 DE 102020134888 A1 DE102020134888 A1 DE 102020134888A1 DE 102020134888 A DE102020134888 A DE 102020134888A DE 102020134888 A1 DE102020134888 A1 DE 102020134888A1
Authority
DE
Germany
Prior art keywords
image
perspective transformation
character
transformation matrix
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020134888.6A
Other languages
English (en)
Inventor
Guan-De Li
Ming-Jia Huang
Hung-Hsuan Lin
Yu-Je Li
Chia-Ling Lo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Publication of DE102020134888A1 publication Critical patent/DE102020134888A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1463Orientation detection or correction, e.g. rotation of multiples of 90 degrees
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2625Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects for obtaining an image which is composed of images from a temporal image sequence, e.g. for a stroboscopic effect
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • G06T2207/30208Marker matrix

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Character Input (AREA)

Abstract

Es werden ein Bildkorrekturverfahren und ein Bildkorrektursystem basierend auf Deep Learning bereitgestellt. Das Bildkorrekturverfahren weist die folgenden Schritte auf. Ein Bild, das mindestens ein Zeichen enthält, wird durch ein Deep Learning Modell empfangen und eine Perspektiventransformationsmatrix wird gemäß dem Bild erzeugt. Eine Perspektiventransformation wird an dem Bild gemäß der Perspektiventransformationsmatrix zum Erhalten eines korrigierten Bildes, das eine Vorderansicht des mindestens einen Zeichens enthält, durchgeführt. Ein optimiertes korrigiertes Bild, das die Vorderansicht des mindestens einen Zeichens enthält, wird gemäß dem Bild erzeugt. Eine optimierte Perspektiventransformationsmatrix, die dem Bild und dem optimierten korrigierten Bild entspricht, wird erhalten. Ein Verlustwert zwischen der optimierten Perspektiventransformationsmatrix und der Perspektiventransformationsmatrix wird berechnet. Das Deep Learning Modell wird mit dem Verlustwert aktualisiert.

Description

  • GEBIET DER TECHNIK
  • Die Offenbarung bezieht sich im Allgemeinen auf ein Bildkorrekturverfahren und -system und insbesondere auf ein Bildkorrekturverfahren und -system basierend auf Deep Learning.
  • STAND DER TECHNIK
  • Auf dem Gebiet der Bilderkennung, insbesondere der Zeichenerkennung in einem Bild, wird zunächst ein das Zielzeichen enthaltendes lokales Bild aus dem Bild lokalisiert und dann als Vorderansichtsbild für das nachfolgende Erkennungsmodell zum Durchführen einer Zeichenerkennung korrigiert. Eine Bildkorrekturprozedur wandelt die Bilder mit unterschiedlichen Ansichtswinkeln und Abständen in Vorderansichtsbilder mit gleichem Winkel und Abstand um, um das Lernen des Erkennungsmodells zu beschleunigen und die Erkennungsgenauigkeit zu erhöhen.
  • In der heutigen Technologie stützt sich die Bildkorrekturprozedur jedoch immer noch auf das herkömmliche Bildverarbeitungsverfahren zum manuellen Finden der Drehparameter und wiederholten Anpassen der Parameter zum Erhöhen der Genauigkeit der Bildkorrekturprozedur. Obwohl die Bildkorrekturprozedur unter Verwendung der Technologie der künstlichen Intelligenz (KI) durchgeführt werden kann, kann die Bildkorrekturprozedur nur Drehwinkel im Uhrzeigersinn oder im Gegenuhrzeigersinn finden und kann in komplizierter Bildverarbeitung nicht zum Skalieren, Verschieben oder Neigen des Bildes verwendet werden.
  • Daher ist es für die Industrie eine herausragende Aufgabe geworden, verschiedene Bilder als Vorderansichtsbilder effizient und korrekt zu korrigieren.
  • KURZDARSTELLUNG
  • Die Offenbarung bezieht sich auf ein Bildkorrekturverfahren und ein System basierend auf Deep Learning. Die Perspektiventransformationsparameter für die Bildkorrekturprozedur werden durch ein Modell für Deep Learning gefunden und zum effizienten Korrigieren verschiedener Bilder in Vorderansichtsbilder und weiteren Aktualisieren des Deep Learning Modells mit dem Verlustwert zum Erhöhen der Erkennungsgenauigkeit verwendet.
  • Gemäß einer Ausführungsform wird ein Bildkorrekturverfahren bereitgestellt, das auf Deep Learning basiert. Das Bildkorrekturverfahren weist die folgenden Schritte auf. Ein Bild, das mindestens ein Zeichen enthält, wird durch ein Deep Learning Modell empfangen und eine Perspektiventransformationsmatrix wird gemäß dem Bild erzeugt. Eine Perspektiventransformation wird gemäß der Perspektiventransformationsmatrix an dem Bild durchgeführt, und ein korrigiertes Bild, das eine Vorderansicht des mindestens einen Zeichens enthält, wird erhalten. Ein optimiertes korrigiertes Bild, das die Vorderansicht des mindestens einen Zeichens enthält, wird gemäß dem Bild erzeugt. Eine optimierte Perspektiventransformationsmatrix, die dem Bild und dem optimierten korrigierten Bild entspricht, wird erhalten. Ein Verlustwert zwischen der optimierten Perspektiventransformationsmatrix und der Perspektiventransformationsmatrix wird berechnet. Das Deep Learning Modell wird mit dem Verlustwert aktualisiert.
  • Gemäß einer anderen Ausführungsform wird ein Bildkorrektursystem bereitgestellt, das auf Deep Learning basiert. Das Bildkorrektursystem weist ein Modell für Deep Learning, eine Verarbeitungseinheit und eine Modellanpassungseinheit auf. Das Modell für Deep Learning ist konfiguriert zum Empfangen eines Bildes, das mindestens ein Zeichen enthält, und Erzeugen einer Perspektiventransformationsmatrix gemäß dem Bild. Die Verarbeitungseinheit ist konfiguriert zum Empfangen des Bildes und der Perspektiventransformationsmatrix und Durchführen einer Perspektiventransformation an dem Bild gemäß der Perspektiventransformationsmatrix zum Erhalten eines korrigierten Bildes, das eine Vorderansicht des mindestens einen Zeichens enthält. Die Modellanpassungseinheit ist konfiguriert zum Empfangen des Bildes, Erzeugen eines optimierten korrigierten Bildes, das die Vorderansicht des mindestens einen Zeichens gemäß dem Bild enthält, Erhalten einer optimierten Perspektiventransformationsmatrix, die dem Bild und dem optimierten korrigierten Bild entspricht, Berechnen eines Verlustwertes zwischen der optimierten Perspektiventransformationsmatrix und der Perspektiventransformationsmatrix und Aktualisieren des Modells für Deep Learning mit dem Verlustwert.
  • Die vorstehenden und andere Aspekte der Offenbarung werden in Bezug auf die folgende ausführliche Beschreibung der bevorzugten, aber nicht einschränkenden Ausführungsform(en) besser verständlich. Die folgende Beschreibung erfolgt unter Bezugnahme auf die beigefügten Figuren.
  • Figurenliste
    • 1 ist ein schematisches Diagramm eines Bildkorrektursystems basierend auf Deep Learning gemäß einer Ausführungsform der vorliegenden Offenbarung;
    • 2 ist ein Flussdiagramm einer Ausführungsform eines Bildkorrekturverfahrens basierend auf Deep Learning gemäß der vorliegenden Offenbarung;
    • 3 ist ein schematisches Diagramm eines Bildes, das ein Fahrzeugkennzeichen gemäß einer Ausführungsform der vorliegenden Offenbarung enthält;
    • 4 ist ein schematisches Diagramm eines Bildes, das ein Straßenschild enthält, gemäß einer anderen Ausführungsform der vorliegenden Offenbarung;
    • 5 ist ein schematisches Diagramm eines korrigierten Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung;
    • 6 ist ein Flussdiagramm von Teilschritten von Schritt S130 gemäß einer Ausführungsform der vorliegenden Offenbarung;
    • 7 ist ein schematisches Diagramm eines Bildes, das Markierungen enthält, gemäß einer Ausführungsform der vorliegenden Offenbarung;
    • 8 ist ein schematisches Diagramm eines Bildes und eines erweiterten Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung;
    • 9 ist ein schematisches Diagramm eines optimierten korrigierten Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung;
    • 10 ist ein schematisches Diagramm eines Bildkorrektursystems basierend auf Deep Learning gemäß einer Ausführungsform der vorliegenden Offenbarung; und
    • 11 ist ein Flussdiagramm eines Bildkorrekturverfahrens basierend auf Deep Learning gemäß einer anderen Ausführungsform der vorliegenden Offenbarung.
  • In der folgenden ausführlichen Beschreibung werden zu Zwecken der Erläuterung zahlreiche spezifische Details dargelegt, um ein gründliches Verständnis der offenbarten Ausführungsformen bereitzustellen. Es versteht sich jedoch, dass eine oder mehrere Ausführungsformen ohne diese spezifischen Details ausgeführt werden können. In anderen Fällen sind bekannte Konstruktionen und Vorrichtungen schematisch dargestellt, um die Zeichnung zu vereinfachen.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Bezugnehmend auf 1 wird ein schematisches Diagramm eines Bildkorrektursystems 100 basierend auf Deep Learning gemäß einer Ausführungsform der vorliegenden Offenbarung gezeigt. Das Bildkorrektursystem 100 weist ein Deep Learning Modell110, eine Verarbeitungseinheit 120 und eine Modellanpassungseinheit 130 auf. Das Deep Learning Modell 110 kann durch ein Modell für ein faltendes neurales Netzwerk (Convolutional Neural Network, CNN) realisiert sein. Die Verarbeitungseinheit 120 und die Modellanpassungseinheit 130 können durch einen Chip, eine Leiterplatte oder eine Schaltung realisiert sein.
  • Siehe gleichzeitig 1 und 2. 2 ist ein Flussdiagramm einer Ausführungsform eines Bildkorrekturverfahrens basierend auf Deep Learning gemäß der vorliegenden Offenbarung.
  • In Schritt S110 wird ein Bild IMG1, das mindestens ein Zeichen enthält, durch das Deep Learning Modell 110 empfangen, und eine Perspektiventransformationsmatrix T wird gemäß dem Bild IMG1 erzeugt. Das Bild IMG1 kann ein beliebiges Bild sein, das mindestens ein Zeichen enthält, wie etwa das Bild eines Fahrzeugkennzeichens, eines Straßenschildes, einer Seriennummer oder einer Hinweistafel. Das mindestens eine Zeichen ist etwa eine Zahl, ein englisches Zeichen, ein Bindestrich, ein Satzzeichen oder eine Kombination davon. Siehe 3 und 4. 3 ist ein schematisches Diagramm eines Bildes IMG1, das ein Fahrzeugkennzeichen enthält, gemäß einer Ausführungsform der vorliegenden Offenbarung. Wie in 3 angegeben, enthält das Bild IMG1 Zeichen „ABC-5555“. 4 ist ein schematisches Diagramm eines Bildes IMG1, das ein Straßenschild enthält, gemäß einer anderen Ausführungsform der vorliegenden Offenbarung. Wie in 4 angedeutet, enthält das Bild IMG1 Zeichen „WuXing St.“. Das Deep Learning Modell 110 ist ein vortrainiertes Modell, und wenn das Bild IMG1 in das Deep Learning Modell 110 eingegeben wird, gibt das Deep Learning Modell 110 entsprechend die Perspektiventransformationsmatrix T aus, die dem Bild IMG1 entspricht. Die Perspektiventransformationsmatrix T enthält mehrere Perspektiventransformationsparameter T11, T12, T13, T21, T22, T23, T31, T32 und 1, wie in Formel 1 angegeben. T = [ T 11 T 12 T 13 T 21 T 22 T 23 T 31 T 32 1 ]
    Figure DE102020134888A1_0001
  • In Schritt S120 wird eine Perspektiventransformation an dem Bild IMG1 durch die Verarbeitungseinheit 120 gemäß der Perspektiventransformationsmatrix T durchgeführt, um ein korrigiertes Bild IMG2 zu erhalten, das eine Vorderansicht des mindestens einen Zeichens enthält. Die Verarbeitungseinheit 120 führt die Perspektiventransformation an dem Bild IMG1 gemäß der Perspektiventransformationsmatrix T durch, um das Bild IMG1 in das korrigierte Bild IMG2 umzuwandeln, das die Vorderansicht des mindestens einen Zeichens enthält. Bezugnehmend auf 5 wird ein schematisches Diagramm eines korrigierten Bildes IMG2 gemäß einer Ausführungsform der vorliegenden Offenbarung gezeigt. Es sei beispielsweise das Bild IMG1 von 3 herangezogen. Das Bild IMG1 enthält ein Fahrzeugkennzeichen. Nachdem die Perspektiventransformation an dem Bild IMG1 gemäß der Perspektiventransformationsmatrix T durchgeführt wurde, kann das korrigierte Bild IMG2, wie in 5 angegeben, erhalten werden.
  • In Schritt S130 wird das Deep Learning Modell 110 durch die Modellanpassungseinheit 130 mit einem Verlustwert L aktualisiert. Bezugnehmend auf 6 wird ein Flussdiagramm von Teilschritten von Schritt S130 gemäß einer Ausführungsform der vorliegenden Offenbarung gezeigt. Der Schritt S130 weist die Schritte S131 bis S135 auf.
  • In Schritt S131 wird das Bild IMG1 durch die Modellanpassungseinheit 130 markiert, wobei die Markierung einen das Zeichen abdeckenden Markierungsbereich enthält. Mit Bezug auf 7 wird ein schematisches Diagramm eines Bildes IMG1, das Markierungen enthält, gemäß einer Ausführungsform der vorliegenden Offenbarung dargestellt. Die Markierungen auf dem Bild IMG1 weisen Markierungspunkte A, B, C und D auf, die einen das Zeichen abdeckenden Markierungsbereich R bilden. In der vorliegenden Ausführungsform ist das Bild IMG1 ein Bild, das ein Fahrzeugkennzeichen enthält, die Markierungspunkte A, B, C und D können sich an den vier Ecken des Fahrzeugkennzeichens befinden, und der Markierungsbereich R ist ein Viereck. Wenn in einer anderen Ausführungsform das Bild IMG1 ein Bild ist, das ein Straßenschild enthält, wie in 4 angegeben, und die Markierungspunkte A, B, C und D sich an den vier Ecken des Straßenschildes befinden können, ist der Markierungsbereich ein Viereck. Wenn in einer anderen Ausführungsform das Zeichen in dem Bild IMG1 sich nicht auf einem geometrischen Objekt, wie etwa einem Fahrzeugkennzeichen oder einem Straßenschild, befindet, muss die Modellanpassungseinheit 130 nur ermöglichen, dass der Markierungsbereich das Zeichen abdeckt. In einer anderen Ausführungsform kann die Modellanpassungseinheit 130 direkt ein markiertes Bild empfangen, führt jedoch die Markierungen nicht durch.
  • Bezugnehmend auf 8 wird ein schematisches Diagramm eines Bildes IMG3 und eines erweiterten Bildes IMG4 gemäß einer Ausführungsform der vorliegenden Offenbarung gezeigt. Wenn in einer Ausführungsform der Markierungsbereich das Zeichen in dem Bild IMG3 nicht abdecken kann oder das Zeichen in dem Bild IMG3 das Bild IMG3 überschreitet, erweitert die Modellanpassungseinheit 130 das Bild IMG3, um ein erweitertes Bild IMG4 zu erhalten und markiert das erweiterte Bild IMG4, sodass der Markierungsbereich R' das Zeichen abdecken kann. In der vorliegenden Ausführungsform fügt die Modellanpassungseinheit 130 dem Bild IMG3 ein Leerbild BLK hinzu, um das erweiterte Bild IMG4 zu erhalten.
  • Siehe wieder 7. In Schritt S132 wird ein optimiertes korrigiertes Bild, das eine Vorderansicht des Zeichens enthält, gemäß dem Bild IMG1 durch die Modellanpassungseinheit 130 erzeugt. In der vorliegenden Ausführungsform richtet die Modellanpassungseinheit 130 die Pixel an den Markierungspunkten A, B, C und D des Bildes IMG1 auf die vier Ecken des Bildes aus, um das optimierte korrigierte Bild zu erhalten. Bezugnehmend auf 9 wird ein schematisches Diagramm eines optimierten korrigierten Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung gezeigt. Wie in 9 angegeben, enthält das optimierte korrigierte Bild die Vorderansicht des Zeichens.
  • In Schritt S133 wird eine optimierte Perspektiventransformationsmatrix, die dem Bild IMG1 und dem optimierten korrigierten Bild entspricht, durch die Modellanpassungseinheit 130 erhalten. Aufgrund der Perspektiventransformationsbeziehung zwischen dem Bild IMG1 und dem optimierten korrigierten Bild kann die Modellanpassungseinheit 130 eine Perspektiventransformationsmatrix unter Verwendung des Bildes IMG1 und des optimierten korrigierten Bildes berechnen und die berechnete Perspektiventransformationsmatrix als die optimierte Perspektiventransformationsmatrix verwenden.
  • In Schritt S134 wird ein Verlustwert L zwischen der optimierten Perspektiventransformationsmatrix und der Perspektiventransformationsmatrix T durch die Modellanpassungseinheit 130 berechnet. In Schritt S135 wird das Deep Learning Modell 110 durch die Modellanpassungseinheit 130 mit dem Verlustwert L aktualisiert. Wie in 5 angegeben, kann, da das korrigierte Bild IMG2, das durch Durchführen einer Perspektiventransformation an dem Bild IMG1 gemäß der Perspektiventransformationsmatrix T erhalten wird, nicht mit einem besten Ergebnis übereinstimmt, das Modell für Deep Learning 110 durch die Modellanpassungseinheit 130 mit dem Verlustwert L aktualisiert werden.
  • Gemäß dem Bildkorrektursystem 100 und dem Verfahren basierend auf Deep Learning der vorliegenden Offenbarung werden die Perspektiventransformationsparameter für die Bildkorrekturprozedur durch ein Deep Learning Modell gefunden und zum effizienten Korrigieren verschiedener Bilder in Vorderansichtsbilder und weiteren Aktualisieren des Deep Learning Modells mit dem Verlustwert zum Erhöhen der Erkennungsgenauigkeit verwendet.
  • Bezugnehmend auf 10 wird ein schematisches Diagramm eines Bildkorrektursystems 1100 basierend auf Deep Learning gemäß einer Ausführungsform der vorliegenden Offenbarung gezeigt. Das Bildkorrektursystem 1100 unterscheidet sich von dem Bildkorrektursystem 100 dadurch, dass das Bildkorrektursystem 1100 ferner eine Bilderfassungseinheit 1140 aufweist, die durch eine Kamera realisiert sein kann. Siehe gleichzeitig 10 und 11. 11 ist ein Flussdiagramm eines Bildkorrekturverfahrens basierend auf Deep Learning gemäß einer anderen Ausführungsform der vorliegenden Offenbarung.
  • In Schritt S1110 wird ein Bild IMG5, das mindestens ein Zeichen enthält, durch die Bilderfassungseinheit 1140 erfasst.
  • In Schritt S1120 wird ein Bild IMG5 durch das Deep Learning Modell 1110 empfangen, und eine Perspektiventransformationsmatrix T' wird gemäß dem Bild IMG5 erzeugt. Schritt S1120 ähnelt Schritt S110 von 2, und die Ähnlichkeiten werden hier nicht wiederholt.
  • In Schritt S1130 wird eine Aufnahmeinformation SI durch das Deep Learning Modell 1110 empfangen, und mehrere Perspektiventransformationsparameter der Perspektiventransformationsmatrix T' werden entsprechend der Aufnahmeinformation SI begrenzt. Die Aufnahmeinformation SI ist ein Aufnahmeort, eine Aufnahmerichtung und ein Aufnahmewinkel. Der Aufnahmeort, die Aufnahmerichtung und der Aufnahmewinkel können durch 3 Parameter, 2 Parameter bzw. 1 Parameter dargestellt werden. Die Perspektiventransformationsmatrix T' enthält mehrere Perspektiventransformationsparameter T'11, T'12, T'13, T'21, T'22, T'23, T'31, T'32 und 1, wie in Formel 2 angegeben. Die Perspektiventransformationsparameter T'11, T'12, T'13, T'21, T'22, T'23, T'31, T'32 können gemäß den 6 Parametern des Aufnahmeortes, der Aufnahmerichtung und des Aufnahmewinkels bestimmt werden. T ' = [ T ' 11 T ' 12 T ' 13 T ' 21 T ' 22 T ' 23 T ' 31 T ' 32 1 ]
    Figure DE102020134888A1_0002
  • Zunächst ordnet das Deep Learning Modell 1110 jedem der 6 Parameter des Aufnahmeortes, der Aufnahmerichtung und des Aufnahmewinkels einen angemessenen Bereich zu und berechnet den Perspektiventransformationsparameter T'mn unter Verwendung eines Gittersuchalgorithmus, um einen größten Wert Lmn und einen kleinsten Wert Smn des Perspektiventransformationsparameters T'mn zu erhalten. Dann berechnet das Deep Learning Modell 1110 jeden Perspektiventransformationsparameter T'mn gemäß Formel 3: T ' mn = S mn + ( L mn S mn ) σ ( Z mn )
    Figure DE102020134888A1_0003
    Wobei Zmn ein Wert ist, der keinen Beschränkungen unterworfen ist, und σ eine logische Funktion ist, deren Bereich 0 bis 1 ist. Somit kann das Deep Learning Modell 1110 sicherstellen, dass jeder der Perspektiventransformationsparameter T'11, T'12, T'13, T'21, T'22, T'23, T'31, T'32 in einen vernünftigen Bereich fällt.
  • In Schritt S1140 wird eine Perspektiventransformation an dem Bild IMG5 durch die Verarbeitungseinheit 1120 gemäß der Perspektiventransformationsmatrix T' durchgeführt, um ein korrigiertes Bild IMG6 zu erhalten, das eine Vorderansicht des mindestens einen Zeichens enthält. Schritt S1140 ähnelt Schritt S120 von 2, und die Ähnlichkeiten werden hier nicht wiederholt.
  • In Schritt S1150 wird das Deep Learning Modell 1110 mit einem Verlustwert L' aktualisiert. Schritt S1150 ähnelt Schritt S130 von 2, und die Ähnlichkeiten werden hier nicht wiederholt.
  • Somit können das Bildkorrektursystem 1100 und das auf Deep Learning basierende Verfahren der vorliegenden Offenbarung den Bereich des Perspektiventransformationsparameters gemäß den Aufnahmeinformationen SI begrenzen, um die Genauigkeit des Deep Learning Modells 1110 zu erhöhen und das Trainieren für Deep Learning Modells 1110 zu erleichtern.
  • Es ist für Fachleute offensichtlich, dass verschiedene Modifikationen und Variationen an den offenbarten Ausführungsformen vorgenommen werden können. Es ist beabsichtigt, dass die Beschreibung und die Beispiele nur als beispielhaft angesehen werden, wobei ein wirklicher Umfang der Offenbarung durch die folgenden Ansprüche und ihre Äquivalente angegeben wird.

Claims (10)

  1. Bildkorrekturverfahren basierend auf Deep Learning, umfassend: Empfangen eines Bildes, das mindestens ein Zeichen enthält, durch ein Deep Learning Modell und Erzeugen einer Perspektiventransformationsmatrix gemäß dem Bild; Durchführen einer Perspektiventransformation an dem Bild gemäß der Perspektiventransformationsmatrix zum Erhalten eines korrigierten Bildes, das eine Vorderansicht des mindestens einen Zeichens enthält; Erzeugen eines optimierten korrigierten Bildes, das die Vorderansicht des mindestens einen Zeichens gemäß dem Bild enthält; Erhalten einer optimierten Perspektiventransformationsmatrix, die dem Bild und dem optimierten korrigierten Bild entspricht; Berechnen eines Verlustwertes zwischen der optimierten Perspektiventransformationsmatrix und der Perspektiventransformationsmatrix; und Aktualisieren des Deep Learning Modells mit dem Verlustwert.
  2. Bildkorrekturverfahren nach Anspruch 1, wobei der Schritt des Erzeugens des optimierten korrigierten Bildes, das die Vorderansicht des mindestens einen Zeichens gemäß dem Bild enthält, umfasst: Markieren des Bildes, das einen Markierungsbereich enthält, der das mindestens eine Zeichen abdeckt.
  3. Bildkorrekturverfahren nach Anspruch 2, ferner umfassend: wenn der Markierungsbereich das mindestens eine Zeichen nicht abdecken kann, Erweitern des Bildes, um ein erweitertes Bild zu erhalten; und Markieren des erweiterten Bildes, sodass der Markierungsbereich das mindestens eine Zeichen abdeckt.
  4. Bildkorrekturverfahren nach Anspruch 1, ferner umfassend: Erfassen des Bildes durch eine Bilderfassungseinheit; und Begrenzen einer Vielzahl von Perspektiventransformationsparametern der Perspektiventransformationsmatrix gemäß einer Aufnahmeinformation der Bilderfassungseinheit.
  5. Bildkorrekturverfahren nach Anspruch 4, wobei die Aufnahmeinformationen einen Aufnahmeort, eine Aufnahmerichtung und einen Aufnahmewinkel umfassen.
  6. Bildkorrektursystem basierend auf Deep Learning, umfassend: ein Deep Learning Modell, das konfiguriert ist zum Empfangen eines Bildes, das mindestens ein Zeichen enthält, und Erzeugen einer Perspektiventransformationsmatrix gemäß dem Bild; eine Verarbeitungseinheit, die konfiguriert ist zum Empfangen des Bildes und der Perspektiventransformationsmatrix und Durchführen einer Perspektiventransformation an dem Bild gemäß der Perspektiventransformationsmatrix zum Erhalten eines korrigierten Bildes, das eine Vorderansicht des mindestens einen Zeichens enthält; und eine Modellanpassungseinheit, die konfiguriert ist zum Empfangen des Bildes, Erzeugen eines optimierten korrigierten Bildes, das die Vorderansicht des mindestens einen Zeichens gemäß dem Bild enthält, Erhalten einer optimierten Perspektiventransformationsmatrix, die dem Bild und dem optimierten korrigierten Bild entspricht, Berechnen eines Verlustwertes zwischen der optimierten Perspektiventransformationsmatrix und der Perspektiventransformationsmatrix und Aktualisieren des Deep Learning Modells mit dem Verlustwert.
  7. Bildkorrektursystem nach Anspruch 6, wobei die Modellanpassungseinheit ferner das Bild markiert, das einen Markierungsbereich enthält, der das mindestens eine Zeichen abdeckt.
  8. Bildkorrektursystem nach Anspruch 7, wobei, wenn der Markierungsbereich das mindestens eine Zeichen nicht abdecken kann, die Modellanpassungseinheit das Bild weiter erweitert, um ein erweitertes Bild zu erhalten, und das erweiterte Bild markiert, sodass der Markierungsbereich das mindestens eine Zeichen abdeckt.
  9. Bildkorrektursystem nach Anspruch 6, ferner umfassend: eine Bilderfassungseinheit, die konfiguriert ist zum Erfassen des Bildes; wobei die Verarbeitungseinheit eine Vielzahl von Perspektiventransformationsparametern der Perspektiventransformationsmatrix gemäß einer Aufnahmeinformation der Bilderfassungseinheit begrenzt.
  10. Bildkorrektursystem nach Anspruch 9, wobei die Aufnahmeinformation einen Aufnahmeort, eine Aufnahmerichtung und einen Aufnahmewinkel umfasst.
DE102020134888.6A 2020-08-26 2020-12-23 Bildkorrekturverfahren und system basierend auf deep learning Pending DE102020134888A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW109129193A TWI790471B (zh) 2020-08-26 2020-08-26 基於深度學習的影像校正方法及系統
TW109129193 2020-08-26

Publications (1)

Publication Number Publication Date
DE102020134888A1 true DE102020134888A1 (de) 2022-03-03

Family

ID=80221137

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020134888.6A Pending DE102020134888A1 (de) 2020-08-26 2020-12-23 Bildkorrekturverfahren und system basierend auf deep learning

Country Status (7)

Country Link
US (1) US20220067881A1 (de)
JP (1) JP7163356B2 (de)
CN (1) CN114119379A (de)
DE (1) DE102020134888A1 (de)
IL (1) IL279443B1 (de)
NO (1) NO20210058A1 (de)
TW (1) TWI790471B (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11908100B2 (en) * 2021-03-15 2024-02-20 Qualcomm Incorporated Transform matrix learning for multi-sensor image capture devices
CN115409736B (zh) * 2022-09-16 2023-06-20 深圳市宝润科技有限公司 医用数字x射线摄影系统的几何校正方法及相关设备
WO2024130515A1 (en) 2022-12-19 2024-06-27 Maplebear Inc. Subregion transformation for label decoding by an automated checkout system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200089985A1 (en) 2017-12-22 2020-03-19 Beijing Sensetime Technology Development Co., Ltd. Character image processing method and apparatus, device, and storage medium

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2135240A1 (en) * 1993-12-01 1995-06-02 James F. Frazier Automated license plate locator and reader
CN101398894B (zh) * 2008-06-17 2011-12-07 浙江师范大学 机动车车牌自动识别方法及其实现装置
CA2747337C (en) * 2008-12-17 2017-09-26 Thomas D. Winkler Multiple object speed tracking system
US9317764B2 (en) * 2012-12-13 2016-04-19 Qualcomm Incorporated Text image quality based feedback for improving OCR
US9785855B2 (en) * 2015-12-17 2017-10-10 Conduent Business Services, Llc Coarse-to-fine cascade adaptations for license plate recognition with convolutional neural networks
CN107169489B (zh) * 2017-05-08 2020-03-31 北京京东金融科技控股有限公司 倾斜图像校正的方法和装置
US10810465B2 (en) * 2017-06-30 2020-10-20 Datalogic Usa, Inc. Systems and methods for robust industrial optical character recognition
CN108229474B (zh) * 2017-12-29 2019-10-01 北京旷视科技有限公司 车牌识别方法、装置及电子设备
EP3912338B1 (de) * 2019-01-14 2024-04-10 Dolby Laboratories Licensing Corporation Teilen von physischen schreibflächen in einer videokonferenz
US20200388068A1 (en) * 2019-06-10 2020-12-10 Fai Yeung System and apparatus for user controlled virtual camera for volumetric video
US11544916B2 (en) * 2019-11-13 2023-01-03 Battelle Energy Alliance, Llc Automated gauge reading and related systems, methods, and devices
CN111223065B (zh) 2020-01-13 2023-08-01 中国科学院重庆绿色智能技术研究院 图像矫正方法、不规则文本识别方法、装置、存储介质和设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200089985A1 (en) 2017-12-22 2020-03-19 Beijing Sensetime Technology Development Co., Ltd. Character image processing method and apparatus, device, and storage medium

Also Published As

Publication number Publication date
TW202209175A (zh) 2022-03-01
TWI790471B (zh) 2023-01-21
IL279443A (en) 2022-03-01
IL279443B1 (en) 2024-09-01
JP7163356B2 (ja) 2022-10-31
US20220067881A1 (en) 2022-03-03
NO20210058A1 (en) 2022-02-28
JP2022039895A (ja) 2022-03-10
CN114119379A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
DE102020134888A1 (de) Bildkorrekturverfahren und system basierend auf deep learning
DE112017002799B4 (de) Verfahren und system zum generieren multimodaler digitaler bilder
DE102015207676B4 (de) Verfahren und Vorrichtung zur Hinderniserkennung auf Basis einer monokularen Kamera
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
DE102016013274A1 (de) Bildverarbeitungsvorrichtung und verfahren zur erkennung eines bilds eines zu erkennenden objekts aus eingabedaten
DE112013004103B4 (de) Verfahren und Vorrichtung zum Erzeugen einer Disparitätskarte
DE102005003605B4 (de) Vorwissen, Niveaumengenrepräsentationen und visuelle Gruppierung
DE112018000298T5 (de) System und verfahren zur poseninvarianten gesichtsausrichtung
DE102015209822A1 (de) Erfassungseinrichtung, Erfassungsprogramm, Erfassungsverfahren, mit Erfassungseinrichtung ausgerüstetes Fahrzeug, Parameterberechnungseinrichtung, Parameter berechnende Parameter, Parameterberechnungsprogramm, und Verfahren zum Berechnen von Parametern
DE112018000107T5 (de) Fahrzeugkamerakalibrierungsvorrichtung und -Verfahren
DE112016004266T5 (de) Verfahren zur Gesichtsausrichtung
DE102013207484A1 (de) Nummernschildzeichensegmentierung unter Verwendung von Wahrscheinlichkeitsmaximierung
DE112011103221T5 (de) Erweitern von Bilddaten basierend auf zugehörigen 3D-Punktwolkendaten
DE102018113992A1 (de) Verfahren und Gerät zum Erfassen einer Fahrspur
DE112020006492T5 (de) Verfahren zum Erzeugen eines Quick-Response-Codes und Druckvorrichtung
DE112020005223T5 (de) Objektverfolgungseinrichtung und Objektverfolgungsverfahren
DE102020122844A1 (de) System und verfahren für tiefgehendes maschinelles lernen für computer-vision-anwendungen
DE112010002677T5 (de) Verfahren und vorrichtung zum bestimmen einer formübereinstimmung in drei dimensionen
DE112018006996B4 (de) Bildverarbeitungsvorrichtung und Bildverarbeitungsverfahren
DE112021002598T5 (de) Bildverarbeitungsvorrichtung
DE102019105293A1 (de) Schätzung der Bewegung einer Bildposition
DE112021000027T5 (de) Trainingsdatenerzeugungsverfahren, Trainingsdatenerzeugungsvorrichtung und Programm
DE102020116774A1 (de) Automatische visuelle Wahrnehmung mittels eines künstlichen neuronalen Netzes
EP3811336B1 (de) Verfahren zur bestimmung von zueinander korrespondierenden bildpunkten, soc zur durchführung des verfahrens, kamerasystem mit dem soc, steuergerät und fahrzeug
DE102018212652B4 (de) Deckenkartenerstellungsverfahren, deckenkartenerstellungsvorrichtung und deckenkartenerstellungsprogramm

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009000000

Ipc: G06V0010000000