DE102020134888A1 - Bildkorrekturverfahren und system basierend auf deep learning - Google Patents
Bildkorrekturverfahren und system basierend auf deep learning Download PDFInfo
- Publication number
- DE102020134888A1 DE102020134888A1 DE102020134888.6A DE102020134888A DE102020134888A1 DE 102020134888 A1 DE102020134888 A1 DE 102020134888A1 DE 102020134888 A DE102020134888 A DE 102020134888A DE 102020134888 A1 DE102020134888 A1 DE 102020134888A1
- Authority
- DE
- Germany
- Prior art keywords
- image
- perspective transformation
- character
- transformation matrix
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003702 image correction Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 230000009466 transformation Effects 0.000 claims abstract description 70
- 239000011159 matrix material Substances 0.000 claims abstract description 46
- 238000013136 deep learning model Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims description 10
- 230000006978 adaptation Effects 0.000 claims description 7
- 230000003190 augmentative effect Effects 0.000 claims description 2
- 101150013335 img1 gene Proteins 0.000 description 26
- 238000010586 diagram Methods 0.000 description 17
- 101150071665 img2 gene Proteins 0.000 description 5
- 239000003550 marker Substances 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/60—Rotation of whole images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1463—Orientation detection or correction, e.g. rotation of multiples of 90 degrees
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/2625—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects for obtaining an image which is composed of images from a temporal image sequence, e.g. for a stroboscopic effect
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/2628—Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
- G06T2207/30208—Marker matrix
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Character Input (AREA)
Abstract
Es werden ein Bildkorrekturverfahren und ein Bildkorrektursystem basierend auf Deep Learning bereitgestellt. Das Bildkorrekturverfahren weist die folgenden Schritte auf. Ein Bild, das mindestens ein Zeichen enthält, wird durch ein Deep Learning Modell empfangen und eine Perspektiventransformationsmatrix wird gemäß dem Bild erzeugt. Eine Perspektiventransformation wird an dem Bild gemäß der Perspektiventransformationsmatrix zum Erhalten eines korrigierten Bildes, das eine Vorderansicht des mindestens einen Zeichens enthält, durchgeführt. Ein optimiertes korrigiertes Bild, das die Vorderansicht des mindestens einen Zeichens enthält, wird gemäß dem Bild erzeugt. Eine optimierte Perspektiventransformationsmatrix, die dem Bild und dem optimierten korrigierten Bild entspricht, wird erhalten. Ein Verlustwert zwischen der optimierten Perspektiventransformationsmatrix und der Perspektiventransformationsmatrix wird berechnet. Das Deep Learning Modell wird mit dem Verlustwert aktualisiert.
Description
- GEBIET DER TECHNIK
- Die Offenbarung bezieht sich im Allgemeinen auf ein Bildkorrekturverfahren und -system und insbesondere auf ein Bildkorrekturverfahren und -system basierend auf Deep Learning.
- STAND DER TECHNIK
- Auf dem Gebiet der Bilderkennung, insbesondere der Zeichenerkennung in einem Bild, wird zunächst ein das Zielzeichen enthaltendes lokales Bild aus dem Bild lokalisiert und dann als Vorderansichtsbild für das nachfolgende Erkennungsmodell zum Durchführen einer Zeichenerkennung korrigiert. Eine Bildkorrekturprozedur wandelt die Bilder mit unterschiedlichen Ansichtswinkeln und Abständen in Vorderansichtsbilder mit gleichem Winkel und Abstand um, um das Lernen des Erkennungsmodells zu beschleunigen und die Erkennungsgenauigkeit zu erhöhen.
- In der heutigen Technologie stützt sich die Bildkorrekturprozedur jedoch immer noch auf das herkömmliche Bildverarbeitungsverfahren zum manuellen Finden der Drehparameter und wiederholten Anpassen der Parameter zum Erhöhen der Genauigkeit der Bildkorrekturprozedur. Obwohl die Bildkorrekturprozedur unter Verwendung der Technologie der künstlichen Intelligenz (KI) durchgeführt werden kann, kann die Bildkorrekturprozedur nur Drehwinkel im Uhrzeigersinn oder im Gegenuhrzeigersinn finden und kann in komplizierter Bildverarbeitung nicht zum Skalieren, Verschieben oder Neigen des Bildes verwendet werden.
- Daher ist es für die Industrie eine herausragende Aufgabe geworden, verschiedene Bilder als Vorderansichtsbilder effizient und korrekt zu korrigieren.
- KURZDARSTELLUNG
- Die Offenbarung bezieht sich auf ein Bildkorrekturverfahren und ein System basierend auf Deep Learning. Die Perspektiventransformationsparameter für die Bildkorrekturprozedur werden durch ein Modell für Deep Learning gefunden und zum effizienten Korrigieren verschiedener Bilder in Vorderansichtsbilder und weiteren Aktualisieren des Deep Learning Modells mit dem Verlustwert zum Erhöhen der Erkennungsgenauigkeit verwendet.
- Gemäß einer Ausführungsform wird ein Bildkorrekturverfahren bereitgestellt, das auf Deep Learning basiert. Das Bildkorrekturverfahren weist die folgenden Schritte auf. Ein Bild, das mindestens ein Zeichen enthält, wird durch ein Deep Learning Modell empfangen und eine Perspektiventransformationsmatrix wird gemäß dem Bild erzeugt. Eine Perspektiventransformation wird gemäß der Perspektiventransformationsmatrix an dem Bild durchgeführt, und ein korrigiertes Bild, das eine Vorderansicht des mindestens einen Zeichens enthält, wird erhalten. Ein optimiertes korrigiertes Bild, das die Vorderansicht des mindestens einen Zeichens enthält, wird gemäß dem Bild erzeugt. Eine optimierte Perspektiventransformationsmatrix, die dem Bild und dem optimierten korrigierten Bild entspricht, wird erhalten. Ein Verlustwert zwischen der optimierten Perspektiventransformationsmatrix und der Perspektiventransformationsmatrix wird berechnet. Das Deep Learning Modell wird mit dem Verlustwert aktualisiert.
- Gemäß einer anderen Ausführungsform wird ein Bildkorrektursystem bereitgestellt, das auf Deep Learning basiert. Das Bildkorrektursystem weist ein Modell für Deep Learning, eine Verarbeitungseinheit und eine Modellanpassungseinheit auf. Das Modell für Deep Learning ist konfiguriert zum Empfangen eines Bildes, das mindestens ein Zeichen enthält, und Erzeugen einer Perspektiventransformationsmatrix gemäß dem Bild. Die Verarbeitungseinheit ist konfiguriert zum Empfangen des Bildes und der Perspektiventransformationsmatrix und Durchführen einer Perspektiventransformation an dem Bild gemäß der Perspektiventransformationsmatrix zum Erhalten eines korrigierten Bildes, das eine Vorderansicht des mindestens einen Zeichens enthält. Die Modellanpassungseinheit ist konfiguriert zum Empfangen des Bildes, Erzeugen eines optimierten korrigierten Bildes, das die Vorderansicht des mindestens einen Zeichens gemäß dem Bild enthält, Erhalten einer optimierten Perspektiventransformationsmatrix, die dem Bild und dem optimierten korrigierten Bild entspricht, Berechnen eines Verlustwertes zwischen der optimierten Perspektiventransformationsmatrix und der Perspektiventransformationsmatrix und Aktualisieren des Modells für Deep Learning mit dem Verlustwert.
- Die vorstehenden und andere Aspekte der Offenbarung werden in Bezug auf die folgende ausführliche Beschreibung der bevorzugten, aber nicht einschränkenden Ausführungsform(en) besser verständlich. Die folgende Beschreibung erfolgt unter Bezugnahme auf die beigefügten Figuren.
- Figurenliste
-
-
1 ist ein schematisches Diagramm eines Bildkorrektursystems basierend auf Deep Learning gemäß einer Ausführungsform der vorliegenden Offenbarung; -
2 ist ein Flussdiagramm einer Ausführungsform eines Bildkorrekturverfahrens basierend auf Deep Learning gemäß der vorliegenden Offenbarung; -
3 ist ein schematisches Diagramm eines Bildes, das ein Fahrzeugkennzeichen gemäß einer Ausführungsform der vorliegenden Offenbarung enthält; -
4 ist ein schematisches Diagramm eines Bildes, das ein Straßenschild enthält, gemäß einer anderen Ausführungsform der vorliegenden Offenbarung; -
5 ist ein schematisches Diagramm eines korrigierten Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung; -
6 ist ein Flussdiagramm von Teilschritten von Schritt S130 gemäß einer Ausführungsform der vorliegenden Offenbarung; -
7 ist ein schematisches Diagramm eines Bildes, das Markierungen enthält, gemäß einer Ausführungsform der vorliegenden Offenbarung; -
8 ist ein schematisches Diagramm eines Bildes und eines erweiterten Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung; -
9 ist ein schematisches Diagramm eines optimierten korrigierten Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung; -
10 ist ein schematisches Diagramm eines Bildkorrektursystems basierend auf Deep Learning gemäß einer Ausführungsform der vorliegenden Offenbarung; und -
11 ist ein Flussdiagramm eines Bildkorrekturverfahrens basierend auf Deep Learning gemäß einer anderen Ausführungsform der vorliegenden Offenbarung. - In der folgenden ausführlichen Beschreibung werden zu Zwecken der Erläuterung zahlreiche spezifische Details dargelegt, um ein gründliches Verständnis der offenbarten Ausführungsformen bereitzustellen. Es versteht sich jedoch, dass eine oder mehrere Ausführungsformen ohne diese spezifischen Details ausgeführt werden können. In anderen Fällen sind bekannte Konstruktionen und Vorrichtungen schematisch dargestellt, um die Zeichnung zu vereinfachen.
- AUSFÜHRLICHE BESCHREIBUNG
- Bezugnehmend auf
1 wird ein schematisches Diagramm eines Bildkorrektursystems 100 basierend auf Deep Learning gemäß einer Ausführungsform der vorliegenden Offenbarung gezeigt. Das Bildkorrektursystem 100 weist ein Deep Learning Modell110, eine Verarbeitungseinheit 120 und eine Modellanpassungseinheit 130 auf. Das Deep Learning Modell 110 kann durch ein Modell für ein faltendes neurales Netzwerk (Convolutional Neural Network, CNN) realisiert sein. Die Verarbeitungseinheit 120 und die Modellanpassungseinheit 130 können durch einen Chip, eine Leiterplatte oder eine Schaltung realisiert sein. - Siehe gleichzeitig
1 und2 .2 ist ein Flussdiagramm einer Ausführungsform eines Bildkorrekturverfahrens basierend auf Deep Learning gemäß der vorliegenden Offenbarung. - In Schritt S110 wird ein Bild IMG1, das mindestens ein Zeichen enthält, durch das Deep Learning Modell 110 empfangen, und eine Perspektiventransformationsmatrix T wird gemäß dem Bild IMG1 erzeugt. Das Bild IMG1 kann ein beliebiges Bild sein, das mindestens ein Zeichen enthält, wie etwa das Bild eines Fahrzeugkennzeichens, eines Straßenschildes, einer Seriennummer oder einer Hinweistafel. Das mindestens eine Zeichen ist etwa eine Zahl, ein englisches Zeichen, ein Bindestrich, ein Satzzeichen oder eine Kombination davon. Siehe
3 und4 .3 ist ein schematisches Diagramm eines Bildes IMG1, das ein Fahrzeugkennzeichen enthält, gemäß einer Ausführungsform der vorliegenden Offenbarung. Wie in3 angegeben, enthält das Bild IMG1 Zeichen „ABC-5555“.4 ist ein schematisches Diagramm eines Bildes IMG1, das ein Straßenschild enthält, gemäß einer anderen Ausführungsform der vorliegenden Offenbarung. Wie in4 angedeutet, enthält das Bild IMG1 Zeichen „WuXing St.“. Das Deep Learning Modell 110 ist ein vortrainiertes Modell, und wenn das Bild IMG1 in das Deep Learning Modell 110 eingegeben wird, gibt das Deep Learning Modell 110 entsprechend die Perspektiventransformationsmatrix T aus, die dem Bild IMG1 entspricht. Die Perspektiventransformationsmatrix T enthält mehrere Perspektiventransformationsparameter T11, T12, T13, T21, T22, T23, T31, T32 und 1, wie in Formel 1 angegeben. - In Schritt S120 wird eine Perspektiventransformation an dem Bild IMG1 durch die Verarbeitungseinheit 120 gemäß der Perspektiventransformationsmatrix T durchgeführt, um ein korrigiertes Bild IMG2 zu erhalten, das eine Vorderansicht des mindestens einen Zeichens enthält. Die Verarbeitungseinheit 120 führt die Perspektiventransformation an dem Bild IMG1 gemäß der Perspektiventransformationsmatrix T durch, um das Bild IMG1 in das korrigierte Bild IMG2 umzuwandeln, das die Vorderansicht des mindestens einen Zeichens enthält. Bezugnehmend auf
5 wird ein schematisches Diagramm eines korrigierten Bildes IMG2 gemäß einer Ausführungsform der vorliegenden Offenbarung gezeigt. Es sei beispielsweise das Bild IMG1 von3 herangezogen. Das Bild IMG1 enthält ein Fahrzeugkennzeichen. Nachdem die Perspektiventransformation an dem Bild IMG1 gemäß der Perspektiventransformationsmatrix T durchgeführt wurde, kann das korrigierte Bild IMG2, wie in5 angegeben, erhalten werden. - In Schritt S130 wird das Deep Learning Modell 110 durch die Modellanpassungseinheit 130 mit einem Verlustwert L aktualisiert. Bezugnehmend auf
6 wird ein Flussdiagramm von Teilschritten von Schritt S130 gemäß einer Ausführungsform der vorliegenden Offenbarung gezeigt. Der Schritt S130 weist die Schritte S131 bis S135 auf. - In Schritt S131 wird das Bild IMG1 durch die Modellanpassungseinheit 130 markiert, wobei die Markierung einen das Zeichen abdeckenden Markierungsbereich enthält. Mit Bezug auf
7 wird ein schematisches Diagramm eines Bildes IMG1, das Markierungen enthält, gemäß einer Ausführungsform der vorliegenden Offenbarung dargestellt. Die Markierungen auf dem Bild IMG1 weisen Markierungspunkte A, B, C und D auf, die einen das Zeichen abdeckenden Markierungsbereich R bilden. In der vorliegenden Ausführungsform ist das Bild IMG1 ein Bild, das ein Fahrzeugkennzeichen enthält, die Markierungspunkte A, B, C und D können sich an den vier Ecken des Fahrzeugkennzeichens befinden, und der Markierungsbereich R ist ein Viereck. Wenn in einer anderen Ausführungsform das Bild IMG1 ein Bild ist, das ein Straßenschild enthält, wie in4 angegeben, und die Markierungspunkte A, B, C und D sich an den vier Ecken des Straßenschildes befinden können, ist der Markierungsbereich ein Viereck. Wenn in einer anderen Ausführungsform das Zeichen in dem Bild IMG1 sich nicht auf einem geometrischen Objekt, wie etwa einem Fahrzeugkennzeichen oder einem Straßenschild, befindet, muss die Modellanpassungseinheit 130 nur ermöglichen, dass der Markierungsbereich das Zeichen abdeckt. In einer anderen Ausführungsform kann die Modellanpassungseinheit 130 direkt ein markiertes Bild empfangen, führt jedoch die Markierungen nicht durch. - Bezugnehmend auf
8 wird ein schematisches Diagramm eines Bildes IMG3 und eines erweiterten Bildes IMG4 gemäß einer Ausführungsform der vorliegenden Offenbarung gezeigt. Wenn in einer Ausführungsform der Markierungsbereich das Zeichen in dem Bild IMG3 nicht abdecken kann oder das Zeichen in dem Bild IMG3 das Bild IMG3 überschreitet, erweitert die Modellanpassungseinheit 130 das Bild IMG3, um ein erweitertes Bild IMG4 zu erhalten und markiert das erweiterte Bild IMG4, sodass der Markierungsbereich R' das Zeichen abdecken kann. In der vorliegenden Ausführungsform fügt die Modellanpassungseinheit 130 dem Bild IMG3 ein Leerbild BLK hinzu, um das erweiterte Bild IMG4 zu erhalten. - Siehe wieder
7 . In Schritt S132 wird ein optimiertes korrigiertes Bild, das eine Vorderansicht des Zeichens enthält, gemäß dem Bild IMG1 durch die Modellanpassungseinheit 130 erzeugt. In der vorliegenden Ausführungsform richtet die Modellanpassungseinheit 130 die Pixel an den Markierungspunkten A, B, C und D des Bildes IMG1 auf die vier Ecken des Bildes aus, um das optimierte korrigierte Bild zu erhalten. Bezugnehmend auf9 wird ein schematisches Diagramm eines optimierten korrigierten Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung gezeigt. Wie in9 angegeben, enthält das optimierte korrigierte Bild die Vorderansicht des Zeichens. - In Schritt S133 wird eine optimierte Perspektiventransformationsmatrix, die dem Bild IMG1 und dem optimierten korrigierten Bild entspricht, durch die Modellanpassungseinheit 130 erhalten. Aufgrund der Perspektiventransformationsbeziehung zwischen dem Bild IMG1 und dem optimierten korrigierten Bild kann die Modellanpassungseinheit 130 eine Perspektiventransformationsmatrix unter Verwendung des Bildes IMG1 und des optimierten korrigierten Bildes berechnen und die berechnete Perspektiventransformationsmatrix als die optimierte Perspektiventransformationsmatrix verwenden.
- In Schritt S134 wird ein Verlustwert L zwischen der optimierten Perspektiventransformationsmatrix und der Perspektiventransformationsmatrix T durch die Modellanpassungseinheit 130 berechnet. In Schritt S135 wird das Deep Learning Modell 110 durch die Modellanpassungseinheit 130 mit dem Verlustwert L aktualisiert. Wie in
5 angegeben, kann, da das korrigierte Bild IMG2, das durch Durchführen einer Perspektiventransformation an dem Bild IMG1 gemäß der Perspektiventransformationsmatrix T erhalten wird, nicht mit einem besten Ergebnis übereinstimmt, das Modell für Deep Learning 110 durch die Modellanpassungseinheit 130 mit dem Verlustwert L aktualisiert werden. - Gemäß dem Bildkorrektursystem 100 und dem Verfahren basierend auf Deep Learning der vorliegenden Offenbarung werden die Perspektiventransformationsparameter für die Bildkorrekturprozedur durch ein Deep Learning Modell gefunden und zum effizienten Korrigieren verschiedener Bilder in Vorderansichtsbilder und weiteren Aktualisieren des Deep Learning Modells mit dem Verlustwert zum Erhöhen der Erkennungsgenauigkeit verwendet.
- Bezugnehmend auf
10 wird ein schematisches Diagramm eines Bildkorrektursystems 1100 basierend auf Deep Learning gemäß einer Ausführungsform der vorliegenden Offenbarung gezeigt. Das Bildkorrektursystem 1100 unterscheidet sich von dem Bildkorrektursystem 100 dadurch, dass das Bildkorrektursystem 1100 ferner eine Bilderfassungseinheit 1140 aufweist, die durch eine Kamera realisiert sein kann. Siehe gleichzeitig10 und11 .11 ist ein Flussdiagramm eines Bildkorrekturverfahrens basierend auf Deep Learning gemäß einer anderen Ausführungsform der vorliegenden Offenbarung. - In Schritt S1110 wird ein Bild IMG5, das mindestens ein Zeichen enthält, durch die Bilderfassungseinheit 1140 erfasst.
- In Schritt S1120 wird ein Bild IMG5 durch das Deep Learning Modell 1110 empfangen, und eine Perspektiventransformationsmatrix T' wird gemäß dem Bild IMG5 erzeugt. Schritt S1120 ähnelt Schritt S110 von
2 , und die Ähnlichkeiten werden hier nicht wiederholt. - In Schritt S1130 wird eine Aufnahmeinformation SI durch das Deep Learning Modell 1110 empfangen, und mehrere Perspektiventransformationsparameter der Perspektiventransformationsmatrix T' werden entsprechend der Aufnahmeinformation SI begrenzt. Die Aufnahmeinformation SI ist ein Aufnahmeort, eine Aufnahmerichtung und ein Aufnahmewinkel. Der Aufnahmeort, die Aufnahmerichtung und der Aufnahmewinkel können durch 3 Parameter, 2 Parameter bzw. 1 Parameter dargestellt werden. Die Perspektiventransformationsmatrix T' enthält mehrere Perspektiventransformationsparameter T'11, T'12, T'13, T'21, T'22, T'23, T'31, T'32 und 1, wie in Formel 2 angegeben. Die Perspektiventransformationsparameter T'11, T'12, T'13, T'21, T'22, T'23, T'31, T'32 können gemäß den 6 Parametern des Aufnahmeortes, der Aufnahmerichtung und des Aufnahmewinkels bestimmt werden.
- Zunächst ordnet das Deep Learning Modell 1110 jedem der 6 Parameter des Aufnahmeortes, der Aufnahmerichtung und des Aufnahmewinkels einen angemessenen Bereich zu und berechnet den Perspektiventransformationsparameter T'mn unter Verwendung eines Gittersuchalgorithmus, um einen größten Wert Lmn und einen kleinsten Wert Smn des Perspektiventransformationsparameters T'mn zu erhalten. Dann berechnet das Deep Learning Modell 1110 jeden Perspektiventransformationsparameter T'mn gemäß Formel 3:
- In Schritt S1140 wird eine Perspektiventransformation an dem Bild IMG5 durch die Verarbeitungseinheit 1120 gemäß der Perspektiventransformationsmatrix T' durchgeführt, um ein korrigiertes Bild IMG6 zu erhalten, das eine Vorderansicht des mindestens einen Zeichens enthält. Schritt S1140 ähnelt Schritt S120 von
2 , und die Ähnlichkeiten werden hier nicht wiederholt. - In Schritt S1150 wird das Deep Learning Modell 1110 mit einem Verlustwert L' aktualisiert. Schritt S1150 ähnelt Schritt S130 von
2 , und die Ähnlichkeiten werden hier nicht wiederholt. - Somit können das Bildkorrektursystem 1100 und das auf Deep Learning basierende Verfahren der vorliegenden Offenbarung den Bereich des Perspektiventransformationsparameters gemäß den Aufnahmeinformationen SI begrenzen, um die Genauigkeit des Deep Learning Modells 1110 zu erhöhen und das Trainieren für Deep Learning Modells 1110 zu erleichtern.
- Es ist für Fachleute offensichtlich, dass verschiedene Modifikationen und Variationen an den offenbarten Ausführungsformen vorgenommen werden können. Es ist beabsichtigt, dass die Beschreibung und die Beispiele nur als beispielhaft angesehen werden, wobei ein wirklicher Umfang der Offenbarung durch die folgenden Ansprüche und ihre Äquivalente angegeben wird.
Claims (10)
- Bildkorrekturverfahren basierend auf Deep Learning, umfassend: Empfangen eines Bildes, das mindestens ein Zeichen enthält, durch ein Deep Learning Modell und Erzeugen einer Perspektiventransformationsmatrix gemäß dem Bild; Durchführen einer Perspektiventransformation an dem Bild gemäß der Perspektiventransformationsmatrix zum Erhalten eines korrigierten Bildes, das eine Vorderansicht des mindestens einen Zeichens enthält; Erzeugen eines optimierten korrigierten Bildes, das die Vorderansicht des mindestens einen Zeichens gemäß dem Bild enthält; Erhalten einer optimierten Perspektiventransformationsmatrix, die dem Bild und dem optimierten korrigierten Bild entspricht; Berechnen eines Verlustwertes zwischen der optimierten Perspektiventransformationsmatrix und der Perspektiventransformationsmatrix; und Aktualisieren des Deep Learning Modells mit dem Verlustwert.
- Bildkorrekturverfahren nach
Anspruch 1 , wobei der Schritt des Erzeugens des optimierten korrigierten Bildes, das die Vorderansicht des mindestens einen Zeichens gemäß dem Bild enthält, umfasst: Markieren des Bildes, das einen Markierungsbereich enthält, der das mindestens eine Zeichen abdeckt. - Bildkorrekturverfahren nach
Anspruch 2 , ferner umfassend: wenn der Markierungsbereich das mindestens eine Zeichen nicht abdecken kann, Erweitern des Bildes, um ein erweitertes Bild zu erhalten; und Markieren des erweiterten Bildes, sodass der Markierungsbereich das mindestens eine Zeichen abdeckt. - Bildkorrekturverfahren nach
Anspruch 1 , ferner umfassend: Erfassen des Bildes durch eine Bilderfassungseinheit; und Begrenzen einer Vielzahl von Perspektiventransformationsparametern der Perspektiventransformationsmatrix gemäß einer Aufnahmeinformation der Bilderfassungseinheit. - Bildkorrekturverfahren nach
Anspruch 4 , wobei die Aufnahmeinformationen einen Aufnahmeort, eine Aufnahmerichtung und einen Aufnahmewinkel umfassen. - Bildkorrektursystem basierend auf Deep Learning, umfassend: ein Deep Learning Modell, das konfiguriert ist zum Empfangen eines Bildes, das mindestens ein Zeichen enthält, und Erzeugen einer Perspektiventransformationsmatrix gemäß dem Bild; eine Verarbeitungseinheit, die konfiguriert ist zum Empfangen des Bildes und der Perspektiventransformationsmatrix und Durchführen einer Perspektiventransformation an dem Bild gemäß der Perspektiventransformationsmatrix zum Erhalten eines korrigierten Bildes, das eine Vorderansicht des mindestens einen Zeichens enthält; und eine Modellanpassungseinheit, die konfiguriert ist zum Empfangen des Bildes, Erzeugen eines optimierten korrigierten Bildes, das die Vorderansicht des mindestens einen Zeichens gemäß dem Bild enthält, Erhalten einer optimierten Perspektiventransformationsmatrix, die dem Bild und dem optimierten korrigierten Bild entspricht, Berechnen eines Verlustwertes zwischen der optimierten Perspektiventransformationsmatrix und der Perspektiventransformationsmatrix und Aktualisieren des Deep Learning Modells mit dem Verlustwert.
- Bildkorrektursystem nach
Anspruch 6 , wobei die Modellanpassungseinheit ferner das Bild markiert, das einen Markierungsbereich enthält, der das mindestens eine Zeichen abdeckt. - Bildkorrektursystem nach
Anspruch 7 , wobei, wenn der Markierungsbereich das mindestens eine Zeichen nicht abdecken kann, die Modellanpassungseinheit das Bild weiter erweitert, um ein erweitertes Bild zu erhalten, und das erweiterte Bild markiert, sodass der Markierungsbereich das mindestens eine Zeichen abdeckt. - Bildkorrektursystem nach
Anspruch 6 , ferner umfassend: eine Bilderfassungseinheit, die konfiguriert ist zum Erfassen des Bildes; wobei die Verarbeitungseinheit eine Vielzahl von Perspektiventransformationsparametern der Perspektiventransformationsmatrix gemäß einer Aufnahmeinformation der Bilderfassungseinheit begrenzt. - Bildkorrektursystem nach
Anspruch 9 , wobei die Aufnahmeinformation einen Aufnahmeort, eine Aufnahmerichtung und einen Aufnahmewinkel umfasst.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109129193A TWI790471B (zh) | 2020-08-26 | 2020-08-26 | 基於深度學習的影像校正方法及系統 |
TW109129193 | 2020-08-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102020134888A1 true DE102020134888A1 (de) | 2022-03-03 |
Family
ID=80221137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102020134888.6A Pending DE102020134888A1 (de) | 2020-08-26 | 2020-12-23 | Bildkorrekturverfahren und system basierend auf deep learning |
Country Status (7)
Country | Link |
---|---|
US (1) | US20220067881A1 (de) |
JP (1) | JP7163356B2 (de) |
CN (1) | CN114119379A (de) |
DE (1) | DE102020134888A1 (de) |
IL (1) | IL279443B1 (de) |
NO (1) | NO20210058A1 (de) |
TW (1) | TWI790471B (de) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11908100B2 (en) * | 2021-03-15 | 2024-02-20 | Qualcomm Incorporated | Transform matrix learning for multi-sensor image capture devices |
CN115409736B (zh) * | 2022-09-16 | 2023-06-20 | 深圳市宝润科技有限公司 | 医用数字x射线摄影系统的几何校正方法及相关设备 |
WO2024130515A1 (en) | 2022-12-19 | 2024-06-27 | Maplebear Inc. | Subregion transformation for label decoding by an automated checkout system |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200089985A1 (en) | 2017-12-22 | 2020-03-19 | Beijing Sensetime Technology Development Co., Ltd. | Character image processing method and apparatus, device, and storage medium |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2135240A1 (en) * | 1993-12-01 | 1995-06-02 | James F. Frazier | Automated license plate locator and reader |
CN101398894B (zh) * | 2008-06-17 | 2011-12-07 | 浙江师范大学 | 机动车车牌自动识别方法及其实现装置 |
CA2747337C (en) * | 2008-12-17 | 2017-09-26 | Thomas D. Winkler | Multiple object speed tracking system |
US9317764B2 (en) * | 2012-12-13 | 2016-04-19 | Qualcomm Incorporated | Text image quality based feedback for improving OCR |
US9785855B2 (en) * | 2015-12-17 | 2017-10-10 | Conduent Business Services, Llc | Coarse-to-fine cascade adaptations for license plate recognition with convolutional neural networks |
CN107169489B (zh) * | 2017-05-08 | 2020-03-31 | 北京京东金融科技控股有限公司 | 倾斜图像校正的方法和装置 |
US10810465B2 (en) * | 2017-06-30 | 2020-10-20 | Datalogic Usa, Inc. | Systems and methods for robust industrial optical character recognition |
CN108229474B (zh) * | 2017-12-29 | 2019-10-01 | 北京旷视科技有限公司 | 车牌识别方法、装置及电子设备 |
EP3912338B1 (de) * | 2019-01-14 | 2024-04-10 | Dolby Laboratories Licensing Corporation | Teilen von physischen schreibflächen in einer videokonferenz |
US20200388068A1 (en) * | 2019-06-10 | 2020-12-10 | Fai Yeung | System and apparatus for user controlled virtual camera for volumetric video |
US11544916B2 (en) * | 2019-11-13 | 2023-01-03 | Battelle Energy Alliance, Llc | Automated gauge reading and related systems, methods, and devices |
CN111223065B (zh) | 2020-01-13 | 2023-08-01 | 中国科学院重庆绿色智能技术研究院 | 图像矫正方法、不规则文本识别方法、装置、存储介质和设备 |
-
2020
- 2020-08-26 TW TW109129193A patent/TWI790471B/zh active
- 2020-11-09 CN CN202011241410.7A patent/CN114119379A/zh active Pending
- 2020-11-25 US US17/104,781 patent/US20220067881A1/en not_active Abandoned
- 2020-12-14 IL IL279443A patent/IL279443B1/en unknown
- 2020-12-21 JP JP2020211742A patent/JP7163356B2/ja active Active
- 2020-12-23 DE DE102020134888.6A patent/DE102020134888A1/de active Pending
-
2021
- 2021-01-19 NO NO20210058A patent/NO20210058A1/en unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200089985A1 (en) | 2017-12-22 | 2020-03-19 | Beijing Sensetime Technology Development Co., Ltd. | Character image processing method and apparatus, device, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
TW202209175A (zh) | 2022-03-01 |
TWI790471B (zh) | 2023-01-21 |
IL279443A (en) | 2022-03-01 |
IL279443B1 (en) | 2024-09-01 |
JP7163356B2 (ja) | 2022-10-31 |
US20220067881A1 (en) | 2022-03-03 |
NO20210058A1 (en) | 2022-02-28 |
JP2022039895A (ja) | 2022-03-10 |
CN114119379A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102020134888A1 (de) | Bildkorrekturverfahren und system basierend auf deep learning | |
DE112017002799B4 (de) | Verfahren und system zum generieren multimodaler digitaler bilder | |
DE102015207676B4 (de) | Verfahren und Vorrichtung zur Hinderniserkennung auf Basis einer monokularen Kamera | |
DE102017220307B4 (de) | Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen | |
DE102016013274A1 (de) | Bildverarbeitungsvorrichtung und verfahren zur erkennung eines bilds eines zu erkennenden objekts aus eingabedaten | |
DE112013004103B4 (de) | Verfahren und Vorrichtung zum Erzeugen einer Disparitätskarte | |
DE102005003605B4 (de) | Vorwissen, Niveaumengenrepräsentationen und visuelle Gruppierung | |
DE112018000298T5 (de) | System und verfahren zur poseninvarianten gesichtsausrichtung | |
DE102015209822A1 (de) | Erfassungseinrichtung, Erfassungsprogramm, Erfassungsverfahren, mit Erfassungseinrichtung ausgerüstetes Fahrzeug, Parameterberechnungseinrichtung, Parameter berechnende Parameter, Parameterberechnungsprogramm, und Verfahren zum Berechnen von Parametern | |
DE112018000107T5 (de) | Fahrzeugkamerakalibrierungsvorrichtung und -Verfahren | |
DE112016004266T5 (de) | Verfahren zur Gesichtsausrichtung | |
DE102013207484A1 (de) | Nummernschildzeichensegmentierung unter Verwendung von Wahrscheinlichkeitsmaximierung | |
DE112011103221T5 (de) | Erweitern von Bilddaten basierend auf zugehörigen 3D-Punktwolkendaten | |
DE102018113992A1 (de) | Verfahren und Gerät zum Erfassen einer Fahrspur | |
DE112020006492T5 (de) | Verfahren zum Erzeugen eines Quick-Response-Codes und Druckvorrichtung | |
DE112020005223T5 (de) | Objektverfolgungseinrichtung und Objektverfolgungsverfahren | |
DE102020122844A1 (de) | System und verfahren für tiefgehendes maschinelles lernen für computer-vision-anwendungen | |
DE112010002677T5 (de) | Verfahren und vorrichtung zum bestimmen einer formübereinstimmung in drei dimensionen | |
DE112018006996B4 (de) | Bildverarbeitungsvorrichtung und Bildverarbeitungsverfahren | |
DE112021002598T5 (de) | Bildverarbeitungsvorrichtung | |
DE102019105293A1 (de) | Schätzung der Bewegung einer Bildposition | |
DE112021000027T5 (de) | Trainingsdatenerzeugungsverfahren, Trainingsdatenerzeugungsvorrichtung und Programm | |
DE102020116774A1 (de) | Automatische visuelle Wahrnehmung mittels eines künstlichen neuronalen Netzes | |
EP3811336B1 (de) | Verfahren zur bestimmung von zueinander korrespondierenden bildpunkten, soc zur durchführung des verfahrens, kamerasystem mit dem soc, steuergerät und fahrzeug | |
DE102018212652B4 (de) | Deckenkartenerstellungsverfahren, deckenkartenerstellungsvorrichtung und deckenkartenerstellungsprogramm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R016 | Response to examination communication | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06K0009000000 Ipc: G06V0010000000 |