GR1010325B

GR1010325B - Annotating unlabeled images using convolutional neural networks

Info

Publication number: GR1010325B
Application number: GR20220100154A
Authority: GR
Inventors: Βασιλειος Τσαγκαρης; Χρηστος Θεοχαρατος; Δημητρης Καστανιωτης
Original assignee: Συστηματα Υπολογιστικης Ορασης, Irida Labs A.E.,
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2022-10-14
Also published as: GR20220100154A

Abstract

A method and information storage media having instructions stored thereon for supervised Deep Learning (DL) systems to learn directly from unlabeled data without any user annotation. The annotation-free solutions incorporate a new learning module, the Localization, Synthesis and Teacher/Annotation Network (LSTN) module, which features a data synthesis and generation engine as well as a Teacher network for object detection and segmentation that feeds the processing loop with new annotated objects detected from images captured at the field. The first step in the LSTN module learns how to localize and segment the objects within a given image/scene following an unsupervised approach as no annotations about the objects' segmentation mask or bounding box are provided. The exemplary LSTN module also features significant properties that automate the continuous development and integration of deep learning models by (1) learning to synthesize annotated data given only a few samples of the target objects, (2) continuously increasing the object set by adding newly detected objects via an annotation network and (3) supporting the training of the end-model to be released at edge devices via knowledge transfer using a distillation approach by following a Teacher-Student scheme. The overall approach is related with life-long learning, continuous learning and incremental learning approaches that learn how to improve their performance or augment their knowledge by utilizing data observed during deployment or provided as input by the user.

Description

Επισήμανση μη Χαρακτηρισμένων Εικόνων με χρήση Συνελικτικών Νευρωνικών Δικτύων Labeling Unlabeled Images Using Convolutional Neural Networks

ΠΕΡΙΓΡΑΦΗ DESCRIPTION

ΙΣΤΟΡΙΚΟ RECORD

Πεδίο Field

Αυτή η τεχνολογία σχετίζεται με τον τομέα της μηχανικής μάθησης καί των μεθόδων και συστημάτων βαθιάς μάθησης με εφαρμογές οπτικής κατανόησης που μαθαίνουν να επιλύουν επίβλεπόμενες εργασίες εκμάθησης όπως η αναγνώριση εικόνων, η ανίχνευση αντικειμένων και η τμη ματοποίηση εικόνων χωρίς να απαιτούνται επίσημασμένα δεδομένα (annotated data). Πιο συγκεκριμένα, σχετίζεται με ημί-επίβλεπόμενη, ασθενώς επίβλεπόμενη, αυτό-επίβλεπόμενη μάθηση καί παρόμοιες προσεγγίσεις που προσπαθούν να μειώσουν ή να εξαλείψουν τον όγκο των επίσημασμένων (ή χαρακτηρισμένων) δεδομένων που απαιτούνται για την εκπαίδευση. This technology is related to the field of machine learning and deep learning methods and systems with visual understanding applications that learn to solve supervised learning tasks such as image recognition, object detection and image segmentation without requiring annotated data. . More specifically, it relates to semi-supervised, weakly supervised, self-supervised learning, and similar approaches that attempt to reduce or eliminate the amount of formalized (or labeled) data required for training.

Περιγραφή της Σχετικής Τεχνολογίας Description of Related Technology

Η εμφάνιση μοντέλων βαθιάς μάθησης έφερε μία αναγέννηση καί ανασυγκρότησε την ανάπτυξη λύσεων υπολογιστικής όρασης (computer vision) καί μηχανικής μάθησης. Σε σύγκριση με τις τεχνικές εξαγωγής χαρακτηριστικών, όπου τα δεδομένα επεξεργάζονταν χρησιμοποιώντας μια συνάρτηση καθορισμένη από τον χρήστη καί μεθόδους ρηχής μάθησης που μπορούσαν να μάθουν αναπαραστάσεις χαμηλού επιπέδου χαρακτηριστικών, τα μοντέλα βαθιάς μάθησης παρουσίασαν ένα νέο πρότυπο μάθησης. Με αυτό το πρότυπο, οι αρχιτεκτονικές βαθιάς μάθησης μπορούν να μάθουν αναπαραστάσεις χαρακτηριστικών υψηλού επιπέδου από δεδομένα εικόνας, βίντεο ή ακολουθίας δεδομένων με τεχνικές από άκρο-σε-άκρο. Ωστόσο, αυτά τα μοντέλα απαιτούν μεγάλες ποσότητες επίσημασμένων δεδομένων, είναι επιρρεπή σε υπερπροσαρμογή (overfit) ή/καί μάθηση συστηματικών χαρακτηριστικών από τα δεδομένα, περιορίζοντας με αυτόν τον τρόπο τη δυνατότητα εφαρμογής καί την επεκτασίμότητα αυτών των μοντέλων σε προβλήματα του πραγματικού κόσμου. The emergence of deep learning models brought a renaissance and restructured the development of computer vision and machine learning solutions. Compared to feature extraction techniques, where data were processed using a user-defined function and shallow learning methods that could learn low-level feature representations, deep learning models presented a new learning paradigm. With this pattern, deep learning architectures can learn high-level feature representations from image, video, or sequence data with end-to-end techniques. However, these models require large amounts of formalized data, are prone to overfitting and/or learning systematic features from the data, thus limiting the applicability and scalability of these models to real-world problems.

Επιπλέον, σε προβλήματα του πραγματικού κόσμου είναι συχνά πολύ δύσκολο να συλλεχθούν μεγάλες ποσότητες δεδομένων που να είναι ταυτόχρονα αντιπροσωπευτικά του πραγματικού περιβάλλοντος ανάπτυξης - κάτι που είναι υποχρεωτικό για την επίτευξη της βέλτιστης απόδοσης (πλησίον ή καλύτερης από το ανθρώπινο επίπεδο). Ειδικά, η συλλογή δεδομένων από το πεδίο είναι στις περισσότερες περιπτώσεις αδύνατη καί μπορεί να πραγματοποιηθεί μόνο μετά την αξιοποίηση εκατοντάδων οπτικών αισθητήρων που θα παράγουν τεράστιες ποσότητες δεδομένων. Επιπλέον, η εκπαίδευση του συστήματος μετά την χρήση των οπτικών αισθητήρων εισάγει σημαντικές καθυστερήσεις καί αυξάνει το κόστος, καθώς τα συστήματα πρέπει να είναι λειτουργικά μετά την πρώτη ανάπτυξη καί υπολειτουργούν για την εργασία για την οποία έχουν σχεδιαστεί. Η επισήμανση των δεδομένων πεδίου απαιτεί πολλή προσπάθεια, είναι χρονοβόρα, ενώ η ποιότητα των επισημάνσεων μπορεί να επηρεάσει σε μεγάλο βαθμό το μοντέλο. Moreover, in real-world problems it is often very difficult to collect large amounts of data that are simultaneously representative of the real development environment - which is mandatory to achieve optimal performance (near or better than human level). Especially, the collection of data from the field is in most cases impossible and can only be realized after utilizing hundreds of optical sensors that will produce huge amounts of data. In addition, training the system after using the optical sensors introduces significant delays and increases costs, as the systems must be functional after the first deployment and are underpowered for the task they are designed for. Labeling field data requires a lot of effort, is time-consuming, and the quality of the labels can greatly affect the model.

Ο χαρακτηρισμός εικόνων (image labeling) είναι το πρώτο καί πιο σημαντικό μέρος της διαδικασίας μάθησης για την ανίχνευση αντικειμένων, καθώς παρέχει στο μοντέλο τη γνώση σχετικά με το περιεχόμενο των εικόνων. Μία εικόνα θεωρείται ως χαρακτηρισμένη (labeled) εάν η ίδια η εικόνα έχει εκχωρηθεί (ή θεωρείται ότι ανήκει) σε μία συγκεκριμένη κατηγορία εικόνων ή εάν τα αντικείμενα που περίέχονταί στην εικόνα έχουν εκχωρηθεί (ή θεωρείται ότι ανήκουν) σε μία συγκεκριμένη κατηγορία εικόνων. Εάν ο χαρακτηρισμός αναφέρεταί σε συγκεκριμένα αντικείμενα μέσα στην εικόνα, τότε συνήθως εκτελείται χειροκίνητη επισήμανση στην οποία συνήθως τοποθετούνται πλαίσια ορίοθέτησης γύρω από τα αντιχείμενα-στόχους προκειμένου να οριστεί η θέση τους μέσα σε μία δεδομένη εικόνα. Ο χαρακτηρισμός καί η επισήμανση είναι μία πολύ χρονοβόρα διαδικασία, αλλά όσο μεγαλύτερη αφοσίωση δίνεται στην επισήμανση εικόνων τόσο πιο ακριβές μπορεί να είναι ένα μοντέλο βαθιάς μάθησης. Παρά το γεγονός ότι συνήθως χρησιμοποιούνται ορθογώνια πλαίσια οριοθέτησης για την περιγραφή της θέσης των αντικειμένων στην εικόνα, ο χαρακτηρισμός μπορεί να εκτελεστεί με τρισδιάστατα πλαίσια ορίοθέτησης, περιστρεφόμενα ή αυθαίρετου σχήματος πλαίσια ορίοθέτησης ή μάσκες τμηματοποίησης. Στην τελευταία περίπτωση, η επιφάνεια του αντικειμένου σημειώνεται σε επίπεδο εικονοστοιχείου (pixel) έχοντας ως αποτέλεσμα μία δυαδική μάσκα. Αυτές οι ιδιαιτερότητες θέτουν σημαντικούς περιορισμούς για την παροχή λύσεων βαθιάς μάθησης σε εφαρμογές πραγματικού κόσμου. Επίσης, μετά την επιτυχή εκπαίδευση καί ανάπτυξη αυτών των λύσεων, απαιτείται συνήθως η παρακολούθηση του συστήματος που χρησιμοποιείται προκείμένου να επαληθευτεί ότι το σύστημα λειτουργεί καλά ακόμα κι αν η κατανομή των υποκείμενων δεδομένων έχει αλλάξει. Image labeling is the first and most important part of the learning process for object detection, as it provides the model with knowledge about the content of the images. An image is considered labeled if the image itself is assigned (or assumed to belong) to a certain image class, or if the objects contained in the image are assigned (or assumed to belong) to a certain image class. If the labeling refers to specific objects within the image, then manual labeling is usually performed in which bounding boxes are usually placed around the target objects in order to define their location within a given image. Characterization and labeling is a very time-consuming process, but the more dedication given to image labeling, the more accurate a deep learning model can be. Although rectangular bounding boxes are usually used to describe the location of objects in the image, characterization can be performed with 3D bounding boxes, rotating or arbitrary shaped bounding boxes, or segmentation masks. In the latter case, the surface of the object is marked at the pixel level resulting in a binary mask. These peculiarities pose significant limitations for delivering deep learning solutions in real-world applications. Also, after successfully training and deploying these solutions, it is usually necessary to monitor the system in use to verify that the system is working well even if the distribution of the underlying data has changed.

Παρόλο που προσεγγίσεις όπως η ημι-επιβλεπόμενη, η ασθενώς επιβλεπόμενη και η αυτόεπιβλεπόμενη μάθηση προσπαθούν να αντισταθμίσουν αυτόν τον περιορισμό, (i) συνήθως αποτυγχάνουν καθώς ενσωματώνουν τάσεις από συλλεγμένα δεδομένα καί τις επισημάνσεις τους, (ii) αποτυγχάνουν να κλιμακώσουν λόγω ανεπάρκειας δεδομένων καί (iii) δεν έχουν σχεδιαστεί για να κάνουν χρήση δεδομένων πραγματικού κόσμου- κάτι που θα τους επιτρέψει να προσαρμοστούν σε αυτόν. Επίσης, οι τρέχουσες προσεγγίσεις δεν παρέχουν μια σταθερή μεθοδολογία που να επιτρέπει το συνδυασμό της μη-επίσημασμένης μάθησης με τη συνεχή καί δια βίου μάθηση (lifelong-learning), ή τρόπους ώστε να επωφεληθούν από υφιστάμενη γνώση που παρέχονται από ένα μοντέλο βαθιού συνελικτικού νευρωνίκού δικτύου (CNN) «Δασκάλου» ή από ένα επιπλέον σύνολο χαρακτηρισμένων δεδομένων. Although approaches such as semi-supervised, weakly supervised and self-supervised learning attempt to compensate for this limitation, (i) they usually fail as they incorporate trends from collected data and their labels, (ii) fail to scale due to data insufficiency, and ( iii) they are not designed to make use of real-world data - which would allow them to adapt to it. Also, current approaches do not provide a solid methodology that allows combining unlabeled learning with lifelong-learning, or ways to take advantage of existing knowledge provided by a deep convolutional neural network model. (CNN) 'Teacher' or from an additional set of labeled data.

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ SHORT DESCRIPTION

Ένα σύστημα καί μια μέθοδος αποκαλύπτονται εδώ για την εκπαίδευση βαθιών CNNs από λίγα δείγματα των αντικειμένων-στόχων, επιτρέποντας στο σύστημα να μάθει πλήρως από μηεπίσημασμένα δεδομένα που συλλέγονταί στο πεδίο και έτσι εξαλείφει την ανάγκη για επισήμανση των δεδομένων. Αυτή η προσέγγιση είναι εφαρμόσιμη σε περιπτώσεις επίβλεπόμενης καί ημι-επιβλεπόμενης αναγνώρισης εικόνας, τμη ματοποίησης εικόνας καί ανίχνευσης αντικειμένων. Αυτό επιτυγχάνεται με μια ειδική μονάδα που επιτρέπει στο σύστημα να μαθαίνει από μερικές εικόνες που συλλέχθηκαν από το σύστημα, ή τα συστήματα που λειτουργούν στο πεδίο, ή συλλέγονταί από τον χρήστη, ή δημίουργούνταί σε συνθετικό περιβάλλον γραφικών υπολογιστή 3D, ή συλλέγονταί από εξειδικευμένη συσκευή που δίνει το ρόλο μιας συσκευής εγγραφής χωρίς να απαιτείται επισήμανση από χρήστη. Για να επιτευχθεί αυτό, το σύστημα ενσωματώνει μια οντότητα που καλείται LSTN (Localization, Synthesis and Teacher/Annotation Network - Δίκτυο Χωρικού Εντοπισμού, Σύνθεσης και Δασκάλου/Επίσήμανσης) που μαθαίνει (1) να τμηματοποιεί, να εντοπίζει καί να ταξινομεί αντικείμενα σε μία εικόνα χωρίς καμία αλληλεπίδραση με τον χρήστη, (2) να συνθέτει καί να δημιουργεί επισημασμένα δεδομένα ξεκινώντας με λίγα μόνο δείγματα των αντικειμένωνστόχων και (3) να τμηματοποιεί και να ανιχνεύει αντικείμενα για να μπορεί να κάνει δυναμική επισήμανση σε τα νέα εισερχόμενα δεδομένα καθώς καί να καθοδηγούν την εκπαίδευση ενός μικρότερου δικτύου που πρόκειται να αναπτυχθεί σε συσκευές ακμής (edge devices). A system and method is disclosed herein for training deep CNNs from a few samples of target objects, allowing the system to fully learn from unlabeled data collected in the field and thus eliminating the need for labeling the data. This approach is applicable in cases of supervised and semi-supervised image recognition, image segmentation and object detection. This is achieved by a special module that allows the system to learn from some images collected by the system, or systems operating in the field, or collected by the user, or created in a synthetic 3D computer graphics environment, or collected by a specialized device that gives the role of a recorder without requiring user labeling. To achieve this, the system incorporates an entity called LSTN (Localization, Synthesis and Teacher/Annotation Network) that learns (1) to segment, locate and classify objects in an image; without any user interaction, (2) synthesize and generate labeled data starting with only a few samples of the target objects and (3) segment and detect objects to be able to dynamically label new incoming data as well as guide training a smaller network to be deployed on edge devices.

Η οντότητα LSTN αποτελείται. από τρία βασικά δομικά στοιχεία, το Localization (Χωρικού Εντοπισμού), το Synthesis (Σύνθεσης) καί το Teacher/Annotation (Δασκάλου/Επίσήμανσης) βαθύ δίκτυο CNN που συνοψίζονται παρακάτω. The LSTN entity consists of from three basic building blocks, Localization, Synthesis and Teacher/Annotation deep CNN network which are summarized below.

Το στοιχείο Localization (Χωρικού Εντοπισμού) υλοποιείται χρησιμοποιώντας έναν συνδυασμό από (ϊ) οποίοδήποτε δίκτυο κατηγορίοποίησης/ταξίνόμησης Deep CNN με Καθολική Μέση Δειγματοληψία (Global Average Pooling, GAP) ή Καθολική Μέγιστη Κατανομή (Global Max Pooling, GMP) για να καταστεί δυνατή η χρήση των Χαρτών Ενεργοποίησης Κλάσεων (Class Activation Maps, CAM). Στη συνέχεια, τα CAMs παράγονται υπολογίζοντας το άθροισμα των χαρτών χαρακτηριστικών ακριβώς πριν από τη λειτουργία ομαδοποίησης, σταθμισμένη από τις ενεργοποιήσεις του επιπέδου τμηματοποίησης καί κανονίκοποίημένη από τη συνάρτηση softmax για να παρέχουν προσεγγιστικές (μη απόλυτες) προτάσεις θέσεων αντικειμένων. Επομένως, τα αντικείμενα που προκύπτουν από τα CAMs παρέχουν μία τιμή πιθανότητας για το εάν ένα εικονοστοιχείο ανήκει ή όχι σε μια συγκεκριμένη κατηγορία, ακολουθούμενα από (ϋ) ένα δεύτερο μοντέλο που μαθαίνει να διακρίνει το αντικείμενο από το υπόβαθρό του χρησιμοποιώντας αδύναμες ετικέτες (weak labels) που δημιουργούνται βάζοντας ένα όριο στα δυνητικά αποτελέσματα που δημιουργούνται από τα CAMs. Αυτό το δίκτυο μπορεί να εκπαιδευτεί μαθαίνοντας να κατηγοριοποιεί τα εικονοστοιχεία μίας εικόνας σε προσκήνιο ή υπόβαθρο μέσω μίας εργασίας τμηματοποίησης από περιοχές της εικόνας (image patches), ή μαθαίνοντας να τμηματοποίεί το αντικείμενο μέσω μίας εργασίας τμηματοποίησης. The Localization component is implemented using a combination of (i) any Deep CNN classification/classification network with Global Average Pooling (GAP) or Global Max Pooling (GMP) to enable the use of Class Activation Maps (CAM). CAMs are then produced by computing the sum of the feature maps just before the clustering operation, weighted by the segmentation layer activations and normalized by the softmax function to provide approximate (non-absolute) suggestions of object locations. Therefore, the objects resulting from the CAMs provide a probability value of whether or not a pixel belongs to a certain class, followed by (d) a second model that learns to distinguish the object from its background using weak labels ) that are created by putting a limit on the potential outcomes generated by CAMs. This network can be trained by learning to categorize the pixels of an image into foreground or background through a segmentation task from image patches, or by learning to segment the object through a segmentation task.

Το πρώτο δίκτυο ταξινόμησης εκπαιδεύεται στα διαθέσιμα δείγματα αντικειμένων για να εντοπίζει τα αντικείμενα μαθαίνοντας να τα τμηματοποίεί με ακρίβεια από το υπόβαθρο μέσω μη-επιτηρούμενης εκμάθησης (επομένως δεν χρειάζονται πληροφορίες μάσκας τμηματοποίησης ή πληροφορίες ορίων των αντικειμένων). Αυτό επιτυγχάνεται αρχικά αρχικοποιώντας τα βάρη μαθαίνοντας με αυτό-επίβλεπόμενο τρόπο καί στη συνέχεια με μία κανονική τεχνική κατηγοριοποίησης εικόνων. Η τεχνική κατηγοριοποίησης εικόνων παράγει CAMs, δημιουργώντας αδύναμες δυαδικές μάσκες γύρω από τα αντικείμενα που χρησιμοποιούνται ως αδύναμες ετικέτες για το πρόβλημα της τμηματοποίησης εικόνας. The first classification network is trained on the available object samples to detect the objects by learning to accurately segment them from the background through unsupervised learning (so no segmentation mask information or object boundary information is needed). This is achieved by first initializing the weights by learning in a self-supervised manner and then by a regular image classification technique. The image categorization technique produces CAMs, creating weak binary masks around the objects that are used as weak labels for the image segmentation problem.

Χρησιμοποιώντας τις προσεγγιστικές θέσεις που δημιουργούνται από το (i) καί δεδομένου ότι είναι διαθέσιμος ένας μικρός αριθμός εικόνων αντικειμένων, ένα δεύτερο μοντέλο CNN κατηγορίοποίησης ή τμηματοποίησης εκπαιδεύεται σε μία ασθενώς επίβλεπόμενη προσέγγιση μάθησης για τη διάκριση μεταξύ προσκηνίου καί υποβάθρου. Επίσης, οι σχέσεις μεταξύ διαφορετικών τμημάτων της εικόνας εξετάζονται για να βελτιώσουν περαιτέρω την απόδοση της τμηματοποίησης. Μόλις ολοκληρωθεί αυτό το βήμα, η μονάδα μπορεί να εκτελέσεί τμηματοποίηση αντικειμένων καί παλινδρόμηση θέσης πλαισίου (bounding box regression). Using the approximate positions generated by (i) and given that a small number of object images are available, a second classification or segmentation CNN model is trained in a weakly supervised learning approach to discriminate between foreground and background. Also, the relationships between different parts of the image are examined to further improve the segmentation performance. Once this step is completed, the module can perform object segmentation and bounding box regression.

Χρησιμοποιώντας τα δύο αυτά βήματα ((i) καί (ii) παραπάνω) η οντότητα μπορεί να μάθει να τμηματοποίεί, να εντοπίζει καί να κατηγοριοποιεί με ακρίβεια τα αντικείμενα μέσα σας εικόνες εισόδου, χωρίς να απαιτείται καμία εισαγωγή από τον χρήστη σχετικά με επισήμανση (π.χ. όρια ή πλαίσια ορίοθέτησης) ή ανατροφοδότηση από τον χρήστη σχετικά με τα όρια των αντικειμένων. Using these two steps ((i) and (ii) above) the entity can learn to accurately segment, locate and categorize objects in your input images, without requiring any input from the user about labeling (p .eg boundaries or bounding boxes) or user feedback about object boundaries.

Στο στοιχείο Synthesis (Σύνθεσης), η οντότητα μαθαίνει να δημιουργεί νέα επίσημασμένα δείγματα συνδυάζοντας την παραδοσιακή υπολογιστική όραση, τα τρισδιάστατα γραφικά, τις μηχανές διαφορικής απεικόνισης (differentiable rendering engines) με τα αντίστροφα γραφικά καί τα παραγωγικά μοντέλα (generative models). Ειδικότερα, λαμβάνοντας υπόψη τις μάσκες τμηματοποίησης του προηγούμενου βήματος, το σύστημα δημιουργεί νέες σκηνές με τους ακόλουθους τρόπους: α) προβάλλοντας μέσω ομοπαράλληλους (affine) καί προοπτικούς (perspective) μετασχηματισμούς των επιλεγμένων αντικειμένων σε νέες σκηνές με φόντο που δημίουργείταί από ένα προ-εκπαίδευμένο δίκτυο GAN (Παραγωγικό Ανταγωνιστικό Δίκτυο -Generative Adversarial Network) εκτός λειτουργίας σε μεγάλο αριθμό υποβάθρων καί β) μαθαίνοντας να χαρτογραφεί τη σιλουέτα των αντικειμένων σε τρισδιάστατα μοντέλα καί παράγοντας νέες/και,νοτόμες πόζες μέσω σύνθεσης τρισδιάστατων δεδομένων με χρήση υπολογιστικών μηχανών γραφικών ή/καί διαφοροποιήσιμες απεικονίσεις (differentiable Tenderers). Με αυτόν τον τρόπο, μπορεί να δημιουργηθεί ένας μεγάλος αριθμός πραγματικών, τεχνητών (που δημιουργούνται με σύνθεση εικόνας) και συνθετικών (που δημιουργούνται με τρισδιάστατα γραφικά) επίσημασμένων εικόνων χωρίς να απαιτείται χειροκίνητος χαρακτηρισμός. Τα επίσημασμένα δεδομένα που παράγονταί μέσω του στοιχείου σύνθεσης δεδομένων επιτρέπουν σε ένα σύστημα μηχανικής μάθησης να αρχίσει να λειτουργεί χωρίς διαθέσιμα δεδομένα, έχοντας μόνο λίγες εικόνες των αντικειμένων προς εκμάθηση. In the Synthesis component, the entity learns to create new formalized samples by combining traditional computer vision, 3D graphics, differentiable rendering engines with inverse graphics and generative models. In particular, taking into account the segmentation masks of the previous step, the system creates new scenes in the following ways: a) projecting through affine and perspective transformations of the selected objects in new scenes with a background created by a pre-trained GAN (Generative Adversarial Network) off a large number of backgrounds and b) learning to map the silhouette of objects onto 3D models and producing new and/or novel poses through 3D data synthesis using computer graphics engines and/or differentiable tenderers. In this way, a large number of real, artificial (created by image compositing) and synthetic (created with 3D graphics) formalized images can be created without requiring manual characterization. The formalized data produced through the data synthesis component allows a machine learning system to start working with no data available, having only a few images of the objects to learn.

Τέλος, το Δίκτυο Δασκάλαυ/Επισήμανσης (Teacher/Annotation Network) εκπαιδεύεται στα παραγόμενα πραγματικά καί συνθετικά επίσημασμένα δεδομένα για να εκτελέσεί την εργασία της τμη ματοποίησης καί ανίχνευσης αντικειμένων. Το δίκτυο Teacher μπορεί στη συνέχεια να επίσημάνεί νέα δεδομένα, εκτελώντας με αυτόν τον τρόπο μία αυτόματη διαδικασία επισήμανσης που είναι χρήσιμη εάν υπάρχουν διαθέσιμα δεδομένα από άλλες πηγές ή συλλέγονταί δεδομένα από το πεδίο. Το δίκτυο Teacher χρησιμοποιείται επίσης για την εκπαίδευση του τελικού μοντέλου CNN που θα εκδοθεί για λειτουργία στην παραγωγή (στις συσκευές ακμής) μέσω μεταφοράς γνώσης (knowledge transfer) χρησιμοποιώντας μία προσέγγιση απόσταξης (distillation) σε μία μορφή λειτουργίας Δασκάλου - Μαθητή. Μετά την ανάπτυξη του συστήματος, τα νέα δεδομένα που αποκτούνταί τροφοδοτούνται συνεχώς στο σύστημα καί το Δίκτυο Teacher παρέχει την απαιτούμενη επισήμανση η οποία λειτουργεί με τρόπο αυτόματης επισήμανσης χωρίς να απαιτείται ανθρώπινη παρέμβαση ή επισήμανση. Finally, the Teacher/Annotation Network is trained on the generated real and synthetic formalized data to perform the task of object segmentation and detection. The Teacher network can then label new data, thereby performing an automatic labeling process that is useful if data is available from other sources or data is collected from the field. The Teacher network is also used to train the final CNN model that will be issued for production operation (on edge devices) through knowledge transfer using a distillation approach in a form of Teacher-Student operation. After the system is deployed, the new data acquired is continuously fed into the system and the Teacher Network provides the required tagging which works in an automatic tagging mode without the need for human intervention or tagging.

Επομένως, το σύστημα καί η μέθοδος μπορούν να μάθουν να δημιουργούν επίσημασμένα δεδομένα απευθείας από τα ίδια τα δεδομένα, χωρίς να απαιτείται επισήμανση από κάποιον χρήστη, μία διαδικασία που θεωρείται ως ένα σχήμα εκμάθησης χωρίς επισήμανση (annotationfree learning), για τα θέματα της ανίχνευσης αντικειμένων, τμη ματοποίησης εικόνας καί κατηγορίοποίησης. Αυτό επιτυγχάνεται χρησιμοποιώντας ως είσοδο μόνο μερικά δείγματα εικόνων που παρέχονται από τον χρήστη, ή συλλέγονταί από το πεδίο, ή λαμβάνονταί από ένα ειδικό σύστημα εγγραφής ή μέσω τρισδιάστατων μοντέλων των αντικειμένων που δημίουργούνταί σε 3D υπολογιστικό περιβάλλον γραφικών. Η συνολική προσέγγιση σχετίζεται με τη δία βίου μάθηση (life-long learning), τη συνεχή μάθηση (continuous learning) καί τη σταδιακή μάθηση (incremental learning) που μπορούν να μάθουν πώς να βελτιώνουν την απόδοσή τους ή να αυξάνουν τις γνώσεις τους χρησιμοποιώντας δεδομένα που παρατηρούνται κατά την εφαρμογή ενός συστήματος στο πεδίο ή παρέχονται ως δεδομένα από τον χρήστη. Therefore, the system and method can learn to generate formalized data directly from the data itself, without requiring any user annotation, a process considered as a form of annotation-free learning for object detection subjects. , image segmentation and categorization. This is achieved using as input only a few sample images provided by the user, or collected from the field, or obtained from a special registration system, or through 3D models of the objects created in a 3D computer graphics environment. The overall approach is related to life-long learning, continuous learning and incremental learning that can learn how to improve their performance or increase their knowledge using data that observed during the implementation of a system in the field or provided as data by the user.

ΣΥΝΤΟΜΗ ΠΕΡΙΓΡΑΦΗ ΤΩΝ ΣΧΗΜΑΤΩΝ BRIEF DESCRIPTION OF THE DRAWINGS

Η λεπτομερής περιγραφή περίγράφεταί με αναφορά στα συνοδευτικά Σχήματα. Στα Σχήματα, το αριστερό ψηφίο(α) του αριθμού αναφοράς προσδιορίζει το Σχήμα στο οποίο εμφανίζεται για πρώτη φορά ο αριθμός αναφοράς. OL ίδιοι, αριθμοί αναφοράς σε διαφορετικά Σχήματα υποδεικνύουν παρόμοια ή πανομοιότυπα στοιχεία. The detailed description is described with reference to the accompanying Figures. In Figures, the leftmost digit(s) of the reference number identifies the Figure in which the reference number first appears. OL same, reference numerals in different Figures indicate similar or identical elements.

Το Σχήμα 1 είναι ένα διάγραμμα που απεικονίζει τη διαδικασία εκπαίδευσης καί εξαγωγής εκτιμήσεων (inference) του δικτύου CNN. Figure 1 is a diagram illustrating the training and inference process of the CNN network.

Το Σχήμα 2 είναι ένα διάγραμμα που απεικονίζει τη διαδικασία εκπαίδευσης καί εξαγωγής εκτιμήσεων του δικτύου CNN κατηγορι,οποίησης εικόνων. Figure 2 is a diagram illustrating the training and estimation process of the CNN image classification network.

Το Σχήμα 3 είναι ένα διάγραμμα που απεικονίζει τη διαδικασία εκπαίδευσης καί εξαγωγής εκτιμήσεων του δικτύου CNN τμη ματοποίησης εικόνας. Figure 3 is a diagram illustrating the training and estimation process of the CNN image segmentation network.

Το Σχήμα 4 είναι ένα διάγραμμα που απεικονίζει τη διαδικασία εκπαίδευσης καί εξαγωγής εκτιμήσεων του δικτύου CNN ανίχνευσης αντικειμένων. Figure 4 is a diagram illustrating the training and estimation process of the object detection CNN network.

Το Σχήμα 5 είναι ένα διάγραμμα που απεικονίζει μια διαδικασία εκπαίδευσης καί εξαγωγής εκτιμήσεων του δικτύου CNN για την από κοινού τμηματοποίηση εικόνας καί ανίχνευση αντικειμένων. Figure 5 is a diagram illustrating a CNN training and estimation process for joint image segmentation and object detection.

Το Σχήμα 6 είναι ένα διάγραμμα που απείκονίζει,τη συμβατική προσέγγιση στην εκπαίδευση καί την υλοποίηση των συνελίκτι,κών νευρωνίκών δικτύων. Figure 6 is a diagram illustrating the conventional approach to training and implementing convolutional neural networks.

Το Σχήμα 7 είναι ένα διάγραμμα που απείκονίζει,την προσέγγιση για τη μεθοδολογία εκμάθησης χωρίς επισήμανση, καθώς καί διάφορα στοιχεία που παρέχονται από τις τεχνολογίες που περιγράφονται εδώ. Figure 7 is a diagram illustrating the approach to the label-free learning methodology, as well as various elements provided by the technologies described herein.

Το Σχήμα 8 είναι ένα διάγραμμα ροής που δείχνει τα στάδια επεξεργασίας της μονάδας LSTN. Figure 8 is a flowchart showing the processing steps of the LSTN module.

Το Σχήμα 9 απεικονίζει τα στοιχεία που περιλαμβάνουν τη μονάδα LSTN καί τη διαδοχική ροή πληροφοριών καί επεξεργασίας των στοιχείων LSTN. Figure 9 illustrates the elements comprising the LSTN unit and the sequential information flow and processing of the LSTN elements.

Το Σχήμα 10 είναι ένα διάγραμμα ροής που δείχνει τα στάδια επεξεργασίας της διαδικασίας εντοπισμού αντικειμένων της μονάδας LSTN. Figure 10 is a flowchart showing the processing steps of the object detection process of the LSTN module.

Το Σχήμα 11 είναι ένα διάγραμμα ροής που δείχνει τα στάδια επεξεργασίας της διαδικασίας σύνθεσης δεδομένων της μονάδας LSTN. Figure 11 is a flowchart showing the processing steps of the data synthesis process of the LSTN module.

Το Σχήμα 12 είναι ένα διάγραμμα ροής που δείχνει τα στάδια επεξεργασίας της διαδικασίας Δασκάλου/Επίσήμανσης. Figure 12 is a flowchart showing the processing steps of the Teacher/Marker process.

Το Σχήμα 13 είναι ένα διάγραμμα ροής που δείχνει τα στάδια επεξεργασίας του δικτύου εξυπηρέτησης (serving network). Figure 13 is a flowchart showing the processing stages of the serving network.

ΑΝΑΛΥΤΙΚΗ ΠΕΡΙΓΡΑΦΗ DETAILED DESCRIPTION

1. Επιβλεπόμενη μάθηση βαθιών CNNs με επισημασμένα δεδομένα 1. Supervised learning of deep CNNs with labeled data

Ένα δίκτυο feedforward Deep CNN (104 στο Σχήμα 1), στη βασική του μορφή, αποτελείται. από έναν μεγάλο αριθμό συνελίκτιχών επιπέδων (105 στο Σχήμα 1) που στοιβάζονται διαδοχικά, υλοποιώντας μία αρχιτεκτονική εμπρόσθιας μόνο διάδοσης, με ορισμένες μη γραμμίκότητες (106 στο Σχήμα 1) ή/και. συναρτήσεις κανονίκοποίησης (107 στο Σχήμα 1) ενδιάμεσα. Το δίκτυο εκπαιδεύεται με επαναληπτικό τρόπο από άκρη-σε-άκρη χρησιμοποιώντας συνήθως έναν μεγάλο αριθμό επι,σημασμένων εικόνων (101 στο Σχήμα 1) από τις οποίες μόνο μερικές εικόνες (103 στο Σχήμα 1) καί OL επισημάνσεις τους (109 στο Σχήμα 1) λαμβάνονται. ως δείγματα (102 στο Σχήμα 2) σε κάθε επανάληψη της εκπαίδευσης. Το μοντέλο Deep CNN προσπαθεί να ελαχιστοποιήσει μια διαφοροποιήσιμη συνάρτηση κόστους (differentiable cost function) ή συνδυασμό συναρτήσεων διαφοροποιήσιμου κόστους (110 στο Σχήμα 1) μεταξύ των επισημάνσεων αναφοράς (ground truth) καί εκείνων που εκτι,μώνται. από το δίκτυο (108 στο Σχήμα 1), χρησιμοποιώντας περάσματα προς τα εμπρός καί προς τα πίσω για να κάνει προβλέψεις καί να υπολογίσει τους συντελεστές ενημέρωσης των βαρών των εκπαιδευτικών ενοτήτων αντίστοιχα. A Deep CNN feedforward network (104 in Figure 1), in its basic form, consists of by a large number of convolutional layers (105 in Figure 1) stacked in series, implementing a forward-propagation-only architecture, with some nonlinearities (106 in Figure 1) and/or. normalization functions (107 in Figure 1) in between. The network is trained in an iterative end-to-end fashion using typically a large number of labeled images (101 in Figure 1) from which only a few images (103 in Figure 1) and their OL labels (109 in Figure 1) are obtained. . as samples (102 in Figure 2) in each training iteration. The Deep CNN model tries to minimize a differentiable cost function (differentiable cost function) or a combination of differentiable cost functions (110 in Figure 1) between the ground truth and those being evaluated. from the network (108 in Figure 1), using forward and backward passes to make predictions and calculate the update coefficients of the training unit weights respectively.

Κατά τη φάση της εξαγωγής εκτιμήσεων, το δίκτυο λαμβάνει μόνο μία εικόνα (103 στο Σχήμα 1) που λαμβάνεταί από έναν οπτικό αισθητήρα (112 στο Σχήμα 1), η οποία στη συνέχεια επεξεργάζεται από το δίκτυο CNN (104 στο Σχήμα 1) προκει,μένου να παρέχει την απόφαση εξόδου (111 στο Σχήμα 1). During the estimation phase, the network receives only one image (103 in Figure 1) obtained from an optical sensor (112 in Figure 1), which is then processed by the CNN network (104 in Figure 1) to to provide the exit decision (111 in Figure 1).

Η διαδικασία που περίγράφηκε προηγουμένως χρησιμοποιεί μικρές τροποποιήσεις της διαδικασίας επεξεργασίας εμπρόσθιας διάδοσης για την εκτέλεση των εργασιών κατηγοριοποίησης, τμηματοποίησης καί ανίχνευσης αντικειμένων σε εικόνες. The procedure described earlier uses slight modifications of the forward propagation processing procedure to perform the tasks of categorization, segmentation, and object detection in images.

Για την κατηγοριοποίηση εικόνων, το δίκτυο χρησιμοποιεί μεγάλο αριθμό εικόνων που έχουν εκχωρηθεί σε μία κατηγορία (201 στο Σχήμα 2) καί εκπαιδεύονται με ακολουθίακό τρόπο (online) δείγματοληπτώντας (202 στο Σχήμα 2) παρτίδες εικόνων εισόδου (203 στο Σχήμα 2) με ετικέτες (207 στο Σχήμα 2) χρησιμοποιώντας ένα δίκτυο CNN (204 στο Σχήμα 2) καί ένα επιπλέον επίπεδο, προκειμένου να αντιστοιχιστεί μία εικόνα σε ένα διάνυσμα απόκρισης εξόδου (205 στο Σχήμα 2), συνήθως ένα διάνυσμα του οποίου ενεργοποιείται μόνο ένα στοιχείο τη φορά καί με τον οποίο τρόπο πραγματοποιείται η ανάθεση σε μία συγκεκριμένη κατηγορία (209 στο Σχήμα 2). Μετά τον υπολογισμό της συνάρτησης κόστους/απώλειας (loss function) (206 στο Σχήμα 2) το σφάλμα διαδίδεται μέσω της οπι,σθοδιάδοσης σφάλματος καί τέλος οι παράμετροί του δικτύου Deep CNN ενημερώνονται σύμφωνα με τον αλγόριθμο βελτιστοποίησης. For image categorization, the network uses a large number of images assigned to one category (201 in Figure 2) and is trained sequentially (online) by sampling (202 in Figure 2) batches of input images (203 in Figure 2) with labels ( 207 in Figure 2) using a CNN network (204 in Figure 2) and an additional layer to map an image to an output response vector (205 in Figure 2), typically a vector of which only one element is activated at a time and with the manner in which assignment to a particular class is effected (209 in Figure 2). After calculating the loss function (206 in Figure 2) the error is propagated through error backpropagation and finally the parameters of the Deep CNN network are updated according to the optimization algorithm.

Για το πρόβλημα της τμηματοποίησης εικόνας, το δίκτυο εκπαιδεύεται ώστε να αντιστοιχεί κάθε είκονοστοίχείο σε μία κατηγορία (σημασίολογίκού επιπέδου τμηματοποίηση) ή απλά να διαχωρίζει μεταξύ περιοχών (τμηματοποίηση σε επιπέδου αντικειμένου). Το δίκτυο εκπαιδεύεται με έναν ακολουθίακό (online) τρόπο χρησιμοποιώντας ένα μικρό αριθμό εικόνων (303 στο Σχήμα 3) οι οποίες δείγματοληπτούνταί (302 στο Σχήμα 3) από ένα σύνολο εικόνων καί οι αντίστοιχες επισημάνσεις των εικονοστοιχείων υπό τη μορφή μασκών (304 στο Σχήμα 3). Το δίκτυο CNN (305 στο Σχήμα 2) μαθαίνει ώστε να αντιστοιχίζει κάθε εικόνα εισόδου σε μία αναπαράσταση χαρακτηριστικών υψηλού επιπέδου που αντιστοιχεί σε μία μάσκα τμηματοποίησης (306 στο Σχήμα 3). Μετά τον υπολογισμό της συνάρτησης απώλειας (307 στο Σχήμα 3) το σφάλμα καί εδώ οπισθοδιαδίδεται καί ενώ στη συνέχεια ενημερώνονται οι παράμετροίτου δικτύου Deep CNN. For the image segmentation problem, the network is trained to map each pixel to a category (semantic-level segmentation) or simply to distinguish between regions (object-level segmentation). The network is trained in a sequential (online) manner using a small number of images (303 in Figure 3) which are sampled (302 in Figure 3) from a set of images and the corresponding pixel labels in the form of masks (304 in Figure 3). . The CNN (305 in Figure 2) learns to map each input image to a high-level feature representation corresponding to a segmentation mask (306 in Figure 3). After the calculation of the loss function (307 in Figure 3) the error is also back-propagated here while the parameters of the Deep CNN network are then updated.

Για την ανίχνευση αντικειμένων, το δίκτυο εκπαιδεύεται να παλινδρομεί (regress) το πλαίσιο ορίοθέτησης ή τα περιστρεφόμενα ορθογώνια ή τα αυθαίρετα διαμορφωμένα ορθογώνια ή το τρισδιάστατο πλαίσιο οριοθέτησης. Συγκεκριμένα, το δίκτυο εκπαιδεύεται σε μεγάλο αριθμό εικόνων καί τις επισημάνσεις τους (401 στο Σχήμα 4) με δειγματοληψία μικρών παρτίδων εικόνων (403 στο Σχήμα 4) καθώς καί στις επισημάνσεις θέσης των αντικειμένων τους (407 στο Σχήμα 4), οι οποίες στη συνέχεια υποβάλλονται σε επεξεργασία από ένα δίκτυο CNN (404 στο Σχήμα 4) προκει,μένου να εκτιμηθεί η θέση καί η κλάση του αντικειμένου (405 στο Σχήμα 4). Η συνάρτηση απώλειας (406 στο Σχήμα 4) υπολογίζεται μεταξύ της θέσης του αντικειμένου μέσω παλινδρόμησης με τις πληροφορίες κλάσης (405 στο Σχήμα 4) καί την επισήμανση του αντικειμένου αναφοράς (407 στο Σχήμα 4). Η έξοδος της διαδικασίας ροής εργασίας του δικτύου CNN ανίχνευσης αντικειμένων είναι,τα εκτι,μώμενα πλαίσια και οι σχετικοί δείκτες κλάσεων (408 στο Σχήμα 4) των αντικειμένων εντός των εικόνων εισόδου (403 στο Σχήμα 4). For object detection, the network is trained to regress the bounding box or rotated rectangles or arbitrarily shaped rectangles or 3D bounding box. Specifically, the network is trained on a large number of images and their labels (401 in Figure 4) by sampling small batches of images (403 in Figure 4) as well as their object location labels (407 in Figure 4), which are then submitted processed by a CNN network (404 in Figure 4) in order to estimate the location and class of the object (405 in Figure 4). The loss function (406 in Figure 4) is calculated between the position of the object by regression with the class information (405 in Figure 4) and the label of the reference object (407 in Figure 4). The output of the object detection CNN workflow process is the estimated frames and associated class indices (408 in Figure 4) of the objects within the input images (403 in Figure 4).

Επιπλέον, στην κύρια αρχιτεκτονική του δικτύου CNN που παρουσιάζεται στη Σχήματα 2, 3 καί 4, οι συνδυασμοί δικτύων CNNs είναι επίσης εφικτοί. Ένας συχνά χρησιμοποιούμενος συνδυασμός είναι ένα δίκτυο CNN ανίχνευσης αντικειμένων καί τμηματοποίησης που μπορεί να περιγράφει ως ένα μείγμα του Σχήματος 3 καί του Σχήματος 4 χρησιμοποιώντας τόσο το 306 στο Σχήμα 3 καί το 405 στο Σχήμα 4. Σε αυτήν την περίπτωση, τα δείγματα δικτύου (502 στο Σχήμα 5) εικόνες (503 στο Σχήμα 5) μαζί με τα πλαίσια ορίοθέτησης και τις μάσκες τμηματοποίησης (505 στο Σχήμα 5) από μία μεγάλη δεξαμενή επίσημασμένων εικόνων (501 στο Σχήμα 5). Στη συνέχεια, ένα δίκτυο Deep CNN μαθαίνει να επιστρέφει τόσο τη θέση του αντικειμένου και τον δείκτη κλάσης (506 στο Σχήμα 5) όσο καί τη μάσκα τμηματοποίησης (507 στο Σχήμα 5). Η συνάρτηση απώλειας (508 στο Σχήμα 5) υπολογίζεται καί για τις δύο εργασίες και οι παράμετροι του δικτύου ενημερώνονται για την ελαχιστοποίηση αυτής της συνάρτησης απώλειας. Η έξοδος της κοινής ροής εργασιών του δικτύου CNN ανίχνευσης και τμηματοποίησης είναι οι προβλέψεις (πλαίσια ορίοθέτησης, μάσκες καί σχετικοί δείκτες κλάσεων, 509 στο Σχήμα 5) των αντικειμένων εντός των εικόνων εισόδου (503 στο Σχήμα 5). Furthermore, in the main CNN network architecture shown in Figures 2, 3 and 4, combinations of CNNs are also possible. A commonly used combination is an object detection and segmentation CNN network that can be described as a mixture of Figure 3 and Figure 4 using both 306 in Figure 3 and 405 in Figure 4. In this case, the network samples (502 in Figure 5) images (503 in Figure 5) along with bounding boxes and segmentation masks (505 in Figure 5) from a large pool of formalized images (501 in Figure 5). A Deep CNN is then learned to return both the object location and class index (506 in Figure 5) and the segmentation mask (507 in Figure 5). The loss function (508 in Figure 5) is calculated for both tasks and the network parameters are updated to minimize this loss function. The output of the joint detection and segmentation CNN workflow is the predictions (bounding boxes, masks and associated class markers, 509 in Figure 5) of the objects within the input images (503 in Figure 5).

Γενικά, ένα δίκτυο Deep CNN είναι ένα μοντέλο ικανό να μάθει την αντιστοίχίση μεταξύ του χώρου εισόδου (εικόνα) καί του χώρου εξόδου, ο οποίος μπορεί να περιγράφει ως εξής: f: Χ → Υ, όπου X Ε ℝ<MxNxC>και το Υ μπορεί να είναι ένα υποσύνολο ακεραίων, ένας συνδυασμός δίανυσμάτων καί υποσύνολο ακεραίων σε περίπτωση ανίχνευσης αντικειμένου ή μια αντιστοίχιση σε μια εικόνα Ν διαστάσεων σε περίπτωση τμηματοποίησης. In general, a Deep CNN is a model capable of learning the mapping between the input space (image) and the output space, which can be described as follows: f: X → Y, where X E ℝ<MxNxC>and Y can be a subset of integers, a combination of vectors and subset of integers in the case of object detection, or a mapping to an N-dimensional image in the case of segmentation.

Στο τυπικό σενάριο, κατά τη διάρκεια ενός κύκλου ζωής ανάπτυξης βαθιάς μάθησης, οι μηχανικοί μηχανικής μάθησης ή οι επιστήμονες δεδομένων ή οι ειδικοί επισήμανσης / χαρακτηρισμού (602 στο Σχήμα 6) πρέπει αρχικά να κάνουν επισήμανση των διαθέσιμων δεδομένων (601 στο Σχήμα 6) που προέρχονται από το πεδίο (606 στο Σχήμα 6) (π.χ. από τις συσκευές ακμής που συλλέγουν δεδομένα από το πεδίο). Τα επίσημασμένα δεδομένα που παράγονταί μέσω της διαδικασίας επισήμανσης (603 στο Σχήμα 6) χρησιμοποιούνται για την εκπαίδευση ενός μοντέλου βαθιάς εκμάθησης (605 στο Σχήμα 6). Το μοντέλο αυτό θα αναπτυχθεί σας συσκευές ακμής μόλις πληροί ορισμένα καθορισμένα κριτήρια (ή προδιαγραφές ) καί αξιολογηθεί η απόδοσή του σε ένα σύνολο δεδομένων (604 στο Σχήμα 1). Προκείμένου να βελτιωθεί η απόδοση του μοντέλου πρέπει να γίνουν πολλές επαναλήψεις χρησιμοποιώντας νέα δεδομένα, ή νέες στρατηγικές δειγματοληψίας καί επισήμανσης, ή ακόμα καί αλλάζοντας το μοντέλο CNN. Μόλις το τελικό μοντέλο δοκιμαστεί, επαληθευτεί καί εγκρίθεί από τους επιστήμονες δεδομένων (608 στην Σχήμα 6), προωθείται σας συσκευές πεδίου για εφαρμογή. Όταν γίνουν διαθέσιμα νέα δεδομένα, αυτή η διαδικασία επαναλαμβάνεται ακολουθώντας τη διαδρομή (607 στο Σχήμα 6). Ωστόσο, οι εφαρμογές του πραγματικού κόσμου χαρακτηρίζονται από τη χαμηλή ποσότητα των διαθέσιμων δεδομένων εκπαίδευσης ή από τη χαμηλή ποσότητα επίσημασμένων δεδομένων ή από ανεπαρκή επισήμανση δεδομένων. In the typical scenario, during a deep learning development lifecycle, machine learning engineers or data scientists or labeling / characterization specialists (602 in Figure 6) must initially label the available data (601 in Figure 6) derived from from the field (606 in Figure 6) (eg, from the edge devices collecting data from the field). The formalized data produced through the labeling process (603 in Figure 6) is used to train a deep learning model (605 in Figure 6). This model will be deployed on edge devices once it meets certain defined criteria (or specifications ) and its performance is evaluated on a data set (604 in Figure 1). In order to improve the performance of the model many iterations must be done using new data, or new sampling and labeling strategies, or even changing the CNN model. Once the final model has been tested, verified and approved by the data scientists (608 in Figure 6), it is pushed to your field devices for implementation. When new data becomes available, this process is repeated following path (607 in Figure 6). However, real-world applications are characterized by low amount of available training data or low amount of formalized data or insufficient data labeling.

2. Εκμάθηση χωρίς επίσημασμένα δεδομένα με λίγα δείγματα και σταδιακή εκμάθηση για συνεχή εφαρμογή και ενημέρωση μοντέλων Βαθιάς Μάθησης 2. Data-free learning with few samples and incremental learning for continuous application and updating of Deep Learning models

2.1. Επισκόπηση αρχιτεκτονικής 2.1. Architecture overview

Η αρχιτεκτονική προσέγγιση (Σχήμα 7) ενσωματώνει την οντότητα LSTN που επιτρέπει στο σχήμα εκμάθησης χωρίς επισήμανση των δεδομένων να λειτουργεί σε πραγματικές συνθήκες, επιτρέποντας επίσης τη συνεχή ανάπτυξη καί την ανάπτυξη χωρίς να απαιτείται ανθρώπινη παρέμβαση στη διαδικασία επισήμανσης δεδομένων. The architectural approach (Figure 7) incorporates the LSTN entity that allows the unlabeled data learning scheme to work in real-world conditions, also allowing for continuous growth and development without requiring human intervention in the data labeling process.

OL είσοδοί στο σύστημα μπορεί να είναι μία ή περισσότερες από τις ακόλουθες: (1) τα δείγματα αντικειμένων (701 στο Σχήμα 7) που ενδιαφέρουν, (2) εικόνες που λαμβάνονταί από αισθητήρες (συσκευές) πεδίου, (3) 3D συνθετικά δεδομένα των αντiκειμένων-στόχων ή/καί (4) αντικείμενα που ανίχνεύονταί αυτόματα από το δίκτυο Δασκάλου/Επίσήμανσης μετά την πρώτη ανάπτυξη του συστήματος στο πεδίο. Αυτά τα δεδομένα εισόδου διαδίδονται στη μονάδα LSTN καί ειδικότερα στη μονάδα εντοπισμού (702 στο Σχήμα 7), η οποία μαθαίνει να εντοπίζει αντικείμενα μέσα στα δεδομένα (π.χ. εικόνες ή καρέ βίντεο) τόσο από την άποψη της τμηματοποίησης (Σχήμα 3) καθώς καί ως προς την ανίχνευση αντικειμένων (Σχήμα 4), ακολουθώντας ένα ασθενώς αυτο-επίβλεπόμενο σχήμα εκμάθησης. OL inputs to the system may be one or more of the following: (1) the sample objects (701 in Figure 7) of interest, (2) images obtained from field sensors (devices), (3) 3D synthetic data of the objects -targets and/or (4) objects that are automatically detected by the Master/Marker network after the system is first deployed in the field. This input data is propagated to the LSTN module and in particular to the detection module (702 in Figure 7), which learns to locate objects within the data (e.g. images or video frames) both in terms of segmentation (Figure 3) and and in object detection (Figure 4), following a weakly self-supervised learning scheme.

Αυτά τα εντοπισμένα αντικείμενα, που αναπαρίστανται. ως εικόνες συνοδευόμενα από μία μάσκα τμηματοποίησης, στη συνέχεια τροφοδοτούνται στη μονάδα σύνθεσης δεδομένων (703 στο Σχήμα 2) που δημιουργεί τεχνητά καί συνθετικά δεδομένα (704 στο Σχήμα 7). Τα συνθετικά δεδομένα χρησιμοποιούνται για την εκπαίδευση ενός δικτύου Δασκάλου, το οποίο είναι ένα βαθύ δίκτυο CNN με υψηλή ικανότητα εκμάθησης (706 στο Σχήμα 7) που υλοποιεί ένα δίκτυο που συνδυάζει μία ενότητα τμηματοποίησης καί ανίχνευσης αντικειμένων (Σχήμα 3 καί Σχήμα 4). Τα συνθετικά δεδομένα χρησιμοποιούνται επίσης για την εκπαίδευση του μοντέλου τεχνητής νοημοσύνης που πρόκειται να αναπτυχθεί στις συσκευές ακμής που λειτουργούν στο πεδίο (710 στο Σχήμα 7) χρησιμοποιώντας την επίβλεψη από το δίκτυο Δασκάλου (708 στο Σχήμα 7). These identified objects, which are represented. as images accompanied by a segmentation mask, are then fed to the data synthesis unit (703 in Figure 2) which creates artificial and synthetic data (704 in Figure 7). The synthetic data is used to train a Teacher network, which is a deep CNN network with high learning capacity (706 in Figure 7) that implements a network combining a segmentation and object detection module (Figure 3 and Figure 4). The synthetic data is also used to train the artificial intelligence model to be deployed on the edge devices operating in the field (710 in Figure 7) using supervision from the Teacher network (708 in Figure 7).

Μετά την ανάπτυξη του μοντέλου στο πεδίο που απεικονίζεται ως 711 στο Σχήμα 7, OL οπτικοί αισθητήρες πεδίου (712 στο Σχήμα 7) αρχίζουν να λειτουργούν και. να συλλέγουν δεδομένα που αποστέλλονταί πίσω στη μονάδα LSTN προκει,μένου να υποβληθούν σε επεξεργασία από τον Δίκτυο Δασκάλου. OL αισθητήρες πεδίου είναι εξοπλισμένοι με μία πρόσθετη λειτουργία που μπορεί να λειτουργήσει στο οπτικό σύστημα ή σε μία ξεχωριστή συσκευή κοντά στους αισθητήρες (709 στο Σχήμα 7). Ο ρόλος αυτής της λειτουργικότητας είναι να επιλεγούν τα κατάλληλα δείγματα που θα σταλούν πίσω στη μονάδα LSTN. Το στοιχείο επιλογής δείγματος ελέγχει εάν ένα δείγμα ανήκει στη κατανομή δεδομένων που ήταν διαθέσιμη για την εκπαίδευση του μοντέλου εξυπηρέτησης. Προκείμένου να ελεγχθεί εάν ένα δείγμα ανήκει στη συγκεκριμένη κατανομή, εκτελείταί μία δίανυσματίκή αναπαράσταση του δείγματος εισόδου -που υπολογίζεται από το μοντέλο τεχνητής νοημοσύνης που έχει εκπαιδευτεί για εξαγωγή εκτιμήσεων - καί ελέγχεται εάν βρίσκεται εντός της προκαθορισμένης κατανομής. Αυτή η λειτουργία μπορεί επίσης να εκτελεστεί σε μία συσκευή που βρίσκεται κοντά στους αισθητήρες που ονομάζεται Συσκευή Πλησίων του Πεδίου (Near Edge Device) που απεικονίζεται ως 709 στο ΣΧΗΜΑ 7, το οποίο μπορεί να εκτελέσεί τη δειγματοληψία κεντρικά λαμβάνοντας υπόψη την κατανομή των δειγμάτων που συλλέγονταί από όλους τους αισθητήρες. Εναλλακτικά, ένα GAN μπορεί να χρησιμοποιηθεί για την αναγνώριση δειγμάτων που ανήκουν (ή όχι) στη κατανομή, εκπαιδεύοντας ένα δίκτυο Διάκρισης (Discriminator) με τα δεδομένα που είναι διαθέσιμα στο δίκτυο Δασκάλου καί αξιολογώντας νέα δείγματα στις συσκευές που έχουν αναπτυχθεί στο πεδίο. Η προσέγγιση της δειγματοληψίας ελαχιστοποιεί σημαντικά τον όγκο των δεδομένων που μεταφέρονταί πίσω στο σύστημα για εκπαίδευση. After deployment of the model in the field depicted as 711 in Figure 7, OL optical field sensors (712 in Figure 7) begin to operate and. to collect data sent back to the LSTN unit to be processed by the Teacher Network. OL field sensors are equipped with an additional function that can be operated in the optical system or in a separate device near the sensors (709 in Figure 7). The role of this functionality is to select the appropriate samples to be sent back to the LSTN module. The sample selection component checks whether a sample belongs to the data distribution that was available to train the service model. In order to test whether a sample belongs to the given distribution, a vector representation of the input sample - computed by the AI model trained to derive estimates - is run and checked to see if it lies within the predefined distribution. This operation can also be performed in a device located near the sensors called a Near Edge Device depicted as 709 in FIG. 7, which can perform the sampling centrally taking into account the distribution of the collected samples. from all sensors. Alternatively, a GAN can be used to identify samples that belong (or not) to the distribution by training a Discriminator network with the data available in the Teacher network and evaluating new samples on devices deployed in the field. The sampling approach greatly minimizes the amount of data transferred back to the system for training.

Τα δεδομένα πραγματικού κόσμου που παράγονταί στο πεδίο, όταν παρέχονται πίσω στο LSTN επεξεργάζονται από το δίκτυο Δασκάλου που υλοποιεί ένα δίκτυο που συνδυάζει μία τεχνική τμηματοποίησης και ανίχνευσης αντικειμένων (Σχήμα 3 και Σχήμα 4) σε λειτουργία επισήμανσης, προκειμένου να ανιχνεύσει παρόμοια αντικείμενα που εμφανίζονται στη σκηνή. The real-world data generated in the field, when fed back to the LSTN is processed by the Teacher network which implements a network that combines a segmentation and object detection technique (Figure 3 and Figure 4) in labeling mode, in order to detect similar objects appearing in the scene.

Oι εικόνες που παρουσιάζουν τον υψηλότερο βαθμό εμπιστοσύνης (confidence score), πάνω από ένα συγκεκριμένο όριο, επιλέγονται καί αποθηκεύονται στην αρχική βάση δεδομένων αντικειμένων (701 στο Σχήμα 7) μετά από μία λειτουργία εγγραφής (705 στο Σχήμα 7). Η συνολική διαδικασία παρακολουθείταί από τους επιστήμονες δεδομένων ή τους μηχανικούς (707 στο Σχήμα 7) που είναι σε θέση να παρακολουθούν καί να αξιολογούν την απόδοση του μοντέλου στο δίκτυο Δασκάλου/Επίσήμανσης (710 στο Σχήμα 7), το ελαφρύ δίκτυο CNN (711 στο Σχήμα 7) καθώς καί σας συσκευές πεδίου (712 στο Σχήμα 7). Κατά τη διαδικασία παρακολούθησης, επιθεωρώντας μόνο την απόδοση του συστήματος, ο μηχανικός μπορεί να εντοπίσει ορισμένες ακραίες περιπτώσεις κατά την ανάπτυξη καί να επαληθεύσεί ότι η εμπειρία χρήστη είναι σύμφωνη με τα αποτελέσματα που προέκυψαν κατά τη διάρκεια της εκπαίδευσης του δικτύου Δασκάλου/Επίσήμανσης καί του ελαφριού δικτύου CNN. The images presenting the highest confidence score (confidence score), above a certain threshold, are selected and stored in the original object database (701 in Figure 7) after a registration operation (705 in Figure 7). The overall process is monitored by the data scientists or engineers (707 in Figure 7) who are able to monitor and evaluate the performance of the model in the Teacher/Label network (710 in Figure 7), the lightweight CNN network (711 in Figure 7) as well as your field devices (712 in Figure 7). During the monitoring process, by only inspecting the performance of the system, the engineer can identify some extreme cases during development and verify that the user experience is consistent with the results obtained during the training of the Teacher/Marker network and the lightweight CNN network.

Αυτή η επαναληπτική διαδικασία είναι σε θέση να υποστηρίξει καί να διατηρήσει τη συνεχή ανάπτυξη μοντέλων τεχνητής νοημοσύνης βαθιάς μάθησης που εκτελούνταί σε συσκευές ακμής, ακολουθώντας μια προσέγγιση δία βίου καί σταδιακής μάθησης, καθώς νέα αντικείμενα μπορούν να προστεθούν από τον χρήστη ανά πάσα στιγμή. Το διάγραμμα ροής του Σχήματος 8 παρουσιάζει αυτή την επαναληπτική διαδικασία, που αποτελείταί από δύο μονοπάτια. Το πρώτο κινείται από τα αριστερά προς τα δεξιά (801, 802, 803, 804, 805 έως 806 στο Σχήμα 8), όπου τα δεδομένα εισόδου χρησιμοποιούνται για τη σύνθεση των δεδομένων εκπαίδευσης καί την εκπαίδευση του δικτύου Δασκάλου/Επισήμανσης καθώς και του δικτύου που θα αναπτυχθεί για λειτουργία στην συσκευή ακμής. Η δεύτερη διαδρομή ακολουθεί τη διαδρομή από τα δεξιά προς τα αριστερά (806, 804 έως 801 στο Σχήμα 8), όπου τα δεδομένα από το πεδίο επεξεργάζονται από το δίκτυο Δασκάλου/Επισήμανσης προκει,μένου να συμπεριληφθούν σε μεταγενέστερο χρόνο στον βρόχο εκπαίδευσης με σκοπό να βελτιώνουν συνεχώς την απόδοση του αναπτυσσόμενου (σας συσκευές ακμής) μοντέλου CNN, ακολουθώντας ένα Σχήμα σταδιακής μάθησης (incremental learning) καί ενεργητικής μάθησης (active learning). This iterative process is able to support and sustain the continuous development of deep learning AI models running on edge devices, following a lifelong and incremental learning approach, as new objects can be added by the user at any time. The flowchart of Figure 8 shows this iterative process, consisting of two paths. The first moves from left to right (801, 802, 803, 804, 805 to 806 in Figure 8), where the input data is used to synthesize the training data and train the Teacher/Marker network as well as the network that will be developed to run on the edge device. The second path follows the path from right to left (806, 804 to 801 in Figure 8) where the data from the field is processed by the Teacher/Marker network to be included at a later time in the training loop in order to continuously improve the performance of the developing (your edge devices) CNN model, following an incremental learning and active learning pattern.

Η «καρδιά καί ψυχή» της αρχιτεκτονικής του συστήματος που συνοψίζεται στην ενότητα LSTN περίγράφεταί με περισσότερες λεπτομέρειες στη συνέχεια. The "heart and soul" of the system architecture summarized in the LSTN section is described in more detail below.

2.2. Η οντότητα LSTN (Localization, Synthesis and Teacher Network) 2.2. The Localization, Synthesis and Teacher Network (LSTN) entity

To LSTN είναι η βασική οντότητα που επιτρέπει στο σύστημα βαθιάς μάθησης να επιλύσει το πρόβλημα βελτιστοποίησης χρησιμοποιώντας μόνο μερικά δείγματα εικόνων των αντικειμένων στόχου ως σημείο εκκίνησης, χωρίς καμία εισαγωγή (ανθρώπινων) επισημάνσεων. Η ροή εργασίας της μονάδας LSTN παρουσιάζεται εδώ σε δύο μονοπάτια. Η πρώτη διαδρομή (επάνω διαδρομή του Σχήματος 9) χρησιμοποιεί την αρχιτεκτονική καί τις λειτουργίες από τα δεδομένα εισόδου έως την ανάπτυξη του μοντέλου βαθιάς μάθησης. Η δεύτερη ροή ακολουθεί τη διαδρομή από τις αναπτύξεις πίσω στα δεδομένα εισόδου (κάτω διαδρομή του Σχήματος 9). The LSTN is the key entity that allows the deep learning system to solve the optimization problem using only a few sample images of the target objects as a starting point, without any input of (human) labels. The LSTN module workflow is presented here in two paths. The first path (top path of Figure 9) uses the architecture and operations from the input data to the development of the deep learning model. The second flow follows the path from the deployments back to the input data (bottom path of Figure 9).

Στην πρώτη διαδρομή, δεδομένου ενός συνόλου εικόνων που έχουν ληφθεί από το πεδίο, ή έχουν ληφθεί μέσω μίας προσαρμοσμένης συσκευής καταχώρισης αντικειμένων, ή ακόμη παρέχονται ως τρισδιάστατη μοντελοποίηση των αντικειμένων (901 στο Σχήμα 9), η οντότητα αυτή θα εκτελέσεις ακόλουθες κύριες εργασίες. Αρχικά, θα μάθει να εντοπίζει (902 στο Σχήμα 9) καί να τμηματοποίεί (903 στο Σχήμα 9) τα αντικείμενα εντός της δεδομένης είκόνας/σκηνής ακολουθώντας μία μη-επίβλεπόμενη προσέγγιση, καθώς δεν παρέχονται επισημάνσεις σχετικά με τη μάσκα τμηματοποίησης των αντικειμένων ή το πλαίσιο ορίοθέτησης. Αυτό επιτυγχάνεται χρησιμοποιώντας μία αλληλουχία δύο δικτύων CNNs όπως περίγράφεταί στα μπλοκ διαγράμματα στο Σχήμα 3 και το Σχήμα 4 παραπάνω. In the first path, given a set of images taken from the field, or taken through a custom object registration device, or even provided as a 3D modeling of the objects (901 in Figure 9), this entity will perform the following main tasks. First, it will learn to detect (902 in Figure 9) and segment (903 in Figure 9) the objects within the given image/scene following an unsupervised approach, as no cues are provided about the object segmentation mask or context demarcation. This is achieved using a sequence of two CNNs as described in the block diagrams in Figure 3 and Figure 4 above.

Στη συνέχεια, τα τμη ματοπο ίη μένα αντικείμενα (904 στο Σχήμα 9) θα χρησιμοποιηθούν από τη μηχανή σύνθεσης δεδομένων προκείμένου να δημίουργηθεί ένα επίσημασμένο σύνολο δεδομένων (τόσο πλαίσια ορίοθέτησης ανίχνευσης αντικειμένων όσο καί μάσκες τμηματοποίησης) μέσω της συγχώνευσης αντικειμένων (905 στο Σχήμα 9) με παραγόμενα υπόβαθρα από έναν μηχανισμό που βασίζεται σε δίκτυα GANs (908 στο Σχήμα 9) η οποία ακολουθείται από μία προσέγγιση σύνθεσης εικόνας με χρήση δικτύου GAN (909 στο Σχήμα 9). Στην περίπτωση που στην είσοδο είναι διαθέσιμα καί τρισδιάστατα αντικείμενα (901 στο Σχήμα 9), αυτά μπορούν να χρησιμοποιηθούν από μία μηχανή σύνθεσης δεδομένων 3D (906 στο Σχήμα 9) για τη δημιουργία συνθετικών σκηνών, βελτιωμένων επίσης από ένα δίκτυο GAN (907 στο Σχήμα 9). The segmented objects (904 in Figure 9) will then be used by the data synthesis engine to create a formalized dataset (both object detection bounding boxes and segmentation masks) through object fusion (905 in Figure 9). with backgrounds generated by a mechanism based on GANs (908 in Figure 9) which is followed by an image synthesis approach using a GAN network (909 in Figure 9). In the event that 3D objects (901 in Figure 9) are also available in the input, these can be used by a 3D data synthesis engine (906 in Figure 9) to create synthetic scenes, also enhanced by a GAN network (907 in Figure 9 ).

Όλα αυτά τα συνθετικά δεδομένα, τα οποία παρέχοντας παράγονταί ή δημιουργούνται από πραγματικές ή/καί συνθετικές προσεγγίσεις (909 στο Σχήμα 9), θα χρησιμοποιηθούν για την εκπαίδευση του δικτύου Δασκάλου/Επίσήμανσης (413 στο Σχήμα 4) καί την αρχιχοποίηση μίας τοπικής εξωτερικής μνήμης (915 στο Σχήμα 9). Αυτό είναι ένα δίκτυο CNN όπως περίγράφεταί στο Σχήμα 5 παραπάνω. All of this synthetic data, provided it is produced or generated by real and/or synthetic approaches (909 in Figure 9), will be used to train the Teacher/Marker network (413 in Figure 4) and initialize a local external memory ( 915 in Figure 9). This is a CNN network as described in Figure 5 above.

Το δίκτυο Δασκάλου/Επίσήμανσης θα χρησιμοποιηθεί στη συνέχεια για τη βελτίωση της απόδοσης ενός δικτύου ή δικτύων που έχουν εκπαιδευτεί για να εξυπηρετούν το συγκεκριμένο μοντέλο (910 στο Σχήμα 9) στο πεδίο, για παράδειγμα σε ένα σύστημα υπολογιστικής όρασης που παρουσιάζεται εδώ για απλότητα ως μία μόνο κάμερα (911 στο Σχήμα 9). Η απόδοση του δικτύου Δασκάλου/Επίσήμανσης (915 στο Σχήμα 9) καθώς καί η απόδοση του ελαφρού CNN (919 στο Σχήμα 9) αξιολογούνται από τον χρήστη μέσω μίας διαδικασίας αναφοράς. The Tutor/Label network will then be used to improve the performance of a network or networks trained to serve the particular model (910 in Figure 9) in the field, for example in a computer vision system presented here for simplicity as a camera only (911 in Figure 9). The performance of the Teacher/Label network (915 in Figure 9) as well as the performance of the lightweight CNN (919 in Figure 9) are evaluated by the user through a benchmarking process.

Στη δεύτερη διαδρομή, το δίκτυο Δασκάλου/Επισήμανσης μπορεί να εντοπίζει νέα αντικείμενα (916 στο Σχήμα 9), τα οποία συνεχώς καταγράφονται (918 στο Σχήμα 9) ως νέες εγγραφές στη βάση δεδομένων αντικειμένων (917 στο Σχήμα 9). Το δίκτυο Δασκάλου/Επίσήμανσης ενσωματώνει μία μνήμη (920 στο Σχήμα 9) καί έναν μηχανισμό προσοχής (attention mechanism) (914 στο Σχήμα 9) προκείμένου να αναγνωρίζει καλύτερα παρόμοια αντικείμενα από συσκευές που λειτουργούν στο πεδίο. Καθώς οι συσκευές πεδίου καταγράφουν παρόμοια δεδομένα, ο μηχανισμός προσοχής (914 στο Σχήμα 9) επιτρέπει στη μονάδα Δασκάλου/Επίσήμανσης να εντοπίζει καλύτερα τα αντικείμενα ενσωματώνοντας πληροφορίες από παρόμοια αντικείμενα που εμφανίστηκαν στο παρελθόν καί είναι διαθέσιμα σε μία τοπική μνήμη. Η τοπική μνήμη αποθηκεύει αναπαραστάσεις χαρακτηριστικών / δίανυσμάτων των αντικειμένων επιτρέποντας στον μηχανισμό προσοχής να βελτιώσει τις αποφάσεις που λαμβάνονταί από το δίκτυο Δασκάλου/Επίσήμανσης. Αυτή η πρακτική, που χαρακτηρίζεται από αυξημένη ικανότητα μάθησης καί μεγάλο μέγεθος μνήμης, παρέχει ευελιξία στο συνολικό σχήμα μάθησης, ενώ επιτρέπει στο δίκτυο που θα αναπτυχθεί στις συσκευές ακμής να είναι σχετικά απλό σε όρους υπολογιστικής πολυπλοκότητας. In the second path, the Tutor/Marker network can detect new objects (916 in Figure 9), which are continuously recorded (918 in Figure 9) as new entries in the object database (917 in Figure 9). The Teacher/Marker network incorporates a memory (920 in Figure 9) and an attention mechanism (914 in Figure 9) to better recognize similar objects from devices operating in the field. As the field devices record similar data, the attention mechanism (914 in Figure 9) allows the Teacher/Marker unit to better locate objects by incorporating information from similar objects that have appeared in the past and are available in a local memory. Local memory stores feature / vector representations of the objects allowing the attention mechanism to improve the decisions made by the Tutor/Label network. This practice, characterized by increased learning capacity and large memory size, provides flexibility in the overall learning scheme while allowing the network to be deployed on edge devices to be relatively simple in terms of computational complexity.

2.2.1. LSTN: Χωρικός Εντοπισμός 2.2.1. LSTN: Spatial Tracking

Δεδομένου ενός μικρού αριθμού εικόνων, τυπικά 5 έως 10 εικόνων ανά αντικείμενο, ο Χάρτης Ενεργοποίησης Κλάσης (CAM) μίας ταξινόμησης Deep CNN χρησιμοποιείται για την εξαγωγή προσεγγίστίκών αποτελεσμάτων αντικειμένων καί παρέχει μία αδύναμη επισήμανση των είκονοστοίχείου προσκηνίου. Για την εκμάθησης ενός ισχυρού CAM, αρχικά πρέπει να γίνει μία αυτό-επίβλεπόμενη διαδικασία εκμάθησης. Συγκεκριμένα, το σύστημα μαθαίνει να περιστρέφει το αντικείμενο, βρίσκει σχέσεις μεταξύ τμημάτων της εικόνας καί μαθαίνει τον τρόπο να γεμίζει μέρη της εικόνας που λείπουν. Επίσης, δεδομένου ότι η ετικέτα της κλάσης για τα αντικείμενα είναι γνωστή, το σύστημα είναι επίσης βελτιστοποιημένο στην διεργασία ταξινόμησης εικόνων. Given a small number of images, typically 5 to 10 images per object, the Class Activation Map (CAM) of a Deep CNN classifier is used to extract object approximation results and provide a weak labeling of foreground pixels. To learn a robust CAM, a self-supervised learning process must first take place. Specifically, the system learns to rotate the object, finds relationships between parts of the image, and learns how to fill in missing parts of the image. Also, since the class label for the objects is known, the system is also optimized in the image classification process.

Η διαδικασία Χωρικού Εντοπισμού περιλαμβάνει ένα ή περισσότερα από τα ακόλουθα βήματα: The Geospatial process involves one or more of the following steps:

1. Παροχή ενός αριθμού εικόνων αντικειμένων (901 στο Σχήμα 9) 1. Providing a number of object images (901 in Figure 9)

2. Επιλογή μιας αρχιτεκτονικής κατηγορίοποίησης δικτύου Deep CNN με ενσωματωμένο επίπεδο Καθολικής Μέσης Δειγματοληψίας (902 στο Σχήμα 9) 2. Selection of a Deep CNN network classification architecture with built-in Global Mean Sampling layer (902 in Figure 9)

3. Εκπαίδευση του δικτύου CNN κατηγορίοποίησης με μια διαδικασία αυτό-επίβλεπόμενη κατηγορίοποίησης (902 στο Σχήμα 9) 3. Training the classification CNN network with a self-supervised classification process (902 in Figure 9)

4. Βελτιστοποίηση του δικτύου με μια διαδικασία κατηγορίοποίησης επίβλεπόμενης εκμάθησης (902 στο Σχήμα 9) 4. Optimizing the network with a supervised learning classification procedure (902 in Figure 9)

5. Εξαγωγή Χαρτών Ενεργοποίησης Κλάσεων για όλες τις εικόνες (902 στο Σχήμα 9) 5. Extracting Class Activation Maps for all images (902 in Figure 9)

6. Ορισμός κατωφλίων στα CAMs καί δημιουργία δυαδικών μασκών που απεικονίζουν είκονοστοίχεία προσκηνίου καί υποβάθρου (902 στο Σχήμα 4) 6. Thresholding CAMs and creating binary masks depicting foreground and background icons (902 in Figure 4)

7. Χρήση αυτής της κατηγορίοποίησης είκονοστοίχείων για την εκπαίδευση ενός δικτύου δεύτερης κατηγορίοποίησης το οποίο θα εκχωρεί ένα είκονοστοίχείο σε μια τάξη, λαμβάνοντας υπόψη μία αξιολόγηση πολλαπλής κλίμακας μαζί με ένα πλειοψηφικό σχήμα ψηφοφορίας (majority voting scheme) (903 στο Σχήμα 9) 7. Using this pixel classification to train a second classification network that will assign a pixel to a class, taking into account a multi-scale evaluation along with a majority voting scheme (903 in Figure 9).

8. Χρήση των παραγόμενων μασκών για την εκπαίδευση ενός δικτύου CNN τμηματοποίησης (904 στο Σχήμα 9) 8. Using the generated masks to train a segmentation CNN network (904 in Figure 9)

9. Επεξεργασία των τμηματοποίημένων (από το δίκτου CNN) εικόνων και εξαγωγή μασκών τμη ματοποίησης (904 στο Σχήμα 9) 9. Processing the segmented (from CNN) images and extracting segmentation masks (904 in Figure 9)

10. Τοποθέτηση ορθογωνίων (πλαισίων ορίοθέτησης) γύρω από τις δημιουργημένες μάσκες (904 στο Σχήμα 9) 10. Placing rectangles (bounding boxes) around the created masks (904 in Figure 9)

11. Επιστροφή της μάσκας τμηματοποίησης καί των πλαισίων ορίοθέτησης για όλες τις εικόνες εισόδου (904 στο Σχήμα 9) 11. Return segmentation mask and bounding boxes for all input images (904 in Figure 9)

Η έξοδος του Βήματος 10 της μονάδας χωρικού εντοπισμού είναι τμήματα αντικειμένων με μάσκες τμηματοποίησης (904 στο Σχήμα 9) που χρησιμοποιούνται από τη μονάδα σύνθεσης δεδομένων για τη δημιουργία δεδομένων που θα χρησιμοποιηθούν στην εκπαίδευση του συστήματος. The output of Step 10 of the spatial localization module is object segments with segmentation masks (904 in Figure 9) used by the data synthesis module to generate data to be used in training the system.

Η διαδικασία εντοπισμού αντικειμένων παρουσιάζεται επίσης στο Σχήμα 10. Δεδομένων εικόνων με δείγματα αντικειμένων (1001 στο Σχήμα 10) αρχικά εκπαιδεύεται ένα δίκτυο κατηγορίοποίησης για την ταξινόμηση αντικειμένων (1002 στο Σχήμα 10). Μετά την εκπαίδευση του δικτύου (1002 στο Σχήμα 10) χρησιμοποιούνται οι Χάρτες Ενεργοποίησης Κλάσης (CAMs) του (1003 στο Σχήμα 10) για να εντοπίσθεί ασθενώς το αντικείμενο. Αυτός ο τρόπος αδύναμης επισήμανσης (weak labeling) εκτελείται σε επίπεδο είκονοστοίχείου επιτρέποντας σε ένα δίκτυο τμηματοποίησης να μάθει πιο εύρωστα τον εντοπισμό αντικειμένων (1004 στο Σχήμα 10). Μόλις το δίκτυο αυτό είναι έτοιμο, η διαδικασία επισήμανσης μπορεί να ξεκινήσει υπολογίζοντας πρώτα τις μάσκες για όλα τα αντικείμενα (1005 στο Σχήμα 10) καί στη συνέχεια υπολογίζοντας τα πλαίσια ορίοθέτησης των αντικειμένων (1006 στο Σχήμα 10). Σε περίπτωση που είναι διαθέσιμα στην αρχή συνθετικά δεδομένα, μαζί με τις μάσκες τμηματοποίησής τους (1007 στο Σχήμα 5), χρησιμοποιούνται ως επίσημασμένα δείγματα για την εκπαίδευση του δικτύου τμηματοποίησης (1004 στο Σχήμα 10). Τα μη επίσημασμένα δεδομένα (1008 στο Σχήμα 10) μπορούν στη συνέχεια να υποβληθούν για επισήμανση στο 1005 στο Σχήμα 10. The object detection process is also shown in Figure 10. Given object sample images (1001 in Figure 10) a classification network is first trained to classify objects (1002 in Figure 10). After training the network (1002 in Figure 10) the Class Activation Maps (CAMs) of (1003 in Figure 10) are used to weakly locate the object. This way of weak labeling is performed at the pixel level allowing a segmentation network to more robustly learn to locate objects (1004 in Figure 10). Once this network is ready, the labeling process can begin by first computing the masks for all objects (1005 in Figure 10) and then computing the bounding boxes of the objects (1006 in Figure 10). In case synthetic data are initially available, together with their segmentation masks (1007 in Figure 5), they are used as formalized samples to train the segmentation network (1004 in Figure 10). The informal data (1008 in Figure 10) can then be submitted for labeling at 1005 in Figure 10.

2.2.2. LSTN: Μονάδα Σύνθεσης Δεδομένων 2.2.2. LSTN: Data Synthesis Unit

Δεδομένου ότι είναι διαθέσιμος ένας μικρός αριθμός αντικειμένων μαζί με τις αντίστοιχες μάσκες τμηματοποίησης (1101 στο Σχήμα 11), η μονάδα σύνθεσης δεδομένων συνδυάζει τα υπόβαθρα που παράγονταί από ένα δίκτυο GAN (1106 στο Σχήμα 11) με τα τμη ματοπο ίη μένα ή παρεχόμενα (1101 στο Σχήμα 11) αντικείμενα, τα οποία μπορούν να επαυξηθούν περαιτέρω (1103 στο Σχήμα 11) καί να συνδυασθούν με μία διαδικασία ανάμειξης που βασίζεται σε GAN (1105 στο Σχήμα 11). Επίσης, μπορούν να παραχθούν επιπλέον δείγματα αντικειμένων από μία μηχανή παραγωγής 3D δεδομένων (1104 στην Σχήμα 11), στην περίπτωση που υπάρχουν διαθέσιμα 3D (τρισδιάστατα) μοντέλα, προκει,μένου να επαυξηθεί περαιτέρω το σύνολο δεδομένων των αντικειμένων. Με αυτόν τον τρόπο, παράγεταί ένας μεγάλος αριθμός επίσημασμένων συνδυασμών δεδομένων (1107 στο Σχήμα 11). Παρά το γεγονός ότι τα GANs χρησιμοποιούνται ως το βασικό παραγωγικό μοντέλο, μπορεί να χρησιμοποιηθεί οποιαδήποτε παρόμοια προσέγγιση όπως OL Variational Autoencoders καί OL παραλλαγές των Παραγωγικών Μοντέλων (Generative Models) που μπορούν να ενσωματώσουν χαρακτηριστικά όπως αποπλεγμένες αναπαραστάσεις. Since a small number of objects are available along with their corresponding segmentation masks (1101 in Figure 11), the data synthesis unit combines the backgrounds produced by a GAN network (1106 in Figure 11) with the stored or provided segments (1101 in Figure 11) objects, which can be further augmented (1103 in Figure 11) and combined with a GAN-based blending process (1105 in Figure 11). Also, additional object samples can be generated by a 3D data generation engine (1104 in Figure 11), in the event that 3D (three-dimensional) models are available, in order to further augment the object data set. In this way, a large number of formalized data combinations are produced (1107 in Figure 11). Although GANs are used as the basic generative model, any similar approach can be used such as OL Variational Autoencoders and OL variations of Generative Models that can incorporate features such as decoupled representations.

Αυτή η διαδικασία επαναλαμβάνεται κάθε φορά που χρειάζεται να προστεθεί ένα νέο αντικείμενο από τον πελάτη ή ένα νέο αντικείμενο εντοπίζεται από το δίκτυο Δασκάλου/Επίσήμανσης αναλύοντας εικόνες που έχουν ληφθεί από το πεδίο. Επομένως, η ενσωμάτωση νέων αντικειμένων στη διαδικασία ανίχνευσης μπορεί να πραγματοποιηθεί απρόσκοπτα μέσω της συνεχούς ενημέρωσης του μοντέλου καί της προσέγγισης δία βίου μάθησης που ει,σάγεται. μέσω της οντότητας LSTN. This process is repeated whenever a new object needs to be added by the client or a new object is detected by the Teacher/Marker network by analyzing images taken from the field. Therefore, the integration of new objects into the detection process can be done seamlessly through the continuous updating of the model and the lifelong learning approach that it takes. through the LSTN entity.

Η μηχανή σύνθεσης δεδομένων 3D (1104 στο Σχήμα 6) μπορεί επίσης να δημιουργήσει τρισδιάστατες απεικονίσεις χρησιμοποιώντας δισδιάστατες εικόνες του αντικειμένου που καταγράφηκε στο πεδίο και τμηματοποιήθηκε από το δίκτυο Δασκάλου/Επίσήμανσης για χρήση ως δείγματα αντικειμένων εισόδου με μάσκες (1101 στο Σχήμα 6). Επιπλέον, η μηχανή σύνθεσης δεδομένων 3D (1104 στο Σχήμα 6) είναι σε θέση να μάθει το τρισδιάστατο πλέγμα (3D mesh) των αντικειμένων, να εκτελέσεί ένα ξετύλιγμα υφής (texture unwrapping) στο τρισδιάστατο μοντέλο καί να δημιουργήσει νέες εικόνες προβάλλοντας το τρισδιάστατο αντικείμενο σε διάφορες σκηνές με διαφορετικές συνθήκες φωτισμού. Για το σκοπό αυτό, στο 604 χρησιμοποιούνται επίσης αντίστροφα γραφικά (inverse graphics) σε συνδυασμό με δίαφοροποίήσίμα γραφικά (differentiable Tenderers) καί GANs. Πτο συγκεκριμένα, αν δίνονται πολλαπλές όψεις ενός αντικειμένου, το σύστημα μπορεί να εκπαιδεύσει ένα δίκτυο GAN για να ξεμπερδέψει την τρισδιάστατη αναπαράσταση του αντικειμένου που εκτι,μάται. μέσω αντίστροφων γραφικών, επιτρέποντας στο σύστημα να χειριστεί τις παραμέτρους σκηνής απευθείας μέσα στη γεννήτρια GAN. Οι παράμετροί μπορεί να περιλαμβάνουν τη γωνία θέασης, τον φωτισμό, την ανάκλαση, το μέγεθος (την κλίμακα) καί οποίαδήποτε άλλη παράμετρο διαθέσιμη σε σύγχρονους 3D Tenderers. Το πλεονέκτημα αυτής της μεταγενέστερης προσέγγισης είναι ότι η τρισδιάστατη δομή των αντικειμένων ανακτάται από τις δίσδίάστατες προβολές μέσω αντίστροφων γραφικών. The 3D data synthesis engine (1104 in Figure 6) may also create 3D renderings using 2D images of the object captured in the field and segmented by the Teacher/Label network for use as sample input objects with masks (1101 in Figure 6). Additionally, the 3D data synthesis engine (1104 in Figure 6) is able to learn the 3D mesh of the objects, perform a texture unwrapping on the 3D model, and create new images by projecting the 3D object into various scenes with different lighting conditions. For this purpose, 604 also uses inverse graphics in combination with differentiable tenderers and GANs. Specifically, given multiple views of an object, the system can train a GAN network to disentangle the 3D representation of the object being evaluated. via inverse graphics, allowing the system to manipulate scene parameters directly within the GAN generator. Parameters may include viewing angle, illumination, reflection, size (scale) and any other parameter available in modern 3D Tenderers. The advantage of this latter approach is that the 3D structure of the objects is recovered from the 2D projections via inverse graphics.

2.2.3. LSTN: Εκπαίδευση δικτύου Δασκάλου/Επισήμανσης 2.2.3. LSTN: Teacher/Tag network training

Ο ρόλος αυτού του δικτύου είναι διπλός. Πρώτον να χρησιμοποιηθεί ως ένα δίκτυο Δάσκαλος με στόχο την εκπαίδευση του πραγματικού δικτύου που θα αναπτυχθεί στο πεδίο καί, δεύτερον, να πραγματοποιήσει επισήμανση στα δεδομένα που αποκτήθηκαν πρόσφατα από τις συσκευές ακμής (πεδίου). Πιο συγκεκριμένα, δεδομένου ότι παράγεταί μεγάλος όγκος επίσημασμένων δεδομένων, εκπαιδεύεται ένα δίκτυο CNN ανίχνευσης καί τμηματοποίησης μεγάλης χωρητικότητας - συγκεκριμένα το δίκτυο Δασκάλου/Επισήμανσης (913 στο Σχήμα 9). Παρά το γεγονός ότι το δίκτυο αυτό θα μπορούσε κάλλιστα να αναπτυχθεί για λειτουργία σε συσκευές ακμής, είναι προτιμότερο να υπάρχει ένα αποκλειστικό δίκτυο για τη συσκευή ακμής με έμφαση στις δυνατότητες του υλικού καί στην προδιαγραφή του χρόνου εκτέλεσης/επεξεργασίας όταν λειτουργεί στο πεδίο. Με αυτόν τον τρόπο, αντί να αναπτυχθεί αυτό το βαθύ μοντέλο CNN (δηλαδή το δίκτυο Δασκάλου), εκπαιδεύεται ένα ελαφρύ μοντέλο CNN στα ίδια δεδομένα (909 στο Σχήμα 9) προκείμένου να βελτιστοποιήσει την απόδοση καί να πληροί τις προδιαγραφές του συστήματος στη φάση ανάπτυξης. Αυτό το δίκτυο Δασκάλου/Επισήμανσης χρησιμοποιείται επίσης για την επισήμανση των δεδομένων που αποκτήθηκαν πρόσφατα από το πεδίο (912 στο Σχήμα 9). Η χρήση μίας εξωτερικής μνήμης (915 στο Σχήμα 9) καί ενός μηχανισμού προσοχής (914 στο Σχήμα 4) παρέχει σημαντική ευρωστία στο μοντέλο, καθώς μπορεί να χρησιμοποιήσει πληροφορίες κατά τη διάρκεια της λειτουργίας του για την καλύτερη αναγνώριση των αντικειμένων από το πεδίο καί να αποφύγει. μία κακή απόδοση λειτουργίας λόγω μετατόπισης της κατανομής των δεδομένων που συνήθως προκαλείται. από μεταβαλλόμενες συνθήκες πεδίου. Το δίκτυο Δασκάλου/Επίσήμανσης αποστέλλει επίσης λειτουργία εγγραφής για τη βάση δεδομένων αντικειμένων (901 στο Σχήμα 9) προκει,μένου να προσθέσει νέες καταχωρήσεις που συλλέγονταί από το πεδίο. The role of this network is twofold. Firstly to be used as a Teacher network with the aim of training the real network to be deployed in the field and secondly to perform labeling on the newly acquired data from the edge (field) devices. More specifically, since a large amount of formalized data is generated, a large capacity detection and segmentation CNN is trained - specifically the Teacher/Label network (913 in Figure 9). Although this network could well be developed to run on edge devices, it is preferable to have a dedicated network for the edge device with an emphasis on hardware capabilities and runtime/processing specification when operating in the field. In this way, instead of developing this deep CNN model (i.e. the Teacher network), a light CNN model is trained on the same data (909 in Figure 9) in order to optimize the performance and meet the system specifications in the development phase. This Teacher/Marker network is also used to mark newly acquired data from the field (912 in Figure 9). The use of an external memory (915 in Figure 9) and an attention mechanism (914 in Figure 4) provides significant robustness to the model, as it can use information during its operation to better recognize objects from the field and avoid . a poor operating performance due to a shift in the distribution of data that is usually caused. from changing field conditions. The Teacher/Marker network also dispatches a write function for the object database (901 in Figure 9) in order to add new entries collected from the field.

Το ελαφρύ μοντέλο CNN μπορεί επίσης να εκπαιδευτεί σε μία προσέγγιση δασκάλου-μαθητή χρησιμοποιώντας το δίκτυο Δασκάλου/Επίσήμανσης της οντότητας LSTN μέσω απόσταξης γνώσης (knowledge distillation), μία διαδικασία στην οποία ένα ελαφρύ δίκτυο CNN εκπαιδεύεται με χαρακτηριστικά υψηλού επιπέδου που εξάγονται από άλλο δίκτυο. Η εκπαίδευση απόσταξης γνώσης μπορεί να εφαρμοστεί σε περιπτώσεις ανίχνευσης αντικειμένων αναγκάζοντας τα δίκτυα των μαθητών να μίμηθούν την απόκριση δικτύου του δασκάλου στις περιοχές όπου εμφανίζονται τα αντικείμενα. Για παράδειγμα, στα Δίκτυα Ανίχνευσης Μονού Περάσματος (Single Shot Detection Networks) οι περιοχές αυτές μπορεί να είναι οι περιοχές που υποδεικνύονται από τα ανατιθέμενα πλαίσια και για τα Δίκτυα Προτείνόμενης Περιοχής (Region Proposal Networks) οι περιοχές που υποδεικνύονται από τις προτάσεις του δικτύου. The lightweight CNN model can also be trained in a teacher-student approach using the Tutor/Label network of the LSTN entity via knowledge distillation, a process in which a lightweight CNN is trained with high-level features extracted from another network. Knowledge distillation training can be applied to object detection cases by forcing learner networks to mimic the teacher's network response to regions where objects appear. For example, in Single Shot Detection Networks these areas may be the areas indicated by the assigned frames and for Region Proposal Networks the areas indicated by the network proposals.

Η διαγραμματική ροή εργασιών για το δίκτυο Δασκάλου/Επίσήμανσης παρουσιάζεται στο Σχήμα 12. The diagrammatic workflow for the Teacher/Marker network is shown in Figure 12.

Η μονάδα σύνθεσης δεδομένων (1201 στο Σχήμα 12) τροφοδοτεί με συνθετικά και πραγματικά δεδομένα (1202 στο Σχήμα 12) το δίκτυο Δασκάλου/Επίσήμανσης (1203 στο Σχήμα 12). Μετά από μια φάση εκπαίδευσης, το δίκτυο Δασκάλου/Επίσήμανσης είναι σε θέση α) να αποστάξεί τη γνώση σε ένα μικρότερο δίκτυο που έχει εκπαιδευτεί για λειτουργία σε συσκευές ακμής (1204 στο Σχήμα 12) ή β) να επισημάνει (1205 στο Σχήμα 12) δεδομένα που αποκτήθηκαν πρόσφατα (706 στο Σχήμα 7). Τα επίσημασμένα δεδομένα αποστέλλονταί στη μονάδα σύνθεσης δεδομένων (1201 στο Σχήμα 12) χρησιμοποιώντας έναν μηχανισμό ανάδρασης δεδομένων, με σκοπό να χρησιμοποιηθούν για τις συνεχείς ενημερώσεις των μοντέλων καί τη σταδιακή εκμάθηση των ενσωματωμένων μοντέλων CNN. The data synthesis unit (1201 in Figure 12) feeds synthetic and real data (1202 in Figure 12) to the Teacher/Marker network (1203 in Figure 12). After a training phase, the Teacher/Marker network is able to a) distill the knowledge to a smaller network trained to operate on edge devices (1204 in Figure 12) or b) label (1205 in Figure 12) data recently acquired (706 in Figure 7). The formalized data is sent to the data synthesis unit (1201 in Figure 12) using a data feedback mechanism, to be used for continuous model updates and incremental learning of the embedded CNN models.

2.2.4. LSTN: Το δίκτυο εξυπηρέτησης 2.2.4. LSTN: The service network

Σκοπός του συστήματος είναι η συνεχής εκπαίδευση καί ανάπτυξη μοντέλων στο πεδίο. Το δίκτυο εξυπηρέτησης (6910 στο Σχήμα 9) είναι το στοιχείο που εφαρμόζει την αποκτηθείσα γνώση στον πραγματικό κόσμο και, με αυτόν τον τρόπο, πρέπει να είναι συμβατό με αρκετούς περιορισμούς που υπάρχουν στον πραγματικό κόσμο. Το πιο σημαντικό, αυτό το δίκτυο θα πρέπει να βελτιστοποιηθεί για να λειτουργεί στη διαθέσιμη συσκευή ακμής, η οποία στις περισσότερες περιπτώσεις είναι αποδοτική σε ενέργεια καί επομένως διαθέτει περιορισμένους υπολογιστικούς πόρους όσον αφορά τις λειτουργίες ανά δευτερόλεπτο, την αναπαράσταση bit (αριθμητική κινητής υποδιαστολής ή μόνο ακέραιο) ή τη μνήμη. Με αυτόν τον τρόπο, αυτό το δίκτυο βελτιστοποιείται για να ταιριάζει με τις προδιαγραφές του υλικού προορισμού. Για να επιτευχθεί αυτό, το δίκτυο κλαδεύεται (pruned), κβαντίζεται. (quantized) καί αποστάζεταί (distilled) από το δίκτυο CNN Δασκάλου/Επίσήμανσης. Η αρχιτεκτονική μπορεί να επιλεγεί από τον χρήστη μέσα από έναν αριθμό αρχιτεκτονικών που έχουν αρχικά επαληθευτεί ότίταίρίάζουν στην αρχιτεκτονική στόχο. Το δίκτυο Δασκάλου/Επίσήμανσης μαζί με τη διαδικασία κλαδέματος διασφαλίζουν ότι το μοντέλο θα παρουσιάζει καλές ιδιότητες γενίκευσης, καί το σχήμα εκμάθησης που βασίζεται στην κβάντίση εγγυάταί ότι το μοντέλο δεν θα επηρεαστεί από τους περιορισμούς του υλικού στόχου στην ακρίβεια κατά τη διάρκεια των αριθμητικών λειτουργιών. The purpose of the system is the continuous training and development of models in the field. The service network (6910 in Figure 9) is the component that applies the acquired knowledge to the real world and, in doing so, must be compatible with several constraints that exist in the real world. Most importantly, this network should be optimized to run on the available edge device, which in most cases is energy efficient and therefore has limited computational resources in terms of operations per second, bit representation (floating point or only integer) or memory. In this way, this network is optimized to match the specifications of the target hardware. To achieve this, the network is pruned, quantized. (quantized) and distilled (distilled) by the Teacher/Marking CNN network. The architecture can be selected by the user from among a number of architectures that have been initially verified to match the target architecture. The Teacher/Label network together with the pruning process ensures that the model will exhibit good generalization properties, and the quantization-based learning scheme guarantees that the model will not be affected by the target hardware's accuracy limitations during numerical operations.

Παρόλα αυτά, δεδομένου ότι η κλίμακα των εγκατεστημένων συσκευών (911 στο Σχήμα 9) μπορεί να είναι εξαιρετικά μεγάλη, για παράδειγμα εκατομμύρια κινητά τηλέφωνα ή κάμερες ή υπηρεσίες cloud, είναι σημαντικό να γίνεται επιλεκτική δειγματοληψία των νέων δεδομένων με βάση ορισμένα κριτήρια που σχετίζονται με τη διανομή καί την χαρακτηριστικά των διαθέσιμων δεδομένων εκπαίδευσης. Με αυτόν τον τρόπο το δίκτυο εξυπηρέτησης ενσωματώνει έναν μηχανισμό δειγματοληψίας που παρακολουθεί τα δείγματα που συνάγονται (επεξεργάζονται από το ελαφρύ εξυπηρετούμενο δίκτυο CNN) μέσω ανάλυσης στατιστικών δεδομένων ή ανίχνεύοντας ανωμαλίες στα δεδομένα. Με την ανάλυση των στατιστικών, διασφαλίζεται ότι τα δείγματα που έχουν ληφθεί από συσκευές ακμής καλύπτουν ολόκληρη την κατανομή των δεδομένων καί με την ανίχνευση ανωμαλιών διασφαλίζεται ότι δει,γματοληπτούνται. καί τα δείγματα που ήταν εκτός κατανομής. However, since the scale of installed devices (911 in Figure 9) can be extremely large, for example millions of mobile phones or cameras or cloud services, it is important to selectively sample the new data based on certain criteria related to distribution and characteristics of available training data. In this way the serving network incorporates a sampling mechanism that monitors the inferred samples (processed by the lightweight served CNN) through statistical data analysis or by detecting anomalies in the data. Statistics analysis ensures that samples taken from edge devices cover the entire data distribution and anomaly detection ensures that they are sampled. and the samples that were out of distribution.

Η ροή εργασίας του δικτύου εξυπηρέτησης παρουσιάζεται στο Σχήμα 13. Αρχικά, η μονάδα σύνθεσης δεδομένων (1301 στο Σχήμα 13) δημιουργεί δεδομένα που θα χρησιμοποιηθούν για την εκπαίδευση του δικτύου εξυπηρέτησης (1303 στο Σχήμα 13). Αυτά τα δεδομένα έχουν ήδη χρησιμοποιηθεί για την εκπαίδευση του δικτύου Δασκάλου/Επίσήμανσης (1302 στο Σχήμα 13) στο προηγούμενο βήμα, όπως απεικονίζεται επίσης στο Σχήμα 12 καί υποδηλώνεται επίσης εδώ με τη σύνδεση μεταξύ 1301 καί 1302 στο Σχήμα 13. Η εκπαίδευση του δικτύου εξυπηρέτησης (1303 στο Σχήμα 13) καθοδηγείται από το δίκτυο Δασκάλου/Επίσήμανσης (1302 στο Σχήμα 13). Μόλις το μοντέλο εκπαιδευτεί, μπορεί να αναπτυχθεί στις συσκευές ακμής (1304 στο Σχήμα 13) για λειτουργικούς σκοπούς. Ενώ το μοντέλο αναπτύσσεται, μπορεί επίσης να χρησιμοποιηθεί για δειγματοληψία εικόνων (1305 στο Σχήμα 13) χρησιμοποιώντας συγκεκριμένα κριτήρια που σχετίζονται με τη κατανομή των δεδομένων. Αυτά τα δειγματοληπτικά δεδομένα στη συνέχεια τροφοδοτούνται στο δίκτυο Δασκάλου/Επίσήμανσης για τη βελτίωση της μονάδας σύνθεσης δεδομένων. The workflow of the service network is shown in Figure 13. First, the data synthesis unit (1301 in Figure 13) generates data to be used to train the service network (1303 in Figure 13). This data has already been used to train the Teacher/Marker network (1302 in Figure 13) in the previous step, as also depicted in Figure 12 and also denoted here by the connection between 1301 and 1302 in Figure 13. The training of the service network (1303 in Figure 13) is driven by the Teacher/Marker network (1302 in Figure 13). Once the model is trained, it can be deployed to the edge devices (1304 in Figure 13) for operational purposes. While the model is being developed, it can also be used to sample images (1305 in Figure 13) using specific criteria related to the distribution of the data. This sample data is then fed into the Teacher/Marker network to improve the data synthesis module.

Επιπλέον, τα συστήματα, οι μέθοδοί καί τα πρωτόκολλα μίας πτυχής αυτής της τεχνολογίας μπορούν να υλοποιηθούν σε υπολογιστή ειδικού σκοπού, προγραμματισμένο μίκροεπεξεργαστή ή μίκροελεγκτή καί στοίχείο(α) περιφερειακού ολοκληρωμένου κυκλώματος, ASIC ή άλλο ολοκληρωμένο κύκλωμα, επεξεργαστή ψηφιακού σήματος, ένα ενσύρματο ηλεκτρονικό ή λογικό κύκλωμα όπως κύκλωμα δίακρίτών στοιχείων, μία προγραμματίζόμενη λογική συσκευή όπως PLD, PLA, FPGA, PAL, οποίοδήποτε συγκρίσιμο μέσο ή παρόμοια. Γενικά, οποίαδήποτε συσκευή ικανή να εφαρμόσει μία μηχανή κατάστασης που με τη σειρά της είναι ικανή να εφαρμόσει τη μεθοδολογία που απεικονίζεται εδώ μπορεί να χρησιμοποιηθεί για την εφαρμογή των διαφόρων μεθόδων, πρωτοκόλλων καί τεχνικών σύμφωνα με αυτήν την τεχνολογία. In addition, the systems, methods, and protocols of an aspect of this technology may be implemented in a special purpose computer, programmable microprocessor or microcontroller, and peripheral integrated circuit component(s), ASIC or other integrated circuit, digital signal processor, a wired electronic or logic circuit such as element discriminator circuit, a programmable logic device such as PLD, PLA, FPGA, PAL, any comparable means or the like. In general, any device capable of implementing a state machine that is in turn capable of implementing the methodology depicted herein can be used to implement the various methods, protocols, and techniques according to this technology.

Παραδείγματα των επεξεργαστών όπως περίγράφονταί εδώ μπορεί να περιλαμβάνουν, αλλά δεν περιορίζονται σε, τουλάχιστον έναν από τους Qualcomm<®>Snapdragon<®>800 καί 801, Qualcomm<®>Snapdragon<®>610 καί 615 με ενσωμάτωση 4G LTE καί 64-bit αρχιτεκτονική, επεξεργαστή Apple<®>Α7 με αρχιτεκτονική 64-bit, συνεπεξεργαστές κίνησης Apple<®>Μ7, σειρά Samsung<®>Exynos<®>, οικογένεια επεξεργαστών Intel<®>Core™, οικογένεια επεξεργαστών Intel<®>Xeon<®>, οικογένεια επεξεργαστών Intel<®>Atom™, οικογένεια επεξεργαστών Intel<®>Itanium<®>επεξεργαστές, Intel<®>Core<®>i5-4670Κ καί i7-4770Κ 22nm Haswell, Intel<®>Core<®>i5-3570Κ 22nm Ivy Bridge, οικογένεια επεξεργαστών AMD<®>FX™, AMD<®>FX-4300, FX-6300 καί FX-8350 επεξεργαστές Vishera 32nm, επεξεργαστές AMD<®>Kaveri, επεξεργαστές infotainment αυτοκινήτου Texas Instruments<®>Jacinto C6000™, φορητοί επεξεργαστές κατηγορίας αυτοκινήτου Texas Instruments<®>OMAP™, επεξεργαστές ARM<®>Cortex™-M, επεξεργαστές ARM<®>Cortex-A καί ARM926EJ-S™, επεξεργαστές ασύρματης δικτύωσης Broadcom<®>AirForce BCM4704/BCM4703, μονάδα επεξεργασίας ασύρματου δικτύου AR7100, άλλοι βιομηχανικά ισοδύναμοί επεξεργαστές, καί οι οποίοι μπορούν να εκτελούν υπολογιστικές λειτουργίες χρησιμοποιώντας οποίοδήποτε γνωστό ή μελλοντικά αναπτυγμένο πρότυπο, σύνολο εντολών, βιβλιοθήκες ή/καί αρχιτεκτονική. Examples of processors as described herein may include, but are not limited to, at least one of Qualcomm<®>Snapdragon<®>800 and 801, Qualcomm<®>Snapdragon<®>610 and 615 with 4G LTE integration and 64-bit architecture, Apple<®>A7 processor with 64-bit architecture, Apple<®>M7 motion coprocessors, Samsung<®>Exynos<®> series, Intel<®>Core™ processor family, Intel<®>Xeon<® processor family >, Intel<®>Atom™ processor family, Intel<®>Itanium<®>processor family, Intel<®>Core<®>i5-4670K and i7-4770K 22nm Haswell, Intel<®>Core<®>i5 -3570K 22nm Ivy Bridge, AMD<®>FX™ family of processors, AMD<®>FX-4300, FX-6300 and FX-8350 Vishera 32nm processors, AMD<®>Kaveri processors, Texas Instruments<®>Jacinto car infotainment processors C6000™, Texas Instruments<®>OMAP™ Mobile Automotive Class Processors, ARM<®>Cortex™-M Processors, ARM<®>Cortex-A and ARM926EJ-S™ Processors, Wireless Network Processors Broadcom<®>AirForce BCM4704/BCM4703 processor, AR7100 wireless network processing unit, other industrially equivalent processors, and which can perform computing functions using any known or future developed standard, instruction set, libraries and/or architecture.

Επιπλέον, οι αποκαλυπτόμενες μέθοδοί μπορούν εύκολα να εφαρμοστούν σε λογισμικό χρησιμοποιώντας αντικείμενοστρεφή περιβάλλοντα ανάπτυξης λογισμικού που παρέχουν φορητό πηγαίο κώδικα που μπορεί να χρησιμοποιηθεί σε μια ποικιλία υπολογιστών ή σταθμών εργασίας. Εναλλακτικά, οι αποκαλυπτόμενες μέθοδοί μπορούν εύκολα να εφαρμοστούν σε λογισμικό σε έναν ενσωματωμένο επεξεργαστή, έναν μίκροεπεξεργαστή ή έναν επεξεργαστή ψηφιακού σήματος. Η υλοποίηση μπορεί να χρησιμοποιεί πράξεις είτε σταθερού σημείου είτε κινητής υποδίαστολής ή καί τα δύο. Στην περίπτωση πράξεων σταθερού σημείου, μπορούν να χρησιμοποιηθούν προσεγγίσεις για ορισμένες μαθηματικές πράξεις όπως λογάριθμοί, εκθετικές τιμές, κ.λπ. Εναλλακτικά, το αποκαλυπτόμενο σύστημα μπορεί να υλοποιηθεί εν μέρεί ή πλήρως σε υλικό χρησιμοποιώντας τυπικά λογικά κυκλώματα ή σχεδίασμά VLSI. Το εάν χρησιμοποιείται λογισμικό ή υλικό για την υλοποίηση των συστημάτων σύμφωνα με αυτήν την τεχνολογία εξαρτάταί από τις απαιτήσεις ταχύτητας ή/καί απόδοσης του συστήματος, τη συγκεκριμένη λειτουργία καί το συγκεκριμένο λογισμικό ή συστήματα υλικού ή μίκροεπεξεργαστή ή μικροϋπολογιστή που χρησιμοποιούνται. Τα συστήματα καί οι μέθοδοί που απεικονίζονται στο παρόν μπορούν εύκολα να εφαρμοστούν σε υλικό ή/καί λογισμικό χρησιμοποιώντας οποίαδήποτε γνωστά ή μεταγενέστερα αναπτυγμένα συστήματα ή δομές, συσκευές ή/καί λογισμικό από όσους έχουν συνήθη εμπειρία στην εφαρμοσμένη τέχνη από τη λειτουργική περιγραφή που παρέχεται εδώ καί με μια γενική βασική γνώση των τεχνικών επεξεργασίας εικόνας. Additionally, the disclosed methods can be easily implemented in software using object-oriented software development environments that provide portable source code that can be used on a variety of computers or workstations. Alternatively, the disclosed methods may be readily implemented in software on an embedded processor, microprocessor, or digital signal processor. The implementation may use either fixed-point or floating-point operations, or both. In the case of fixed point operations, approximations can be used for certain mathematical operations such as logarithms, exponentials, etc. Alternatively, the disclosed system may be partially or fully implemented in hardware using standard logic circuits or VLSI designs. Whether software or hardware is used to implement the systems in accordance with this technology depends on the speed and/or performance requirements of the system, the particular operation, and the particular software or hardware or microprocessor or microcomputer systems used. The systems and methods illustrated herein may be readily implemented in hardware and/or software using any known or later developed systems or structures, devices and/or software by those of ordinary skill in the art applied from the functional description provided herein and with a general basic knowledge of image processing techniques.

Επιπλέον, οι αποκαλυπτόμενες μέθοδοί μπορούν εύκολα να εφαρμοστούν σε λογισμικό που μπορεί να αποθηκευτεί σε ένα μέσο αποθήκευσης, να εκτελεστεί σε προγραμματισμένο υπολογιστή γενικής χρήσης με τη συνεργασία ενός ελεγκτή καί μνήμης, ενός υπολογιστή ειδικού σκοπού, ενός μίκροεπεξεργαστή ή παρόμοια. Σε αυτές τις περιπτώσεις, τα συστήματα καί οι μέθοδοι αυτής της τεχνολογίας μπορούν να εφαρμοστούν ως πρόγραμμα ενσωματωμένο σε προσωπικό υπολογιστή, όπως μια μικροεφαρμογή, JAVA.RTM. ή CGI script, ως πόρος που βρίσκεται σε διακομιστή ή σταθμό εργασίας υπολογιστή, ως ρουτίνα ενσωματωμένη σε ένα αποκλειστικό σύστημα ή στοιχείο συστήματος ή παρόμοια. Το σύστημα μπορεί επίσης να υλοποιηθεί με φυσική ενσωμάτωση του συστήματος ή/καιτης μεθόδου σε ένα λογισμικό ή/και σύστημα υλικού, όπως τα συστήματα υλικού και λογισμικού μιας ηλεκτρονικής συσκευής. Furthermore, the disclosed methods can be readily implemented in software that can be stored on a storage medium, executed on a general purpose programmed computer with the cooperation of a controller and memory, a special purpose computer, a microprocessor, or the like. In these cases, the systems and methods of this technology may be implemented as a program embedded in a personal computer, such as an applet, JAVA.RTM. or CGI script, as a resource located on a computer server or workstation, as a routine embedded in a dedicated system or system component, or the like. The system may also be implemented by physically integrating the system and/or method into a software and/or hardware system, such as the hardware and software systems of an electronic device.

Οποιοδήποτε μη μεταβατικό μέσο αποθήκευσης πληροφοριών αναγνώσιμο από υπολογιστή, που έχει αποθηκευμένες σε αυτό οδηγίες, το οποίο μπορεί να εκτελεστεί από έναν ή περισσότερους επεξεργαστές καιναπροκαλέσειτην εκτέλεση των μεθόδων που περιγράφονται παραπάνω. Any non-transitory computer-readable information storage medium having instructions stored therein which can be executed by one or more processors and cause the methods described above to be performed.

Τέλος, οι αποκαλυπτόμενες μέθοδοι μπορούν να εφαρμοστούν εύκολα ως υπηρεσίες ή εφαρμογές προσβάσιμες από τον χρήστη μέσω ενός προγράμματος περιήγησης ιστού. Το λογισμικό μπορεί να βρίσκεται σε έναν τοπικό διακομιστή ή σε έναν απομακρυσμένο διακομιστή. Το λογισμικό μπορεί να είναι γραμμένο σε JavaScript χρησιμοποιώντας JavaScript Web API ή να κάνει χρήση του Web Assembly. Finally, the disclosed methods can be easily implemented as services or applications accessible by the user through a web browser. The software can reside on a local server or on a remote server. Software can be written in JavaScript using JavaScript Web API or make use of Web Assembly.

Είναι επομένως προφανές ότι έχουν παρασχεθεί, σύμφωνα με την παρούσα τεχνολογία, συστήματα και μέθοδοι για τα επιβλεπόμενα συστήματα Deep Learning (DL) που μαθαίνουν απευθείας από δεδομένα χωρίς ετικέτα χωρίς να απαιτείται επισήμανση από τον χρήστη, μια διαδικασία που θεωρείται ως εκμάθηση χωρίς ετικέτα. Ενώ αυτή η τεχνολογία έχει περιγράφει σε συνδυασμό με έναν αριθμό πραγματοποιήσεων, είναι προφανές ότι πολλές εναλλακτικές, τροποποιήσεις και παραλλαγές θα ήταν ή είναι προφανείς σε εκείνους με συνήθη εμπειρία στις εφαρμοστέες πρακτικές. Αντίστοιχα, προορίζεται να συμπεριλάβει όλες αυτές τις εναλλακτικές λύσεις, τροποποιήσεις, ισοδύναμα και παραλλαγές που εμπίπτουν στο πνεύμα και το πεδίο εφαρμογής αυτής της τεχνολογίας. It is therefore apparent that systems and methods are provided in accordance with the present technology for supervised Deep Learning (DL) systems that learn directly from unlabeled data without requiring user labeling, a process considered as unlabeled learning. While this technology has been described in conjunction with a number of embodiments, it is apparent that many alternatives, modifications and variations would be or are apparent to those of ordinary skill in the applicable practices. Accordingly, it is intended to include all such alternatives, modifications, equivalents and variations that fall within the spirit and scope of this technology.

Claims

1. A method for generating formalized images comprising: collecting two or more images, which are fed unlabeled to the process line, and for each of said images performing.. object detection in your images by unsupervised learning , using a deep convolutional neural network (CNN) classification model to produce approximate object location suggestions and create weak binary masks around the objects.

extracting segmentation masks around said objects in your said images using a CNN segmentation or classification model that takes as input the approximate object propositions and segments the objects, thereby determining the exact boundaries of said objects . producing a formalized image by locating bounding boxes around the exact boundaries of the objects in question in your images.

export of the formalized images.

2. The method of claim 1, wherein the deep CNN classification model is trained to detect objects within images via Class Activation Maps (CAMs).

3. The method of claim 1, wherein the CNN segmentation model is trained to perform object segmentation and box delineation regression.

4. A non-transitory computer-readable information storage medium having stored instructions which, when executed by one or more processors, cause execution of a method for creating formalized images, which includes:

collection of two or more images, which are fed unlabeled into the process line, and for each of said images a..

detect objects within images in an unsupervised learning manner, using a deep convolutional neural network (CNN) classification model to produce approximate object location suggestions and create weak binary masks around the objects.

extracting segmentation masks around said objects within said images using a CNN segmentation or classification model that uses as input the approximate object propositions and segments the objects, thereby determining the precise boundaries of said objects. producing a formalized image by locating bounding boxes around the precise boundaries of said objects within the images.

export of the formalized images.

5. The medium of claim 7, wherein the deep CNN classification model is trained to detect objects within images via Class Activation Maps (CAMs).

6. The means of claim 7, wherein the CNN segmentation model is trained to perform object segmentation and delineation regression thereof.