IT202100032969A1 - Sistema di elaborazione di informazione, metodo di elaborazione di informazione, e programma - Google Patents

Sistema di elaborazione di informazione, metodo di elaborazione di informazione, e programma Download PDF

Info

Publication number
IT202100032969A1
IT202100032969A1 IT102021000032969A IT202100032969A IT202100032969A1 IT 202100032969 A1 IT202100032969 A1 IT 202100032969A1 IT 102021000032969 A IT102021000032969 A IT 102021000032969A IT 202100032969 A IT202100032969 A IT 202100032969A IT 202100032969 A1 IT202100032969 A1 IT 202100032969A1
Authority
IT
Italy
Prior art keywords
image
target object
pose
images
training
Prior art date
Application number
IT102021000032969A
Other languages
English (en)
Inventor
Shogo Sato
Tetsugo Inada
Hiroyuki Segawa
Giulia Pasquale
Yuriy Onyshchuk
Damiano Malafronte
Lorenzo Natale
Andrea Ruzzenenti
Original Assignee
Sony Interactive Entertainment Inc
Fondazione St Italiano Tecnologia
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc, Fondazione St Italiano Tecnologia filed Critical Sony Interactive Entertainment Inc
Priority to IT102021000032969A priority Critical patent/IT202100032969A1/it
Priority to JP2023570979A priority patent/JPWO2023127747A1/ja
Priority to EP22915970.2A priority patent/EP4459554A1/en
Priority to PCT/JP2022/047713 priority patent/WO2023127747A1/ja
Priority to CN202280086427.0A priority patent/CN118489122A/zh
Priority to US18/712,268 priority patent/US20250166222A1/en
Publication of IT202100032969A1 publication Critical patent/IT202100032969A1/it

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Hardware Redundancy (AREA)

Description

DESCRIZIONE
del brevetto per invenzione industriale dal titolo:
?SISTEMA DI ELABORAZIONE DI INFORMAZIONE, METODO DI ELABORAZIONE DI INFORMAZIONE, E PROGRAMMA?
[Campo tecnico]
La presente invenzione riguarda un sistema di elaborazione di informazione, un metodo di elaborazione di informazione, e un programma.
[Stato della tecnica]
? stato sviluppato un metodo per stimare la posa (per essere precisi, la posizione e la posa relative come viste da una fotocamera) di un oggetto fotografato tramite l'uso di un modello di apprendimento automatico (machine learning model). I dati di addestramento per addestrare questo modello di apprendimento automatico includono un'immagine in CG resa in base ad un modello tridimensionale dell'oggetto. Il suo scopo ?, per esempio, assicurare una quantit? di dati di addestramento e acquisire facilmente informazioni (per esempio, punti chiave) relative alla posa che fungono da dati di verit? di base (ground truth).
Sida Peng et al. hanno pubblicato l'articolo "PVNet: Pixel-Wise Voting Network for 6DoF Pose Estimation" presso la IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) del 2019. In questo articolo, ? descritta una tecnologia che implica: immettere un'immagine in un modello di apprendimento automatico; e calcolare le posizioni di punti chiave sull'immagine da utilizzare per la stima di posa in base a un'emissione del modello di apprendimento automatico.
In US2021/0031110A1, ? descritta una tecnologia che implica: riconoscere una posa di un oggetto tenuto in una mano da un?immagine in cui l?oggetto ? stato fotografato; e utilizzare la posa in un videogioco.
[Riepilogo dell'invenzione]
[Problema da risolvere mediante l'invenzione]
Nella tecnica correlata, per esempio, per via della difficolt? nell'aggiungere un'etichetta appropriata ad un'immagine effettivamente fotografata, un modello di apprendimento automatico ? stato addestrato mediante dati di addestramento includenti immagini in CG, e immagini effettivamente fotografate sono state immesse nel modello di apprendimento automatico che ? stato addestrato, per stimare cos? una posa. Quindi, ? probabile che si verifichi un problema ascrivibile a ci? in termini di precisione di stima di posa.
La presente invenzione ? stata realizzata alla luce delle circostanze summenzionate e un suo obiettivo ? fornire una tecnologia per migliorare la precisione della stima di posa mediante un modello di apprendimento automatico.
[Mezzi per risolvere il problema]
Per risolvere il problema summenzionato, secondo la presente invenzione, viene previsto un sistema di elaborazione di informazione includente: mezzi di acquisizione di regione bersaglio (target) per: acquisire un'immagine immessa; determinare se l'immagine immessa include o meno un'immagine di un oggetto bersaglio immettendo almeno una parte dell'immagine immessa in un modello di classificazione addestrato in base a una pluralit? di immagini di apprendimento includente un'immagine in cui l'oggetto bersaglio ? stato fotografato e dati di etichetta che indicano se ciascuna della pluralit? di immagini di apprendimento include o meno l'oggetto bersaglio; e acquisire una regione bersaglio includente l'immagine dell'oggetto bersaglio, che ? estratta dall'immagine immessa, quando l'immagine immessa include l'oggetto bersaglio; e mezzi di stima di posa per stimare una posa dell'oggetto bersaglio in base a informazioni emesse da un modello di apprendimento automatico, quando la regione bersaglio acquisita ? immessa in esso, che ? addestrato mediante: una pluralit? di immagini di addestramento rese da un modello di forma tridimensionale dell'oggetto bersaglio; e dati di verit? di base che sono informazioni relative alla posa dell'oggetto bersaglio nelle immagini di addestramento.
In un aspetto della presente invenzione, i mezzi di acquisizione di regione bersaglio possono essere configurati per estrarre una regione includente un'immagine di un oggetto dall'immagine immessa, il modello di classificazione pu? includere: un'unit? di generazione di caratteristica configurata per generare un valore di caratteristica di un'immagine di almeno una parte della regione estratta; e un classificatore configurato per ricevere un'immissione del valore di caratteristica generato ed emettere informazioni che indicano se la regione estratta ha o meno l'immagine dell'oggetto bersaglio, e il classificatore pu? essere addestrato mediante dati di addestramento includenti il valore di caratteristica generato dall'immagine cui l'oggetto bersaglio ? stato fotografato e i dati di etichetta.
In un aspetto della presente invenzione, l'unit? di generazione di caratteristica pu? essere regolata in modo tale che una distanza tra valori di caratteristica generati da una pluralit? di immagini includenti l'oggetto bersaglio diventi minore di una distanza tra il valore di caratteristica generato da un'immagine includente l'oggetto bersaglio e un valore di caratteristica generato da un'immagine includente un oggetto diverso dall'oggetto bersaglio.
In un aspetto della presente invenzione, il modello di apprendimento automatico pu? essere addestrato mediante dati di addestramento includenti: la pluralit? di immagini di addestramento rese dal modello di forma tridimensionale dell'oggetto bersaglio; e i dati di verit? di base indicanti le posizioni di punti chiave dell'oggetto bersaglio nelle immagini di addestramento, i mezzi di stima di posa possono essere configurati per acquisire informazioni indicanti le posizioni bidimensionali dei punti chiave dell'oggetto bersaglio nella regione bersaglio immettendo la regione bersaglio acquisita nel modello di apprendimento automatico, e i mezzi di stima di posa possono essere configurati per stimare la posa dell'oggetto bersaglio in base alle informazioni indicanti le posizioni bidimensionali dei punti chiave e le informazioni indicanti le posizioni tridimensionali dei punti chiave nel modello di forma tridimensionale.
In un aspetto della presente invenzione, il modello di apprendimento automatico pu? essere addestrato da una pluralit? di immagini di addestramento rese da un modello tridimensionale dell'oggetto bersaglio e immagini di verit? di base in cui ciascuno dei pixel indica una relazione di posizione rispetto al punto chiave dell'oggetto bersaglio nelle immagini di addestramento, i mezzi di stima di posa possono essere configurati per acquisire un'immagine di posizione in cui ciascuno dei pixel indica la relazione di posizione rispetto al punto chiave dell'oggetto bersaglio immettendo la regione bersaglio acquisita nel modello di apprendimento automatico, i mezzi di stima di posa possono essere configurati per calcolare, in base all'immagine di posizione, la posizione del punto chiave dell'oggetto bersaglio nell'immagine di posizione, e i mezzi di stima di posa possono essere configurati per stimare la posa dell'oggetto bersaglio in base alla posizione calcolata del punto chiave nell'immagine di posizione e nel modello tridimensionale.
In un aspetto della presente invenzione, i mezzi di acquisizione di regione bersaglio possono essere configurati per generare un'immagine di maschera per mascherare una regione diversa dall'immagine dell'oggetto bersaglio nella regione bersaglio, i mezzi di stima di posa possono essere configurati per mascherare una parte dell'immagine di posizione in base all'immagine di maschera, e i mezzi di stima di posa possono essere configurati per acquisire, in base all'immagine di posizione mascherata, la posizione del punto chiave dell'oggetto bersaglio nell'immagine di posizione.
In un aspetto della presente invenzione, il sistema di elaborazione di informazione pu? includere inoltre: mezzi di acquisizione di immagini fotografate per acquisire una pluralit? di immagini fotografate ottenute fotografando da una pluralit? di direzioni rispetto all'oggetto bersaglio; mezzi di generazione di modello di forma per calcolare il modello di forma tridimensionale dell'oggetto bersaglio in base alla pluralit? di immagini fotografate; e mezzi di addestramento di classificazione per addestrare, mediante dati di addestramento includenti i dati di verit? di base e i dati immessi corrispondenti alla pluralit? di immagini fotografate, il modello di classificazione per determinare se l'immagine immessa include o meno l'immagine dell'oggetto bersaglio.
In un aspetto della presente invenzione, i mezzi di generazione di modello di forma possono essere configurati per generare informazioni indicanti la posa dell'oggetto bersaglio nell'immagine fotografata, e il sistema di elaborazione di informazione pu? includere inoltre mezzi di addestramento di posa per addestrare il modello di apprendimento automatico mediante: le immagini di addestramento includenti una pluralit? di immagini rese dal modello di forma tridimensionale e la pluralit? di immagini fotografate; e i dati di verit? di base che sono le informazioni relative alla posa dell'oggetto bersaglio nelle immagini di addestramento.
In un aspetto della presente invenzione, il sistema di elaborazione di informazione pu? includere inoltre mezzi di generazione di dati di addestramento per acquisire, dalla pluralit? di immagini fotografate ottenute fotografando, un'immagine fotografata da cui ? stata rimossa un'immagine di una mano, e generare un'immagine di addestramento includente l'immagine fotografata da cui ? stata rimossa l'immagine della mano e i dati di verit? di base.
In un aspetto della presente invenzione, il modello di apprendimento automatico pu? includere una rete neurale formata da una pluralit? di strati inclusi uno strato di immissione, uno strato intermedio e uno strato di emissione, e il modello di apprendimento automatico pu? essere addestrato in anticipo mediante dati di addestramento preliminare includenti una pluralit? di immagini di addestramento relative ad un oggetto diverso dall'oggetto bersaglio e i dati di verit? di base, e quindi pu? essere addestrato mediante la pluralit? di immagini di addestramento relative all'oggetto bersaglio e i dati di verit? di base con un parametro fisso per uno strato o una pluralit? di strati escluso lo strato di emissione e incluso lo strato di immissione.
Inoltre, secondo la presente invenzione, ? fornito un metodo di elaborazione di informazione includente le fasi di: acquisire un'immagine immessa; determinare se l'immagine immessa include o meno un'immagine di un oggetto bersaglio immettendo almeno una parte dell'immagine immessa in un modello di classificazione addestrato in base ad una pluralit? di immagini di apprendimento includente un'immagine in cui l'oggetto bersaglio ? stato fotografato e dati di etichetta che indicano se ciascuna della pluralit? di immagini di apprendimento include o meno l'oggetto bersaglio; acquisire una regione bersaglio includente l'immagine dell'oggetto bersaglio, che ? estratta dall'immagine immessa, quando l'immagine immessa include l'oggetto bersaglio; e stimare una posa dell'oggetto bersaglio in base a informazioni emesse da un modello di apprendimento automatico, quando la regione bersaglio acquisita ? immessa in esso, che ? addestrato mediante: una pluralit? di immagini di addestramento rese da un modello di forma tridimensionale dell'oggetto bersaglio; e dati di verit? di base che sono informazioni relative alla posa dell'oggetto bersaglio nelle immagini di addestramento.
Inoltre, secondo la presente invenzione, ? fornito un programma per fare in modo che un computer esegua i processi di: acquisire un'immagine immessa; determinare se l'immagine immessa include o meno un'immagine di un oggetto bersaglio immettendo almeno una parte dell'immagine immessa in un modello di classificazione addestrato in base ad una pluralit? di immagini di addestramento includente un'immagine in cui l'oggetto bersaglio ? stato fotografato e dati di etichetta che indicano se ciascuna della pluralit? di immagini di apprendimento include o meno l'oggetto bersaglio; acquisire una regione bersaglio includente l'immagine dell'oggetto bersaglio, che ? estratta dall'immagine immessa, quando l'immagine immessa include l'oggetto bersaglio; e stimare una posa dell'oggetto bersaglio in base a informazioni emesse da un modello di apprendimento automatico, quando la regione bersaglio acquisita ? immessa in esso, che ? addestrato mediante: una pluralit? di immagini di addestramento rese da un modello di forma tridimensionale dell'oggetto bersaglio; e dati di verit? di base che sono informazioni relative alla posa dell'oggetto bersaglio nelle immagini di addestramento.
[Effetti dell'invenzione]
Secondo la presente invenzione, ? possibile migliorare la precisione di stima della posa dell'oggetto fotografato.
[Breve descrizione dei disegni]
[Figura 1] Un diagramma per illustrare un esempio di una configurazione di un sistema di elaborazione di informazione secondo una forma di realizzazione della presente invenzione.
[Figura 2] Un diagramma a blocchi funzionali per illustrare un esempio di funzioni implementate nel sistema di elaborazione di informazione secondo l'una forma di realizzazione della presente invenzione.
[Figura 3] Una vista per illustrare un esempio di un'immagine immessa.
[Figura 4] Una vista per illustrare un esempio di punti chiave di un oggetto bersaglio.
[Figura 5] Un diagramma per illustrare schematicamente un esempio di un'immagine di posizione in una regione bersaglio.
[Figura 6] Un diagramma di flusso per illustrare un esempio di elaborazione di un'unit? di acquisizione di regione bersaglio e un'unit? di stima di posa.
[Figura 7] Un diagramma per illustrare un esempio di una configurazione di un modello di classificazione.
[Figura 8] Un diagramma per illustrare un esempio di un'immagine di maschera per la regione bersaglio.
[Figura 9] Una vista per illustrare una posa dell'oggetto bersaglio che ? stato rilevato.
[Figura 10] Un diagramma di flusso per illustrare un esempio di elaborazione per addestrare un modello di apprendimento automatico e un classificatore.
[Figura 11] Una vista per illustrare lo scatto di fotografie dell'oggetto bersaglio.
[Figura 12] Un diagramma per illustrare un esempio di una configurazione del modello di apprendimento automatico.
[Figura 13] Un diagramma per illustrare una configurazione del modello di apprendimento automatico.
[Forma di realizzazione per realizzare l'invenzione] Viene ora descritta in dettaglio con riferimento ai disegni una forma di realizzazione della presente invenzione. In questa forma di realizzazione, ? fornita la descrizione di un sistema di elaborazione di informazione per immettere un'immagine in cui ? stato fotografato un oggetto e per stimarne una posa. Questo sistema di elaborazione di informazione stima la posa tramite l'uso di un modello di apprendimento automatico addestrato mediante dati immessi in base all'immagine in cui ? stato fotografato l'oggetto. In questa forma di realizzazione, il sistema di elaborazione di informazione ? configurato inoltre per completare l'addestramento in un breve periodo di tempo. Si suppone che un periodo di tempo richiesto sia, per esempio, di diverse decine di secondi per afferrare e ruotare l'oggetto e di diversi minuti per l'apprendimento automatico.
La figura 1 ? un diagramma per illustrare un esempio di una configurazione di un sistema di elaborazione di informazione secondo l'una forma di realizzazione della presente invenzione. Il sistema di elaborazione di informazione secondo questa forma di realizzazione include un dispositivo di elaborazione di informazione 10. Il dispositivo di elaborazione di informazione 10 ?, per esempio, un computer quale una console di gioco o un personal computer. Come illustrato nella figura 1, il dispositivo di elaborazione di informazione 10 include, per esempio, un processore 11, un'unit? di memorizzazione 12, un'unit? di comunicazione 14, un'unit? operativa 16, un'unit? di visualizzazione 18 e un'unit? fotografica 20. Il sistema di elaborazione di informazione pu? essere formato da un unico dispositivo di elaborazione di informazione 10 o pu? essere formato da una pluralit? di dispositivi includenti il dispositivo di elaborazione di informazione 10.
Il processore 11 ?, per esempio, un dispositivo di controllo di programma, quale una CPU, che funziona secondo un programma installato nel dispositivo di elaborazione di informazione 10.
L'unit? di memorizzazione 12 ? formata da almeno una parte di un elemento di memorizzazione quale una ROM o una RAM e un dispositivo di memorizzazione esterno, per esempio, un'unit? a stato solido. L'unit? di memorizzazione 12 memorizza, per esempio, un programma che deve essere eseguito dal processore 11.
L'unit? di comunicazione 14 ?, per esempio, un'interfaccia di comunicazione per una comunicazione mediante fili o comunicazione senza fili, quale una scheda di interfaccia di rete, e scambia dati con un altro computer o un altro terminale tramite una rete di computer quale Internet.
L'unit? operativa 16 ?, per esempio, un dispositivo di immissione quale una tastiera, un mouse, un pannello sensibile al tocco o un controller della console di gioco, e riceve l?immissione di un'operazione effettuata da un utente ed emette segnale indicante i suoi dettagli al processore 11.
L'unit? di visualizzazione 18 ? un dispositivo di visualizzazione, per esempio, uno schermo a cristalli liquidi, e mostra varie immagini secondo le istruzioni fornite dal processore 11. L'unit? di visualizzazione 18 pu? essere un dispositivo per emettere un segnale video ad un dispositivo di visualizzazione esterno.
L'unit? fotografica 20 ? un dispositivo fotografico, per esempio, una fotocamera digitale. L'unit? fotografica 20 in questa forma di realizzazione ? una fotocamera in grado di fotografare un'immagine in movimento. L'unit? fotografica 20 pu? essere una fotocamera in grado di acquisire un'immagine RGB visibile e informazioni di profondit? sincronizzate con l'immagine RGB. L'unit? fotografica 20 pu? essere fornita all'esterno del dispositivo di elaborazione di informazione 10 e, in questo caso, il dispositivo di elaborazione di informazione 10 e l'unit? fotografica 20 possono essere collegati tra loro tramite l'unit? di comunicazione 14 o un'unit? di immissione/emissione descritta in seguito.
Il dispositivo di elaborazione di informazione 10 pu? includere un dispositivo di immissione/emissione audio quale un microfono o un altoparlante. In aggiunta, il dispositivo di elaborazione di informazione 10 pu? includere, per esempio, un'interfaccia di comunicazione quale una scheda di rete, un?unit? di disco ottico per leggere un disco ottico quale un disco DVD-ROM o un Blu-ray (nome commerciale), e l'unit? di immissione/emissione (porta di bus seriale universale (USB)) per immettere/emettere dati in/da un dispositivo esterno.
La figura 2 ? un diagramma a blocchi funzionali per illustrare un esempio di funzioni implementate nel sistema di elaborazione di informazione secondo l'una forma di realizzazione della presente invenzione. Come illustrato nella figura 2, il sistema di elaborazione di informazione include funzionalmente una unit? di acquisizione di regione bersaglio 21, un'unit? di stima di posa 25, un'unit? di acquisizione di immagini fotografate 35, un'unit? di generazione di modello di forma 36, un?unit? di generazione di dati di addestramento 37, un'unit? di addestramento di posa 38 e un'unit? di addestramento di classificazione 39. L'unit? di acquisizione di regione bersaglio 21 include funzionalmente un'unit? di estrazione di regione 22 e un modello di classificazione 23. L'unit? di stima di posa 25 include funzionalmente un modello di apprendimento automatico 26, un'unit? di determinazione di punto chiave 27 e un'unit? di calcolo di posa 28.
Queste funzioni sono implementate principalmente dal processore 11 e dall'unit? di memorizzazione 12. Pi? nello specifico, tali funzioni possono essere implementate dal processore 11 che esegue un programma che ? installato nel dispositivo di elaborazione di informazione 10 che ? un computer, e include istruzioni di esecuzione corrispondenti alle funzioni summenzionate. In aggiunta, questo programma pu? essere fornito al dispositivo di elaborazione di informazione 10, per esempio, tramite l'intermediazione di un supporto di memorizzazione di informazione leggibile da computer quale un disco ottico, un disco magnetico o una memoria flash o tramite Internet o simili.
Non ? necessario che tutte le funzioni illustrate nella figura 2 siano implementate nel sistema di elaborazione di informazione secondo la presente forma di realizzazione, e nella presente possono essere implementate funzioni diverse dalle funzioni illustrate nella figura 2.
L'unit? di acquisizione di regione bersaglio 21 acquisisce un'immagine immessa ottenuta fotografando mediante l'unit? fotografica 20 e immette almeno una parte dell'immagine immessa nel modello di classificazione 23, per determinare cos? se l'immagine immessa include o meno un'immagine di un oggetto bersaglio 51. In aggiunta, quando l'immagine immessa include l'oggetto bersaglio 51, viene acquisita una regione bersaglio 55 includente l'immagine dell'oggetto bersaglio 51, che viene estratta dall'immagine immessa. L'oggetto bersaglio 51 ? un oggetto che funge da bersaglio da sottoporre a stima di posa nel dispositivo di elaborazione di informazione 10. L'oggetto bersaglio 51 ? un bersaglio di apprendimento preliminare.
La figura 3 ? una vista per illustrare un esempio dell'immagine immessa. Nell'esempio della figura 3, l'oggetto bersaglio 51 ? un utensile elettrico e, anche nei successivi disegni, si suppone che l'esempio dell'oggetto bersaglio 51 sia l'utensile elettrico, salvo diversamente specificato. L'immagine immessa ? stata ottenuta fotografando mediante l'unit? fotografica 20, e la regione bersaglio 55 ? una regione rettangolare includente l'oggetto bersaglio 51 e le sue prossimit?. In un processo di acquisizione della regione bersaglio 55, una o una pluralit? di regioni candidate 56 includenti la regione che non include l'oggetto bersaglio 51 vengono anch'esse estratte come candidate per una regione includente l'oggetto bersaglio 51. I dettagli della regione candidata 56 sono descritti nel seguito.
Quando il modello di classificazione 23 riceve l?immissione di un'immagine, il modello di classificazione 23 emette informazioni che indicano se l'immagine include o meno l'immagine dell'oggetto bersaglio 51. Il modello di classificazione 23 ? addestrato mediante dati di addestramento includenti una pluralit? di immagini di apprendimento includente un'immagine in cui l'oggetto bersaglio 51 ? stato fotografato e dati di etichetta che indicano se ciascuna delle immagini di apprendimento include o meno l'oggetto bersaglio 51. I dettagli del modello di classificazione 23 sono descritti nel seguito.
L'unit? di estrazione di regione 22 estrae dall'immagine immessa un'immagine da immettere nel modello di classificazione 23. Pi? nello specifico, l'unit? di estrazione di regione 22 identifica dall'immagine immessa una o una pluralit? di regioni candidate 56 in cui ? stato fotografato un qualche oggetto mediante una tecnologia di proposta di regione nota, e ciascuna dell'una o della pluralit? di regioni candidate 56 viene estratta come immagine da immettere nel modello di classificazione 23.
L'immagine di apprendimento per il modello di classificazione 23 pu? essere un'immagine di una regione parziale in cui l'oggetto bersaglio 51 ? presente nell'immagine ottenuta fotografando, secondo l'unit? di estrazione di regione 22. L'unit? di estrazione di regione 22 pu? essere omessa e l'immagine immessa pu? essere immessa direttamente nel modello di classificazione 23.
L'unit? di stima di posa 25 stima la posa dell'oggetto bersaglio 51 in base a informazioni emesse quando la regione bersaglio 55 ? immessa nel modello di apprendimento automatico 26. Il modello di apprendimento automatico 26 ? addestrato mediante una pluralit? di immagini di apprendimento rese da un modello di forma tridimensionale dell'oggetto bersaglio 51 e dati di verit? di base che sono informazioni relative alla posa dell'oggetto bersaglio 51 nelle immagini di apprendimento.
Pi? nello specifico, il modello di apprendimento automatico 26 ? addestrato mediante i dati di addestramento includenti una pluralit? di immagini di apprendimento rese dal modello di forma tridimensionale dell'oggetto bersaglio 51 i dati di verit? di base indicanti le posizioni di punti chiave dell'oggetto bersaglio 51 nelle immagini di apprendimento. Il punto chiave ? un punto virtuale nell'oggetto bersaglio 51 ed ? un punto da utilizzare per calcolare la posa.
La figura 4 ? una vista per illustrare un esempio di punti chiave dell'oggetto bersaglio 51. Le posizioni tridimensionali dei punti chiave dell'oggetto bersaglio 51 sono determinate dal modello di forma tridimensionale dell'oggetto bersaglio 51 (pi? nello specifico, informazioni sui vertici inclusi nel modello di forma tridimensionale) mediante, per esempio, un algoritmo di punto pi? lontano noto. Nella figura 4 sono mostrati per semplicit? descrittiva tre punti chiave da K1 a K3, ma il numero effettivo dei punti chiave pu? essere maggiore. Per esempio, in questa forma di realizzazione, il numero effettivo di punti chiave dell'oggetto bersaglio 51 ? otto.
Il modello di apprendimento automatico 26 che ? stato addestrato emette informazioni indicanti le posizioni bidimensionali dei punti chiave dell'oggetto bersaglio 51 nella regione bersaglio 55 quando il modello di apprendimento automatico 26 riceve un?immissione della regione bersaglio 55. Dalle posizioni bidimensionali dei punti chiave nella regione bersaglio 55 e dalla posizione della regione bersaglio 55 nell'immagine immessa, si ottengono le posizioni bidimensionali dei punti chiave nell'immagine immessa.
I dati indicanti la posizione del punto chiave possono essere un'immagine di posizione in cui ciascuno dei pixel indica una relazione di posizione (per esempio, direzione) tra ciascuno dei pixel e il punto chiave, possono essere un'immagine, per esempio, una mappa di calore, indicante la posizione del punto chiave o possono essere coordinate di ciascun punto chiave stesso. ? fornita principalmente la seguente descrizione di un caso in cui i dati indicanti la posizione del punto chiave sono l'immagine in cui ciascuno dei pixel indica la relazione di posizione tra ciascuno dei pixel e il punto chiave.
La figura 5 ? un diagramma per illustrare schematicamente un esempio dell'immagine di posizione nella regione bersaglio 55. L'immagine di posizione pu? essere generata per ogni tipo di punto chiave. L'immagine di posizione indica una direzione relativa in corrispondenza di ciascuno dei pixel, tra ciascuno dei pixel e il punto chiave. Nell'immagine di posizione illustrata nella figura 5, ? illustrato un pattern corrispondente ad un valore di ciascuno dei pixel e il valore di ciascuno dei pixel indica la direzione tra le coordinate di ciascuno dei pixel e le coordinate del punto chiave. La figura 5 ? soltanto un diagramma schematico e un valore effettivo di ogni pixel cambia in modo continuo. Sebbene non esplicitamente illustrato nella figura, l'immagine di posizione ? un'immagine di campo di vettori indicante una direzione relativa del punto chiave in corrispondenza di ogni pixel, ogni pixel essendo utilizzato come riferimento.
L'unit? di determinazione di punto chiave 27 determina la posizione bidimensionale del punto chiave nella regione bersaglio 55 e l'immagine immessa in base all'emissione del modello di apprendimento automatico 26. Pi? nello specifico, per esempio, l'unit? di determinazione di punto chiave 27 calcola candidati per la posizione bidimensionale del punto chiave nella regione bersaglio 55 in base all'immagine di posizione emessa dal modello di apprendimento automatico 26 e determina la posizione bidimensionale del punto chiave nell'immagine immessa dai candidati calcolati per la posizione bidimensionale. Per esempio, l'unit? di determinazione di punto chiave 27 calcola un punto candidato per il punto chiave da ogni combinazione di due punti selezionati liberamente nell'immagine di posizione e genera, per una pluralit? di punti candidato, un punteggio che indica se vi ? o meno una corrispondenza con una direzione indicata da ciascuno dei pixel nell'immagine di posizione. L'unit? di determinazione di punto chiave 27 pu? stimare un punto candidato avente il punteggio massimo come la posizione del punto chiave. L'unit? di determinazione di punto chiave 27 ripete inoltre l'elaborazione summenzionata per ogni punto chiave.
L'unit? di calcolo di posa 28 stima la posa dell'oggetto bersaglio 51 in base alle informazioni indicanti le posizioni bidimensionali dei punti chiave nell'immagine immessa e a informazioni indicanti le posizioni tridimensionali dei punti chiave nel modello di forma tridimensionale dell'oggetto bersaglio 51 ed emette dati di posa indicanti la posa stimata. La posa dell'oggetto bersaglio 51 ? stimata mediante un algoritmo noto. Per esempio, la posa dell'oggetto bersaglio 51 pu? essere stimata mediante una soluzione a un problema di n punti di prospettiva (PNP, Perspective-n-Point) relativo alla stima di posa (per esempio, EPnP). In aggiunta, l'unit? di calcolo di posa 28 pu? stimare non solo la posa dell'oggetto bersaglio 51 ma anche la posizione dell'oggetto bersaglio 51 nell'immagine immessa, e i dati di posa possono includere informazioni indicanti la posizione.
Il modello di apprendimento automatico 26, l?unit? di determinazione di punto chiave 27 e l'unit? di calcolo di posa 28 possono essere quelli descritti nell'articolo "PVNet: Pixe-Wise Voting Network for 6DoF Pose Estimation".
Quando il modello di apprendimento automatico 26 riceve l'immissione dell'immagine bersaglio, il modello di apprendimento automatico 26 pu? emettere direttamente la posa dell'oggetto bersaglio 51. In questo caso, l'unit? di determinazione di punto chiave 27 non ? richiesta e l'unit? di calcolo di posa 28 ottiene la posa e la posizione dell'oggetto bersaglio 51 nell'immagine immessa in base alla posa e alla posizione dell'oggetto bersaglio 51 che sono state calcolate per la regione bersaglio 55.
In questa forma di realizzazione, l'oggetto bersaglio 51 viene fotografato e un classificatore 32 e il modello di apprendimento automatico 26 vengono addestrati in un breve periodo di tempo, per esempio, diversi secondi e diversi minuti, rispettivamente, in base all'immagine in cui ? stato fotografato l'oggetto bersaglio 51. L'unit? di acquisizione di immagini fotografate 35, l'unit? di generazione di modello di forma 36, l'unit? di generazione di dati di addestramento 37, l'unit? di addestramento di posa 38 e l'unit? di addestramento di classificazione 39 sono configurate per essere utilizzate per il loro addestramento.
L?unit? di acquisizione di immagini fotografate 35 acquisisce immagini fotografate in cui l'oggetto bersaglio 51 ? stato fotografato dall'unit? fotografica 20 per addestrare il modello di apprendimento automatico 26 incluso nell'unit? di stima di posa 25 e/o il modello di classificazione 23 incluso nell'unit? di acquisizione di regione bersaglio 21. Si suppone che l'unit? fotografica 20 abbia acquisito un parametro intrinseco di fotocamera mediante una calibrazione in anticipo. Questo parametro viene utilizzato per risolvere il problema di PnP.
L'unit? di generazione di modello di forma 36, l'unit? di generazione di dati di addestramento 37 e l'unit? di addestramento di posa 38 eseguono un?elaborazione per addestrare il modello di apprendimento automatico 26 incluso nell'unit? di stima di posa 25.
Pi? nello specifico, l'unit? di generazione di modello di forma 36 estrae una pluralit? di vettori di caratteristica indicanti le caratteristiche locali per ciascuna della pluralit? di immagini fotografate dell'oggetto bersaglio 51 acquisite dall'unit? di acquisizione di immagini fotografate 35. Quindi, da una pluralit? di vettori di caratteristica corrispondenti tra loro, che sono stati estratti dalla pluralit? di immagini fotografate, e dalle posizioni in cui i vettori di caratteristica sono stati estratti nelle immagini fotografate, l'unit? di generazione di modello di forma 36 ottiene le posizioni tridimensionali di punti in corrispondenza dei quali sono stati estratti i vettori di caratteristica e acquisisce il modello di forma tridimensionale dell'oggetto bersaglio 51 in base alle posizioni tridimensionali. Questo metodo ? un metodo noto che viene utilizzato anche in un software che implementa un cosiddetto SfM o Visual SLAM e quindi una sua descrizione dettagliata ? omessa.
L'unit? di generazione di dati di addestramento 37 genera dati di addestramento per addestrare il modello di apprendimento automatico 26. Pi? nello specifico, l'unit? di generazione di dati di addestramento 37 genera dati di addestramento includenti un'immagine di addestramento resa e dati di verit? di base indicanti le posizioni dei punti chiave dal modello di forma tridimensionale dell'oggetto bersaglio 51. L'unit? di generazione di dati di addestramento 37 genera anche: dati di verit? di base dalla posa dell'oggetto bersaglio 51 ottenuti mediante un metodo DLT o simili quando il modello di forma tridimensionale viene calcolato dalle immagini fotografate; e dati di addestramento formati di una regione includente l'oggetto bersaglio 51 dalle immagini fotografate, e aggiunge i dati di verit? di base e i dati di addestramento ai dati di addestramento.
L'unit? di addestramento di posa 38 addestra il modello di apprendimento automatico 26 incluso nell'unit? di stima di posa 25 mediante i dati di addestramento generati dall'unit? di generazione di dati di addestramento 37.
L'unit? di addestramento di classificazione 39 addestra il modello di classificazione 23 incluso nell'unit? di acquisizione di regione bersaglio 21 in base alle immagini fotografate acquisite dall'unit? di acquisizione di immagini fotografate 35. I dettagli dell'unit? di addestramento di classificazione 39 sono descritti nel seguito.
Di seguito, ? descritta un'elaborazione relativa alla stima di posa. La figura 6 ? un diagramma di flusso per illustrare un esempio di elaborazione dell'unit? di acquisizione di regione bersaglio 21 e dell'unit? di stima di posa 25. L'elaborazione illustrata nella figura 6 pu? essere eseguita ripetutamente in modo regolare.
In primo luogo, l'unit? di estrazione di regione 22 inclusa nell'unit? di acquisizione di regione bersaglio 21 acquisisce un'immagine immessa ottenuta fotografando mediante l'unit? fotografica 20 (S101). L'unit? di estrazione di regione 22 pu? acquisire un'immagine immessa ricevendo direttamente l'immagine immessa dall'unit? fotografica 20 o pu? acquisire un'immagine immessa ricevuta dall'unit? fotografica 20 e memorizzata nell'unit? di memorizzazione 12.
L'unit? di estrazione di regione 22 estrae dall'immagine immessa una o una pluralit? di regioni candidate 56 in cui un qualche oggetto ? stato fotografato (S102). L'unit? di estrazione di regione 22 pu? includere una rete di proposte di regione (RPN, Regional Proposal Network) addestrata in anticipo. La RPN pu? essere addestrata mediante dati di addestramento irrilevanti per l'immagine in cui ? stato fotografato l'oggetto bersaglio 51. Questa elaborazione riduce lo spreco computazionale e garantisce un certo grado di robustezza ad un ambiente.
In questo caso, l'unit? di estrazione di regione 22 pu? inoltre eseguire un?elaborazione di immagine incluse un?elaborazione di rimozione di sfondo (elaborazione di maschera) e una regolazione di dimensione sull'immagine della regione candidata 56 estratta. In aggiunta, l'immagine elaborata della regione candidata 56 pu? essere utilizzata per la successiva elaborazione. Con questa elaborazione, ? possibile ridurre un gap di dominio dovuto alle condizioni di sfondo e illuminazione e addestrare il classificatore 32 mediante una quantit? ridotta di dati di addestramento.
L'unit? di acquisizione di regione bersaglio 21 determina se ciascuna delle regioni candidate 56 include o meno l'immagine dell'oggetto bersaglio 51 (S103). Questa elaborazione include un?elaborazione per acquisire l'emissione ottenuta quando l'unit? di acquisizione di regione bersaglio 21 immette l'immagine della regione candidata 56 nel modello di classificazione 23.
La figura 7 ? un diagramma per illustrare un esempio del modello di classificazione 23. Il modello di classificazione 23 include un'unit? di generazione di caratteristica 31 e il classificatore 32.
L'unit? di generazione di caratteristica 31 emette, dall'immagine della regione candidata 56, un valore di caratteristica corrispondente all'immagine. L'unit? di generazione di caratteristica 31 include una rete neurale convoluzionale (CNN, Convolutional Neural Network) che ? stata addestrata. Questa CNN emette, in risposta all'immissione di un'immagine, dati di valore di caratteristica (dati di valore di caratteristica immessi) indicanti un valore di caratteristica corrispondente all'immagine. L'unit? di generazione di caratteristica 31 pu? estrarre il valore di caratteristica dall'immagine della regione candidata 56 estratta mediante l'RPN, o pu? acquisire il valore di caratteristica estratto nell'elaborazione dell'RPN, per esempio, una R-CNN pi? veloce.
Il classificatore 32 ?, per esempio, una macchina a vettori di supporto (SVM, Support Vector Machine) ed ? un tipo di modello di apprendimento automatico. In risposta all'immissione dei dati di valore di caratteristica immessi indicanti il valore di caratteristica corrispondente all'immagine della regione candidata 56, il classificatore 32 emette un punteggio di discriminazione indicante una probabilit? che un oggetto fotografato nella regione candidata 56 appartenga ad una classe positiva nel classificatore 32. Il classificatore 32 ? addestrato mediante una pluralit? di dati di addestramento di esempio positivo relativi ad esempi positivi e una pluralit? di dati di addestramento di esempio negativo relativi ad esempi negativi. I dati di addestramento di esempio positivo sono generati da un'immagine di apprendimento includente l?immagine in cui ? stato fotografato l'oggetto bersaglio 51, e i dati di addestramento di esempio negativo sono generati da un'immagine di un oggetto diverso dall'oggetto bersaglio 51, l'immagine essendo fornita in anticipo. I dati di addestramento di esempio negativo possono essere generati fotografando un ambiente dell'unit? fotografica 20, che ? stato fotografato dall'unit? fotografica 20.
In questo caso, l'apprendimento di metrica pu? essere eseguito in anticipo sulla CNN dell'unit? di generazione di caratteristica 31. ? possibile eseguire una regolazione mediante un apprendimento di metrica preliminare in modo tale che i dati di valore di caratteristica indicanti valori di caratteristica vicini tra loro siano emessi dalle immagini in cui vengono fotografati oggetti appartenenti alla classe positiva nel classificatore 32. Il valore di caratteristica indicato dai dati di valore di caratteristica in questa forma di realizzazione ?, per esempio, una quantit? di vettore normalizzata in modo da avere una norma di 1. Questo apprendimento di metrica pu? essere eseguito prima che l'immagine dell'oggetto bersaglio 51 sia ottenuta fotografando.
In questa forma di realizzazione, questa CNN viene utilizzata per generare dati di valore di caratteristica indicanti i valori di caratteristica corrispondenti alle immagini sottoposte all'esecuzione di un?elaborazione di normalizzazione. La CNN sottoposta all'esecuzione di un apprendimento di metrica in anticipo viene utilizzata, per aggregare in questo modo i valori di caratteristica di campioni appartenenti ad un'unica classe in una regione compatta indipendentemente dalle condizioni. Di conseguenza, il dispositivo di elaborazione di informazione 10 in questa forma di realizzazione pu? determinare un confine di discriminazione appropriato nel classificatore 32 anche da un numero ridotto di campioni. L'unit? di generazione di caratteristica 31 pu? emettere, mediante un altro algoritmo noto per calcolare il valore di caratteristica indicante la caratteristica dell'immagine, i dati di valore di caratteristica indicanti il valore di caratteristica corrispondente ad un'immagine in risposta all'immissione dell'immagine.
Per esempio, quando il punteggio di discriminazione ? maggiore di un valore di soglia, l'unit? di acquisizione di regione bersaglio 21 determina che la regione candidata 56 rilevante include l'immagine dell'oggetto bersaglio 51.
Dopo che ? stato determinato se ciascuna regione candidata 56 include o meno l'immagine dell'oggetto bersaglio 51, l'unit? di acquisizione di regione bersaglio 21 determina la regione bersaglio 55 in base ai risultati della determinazione (S104). Pi? nello specifico, l'unit? di acquisizione di regione bersaglio 21 acquisisce, in base alla regione candidata 56 che, secondo quanto determinato, include l'oggetto bersaglio 51, una regione rettangolare includente una regione in prossimit? dell'oggetto bersaglio 51 come regione bersaglio 55. L'unit? di acquisizione di regione bersaglio 21 pu? acquisire una regione quadrata includente una regione in prossimit? dell'oggetto bersaglio 51 come regione bersaglio 55 o pu? semplicemente acquisire la regione candidata 56 come regione bersaglio 55. Non ? sempre richiesto che l'unit? di acquisizione di regione bersaglio 21 acquisisca la regione bersaglio 55 mediante le fasi di elaborazione di S102 e S103. Per esempio, l'unit? di acquisizione di regione bersaglio 21 pu? acquisire la regione bersaglio 55 eseguendo un?elaborazione di tracciamento di serie temporale sull'immagine immessa acquisita dopo che la regione bersaglio 55 ? stata acquisita una volta.
In questo caso, l'unit? di acquisizione di regione bersaglio 21 genera un'immagine di maschera per mascherare un'immagine diversa dall'immagine dell'oggetto bersaglio 51 nella regione bersaglio 55. L'unit? di acquisizione di regione bersaglio 21 pu? utilizzare un metodo noto per generare un'immagine di maschera per mascherare lo sfondo dall'immagine della regione bersaglio 55. L'immagine da immettere nel modello di classificazione 23 pu? essere elaborata in modo da escludere l'immagine dello sfondo, e l'unit? di acquisizione di regione bersaglio 21 pu? anche generare, durante l'elaborazione, un'immagine di maschera regolando una dimensione o simili dell'immagine di maschera generata mediante un metodo noto.
La figura 8 ? un diagramma per illustrare un esempio di un?immagine di maschera per la regione bersaglio 55.
Nell'esempio della figura 8, una regione corrispondente all'immagine dell'oggetto bersaglio 51 ? mostrata in bianco. L'immagine di maschera viene utilizzata nell'elaborazione relativa alla generazione dell'immagine di posizione eseguita dal modello di apprendimento automatico 26.
L'unit? di stima di posa 25 immette un'immagine della regione bersaglio 55 nel modello di apprendimento automatico 26 che ? stato addestrato (S105). L'immagine della regione bersaglio 55 immessa in questa fase pu? essere un'immagine avente la dimensione regolata (ingrandita o ridotta) secondo la dimensione dell'immagine immessa del modello di apprendimento automatico 26. Tramite la regolazione di dimensione (normalizzazione), viene migliorata l'efficienza di apprendimento del modello di apprendimento automatico 26.
L'unit? di stima di posa 25 pu? mascherare lo sfondo dell'immagine della regione bersaglio 55 tramite l'uso dell'immagine di maschera e immettere l'immagine della regione bersaglio 55 avente lo sfondo mascherato nel modello di apprendimento automatico 26. L'unit? di stima di posa 25 pu? anche mascherare l'immagine di posizione emessa dal modello di apprendimento automatico 26 tramite l'uso dell'immagine di maschera. In quest'ultimo metodo di mascheratura, ? possibile impedire un'influenza della stima del punto chiave sullo sfondo generando al contempo l'immagine di posizione tramite l'uso di un'immagine vicino ad un confine tra lo sfondo e l'oggetto bersaglio 51. Questo migliora la precisione della stima di punti chiave. ? possibile inoltre mascherare sia l'immagine da immettere nel modello di apprendimento automatico 26 sia l'immagine da emettere dallo stesso.
L'unit? di determinazione di punto chiave 27 inclusa nell'unit? di stima di posa 25 determina le posizioni bidimensionali dei punti chiave nella regione bersaglio 55 e l'immagine immessa in base all'emissione del modello di apprendimento automatico 26 (S106). Nel caso in cui l'emissione del modello di apprendimento automatico 26 sia l'immagine di posizione, l'unit? di determinazione di punto chiave 27 calcola un candidato per la posizione del punto chiave da ogni pixel nell'immagine di posizione e determina la posizione del punto chiave in base al candidato. Nel caso in cui l'emissione del modello di apprendimento automatico 26 sia la posizione del punto chiave nella regione bersaglio 55, la posizione del punto chiave nell'immagine immessa pu? essere calcolata da tale posizione. Le fasi di elaborazione di S105 e S106 vengono eseguite per ogni tipo di punto chiave.
L'unit? di calcolo di posa 28 inclusa nell'unit? di stima di posa 25 calcola la posa dell'oggetto bersaglio 51 da stimare in base alle posizioni bidimensionali determinate dei punti chiave (S107). L'unit? di calcolo di posa 28 pu? calcolare la posizione dell'oggetto bersaglio 51 insieme alla posa. La posa e la posizione possono essere calcolate mediante la soluzione summenzionata del problema di PNP.
La figura 9 ? una vista per illustrare una posa dell'oggetto bersaglio 51 che ? stato rilevato. Nella figura 9, per semplicit? di descrizione, la posa dell'oggetto bersaglio 51 ? rappresentata da assi di coordinate locali 59 indicanti un sistema di coordinate locali dell'oggetto bersaglio 51. La posizione dell'origine degli assi di coordinate locali 59 indica la posizione dell'oggetto bersaglio 51 e le direzioni delle linee degli assi di coordinate locali 59 indicano la posa.
La posa e la posizione stimate dell'oggetto bersaglio 51 possono essere utilizzate per vari scopi. Per esempio, la posa e la posizione possono essere immesse in software applicativo, per esempio, un gioco, al posto di informazioni operative immesse mediante il controller. Quindi, il processore 11 che esegue un codice di esecuzione del software applicativo pu? generare dati sull'immagine in base alla posa (e alla posizione) e fare in modo che l'unit? di visualizzazione 18 emetta l'immagine. Il processore 11 pu? anche fare in modo che il dispositivo di elaborazione di informazione 10 o un dispositivo di emissione audio collegato al dispositivo di elaborazione di informazione 10 emetta un suono in base alla sua posa (e alla sua posizione). In un altro caso, il processore 11 pu?, per esempio, notificare ad un agente AI (quale un robot) la posizione e la posa dell'oggetto, per controllare cos? un'operazione dell'agente AI per fare in modo che l'oggetto venga afferrato.
Di seguito, viene descritta l'elaborazione di addestramento del modello di apprendimento automatico 26 e del classificatore 32. La figura 10 ? un diagramma di flusso illustrare un esempio di elaborazione per addestrare il modello di apprendimento automatico 26 e il classificatore 32.
In primo luogo, l'unit? di acquisizione di immagini fotografate 35 acquisisce una pluralit? di immagini fotografate in cui ? stato fotografato l'oggetto bersaglio 51 (S301).
La figura 11 ? una vista per illustrare lo scatto di fotografie dell'oggetto bersaglio 51. L'oggetto bersaglio 51 ? tenuto, per esempio, da una mano 53 e viene fotografato dall'unit? fotografica 20. In questa forma di realizzazione, si desidera fotografare l'oggetto bersaglio 51 da varie direzioni. Di conseguenza, l'unit? fotografica 20 cambia una direzione di scatto di fotografie dell'oggetto bersaglio 51 fotografando periodicamente un'immagine come nel caso di una videografia. Per esempio, la direzione di scatto di fotografie dell'oggetto bersaglio 51 pu? essere cambiata cambiando la posa dell'oggetto bersaglio 51 mediante la mano 53. In un altro caso, la direzione di scatto di fotografie pu? essere cambiata posizionando l'oggetto bersaglio 51 su un marcatore AR e muovendo l'unit? fotografica 20. Un intervallo di acquisizione tra le immagini fotografate da utilizzare nell?elaborazione descritta nel seguito pu? essere pi? lungo di un intervallo fotografico della videografia.
Dopo che sono state acquisite le immagini fotografate, l'unit? di acquisizione di immagini fotografate 35 maschera l'immagine della mano 53 da tali immagini fotografate (S302). L'immagine della mano 53 pu? essere mascherata mediante un metodo noto. Per esempio, l'unit? di acquisizione di immagini fotografate 35 pu? mascherare l'immagine della mano 53 rilevando una regione di colore della pelle inclusa nell'immagine fotografata.
Quindi, l'unit? di generazione di modello di forma 36 calcola il modello di forma tridimensionale dell'oggetto bersaglio 51 e la posa nelle rispettive immagini fotografate dalla pluralit? di immagini fotografate (S303). Questa elaborazione pu? essere eseguita mediante il metodo noto summenzionato utilizzato anche in software che implementa un cosiddetto SfM o Visual SLAM. L'unit? di generazione di modello di forma 36 pu? calcolare la posa dell'oggetto bersaglio 51 in base ad una logica per calcolare la direzione di scatto di fotografie della fotocamera mediante questo metodo.
Dopo che ? stato calcolato il modello di forma tridimensionale dell'oggetto bersaglio 51, l'unit? di generazione di modello di forma 36 determina le posizioni tridimensionali di una pluralit? di punti chiave da utilizzare per stimare la posa del modello di forma tridimensionale (S304). L'unit? di generazione di modello di forma 36 pu? determinare le posizioni tridimensionali di una pluralit? di punti chiave mediante, per esempio, un algoritmo di punto pi? lontano noto.
Dopo che sono state calcolate le posizioni tridimensionali dei punti chiave, l'unit? di generazione di dati di addestramento 37 genera dati di addestramento includenti una pluralit? di immagini di addestramento e una pluralit? di immagini di posizione (S305). Pi? nello specifico, l'unit? di generazione di dati di addestramento 37 genera una pluralit? di immagini di addestramento rese dal modello di forma tridimensionale e genera immagini di posizione indicanti le posizioni dei punti chiave nella pluralit? di immagini di addestramento. La pluralit? di immagini di addestramento consiste in immagini rese dell'oggetto bersaglio 51 osservato da una pluralit? di direzioni diverse e l'immagine di posizione viene generata per ogni combinazione dell'immagine di addestramento e del punto chiave. L'immagine di addestramento pu? essere un'immagine resa sottoposta ad una cosiddetta casualizzazione di dominio o un'immagine simile ad una fotografia resa insieme all'immagine dello sfondo. L'immagine di addestramento pu? essere un'immagine avente lo sfondo mascherato.
L?unit? di generazione di dati di addestramento 37 proietta virtualmente la posizione del punto chiave sull'immagine di addestramento resa e genera un'immagine di posizione in base a una posizione relativa tra la posizione proiettata del punto chiave e ogni pixel nell'immagine. I dati di addestramento da utilizzare per addestrare il modello di apprendimento automatico 26 includono le immagini di addestramento e le immagini di posizione.
L'unit? di generazione di dati di addestramento 37 genera inoltre insiemi di un?immagine di addestramento includente almeno una parte dell'immagine fotografata e un'immagine di posizione e aggiunge tali insiemi ai dati di addestramento (S306). L'unit? di generazione di dati di addestramento 37 genera un'immagine di posizione in base alla posa e alla posizione dell'oggetto bersaglio 51 in ogni immagine fotografata. La posa e la posizione dell'oggetto bersaglio 51 sono state calcolate dall'unit? di generazione di modello di forma 36. Per esempio, l'unit? di generazione di dati di addestramento 37 pu? generare un'immagine resa dell'oggetto bersaglio 51 nell'immagine fotografata relativamente alla sua posa e alla sua posizione, e generare un'immagine di posizione per l'immagine fotografata in base all'immagine resa mediante lo stesso metodo di S305. L'immagine di addestramento pu? essere un'immagine ottenuta mascherando lo sfondo dell'immagine fotografata.
Nelle immagini di addestramento incluse nei dati di addestramento, il numero di immagini rese ? maggiore del numero di immagini formate da almeno una regione parziale dell'immagine fotografata. Questo ? dovuto al fatto che ? possibile generare facilmente immagini osservate da varie direzioni di scatto di fotografie tramite l'uso di un modello di forma tridimensionale, mentre ? difficile acquisire immagini fotografate ottenute fotografando da varie direzioni di scatto di fotografie in un breve periodo di tempo. Al contempo, le immagini formate da almeno una regione parziale dell'immagine fotografata vengono utilizzate per addestrare il modello di apprendimento automatico 26, per adattare cos? il modello di apprendimento automatico 26 non solo ad un'immagine resa ma anche ad un'immagine effettivamente fotografata. Questo consente di migliorare la precisione del modello di apprendimento automatico 26 che ? stato addestrato. La pluralit? di immagini di addestramento incluse nei dati di addestramento pu? consistere soltanto in immagini rese nonostante la precisione leggermente ridotta.
Quindi, l'unit? di addestramento di posa 38 addestra il modello di apprendimento automatico 26 mediante i dati di addestramento generati in S305 e S306 (S307).
Vengono descritti dettagli del modello di apprendimento automatico 26 e di un metodo per l'apprendimento. La figura 12 ? un diagramma per illustrare un esempio di una configurazione del modello di apprendimento automatico 26. Il modello di apprendimento automatico 26 illustrato nella figura 12 ? utilizzato al momento dell'apprendimento preliminare. Il modello di apprendimento automatico 26 utilizza un modello basato su ResNet in un'unit? di codificatore e include una pluralit? di blocchi da 70a a 70l. L'immagine della regione bersaglio 55 ? immessa nel blocco 70a e il blocco 70l corrisponde ad uno strato di emissione. I blocchi da 70a a 70g corrispondono ad un cosiddetto codificatore e mostrano una tendenza per cui una convoluzione comporta una diminuzione dell'area (larghezza e altezza) di una mappa di caratteristiche di ogni strato e un aumento del numero di canali. Al contempo, i blocchi da 70h a 70k corrispondono ad un cosiddetto decodificatore e mostrano una tendenza per cui una deconvoluzione comporta un aumento dell'area della mappa di caratteristiche di ogni strato e una diminuzione del numero di canali. Al posto della deconvoluzione, ? possibile utilizzare una combinazione di campionamento in aumento (riscalatura bilineare) e convoluzione. Ciascuno dei blocchi da 70a a 70k pu? avere strati Conv2D, BatchNorm e di attivazione. I blocchi illustrati nella figura 12 sono di fatto collegati a blocchi diversi dai blocchi adiacenti, ma la descrizione dei loro dettagli ? omessa.
La figura 13 ? un diagramma per illustrare una configurazione del modello di apprendimento automatico 26. Il modello di apprendimento automatico 26 illustrato nella figura 13 pu? eseguire l'emissione per una pluralit? di tipi di oggetti e viene utilizzato, per esempio, al momento dell'apprendimento di S307 della figura 10 dopo l'apprendimento preliminare. I blocchi da 70d a 70l e i blocchi da 71d a 71l sono presenti nel successivo stadio del blocco 70c. Per esempio, i blocchi da 70d a 70l sono strati per emettere l'immagine di posizione per un tipo di oggetto bersaglio 51 e i blocchi da 71d a 71l sono strati per emettere l'immagine di posizione per un altro tipo di oggetto bersaglio 51.
Prima di eseguire l'elaborazione della figura 10, l'unit? di addestramento di posa 38 addestra i blocchi da 70a a 70l del modello di apprendimento automatico 26 illustrato nella figura 12 mediante dati di addestramento preliminare includenti immagini immesse generate per una pluralit? di oggetti campione e le immagini di posizione indicanti le posizioni dei punti chiave degli oggetti campione. La pluralit? di oggetti campione include un oggetto diverso dall'oggetto bersaglio 51.
Quindi, in S307, l'unit? di addestramento di posa 38 imposta i parametri appresi per i blocchi da 70a a 70l della figura 12 nei blocchi da 70a a 70l della figura 13. I parametri appresi per i blocchi da 70d a 70l della figura 12 possono essere impostati nei blocchi da 71d a 71l della figura 13. L'unit? di addestramento di posa 38 fissa anche i parametri per i blocchi da 70a a 70c e addestra il modello di apprendimento automatico 26 mediante i dati di addestramento generati in S305 e S306. In questo addestramento, l'unit? di addestramento di posa 38 addestra il modello di apprendimento automatico 26 regolando i parametri per una rete neurale dei blocchi da 70d a 70l (nonch? i blocchi da 71d a 71l nell'esempio della figura 13). I parametri appresi per i blocchi da 70d a 70l della figura 12 vengono utilizzati come valori iniziali dei parametri nell'apprendimento, per velocizzare cos? l'apprendimento.
Caratteristiche comuni di un gran numero di tipi di oggetti vengono apprese in anticipo e quindi le prestazioni vengono regolate in ogni singola rete per ogni oggetto, per essere in grado cos? di ridurre un periodo di tempo e una quantit? di dati da richiedere per addestrare il modello di apprendimento automatico 26 e migliorare le prestazioni del modello di apprendimento automatico 26. Quando vi ? soltanto un tipo di oggetto bersaglio, i blocchi da 71d a 71l possono essere omessi. I blocchi corrispondenti ai blocchi da 71d a 71l sono forniti corrispondentemente al numero di tipi di oggetti bersaglio. L'unit? di addestramento di posa 38 pu? addestrare i blocchi da 70a a 70l del modello di apprendimento automatico 26 mediante i dati di addestramento preliminare e quindi l'unit? di addestramento di posa 38 pu? fissare i parametri per i blocchi da 70a a 70c e addestrare il modello di apprendimento automatico 26 mediante i dati di addestramento generati in S305 e S306. Quando si utilizza l'immagine di addestramento mascherata, l'unit? di addestramento di posa 38 esegue l'addestramento utilizzando soltanto la regione non mascherata come regione effettiva.
L'unit? di addestramento di posa 38 pu? eseguire l'apprendimento preliminare sul modello di apprendimento automatico 26 illustrato nella figura 13. Per esempio, un gruppo di blocchi corrispondente ai blocchi da 70d a 70l dopo una diramazione pu? essere fornito corrispondentemente al numero di oggetti di una pluralit? di campioni e il modello di apprendimento automatico 26 pu? essere sottoposto all'apprendimento preliminare mediante dati di addestramento corrispondenti alla configurazione del modello di apprendimento automatico 26. I dati di addestramento possono essere, per esempio, dati di addestramento includenti l'immagine di un oggetto campione e dati di verit? di base per il gruppo di blocchi corrispondente all'oggetto. In S307, l'unit? di addestramento di posa 38 pu? impostare parametri casuali o i parametri appresi per oggetti appropriati come valori iniziali per i blocchi da 70d a 70l (o blocchi corrispondenti) dopo una diramazione. In aggiunta, ? possibile eseguire un cosiddetto meta-apprendimento come apprendimento preliminare.
Al contempo, dopo che sono state acquisite le immagini fotografate, l'unit? di addestramento di classificazione 39 addestra il modello di classificazione 23 mediante i dati di addestramento in base alle immagini fotografate (S308).
I dati di addestramento utilizzati in S308 includono i dati di addestramento di esempio positivo e i dati di addestramento di esempio negativo. L'unit? di addestramento di classificazione 39 immette l'immagine in cui ? stato fotografato l'oggetto bersaglio 51 nell'unit? di generazione di caratteristica 31 e acquisisce i dati di valore di caratteristica emessi, per generare cos? una pluralit? di dati di addestramento di esempio positivo. Relativamente ad una pluralit? di dati di addestramento di esempio negativo, l'unit? di addestramento di classificazione 39 immette nell'unit? di generazione di caratteristica 31 immagini di campione di esempio negativo memorizzate in anticipo nell'unit? di memorizzazione 12 e acquisisce i dati di valore di caratteristica emessi, per generare cos? una pluralit? di dati di addestramento di esempio negativo. Le immagini di campione di esempio negativo sono immagini ottenute fotografando mediante l'unit? fotografica 20 in anticipo o immagini raccolte dal Web. In aggiunta, dati di addestramento di esempio positivo relativi ad un altro oggetto possono essere utilizzati come dati di addestramento di esempio negativo. I dati di addestramento di esempio negativo possono essere generati in anticipo per essere memorizzati nell'unit? di memorizzazione 12. In questo caso, l'unit? di addestramento di classificazione 39 pu? semplicemente acquisire i dati di addestramento di esempio negativo memorizzati nell'unit? di memorizzazione 12. L'unit? di addestramento di classificazione 39 addestra il classificatore 32 incluso nel modello di classificazione 23 mediante questi dati di addestramento.
Il valore di caratteristica da utilizzare per generare i dati di addestramento per il classificatore 32 viene estratto mediante un'elaborazione uguale a quella dell'unit? di generazione di caratteristica 31 inclusa nel modello di classificazione 23. Il modello di classificazione 23 ? addestrato tramite l'apprendimento del classificatore 32. Il modello di classificazione 23 non ? limitato a quello descritto finora e pu? essere un modello che determina direttamente, dall'immagine, la presenza o l'assenza dell'oggetto bersaglio 51.
In questa forma di realizzazione, l'immagine da immettere nel modello di apprendimento automatico 26 ? limitata dall'elaborazione dell'unit? di acquisizione di regione bersaglio 21 ad un'immagine della regione in cui l'oggetto bersaglio 51 ? presente nell'immagine ottenuta fotografando, l'immagine avendo una probabilit? sufficientemente alta che l'oggetto bersaglio 51 sia presente al centro. In aggiunta, il modello di apprendimento automatico 26 dell'unit? di stima di posa 25 ? addestrato mediante i dati di addestramento generati dal modello di forma tridimensionale, mentre il modello di classificazione 23 dell'unit? di acquisizione di regione bersaglio 21 ? addestrato in base alle immagini in cui ? stato fotografato l'oggetto bersaglio 51.
Le immagini da immettere nel modello di apprendimento automatico 26 sono limitate in modo appropriato, per migliorare cos? la precisione dell'emissione del modello di apprendimento automatico 26 e migliorare la precisione della stima della posa dell'oggetto bersaglio 51. In aggiunta, il modello di classificazione 23 ? addestrato sulla base dell'immagine fotografata, invece dell'immagine basata sul modello di forma tridimensionale, per essere in grado cos? di selezionare la regione bersaglio 55 in modo pi? preciso e per migliorare di conseguenza la precisione del modello di apprendimento automatico 26.
In questa forma di realizzazione, l'immagine fotografata per generare il modello di forma tridimensionale per addestrare il modello di apprendimento automatico 26 dell'unit? di stima di posa 25 viene utilizzata anche quando viene addestrato il modello di classificazione 23. Questo riduce il tempo e il lavoro richiesti per fotografare l'oggetto bersaglio 51 e riduce anche il tempo richiesto per l'addestramento del modello di apprendimento automatico 26 e del modello di classificazione 23.
Occorre evidenziare che la presente invenzione non ? limitata alla forma di realizzazione summenzionata.
Per esempio, il classificatore 32 pu? essere una SVM di un qualsiasi kernel. Il classificatore 32 pu? anche essere un classificatore che utilizza un metodo, per esempio, un metodo dei K adiacenti pi? vicini (K-nearest neighbor), una regressione logistica o un metodo di incremento quale AdaBoost. Inoltre, il classificatore 32 pu? essere implementato, per esempio, da una rete neurale, un classificatore Naive Bayes, una foresta casuale o un albero di decisione.
Inoltre, le stringhe di caratteri e i valori numerici specifici descritti sopra e i valori numerici e le stringhe di caratteri specifici nei disegni sono soltanto esemplificativi, e la presente invenzione non ? limitata a queste stringhe di caratteri e a questi valori numerici.

Claims (1)

  1. RIVENDICAZIONI
    [Rivendicazione 1]
    Sistema di elaborazione di informazione, comprendente: mezzi di acquisizione di regione bersaglio per: acquisire un'immagine immessa; determinare se l'immagine immessa include o meno un'immagine di un oggetto bersaglio immettendo almeno una parte dell'immagine immessa in un modello di classificazione addestrato in base ad una pluralit? di immagini di apprendimento includente un'immagine in cui l'oggetto bersaglio ? stato fotografato e dati di etichetta che indicano se ciascuna della pluralit? di immagini di apprendimento include o meno l'oggetto bersaglio; e acquisire una regione bersaglio includente l'immagine dell'oggetto bersaglio, che ? estratta dall'immagine immessa, quando l'immagine immessa include l'oggetto bersaglio; e
    mezzi di stima di posa per stimare una posa dell'oggetto bersaglio in base a informazioni emesse da un modello di apprendimento automatico, quando la regione bersaglio acquisita viene immessa in esso, che ? addestrato mediante: una pluralit? di immagini di addestramento rese da un modello di forma tridimensionale dell'oggetto bersaglio; e dati di verit? di base che sono informazioni relative alla posa dell'oggetto bersaglio nelle immagini di addestramento.
    [Rivendicazione 2]
    Sistema di elaborazione di informazione secondo la rivendicazione 1,
    in cui i mezzi di acquisizione di regione bersaglio sono configurati per estrarre una regione includente un'immagine di un oggetto dall'immagine immessa,
    in cui il modello di classificazione include:
    un'unit? di generazione di caratteristica configurata per generare un valore di caratteristica di un'immagine di almeno una parte della regione estratta; e
    un classificatore configurato per ricevere un?immissione del valore di caratteristica generato e per emettere informazioni che indicano se la regione estratta ha o meno l'immagine dell'oggetto bersaglio e
    in cui il classificatore ? addestrato mediante dati di addestramento includenti valori di caratteristica generati dall'immagine in cui l'oggetto bersaglio ? stato fotografato e i dati di etichetta.
    [Rivendicazione 3]
    Sistema di elaborazione di informazione secondo la rivendicazione 2, in cui l'unit? di generazione di caratteristica ? regolata in modo tale che una distanza tra valori di caratteristica generati da una pluralit? di immagini includenti l'oggetto bersaglio diventi minore di una distanza tra il valore di caratteristica generato da un'immagine includente l'oggetto bersaglio e un valore di caratteristica generato da un'immagine includente un oggetto diverso dall'oggetto bersaglio.
    [Rivendicazione 4]
    Sistema di elaborazione di informazione secondo una qualsiasi delle rivendicazioni da 1 a 3,
    in cui il modello di apprendimento automatico ? addestrato mediante dati di addestramento includenti: la pluralit? di immagini di addestramento rese mediante il modello di forma tridimensionale dell'oggetto bersaglio; e i dati di verit? di base indicanti le posizioni di punti chiave dell'oggetto bersaglio nelle immagini di addestramento,
    in cui i mezzi di stima di posa sono configurati per acquisire informazioni indicanti le posizioni bidimensionali dei punti chiave dell'oggetto bersaglio nella regione bersaglio immettendo la regione bersaglio acquisita nel modello di apprendimento automatico e
    in cui i mezzi di stima di posa sono configurati per stimare la posa dell'oggetto bersaglio in base alle informazioni indicanti le posizioni bidimensionali dei punti chiave e informazioni indicanti le posizioni tridimensionali dei punti chiave nel modello di forma tridimensionale.
    [Rivendicazione 5]
    Sistema di elaborazione di informazione secondo la rivendicazione 4,
    in cui il modello di apprendimento automatico ? addestrato mediante una pluralit? di immagini di addestramento rese da un modello tridimensionale dell'oggetto bersaglio e immagini di verit? di base in cui ciascuno dei pixel indica una relazione di posizione rispetto al punto chiave dell'oggetto bersaglio nelle immagini di addestramento,
    in cui i mezzi di stima di posa sono configurati per acquisire un'immagine di posizione in cui ciascuno dei pixel indica la relazione di posizione rispetto al punto chiave dell'oggetto bersaglio immettendo la regione bersaglio acquisita nel modello di apprendimento automatico,
    in cui i mezzi di stima di posa sono configurati per calcolare, in base all'immagine di posizione, la posizione del punto chiave dell'oggetto bersaglio nell'immagine di posizione e
    in cui i mezzi di stima di posa sono configurati per stimare la posa dell'oggetto bersaglio in base alla posizione calcolata del punto chiave nell'immagine di posizione e nel modello tridimensionale.
    [Rivendicazione 6]
    Sistema di elaborazione di informazione secondo la rivendicazione 5,
    in cui i mezzi di acquisizione di regione bersaglio sono configurati per generare un'immagine di maschera per mascherare una regione diversa dall'immagine dell'oggetto bersaglio nella regione bersaglio,
    in cui i mezzi di stima di posa sono configurati per mascherare una parte dell'immagine di posizione in base all'immagine di maschera e
    in cui i mezzi di stima di posa sono configurati per acquisire, in base all'immagine di posizione mascherata, la posizione del punto chiave dell'oggetto bersaglio nell'immagine di posizione.
    [Rivendicazione 7]
    Sistema di elaborazione di informazione secondo una qualsiasi delle rivendicazioni da 1 a 6, comprendente inoltre:
    mezzi di acquisizione di immagini fotografate per acquisire una pluralit? di immagini fotografate ottenute fotografando da una pluralit? di direzioni rispetto all'oggetto bersaglio;
    mezzi di generazione di modello di forma per calcolare il modello di forma tridimensionale dell'oggetto bersaglio in base alla pluralit? di immagini fotografate; e
    mezzi di addestramento di classificazione per addestrare, mediante dati di addestramento includenti i dati di verit? di base e i dati immessi corrispondenti alla pluralit? di immagini fotografate, il modello di classificazione per determinare se l'immagine immessa include o meno l'immagine dell'oggetto bersaglio.
    [Rivendicazione 8]
    Sistema di elaborazione di informazione secondo la rivendicazione 7,
    in cui i mezzi di generazione di modello di forma sono configurati per generare informazioni indicanti la posa dell'oggetto bersaglio nell'immagine fotografata e
    in cui il sistema di elaborazione di informazione comprende inoltre mezzi di addestramento di posa per addestrare il modello di apprendimento automatico mediante: le immagini di addestramento includenti una pluralit? di immagini rese dal modello di forma tridimensionale e la pluralit? di immagini fotografate; e i dati di verit? di base che sono le informazioni relative alla posa dell'oggetto bersaglio nelle immagini di addestramento.
    [Rivendicazione 9]
    Sistema di elaborazione di informazione secondo la rivendicazione 8, comprendente inoltre mezzi di generazione di dati di addestramento per acquisire, dalla pluralit? di immagini fotografate ottenute fotografando, un'immagine fotografata da cui ? stata rimossa un'immagine di una mano, e generare un'immagine di addestramento includente l'immagine fotografata da cui ? stata rimossa l'immagine della mano e i dati di verit? di base.
    [Rivendicazione 10]
    Sistema di elaborazione di informazione secondo una qualsiasi delle rivendicazioni da 1 a 9,
    in cui il modello di apprendimento automatico include una rete neurale formata da una pluralit? di strati includenti uno strato di immissione, uno stato intermedio e uno strato di emissione e
    in cui il modello di apprendimento automatico ? addestrato in anticipo mediante dati di addestramento preliminare includenti una pluralit? di immagini di addestramento relative a oggetti diversi dall'oggetto bersaglio e i dati di verit? di base, e viene quindi addestrato mediante la pluralit? di immagini di addestramento relative all'oggetto bersaglio e i dati di verit? di base con un parametro fisso per uno strato o una pluralit? di strati escluso lo strato di emissione e incluso lo strato di immissione.
    [Rivendicazione 11]
    Metodo di elaborazione di informazione, comprendente le fasi di:
    acquisire un'immagine immessa;
    determinare se l'immagine immessa include o meno un'immagine di un oggetto bersaglio immettendo almeno una parte dell'immagine immessa in un modello di classificazione addestrato in base ad una pluralit? di immagini di apprendimento includente un'immagine in cui l'oggetto bersaglio ? stato fotografato e dati di etichette che indicano se ciascuna della pluralit? di immagini di apprendimento include o meno l'oggetto bersaglio;
    acquisire una regione bersaglio includente l'immagine dell'oggetto bersaglio, che ? estratta dall'immagine immessa, quando l'immagine immessa include l'oggetto bersaglio; e
    stimare una posa dell'oggetto bersaglio in base alle informazioni emesse da un modello di apprendimento automatico, quando la regione bersaglio acquisita ? immessa in esso, che ? addestrato mediante: una pluralit? di immagini di addestramento rese da un modello di forma tridimensionale dell'oggetto bersaglio; e dati di verit? di base che sono informazioni relative alla posa dell'oggetto bersaglio nelle immagini di addestramento.
    [Rivendicazione 12]
    Programma per fare in modo che un computer esegua i processi di:
    acquisire un'immagine immessa;
    determinare se l'immagine immessa include o meno un'immagine di un oggetto bersaglio immettendo almeno una parte dell'immagine immessa in un modello di classificazione addestrato in base ad una pluralit? di immagini di apprendimento includente un'immagine in cui ? stato fotografato l'oggetto bersaglio e dati di etichette che indicano se ciascuna della pluralit? di immagini di apprendimento include o meno l'oggetto bersaglio;
    acquisire una regione bersaglio includente l'immagine dell'oggetto bersaglio, che ? estratta dall'immagine immessa, quando l'immagine immessa include l'oggetto bersaglio; e
    stimare una posa dell'oggetto bersaglio in base a informazioni emesse da un modello di apprendimento automatico, quando la regione bersaglio acquisita ? immessa in esso, che ? addestrato mediante: una pluralit? di immagini di addestramento rese da un modello di forma tridimensionale dell'oggetto bersaglio; e dati di verit? di base che sono informazioni relative alla posa dell'oggetto bersaglio nelle immagini di addestramento.
IT102021000032969A 2021-12-29 2021-12-29 Sistema di elaborazione di informazione, metodo di elaborazione di informazione, e programma IT202100032969A1 (it)

Priority Applications (6)

Application Number Priority Date Filing Date Title
IT102021000032969A IT202100032969A1 (it) 2021-12-29 2021-12-29 Sistema di elaborazione di informazione, metodo di elaborazione di informazione, e programma
JP2023570979A JPWO2023127747A1 (it) 2021-12-29 2022-12-23
EP22915970.2A EP4459554A1 (en) 2021-12-29 2022-12-23 Information processing system, information processing method, and program
PCT/JP2022/047713 WO2023127747A1 (ja) 2021-12-29 2022-12-23 情報処理システム、情報処理方法及びプログラム
CN202280086427.0A CN118489122A (zh) 2021-12-29 2022-12-23 信息处理系统、信息处理方法以及程序
US18/712,268 US20250166222A1 (en) 2021-12-29 2022-12-23 Information processing system, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT102021000032969A IT202100032969A1 (it) 2021-12-29 2021-12-29 Sistema di elaborazione di informazione, metodo di elaborazione di informazione, e programma

Publications (1)

Publication Number Publication Date
IT202100032969A1 true IT202100032969A1 (it) 2023-06-29

Family

ID=80685355

Family Applications (1)

Application Number Title Priority Date Filing Date
IT102021000032969A IT202100032969A1 (it) 2021-12-29 2021-12-29 Sistema di elaborazione di informazione, metodo di elaborazione di informazione, e programma

Country Status (6)

Country Link
US (1) US20250166222A1 (it)
EP (1) EP4459554A1 (it)
JP (1) JPWO2023127747A1 (it)
CN (1) CN118489122A (it)
IT (1) IT202100032969A1 (it)
WO (1) WO2023127747A1 (it)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240057354A (ko) * 2022-10-21 2024-05-02 한국전자통신연구원 자기 지도 학습 기반 객체의 6자유도 자세 추정 방법 및 장치
US20240199068A1 (en) * 2022-11-18 2024-06-20 Nvidia Corporation Object pose estimation
TWI884050B (zh) * 2024-07-29 2025-05-11 威盛電子股份有限公司 負樣本資料蒐集方法與系統

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210031110A1 (en) 2019-08-01 2021-02-04 Sony Interactive Entertainment Inc. System and method for generating user inputs for a video game

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4809746B2 (ja) * 2006-09-20 2011-11-09 株式会社中電工 画像処理装置および画像処理プログラム
JP5743499B2 (ja) * 2010-11-10 2015-07-01 キヤノン株式会社 画像生成装置、画像生成方法、およびプログラム
JP6126437B2 (ja) * 2013-03-29 2017-05-10 キヤノン株式会社 画像処理装置および画像処理方法
JP6977513B2 (ja) * 2017-12-01 2021-12-08 コニカミノルタ株式会社 機械学習方法及び装置
JP7134016B2 (ja) * 2018-08-10 2022-09-09 キヤノン株式会社 情報処理装置、情報処理方法
CN112784635A (zh) * 2019-11-07 2021-05-11 富士通株式会社 信息处理装置和方法以及利用模型分类的装置
CN113569591B (zh) * 2020-04-28 2024-05-10 富士通株式会社 图像处理装置、图像处理方法和机器可读存储介质
JP6868875B1 (ja) * 2020-07-31 2021-05-12 株式会社アイエンター 姿勢推定学習システム、姿勢推定学習方法及び機械学習用データの作成プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210031110A1 (en) 2019-08-01 2021-02-04 Sony Interactive Entertainment Inc. System and method for generating user inputs for a video game

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JOSIFOVSKI JOSIP ET AL: "Object Detection and Pose Estimation Based on Convolutional Neural Networks Trained with Synthetic Data", 2018 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS), IEEE, 1 October 2018 (2018-10-01), pages 6269 - 6276, XP033491648, DOI: 10.1109/IROS.2018.8594379 *
LIU WEI ET AL: "SSD: Single Shot MultiBox Detector", 17 September 2016, ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, PAGE(S) 21 - 37, XP047565568 *
PENG SIDA ET AL: "PVNet: Pixel-Wise Voting Network for 6DoF Pose Estimation", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 15 June 2019 (2019-06-15), pages 4556 - 4565, XP033687290, DOI: 10.1109/CVPR.2019.00469 *
SIDA PENG ET AL.: "PVNet: Pixel-Wise voting Network for 6DoF pose estimation", IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, 2019
SON JEANY ET AL: "Forget and Diversify: Regularized Refinement for Weakly Supervised Object Detection", 25 May 2019, ADVANCES IN DATABASES AND INFORMATION SYSTEMS; [LECTURE NOTES IN COMPUTER SCIENCE; LECT.NOTES COMPUTER], SPRINGER INTERNATIONAL PUBLISHING, CHAM, PAGE(S) 632 - 648, ISBN: 978-3-319-10403-4, XP047508379 *
SUNDERMEYER MARTIN ET AL: "Implicit 3D Orientation Learning for 6D Object Detection from RGB Images", 6 October 2018, SAT 2015 18TH INTERNATIONAL CONFERENCE, AUSTIN, TX, USA, SEPTEMBER 24-27, 2015; [LECTURE NOTES IN COMPUTER SCIENCE; LECT.NOTES COMPUTER], SPRINGER, BERLIN, HEIDELBERG, PAGE(S) 712 - 729, ISBN: 978-3-540-74549-5, XP047488229 *

Also Published As

Publication number Publication date
EP4459554A1 (en) 2024-11-06
US20250166222A1 (en) 2025-05-22
CN118489122A (zh) 2024-08-13
JPWO2023127747A1 (it) 2023-07-06
WO2023127747A1 (ja) 2023-07-06

Similar Documents

Publication Publication Date Title
IT202100032969A1 (it) Sistema di elaborazione di informazione, metodo di elaborazione di informazione, e programma
CN110147721B (zh) 一种三维人脸识别方法、模型训练方法和装置
CN110443205B (zh) 一种手部图像分割方法及装置
CN109410316B (zh) 物体的三维重建的方法、跟踪方法、相关装置及存储介质
CN106997457B (zh) 人物肢体识别方法、人物肢体识别装置及电子装置
CN114494543B (zh) 动作生成方法及相关装置、电子设备和存储介质
CN112926461B (zh) 神经网络训练、行驶控制方法及装置
CN107609475B (zh) 基于光场相机的行人检测误检提出方法
CN115147936B (zh) 一种活体检测方法、电子设备、存储介质及程序产品
WO2021246217A1 (ja) オブジェクト検出方法、オブジェクト検出装置及びプログラム
CN114944013A (zh) 一种基于改进yolov5的手势识别模型训练方法及手势识别方法
CN118071822A (zh) 图像处理方法、装置、破拆机器人和计算机可读存储介质
JP2023109570A5 (it)
JP7581521B2 (ja) 認識モデル生成方法及び認識モデル生成装置
CN114627500B (zh) 一种基于卷积神经网络的跨模态行人重识别方法
JP7666179B2 (ja) 画像処理システム、画像処理方法及び画像処理プログラム
CN108197549A (zh) 基于3d成像的人脸识别方法及终端
CN112733757B (zh) 基于彩色图像和近红外图像的活体人脸识别方法
CN112364946B (zh) 图像确定模型的训练方法、图像确定的方法、装置和设备
CN111652019A (zh) 一种人脸活体检测方法及装置
JP7724361B2 (ja) 情報処理システム、情報処理方法及びプログラム
CN112395922B (zh) 面部动作检测方法、装置及系统
CN119785008A (zh) 一种基于深度学习的目标检测方法和系统
Holešovský et al. Movingcables: Moving cable segmentation method and dataset
WO2024131407A1 (zh) 一种面部表情的模拟方法、装置、设备及存储介质