FI121901B - Objektien ilmaiseminen ja seuraaminen digitaalisissa kuvissa - Google Patents

Objektien ilmaiseminen ja seuraaminen digitaalisissa kuvissa Download PDF

Info

Publication number
FI121901B
FI121901B FI20085986A FI20085986A FI121901B FI 121901 B FI121901 B FI 121901B FI 20085986 A FI20085986 A FI 20085986A FI 20085986 A FI20085986 A FI 20085986A FI 121901 B FI121901 B FI 121901B
Authority
FI
Finland
Prior art keywords
neighborhood
pixel
pixels
information
image
Prior art date
Application number
FI20085986A
Other languages
English (en)
Swedish (sv)
Other versions
FI20085986A0 (fi
FI20085986A (fi
Inventor
Matti Niskanen
Markus Turtinen
Jari Hannuksela
Original Assignee
Visidon Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Visidon Oy filed Critical Visidon Oy
Priority to FI20085986A priority Critical patent/FI121901B/fi
Publication of FI20085986A0 publication Critical patent/FI20085986A0/fi
Priority to PCT/FI2009/050832 priority patent/WO2010043771A1/en
Priority to US13/124,409 priority patent/US8103058B2/en
Publication of FI20085986A publication Critical patent/FI20085986A/fi
Application granted granted Critical
Publication of FI121901B publication Critical patent/FI121901B/fi

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Description

Objektien ilmaiseminen ja seuraaminen digitaalisissa kuvissa
Ala
Keksintö liittyy yleisesti objektien ilmaisemiseen digitaalisessa kuvassa. Lisäksi, keksintö liittyy objektin seuraamiseen digitaalisten kuvien 5 videosekvenssistä.
Tausta
Objektien ilmaiseminen digitaalista kuvista tietokoneohjatusti ja objektien seuraaminen videosekvenssistä ovat erittäin haastavia tehtäviä. Tästä huolimatta, siitä on tullut erittäin suosittu tutkimuskohde johtuen tarjolla 10 olevasta suuresta määrästä sovelluksia. Yksi pääsovellusalue tekniikan alalla on kasvontunnistus tai -ilmaiseminen, jota käytetään laajasti esimerkiksi turvallisuusjärjestelmissä. Lisäksi se mahdollistaa mielenkiintoisia piirteitä kuten punasilmänpoiston, kasvojen alueen resoluution parantamisen, kameran automaattisen tarkennuksenpa henkilön identiteetin tulkitsemisen.
15 Nykyiset ratkaisut kasvonilmaisun suorittamiseen sisältävät kuitenkin useita epäedullisuuksia. Tyypillisesti kasvonilmaisussa kuvasta erotetaan muutamia kasvopiirteitä ja niitä verrataan ennalta määrättyyn piirretietokantaan. Nykyiset kasvonilmaisutekniikat käyttävät esimerkiksi yksinkertaisia Haar-aallokkeen piirteitä, jotka valitaan alkuperäisestä 20 harmaasävykuvasta muodostetusta integraalikuvasta. Toinen tekniikka soveltaa local binary pattern -tekniikkaa (LBP), joissa informaatio hankitaan vertaamalla kuvan yhtä paikkaa (yhtä pikseliä) yhteen naapuripikseliin. Molemmilla näistä tekniikoista on epäedullisuuksia, jotka liittyvät esimerkiksi ^ erottavien kasvonpiirteiden puuttumisesta johtuvaan heikkoon tarkkuuteen, ^ 25 liiallisesta piirteiden ja datan määrästä johtuvaan hitaaseen prosessointiin, i o naapuripikselien paikallisen rakenteen heikkoon huomioonottamiseen, kasvon i g epätasaiseen valaistukseen, ja kasvon katselukulman vaihteluun.
x Näin ollen tarvitaan uusi ratkaisu objektien ilmaisemisen ja seuraamisen suorittamiseksi digitaalisissa kuvissa.
CO
00 ίο 30 Keksinnön lyhyt selostus 00 o Keksinnön tavoite on tarjota parempi ratkaisu objektien ilmaisemiseen ja seuraamiseen digitaalisissa kuvissa.
2
Esillä olevan keksinnön eräänä puolena esitetään menetelmä, joka on ilmaistu patenttivaatimuksessa 1.
Esillä olevan keksinnön eräänä puolena esitetään laitteet, jotka on ilmaistu patenttivaatimuksissa 6 ja 11.
5 Esillä olevan keksinnön eräänä puolena esitetään tietokoneohjel- matuote, joka on ilmaistu patenttivaatimuksessa 12.
Keksinnön eri suoritusmuodot ovat kuvattuina epäitsenäisissä vaatimuksissa.
Kuvioiden lyhyt selostus 10 Keksintöä selostetaan nyt lähemmin edullisten suoritusmuotojen yhteydessä viitaten oheisiin piirroksiin, joista:
Kuvio 1 esittää esimerkinomaisen digitaalisen kuvan;
Kuvio 2 esittää objektin ilmaisulaitteen erään suoritusmuodon mukaisesti; 15 Kuvio 3 esittää esimerkinomaisia naapuruston muodostelmia;
Kuvio 4A esittää painotettujen pikseliarvojen kombinaatiota erään suoritusmuodon mukaisesti;
Kuvio 4B esittää painotettujen pikseliarvojen kombinaatiota erään suoritusmuodon mukaisesti; 20 Kuvio 5 esittää hakutaulukon erään suoritusmuodon mukaisesti;
Kuvio 6 esittää menetelmän objektin ilmaisuun digitaalisesta kuvasta; ja
Kuvio 7 esittää menetelmän objektin olemassaolon hyväksymiseen kuvassa.
^ 25 Suoritusmuotojen kuvaus δ
Seuraavat suoritusmuodot ovat esimerkinomaisia. Vaikkakin kuvaus o voi viitata ’’erääseen”, ’’yhteen” tai ’’joihinkin” suoritusmuotoihin useissa kohdis- o sa tekstiä, tämä ei välttämättä tarkoita, että kukin viittaus on tehty samoihin g suoritusmuotoihin, tai että tietty piirre soveltuisi ainoastaan yhteen suoritus-
CL
30 muotoon. Eri suoritusmuotojen yksittäiset piirteet voidaan yhdistää tuottamaan muita suoritusmuotoja.
LO
§ Objektin ilmaiseminen ja seuraaminen prosessoidaan tyypillisesti laitteissa, joilla on korkeat prosessointikyvyt, kuten tietokoneissa. Kuitenkin tänä päivänä asiakkaiden vaatimukset digitaalikameroille ja matkapuhelimille 35 ovat kasvamassa, ja tämän vuoksi on toivottavaa, että teknologiaa objektin 3 ilmaisemiseen voidaan soveltaa myös laitteissa, joilla on rajalliset prosessointikyvyt, kuten matkapuhelimissa. Keksinnön mukaista ratkaisua kuvan ilmaisuun voidaan soveltaa laitteissa, joilla on alhaiset prosessointikyvyt.
Kuvio 1 esittää digitaalisen kuvan 100. Kuva voidaan rakentaa 5 useista pikseleistä 102A-102C (tästä eteenpäin 102). Digitaalinen kuva 100 voi käsittää tuhansia pikseleitä 102. Digitaalinen kuva 100 voidaan konstruoida esimerkiksi 1920x1080 pikselistä, kuten huipputeknisissä teräväpiirtokuvissa, missä arvot viittaavat pikselien 102 lukumäärään horisontaali- ja vertikaali-tasoissa, tässä järjestyksessä. Toisin sanoen, pikselien 102 lukumäärä digitaa-10 lisessa kuvassa 100 voi määrittää digitaalisen kuvan 100 resoluution. Mitä suurempi pikselien 102 lukumäärä on, sitä tarkempi digitaalisen kuvan 10 resoluutio on.
Digitaalinen kuva 100 voi lisäksi käsittää objektin 104, kuten ihmiskasvot. Objekti 104 voi luonnollisesti olla myös muu kuin ihmiskasvot. 15 Objekti 104 voi siis olla mikä tahansa objekti, joka on näkyvissä digitaalisesta kuvasta 100. Objekti 104 voi käsittää tiettyjä objektipiirteitä 106. Objektipiirteitä 106 voidaan etsiä objektin ilmaisun aikana. Esimerkinomainen objektipiirre 106, tapauksessa, jossa objekti 104 on ihmiskasvot, voi olla silmä, nenä, suu, korva, hius, etäisyys silmien välillä, jne. Kun objekti 104 on esimerkiksi jalka, 20 objektipiirre 106 voi olla esimerkiksi jalan leveys tai pituus.
Yleisesti ottaen objektipiirre 106 voi olla mikä tahansa pikselikombinaatio, joka edustaa objektia 104. Objektipiirre 106 ei siis välttämättä ole mikään objektin 104 konkreettinen osa kuten silmä, mutta objektipiirre 104 voi esiintyä jos tietyt pikselit omaavat tietyt ominaisuudet. 25 Nämä ominaisuudet voivat olla opittuja ennen objektin ilmaisuprosessia.
Objektipiirre 106 voi sijaita tietyssä kohtaa digitaalista kuvaa 100 o tai objektia 104. Esimerkiksi jos ilmaistava objektipiirre 106 on silmä, niin silloin cv ^ objektipiirre 106 voi ympäröidä pikseliä 108. Siten pikseli 108 voi olla sopiva ° paikka aloittaa objektipiirteen 106 etsintä. Lisäksi objektin havainnointialue ja ° 30 kuvan resoluutio voidaan määrittää etsittävän objektin koon perusteella.
| Erittäin yleinen objektin ilmaisulaitteen 200 arkkitehtuuri näytetään co kuviossa 2 keksinnön erään suoritusmuodon mukaisesti. Kuvio 2 esittää oo g ainoastaan elementit ja toiminnalliset kokonaisuudet, jotka vaaditaan o keksinnön erään suoritusmuodon mukaisen objektin ilmaisemisen ymmärtä- ^ 35 miseksi. Muut komponentit on poistettu yksinkertaisuuden vuoksi. Elementtien ja toiminnallisten kokonaisuuksien implementaatio voivat vaihdella kuviossa 2 4 esitetystä. Kuviossa 2 esitetyt kytkennät ovat loogisia kytkentöjä, ja oikeat fyysiset kytkennät voivat olla erilaisia. Alan ammattilaiselle on selvää, että objektin ilmaisulaite 200 voi käsittää myös muita toimintoja ja rakenteita.
Laite 200 objektin ilmaisemiseksi useasta pikselistä muodoste-5 tusta digitaalisesta kuvasta voi käsittää prosessorin 202. Prosessori 202 voi olla implementoitu erilliselle digitaaliselle signaaliprosessorille, joka on varustettu soveltuvalla ohjelmistolla, joka on sulautettu tietokoneluettavaan mediaan, tai erilliselle logiikkapiirille, kuten sovelluskohtaiselle mikropiirille (ASIC). Prosessori 202 voi käsittää rajapinnan, kuten tietokoneportin, 10 kommunikaation tarjoamisen vuoksi.
Prosessori 202 voi generoida harmaasävykuvan digitaalisesta kuvasta. Harmaasävykuvassa kunkin pikselin arvo on yksi näyte, joka edustaa informaatiota pikselin intensiteetistä. Harmaasävykuvat muodostuvat useista harmaan sävyistä, jotka vaihtuvat heikoimman intensiteetin mustasta 15 vahvimman intensiteetin valkoiseen. Keksinnön erään suoritusmuodon mukaisesti objektipiirteet voidaan etsiä suoraan harmaasävykuvasta ilman erillistä luminanssin vaihtelun normalisointia. Tunnetun tekniikan mukaisissa ratkaisuissa normalisointi tarvitaan ennen objektipiirteen etsintää.
Kuitenkin keksinnön erään suoritusmuodon mukaisesti, kuvaa ei 20 tarvitse muuntaa harmaasävyyn ennen objektin ilmaisuprosessia. Objektin ilmaisu voidaan suorittaa myös värilliselle digitaaliselle kuvalle, tai värikanavia voidaan yhdistää joillain muilla keinoin yhden tai useamman eri esityksen tuottamiseksi kuvan sisällöstä.
Viitaten kuvioihin 2 ja 3, prosessori 202 voi lisäksi valita 25 naapuruston 300 kullekin tarkastelun alla olevalle kuvan pikselille 108, missä kukin naapurusto 300 on tunnetun kokoinen ja muotoinen. Kuvio3 kuvaa o naapuruston 300 eri muotoja. Kuviossa 3A naapurusto 300 muodostuu c\i + yhdeksästä pikselistä, eli tarkastelun alla olevalla pikselillä 108 on kahdeksan ^ naapuria. Naapurusto kuviossa 3A on suhteellisen säännöllinen ja yleisesti ° 30 nähty kuvankäsittelyssä. Keksinnön erään suoritusmuodon mukaisesti £ naapuruston ei kuitenkaan tarvitse olla säännöllisen kokoinen. Naapurusto 300 ^ voi siis olla mielivaltaisen kokoinen ja muotoinen. Tämä näytetään kuvioilla 3B- $ 3D, joissa naapurustolla 300 on monia esimerkinomaisia muotoja ja kokoja.
00 o Yhteistä kaikille kuvioissa 3A-3D kuvatuille naapurustoille 300 on se, että ne ^ 35 edustavat ympäristöä tarkkailun alla olevalle pikselille 108. Pikselin 108 ei tarvitse olla osana naapurustoa 300, kuten esitetty kuviossa 3C vasemmalle 5 kallistetuin diagonaalisin viivoin. Yleisesti ottaen naapuruston 300 koko ja muoto eivät ole rajoitettuja millään muotoa, ja naapurusto voidaan valita sen mukaan millaista objektipiirrettä etsitään. Lisäksi, se voidaan oppia ennen objektin ilmaisuprosessia.
5 Kullakin naapuruston 300 pikseleistä voi olla yksi arvo, joka edustaa informaatiota pikselin intensiteetistä. Toisin sanoen, pikseliarvo voi olla yksi näyte, joka edustaa pikselin intensiteettiarvoa. Eli pikseliarvo voi olla skalaari, joka edustaa pikselin intensiteettiä. Prosessori 202 voi sitten lukea pikseliarvot kustakin naapurustosta 300. Prosessori 202 voi lukea pikseliarvot 10 datatallenteesta tai kuvatiedostosta. Vaihtoehtoisesti prosessori 202 voi lukea pikseliarvot visuaalisesti tutkimalla kuvaa kun prosessori 202 on varustettu sensorilla, joka pystyy visuaalisesti tutkimaan kuvaa.
Laitteen 200 prosessori 202 voi lisäksi valita ainakin yhden kerroinjoukon kunkin naapuruston painottamiseksi siten, että kunkin 15 naapuruston kutakin pikseliä painotetaan ainakin yhdellä kertoimella. Eli naapuruston G pikselien lukumäärä ja kerroinjoukon A=[ai, a2, ..., an] kertoimien lukumäärä, missä n on naapuruston G pikselien lukumäärä, voivat olla samat. Samalla tavalla naapuruston G pikseliarvot voidaan esittää [gi, g2, . 9n] 20 Ainakin yhden kerroinjoukon valinta voidaan toteuttaa siten, että naapuruston paikallinen rakenne otetaan huomioon, ei ainoastaan naapuruston kokoa ja muotoa vaan myös naapuruston pikseliarvot. Eli sen lisäksi, että valitaan naapuruston koko ja muoto etsittävän piirteen koon ja muodon perusteella, kerroin a-ι voidaan valita siten, että se ottaa vastaavan gi:n ja 25 naapuruston pikseliarvot [g2, ...., gn] huomioon. Eli kertoimet A voidaan valita siten että kerroinjoukko A korostaa tiettyjä piirteitä. Tyypillisesti kukin o kerroinjoukko A ilmaisee tiettyä muotoa tai tiettyä taajuuskaistaa naapurus- + tossa. Kertoimet [ai, a2, ..., an] voivat näyttää mielivaltaisilta, mutta oikein ^ valittuna kombinaatio [ai, a2, ..., an] voi muodostaa voimakkaan kuvaajan.
° 30 Tällä tavalla prosessori 202 voi vaikuttaa objektipiirteen etsinnässä kerätyn £ datan paikallisuuteen muuttamalla naapuruston 300 kokoa ja muotoa. Paikal- co lisen informaation etu on siinä, että se on kestävää ja piittaamaton objektin g luminanssin vaihtelulle.
00 o Prosessori 202 voi sitten etsiä ainakin yhden objektipiirteen ole- ^ 35 massaoloa kussakin tarkastelun alla olevassa pikselissä perustuen ainakin yhteen kunkin naapuruston painotettujen pikseliarvojen kombinaatioon. Eli 6 prosessori 202 voi määrittää esiintyykö tietty objektipiirre kuten silmä tarkastelun alla olevan pikselin naapurustossa. Toisin sanoen kuvassa oleva objekti luokitellaan ja etsitään pikselin naapurustosta G löydettyjen objekti-piirteiden avulla. Keskustellaan yksityiskohtaisesti kuinka ainakin yksi 5 kombinointi suoritetaan.
Oletetaan, että naapurusto G koostuu yhdeksästä pikselistä kolme kertaa kolme -muodostelmassa, ensimmäinen kerroinjoukko Ai=[ai,i, a-1,2, ..., ai,g]=[1 0 0,5 0 -1 1 0 0 0] ja pikseliarvot G ovat annettu [gi, g2, ..., gg]=[5 6 8 7 9 4 6 0 0]. Kuvio 4A kuvaa Ai:n, G:n ja kuinka painotettujen pikseliarvojen 10 kombinointi suoritetaan. Kuten voidaan nähdä kuviosta 4A, pikseliarvot G
voidaan kertoa Ai:llä, jotta saadaan painotetut pikseliarvot W=[wi,i, wi,2.....
wi,g]. Lisäksi painotettujen pikseliarvojen W=[wi,i, wi,2.....wi,g] kombinaatio voi olla summa painotetuista pikseliarvoista W=[wi,i, wi,2..... wi,g].
Painotettujen pikseliarvojen W=[wi,i, wi,2.....wi,g] kombinaatio ei kuitenkaan n 15 ole rajoitettu summaamiseen, eli kaavaan ^wu , vaan kombinaatio voi olla /=1 mikä tahansa painotettujen pikseliarvojen W=[wi,i, wi,2.....wi,g] aritmeettinen operaatio.
Keksinnön erään suoritusmuodon mukaisesti kuvion 2 prosessori 202 voi määrittää ensimmäisen vertailutuloksen ensimmäisen kynnysarvon T 20 ja painotettujen pikseliarvojen kombinaation välillä, jotta saadaan ainakin yksi informaatiobitti b kullekin tarkastelun alla olevalle pikselille, missä ainakin yksi informaatiobitti b edustaa tietyn objektipiirteen olemassaoloa tarkastelun alla olevassa pikselissä, kuten kuviossa 4A näytetään. Esimerkiksi kun painotettujen pikseliarvojen kombinaation tulos on suurempi kuin ensimmäinen kynnys-25 arvo T, ensimmäisen informaatiobitin bi arvo voi olla 1. Samankaltaisesti, kun 5 painotettujen pikseliarvojen kombinaation tulos on pienempi kuin ensimmäinen C\] , kynnysarvo T, ensimmäisen informaatiobitin bi arvo voi olla 0. Ensimmäinen 9 kynnysarvo T voi edustaa intensiteetin kynnysarvoa ja se voidaan määrittää 0 ennen objektin ilmaisuprosessia esimerkiksi oppimalla, g 30 Näin ollen kukin naapurusto G voi tarjota yhden informaatiobitin <0 kullekin kerroinjoukolle. Käyttämällä useaa kerroinjoukkoa [Ai, A2, ..., Am]
OO
g voidaan saada usea informaatiobitti samalle naapurustolle, eli vektori B
o informaatiobiteistä [£>1, b2, ..., bm]. Yhtä kerroinjoukkoa voidaan käyttää yhden ^ objektipiirteen etsimiseen. Toinen kerroinjoukko voidaan valita auttamaan 7 toisen objektipiirteen etsinnässä tai sannan objektipiirteen etsinnässä eri ympäristötekijöiden kuten luminanssin vallitessa.
Tämä kuvataan kuviossa 4B, jossa naapurusto G on painotettu kertomalla G usealla kerroinjoukolla [Ai, A2..... Am] johtaen useaan 5 painotettujen pikseliarvojen joukkoon [W^ W2.....Wm]. Kukin A, koostuu kolme kertaa kolme -matriisista, joka sisältää kertoimet [a,,i, a,,2.....a,,9]. Samanlaiset merkinnät soveltuvat myös painotettuun kerroinjoukkoon W,. Kutakin painotetun kerroinjoukon kombinaatiota voidaan verrata ensimmäiseen kynnysarvoon T. Kukin vertailutulos voi tuottaa yhden informaatiobitin, joka 10 edustaa tietyn objektipiirteen olemassaoloa tarkastelun alla olevassa pikselissä, kuten näytetään kuviossa 4B. Toisin sanoen, naapuruston ja siten tarkastelun alla olevan pikselin binaarinen esitys voidaan antaa usealla binaariarvolla. Esimerkiksi jos kerroinjoukkojen lukumäärä on m, sitten informaatiobittien vektori B on [bi, b2..... bm]· Toisin sanoen, m:n bitin 15 informaatio voidaan tarjota tarkastelun alla olevan pikselin naapurustolle G. Siten, jos m=8, G voidaan esittää 28=256:n eri binaarikombinaatiolla. Kukin binaarikombinaatio edustaa tarkasteltavan pikselin naapuruston eri rakenteita ja tarkasteltavan pikselin naapuruston eri objektipiirteitä. Yleisesti ottaen, kerroinjoukkojen [Ai, A2, ..., Am] arvot voidaan valita mielivaltaisesti. Tämä 20 mahdollistaa tarkemman objektipiirteiden luokittelun ja ilmaisemisen verrattuna tunnetun tekniikan ratkaisuihin, kuten local binary pattern -tekniikkaan. Local binary pattern -tekniikassa tarkasteltavan pikselin arvoa verrataan kaikkiin naapuripikseleihin ja vertailutuloksia käytetään sarakkeina tai riveinä matriisissa muodostamaan matriisin, joka edustaa naapurustoa ja käsittää 25 kerroinjoukon. Tämän johdosta kerroinjoukon arvot ovat rajoittuneet ainoastaan muutamaan mahdolliseen arvoon ja ovat pääsääntöisesti nollia, o Lisäksi, koska naapuripikselit tyypillisesti riippuvat toisistaan, tuloksena saatu
CM
^ kerroinjoukko voi olla hyvin riippuvainen toisistaan. Tämän vuoksi ° kerroinjoukko ei tarjoa riittävästi informaatiota luotettavan objektipiirteen 0 30 etsinnän suorittamiseksi.
1 Yksinkertaisien kertoimien valinta voi helpottaa laskennallista cd kompleksisuutta merkittävästi. Tällaiset kertoimet voivat muodostua yhdestä 00 g +1 -kertoimesta, yhdestä -1 -kertoimesta ja useasta nollasta. Kompleksisten o kertoimien, jotka käsittävät mitä tahansa numeroita, käyttö voi mahdollistaa ^ 35 objektipiirteiden olevan erottelukykyisempiä ja siten objektin ilmaisun ja luokittelun tarkkuuden olevan parempi kuin jos käytettäisiin yksinkertaisia 8 kertoimia. Lisäksi kerroinjoukon sopiva valinta voi mahdollistaa informaatio-bittien B olevan riippumattomia toisistaan ja/tai kestäviä kuvan sumentumiselle.
Siten, keksinnön erään suoritusmuodon mukaisesti, siinä tapauksessa, että on useita kerroinjoukkoja, kerroinjoukot voivat olla 5 korreloimattomia. Eli kerroinjoukot voivat olla riippumattomia toisistaan. Tällä tavalla kukin kerroinjoukoista [Ai, A2, ..., Am] voi ottaa koko naapuruston huomioon vähentämällä nollakertoimien lukumäärä kerroinjoukoissa. Tämä johtaa erottelukykyisempien objektipiirteiden löytymiseen kuvasta. Toisin sanoen, riippumattomien kerroinjou kkojen käyttö voi mahdollistaa tarkemman 10 objektien ilmaisun samalla määrällä objektipiirteitä kuin tunnetun tekniikan ratkaisuissa, tai saman ilmaisutarkkuuden pienemmällä määrällä objektipiirteitä kuin tunnetun tekniikan ratkaisuissa. Esimerkiksi ainakin yksi objektipiirre, jossa on pienin määrä käyttökelpoista informaatiota ja mikä on saatu korreloimattomilla (riippumattomilla) kerroinjoukoilla A, voidaan hylätä 15 käytettävien objektipiirteiden joukosta, siten säästäen muistikapasiteettia ja nopeuttaen objektin ilmaisuprosessia.
Hankkiakseen riippumattomia kerroinjou kkoja [Ai, A2, ..., Am], prosessori 202 voi valkaista pikselin naapurustoa edustavan matriisin, jotta saadaan korreloimattomia matriisielementtejä, missä matriisi on hankittu 20 käyttäen local binary pattern -tekniikkaa. Matriisi voi muodostua useasta kerroinjou kosta [Ai, A2, ..., Am], joita käytetään sarakkeina tai riveinä matriisissa. Kuten aiemmin selitetty, local binary pattern -tekniikka voi tuottaa kerroinjoukkoja, jotka ovat riippuvaisia toisistaan ja täten eivät välttämättä tarjoa riittävästi dataa, jotta saataisiin tarpeellinen määrä erottelukykyisiä 25 piirteitä. Valkaisemalla matriisi kerroinjoukot voidaan saada riippumattomiksi (korreloimattomiksi) toisistaan. Lisäksi, valkaisuprosessin jälkeen, kukin 5 kerroinjoukko voi ottaa koko naapuruston huomioon kuten aiemmin selitetty.
(M
^ Tämän johdosta prosessori 202 voi valita ainakin yhden kerroinjoukon ° valkaistusta matriisista. Valittua ainakin yhtä kerroinjou kkoa voidaan soveltaa 0 30 objektin ilmaisuprosessiin. Valkaistava matriisi voidaan kuitenkin hankkia myös 1 muilla keinoin kuin local binary pattern -tekniikan tekniikalla. Matriisi voidaan co esimerkiksi oppia ennen objektin ilmaisuprosessia siten, että matriisi voi 00 g korostaa tiettyjä objektipiirteitä.
o Modified census transform -tekniikassa, joka on samankaltainen ^ 35 menetelmä kuin local binary pattern -tekniikka, verrataan naapuruston pikseliarvoja naapuruston pikseliarvojen keskiarvoon. Tämä tuottaa yhdeksän 9 vertailutulosta kolme kertaa kolme -naapurustossa. Valkaisemalla vertailun tulosmatriisi, joka käsittää nämä yhdeksän bittiä, sama informaatio voidaan hankkia vähemmällä määrällä bittejä, siten säästäen kapasiteettia.
Prosessori 202 voi valkaista matriisin käyttämällä tietoa 5 pikseliarvojen G riippuvuudesta naapurustossa, joka tieto on hankittu tietyistä objektikuvista tai kuvamalleista. Toisin sanoen, tieto voidaan hankkia oppimisprosessissa ennen objektin ilmaisuprosessia. Pikseliarvojen välinen riippuvuus voidaan myös määrittää kaukaisille pikseleille, ei ainoastaan vierekkäisille pikseleille. Lisäksi, pikseliarvojen välinen riippuvuus voidaan 10 määrittää useille pikseleille, ei ainoastaan kahden pikselin välille.
Lisäksi, prosessori 202 voi valkaista matriisin käyttämällä Markov-mallia matriisin. Markov-mallin mukaisesti pikseliarvojen välinen riippuvuus liittyy niiden keskinäisiin etäisyyksiin.
Sen jälkeen kun painomatriisi A on valkaistu, saadut informaatio-15 bitit [bi,...bm] voivat olla riippumattomia toisistaan. Siten matriisi voi tuottaa enemmän informaatiota kuvasta valkaisun jälkeen. Kun prosessori 202 on hankkinut informaation liittyen pikseliarvojen riippuvuuteen, se voi käyttää informaatiota valkaistakseen matriisin, eli dekorreloidakseen saadut piirteet.
Vaihtoehtoisesti prosessori 202 voi käyttää local phase 20 quantization -tekniikkaa hankkiakseen ainakin yhden kerroinjoukon. Local phase quantization -tekniikka hyödyntää vaiheinformaatiota, joka on laskettu paikallisesti kullekin kuvan paikalle. Matalataajuisten kertoimien vaiheet ovat yhtenäisesti kvantisoidut. Keksinnön erään suoritusmuodon mukaisesti näitä kvantisoituja arvoja voidaan käyttää suoraan, ilman tarvetta laskea 25 histogrammeja sellaisille kertoimille. Local phase quantization -tekniikalla hankitut kerroinjoukot voidaan myös dekorreloida tavoilla, joita on aiemmin o selitetty, riippumattomien kerroinjoukkojen hankkimiseksi.
CM
^ Objektin ilmaisussa digitaalisesta kuvasta, kuva voidaan ^ prosessoida useassa koossa kunnes kuva löydetään. Esimerkiksi kun ° 30 alkuperäinen kuva muodostuu 320 kertaa 240 pikselistä, seuraava askel voi | olla pienentää kuvan kokoa 256 kertaa 192 pikseliin. Ainakin yhtä co objektipiirrettä voidaan etsiä useasta pikselistä kaikilla kuvan ko’oilla.
00 g Samankaltaisesti kuva voidaan prosessoida osissa. Etsintäikkunan o koko voi riippua esimerkiksi etsintäprosessin kohteena olevan objektin koosta.
^ 35 Esimerkiksi, kun etsitään kasvoja digitaalisesta kuvasta, etsintäikkunan resoluutio voi olla 20 kertaa 20 pikseliä, kun taas kukan etsintä voidaan 10 toteuttaa pienemmällä etsintäikkunalla, esimerkiksi etsintäikkunalla, jonka koko on viisi kertaa viisi pikseliä. Etsintäikkunan paikkaa digitaalisessa kuvassa voidaan vaihtaa. Tällä tavalla objekti voi olla missä tahansa kohtaa digitaalista kuvaa, ei ainoastaan esimerkiksi keskellä digitaalista kuvaa.
5 Viitaten kuvioon 5, kuvion 2 prosessori 202 voi määrittää pikselin paikan I kullekin tarkastelun alla olevalle pikselille etsintäikkunassa 500 ja informaatiobittien [bi,i, bi,2, ..., bi,m] vektorin Bi naapuruston ympäröimälle pikselille. Esimerkiksi kuviossa 5 pikselit paikoissa 1=1,6 ja 8 ovat tarkastelun alla ja siten informaatiobittien vektorit Bi, B6ja Be lasketaan niille.
10 Hakutaulukkoa (LUT) 502 voidaan käyttää ainakin yhtä informaatiobittiä tietyssä pikselissä I edustavien muuntokertoimien h(B,l) tallennukseen. Hakutaulukko 502 voidaan tallettaa kuvion 2 muistiyksikköön 204. Muuntokerroin voi olla skalaari, joka edustaa ainakin yhtä informaatiobittiä tietyssä paikassa, esimerkiksi vektori Bi sijainnissa 1=1, jossa vektori Bi 15 käsittää ainakin yhden informaatiobitin [bi,i, bi,2, ..., bi,m]. Muuntokerrointa h(B,l) voidaan käyttää määrittämään onko objekti kuvassa vai ei. LUT 502 voidaan oppia ennen objektin ilmaisuprosessia. Täten ainakin yhtä informaatiobittiä tietyssä pikselissä I edustavat muuntokertoimet h(B,l) voidaan oppia.
20 Keksinnön erään suoritusmuodon mukaisesti prosessori 202 voi lisäksi määrittää toisen vertailutuloksen toisen ennalta määrätyn kynnysarvon P ja kaikkien tarkasteltavien pikseleiden yli suoritetun ainakin yhden informaatiobitin kombinaation välillä, missä toinen vertailutulos edustaa informaatiota liittyen objektin olemassaoloon kuvassa. Toinen ennalta määrätty 25 kynnysarvo P voi olla määritetty esimerkiksi oppimalla ennen objektin ilmaisuprosessia. Ainakin yhden informaatiobitin kombinointi kaikkien o tarkasteltavien pikseleiden yli voidaan toteuttaa summaamalla kaikki
CM
^ muuntokertoimet h(B,l), jotka edustavat ainakin yhtä informaatiobittiä tietyssä ° pikselissä I. Kuvion 2 prosessori 202 voi näin lukea muuntokertoimet h(B,l) ° 30 hakutaulukosta 502 ennen ainakin yhden informaatiobitin kombinaation | määrittämistä kaikkien tarkasteltavien pikseleiden yli. Prosessori 202 voi lisäksi to soveltaa luettuja muuntokertoimia h(B,l) ainakin yhden informaatiobitin 00 g kombinaation määrittämiseen kaikkien tarkasteltavien pikseleiden yli. Kuviossa o 5 k edustaa tarkasteltavien pikseleiden lukumäärää. Koska kertoimet h(B,l) ^ 35 edustavat ainakin yhtä informaatiobittiä tietyssä pikselissä I, voidaan johtaa, 11 että kaikkien muuntokertoimien h(B,l) summaus edustaa ainakin yhden informaatiobitin kombinaatiota kaikkien tarkasteltavien pikseleiden yli.
Ainakin yhden informaatiobitin kombinaatio kaikkien tarkasteltavien pikseleiden yli ei kuitenkaan ole rajoitettu muuntokertoimien h(B,l) sum-5 maukseen. Itse asiassa ainakin yhden tietyn pikselisijainnin I informaatiobitin muuntamista muuntokertoimeksi h(B,l) ei välttämättä vaadita. Sen sijaan ainakin yhden informaatiobitin kombinaatio kaikkien tarkasteltavien pikseleiden yli voidaan hankkia prosessoimalla suoraan tätä ainakin yhtä informaatiobittiä kussakin tarkastelun alla olevassa pikselissä. Yleisesti ottaen, kombinaatio voi 10 olla ainakin yhden informaatiobitin mikä tahansa aritmeettinen operaatio kaikkien tarkasteltavien pikseleiden yli.
Toinen vertailutulos voi edustaa objektin olemassaoloa kuvassa. Eli jos kaikkien tarkasteltavien pikseleiden yli suoritetun ainakin yhden informaatiobitin kombinaation tulos on suurempi kuin kynnysarvo P, niin etsintä-15 prosessin kohteena oleva objekti voi olla olemassa kuvassa. Kuitenkin, jos kaikkien tarkasteltavien pikseleiden yli suoritetun ainakin yhden informaatiobitin kombinaation tulos on pienempi kuin kynnysarvo P, niin etsintäproses-sin kohteena olevaa objektia ei välttämättä ole olemassa kuvassa.
Kuitenkin prosessi objektin ilmaisemiseen digitaalisesta kuvasta 20 voi sisältää toisen vertailutuloksen suorittamisen iteratiivisesti eri määrällä ja kombinaatioilla tarkastelun kohteena olevia pikseleitä. Esimerkiksi jos toinen vertailutulos neljällä tarkastelun kohteena olevalla pikselillä johtaa johtopäätökseen, jonka mukaan objekti on olemassa kuvassa, niin kuvion 2 prosessori 202 voi valita ainakin yhden lisäpikselin tai eri tarkastelun kohteena olevan pik-25 selijoukon, jossa eri pikselijoukko voi tai ei voi sisältää yhtään näistä neljästä pikselistä, ja suorittaa toisen vertailun uudestaan. Eli prosessori 202 voi valita o täysin uuden pikselijoukon, joka käsittää tunnetun määrän pikseleitä toisen
CM
^ vertailun suorittamiseksi uudelleen. Tällä tavalla objektin olemassaolo voidaan ° määrittää ennalta määrätyllä tarkastelun alla olevien pikselien lukumäärällä ja ° 30 luotettavia tuloksia voidaan saada.
£ Lisäksi, jos toinen vertailutulos ennalta määrätyllä lukumäärällä cd pikseleitä johtaa johtopäätökseen, että objekti ei ole kuvassa, objektin il- 00 g maisuprosessi voidaan keskeyttää varhaisessa vaiheessa, näin säästäen ku- o vion 2 laitteen 200 laskentakapasiteettia. Keksinnön erään suoritusmuodon ^ 35 mukaisesti prosessori voi hyväksyä, että objekti ei ole kuvassa kun ennalta 12 määrätty lukumäärä toisistaan eroavia toisia vertailuja eivät ole objektin olemassaolon puolesta.
Lopullinen hyväksyminen objektin olemassaololle kuvassa voidaan suorittaa kun usea toinen vertailu usealla etsintäikkunalla on johtanut 5 johtopäätökseen, että objekti on kuvassa. Täten, keksinnön erään suoritusmuodon mukaisesti prosessori 202 voi hyväksyä, että objekti on kuvassa kun ennalta määrätty lukumäärä toisistaan eroavia toisia vertailuja ovat objektin olemassaolon puolesta.
Yleisesti ottaen, prosessori 202 voi varmistaa objektin 10 olemassaolon digitaalisessa kuvassa perustuen ainakin yhden objektipiirteen olemassaolon etsintään ennalta määrätyssä lukumäärässä pikseleitä. Täten prosessori 202 voi ilmaista objektin digitaalisesta kuvasta. Varmistuksen tulos, eli ilmaisu, voi olla, että objekti on kuvassa tai että objekti ei ole kuvassa. Lisäksi varmistuksen tulos voi tuottaa lisäinformaatiota, kuten objektin sijainnin 15 kuvassa, objektin koon ja suunnan, ilmaisun luotettavuuden, jne.
Yksi kerroinjoukko A=[ai, a2..... an] tiettyjen objektipiirteiden ilmaisuun voidaan oppia ennen objektin ilmaisua. Oppimisprosessissa prosessori 202 voi valita digitaalisen kuvan, joka sisältää tunnetun objektin, ja määrittää kerroinjoukon A=[ai, a2, ..., an] naapuruston G kunkin pikseliarvon 20 painottamiseksi perustuen valittuun kuvaan siten, että sen jälkeen kun kuvan naapuruston G pikseliarvot [gi, g2, ..., gn] ovat painotettu ennalta määrätyllä kerroinjoukolla A=[ai, a2, ..., an], painotettujen pikseliarvojen [wi, W2, ..., wn] kombinaatio edustaa tiettyä objektipiirrettä kuvassa. Lisäksi kun määritetään useita kerroinjoukkoja, kerroinjoukot voivat olla riippumattomia toisistaan.
25 Oppiminen voidaan suorittaa siten, että kerroinjoukon määrittäminen suoritetaan joukolle digitaalisia kuvia, joissa on tunnettu objekti, 5 ja joukolle kunkin digitaalisen kuvan resoluutioita. Esimerkiksi sama kuva, joka
(M
^ sisältää saman tunnetun objektin, voidaan prosessoida useaan kertaan eri ° resoluutioilla ja eri ympäristötekijöiden, kuten luminanssin, vaikutuksen ° 30 alaisena. Tällä tavalla kerroinjoukko voidaan määrittää eri resoluutioille ja £ kuville, jotka ovat eri ympäristötekijöiden vaikutuksen alaisena. Täten sopiva cg kerroinjoukko A=[ai, a2, ..., an] tietylle objektipiirteelle digitaalisessa kuvassa g voidaan oppia ennen objektin ilmaisuprosessia.
00 g Lisäksi, tunnetun objektin sisältävien usean kuvan valitsemisen ™ 35 lisäksi oppimisprosessi voi käsittää usean sellaisen kuvan valinnan, joissa ei ole tiettyä objektia. Tällöin oppimisprosessi voi käsittää sellaisten 13 kerroinjoukkojen A etsinnän, jotka voivat, sen jälkeen kun naapuruston pikseliarvot on painotettu kerroinjoukoilla, paljastaa tiettyjä objektipiirteitä, jotka objektipiirteet voivat erottaa kuvat, joissa on tunnettu objekti, kuvista, joissa ei ole objektia. Täten opettamalla objektin ilmaisuprosessille erottelukykyiset 5 kerroinjoukot A kerroinjoukkoja voidaan käyttää objektin ilmaisuprosessin aikana.
Samankaltaisesti ensimmäinen ja toinen kynnysarvo T ja P, tässä järjestyksessä, voidaan opettaa ennen objektin ilmaisua. Esimerkiksi oletettaessa tietty kuva, jossa on tietty objekti, ensimmäinen kynnysarvo T voidaan 10 määrittää siten, että kun verrataan ensimmäistä kynnysarvoa T ja painotettujen pikseliarvojen kombinaatiota, vertailutulos tuottaa luotettavan tuloksen, joka edustaa objektipiirteen olemassaoloa kuvassa. Samankaltaisesti kerroinjoukkojen määrittäminen voidaan suorittaa siten, että kerroinjoukko tekee löydetystä objektipiirteestä erottelukykyisemmän kuin se olisi ilman naapuruston pik-15 seliarvojen painottamista kerroinjoukolla.
Yleisesti ottaen hyvin tunnettuja oppimisalgoritmeja, kuten Ada-Boost -algoritmia, voidaan soveltaa määritettäessä soveltuvimmat arvot kaikille parametreille, jotka tulee määrittää ennalta.
Prosessori 202 voi lisäksi seurata objektia videokehysten sekvens-20 sissä perustuen objektin varmistukseen kussakin videokehyksessä. Tämä varmennus voidaan suorittaa rajoitetulle kuvalle. Ainoastaan mittakaavat ja spatiaaliset sijainnit lähellä edellisiä ilmaisuja tarvitsee etsiä. Tämä tekee seurannasta nopeampaa kuin täysin kattavasta etsinnästä. Seuraamisen aikana videokehys voidaan jakaa pienempiin ikkunoihin siten, että tietyllä 25 hetkellä vain tietyt ikkunat ovat tarkastelun alla. Ikkuna voidaan prosessoida ilmaistun objektin seuraamiseksi kehyksessä esimerkiksi kaksi kertaa o sekunnissa. Tämä mahdollistaa uusien objektien ilmaisun, jotka uudet objektit cv ^ voivat ilmestyä kuvaan.
° Kun objekti on ilmaistu, sitä voidaan seurata siten, että nykyisen ° 30 kehyksen tarkasteluikkuna määritetään edellisen kehyksen tarkasteluikkunan | perusteella. Eli sijainti, jossa objekti oli edellisessä kehyksessä voi vihjata co siihen, missä sijainnissa objekti on nykyisessä kehyksessä. Tarkasteluikkuna 00 g voi siten olla suurin piirtein samassa paikassa kuin se oli edellisessä kehykses- o sä. Sama pätee tarkasteluikkunan kokoon. Luonnollisesti muita ikkunan kokoja ^ 35 ja sijainteja voidaan ajoittain testata luotettavan objektin ilmaisun ja seuraa misen varmistamiseksi.
14
Kuvio 6 esittää menetelmän objektin ilmaisuun digitaalisesta kuvasta, joka koostuu useasta pikselistä. Menetelmä alkaa vaiheessa 600.
Vaiheessa 602 menetelmä käsittää naapuruston valitsemisen kullekin tarkastelun alla olevalle kuvan pikselille, missä kukin naapurusto on 5 tunnetun kokoinen ja muotoinen, ja kunkin naapuruston pikseliarvojen lukemisen. Naapuruston tunnettu kokoja muoto voidaan oppia ennen objektin ilmaisuprosessia. Myös etsittävän objektipiirteen kokoja muoto vaikuttavat naapuruston koon ja muodon valintaan.
Vaiheessa 604 menetelmä käsittää ainakin yhden kerroinjoukon 10 valitsemisen kunkin naapuruston painottamiseksi siten, että kunkin naapuruston kutakin pikseliä painotetaan ainakin yhdellä kertoimella. Menetelmä voi valita yhden kerroinjoukon yhtä naapurustoa kohti, tai se voi valita useita kerroinjoukkoja kullekin naapurustolle. Valitut kerroinjoukot eri naapurustoille voivat tai eivät voi olla identtisiä.
15 Vaihe 606 voi käsittää ainakin yhden objektipiirteen olemassaolon etsimisen kussakin tarkastelun alla olevassa pikselissä perustuen ainakin yhteen kunkin naapuruston painotettujen pikseliarvojen kombinaatioon. Menetelmä voi etsiä useita objektipiirteitä kuvan eri sijainneista. Menetelmä voi esimerkiksi etsiä yhtä objektipiirrettä yhdestä sijainnista ja toista objektipiirrettä 20 toisesta sijainnista, tai samaa objektipiirrettä useista eri sijainneista.
Menetelmän vaihe 608 käsittää voi objektin olemassaolon varmistamisen digitaalisessa kuvassa perustuen ainakin yhden objektipiirteen olemassaolon etsintään ennalta määrätyssä lukumäärässä pikseleitä. Siten objekti voidaan ilmaista digitaalisesta kuvasta. Varmistuksen tulos eli ilmaisu 25 voi olla, että objekti on kuvassa. Toisaalta tulos voi olla että objekti ei ole kuvassa. Lisäksi varmistuksen tulos voi tuottaa lisäinformaatiota, kuten o objektin sijainnin kuvassa, objektin koon ja suunnan, ilmaisun luotettavuuden,
CVJ
jne. Menetelmä loppuu vaiheessa 610.
^ Kuvio 7 esittää menetelmän objektin olemassaolon hyväksymi- ° 30 seen kuvassa. Menetelmä alkaa vaiheessa 700.
| Menetelmän vaihe 702 käsittää ensimmäisen vertailutuloksen co määrittämisen ensimmäisen kynnysarvon T ja painotettujen pikseliarvojen 00 g kombinaation välillä, jotta saadaan ainakin yksi informaatiobitti b kullekin o tarkastelun alla olevalle pikselille, missä ainakin yksi informaatiobitti b edustaa ^ 35 tietyn objektipiirteen olemassaoloa tarkastelun alla olevassa pikselissä.
15
Vaiheessa 704 menetelmä käsittää toisen vertailutuloksen määrittämisen toisen ennalta määrätyn kynnysarvon P ja kaikkien tarkasteltavien pikseleiden yli suoritetun ainakin yhden informaatiobitin kombinaation välillä, missä toinen vertailutulos edustaa informaatiota liittyen 5 objektin olemassaoloon kuvassa.
Menetelmän vaihe 706 käsittää hyväksymisen, että objekti on kuvassa kun ennalta määrätty lukumäärä toisia vertailuja ovat objektin olemassaolon puolesta. Menetelmä voi kuitenkin päätellä, että objekti ei ole kuvassa kun ennalta määrätty lukumäärä toisistaan eroavia toisia vertailuja 10 eivät ole objektin olemassaolon puolesta. Menetelmä päättyy kohdassa 708.
Keksintö tarjoaa useita etuja. Prosessi objektin ilmaisulle on nopea mahdollistaen reaaliaikaisen seuraamisen. Lisäksi se tarvitsee ainoastaan vähän prosessointi kapasiteettia, mikä tekee sen soveltuvaksi rajoitutun kapasiteetin laitteisiin kuten matkapuhelimiin, jne. Lisäksi objektipiirteet ovat 15 erittäin erottelukykyisiä johtuen kerroinjoukon [Ai, A2..... Am] sopivasta valinnasta.
Lisäksi keksinnön tarjoama ratkaisu ei tarvitse histogrammien laskemista eri objektipiirteille kuvassa, toisin kuin tunnetun tekniikan ratkaisuissa. Tämä merkittävästä vähentää laskennan kestoa, muistikapasiteetin 20 tarvetta, ja tekee ratkaisusta soveltuvan rajoitetun kapasiteetin laitteille. Lisäksi, keksinnön tarjoama ratkaisu ottaa objektin sijainnin kuvassa huomioon tehokkaammin kuin tunnetun tekniikan ratkaisut.
Keksinnön suoritusmuodot voidaan toteuttaa tietokoneohjelmalla prosessorissa keksinnön erään suoritusmuodon mukaisesti. Tietokoneohjelma 25 käsittää käskyt suorittaa tietokoneprosessi objektin ilmaisun ja seuraamisen parantamiseksi. Prosessoriin implementoitu tietokoneohjelma voi toteuttaa o kuvioihin 3-7 liittyvät tehtävät, olematta kuitenkaan rajoitettu niihin.
CVJ
^ Tietokoneohjelma voi olla talletettu tietokoneohjelman jakelu- ° medialle, joka on luettavissa tietokoneella tai prosessorilla. Tietokoneohjelman 0 30 media voi olla esimerkiksi sähköinen, magneettinen, optinen, infrapuna-, tai 1 puolijohdejärjestelmä, -laite tai -siirtomedia, olematta kuitenkaan rajoittunut cd niihin. Tietokoneohjelmamedia voi sisältää ainakin yhden seuraavista: 00 g tietokoneluettavan median, ohjelman tallennusmedian, tallennusmedian, o tietokoneluettavan muistin, satunnaishakumuistin, tyhjennettävän ohjelmoita- ™ 35 van lukumuistin, tietokoneluettavan ohjelmiston jakelu paketin, tietokone- 16 luettavan signaalin, tietokoneluettavan telekommunikaatiosignaalin, tietokone-luettavan printatun materian, ja tietokoneluettavan pakatun ohjelmistopaketin.
Vaikkakin keksintö on kuvattu yllä viitaten esimerkkiin mukana olevan kuvion mukaisesti, on selvää, että keksintä ei ole rajoittunut niihin vaan 5 sitä voidaan modifioida usealla tavalla mukana olevien vaatimusten puitteissa. Lisäksi on selvää alan ammattilaiselle, että kuvattuja suoritusmuotoja voidaan, mutta ei välttämättä tarvitse, yhdistää toisten suoritusmuotojen kanssa useilla tavoilla.
δ
(M
i δ sj- o
X
Χ
CL
CD
00 O) m oo o o
(M

Claims (12)

1. Menetelmä objektin ilmaisemiseksi digitaalisesta kuvasta (100), joka koostuu useasta pikselistä (102), t u n n e 11 u siitä, että menetelmä käsittää: 5 valitaan naapurusto (300) kullekin tarkastelun alla olevalle kuvan pikselille (108), missä kukin naapurusto (300) on tunnetun kokoinen ja muotoinen, ja luetaan kunkin naapuruston (300) pikseliarvot; valitaan ainakin yksi kerroinjoukko valkaistusta matriisista kunkin naapuruston (300) painottamiseksi siten, että kunkin naapuruston (300) ku- 10 takin pikseliä painotetaan ainakin yhdellä kertoimella, missä valkaistava matriisi on hankittu käyttäen yhtä seuraavista: local binary pattern -tekniikka, local phase quantization -tekniikka ja modified census transform -tekniikka; etsitään ainakin yhden objektipiirteen (106) olemassaoloa kussakin tarkastelun alla olevassa pikselissä (108) perustuen ainakin yhteen kunkin 15 naapuruston (300) painotettujen pikseliarvojen kombinaatioon; ja varmistetaan objektin (104) olemassaolo digitaalisessa kuvassa (100) perustuen ainakin yhden objektipiirteen (106) olemassaolon etsintään ennalta määrätyssä lukumäärässä pikseleitä (108).
2. Patenttivaatimuksen 1 mukainen menetelmä, joka lisäksi kä sittää: valkaistaan matriisi käyttämällä tietoa pikseliarvojen riippuvuudesta naapurustossa, joka tieto on hankittu tietyistä objektikuvista tai kuvamalleista. 25
3. Minkä tahansa patenttivaatimuksen 1-2 mukainen menetelmä, o joka lisäksi käsittää: A määritetään ensimmäinen vertailutulos ensimmäisen kynnysarvon O ^ ja painotettujen pikseliarvojen kombinaation välillä, jotta saadaan ainakin yksi ° 30 informaatiobitti kullekin tarkastelun alla olevalle pikselille, missä ainakin yksi £ informaatiobitti edustaa tietyn objektipiirteen (106) olemassaoloa tarkastelun <g alla olevassa pikselissä (108); S määritetään toinen vertailutulos toisen ennalta määrätyn kynnysar- § von ja kaikkien tarkasteltavien pikseleiden yli suoritetun ainakin yhden in- CM 35 formaatiobitin kombinaation välillä, missä toinen vertailutulos edustaa informaatiota liittyen objektin (104) olemassaoloon kuvassa (100); ja hyväksytään, että objekti (104) on kuvassa (100), kun ennalta määrätty lukumäärä toisistaan eriäviä toisia vertailuja on objektin (104) olemassaolon puolesta.
4. Patenttivaatimuksen 3 mukainen menetelmä, joka lisäksi kä sittää: tallennetaan muuntokertoimet, jotka edustavat ainakin yhtä infor-maatiobittiä tietyssä pikselissä, hakutaulukkoon (502); luetaan muuntokertoimet hakutaulukosta (502) ennen ainakin yh-10 den informaatiobitin kombinaation määrittämistä kaikkien pikseleiden yli; ja käytetään luettuja muuntokertoimia määritettäessä ainakin yhden informaatiobitin kombinaatio kaikkien pikseleiden yli.
5. Minkä tahansa patenttivaatimuksen 1-4 mukainen menetelmä, 15 joka lisäksi käsittää: seurataan objektia (104) videokehysten sekvenssissä perustuen objektin (104) varmistukseen kussakin videokehyksessä.
6. Laite (200) objektin (104) ilmaisemiseksi digitaalisesta kuvasta 20 (100), joka koostuu useasta pikselistä (102), t u n n e tt u siitä, että laite käsittää prosessorin (202), joka on järjestettävissä: valitsemaan naapuruston (300) kullekin tarkastelun alla olevalle kuvan pikselille (108), missä kukin naapurusto (300) on tunnetun kokoinen ja muotoinen, ja lukemaan kunkin naapuruston (300) pikseliarvot; 25 valitsemaan ainakin yhden kerroinjoukon valkaistusta matriisista kunkin naapuruston (300) painottamiseksi siten, että kunkin naapuruston (300) o kutakin pikseliä painotetaan ainakin yhdellä kertoimella, missä valkaistava CM ± matriisi on hankittu käyttäen yhtä seuraavista: local binary pattern -tekniikka, ^ local phase quantization -tekniikka ja modified census transform -tekniikka; ° 30 etsimään ainakin yhden objektipiirteen (106) olemassaoloa kussa- £ kin tarkastelun alla olevassa pikselissä (108) perustuen ainakin yhteen kunkin cd naapuruston (300) painotettujen pikseliarvojen kombinaatioon; ja g varmistamaan objektin (104) olemassaolo digitaalisessa kuvassa § (100) perustuen ainakin yhden objektipiirteen (106) olemassaolon etsintään ^ 35 ennalta määrätyssä lukumäärässä pikseleitä (108).
7. Patenttivaatimuksen 6 mukainen laite, jossa prosessori (202) on lisäksi järjestettävissä: valkaisemaan matriisi käyttämällä tietoa pikseliarvojen riippuvuudesta naapurustossa, joka tieto on hankittu tietyistä objektikuvista tai kuvamal-5 leista.
8. Minkä tahansa patenttivaatimuksen 6-7 mukainen laite, jossa prosessori (202) on lisäksi järjestettävissä: määrittämään ensimmäinen vertailutulos ensimmäisen kynnysar-10 von ja painotettujen pikseliarvojen kombinaation välillä, jotta saadaan ainakin yksi informaatiobitti kullekin tarkastelun alla olevalle pikselille, missä ainakin yksi informaatiobitti edustaa tietyn objektipiirteen (106) olemassaoloa tarkastelun alla olevassa pikselissä (108); määrittämään toinen vertailutulos toisen ennalta määrätyn kynnys-15 arvon ja kaikkien tarkasteltavien pikseleiden yli suoritetun ainakin yhden informaatiobitin kombinaation välillä, missä toinen vertailutulos edustaa informaatiota liittyen objektin (104) olemassaoloon kuvassa (100); ja hyväksymään, että objekti (104) on kuvassa (100), kun ennalta määrätty lukumäärä toisistaan eriäviä toisia vertailuja on objektin (104) ole-20 massaolon puolesta.
9. Patenttivaatimuksen 8 mukainen laite, jossa prosessori (202) on lisäksi järjestettävissä: tallentamaan muuntokertoimet, jotka edustavat ainakin yhtä infor-25 maatiobittiä tietyssä pikselissä hakutaulukkoon (502); lukemaan muuntokertoimet hakutaulukosta (502) ennen ainakin o yhden informaatiobitin kombinaation määrittämistä kaikkien pikseleiden yli; ja ^ käyttämään luettuja muuntokertoimia määritettäessä ainakin yh- ° den informaatiobitin kombinaatio kaikkien pikseleiden yli. ° 30
10. Minkä tahansa patenttivaatimuksen 6-9 mukainen laite, jossa cd prosessori (202) on lisäksi järjestettävissä: 00 g seuraamaan objektia (104) videokehysten sekvenssissä perustuen o objektin (104) varmistukseen kussakin videokehyksessä. w 35
11. Laite (200) objektin (104) ilmaisemiseksi digitaalisesta kuvasta (100), joka koostuu useasta pikselistä (102), tunnettu siitä, että laite käsittää: prosessointivälineet naapuruston (300) valitsemiseksi kullekin 5 tarkastelun alla olevalle kuvan pikselille (108), missä kukin naapurusto (300) on tunnetun kokoinen ja muotoinen, ja kunkin naapuruston (300) pikseliarvojen lukemiseksi; prosessointivälineet ainakin yhden kerroinjoukon valitsemiseksi valkaistusta matriisista kunkin naapuruston (300) painottamiseksi siten, että 10 kunkin naapuruston (300) kutakin pikseliä painotetaan ainakin yhdellä kertoimella, missä valkaistava matriisi on hankittu käyttäen yhtä seuraavista: local binary pattern -tekniikka, local phase quantization -tekniikka, ja modified census transform -tekniikka; prosessointivälineet ainakin yhden objektipiirteen (106)olemas-15 saolon etsimiseksi kussakin tarkastelun alla olevassa pikselissä (108) perustuen ainakin yhteen kunkin naapuruston (300) painotettujen pikseliarvojen kombinaatioon; ja prosessointivälineet objektin (104) olemassaolon varmistamiseksi digitaalisessa kuvassa (100) perustuen ainakin yhden objektipiirteen (106) 20 olemassaolon etsintään ennalta määrätyssä lukumäärässä pikseleitä (108).
12. Tietokoneohjelmatuote sulautettuna tietokoneluettavaan tallen-nusmediaan ja käsittäen ohjelmakoodin, joka prosessorilla ajettuna suorittaa minkä tahansa patenttivaatimuksen 1-5 mukaisen menetelmän. 25 δ (M δ sj- o X Χ CL CD 00 O) m oo o o (M
FI20085986A 2008-10-17 2008-10-17 Objektien ilmaiseminen ja seuraaminen digitaalisissa kuvissa FI121901B (fi)

Priority Applications (3)

Application Number Priority Date Filing Date Title
FI20085986A FI121901B (fi) 2008-10-17 2008-10-17 Objektien ilmaiseminen ja seuraaminen digitaalisissa kuvissa
PCT/FI2009/050832 WO2010043771A1 (en) 2008-10-17 2009-10-15 Detecting and tracking objects in digital images
US13/124,409 US8103058B2 (en) 2008-10-17 2009-10-15 Detecting and tracking objects in digital images

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI20085986A FI121901B (fi) 2008-10-17 2008-10-17 Objektien ilmaiseminen ja seuraaminen digitaalisissa kuvissa
FI20085986 2008-10-17

Publications (3)

Publication Number Publication Date
FI20085986A0 FI20085986A0 (fi) 2008-10-17
FI20085986A FI20085986A (fi) 2010-04-18
FI121901B true FI121901B (fi) 2011-05-31

Family

ID=39924629

Family Applications (1)

Application Number Title Priority Date Filing Date
FI20085986A FI121901B (fi) 2008-10-17 2008-10-17 Objektien ilmaiseminen ja seuraaminen digitaalisissa kuvissa

Country Status (3)

Country Link
US (1) US8103058B2 (fi)
FI (1) FI121901B (fi)
WO (1) WO2010043771A1 (fi)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8284258B1 (en) * 2008-09-18 2012-10-09 Grandeye, Ltd. Unusual event detection in wide-angle video (based on moving object trajectories)
FI123982B (fi) * 2009-10-09 2014-01-15 Visidon Oy Kasvojen tunnistaminen digitaalisissa kuvissa
CN102339466B (zh) * 2010-07-15 2016-04-13 韩华泰科株式会社 用于检测具有特定形状的区域的方法和相机
US9870517B2 (en) * 2011-12-08 2018-01-16 Excalibur Ip, Llc Image object retrieval
US8542879B1 (en) 2012-06-26 2013-09-24 Google Inc. Facial recognition
US8457367B1 (en) 2012-06-26 2013-06-04 Google Inc. Facial recognition
US8411909B1 (en) 2012-06-26 2013-04-02 Google Inc. Facial recognition
US8995772B2 (en) * 2012-11-09 2015-03-31 Microsoft Technology Licensing, Llc Real-time face detection using pixel pairs
US8856541B1 (en) 2013-01-10 2014-10-07 Google Inc. Liveness detection
US9589175B1 (en) 2014-09-30 2017-03-07 Amazon Technologies, Inc. Analyzing integral images with respect to Haar features
CN104392431B (zh) * 2014-10-27 2017-09-19 华东师范大学 一种基于图像可变长编码的图像匹配方法
US9881235B1 (en) 2014-11-21 2018-01-30 Mahmoud Narimanzadeh System, apparatus, and method for determining physical dimensions in digital images
US9858498B2 (en) * 2015-09-23 2018-01-02 Qualcomm Incorporated Systems and methods for incremental object detection using dual-threshold local binary pattern operators

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01183793A (ja) * 1988-01-18 1989-07-21 Toshiba Corp 文字認識装置
US5020121A (en) * 1990-08-16 1991-05-28 Hewlett-Packard Company Neighborhood block prediction bit compression
US6215898B1 (en) * 1997-04-15 2001-04-10 Interval Research Corporation Data processing system and method
JP4008093B2 (ja) 1998-03-05 2007-11-14 アンリツ産機システム株式会社 孤立領域判定装置
JP2002271611A (ja) * 2001-03-14 2002-09-20 Fujitsu Ltd 画像処理装置
US7471846B2 (en) * 2003-06-26 2008-12-30 Fotonation Vision Limited Perfecting the effect of flash within an image acquisition devices using face detection
JP4482796B2 (ja) 2004-03-26 2010-06-16 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
EP1910977B1 (en) * 2005-07-29 2016-11-30 Telecom Italia S.p.A. Automatic biometric identification based on face recognition and support vector machines
KR100745981B1 (ko) 2006-01-13 2007-08-06 삼성전자주식회사 보상적 특징에 기반한 확장형 얼굴 인식 방법 및 장치
KR100866792B1 (ko) * 2007-01-10 2008-11-04 삼성전자주식회사 확장 국부 이진 패턴을 이용한 얼굴 기술자 생성 방법 및장치와 이를 이용한 얼굴 인식 방법 및 장치
KR101330636B1 (ko) * 2007-01-24 2013-11-18 삼성전자주식회사 얼굴시점 결정장치 및 방법과 이를 채용하는 얼굴검출장치및 방법
JP4970557B2 (ja) * 2007-03-05 2012-07-11 デジタルオプティックス・コーポレイション・ヨーロッパ・リミテッド デジタル画像取込装置における顔検索及び検出
JP5451302B2 (ja) * 2009-10-19 2014-03-26 キヤノン株式会社 画像処理装置及び方法、プログラム及び記憶媒体
KR101366776B1 (ko) * 2009-12-07 2014-02-21 세종대학교산학협력단 영상 객체 검출 장치 및 그 방법

Also Published As

Publication number Publication date
WO2010043771A1 (en) 2010-04-22
FI20085986A0 (fi) 2008-10-17
FI20085986A (fi) 2010-04-18
US8103058B2 (en) 2012-01-24
US20110268319A1 (en) 2011-11-03

Similar Documents

Publication Publication Date Title
FI121901B (fi) Objektien ilmaiseminen ja seuraaminen digitaalisissa kuvissa
FI123982B (fi) Kasvojen tunnistaminen digitaalisissa kuvissa
US11256960B2 (en) Panoptic segmentation
CN107992842B (zh) 活体检测方法、计算机装置及计算机可读存储介质
US20230021661A1 (en) Forgery detection of face image
CN110717851A (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
US9311567B2 (en) Manifold learning and matting
US9934577B2 (en) Digital image edge detection
CN114038006A (zh) 一种抠图网络训练方法及抠图方法
Sreekala et al. Capsule Network‐Based Deep Transfer Learning Model for Face Recognition
CN115619743A (zh) Oled新型显示器件表面缺陷检测模型的构建方法及其应用
Gao et al. Spectral–spatial hyperspectral image classification using a multiscale conservative smoothing scheme and adaptive sparse representation
EP4244811A1 (en) Consistency measure for image segmentation processes
US9036903B2 (en) Learning device, identification device, learning identification system and learning identification device
Li et al. Robust foreground segmentation based on two effective background models
Rao et al. Deep color compensation for generalized underwater image enhancement
Simon et al. DeepLumina: A method based on deep features and luminance information for color texture classification
CN113610736B (zh) 基于循环生成对抗残差网络及qtp损失项的黑夜图像增强方法及系统
CN113591838B (zh) 目标检测方法、装置、电子设备和存储介质
CN114373117A (zh) 一种目标检测方法、装置及系统
CN109961083B (zh) 用于将卷积神经网络应用于图像的方法和图像处理实体
AU2021232739A1 (en) System and method for encoding and decoding data
US20230162489A1 (en) Method of extracting unsuiitable and defective data from plurality of pieces of training data used for learning of machine learning model, information processing device, and non-transitory computer-readable storage medium storing computer program
KR102527642B1 (ko) 딥러닝 기반 소형 표적 탐지 시스템 및 방법
CN116843910A (zh) 目标检测方法、目标检测模型的训练方法以及电子设备

Legal Events

Date Code Title Description
FG Patent granted

Ref document number: 121901

Country of ref document: FI