JP2021189554A - 携帯端末、情報処理方法及び情報処理プログラム - Google Patents

携帯端末、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
JP2021189554A
JP2021189554A JP2020091669A JP2020091669A JP2021189554A JP 2021189554 A JP2021189554 A JP 2021189554A JP 2020091669 A JP2020091669 A JP 2020091669A JP 2020091669 A JP2020091669 A JP 2020091669A JP 2021189554 A JP2021189554 A JP 2021189554A
Authority
JP
Japan
Prior art keywords
estimation
classified
unit
learning model
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020091669A
Other languages
English (en)
Inventor
祐一郎 小上
Yuichiro Ogami
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FCNT Ltd
Original Assignee
FCNT Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FCNT Ltd filed Critical FCNT Ltd
Priority to JP2020091669A priority Critical patent/JP2021189554A/ja
Publication of JP2021189554A publication Critical patent/JP2021189554A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】複数の種別に分類される対象物の種別を学習モデルによって推定する推定精度を高める。【解決手段】本携帯端末は、複数の種別に分類される対象物をカメラで撮影し、撮影した対象物の種別を推定する。本携帯端末は、カメラと、複数の種別の夫々について、複数の撮影条件の下で対象物を撮影した画像データ群を教師データとして生成した学習モデルと、カメラによって撮影された対象物を含む画像データを学習モデルに入力し、画像データに含まれる対象物が分類される種別についての複数の推定候補と複数の推定候補夫々に分類される確度とを対応付けた推定結果を学習モデルから取得する推定部と、推定部による推定結果が予め設定された所定条件を満たす場合に、所定条件に対応付けられた追加種別と追加種別に対象物が分類される確度との対応を推定結果に追加して出力する出力部と、を備える。【選択図】図2

Description

本発明は、携帯端末、情報処理方法及び情報処理プログラムに関する。
近年、人工知能(Artificial Intelligence、AI)による画像認識の精度が、ディープラーニング等の技術により向上している。AIを用いた画像認識では、多数の画像を教師データとしてニューラルネットワークに入力して構築された学習モデルが利用される。画像認識の精度が高まっていることにより、撮影された画像に含まれる被写体をこのような学習モデルを用いて認識する様々な技術が提案されている。
例えば、特許文献1では、ユーザが求める認識結果を得るための再学習を効率的に実現可能な技術が提案されている。特許文献2では、画像管理システムで管理される画像データの検索に用いられる情報付加の高速化、及び情報の高精度化の少なくともいずれかを実現し得る技術が提案されている。
特開2019−003554号公報 特許6462974号公報
画像認識の精度が高まっているとはいえ、学習モデルを用いた画像認識には未だ限界がある。例えば花や鳥、自動車のように、互いに外見が類似した複数の種別に分類される対象物を撮影した画像データを学習モデルに入力し、撮影した対象物がどの種別に分類されるかを推定する場合を考える。このような場合、学習モデルによる推定結果では、対象物が該当する複数の種別の確度が近くなる。そのため、学習モデルによる推定結果として確度の高い順に種別のリストが所定数だけ出力されると、当該対象物が実際に分類される種別が下位の順位で表示されたり、当該対象物が実際に分類される種別が出力から漏れてしまったりする虞がある。
開示の技術の1つの側面は、複数の種別に分類される対象物の種別を学習モデルによって推定する推定精度を高めることができる携帯端末、情報処理方法及び情報処理プログラムを提供することを目的とする。
開示の技術の1つの側面は、次のような携帯端末によって例示される。本携帯端末は、複数の種別に分類される対象物をカメラで撮影し、撮影した対象物の種別を推定する。本携帯端末は、カメラと、複数の種別の夫々について、複数の撮影条件の下で対象物を撮影した画像データ群を教師データとして生成した学習モデルと、カメラによって撮影された対象物を含む画像データを学習モデルに入力し、画像データに含まれる対象物が分類される種別についての複数の推定候補と複数の推定候補夫々に分類される確度とを対応付けた推定結果を学習モデルから取得する推定部と、推定部による推定結果が予め設定された所定条件を満たす場合に、所定条件に対応付けられた追加種別と追加種別に対象物が分類される確度との対応を推定結果に追加して出力する出力部と、を備える。
開示の技術は、複数の種別に分類される対象物の種別を学習モデルによって推定する推定精度を高めることができる。
図1は、実施形態に係るスマートフォンのハードウェア構成の一例を示す図である。 図2は、実施形態に係るスマートフォンの処理ブロックの一例を示す図である。 図3は、実施形態における花認識部の判定結果の一例を示す図である。 図4は、実施形態における補正テーブルの一例を示す図である。 図5は、実施形態において補正された判定結果の一例を示す図である。 図6は、実施形態における入出力部が出力する判定結果の一例を示す図である。 図7は、実施形態に係るスマートフォンの処理フローの一例を示す図である。 図8は、第1変形例に係るスマートフォンの処理ブロックの一例を示す図である。 図9は、第1変形例における補正テーブルの一例を示す図である。 図10は、第1変形例において補正された判定結果の一例を示す図である。 図11は、第1変形例に係るスマートフォンの処理フローの一例を示す図である。
<実施形態>
以下に示す実施形態の構成は例示であり、開示の技術は実施形態の構成に限定されない。実施形態に係る携帯端末は、例えば、複数の種別に分類される対象物をカメラで撮影し、撮影した対象物の種別を推定する。上記した学習モデルによる推定精度を高めることを達成するため、本携帯端末は、例えば、以下の構成を備える。
・カメラ。
・複数の種別の夫々について、複数の撮影条件の下で対象物を撮影した画像データ群を教師データとして生成した学習モデル。
・カメラによって撮影された対象物を含む画像データを上記学習モデルに入力し、画像データに含まれる対象物が分類される種別についての複数の推定候補と複数の推定候補夫々に分類される確度とを対応付けた推定結果を上記学習モデルから取得する推定部。
・上記推定部が推定した推定結果が予め設定された所定条件を満たす場合に、所定条件に対応付けられた追加種別と追加種別に対象物が分類される確度との対応を推定部による推定結果に追加して出力する出力部。
携帯端末は、可搬型の情報処理装置である。学習モデルは、上記教師データを用いて、例えば、ニューラルネットワークを用いて生成される。本携帯端末では、対象物をカメラで撮影した画像データを上記学習モデルに入力して取得した推定結果が上記所定条件を満たすと、上記所定条件に対応付けられた追加種別と追加種別に対象物が分類される確度との対応を推定結果に追加する。ここで、所定条件は、上記学習モデルが誤検知しやすい条件が設定される。そして、追加種別及び追加種別に対応する確度は、このような誤検知を是正するように設定される。本携帯端末は、学習モデルによる推定結果がこのような所定条件を満たす場合に、追加種別及び追加種別に対応する確度を推定結果に追加することで、学習モデルによる推定精度を高めることができる。なお、確度は、具体的な数値で示されてもよいし、推定結果の並び順(例えば、確度の高いものから順に並べる等)によって示されてもよい。
上記推定部は、対象物がカメラによって撮影された撮影時期を取得してもよい。そして、上記出力部は、撮影時期が所定条件をさらに満たす場合に、所定条件に対応付けられた追加種別と追加種別に対象物が分類される確度との対応を学習モデルによる推定結果に追加して出力してもよい。種別によって開花時期が異なる花や季節によって毛色が異なる動物のように、撮影時期によって対象物の状態が異なることがある。このような対象物に対しては、撮影時期によって対象物の種別を絞り込むことが可能である。そのため、本携帯端末は、撮影時期を所定条件として用いることで、対象物の推定精度を高めることができる。
上記推定部は、カメラによって撮影された画像データに含まれる対象物の色を取得してもよい。そして、上記出力部は、推定部が取得した色が上記所定条件をさらに満たす場合に、上記所定条件に対応付けられた追加種別と追加種別に対象物が分類される確度との対応を学習モデルによる推定結果に追加して出力してもよい。対象物によっては、種別間において形状が類似しているものの色は異なることがある。このような対象物に対しては、色によって対象物の種別を絞り込むことが可能である。そのため、本携帯端末は、対象物の色を所定条件として用いることで、対象物の推定精度を高めることができる。
ここで、本携帯端末は、携帯端末の現在位置を取得する位置情報取得部をさらに備えてもよい。そして、上記推定部は、対象物がカメラによって撮影された撮影場所を位置情報取得部から取得してもよい。このような場合、上記出力部は、取得した撮影場所が上記所定条件をさらに満たす場合に、上記所定条件に対応付けられた追加種別と追加種別に対象物が分類される確度との対応を学習モデルによる推定結果に追加して出力すればよい。対象物によっては、花や動物のように、生息地域(または、存在する領域)がある程度限定されていることがある。このような対象物に対しては、撮影場所によって対象物の種別を絞り込むことが可能である。そのため、本携帯端末は、撮影場所を所定条件として用いることで、対象物の推定精度を高めることができる。
以上説明した実施形態に係る技術は、情報処理方法及び情報処理プログラムの側面から把握することも可能である。
以下、図面を参照して上記携帯端末をスマートフォンに適用した実施形態についてさらに説明する。図1は、実施形態に係るスマートフォンのハードウェア構成の一例を示す図である。スマートフォン100は、可搬型の情報処理装置である。スマートフォン100は、Central Processing Unit(CPU)101、主記憶部102、補助記憶部103、通信部104、計時部105、Global Positioning System(GPS)106、カメラ107、ディスプレイ108及びタッチパネル109を備える。CPU101、主記憶部102、補助記憶部103、通信部104、計時部105、GPS106、カメラ107、ディスプレイ108及びタッチパネル109は、接続バスによって相互に接続される。
CPU101は、マイクロプロセッサユニット(MPU)、プロセッサとも呼ばれる。CPU101は、単一のプロセッサに限定される訳ではなく、マルチプロセッサ構成であってもよい。また、単一のソケットで接続される単一のCPU101がマルチコア構成を有していてもよい。CPU101が実行する処理のうち少なくとも一部は、CPU101以外のプロセッサ、例えば、Digital Signal Processor(DSP)、Graphics Processing Unit(GPU)、数値演算プロセッサ、ベクトルプロセッサ、画像処理プロセッサ等の専用プロセッサで行われてもよい。
また、CPU101が実行する処理のうち少なくとも一部は、集積回路(IC)、その
他のデジタル回路によって実行されてもよい。また、CPU101の少なくとも一部にアナログ回路が含まれてもよい。集積回路は、Large Scale Integrated circuit(LSI)、Application Specific Integrated Circuit(ASIC)、プログラマブルロジックデバイス(PLD)を含む。PLDは、例えば、Field−Programmable Gate Array(FPGA)を含む。CPU101は、プロセッサと集積回路との組み合わせであってもよい。組み合わせは、例えば、マイクロコントローラユニット(MCU)、System−on−a−chip(SoC)、システムLSI、チップセットなどと呼ばれる。
スマートフォン100では、CPU101が補助記憶部103に記憶されたプログラムを主記憶部102の作業領域に展開し、プログラムの実行を通じて周辺装置の制御を行う。これにより、スマートフォン100は、所定の目的に合致した処理を実行することができる。主記憶部102及び補助記憶部103は、スマートフォン100が読み取り可能な記録媒体である。
主記憶部102は、CPU101から直接アクセスされる記憶部として例示される。主記憶部102は、Random Access Memory(RAM)及びRead Only Memory(ROM)を含む。
補助記憶部103は、各種のプログラム及び各種のデータを読み書き自在に記録媒体に格納する。補助記憶部103は外部記憶装置とも呼ばれる。補助記憶部103には、オペレーティングシステム(Operating System、OS)、各種プログラム、各種テーブル等が格納される。OSは、通信部104を介して接続される外部装置等とのデータの受け渡しを行う通信インターフェースプログラムを含む。外部装置等には、例えば、コンピュータネットワーク等で接続された、他の情報処理装置及び外部記憶装置が含まれる。なお、補助記憶部103は、例えば、ネットワーク上のコンピュータ群であるクラウドシステムの一部であってもよい。
補助記憶部103は、例えば、Erasable Programmable ROM(EPROM)、ソリッドステートドライブ(Solid State Drive、SSD)、ハードディスクドライブ(Hard Disk Drive、HDD)等である。
通信部104は、例えば、情報処理装置を通信可能に接続するコンピュータネットワークとのインターフェースである。通信部104は、コンピュータネットワークを介して外部の装置と通信を行う。
計時部105は、日時情報を生成する回路である。日時情報は、例えば、年月日時分秒を示す情報を含む。計時部105は、例えば、スマートフォン100が内蔵する時計である。
GPS106は、衛星測位システムを利用してスマートフォン100の現在位置を取得する。GPSは、「位置情報取得部」の一例である。カメラ107は、例えば、Charge Coupled Device(CCD)イメージセンサやComplementary metal−oxide−semiconductor(CMOS)イメージセンサを有するデジタルカメラである。カメラ107は、イメージセンサに入射する光を光電変換し、光電変換によって生成した電荷を基に画像情報を取得する。CPU101は、カメラ107によって取得された画像情報を基に、画像データを取得可能である。
ディスプレイ108は、CPU101で処理されるデータや主記憶部102に記憶されるデータを表示する。ディスプレイ108は、例えば、Liquid Crystal Display(LCD)、Plasma Display Panel(PDP)、Electroluminescence(EL)パネル、有機ELパネルである。
タッチパネル109は、ユーザの指等によるタッチ操作を検知する。タッチパネル109がタッチ操作を検知する方式に限定は無い。タッチパネル109がタッチ操作を検知する方式としては、例えば、静電容量方式、抵抗膜方式、表面弾性波方式等を挙げることができる。スマートフォン100は、ディスプレイ108にタッチパネル109が重畳して設けられることで、直感的な操作環境をユーザに提供することができる。
<スマートフォン100の処理ブロック>
図2は、実施形態に係るスマートフォンの処理ブロックの一例を示す図である。スマートフォン100は、制御部11、撮像部12、日時取得部13、位置情報取得部14、花認識部15、学習モデル16、補正部17、補正テーブル18及び入出力部19を備える。スマートフォン100は、主記憶部102に実行可能に展開されたコンピュータプログラムをCPU101が実行することで、上記スマートフォン100の、制御部11、撮像部12、日時取得部13、位置情報取得部14、花認識部15、学習モデル16、補正部17、補正テーブル18及び入出力部19等の各部としての処理を実行する。
制御部11は、撮像部12、日時取得部13、位置情報取得部14、花認識部15、補正部17及び入出力部19の各種制御を行う。制御部11は、例えば、これら各部から受け取った情報を処理したり、これら各部間における情報の授受を中継したりする。
撮像部12は、カメラ107のイメージセンサから画像データを取得する。撮像部12は、取得した画像データを制御部11に渡す。
日時取得部13は、計時部105から日時情報を取得する。日時取得部13は、取得した日時情報を制御部11に渡す。
位置情報取得部14は、GPS106から位置情報を取得する。位置情報取得部14は、取得した位置情報を制御部11に渡す。
花認識部15は、撮像部12によって取得された画像データを制御部11を介して受け取る。花認識部15は、学習モデル16を用いて画像データに含まれる花の品種を判定する。判定結果は、例えば、花の品種と当該品種に該当する確率との組を、確率の高い順に並べたリストである。花認識部15は、判定結果を制御部11に渡す。花認識部15は、「推定部」の一例である。確率は、「確度」の一例である。
図3は、実施形態における花認識部の判定結果の一例を示す図である。図3に例示される判定結果は、「ひまわり」である確率が「18%」、「桜」である確率が「16%」、「パンジー」である確率が「15%」、「カラー」である確率が「13%」、「ビオラ」である確率が「11%」、「コスモス」である確率が「10%」、「たんぽぽ」である確率が「8%」となっている。花認識部15は、図3に例示されるように、花の品種と確率とを対応付けた判定結果を制御部11に渡す。
図2に戻り、学習モデル16は、例えば、様々な花を様々な撮影条件の下で撮影した画像データを教師データとしてConvolutional Neural Network(CNN)等のニューラルネットワークに入力し、ディープラーニング等の機械学習によって構築される学習モデルである。このように構築された学習モデル16は、花を被写
体としてカメラ107によって撮影された画像データが入力されると、花の品種と当該品種に該当する確率のリストを出力する。花認識部15は、画像データを学習モデル16に入力することで、花の品種と当該品種に該当する確率のリストを取得する。学習モデル16は、「学習モデル」の一例である。
補正部17は、花認識部15による判定結果を補正する。補正部17は、例えば、花認識部15による判定結果を制御部11を介して受け取る。補正部17は、補正テーブル18を参照して、受け取った判定結果の補正を行う。補正部17は、判定結果を補正した補正結果を制御部11に渡す。
補正テーブル18は、補正部17による判定結果が補正対象であるか否かを判定する条件と、補正対象となった判定結果に対する補正内容とを対応付けるテーブルである。補正テーブル18には、学習モデル16を用いた花認識部15が誤判定を起こしやすい条件と、このような条件に一致する判定結果を補正する補正内容が格納される。
補正テーブル18の生成は、例えば、スマートフォン100の製造時等に行われる。補正テーブル18の生成は、例えば、以下のように行われる。まず、テストデータセットの収集が行われる。テストデータセットは、例えば、様々な条件の下で撮影された様々な品種の花の画像データである。テストデータセットに含まれる画像データの夫々が学習モデル16に入力され、学習モデル16によるテストデータセットに対する判定結果に対する評価が行われる。判定結果に対する評価を基に、学習モデル16が誤判定しやすい条件が抽出されるとともに、誤判定した判定結果に対する補正内容が決定される。抽出された条件及び決定された補正内容が補正テーブル18に格納される。
図4は、実施形態における補正テーブルの一例を示す図である。補正テーブル18は、「条件」及び「出力」の各項目を含む。「条件」には、花認識部15による判定結果を補正対象とするか否かの条件が格納される。「出力」には、花認識部15による判定結果が「条件」を満たした場合における判定結果に対する補正内容が格納される。
補正テーブル18の「条件」は、「条件1」及び「条件2」の各項目を含む。「条件1」には、判定結果のうち、該当する確率が1位から5位までの品種を対象とした条件が格納される。「条件2」には、判定結果のうち、該当する確率が6位以降の品種を対象とした条件が格納される。図4に例示する補正テーブル18では、「条件1」として、「桜、パンジー、ビオラが上位5つに含まれている、かつ、いずれの確率も20%以下」が挙げられている。また、「条件2」として、「コスモスが10%以上の確率」が挙げられている。さらに、「出力」として、「条件2の花を1位とし、条件1の花を含んで補正」が挙げられている。補正部17は、条件1を満たし、かつ、条件2を満たす場合に、「出力」に格納された内容の補正を花認識部15による判定結果に対して行う。補正テーブル18の「条件」は、「所定条件」の一例である。
例えば、補正部17は、図3に例示される判定結果を制御部11から受け取ったものとする。補正部17は、補正テーブル18を参照して、判定結果が補正対象であるか否かを判定する。図3に例示される判定結果では、「桜」、「パンジー」、「ビオラ」が上位5つに含まれている。また、「桜」、「パンジー」、「ビオラ」のいずれについても確率が20%以下である。そのため、補正部17は、受け取った判定結果は「条件1」の「桜、パンジー、ビオラが上位5つに含まれている、かつ、いずれの確率も20%以下」を満たすと判定する。さらに、図3に例示される判定結果では、6位以下に「コスモス」が存在するとともに「コスモス」の確率が10%である。そのため、補正部17は、受け取った判定結果は「条件2」の「コスモスが10%以上の確率」を満たすと判定する。
補正部17は、「条件1」及び「条件2」が満たされることにより、受け取った判定結果は補正対象であると判定する。補正部17は、受け取った判定結果に対して、補正テーブル18の「出力」に格納された補正「条件2の花を1位とし、条件1の花を含んで補正」を行う。図5は、実施形態において補正された判定結果の一例を示す図である。図5では、図4に例示される補正テーブル18の「出力」に格納された補正内容にしたがって、図3に例示される判定結果を補正した結果が例示される。すなわち、「条件2」の花である「コスモス」が1位とされ、補正前の1位から4位までの花の名前が2位から5位とされる。その結果、補正部17は、図5に例示するような補正結果を得ることができる。なお、ここでは、ディスプレイ108に出力される結果は、上位5位までであると仮定している。補正部17は、「出力部」の一例である。補正テーブル18の「出力」に格納された補正内容は、「前記追加種別に前記対象物が分類される確度」の一例である。
図2に戻り、入出力部19は、タッチパネル109に対して行われたタッチ操作の位置を検知する。また、入出力部19は、制御部11からの指示に応じて、ディスプレイ108への出力を行う。入出力部19は、例えば、タッチパネル109へのタッチ操作を検知すると、タッチされた位置を示す座標情報を制御部11に渡す。入出力部19は、制御部11から花認識部15による判定結果や補正部17による補正結果を受け取ると、受け取った結果をディスプレイ108に出力する。
図6は、実施形態における入出力部が出力する判定結果の一例を示す図である。図6に例示される判定結果は、花認識部15による判定結果が補正対象である場合には、補正された判定結果となる。制御部11は、表示した判定結果のいずれかの花に対するタッチ操作が入出力部19によって検知されると、タッチ操作が検知された花についての詳細情報のディスプレイ108への出力を入出力部19に指示してもよい。
<スマートフォン100の処理フロー>
図7は、実施形態に係るスマートフォンの処理フローの一例を示す図である。以下の処理フローでは、スマートフォン100で花が撮影され、撮影された花の品種をスマートフォン100がディスプレイ108に表示する処理フローが例示される。図7を参照して、スマートフォン100の処理フローの一例について説明する。
J1では、入出力部19は、タッチパネル109へのタッチ操作を検知する。制御部11は、タッチ操作を検知した座標が、例えば、ディスプレイ108に表示に表示されたシャッターボタンを示す場合、ユーザから撮影指示を受けたと判定する。撮影指示を受けたと判定した制御部11は、撮像部12に対してカメラ107から画像データを取得するよう指示する。撮像部12は、制御部11からの指示に応じて、カメラ107から画像データを取得する。
J2では、花認識部15は、J1で取得された画像データを制御部11を介して受け取る。花認識部15は、受け取った画像データを学習モデル16に入力することで、学習モデル16から判定結果を受け取る。
J3では、補正部17は、J2の判定結果を制御部11を介して受け取る。補正部17は、補正テーブル18を参照して、受け取った判定結果が補正対象であるか否かを判定する。補正対象である場合(J3でYES)、処理はJ4に進められる。補正対象ではない場合(J3でNO)、処理はJ5に進められる。また、補正部17は、判定結果を制御部11に通知する。
J4では、補正部17は、補正テーブル18を参照して、J3で受け取った判定結果を補正する。補正部17は、例えば、図4に例示する補正テーブル18の「出力」にしたが
って補正結果を補正する。
J5では、入出力部19は、ディスプレイ108に判定結果を出力する。制御部11は、J3で補正対象との通知を受けた場合には、J4で補正された判定結果を入出力部19に渡す。制御部11は、J3で補正対象外との通知を受けた場合には、J2での判定結果を入出力部19に渡す。入出力部19は、制御部11から受け取った判定結果をディスプレイ108に出力させる。
<実施形態の作用効果>
実施形態では、花認識部15が学習モデル16を用いて判定した花の品種を当該品種に該当する確率とともに複数列挙する。学習モデル16は、上記の通り、CNN等のニューラルネットワークによって構築される。ここで、ニューラルネットワークで構築された学習モデル16は、多数の教師データを用いて学習させても、誤判定が生じ得る。このような誤判定は、列挙した花の品種の夫々について、該当する確率の差が少ない場合に生じやすい。
補正部17は、補正テーブル18を参照して、花認識部15による判定結果が補正条件を満たす場合に、花認識部15による判定結果の補正を行う。補正テーブル18は、上記の通り、学習モデル16が誤判定を起こしやすい条件と、このような条件に一致する場合に判定結果を補正する補正内容が格納される。すなわち、補正テーブル18は、学習モデル16の判定の傾向や誤判定が生じやすい条件が反映されたものとなる。そのため、スマートフォン100は、花認識部15による判定結果に誤判定が含まれていても、補正部17によって当該誤判定を補正した判定結果を出力することができる。すなわち、本実施形態に係るスマートフォン100は、ニューラルネットワークを用いた花認識の精度を高めることができる。
ニューラルネットワークを用いた花認識の精度を高めるには、学習モデル16に追加の教師データを入力することも考えられる。しかしながら、CNNのバッチ学習では、追加の教師データのみを入力して学習モデル16を学習させることはできず、既存の教師データと追加の教師データの双方を用いて学習モデル16を再学習させることになる。そのため、学習モデル16を再学習させることによる計算リソースの消費は膨大なものとなる。本実施形態では、判定結果の補正に用いる補正テーブル18は、テストデータセットに対する学習モデル16の判定結果に基づいて作成される。このような補正テーブル18の作成に使用する計算リソースは、学習モデル16を再学習に用いる計算リソースよりも少ないものとなる。したがって、本実施形態によれば、教師データを追加して学習モデル16を再学習させる場合よりも少ない計算リソースで花認識の精度が高められる。
なお、以上説明した実施形態では、撮影日や撮影場所を花の種類の判定や判定結果の補正に用いていない。そのため、スマートフォン100では、計時部105、GPS106、日時取得部13及び位置情報取得部14が省略されてもよい。
<第1変形例>
実施形態では、判定結果として列挙された花の品種と確率を基に、当該判定結果が補正対象となるか否かが判定される。第1変形例では、補正対象とするか否かの判定に被写体の属性、撮影場所や撮影日をさらに用いる。以下、本明細書において、被写体の属性を「被写体属性」、撮影場所や撮影日を「撮影属性」とも称する。実施形態と共通の構成要素については同一の符号を付し、その説明は省略される。以下、図面を参照して、第1変形例について説明する。
図8は、第1変形例に係るスマートフォンの処理ブロックの一例を示す図である。図8
に例示されるスマートフォン100aは、補正テーブル18に代えて補正テーブル18aを備えるとともに、被写体分析部20をさらに備える点で、実施形態に係るスマートフォン100とは異なる。
被写体分析部20は、制御部11から受け取った画像データの被写体を分析する。被写体分析部20は、画像データに被写体として含まれる花の領域を特定する。花の領域の特定では、例えば、被写体分析部20が画像データに対して物体認識を行い、被写体として含まれる花の領域を特定すればよい。そして、被写体分析部20は、特定した花の領域における支配的な色(例えば、花の領域のうち大部分を占める色、主要色)を示す色情報を取得する。取得した色情報は、被写体の色を示すということができる。
補正テーブル18aは、被写体属性や撮影属性を条件としてさらに含む点で、実施形態における補正テーブル18とは異なる。図9は、第1変形例における補正テーブルの一例を示す図である。補正テーブル18aは、項目として「条件3」を含む点で、実施形態における補正テーブル18とは異なる。「条件3」には、被写体属性としての被写体の色や撮影属性としての撮影日及び撮影場所に係る条件が格納される。撮影日は、「撮影時期」の一例である。
ここで、第1変形例における判定結果の補正について具体例を用いて説明する。補正部17は、判定結果として図3に例示する判定結果を受け取ったものとする。また、補正部17は、被写体の色として「黄色」、撮影日として「2019年4月20日」、撮影場所として「東京」を受け取ったものとする。さらに、補正テーブル18aの内容は、図9に例示した内容であるものとする。ここで、図9に例示する補正テーブル18aの「条件1」の内容と、図4に例示する補正テーブル18の「条件1」の内容は、同一である。そのため、上記の通り、図3に例示する判定結果は補正テーブル18aの「条件1」を満たす。
図3に例示する判定結果では、6位以下に「コスモス」が存在するとともに、「コスモス」の確率が10%である。そのため、補正部17は、条件2「コスモスが10%以上の確率」を判定結果は満たすと判定する。続いて、補正部17は、被写体の色、撮影日及び撮影場所が条件2「コスモスが10%以上の確率」に対応する「条件3」を満たすか否かを判定する。受け取った被写体の色は「黄色」である一方で、「条件3」で挙げられた被写体の色は「ピンク」、「白」、「赤」である。そのため、補正部17は、被写体の色が一致しないことから、補正テーブル18aの条件2「コスモスが10%以上の確率」に対応する「条件3」を判定結果は満たさないと判定する。
続いて、図3に例示する判定結果では、6位以下に「たんぽぽ」が存在するとともに、「たんぽぽ」の確率が8%である。そのため、補正部17は、条件2「たんぽぽが8%以上の確率」を判定結果は満たすと判定する。続いて、補正部17は、被写体の色、撮影日及び撮影場所が条件2「たんぽぽが8%以上の確率」に対応する「条件3」を満たすか否かを判定する。受け取った被写体の色は「黄色」であり、「条件3」で挙げられた被写体の色は「黄色」である。受け取った撮影日は「2019年4月20日」を示し、「条件3」で挙げられた撮影日は「4月〜6月」である。受け取った撮影場所は「東京」を示し、「条件3」で挙げられた撮影場所は「任意」である。そのため、補正部17は、補正テーブル18aの条件2「たんぽぽが8%以上の確率」に対応する「条件3」を判定結果は満たすと判定する。
補正部17は、条件1、条件2及び条件3を満たすことにより、判定結果は補正対象であると判定する。補正部17は、判定結果に対して、補正テーブル18aの「出力」に格納された補正「条件2の花を1位とし、条件1の花を含んで補正」を行う。図10は、第
1変形例において補正された判定結果の一例を示す図である。図10では、図9に例示される補正テーブル18aの「出力」に格納された補正内容にしたがって、図3に例示される判定結果を補正した結果が例示される。すなわち、「条件2」の花である「たんぽぽ」が1位とされ、補正前の1位から4位までの花の名前が2位から5位とされる。その結果、補正部17は、図10に例示するような補正結果を得ることができる。なお、ここでは、ディスプレイ108に出力される結果は、実施形態と同様に上位5位までであると仮定している。
<スマートフォン100aの処理フロー>
図11は、第1変形例に係るスマートフォンの処理フローの一例を示す図である。図11において、図7と同一の処理には同一の符号を付し、その説明を省略する。以下、図11を参照して、スマートフォン100aの処理フローの一例について説明する。
T1では、被写体分析部20は、J1で取得された画像データを制御部11を介して受け取る。被写体分析部20は、受け取った画像データから被写体である花の色を示す色情報を取得する。
T2では、日時取得部13は、制御部11から撮像部12に撮影を実行させた旨の通知を受ける。通知を受けた日時取得部13は、計時部105から日時情報を取得する。取得した日時情報は、撮影日を示す。T3では、位置情報取得部14は、GPS106から位置情報を取得する。取得した位置情報は、撮影場所を示す。
T4では、補正部17は、J2の判定結果を制御部11を介して受け取る。さらに、補正部17は、T1で取得された色情報、T2で取得された日時情報及びT3で取得された位置情報を制御部11を介して受け取る。補正部17は、補正テーブル18aを参照して、受け取った判定結果が補正対象であるか否かを判定する。補正対象である場合(T4でYES)、処理はT5に進められる。補正対象ではない場合(T4でNO)、処理はJ5に進められる。
T5では、補正部17は、補正テーブル18aを参照して、T4で受け取った判定結果を補正する。
第1変形例では、花の色、撮影日、撮影場所等を補正テーブル18aの条件に含めることで、判定結果の補正をより高精度なものとすることができる。すなわち、花の色を条件に含むことで、形状が似ているものの色が異なる花の認識精度を高めることができる。撮影日を条件に含むことで、外見が似ていても開花時期が異なる花の認識精度を高めることができる。また、撮影場所を条件に含むことで、外見が似ていても生育地域が異なる花の認識精度を高めることができる。
<その他の変形>
実施形態や第1変形例では、花の品種を判定する処理が一例として挙げられた。しかしながら、実施形態や第1変形例で説明した上記技術は、花の品種の判定に限定されるわけではない。上記技術は、例えば、車両についての車種の判定、犬の犬種の判定、鳥の品種の判定等にも適用可能である。
補正テーブル18(または、補正テーブル18a)の条件は、上記で説明した被写体の色、撮影日、撮影場所等に限定されず、判定の対象とする被写体に応じて様々な条件を含めてもよい。
以上で開示した実施形態や変形例はそれぞれ組み合わせることができる。
<<コンピュータが読み取り可能な記録媒体>>
コンピュータその他の機械、装置(以下、コンピュータ等)に上記いずれかの機能を実現させる情報処理プログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、Compact Disc Read Only Memory(CD−ROM)、Compact Disc−Recordable(CD−R)、Compact Disc−ReWriterable(CD−RW)、Digital Versatile Disc(DVD)、ブルーレイディスク(BD)、Digital Audio Tape(DAT)、8mmテープ、フラッシュメモリなどのメモリカード等がある。また、コンピュータ等に固定された記録媒体としてハードディスクやROM等がある。
100、100a:スマートフォン
101:CPU
102:主記憶部
103:補助記憶部
104:通信部
105:計時部
106:GPS
107:カメラ
108:ディスプレイ
109:タッチパネル
11:制御部
12:撮像部
13:日時取得部
14:位置情報取得部
15:花認識部
16:学習モデル
17:補正部
18:補正テーブル
18a:補正テーブル
19:入出力部
20:被写体分析部

Claims (6)

  1. 複数の種別に分類される対象物をカメラで撮影し、撮影した対象物の種別を推定する携帯端末であって、
    カメラと、
    前記複数の種別の夫々について、複数の撮影条件の下で前記対象物を撮影した画像データ群を教師データとして生成した学習モデルと、
    前記カメラによって撮影された前記対象物を含む画像データを前記学習モデルに入力し、前記対象物が分類される種別についての複数の推定候補と前記複数の推定候補夫々に分類される確度とを対応付けた推定結果を前記学習モデルから取得する推定部と、
    前記推定結果が予め設定された所定条件を満たす場合に、前記所定条件に対応付けられた追加種別と前記追加種別に前記対象物が分類される確度との対応を前記推定結果に追加して出力する出力部と、を備える、
    携帯端末。
  2. 前記推定部は、前記対象物が前記カメラによって撮影された撮影時期を取得し、
    前記出力部は、前記撮影時期が前記所定条件をさらに満たす場合に、前記所定条件に対応付けられた追加種別と前記追加種別に前記対象物が分類される確度との対応を前記推定結果に追加して出力する、
    請求項1に記載の携帯端末。
  3. 前記推定部は、前記カメラによって撮影された前記画像データに含まれる前記対象物の色を取得し、
    前記出力部は、前記色が前記所定条件をさらに満たす場合に、前記所定条件に対応付けられた追加種別と前記追加種別に前記対象物が分類される確度との対応を前記推定結果に追加して出力する、
    請求項1または2に記載の携帯端末。
  4. 前記携帯端末は、前記携帯端末の現在位置を取得する位置情報取得部をさらに備え、
    前記推定部は、前記対象物が前記カメラによって撮影された撮影場所を前記位置情報取得部から取得し、
    前記出力部は、前記撮影場所が前記所定条件をさらに満たす場合に、前記所定条件に対応付けられた追加種別と前記追加種別に前記対象物が分類される確度との対応を前記推定結果に追加して出力する、
    請求項1から3のいずれか一項に記載の携帯端末。
  5. 複数の種別に分類される対象物をカメラで撮影し、撮影した対象物の種別を推定する情報処理方法であって、
    カメラと、前記複数の種別の夫々について、複数の撮影条件の下で前記対象物を撮影した画像データ群を教師データとして生成した学習モデルと、を備える情報処理装置が、
    前記カメラによって撮影された前記対象物を含む画像データを前記学習モデルに入力し、前記対象物が分類される種別についての複数の推定候補と前記複数の推定候補夫々に分類される確度とを対応付けた推定結果を前記学習モデルから取得し、
    前記推定結果が予め設定された所定条件を満たす場合に、前記所定条件に対応付けられた追加種別と前記追加種別に前記対象物が分類される確度との対応を前記推定結果に追加して出力する、
    情報処理方法。
  6. 複数の種別に分類される対象物をカメラで撮影し、撮影した対象物の種別を推定する情報処理プログラムであって、
    カメラと、前記複数の種別の夫々について、複数の撮影条件の下で前記対象物を撮影した画像データ群を教師データとして生成した学習モデルと、を備える情報処理装置に、
    前記カメラによって撮影された前記対象物を含む画像データを前記学習モデルに入力し、前記対象物が分類される種別についての複数の推定候補と前記複数の推定候補夫々に分類される確度とを対応付けた推定結果を前記学習モデルから取得させ、
    前記推定結果が予め設定された所定条件を満たす場合に、前記所定条件に対応付けられた追加種別と前記追加種別に前記対象物が分類される確度との対応を前記推定結果に追加して出力させる、
    情報処理プログラム。
JP2020091669A 2020-05-26 2020-05-26 携帯端末、情報処理方法及び情報処理プログラム Pending JP2021189554A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020091669A JP2021189554A (ja) 2020-05-26 2020-05-26 携帯端末、情報処理方法及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020091669A JP2021189554A (ja) 2020-05-26 2020-05-26 携帯端末、情報処理方法及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2021189554A true JP2021189554A (ja) 2021-12-13

Family

ID=78850301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020091669A Pending JP2021189554A (ja) 2020-05-26 2020-05-26 携帯端末、情報処理方法及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP2021189554A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023210334A1 (ja) * 2022-04-28 2023-11-02 キヤノン株式会社 画像処理装置、撮像装置及びそれらの制御方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023210334A1 (ja) * 2022-04-28 2023-11-02 キヤノン株式会社 画像処理装置、撮像装置及びそれらの制御方法

Similar Documents

Publication Publication Date Title
US20220075806A1 (en) Natural language image search
JP5848336B2 (ja) 画像処理装置
WO2021012484A1 (zh) 基于深度学习的目标跟踪方法、装置及计算机可读存储介质
WO2022116423A1 (zh) 物体位姿估计方法、装置、电子设备及计算机存储介质
US20170351934A1 (en) Object recognition device, object recognition method, and program
WO2015135324A1 (zh) 图片排序方法及终端
EP1770554B1 (en) Image analysis apparatus and image analysis program storage medium
JP2009265827A (ja) 対象物検出装置及び方法、対象物検出システム、プログラム
EP3441912A1 (en) Information processing device, information processing method, and information providing method
JP6279837B2 (ja) 画像処理装置及びプログラム
CN113837257B (zh) 一种目标检测方法及装置
CN106233283A (zh) 图像处理装置、通信系统以及通信方法和摄像装置
WO2019109246A1 (zh) 图片查找方法和装置
CN115035367A (zh) 图片识别方法、装置及电子设备
CN111373724B (zh) 电子装置及其控制方法
CN114998962A (zh) 一种活体检测以及模型训练方法及装置
JP2021189554A (ja) 携帯端末、情報処理方法及び情報処理プログラム
US8533196B2 (en) Information processing device, processing method, computer program, and integrated circuit
CN111797862A (zh) 任务处理方法、装置、存储介质和电子设备
US20230131717A1 (en) Search processing device, search processing method, and computer program product
CN115665542A (zh) 基于场景自识别的图片处理方法及相关装置
CN106469437B (zh) 图像处理方法和图像处理装置
D'Haro et al. Automatic labelling of touristic pictures using CNNs and metadata information
CN111797656B (zh) 人脸关键点检测方法、装置、存储介质及电子设备
US20180314887A1 (en) Learning though projection method and apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240109

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20240220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240311

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240611