JP2021189554A

JP2021189554A - 携帯端末、情報処理方法及び情報処理プログラム

Info

Publication number: JP2021189554A
Application number: JP2020091669A
Authority: JP
Inventors: 祐一郎小上; Yuichiro Ogami
Original assignee: FCNT Ltd
Current assignee: FCNT Ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2021-12-13

Abstract

【課題】複数の種別に分類される対象物の種別を学習モデルによって推定する推定精度を高める。【解決手段】本携帯端末は、複数の種別に分類される対象物をカメラで撮影し、撮影した対象物の種別を推定する。本携帯端末は、カメラと、複数の種別の夫々について、複数の撮影条件の下で対象物を撮影した画像データ群を教師データとして生成した学習モデルと、カメラによって撮影された対象物を含む画像データを学習モデルに入力し、画像データに含まれる対象物が分類される種別についての複数の推定候補と複数の推定候補夫々に分類される確度とを対応付けた推定結果を学習モデルから取得する推定部と、推定部による推定結果が予め設定された所定条件を満たす場合に、所定条件に対応付けられた追加種別と追加種別に対象物が分類される確度との対応を推定結果に追加して出力する出力部と、を備える。【選択図】図２

Description

本発明は、携帯端末、情報処理方法及び情報処理プログラムに関する。

近年、人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）による画像認識の精度が、ディープラーニング等の技術により向上している。ＡＩを用いた画像認識では、多数の画像を教師データとしてニューラルネットワークに入力して構築された学習モデルが利用される。画像認識の精度が高まっていることにより、撮影された画像に含まれる被写体をこのような学習モデルを用いて認識する様々な技術が提案されている。

例えば、特許文献１では、ユーザが求める認識結果を得るための再学習を効率的に実現可能な技術が提案されている。特許文献２では、画像管理システムで管理される画像データの検索に用いられる情報付加の高速化、及び情報の高精度化の少なくともいずれかを実現し得る技術が提案されている。

特開２０１９−００３５５４号公報特許６４６２９７４号公報

画像認識の精度が高まっているとはいえ、学習モデルを用いた画像認識には未だ限界がある。例えば花や鳥、自動車のように、互いに外見が類似した複数の種別に分類される対象物を撮影した画像データを学習モデルに入力し、撮影した対象物がどの種別に分類されるかを推定する場合を考える。このような場合、学習モデルによる推定結果では、対象物が該当する複数の種別の確度が近くなる。そのため、学習モデルによる推定結果として確度の高い順に種別のリストが所定数だけ出力されると、当該対象物が実際に分類される種別が下位の順位で表示されたり、当該対象物が実際に分類される種別が出力から漏れてしまったりする虞がある。

開示の技術の１つの側面は、複数の種別に分類される対象物の種別を学習モデルによって推定する推定精度を高めることができる携帯端末、情報処理方法及び情報処理プログラムを提供することを目的とする。

開示の技術の１つの側面は、次のような携帯端末によって例示される。本携帯端末は、複数の種別に分類される対象物をカメラで撮影し、撮影した対象物の種別を推定する。本携帯端末は、カメラと、複数の種別の夫々について、複数の撮影条件の下で対象物を撮影した画像データ群を教師データとして生成した学習モデルと、カメラによって撮影された対象物を含む画像データを学習モデルに入力し、画像データに含まれる対象物が分類される種別についての複数の推定候補と複数の推定候補夫々に分類される確度とを対応付けた推定結果を学習モデルから取得する推定部と、推定部による推定結果が予め設定された所定条件を満たす場合に、所定条件に対応付けられた追加種別と追加種別に対象物が分類される確度との対応を推定結果に追加して出力する出力部と、を備える。

開示の技術は、複数の種別に分類される対象物の種別を学習モデルによって推定する推定精度を高めることができる。

図１は、実施形態に係るスマートフォンのハードウェア構成の一例を示す図である。図２は、実施形態に係るスマートフォンの処理ブロックの一例を示す図である。図３は、実施形態における花認識部の判定結果の一例を示す図である。図４は、実施形態における補正テーブルの一例を示す図である。図５は、実施形態において補正された判定結果の一例を示す図である。図６は、実施形態における入出力部が出力する判定結果の一例を示す図である。図７は、実施形態に係るスマートフォンの処理フローの一例を示す図である。図８は、第１変形例に係るスマートフォンの処理ブロックの一例を示す図である。図９は、第１変形例における補正テーブルの一例を示す図である。図１０は、第１変形例において補正された判定結果の一例を示す図である。図１１は、第１変形例に係るスマートフォンの処理フローの一例を示す図である。

＜実施形態＞
以下に示す実施形態の構成は例示であり、開示の技術は実施形態の構成に限定されない。実施形態に係る携帯端末は、例えば、複数の種別に分類される対象物をカメラで撮影し、撮影した対象物の種別を推定する。上記した学習モデルによる推定精度を高めることを達成するため、本携帯端末は、例えば、以下の構成を備える。
・カメラ。
・複数の種別の夫々について、複数の撮影条件の下で対象物を撮影した画像データ群を教師データとして生成した学習モデル。
・カメラによって撮影された対象物を含む画像データを上記学習モデルに入力し、画像データに含まれる対象物が分類される種別についての複数の推定候補と複数の推定候補夫々に分類される確度とを対応付けた推定結果を上記学習モデルから取得する推定部。
・上記推定部が推定した推定結果が予め設定された所定条件を満たす場合に、所定条件に対応付けられた追加種別と追加種別に対象物が分類される確度との対応を推定部による推定結果に追加して出力する出力部。

携帯端末は、可搬型の情報処理装置である。学習モデルは、上記教師データを用いて、例えば、ニューラルネットワークを用いて生成される。本携帯端末では、対象物をカメラで撮影した画像データを上記学習モデルに入力して取得した推定結果が上記所定条件を満たすと、上記所定条件に対応付けられた追加種別と追加種別に対象物が分類される確度との対応を推定結果に追加する。ここで、所定条件は、上記学習モデルが誤検知しやすい条件が設定される。そして、追加種別及び追加種別に対応する確度は、このような誤検知を是正するように設定される。本携帯端末は、学習モデルによる推定結果がこのような所定条件を満たす場合に、追加種別及び追加種別に対応する確度を推定結果に追加することで、学習モデルによる推定精度を高めることができる。なお、確度は、具体的な数値で示されてもよいし、推定結果の並び順（例えば、確度の高いものから順に並べる等）によって示されてもよい。

上記推定部は、対象物がカメラによって撮影された撮影時期を取得してもよい。そして、上記出力部は、撮影時期が所定条件をさらに満たす場合に、所定条件に対応付けられた追加種別と追加種別に対象物が分類される確度との対応を学習モデルによる推定結果に追加して出力してもよい。種別によって開花時期が異なる花や季節によって毛色が異なる動物のように、撮影時期によって対象物の状態が異なることがある。このような対象物に対しては、撮影時期によって対象物の種別を絞り込むことが可能である。そのため、本携帯端末は、撮影時期を所定条件として用いることで、対象物の推定精度を高めることができる。

上記推定部は、カメラによって撮影された画像データに含まれる対象物の色を取得してもよい。そして、上記出力部は、推定部が取得した色が上記所定条件をさらに満たす場合に、上記所定条件に対応付けられた追加種別と追加種別に対象物が分類される確度との対応を学習モデルによる推定結果に追加して出力してもよい。対象物によっては、種別間において形状が類似しているものの色は異なることがある。このような対象物に対しては、色によって対象物の種別を絞り込むことが可能である。そのため、本携帯端末は、対象物の色を所定条件として用いることで、対象物の推定精度を高めることができる。

ここで、本携帯端末は、携帯端末の現在位置を取得する位置情報取得部をさらに備えてもよい。そして、上記推定部は、対象物がカメラによって撮影された撮影場所を位置情報取得部から取得してもよい。このような場合、上記出力部は、取得した撮影場所が上記所定条件をさらに満たす場合に、上記所定条件に対応付けられた追加種別と追加種別に対象物が分類される確度との対応を学習モデルによる推定結果に追加して出力すればよい。対象物によっては、花や動物のように、生息地域（または、存在する領域）がある程度限定されていることがある。このような対象物に対しては、撮影場所によって対象物の種別を絞り込むことが可能である。そのため、本携帯端末は、撮影場所を所定条件として用いることで、対象物の推定精度を高めることができる。

以上説明した実施形態に係る技術は、情報処理方法及び情報処理プログラムの側面から把握することも可能である。

以下、図面を参照して上記携帯端末をスマートフォンに適用した実施形態についてさらに説明する。図１は、実施形態に係るスマートフォンのハードウェア構成の一例を示す図である。スマートフォン１００は、可搬型の情報処理装置である。スマートフォン１００は、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＣＰＵ）１０１、主記憶部１０２、補助記憶部１０３、通信部１０４、計時部１０５、ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ（ＧＰＳ）１０６、カメラ１０７、ディスプレイ１０８及びタッチパネル１０９を備える。ＣＰＵ１０１、主記憶部１０２、補助記憶部１０３、通信部１０４、計時部１０５、ＧＰＳ１０６、カメラ１０７、ディスプレイ１０８及びタッチパネル１０９は、接続バスによって相互に接続される。

ＣＰＵ１０１は、マイクロプロセッサユニット（ＭＰＵ）、プロセッサとも呼ばれる。ＣＰＵ１０１は、単一のプロセッサに限定される訳ではなく、マルチプロセッサ構成であってもよい。また、単一のソケットで接続される単一のＣＰＵ１０１がマルチコア構成を有していてもよい。ＣＰＵ１０１が実行する処理のうち少なくとも一部は、ＣＰＵ１０１以外のプロセッサ、例えば、ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ（ＤＳＰ）、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＧＰＵ）、数値演算プロセッサ、ベクトルプロセッサ、画像処理プロセッサ等の専用プロセッサで行われてもよい。

また、ＣＰＵ１０１が実行する処理のうち少なくとも一部は、集積回路（ＩＣ）、その
他のデジタル回路によって実行されてもよい。また、ＣＰＵ１０１の少なくとも一部にアナログ回路が含まれてもよい。集積回路は、ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ（ＬＳＩ）、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ（ＡＳＩＣ）、プログラマブルロジックデバイス（ＰＬＤ）を含む。ＰＬＤは、例えば、Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ（ＦＰＧＡ）を含む。ＣＰＵ１０１は、プロセッサと集積回路との組み合わせであってもよい。組み合わせは、例えば、マイクロコントローラユニット（ＭＣＵ）、Ｓｙｓｔｅｍ−ｏｎ−ａ−ｃｈｉｐ（ＳｏＣ）、システムＬＳＩ、チップセットなどと呼ばれる。

スマートフォン１００では、ＣＰＵ１０１が補助記憶部１０３に記憶されたプログラムを主記憶部１０２の作業領域に展開し、プログラムの実行を通じて周辺装置の制御を行う。これにより、スマートフォン１００は、所定の目的に合致した処理を実行することができる。主記憶部１０２及び補助記憶部１０３は、スマートフォン１００が読み取り可能な記録媒体である。

主記憶部１０２は、ＣＰＵ１０１から直接アクセスされる記憶部として例示される。主記憶部１０２は、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）及びＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）を含む。

補助記憶部１０３は、各種のプログラム及び各種のデータを読み書き自在に記録媒体に格納する。補助記憶部１０３は外部記憶装置とも呼ばれる。補助記憶部１０３には、オペレーティングシステム（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ、ＯＳ）、各種プログラム、各種テーブル等が格納される。ＯＳは、通信部１０４を介して接続される外部装置等とのデータの受け渡しを行う通信インターフェースプログラムを含む。外部装置等には、例えば、コンピュータネットワーク等で接続された、他の情報処理装置及び外部記憶装置が含まれる。なお、補助記憶部１０３は、例えば、ネットワーク上のコンピュータ群であるクラウドシステムの一部であってもよい。

補助記憶部１０３は、例えば、ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ（ＥＰＲＯＭ）、ソリッドステートドライブ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ、ＳＳＤ）、ハードディスクドライブ（ＨａｒｄＤｉｓｋＤｒｉｖｅ、ＨＤＤ）等である。

通信部１０４は、例えば、情報処理装置を通信可能に接続するコンピュータネットワークとのインターフェースである。通信部１０４は、コンピュータネットワークを介して外部の装置と通信を行う。

計時部１０５は、日時情報を生成する回路である。日時情報は、例えば、年月日時分秒を示す情報を含む。計時部１０５は、例えば、スマートフォン１００が内蔵する時計である。

ＧＰＳ１０６は、衛星測位システムを利用してスマートフォン１００の現在位置を取得する。ＧＰＳは、「位置情報取得部」の一例である。カメラ１０７は、例えば、ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ（ＣＣＤ）イメージセンサやＣｏｍｐｌｅｍｅｎｔａｒｙｍｅｔａｌ−ｏｘｉｄｅ−ｓｅｍｉｃｏｎｄｕｃｔｏｒ（ＣＭＯＳ）イメージセンサを有するデジタルカメラである。カメラ１０７は、イメージセンサに入射する光を光電変換し、光電変換によって生成した電荷を基に画像情報を取得する。ＣＰＵ１０１は、カメラ１０７によって取得された画像情報を基に、画像データを取得可能である。

ディスプレイ１０８は、ＣＰＵ１０１で処理されるデータや主記憶部１０２に記憶されるデータを表示する。ディスプレイ１０８は、例えば、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ（ＬＣＤ）、ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ（ＰＤＰ）、Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ（ＥＬ）パネル、有機ＥＬパネルである。

タッチパネル１０９は、ユーザの指等によるタッチ操作を検知する。タッチパネル１０９がタッチ操作を検知する方式に限定は無い。タッチパネル１０９がタッチ操作を検知する方式としては、例えば、静電容量方式、抵抗膜方式、表面弾性波方式等を挙げることができる。スマートフォン１００は、ディスプレイ１０８にタッチパネル１０９が重畳して設けられることで、直感的な操作環境をユーザに提供することができる。

＜スマートフォン１００の処理ブロック＞
図２は、実施形態に係るスマートフォンの処理ブロックの一例を示す図である。スマートフォン１００は、制御部１１、撮像部１２、日時取得部１３、位置情報取得部１４、花認識部１５、学習モデル１６、補正部１７、補正テーブル１８及び入出力部１９を備える。スマートフォン１００は、主記憶部１０２に実行可能に展開されたコンピュータプログラムをＣＰＵ１０１が実行することで、上記スマートフォン１００の、制御部１１、撮像部１２、日時取得部１３、位置情報取得部１４、花認識部１５、学習モデル１６、補正部１７、補正テーブル１８及び入出力部１９等の各部としての処理を実行する。

制御部１１は、撮像部１２、日時取得部１３、位置情報取得部１４、花認識部１５、補正部１７及び入出力部１９の各種制御を行う。制御部１１は、例えば、これら各部から受け取った情報を処理したり、これら各部間における情報の授受を中継したりする。

撮像部１２は、カメラ１０７のイメージセンサから画像データを取得する。撮像部１２は、取得した画像データを制御部１１に渡す。

日時取得部１３は、計時部１０５から日時情報を取得する。日時取得部１３は、取得した日時情報を制御部１１に渡す。

位置情報取得部１４は、ＧＰＳ１０６から位置情報を取得する。位置情報取得部１４は、取得した位置情報を制御部１１に渡す。

花認識部１５は、撮像部１２によって取得された画像データを制御部１１を介して受け取る。花認識部１５は、学習モデル１６を用いて画像データに含まれる花の品種を判定する。判定結果は、例えば、花の品種と当該品種に該当する確率との組を、確率の高い順に並べたリストである。花認識部１５は、判定結果を制御部１１に渡す。花認識部１５は、「推定部」の一例である。確率は、「確度」の一例である。

図３は、実施形態における花認識部の判定結果の一例を示す図である。図３に例示される判定結果は、「ひまわり」である確率が「１８％」、「桜」である確率が「１６％」、「パンジー」である確率が「１５％」、「カラー」である確率が「１３％」、「ビオラ」である確率が「１１％」、「コスモス」である確率が「１０％」、「たんぽぽ」である確率が「８％」となっている。花認識部１５は、図３に例示されるように、花の品種と確率とを対応付けた判定結果を制御部１１に渡す。

図２に戻り、学習モデル１６は、例えば、様々な花を様々な撮影条件の下で撮影した画像データを教師データとしてＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（ＣＮＮ）等のニューラルネットワークに入力し、ディープラーニング等の機械学習によって構築される学習モデルである。このように構築された学習モデル１６は、花を被写
体としてカメラ１０７によって撮影された画像データが入力されると、花の品種と当該品種に該当する確率のリストを出力する。花認識部１５は、画像データを学習モデル１６に入力することで、花の品種と当該品種に該当する確率のリストを取得する。学習モデル１６は、「学習モデル」の一例である。

補正部１７は、花認識部１５による判定結果を補正する。補正部１７は、例えば、花認識部１５による判定結果を制御部１１を介して受け取る。補正部１７は、補正テーブル１８を参照して、受け取った判定結果の補正を行う。補正部１７は、判定結果を補正した補正結果を制御部１１に渡す。

補正テーブル１８は、補正部１７による判定結果が補正対象であるか否かを判定する条件と、補正対象となった判定結果に対する補正内容とを対応付けるテーブルである。補正テーブル１８には、学習モデル１６を用いた花認識部１５が誤判定を起こしやすい条件と、このような条件に一致する判定結果を補正する補正内容が格納される。

補正テーブル１８の生成は、例えば、スマートフォン１００の製造時等に行われる。補正テーブル１８の生成は、例えば、以下のように行われる。まず、テストデータセットの収集が行われる。テストデータセットは、例えば、様々な条件の下で撮影された様々な品種の花の画像データである。テストデータセットに含まれる画像データの夫々が学習モデル１６に入力され、学習モデル１６によるテストデータセットに対する判定結果に対する評価が行われる。判定結果に対する評価を基に、学習モデル１６が誤判定しやすい条件が抽出されるとともに、誤判定した判定結果に対する補正内容が決定される。抽出された条件及び決定された補正内容が補正テーブル１８に格納される。

図４は、実施形態における補正テーブルの一例を示す図である。補正テーブル１８は、「条件」及び「出力」の各項目を含む。「条件」には、花認識部１５による判定結果を補正対象とするか否かの条件が格納される。「出力」には、花認識部１５による判定結果が「条件」を満たした場合における判定結果に対する補正内容が格納される。

補正テーブル１８の「条件」は、「条件１」及び「条件２」の各項目を含む。「条件１」には、判定結果のうち、該当する確率が１位から５位までの品種を対象とした条件が格納される。「条件２」には、判定結果のうち、該当する確率が６位以降の品種を対象とした条件が格納される。図４に例示する補正テーブル１８では、「条件１」として、「桜、パンジー、ビオラが上位５つに含まれている、かつ、いずれの確率も２０％以下」が挙げられている。また、「条件２」として、「コスモスが１０％以上の確率」が挙げられている。さらに、「出力」として、「条件２の花を１位とし、条件１の花を含んで補正」が挙げられている。補正部１７は、条件１を満たし、かつ、条件２を満たす場合に、「出力」に格納された内容の補正を花認識部１５による判定結果に対して行う。補正テーブル１８の「条件」は、「所定条件」の一例である。

例えば、補正部１７は、図３に例示される判定結果を制御部１１から受け取ったものとする。補正部１７は、補正テーブル１８を参照して、判定結果が補正対象であるか否かを判定する。図３に例示される判定結果では、「桜」、「パンジー」、「ビオラ」が上位５つに含まれている。また、「桜」、「パンジー」、「ビオラ」のいずれについても確率が２０％以下である。そのため、補正部１７は、受け取った判定結果は「条件１」の「桜、パンジー、ビオラが上位５つに含まれている、かつ、いずれの確率も２０％以下」を満たすと判定する。さらに、図３に例示される判定結果では、６位以下に「コスモス」が存在するとともに「コスモス」の確率が１０％である。そのため、補正部１７は、受け取った判定結果は「条件２」の「コスモスが１０％以上の確率」を満たすと判定する。

補正部１７は、「条件１」及び「条件２」が満たされることにより、受け取った判定結果は補正対象であると判定する。補正部１７は、受け取った判定結果に対して、補正テーブル１８の「出力」に格納された補正「条件２の花を１位とし、条件１の花を含んで補正」を行う。図５は、実施形態において補正された判定結果の一例を示す図である。図５では、図４に例示される補正テーブル１８の「出力」に格納された補正内容にしたがって、図３に例示される判定結果を補正した結果が例示される。すなわち、「条件２」の花である「コスモス」が１位とされ、補正前の１位から４位までの花の名前が２位から５位とされる。その結果、補正部１７は、図５に例示するような補正結果を得ることができる。なお、ここでは、ディスプレイ１０８に出力される結果は、上位５位までであると仮定している。補正部１７は、「出力部」の一例である。補正テーブル１８の「出力」に格納された補正内容は、「前記追加種別に前記対象物が分類される確度」の一例である。

図２に戻り、入出力部１９は、タッチパネル１０９に対して行われたタッチ操作の位置を検知する。また、入出力部１９は、制御部１１からの指示に応じて、ディスプレイ１０８への出力を行う。入出力部１９は、例えば、タッチパネル１０９へのタッチ操作を検知すると、タッチされた位置を示す座標情報を制御部１１に渡す。入出力部１９は、制御部１１から花認識部１５による判定結果や補正部１７による補正結果を受け取ると、受け取った結果をディスプレイ１０８に出力する。

図６は、実施形態における入出力部が出力する判定結果の一例を示す図である。図６に例示される判定結果は、花認識部１５による判定結果が補正対象である場合には、補正された判定結果となる。制御部１１は、表示した判定結果のいずれかの花に対するタッチ操作が入出力部１９によって検知されると、タッチ操作が検知された花についての詳細情報のディスプレイ１０８への出力を入出力部１９に指示してもよい。

＜スマートフォン１００の処理フロー＞
図７は、実施形態に係るスマートフォンの処理フローの一例を示す図である。以下の処理フローでは、スマートフォン１００で花が撮影され、撮影された花の品種をスマートフォン１００がディスプレイ１０８に表示する処理フローが例示される。図７を参照して、スマートフォン１００の処理フローの一例について説明する。

Ｊ１では、入出力部１９は、タッチパネル１０９へのタッチ操作を検知する。制御部１１は、タッチ操作を検知した座標が、例えば、ディスプレイ１０８に表示に表示されたシャッターボタンを示す場合、ユーザから撮影指示を受けたと判定する。撮影指示を受けたと判定した制御部１１は、撮像部１２に対してカメラ１０７から画像データを取得するよう指示する。撮像部１２は、制御部１１からの指示に応じて、カメラ１０７から画像データを取得する。

Ｊ２では、花認識部１５は、Ｊ１で取得された画像データを制御部１１を介して受け取る。花認識部１５は、受け取った画像データを学習モデル１６に入力することで、学習モデル１６から判定結果を受け取る。

Ｊ３では、補正部１７は、Ｊ２の判定結果を制御部１１を介して受け取る。補正部１７は、補正テーブル１８を参照して、受け取った判定結果が補正対象であるか否かを判定する。補正対象である場合（Ｊ３でＹＥＳ）、処理はＪ４に進められる。補正対象ではない場合（Ｊ３でＮＯ）、処理はＪ５に進められる。また、補正部１７は、判定結果を制御部１１に通知する。

Ｊ４では、補正部１７は、補正テーブル１８を参照して、Ｊ３で受け取った判定結果を補正する。補正部１７は、例えば、図４に例示する補正テーブル１８の「出力」にしたが
って補正結果を補正する。

Ｊ５では、入出力部１９は、ディスプレイ１０８に判定結果を出力する。制御部１１は、Ｊ３で補正対象との通知を受けた場合には、Ｊ４で補正された判定結果を入出力部１９に渡す。制御部１１は、Ｊ３で補正対象外との通知を受けた場合には、Ｊ２での判定結果を入出力部１９に渡す。入出力部１９は、制御部１１から受け取った判定結果をディスプレイ１０８に出力させる。

＜実施形態の作用効果＞
実施形態では、花認識部１５が学習モデル１６を用いて判定した花の品種を当該品種に該当する確率とともに複数列挙する。学習モデル１６は、上記の通り、ＣＮＮ等のニューラルネットワークによって構築される。ここで、ニューラルネットワークで構築された学習モデル１６は、多数の教師データを用いて学習させても、誤判定が生じ得る。このような誤判定は、列挙した花の品種の夫々について、該当する確率の差が少ない場合に生じやすい。

補正部１７は、補正テーブル１８を参照して、花認識部１５による判定結果が補正条件を満たす場合に、花認識部１５による判定結果の補正を行う。補正テーブル１８は、上記の通り、学習モデル１６が誤判定を起こしやすい条件と、このような条件に一致する場合に判定結果を補正する補正内容が格納される。すなわち、補正テーブル１８は、学習モデル１６の判定の傾向や誤判定が生じやすい条件が反映されたものとなる。そのため、スマートフォン１００は、花認識部１５による判定結果に誤判定が含まれていても、補正部１７によって当該誤判定を補正した判定結果を出力することができる。すなわち、本実施形態に係るスマートフォン１００は、ニューラルネットワークを用いた花認識の精度を高めることができる。

ニューラルネットワークを用いた花認識の精度を高めるには、学習モデル１６に追加の教師データを入力することも考えられる。しかしながら、ＣＮＮのバッチ学習では、追加の教師データのみを入力して学習モデル１６を学習させることはできず、既存の教師データと追加の教師データの双方を用いて学習モデル１６を再学習させることになる。そのため、学習モデル１６を再学習させることによる計算リソースの消費は膨大なものとなる。本実施形態では、判定結果の補正に用いる補正テーブル１８は、テストデータセットに対する学習モデル１６の判定結果に基づいて作成される。このような補正テーブル１８の作成に使用する計算リソースは、学習モデル１６を再学習に用いる計算リソースよりも少ないものとなる。したがって、本実施形態によれば、教師データを追加して学習モデル１６を再学習させる場合よりも少ない計算リソースで花認識の精度が高められる。

なお、以上説明した実施形態では、撮影日や撮影場所を花の種類の判定や判定結果の補正に用いていない。そのため、スマートフォン１００では、計時部１０５、ＧＰＳ１０６、日時取得部１３及び位置情報取得部１４が省略されてもよい。

＜第１変形例＞
実施形態では、判定結果として列挙された花の品種と確率を基に、当該判定結果が補正対象となるか否かが判定される。第１変形例では、補正対象とするか否かの判定に被写体の属性、撮影場所や撮影日をさらに用いる。以下、本明細書において、被写体の属性を「被写体属性」、撮影場所や撮影日を「撮影属性」とも称する。実施形態と共通の構成要素については同一の符号を付し、その説明は省略される。以下、図面を参照して、第１変形例について説明する。

図８は、第１変形例に係るスマートフォンの処理ブロックの一例を示す図である。図８
に例示されるスマートフォン１００ａは、補正テーブル１８に代えて補正テーブル１８ａを備えるとともに、被写体分析部２０をさらに備える点で、実施形態に係るスマートフォン１００とは異なる。

被写体分析部２０は、制御部１１から受け取った画像データの被写体を分析する。被写体分析部２０は、画像データに被写体として含まれる花の領域を特定する。花の領域の特定では、例えば、被写体分析部２０が画像データに対して物体認識を行い、被写体として含まれる花の領域を特定すればよい。そして、被写体分析部２０は、特定した花の領域における支配的な色（例えば、花の領域のうち大部分を占める色、主要色）を示す色情報を取得する。取得した色情報は、被写体の色を示すということができる。

補正テーブル１８ａは、被写体属性や撮影属性を条件としてさらに含む点で、実施形態における補正テーブル１８とは異なる。図９は、第１変形例における補正テーブルの一例を示す図である。補正テーブル１８ａは、項目として「条件３」を含む点で、実施形態における補正テーブル１８とは異なる。「条件３」には、被写体属性としての被写体の色や撮影属性としての撮影日及び撮影場所に係る条件が格納される。撮影日は、「撮影時期」の一例である。

ここで、第１変形例における判定結果の補正について具体例を用いて説明する。補正部１７は、判定結果として図３に例示する判定結果を受け取ったものとする。また、補正部１７は、被写体の色として「黄色」、撮影日として「２０１９年４月２０日」、撮影場所として「東京」を受け取ったものとする。さらに、補正テーブル１８ａの内容は、図９に例示した内容であるものとする。ここで、図９に例示する補正テーブル１８ａの「条件１」の内容と、図４に例示する補正テーブル１８の「条件１」の内容は、同一である。そのため、上記の通り、図３に例示する判定結果は補正テーブル１８ａの「条件１」を満たす。

図３に例示する判定結果では、６位以下に「コスモス」が存在するとともに、「コスモス」の確率が１０％である。そのため、補正部１７は、条件２「コスモスが１０％以上の確率」を判定結果は満たすと判定する。続いて、補正部１７は、被写体の色、撮影日及び撮影場所が条件２「コスモスが１０％以上の確率」に対応する「条件３」を満たすか否かを判定する。受け取った被写体の色は「黄色」である一方で、「条件３」で挙げられた被写体の色は「ピンク」、「白」、「赤」である。そのため、補正部１７は、被写体の色が一致しないことから、補正テーブル１８ａの条件２「コスモスが１０％以上の確率」に対応する「条件３」を判定結果は満たさないと判定する。

続いて、図３に例示する判定結果では、６位以下に「たんぽぽ」が存在するとともに、「たんぽぽ」の確率が８％である。そのため、補正部１７は、条件２「たんぽぽが８％以上の確率」を判定結果は満たすと判定する。続いて、補正部１７は、被写体の色、撮影日及び撮影場所が条件２「たんぽぽが８％以上の確率」に対応する「条件３」を満たすか否かを判定する。受け取った被写体の色は「黄色」であり、「条件３」で挙げられた被写体の色は「黄色」である。受け取った撮影日は「２０１９年４月２０日」を示し、「条件３」で挙げられた撮影日は「４月〜６月」である。受け取った撮影場所は「東京」を示し、「条件３」で挙げられた撮影場所は「任意」である。そのため、補正部１７は、補正テーブル１８ａの条件２「たんぽぽが８％以上の確率」に対応する「条件３」を判定結果は満たすと判定する。

補正部１７は、条件１、条件２及び条件３を満たすことにより、判定結果は補正対象であると判定する。補正部１７は、判定結果に対して、補正テーブル１８ａの「出力」に格納された補正「条件２の花を１位とし、条件１の花を含んで補正」を行う。図１０は、第
１変形例において補正された判定結果の一例を示す図である。図１０では、図９に例示される補正テーブル１８ａの「出力」に格納された補正内容にしたがって、図３に例示される判定結果を補正した結果が例示される。すなわち、「条件２」の花である「たんぽぽ」が１位とされ、補正前の１位から４位までの花の名前が２位から５位とされる。その結果、補正部１７は、図１０に例示するような補正結果を得ることができる。なお、ここでは、ディスプレイ１０８に出力される結果は、実施形態と同様に上位５位までであると仮定している。

＜スマートフォン１００ａの処理フロー＞
図１１は、第１変形例に係るスマートフォンの処理フローの一例を示す図である。図１１において、図７と同一の処理には同一の符号を付し、その説明を省略する。以下、図１１を参照して、スマートフォン１００ａの処理フローの一例について説明する。

Ｔ１では、被写体分析部２０は、Ｊ１で取得された画像データを制御部１１を介して受け取る。被写体分析部２０は、受け取った画像データから被写体である花の色を示す色情報を取得する。

Ｔ２では、日時取得部１３は、制御部１１から撮像部１２に撮影を実行させた旨の通知を受ける。通知を受けた日時取得部１３は、計時部１０５から日時情報を取得する。取得した日時情報は、撮影日を示す。Ｔ３では、位置情報取得部１４は、ＧＰＳ１０６から位置情報を取得する。取得した位置情報は、撮影場所を示す。

Ｔ４では、補正部１７は、Ｊ２の判定結果を制御部１１を介して受け取る。さらに、補正部１７は、Ｔ１で取得された色情報、Ｔ２で取得された日時情報及びＴ３で取得された位置情報を制御部１１を介して受け取る。補正部１７は、補正テーブル１８ａを参照して、受け取った判定結果が補正対象であるか否かを判定する。補正対象である場合（Ｔ４でＹＥＳ）、処理はＴ５に進められる。補正対象ではない場合（Ｔ４でＮＯ）、処理はＪ５に進められる。

Ｔ５では、補正部１７は、補正テーブル１８ａを参照して、Ｔ４で受け取った判定結果を補正する。

第１変形例では、花の色、撮影日、撮影場所等を補正テーブル１８ａの条件に含めることで、判定結果の補正をより高精度なものとすることができる。すなわち、花の色を条件に含むことで、形状が似ているものの色が異なる花の認識精度を高めることができる。撮影日を条件に含むことで、外見が似ていても開花時期が異なる花の認識精度を高めることができる。また、撮影場所を条件に含むことで、外見が似ていても生育地域が異なる花の認識精度を高めることができる。

＜その他の変形＞
実施形態や第１変形例では、花の品種を判定する処理が一例として挙げられた。しかしながら、実施形態や第１変形例で説明した上記技術は、花の品種の判定に限定されるわけではない。上記技術は、例えば、車両についての車種の判定、犬の犬種の判定、鳥の品種の判定等にも適用可能である。

補正テーブル１８（または、補正テーブル１８ａ）の条件は、上記で説明した被写体の色、撮影日、撮影場所等に限定されず、判定の対象とする被写体に応じて様々な条件を含めてもよい。

以上で開示した実施形態や変形例はそれぞれ組み合わせることができる。

<<コンピュータが読み取り可能な記録媒体>>
コンピュータその他の機械、装置（以下、コンピュータ等）に上記いずれかの機能を実現させる情報処理プログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。

ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＣＤ−ＲＯＭ）、ＣｏｍｐａｃｔＤｉｓｃ−Ｒｅｃｏｒｄａｂｌｅ（ＣＤ−Ｒ）、ＣｏｍｐａｃｔＤｉｓｃ−ＲｅＷｒｉｔｅｒａｂｌｅ（ＣＤ−ＲＷ）、ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ（ＤＶＤ）、ブルーレイディスク（ＢＤ）、ＤｉｇｉｔａｌＡｕｄｉｏＴａｐｅ（ＤＡＴ）、８ｍｍテープ、フラッシュメモリなどのメモリカード等がある。また、コンピュータ等に固定された記録媒体としてハードディスクやＲＯＭ等がある。

１００、１００ａ：スマートフォン
１０１：ＣＰＵ
１０２：主記憶部
１０３：補助記憶部
１０４：通信部
１０５：計時部
１０６：ＧＰＳ
１０７：カメラ
１０８：ディスプレイ
１０９：タッチパネル
１１：制御部
１２：撮像部
１３：日時取得部
１４：位置情報取得部
１５：花認識部
１６：学習モデル
１７：補正部
１８：補正テーブル
１８ａ：補正テーブル
１９：入出力部
２０：被写体分析部

Claims

複数の種別に分類される対象物をカメラで撮影し、撮影した対象物の種別を推定する携帯端末であって、
カメラと、
前記複数の種別の夫々について、複数の撮影条件の下で前記対象物を撮影した画像データ群を教師データとして生成した学習モデルと、
前記カメラによって撮影された前記対象物を含む画像データを前記学習モデルに入力し、前記対象物が分類される種別についての複数の推定候補と前記複数の推定候補夫々に分類される確度とを対応付けた推定結果を前記学習モデルから取得する推定部と、
前記推定結果が予め設定された所定条件を満たす場合に、前記所定条件に対応付けられた追加種別と前記追加種別に前記対象物が分類される確度との対応を前記推定結果に追加して出力する出力部と、を備える、
携帯端末。
前記推定部は、前記対象物が前記カメラによって撮影された撮影時期を取得し、
前記出力部は、前記撮影時期が前記所定条件をさらに満たす場合に、前記所定条件に対応付けられた追加種別と前記追加種別に前記対象物が分類される確度との対応を前記推定結果に追加して出力する、
請求項１に記載の携帯端末。
前記推定部は、前記カメラによって撮影された前記画像データに含まれる前記対象物の色を取得し、
前記出力部は、前記色が前記所定条件をさらに満たす場合に、前記所定条件に対応付けられた追加種別と前記追加種別に前記対象物が分類される確度との対応を前記推定結果に追加して出力する、
請求項１または２に記載の携帯端末。
前記携帯端末は、前記携帯端末の現在位置を取得する位置情報取得部をさらに備え、
前記推定部は、前記対象物が前記カメラによって撮影された撮影場所を前記位置情報取得部から取得し、
前記出力部は、前記撮影場所が前記所定条件をさらに満たす場合に、前記所定条件に対応付けられた追加種別と前記追加種別に前記対象物が分類される確度との対応を前記推定結果に追加して出力する、
請求項１から３のいずれか一項に記載の携帯端末。
複数の種別に分類される対象物をカメラで撮影し、撮影した対象物の種別を推定する情報処理方法であって、
カメラと、前記複数の種別の夫々について、複数の撮影条件の下で前記対象物を撮影した画像データ群を教師データとして生成した学習モデルと、を備える情報処理装置が、
前記カメラによって撮影された前記対象物を含む画像データを前記学習モデルに入力し、前記対象物が分類される種別についての複数の推定候補と前記複数の推定候補夫々に分類される確度とを対応付けた推定結果を前記学習モデルから取得し、
前記推定結果が予め設定された所定条件を満たす場合に、前記所定条件に対応付けられた追加種別と前記追加種別に前記対象物が分類される確度との対応を前記推定結果に追加して出力する、
情報処理方法。
複数の種別に分類される対象物をカメラで撮影し、撮影した対象物の種別を推定する情報処理プログラムであって、
カメラと、前記複数の種別の夫々について、複数の撮影条件の下で前記対象物を撮影した画像データ群を教師データとして生成した学習モデルと、を備える情報処理装置に、
前記カメラによって撮影された前記対象物を含む画像データを前記学習モデルに入力し、前記対象物が分類される種別についての複数の推定候補と前記複数の推定候補夫々に分類される確度とを対応付けた推定結果を前記学習モデルから取得させ、
前記推定結果が予め設定された所定条件を満たす場合に、前記所定条件に対応付けられた追加種別と前記追加種別に前記対象物が分類される確度との対応を前記推定結果に追加して出力させる、
情報処理プログラム。