JP2022021869A

JP2022021869A - 電子機器、撮像装置、電子機器の制御方法およびプログラム

Info

Publication number: JP2022021869A
Application number: JP2020125733A
Authority: JP
Inventors: 睦三河; Atsushi Mikawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2022-02-03
Also published as: CN113973174A; US20220027607A1; US11954935B2

Abstract

【課題】特定の機能を実行する際の被写体の検出性能を向上させることを目的とする。【解決手段】電子機器は、画像データから１以上の被写体を検出する検出手段と、検出された１以上の被写体の特徴量の評価を行う評価手段と、評価の結果に基づいて、１以上の被写体のうち特定の機能の実行に関する所定の基準を満たす被写体を特定する特定手段と、特定された被写体が特定の機能の実行条件を満たすと判定した場合、特定の機能を実行する制御を行う制御手段と、を含む。【選択図】図２

Description

本発明は、電子機器、撮像装置、電子機器の制御方法およびプログラムに関する。

例えば、デジタルカメラは、被写体としての人物の笑顔を自動的に検出し、人物の笑顔が検出されたときに自動的に撮影を行う笑顔シャッター機能を有している場合がある。笑顔シャッター機能を使用して撮影が行われるときに、状況によっては、撮影対象の人物の他に、人の顔が印刷されたポスター等も被写体として検出されることがある。このとき、笑顔シャッター機能により、ポスターに印刷された顔をデジタルカメラが検出し、ユーザが意図しない撮影が行われることがある。関連する技術として、特許文献１の技術が提案されている。特許文献１の技術は、撮像画面内の顔の面積と被写体までの距離とに基づいて、検出した顔が主被写体の顔であるか他の被写体の顔であるかを判定し、主被写体または他の被写体を除く被写体に焦点を合わせている。

特開２０１５－２１９４８７号公報

ここで、特許文献１の技術では、笑顔シャッター機能等のような特定の機能を使用した撮影が行われる場合、撮影シーンによっては、撮影対象の被写体が適切に検出されないことがある。例えば、顔抜き等身大パネルのような顔出しパネルの穴に、撮影対象の人物の顔があるような状況で撮影が行われる場合、パネルを基準として人物の顔も平面的になる。このため、特許文献１の技術のように、撮像画面内の顔の面積と被写体までの距離とに基づいて、撮影対象の人物の顔を検出することは難しい。また、撮像装置の撮影範囲に立体的な人物の造形物があるような場合も同様に、特許文献１の技術では、撮影対象の人物の顔と造形物とを区別することが難しい。以上のような場合、笑顔シャッター機能等のような特定の機能を実行する際の被写体の検出精度が低下する。

本発明は、特定の機能を実行する際の被写体の検出性能を向上させることを目的とする。

上記目的を達成するために、本発明の電子機器は、画像データから１以上の被写体を検出する検出手段と、検出された前記１以上の被写体の特徴量の評価を行う評価手段と、前記評価の結果に基づいて、前記１以上の被写体のうち特定の機能の実行に関する所定の基準を満たす被写体を特定する特定手段と、特定された前記被写体が前記特定の機能の実行条件を満たすと判定した場合、前記特定の機能を実行する制御を行う制御手段と、を備えることを特徴とする。

本発明によれば、特定の機能を実行する際の被写体の検出性能を向上させることができる。

システム全体の構成図である。システムを構成する各装置のハードウェア構成図である。モデル生成サーバおよびデジタルカメラの機能を示すブロック図である。学習モデルの入出力を示す図である。学習データセットの一例を示す図である。被写体評価モデルの更新についてのシステム全体の動作の流れを示す図である。デジタルカメラが実行する処理の流れを示すフローチャートである。ＵＩ表示の一例を示す図である。複数の機能のそれぞれに対応した所定の基準の一例を示す図である。モデル生成サーバが実行する処理の流れを示すフローチャートである。

以下、本発明の実施形態について図面を参照しながら詳細に説明する。しかしながら、以下の実施形態に記載されている構成はあくまで例示に過ぎず、本発明の範囲は実施形態に記載されている構成によって限定されることはない。

図１は、本実施形態のシステム全体の構成図である。図１に示されるように、デジタルカメラ１００とモデル生成サーバ１０２とがネットワーク１０１を介して接続されている。デジタルカメラ１００は撮像装置である。ただし、本実施形態のデジタルカメラ１００は、撮像装置には限定されず、スマートフォンやタブレット端末、パーソナルコンピュータ、ＰＤＡ等の電子機器であってもよい。モデル生成サーバ１０２は、被写体を推定する学習モデルを生成するサーバ装置である。モデル生成サーバ１０２は、クラウドサーバやエッジコンピュータ等であってもよい。モデル生成サーバ１０２は、単一のコンピュータで実現されてもよいし、複数のコンピュータに機能が分散されて実現されてもよい。モデル生成サーバ１０２も、例えば、スマートフォンやタブレット端末等により実現されてもよい。

デジタルカメラ１００は、被写体の撮影を行い、画像データを取得し、画像データから特徴量を抽出する。デジタルカメラ１００は、インターネット等のネットワーク１０１を介して、画像データまたは画像データと特徴量との両者をモデル生成サーバ１０２に送信する。モデル生成サーバ１０２は、被写体を推定する学習モデルを生成し、生成した学習モデルをデジタルカメラ１００に送信する。また、デジタルカメラ１００は、受信した学習モデルを用いて被写体を検出する。このとき、デジタルカメラ１００は、検出された１以上の被写体から、特定の機能を使用した撮影を行う対象とならない被写体を除外する。そして、デジタルカメラ１００は、被写体の状態を判定し、笑顔シャッター機能等の特定の機能の実行条件を満たすときに、撮影を実行する。

図２は、システムを構成する各装置のハードウェア構成図である。まず、デジタルカメラ１００について説明する。デジタルカメラ１００は、撮像系として、バリア２１０、撮影レンズ２１１、シャッター２１２、ＮＤ２１３および撮像部２１４を含む。バリア２１０は、撮像系を覆うことにより、バリア２１０、撮影レンズ２１１、シャッター２１２、ＮＤ２１３および撮像部２１４の汚れや破損等を防ぐための保護部材である。撮影レンズ２１１は、ズームレンズやフォーカスレンズ等を含むレンズ群である。シャッター２１２は、絞り機能を有する。ＮＤ２１３は、撮影時に減光するために用いられるフィルタである。撮像部２１４は、光学像を電気信号（アナログ信号）に変換するＣＣＤやＣＭＯＳ素子等で構成される撮像素子である。Ａ／Ｄ変換器２１５は、撮像部２１４が出力したアナログ信号をデジタル信号に変換する。

画像処理部２１９は、Ａ／Ｄ変換器２１５が出力したデジタル信号やメモリ制御部２１８から入力されたデータに対して、所定の画素補間、縮小といったリサイズ処理や色変換処理等を行う。また、画像処理部２１９は、撮像した画像データ（デジタル信号）を用いて所定の演算処理を行う。システム制御部２５０は、画像処理部２１９が演算した演算結果に基づいて、露光制御や測距制御等を行う。これにより、ＴＴＬ（スルー・ザ・レンズ）方式のＡＦ（オートフォーカス）処理やＡＥ（自動露出）処理、ＥＦ（フラッシュプリ発光）処理が行われる。さらに、画像処理部２１９は、撮像した画像データを用いて所定の演算処理を行い、演算結果に基づいてＴＴＬ方式のＡＷＢ（オートホワイトバランス）処理を行う。

Ａ／Ｄ変換器２１５からの出力データは、画像処理部２１９およびメモリ制御部２１８を介して、またはメモリ制御部２１８を介してメモリ２２０に書き込まれる。メモリ２２０は、Ａ／Ｄ変換器２１５が変換した画像データや、画像データに関連付けて記録されたメタデータ、表示部２１７に表示するための画像データを記憶する。メモリ２２０は、所定枚数の静止画像データや所定時間の動画像データ（音声データを含む）を記憶するために十分な記憶容量を有している。また、メモリ２２０は、画像表示用のメモリ（ビデオメモリ）を兼ねている。Ｄ／Ａ変換器２１６は、メモリ２２０に記憶されている画像表示用のデータをアナログ信号に変換して表示部２１７に供給する。これにより、メモリ２２０に記憶された表示用の画像データは、Ｄ／Ａ変換器２１６を介して表示部２１７に表示される。

表示部２１７は、ＬＣＤ等の表示器上に、Ｄ／Ａ変換器２１６からのアナログ信号に応じた表示を行う。Ａ／Ｄ変換器２１５がＡ／Ｄ変換して、メモリ２２０に蓄積されたデジタル信号をＤ／Ａ変換器２１６がアナログ変換し、表示部２１７に逐次転送する。これにより、表示部２１７は、電子ビューファインダとして機能し、スルー画像表示（ライブビュー表示（ＬＶ表示））を行う。不揮発性メモリ２２８は、電気的に消去および記録可能なメモリである。不揮発性メモリ２２８としては、ＥＥＰＲＯＭ等が適用される。不揮発性メモリ２２８には、システム制御部２５０の動作用の定数やプログラム等が記憶される。不揮発性メモリ２２８に記憶されるプログラムは、本実施形態の処理を実行するためのコンピュータプログラムである。

システム制御部２５０は、少なくとも１つのプロセッサまたは回路を有する。システム制御部２５０は、推論処理を行うためのＧＰＵ（グラフィックス・プロセッシング・ユニット）を有していてもよい。システム制御部２５０は、デジタルカメラ１００全体を制御する。システム制御部２５０は、検出手段、評価手段、特定手段および制御手段に対応する。システムメモリ２２９には、例えばＲＡＭが用いられる。システムメモリ２２９には、システム制御部２５０の動作用の定数や変数、不揮発性メモリ２２８から読み出したプログラム等が展開される。システム制御部２５０がシステムメモリ２２９に展開されたプログラムを実行することで、本実施形態の各処理が実現される。また、システム制御部２５０は、メモリ２２０やＤ／Ａ変換器２１６、表示部２１７等を制御することにより表示制御も行う。システムタイマー２３０は各種制御に用いる時間や、内蔵された時計の時間を計測する。

モード切替スイッチ２２３やトリガーボタン２２２、操作部２２７はシステム制御部２５０に各種の動作指示を入力するための操作部材である。モード切替スイッチ２２３は、システム制御部２５０の動作モードを切り替えるためのモード切替信号を発生する。システム制御部２５０は、モード切替信号により、動作モードを記録モードや再生モード等のうち何れかに切り替える。トリガーボタン２２２は、システム制御部２５０に対して、静止画の撮影の指示や動画の撮影開始または終了の指示を行うためのトリガー（レリーズ）信号を発生する。システム制御部２５０は、トリガー信号により、撮影処理の一連の動作を開始し、撮影処理の一連の動作を終了させる。撮影処理は、撮像部２１４や画像処理部２１９、メモリ制御部２１８を介してメモリ２２０に蓄積されたエンコード済み画像データを、記録媒体２３２に書き込む処理である。

操作部２２７の各操作部材は、表示部２１７に表示される種々の機能アイコンを選択操作すること等により、場面ごとに適宜機能が割り当てられ、各種機能ボタンとして作用する。機能ボタンとしては、終了ボタンや戻るボタン、画像送りボタン、ジャンプボタン、絞込みボタン、属性変更ボタン等がある。例えば、メニューボタンが押されると各種の設定可能なメニュー画面が表示部２１７に表示される。ユーザは、表示部２１７に表示されたメニュー画面と、上下左右の４方向ボタンやＳＥＴボタンとを用いて直感的に各種設定を行うことができる。

タッチパネル２２１は、表示部２１７に対する接触を検知可能なタッチパネルである。タッチパネル２２１と表示部２１７とは一体的に構成することができる。システム制御部２５０は、タッチパネル２２１に対する各種の操作を検出できる。タッチパネル２２１には、抵抗膜方式や静電容量方式、表面弾性波方式、赤外線方式、電磁誘導方式、画像認識方式、光センサ方式等、様々な方式のタッチパネルが適用され得る。外部インターフェース２３３は、デジタルカメラ１００と外部装置とを接続するために設けられる。図２において、インターフェースは「Ｉ／Ｆ」と表記される。外部インターフェース２３３は、例えば、コンポジットビデオ入出力やＨＤＭＩ（登録商標）のような映像入出力端子であってもよいし、ＵＳＢや赤外線や無線通信のインターフェースであってもよい。外部インターフェース２３３にマウス等のポインティングデバイスが接続されることで、ポインティングデバイスをタッチパネル２２１の代わりの入力手段として扱うこともできる。この場合、システム制御部２５０は、外部インターフェース２３３に接続されたマウスの入力を受けて表示部２１７にポインタを表示する。さらに、システム制御部２５０は、マウスの移動やクリック信号を受けて、タッチパネル２２１による操作と同等の制御を行う。

電源制御部２２５は、電池検出回路やＤＣ－ＤＣコンバータ、通電するブロックを切り替えるスイッチ回路等により構成され、電池の装着の有無や電池の種類、電池残量の検出等を行う。また、電源制御部２２５は、上記の検出の結果やシステム制御部２５０からの指示に基づいてＤＣ－ＤＣコンバータを制御し、必要な電圧を必要な期間、記録媒体２３２を含む各部へ供給する。電源部２２６は、アルカリ電池やリチウム電池等の一次電池やＮｉＣｄ電池やＮｉＭＨ電池、Ｌｉ電池等の二次電池、ＡＣアダプター等により実現される電源である。

記録媒体インターフェース２３１は、メモリカードやハードディスク等の記録媒体２３２と接続するために設けられる。記録媒体２３２は、メモリ２２０に記憶された画像データや画像データに付随するメタデータ等を記録する記録媒体であり、半導体メモリや光ディスク、磁気ディスク等から構成される。記録媒体２３２に記録されたデータは、記録媒体インターフェース２３１により読み出されて、メモリ２２０に転送される。メタデータの記録方式としては、静止画ではＥｘｉｆ、動画ではＡＶＣＨＤ規格に準じた方式が適用され得る。通信部２３４は、外部装置（モデル生成サーバ１０２等）と、無線または有線ケーブルにより通信を行う。通信部２３４を介して、映像信号や音声信号等の送受信が行われる。通信部２３４は、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネットとも接続可能である。通信部２３４は撮像部２１４で撮像された画像（スルー画像を含む）や、記録媒体２３２に記録された画像を送信することができる。また、通信部２３４は、外部装置から画像データやその他の各種情報を受信することができる。

次に、モデル生成サーバ１０２について説明する。モデル生成サーバ１０２は、ＣＰＵ２０２、ＲＯＭ２０３、ＲＡＭ２０４、ＨＤＤ２０５、ＮＩＣ２０６、入力部２０７、表示部２０８およびＧＰＵ２０９を有する。ＣＰＵ２０２は、モデル生成サーバ１０２の全体を制御する。ＲＯＭ２０３は、モデル生成サーバ１０２が実行するプログラムや各種のパラメータを記憶する。ＲＡＭ２０４は、ネットワーク１０１を介して、外部装置から供給されるプログラムやデータを一時的に記憶する。ＲＡＭ２０４は、ＲＯＭ２０３から読み出されたプログラムやデータを一時的に記憶してもよい。ＲＡＭ２０４に読み出されたプログラムをＣＰＵ２０２が実行することで、モデル生成サーバ１０２の各処理が実現される。

ＨＤＤ２０５は、モデル生成サーバ１０２に内蔵されるハードディスクドライブである。ＨＤＤ２０５の代わりに、光ディスクや磁気カード、光カード、ＩＣカード等が用いられてもよい。ＮＩＣ２０６は、ネットワーク１０１等の回線に接続するためのネットワークインターフェースカードである。入力部２０７は、各種データを入力するポインティングデバイスやキーボード等の入力デバイスを用いたユーザによる操作を受け付ける。表示部２０８は、モデル生成サーバ１０２が保持するデータや供給されたデータを表示するための表示装置（例えば、ディスプレイ）との間のインターフェースである。表示部２０８は、インターフェースではなく表示装置であってもよい。ＧＰＵ２０９は、多くの並列処理を行うことが可能であり、高速に演算を行うことができる。ＧＰＵ２０９は、表示機能に用いられることが多いが、例えば、ディープラーニングの処理にも好適である。

図３は、モデル生成サーバ１０２およびデジタルカメラ１００の機能を示すブロック図である。デジタルカメラ１００は、データ送受信部３０１、撮像部３０２、画像処理部３０３、ＵＩ表示部３０４、データ記憶部３０５、被写体検出部３０６、被写体評価部３０７およびカメラ制御部３０８を有する。データ送受信部３０１は、デジタルカメラ１００が撮影した画像データや操作部２２７が受け付けたユーザ指示に関する情報をモデル生成サーバ１０２に送信する。また、データ送受信部３０１は、モデル生成サーバ１０２が送信した各種のデータを受信する。データ送受信部３０１は、例えば、通信部２３４に対応する。撮像部３０２は外界の情報を光情報として取得し、画像データに変換する。撮像部３０２は、例えば、撮像部２１４に対応する。

画像処理部３０３は、撮像部３０２が変換した画像データに対して画像処理を施し、また画像データに対して付帯情報（メタデータ等）を付与する。画像処理部３０３は、例えば、画像処理部２１９に対応する。ＵＩ表示部３０４は、操作部２２７で使用するユーザインターフェースの表示や各種情報表示等を行う。ＵＩ表示部３０４は、例えば、表示部２１７およびタッチパネル２２１に対応する。データ記憶部３０５は、被写体評価部３０７が使用する各種の学習モデルのパラメータや撮像部３０２が撮像した画像データを記憶する。データ記憶部３０５は、例えば、システムメモリ２２９やメモリ２２０、記録媒体２３２等により実現される。

被写体検出部３０６は、撮像部３０２が撮像した画像を後述する被写体検出モデル４０１に入力して、画像内に含まれる被写体を検出する。被写体評価部３０７は、被写体検出部３０６が検出した被写体を含む被写体画像を後述する被写体評価モデル４０２に入力して、各被写体の評価値を算出する。被写体検出部３０６および被写体評価部３０７は、例えば、システム制御部２５０やデジタルカメラ１００に内蔵されているＧＰＵ等の専用プロセッサ等により実現される。カメラ制御部３０８は、本実施形態のデジタルカメラ１００の各種の制御を行う。カメラ制御部３０８は、例えば、システム制御部２５０に対応する。

次に、モデル生成サーバ１０２について説明する。モデル生成サーバ１０２は、データ送受信部３１１、データ記憶部３１２、学習用データ生成部３１３、学習部３１４およびサーバ制御部３１５を含む。データ送受信部３１１は、デジタルカメラ１００から画像データを含む各種データや被写体評価部３０７に適用される学習モデルの再学習要求等を受信する。また、データ送受信部３１１は、学習モデルのパラメータ等の各種のデータをデジタルカメラ１００に送信する。データ送受信部３１１は、例えば、ＮＩＣ２０６に対応する。

データ記憶部３１２は、学習部３１４が機械学習を行う際に使用する教師データやデジタルカメラ１００から受信した画像データ、画像データの特徴量等を記憶する。データ記憶部３１２は、例えば、ＲＡＭ２０４やＨＤＤ２０５等により実現される。学習用データ生成部３１３は、デジタルカメラ１００から受信した画像データ等の各種データに基づいて、学習部３１４が機械学習を行うための学習データセットを生成する。生成された学習データセットは、データ記憶部３１２に記憶される。学習部３１４は、データ記憶部３１２に記憶された多くの学習データセットを用いて学習モデルの機械学習を行う。本実施形態では、学習部３１４は被写体検出モデルおよび被写体評価モデルの２つの学習モデルの機械学習を行う。被写体検出モデルおよび被写体評価モデルについては、既に学習済みの学習モデルが用いられる。この場合、学習部３１４は、被写体検出モデルおよび被写体評価モデルの機械学習を行う。また、学習部３１４は、デジタルカメラ１００から受信した再学習要求に基づき、被写体評価モデルの再学習を行う。

本実施形態では、学習部３１４が行う機械学習は、ニューラルネットワークの機械学習（深層学習）であるものとする。ただし、学習部３１４は、サポートベクターマシンや決定木等の機械学習手法を用いて学習モデルの機械学習を行ってもよい。学習部３１４による機械学習は、ＣＰＵ２０２により行われてもよいし、ＧＰＵ２０９により行われてもよいし、ＣＰＵ２０２とＧＰＵ２０９との協働動作により行われてもよい。学習モデルの機械学習が実行される際には、演算処理が多くなるため、ＧＰＵ２０９が用いられることが好ましい。サーバ制御部３１５は、本実施形態のモデル生成サーバ１０２の各種の制御を行う。サーバ制御部３１５は、例えば、ＣＰＵ２０２に対応する。

図４は、学習モデルの入出力を示す図である。本実施形態では、被写体検出モデルと被写体評価モデルとの２つの学習モデルが用いられる。図４の例では、被写体検出モデル４０１および被写体評価モデル４０２は、ニューラルネットワークの例を示しているが、ニューラルネットワーク以外の学習モデルであってもよい。

まず、図４（Ａ）の被写体検出モデル４０１の機械学習について説明する。検出手段としての被写体検出モデル４０１の機械学習には、画像データと教師データとの学習データセットが用いられる。図５は、学習データセットの一例を示す図であり、図５（Ａ）は、被写体検出モデル４０１の機械学習が行われる際の学習データセットの一例を示す。図５（Ａ）に示される画像（画像データ）に、教師データとしての正解ラベルが関連付けられている。被写体検出モデル４０１の機械学習に用いられる画像データは、学習用の全体的な画像（全体画像）である。学習用の画像データは、例えば、デジタルカメラ１００が撮像した画像データが用いられてもよいし、予めモデル生成サーバ１０２が記憶している画像データが用いられてもよい。また、モデル生成サーバ１０２は、学習用の画像データを、外部装置から取得してもよい。

図５（Ａ）の例では、学習データセットとして６つの学習データセット（Ｄａｔａ１～Ｄａｔａ６）が示されている。本実施形態では、検出する被写体は人物（例えば、自活している人物）であるものとする。このため、画像データに人物の被写体が含まれている学習データセットの教師データには、正解ラベルとして「１」が設定される。一方、画像データに人物の被写体が含まれていない学習データセットの教師データには、正解ラベルとして「０」が設定される。例えば、画像データに、人が描かれた絵画やポスター、立体像である人型の像等が含まれているものの人物が含まれていない場合、教師データには、正解ラベルとして「０」が設定される。教師データが「０」に対応する画像データは被写体検出の対象にならない画像データであり、教師データが「１」に対応する画像データは被写体検出の対象になる画像データである。

以上の学習データセットを用いて、モデル生成サーバ１０２の学習部３１４は、被写体検出モデル４０１の機械学習を行う。使用される学習データセットの数は任意であってよいが、例えば、数千～数万である。被写体検出モデル４０１の機械学習が繰り返し行われることにより、被写体検出モデル４０１からの出力の誤差が小さくなるように、被写体検出モデル４０１のパラメータが適正に調整される。例えば、学習部３１４は、上記の誤差が所定値以下となるまで、繰り返し機械学習を行う。

以上の機械学習が行われた被写体検出モデル４０１に、未知の画像データ（全体画像）が入力されると、被写体検出モデル４０１は、未知の画像データの推論処理を行う。そして、被写体検出モデル４０１は、検出した人物の被写体を、被写体検出結果として「０～１」の間の数値で出力する。当該数値は、検出した被写体が人物である確率を示す。被写体検出モデル４０１は、確率が一定値以上の被写体を検出してもよい。

次に、図４（Ｂ）の被写体評価モデル４０２について説明する。評価手段としての被写体評価モデル４０２は学習モデルであり、機械学習が行われる。本実施形態では、被写体評価モデル４０２の機械学習には、図５（Ｂ）のような学習データセットが用いられる。図５（Ｂ）に示されるように、被写体評価モデル４０２の機械学習に用いられる学習用の画像データは、全体画像ではなく、被写体領域を含む部分的な被写体画像である。また、教師データとしては、特徴量１～３が用いられる。特徴量１～３は、図５（Ｂ）の学習用の画像データの輝度情報や色情報等に基づいて特定することができる。例えば、特徴量１は髪の艶感であり、特徴量２は顔の陰影であり、特徴量３は瞳の光沢感である。特徴量１～３には「０～１」の間の数値が、例えばユーザ等により設定されている。特徴量１～３の数値は、被写体画像の被写体についての各特徴量の尤度を示す。学習データセットの特徴量は、図５（Ｂ）の例には限定されない。

モデル生成サーバ１０２は、図５（Ｂ）のような学習データセットを用いて、被写体評価モデル４０２の機械学習を行う。これにより、被写体評価モデル４０２のパラメータが適正に調整される。以上のように機械学習が行われた被写体評価モデル４０２に対して、未知の被写体画像が入力されると、被写体評価モデル４０２は推論処理を行い、評価値として「０～１」の数値を出力する。評価値は、各特徴量に対応する確率を示す値である。機械学習された被写体評価モデル４０２に未知の被写体画像が入力されると、被写体評価モデル４０２は、各特徴量のそれぞれに対応する評価値を出力する。

以上において、被写体検出モデル４０１および被写体評価モデル４０２の機械学習に用いられる学習データセットは、ユーザにより設定されてもよいし、学習部３１４が機械学習を行った結果から得られてもよい。例えば、学習部３１４が、図５（Ａ）のような学習データセットを用いて被写体検出モデル４０１の機械学習を行う。そして、学習用データ生成部３１３が、機械学習された被写体検出モデル４０１からの出力値に基づいて、図５（Ｂ）の各特徴量を解析してもよい。

本実施形態では、被写体検出モデル４０１および被写体評価モデル４０２の機械学習は、モデル生成サーバ１０２の学習部３１４により行われる。そして、デジタルカメラ１００は、モデル生成サーバ１０２から学習済みの被写体検出モデル４０１および被写体評価モデル４０２を取得する。デジタルカメラ１００は、取得した学習済みの被写体検出モデル４０１および被写体評価モデル４０２をデータ記憶部３０５に記憶する。デジタルカメラ１００の被写体検出部３０６は、データ記憶部３０５に記憶された学習済みの被写体検出モデル４０１を用いて、推論処理を行う。また、被写体評価部３０７は、データ記憶部３０５に記憶された学習済みの被写体評価モデル４０２を用いて、推論処理を行う。被写体評価モデル４０２は、再学習により学習済みのパラメータが更新される。この点の詳細は後述する。また、デジタルカメラ１００とモデル生成サーバ１０２とは分離した構成でなく、一体の構成であってもよい。

次に、被写体評価モデル４０２の更新についてのシステム全体の動作について説明する。図６は、被写体評価モデル４０２の更新についてのシステム全体の動作の流れを示す図である。まず、デジタルカメラ１００の電源がＯＮになっている間、被写体検出部３０６は、撮像部３０２が撮影している画像データを入力として、被写体検出を行う。被写体評価部３０７は、検出された被写体を含む被写体画像を入力として、特徴量の評価値を算出し、出力する。システム制御部２５０は、出力された評価値が所定の基準を満たしているかを判定する。所定の基準は、特定の機能を実行するための基準である。例えば、システム制御部２５０は、被写体評価部３０７が出力した評価値が所定の閾値以上であるときに、上記の所定の基準が満たされていると判定してもよい。所定の閾値は、任意の値に設定されてもよい。

本実施形態では、上記の特定の機能は、被写体としての人物が笑顔のときに撮影を行う笑顔シャッター機能であるとする。ただし、特定の機能は、笑顔シャッターには限定されない。システム制御部２５０は、上記の所定の基準が満たされていると判定した場合、撮像部３０２が撮像した画像データをデータ記憶部３０５に記憶する。ここで、図６の１番として、システム制御部２５０は、ＵＩ表示部３０４を介して、ユーザからの特定の操作を受け付けたかを判定する。特定の操作としては、例えば、検出された被写体を被写体から除外する操作や記憶した画像データを消去する操作、笑顔シャッター機能を無効にする操作等がある。これらの特定の操作は、特定の機能に関する操作である。システム制御部２５０は、特定の操作を受け付けた場合、データ記憶部３０５に記憶されている画像データのうち、検出された被写体を含む一定領域の被写体画像および再学習要求をモデル生成サーバ１０２に送信する制御を行う。これにより、データ送受信部３０１は、図６の２番として、モデル生成サーバ１０２に被写体画像および再学習要求を送信する。このとき、データ送受信部３０１は、さらに評価値をモデル生成サーバ１０２に送信してもよい。

モデル生成サーバ１０２の学習用データ生成部３１３は、図６の３番として、受信した被写体画像から抽出された被写体の特徴量を抽出する。そして、学習用データ生成部３１３は、抽出した特徴量に正解ラベルとして所定の値を設定する。所定の値は、「０」または「１」である。そして、学習用データ生成部３１３は、図６の４番として、受信した被写体画像を学習用の画像データとし、抽出された特徴量に設定された正解ラベルを教師データとして、データ記憶部３１２に既に記憶されている学習データセットに追加する。これにより、新たな学習用の画像データと教師データとが追加された学習データセットが生成される。学習部３１４は、新たに生成された学習データセットを用いて、被写体評価モデル４０２の再学習を行う。学習部３１４は、図６の５番として、新たに生成された学習データセットを用いて、被写体評価モデル４０２の再学習を行う。学習部３１４が被写体評価モデル４０２の再学習を行うことにより、被写体評価モデル４０２のパラメータが生成される。このとき、学習部３１４は、最新の学習データセットを用いて被写体検出モデル４０１の機械学習を行ってもよい。

データ送受信部３０１は、図６の６番として、再学習された被写体評価モデル４０２をデジタルカメラ１００に送信する。また、データ送受信部３０１は、機械学習された被写体検出モデル４０１をデジタルカメラ１００に送信してもよい。カメラ制御部３０８は、図６の７番として、データ記憶部３０５に記憶されている被写体評価モデル４０２を、受信した被写体評価モデル４０２に置換する。これにより、デジタルカメラ１００に記憶されている被写体評価モデル４０２が更新される。

次に、デジタルカメラ１００が実行する処理の流れについて説明する。図７は、デジタルカメラ１００が実行する処理の流れを示すフローチャートである。Ｓ７０１で、システム制御部２５０は、モデル生成サーバ１０２から更新された被写体評価モデル４０２を受信したかを判定する。システム制御部２５０は、Ｓ７０１でＹＥＳと判定した場合、フローをＳ７０２に進める。Ｓ７０２で、システム制御部２５０は、デジタルカメラ１００に記憶されている被写体評価モデル４０２を、受信した新たな被写体評価モデル４０２に更新する。このとき、システム制御部２５０は、ユーザ操作に基づいて、被写体評価モデル４０２を更新するか否かを制御してもよい。

図８は、ＵＩ表示の一例を示す図である。Ｓ７０２の処理を実行する前に、システム制御部２５０は、図８（Ａ）に示されるＵＩ（ユーザインターフェース）をＵＩ表示部３０４に表示してもよい。ＵＩ表示部３０４には、更新メッセージ８００が表示される。更新メッセージ８００は、ＮＯボタン８０１およびＹＥＳボタン８０２を含む。更新メッセージ８００は、被写体評価モデルの更新を示すメッセージであり、この更新の許可をユーザに対して促すメッセージである。ＮＯボタン８０１が押下された場合には、システム制御部２５０は、被写体評価モデルの更新を行わず、受信した被写体評価モデルを破棄する。一方、ＹＥＳボタン８０２が押下された場合には、システム制御部２５０は、被写体評価モデルの更新を行う。

図７に示されるように、システム制御部２５０は、Ｓ７０１でＮＯと判定した場合、またはＳ７０３の処理を実行した後、フローをＳ７０３に進める。Ｓ７０３で、システム制御部２５０は、撮像部３０２から取得した画像信号を画像処理部３０３に入力して、画像データとして現像処理を行うことで、画像データを取得する。Ｓ７０４で、システム制御部２５０は、画像データを被写体検出モデル４０１に入力し、被写体検出モデル４０１により被写体が検出されたかを判定する。システム制御部２５０は、被写体検出モデル４０１が被写体を検出したと判定した場合、Ｓ７０４でＹＥＳと判定し、フローをＳ７０５に進める。一方、システム制御部２５０は、被写体検出部３０６が被写体を検出していないと判定した場合、Ｓ７０４でＮＯと判定し、フローをＳ７０１に戻す。

Ｓ７０５で、システム制御部２５０は、特定の機能が有効になっているかを判定する。特定の機能は、上述した特定の機能であり、被写体の状態に依存する機能である。上述したように、特定の機能は、被写体としての人物の表情を解析し、笑顔である場合に撮影を行う笑顔シャッター機能である。システム制御部２５０は、特定の機能が有効になっていると判定した場合、Ｓ７０５でＹＥＳと判定し、フローをＳ７０６に進める。一方、システム制御部２５０は、特定の機能が有効になっていないと判定した場合、Ｓ７０５でＮＯと判定し、フローをＳ７０１に戻す。

Ｓ７０６で、システム制御部２５０は、検出された被写体の領域を含む被写体画像を被写体評価モデル４０２に入力して、被写体画像の被写体を評価する。被写体評価モデル４０２に被写体画像が入力されると、被写体評価モデル４０２は各特徴量のそれぞれに関する評価値を出力する。

Ｓ７０７で、システム制御部２５０は、被写体評価部３０７が出力した評価値が所定の基準を満たすかを判定する。本実施形態では、複数種類の評価値があるものとする。ただし、評価値は１種類であってもよい。評価値は、例えば、図５の特徴量１（髪の艶感）、特徴量２（顔の陰影）および特徴量３（瞳の光沢感）のそれぞれについての評価値である。各評価値は、「０～１」の数値で表される。所定の基準は、各評価値のそれぞれに対応して、所定の閾値として、予め設定されている。システム制御部２５０は、被写体評価部３０７が出力した３つの評価値のうち何れか１つまたは複数が、対応する所定の閾値以上である場合、評価値が所定の基準を満たすと判定してもよい。

ここで、被写体検出モデル４０１は、画像データ（全体画像）から１以上の被写体を検出する。以下、被写体検出モデル４０１は複数の被写体を検出するものとして説明するが、被写体検出モデル４０１は１つの被写体を検出してもよい。図９は、複数の機能のそれぞれに対応した所定の基準の一例を示す図である。例えば、特定の機能が笑顔シャッターである場合、被写体は人物である。このため、システム制御部２５０は、髪の艶感や瞳の光沢感等の評価値が所定の閾値以上であるかに基づいて、評価値が所定の基準を満たすかを判定する。例えば、システム制御部２５０は、図９の笑顔シャッターに対応する２つの判定パラメータを満たす被写体を、評価値が所定の基準を満たすと判定する。ただし、評価値が所定の基準を満たすかの判定は、図９の例には限定されない。

図７に示されるように、システム制御部２５０は、被写体の評価値が所定の基準を満たすと判定した場合、Ｓ７０７でＹＥＳと判定し、フローをＳ７０９に進める。一方、システム制御部２５０は、評価値が所定の基準を満たさない被写体があると判定した場合、Ｓ７０７でＮＯと判定し、フローをＳ７０８に進める。Ｓ７０８で、システム制御部２５０は、所定の基準を満たさないと判定した被写体を、特定の機能の実行対象から除外する。システム制御部２５０がＳ７０７およびＳ７０８の処理を実行することにより、画像データから検出された１以上の被写体のうち、特定の機能の実行に関する所定の基準を満たす被写体を特定する。

例えば、被写体画像に、実際の人物、人物が描かれたポスターおよび人物の造形物が含まれているとする。この場合、人物が描かれたポスターおよび人物の造形物の２つの被写体は、髪の艶感や瞳の光沢感等の評価値から、評価値が所定の基準を満たさないと判定される可能性が高い。一方、実際の人物の被写体は、髪の艶感や瞳の光沢感等の評価値から、評価値が所定の基準を満たすと判定される可能性が高い。この場合、システム制御部２５０は、人物が描かれたポスターおよび人物の造形物の２つの被写体を、特定の機能の実行対象から除外する。つまり、システム制御部２５０は、笑顔シャッター機能等の特定の機能の実行に関する所定の基準を満たす被写体を特定できる。

Ｓ７０９で、システム制御部２５０は、被写体が特定の機能の実行条件を満たしているかを判定する。システム制御部２５０がＳ７０８を実行した場合には、Ｓ７０９の判定対象の被写体は除外されなかった被写体になる。特定の機能の実行条件は、被写体に依存する機能の実行条件である。例えば、特定の機能が笑顔シャッター機能である場合、システム制御部２５０は、判定対象の被写体が笑顔であるかを判定する。このとき、システム制御部２５０は、判定対象の被写体（人物）の目じり付近の曲線や口元の曲線が一定基準を超えている場合に、特定の機能の実行条件を満たしていると判定してもよい。特定の機能が笑顔シャッター機能でない場合、システム制御部２５０は、他の判定指標に基づいて、Ｓ７０９の判定を行う。特定の機能が笑顔シャッター機能である場合であっても、システム制御部２５０は、上記の判定指標とは異なる判定指標に基づいて、Ｓ７０９の判定を行ってもよい。

システム制御部２５０は、Ｓ７０９でＮＯと判定した場合、特定の機能の実行条件を満たす被写体がないため、フローをＳ７０１に戻す。一方、システム制御部２５０は、Ｓ７０９でＹＥＳと判定した場合、特定の機能の実行条件を満たす被写体があるため、フローをＳ７１０に進める。Ｓ７１０で、システム制御部２５０は、撮像部３０２から取得した画像信号を現像処理して画像データとして、記録媒体２３２や不揮発性メモリ２２８等に記憶する。

次に、Ｓ７１１で、システム制御部２５０は、画像データを記憶した後に、対象とする被写体を変更する操作を受け付けたかを判定する。被写体を変更する操作は、特定の操作であり、例えば、ユーザが、ＵＩ表示部３０４を介して行われる。被写体を変更する操作は、ＵＩ表示部３０４に表示されている被写体を再選択する操作や除外する操作等である。また、被写体を変更する操作は、記憶された画像データを削除する操作や特定の機能を無効にする操作等であってもよい。図８（Ｂ）は、ＵＩ画面の表示例を示す。図８（Ｂ）のＵＩ画面において、画像データを削除するか否かを促すポップアップウィンドウ８０３が表示されている。ポップアップウィンドウ８０３はＮＯボタン８０４およびＹＥＳボタン８０５を含む。例えば、ＹＥＳボタン８０５が押下された場合、表示されている画像データ（選択された画像データ）を削除する。画像データの削除は、例えば、デジタルカメラ１００に割り当てられた画像削除機能を示すボタンが押下された場合等に実行されてもよい。

システム制御部２５０は、Ｓ７１１でＹＥＳと判定した場合、フローをＳ７１２に進める。一方、システム制御部２５０は、Ｓ７１１でＮＯと判定した場合、フローをＳ７１３に進める。Ｓ７１２で、システム制御部２５０は、再学習要求、Ｓ７０６で用いられた被写体画像および被写体評価モデル４０２が出力した評価値を、モデル生成サーバ１０２に送信する制御を行う。これにより、再学習要求、被写体画像および評価値がモデル生成サーバ１０２に送信される。Ｓ７１２で、システム制御部２５０は、Ｓ７０６で用いられた被写体画像および被写体評価モデル４０２が出力した評価値を、モデル生成サーバ１０２に送信する制御を行う。このとき、システム制御部２５０は、再学習要求を送信しないように制御する。Ｓ７１２およびＳ７１３において、評価値は送信されなくてもよい。この場合、モデル生成サーバ１０２のＣＰＵ２０２は、受信した被写体画像を解析して、評価値を算出する。以上により、デジタルカメラ１００の処理は終了する。

次に、モデル生成サーバ１０２が実行する処理の流れについて説明する。図１０は、モデル生成サーバ１０２が実行する処理の流れを示すフローチャートである。Ｓ１００１で、ＣＰＵ２０２は、デジタルカメラ１００から被写体画像等のデータを受信したかを判定する。ＣＰＵ２０２は、Ｓ１００１でＮＯと判定した場合、フローをＳ１００１に戻し、デジタルカメラ１００からデータを受信するまで待機する。一方、ＣＰＵ２０２は、Ｓ１００１でＹＥＳと判定した場合、フローをＳ１００２に進める。

Ｓ１００２で、ＣＰＵ２０２は、デジタルカメラ１００から受信したデータに再学習要求が含まれているかを判定する。ＣＰＵ２０２は、Ｓ１００２でＹＥＳと判定した場合、フローをＳ１００３に進める。一方、ＣＰＵ２０２は、Ｓ１００２でＮＯと判定した場合、フローをＳ１００６に進める。Ｓ１００３で、ＣＰＵ２０２は、デジタルカメラ１００から受信した被写体画像および当該被写体画像に対応する各特徴量に所定の値として「０」を設定して、学習データセットに追加する。上述したように、デジタルカメラ１００は、被写体の変更操作がされた場合に、再学習の要求をモデル生成サーバ１０２に送信する。このため、ＣＰＵ２０２は、Ｓ１００３で、被写体画像に対応する各特徴量を「０」として学習データセットに追加する。つまり、受信した被写体画像の被写体は、特定の機能の実行に関しては不正解になる。以上により、学習データセットが更新される。

Ｓ１００４で、ＣＰＵ２０２は、更新された学習データセットを用いた機械学習を学習部３１４に実行させる制御を行う。これにより、更新された学習データセットを用いて、被写体評価モデル４０２の機械学習（再学習）が行われる。このとき、被写体評価モデル４０２の再学習は、既にＨＤＤ２０５等に記憶されている全ての学習データセットを用いて機械学習を行ってもよい。また、被写体評価モデル４０２の再学習は、更新された分の学習データセットを用いて機械学習を行って生成されるパラメータを、学習済みのパラメータに反映することにより行われてもよい。

Ｓ１００５で、ＣＰＵ２０２は、再学習された被写体評価モデル４０２をデジタルカメラ１００に送信する制御を行う。これにより、再学習された被写体評価モデル４０２がデジタルカメラ１００に送信される。Ｓ１００６で、ＣＰＵ２０２は、デジタルカメラ１００から受信した被写体画像および当該被写体画像に対応する各特徴量に所定の値として「１」を設定して、学習データセットに追加する。ＣＰＵ２０２は、再学習の要求を受信していないため、受信した被写体画像に対応する各特徴量を「１」に設定する。以上により、モデル生成サーバ１０２の処理が終了する。

以上のように、本実施形態では、デジタルカメラ１００が特定の機能を実行する際、検出された被写体の特徴量に関する評価値が所定の基準を満たさない被写体は除外される。これにより、笑顔シャッター機能等の特定の機能を使用した撮影を行う際の被写体の検出性能を向上させることができ、被写体を誤認識することを抑制できる。その結果、被写体の誤認識による笑顔シャッター機能等の特定の機能を使用した撮影が行われることを抑制できる。つまり、ユーザが意図しない撮影を抑制することができる。例えば、デジタルカメラ１００の撮影範囲に、ポスターに印刷された人物の顔や立体的な人物の造形物が含まれていたとしても、笑顔シャッター機能を使用した撮影の被写体として認識しないため、意図しない撮影を抑制することができる。また、ユーザ操作に基づき、被写体評価モデル４０２の再学習が行われるため、ユーザの意図に沿った被写体検出ができるとともに、ユーザの操作性も向上する。

上述した実施形態では、被写体の評価に用いられる特徴量としては、髪の艶感、顔の陰影および瞳の光沢感について説明したが、被写体の評価に用いられる特徴量は他の要素であってもよい。例えば、顔の産毛の状態や黒子の有無、血管のライン、手のささくれ、肌の皺、化粧の有無等が、被写体の評価に用いられる特徴量として用いられてもよい。また、時間的に連続して撮影された画像データの差分に基づく被写体の変化（顔の表情変化や四肢の動き等）についての特徴量が被写体の評価に用いられてもよい。さらに、被写体の評価に用いられる特徴量としては、デジタルカメラ１００が有する機能から得られる情報や外部インターフェースに接続される外部機器から取得可能な情報から抽出されてもよい。例えば、被写体までの距離情報や、現在地のＧＰＳ情報や被写体の温度情報、外気温の情報等が被写体の評価に用いられる特徴量として用いられてもよい。

また、上述した実施形態では、被写体検出部３０６および被写体評価部３０７には被写体検出モデル４０１および被写体評価モデル４０２が用いられる例を説明したが、被写体検出部３０６および被写体評価部３０７には学習モデルが用いられなくてもよい。例えば、被写体検出部３０６および被写体評価部３０７は、ルールベースに基づくプログラムをシステム制御部２５０が実行することにより実現されてもよい。また、被写体検出部３０６はルールベースに基づく被写体検出を行い、被写体評価部３０７は被写体評価モデル４０２を用いた評価を行ってもよい。

また、上述した実施形態では、特定の機能として、笑顔シャッター機能が適用される例について説明したが、それぞれ異なる複数の機能について、共通の被写体評価モデル４０２を用いることができる。例えば、一定数の被写体が集合した際に撮影を行う集合写真モードや監視カメラシステム等に導入されている被写体を注視して撮影を行う追尾モードといった各機能に、共通の被写体評価モデル４０２を用いることができる。

以上、本発明の好ましい実施の形態について説明したが、本発明は上述した各実施の形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。本発明は、上述の各実施の形態の１以上の機能を実現するプログラムを、ネットワークや記憶媒体を介してシステムや装置に供給し、そのシステム又は装置のコンピュータの１つ以上のプロセッサがプログラムを読み出して実行する処理でも実現可能である。また、本発明は、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００デジタルカメラ
１０２モデル生成サーバ
２０２ＣＰＵ
２１４撮像部
２５０システム制御部
３０６被写体検出部
３０７被写体評価部
３１４学習部
４０１被写体検出モデル
４０２被写体評価モデル

Claims

画像データから１以上の被写体を検出する検出手段と、
検出された前記１以上の被写体の特徴量の評価を行う評価手段と、
前記評価の結果に基づいて、前記１以上の被写体のうち特定の機能の実行に関する所定の基準を満たす被写体を特定する特定手段と、
特定された前記被写体が前記特定の機能の実行条件を満たすと判定した場合、前記特定の機能を実行する制御を行う制御手段と、
を備えることを特徴とする電子機器。
前記特徴量の評価は、学習用の画像データおよび教師データとしての特徴量を含む複数の学習データセットを用いて機械学習された学習モデルにより行われることを特徴とする請求項１に記載の電子機器。
被写体に関する特定の操作を受け付けた場合、前記学習モデルの再学習を要求することを特徴とする請求項２に記載の電子機器。
前記特定の操作は、検出された前記１以上の被写体の何れかを除外する操作であることを特徴とする請求項３に記載の電子機器。
前記特定の操作は、検出された前記被写体を含む画像データを削除する操作であることを特徴とする請求項３に記載の電子機器。
前記特定の操作は、前記特定の機能を無効にする操作であることを特徴とする請求項３に記載の電子機器。
前記学習モデルは、前記再学習の要求とともに送信された前記特定の操作に対応する画像データおよび所定の値が設定された特徴量を追加して、前記再学習がされることを特徴とする請求項３乃至６のうち何れか１項に記載の電子機器。
前記制御手段は、前記再学習がされた学習モデルを受信した場合、受信した当該学習モデルへの更新の許可を促す画面を表示する制御を行うことを特徴とする請求項７に記載の電子機器。
前記更新の許可がされなった場合、前記再学習がされた学習モデルは破棄されることを特徴とする請求項８に記載の電子機器。
それぞれ異なる複数の前記特定の機能に関する特徴量の評価には、共通の前記学習モデルが用いられることを特徴とする請求項２乃至９のうち何れか１項に記載の電子機器。
前記被写体の特徴量は、髪の艶感と、顔の陰影と、瞳の光沢感と、顔の産毛の状態と、黒子の有無と、血管のラインと、手のささくれと、肌の皺と、化粧の有無と、ＧＰＳ情報と、被写体の温度情報と、外気温の情報とのうち何れかまたは組み合わせであることを特徴とする請求項１乃至１０のうち何れか１項に記載の電子機器。
前記被写体の特徴量は、連続した前記画像データの差分に基づく被写体の変化の特徴量であることを特徴とする請求項１乃至１０のうち何れか１項に記載の電子機器。
撮像部と、
請求項１乃至１２のうち何れか１項に記載の電子機器と、
を備えることを特徴とする撮像装置。
画像データから１以上の被写体を検出する工程と、
検出された前記１以上の被写体の特徴量の評価を行う工程と、
前記評価の結果に基づいて、前記１以上の被写体のうち特定の機能の実行に関する所定の基準を満たす被写体を特定する工程と、
特定された前記被写体が前記特定の機能の実行条件を満たすと判定した場合、前記特定の機能を実行する制御を行う工程と、
を備えることを特徴とする電子機器の制御方法。
請求項１乃至１２のうち何れか１項に記載の電子機器の各手段をコンピュータに実行させるためのプログラム。