JP2022161107A - 電子機器および制御方法 - Google Patents

電子機器および制御方法 Download PDF

Info

Publication number
JP2022161107A
JP2022161107A JP2021065662A JP2021065662A JP2022161107A JP 2022161107 A JP2022161107 A JP 2022161107A JP 2021065662 A JP2021065662 A JP 2021065662A JP 2021065662 A JP2021065662 A JP 2021065662A JP 2022161107 A JP2022161107 A JP 2022161107A
Authority
JP
Japan
Prior art keywords
moving image
feature amount
face
control unit
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021065662A
Other languages
English (en)
Inventor
夏綺 内田
Natsuki Uchida
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2021065662A priority Critical patent/JP2022161107A/ja
Priority to US17/714,755 priority patent/US20220327865A1/en
Priority to CN202210367570.9A priority patent/CN115205921A/zh
Publication of JP2022161107A publication Critical patent/JP2022161107A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

【課題】動画に含まれる人物がユーザと親しい人物であるかに基づき所定の処理を行う電子機器を提供する。【解決手段】静止画を記憶する記憶部と、制御部と、を備え、前記制御部は、前記静止画に含まれる複数の顔のそれぞれの特徴量を算出し、前記複数の顔のそれぞれの特徴量を、特徴量の類似度に基づいてクラスタリングにより、1つ以上のグループにグループ化し、前記1つ以上のグループのグループごとに当該グループ含まれる特徴量から1つの特徴量を選択し、前記グループごとに選択された特徴量を含む登録顔情報を前記記憶部に記憶させ、動画に含まれる少なくとも1つの顔の特徴量を算出し、前記動画に含まれる少なくとも1つの顔の特徴量および前記登録顔情報に基づいて、前記動画に対して所定の処理を行う電子機器。【選択図】図1

Description

本発明は、電子機器および制御方法に関する。
動画の、静止画の記録日時に対応する部分からダイジェスト用に好ましい部分を自動抽出することができる画像処理装置が知られている(例えば、特許文献1参照)。
特開2013-239797号公報
従来技術では、動画に含まれる人物がユーザと親しい人物であるか否かの判定が困難であり、そのため、ユーザと親しい人物を自動で拡大表示する処理や、ユーザと親しい人物が映っているシーンを自動で抽出する等の処理が困難である。
本発明の一態様は、動画に含まれる人物がユーザと親しい人物であるかに基づき所定の処理を行う電子機器を提供することを目的とする。
本発明の一態様に係る電子機器は、静止画を記憶する記憶部と、制御部と、を備え、前記制御部は、前記静止画に含まれる複数の顔のそれぞれの特徴量を算出し、前記複数の顔のそれぞれの特徴量を、特徴量の類似度に基づいてクラスタリングにより、1つ以上のグループにグループ化し、前記1つ以上のグループのグループごとに当該グループ含まれる特徴量から1つの特徴量を選択し、前記グループごとに選択された特徴量を含む登録顔情報を前記記憶部に記憶させ、動画に含まれる少なくとも1つの顔の特徴量を算出し、前記動画に含まれる少なくとも1つの顔の特徴量および前記登録顔情報に基づいて、前記動画に対して所定の処理を行う電子機器。
本発明の一態様に係る制御方法は、静止画に含まれる複数の顔のそれぞれの特徴量を算出し、前記複数の顔のそれぞれの特徴量を、特徴量の類似度に基づいてクラスタリングにより、1つ以上のグループにグループ化し、前記1つ以上のグループのグループごとに当該グループ含まれる特徴量から1つの特徴量を選択し、前記グループごとに選択された特徴量を含む登録顔情報を記憶部に記憶させ、動画に含まれる少なくとも1つの顔の特徴量を算出し、前記動画に含まれる少なくとも1つの顔の特徴量および前記登録顔情報に基づいて、前記動画に対して所定の処理を行う処理を備える。
第1の実施の形態に係る電子機器の構成図の一例である。 第1の実施の形態に係る登録顔情報の生成処理のフローチャートの一例である。 静止画像および顔特徴量のクラスタリングを説明する図である。 顔特徴量のクラスタリングに基づく登録顔情報の生成を説明する図である。 第1の実施の形態に係る電子機器の表示処理を示すフローチャートである。 第1の実施の形態に係る電子機器の表示処理を示すフローチャートである。 第1の実施形態に係る電子機器の表示部の表示例を示す図である。 第1の実施形態に係る電子機器の表示部の表示例を示す図である。 第2の実施の形態に係る電子機器の構成図の一例である。 第2の実施の形態に係る電子機器のマーキング処理を示すフローチャートである。
以下、実施の形態について、図面を参照しつつ説明する。なお、図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。
(第1の実施の形態)
図1は、第1の実施の形態に係る電子機器の構成図の一例である。
電子機器101は、カメラ(撮像部)111、制御部121、記憶部171、および表示部181を有する。電子機器101は、例えば、スマートフォン、タブレット、またはパーソナルコンピュータ(PC)である。
カメラ111は、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)等の撮像素子を有し、静止画像および動画を撮影可能である。
制御部121は、電子機器101を制御する。制御部121は、記憶部171に記憶された各種のアプリケーションソフトウェア(不図示)を実行可能である。制御部121は、画像取得部122、第1判定部123、登録顔情報生成部131、表示制御部141、選択部151、抽出部152、およびAIエンジン153を有する。制御部121は、例えば、CPU(Central Processing Unit)等のプロセッサ、または集積回路(IC(Integrated Circuit)チップ)等に形成された論理回路(ハードウェア)である。
画像取得部122は、カメラ111が撮影した静止画像を取得し、記憶部171に静止画像172を記憶させる。また、画像取得部122は、カメラ111が撮影した動画像(動画)を取得し、記憶部171に動画像174を記憶させる。
第1判定部(静止画有無判定部)123は、未処理の静止画像172があるか否か判定する。具体的には、第1判定部123は、後述の顔検出部132により顔が写っているか否か判定されていない静止画像172があるか否か判定する。また、第1判定部123は、登録顔情報173の生成のトリガーが発生したか否か判定する。
登録顔情報生成部131は、静止画像172に基づき、登録顔情報173を生成する。登録顔情報生成部131は、顔検出部132、特徴量算出部133、第2判定部134、およびクラスタリング部135を有する。
顔検出部132は、静止画像172に写っている顔を検出する。具体的には、顔検出部132は、静止画像172に顔が写っている否か判定し、顔が写っていると判定された場合、顔の位置(例えば、顔が含まれる矩形の領域を示す座標)を検出する。尚、静止画像172に写っている顔が複数である場合、顔検出部132は、複数の顔のそれぞれの位置を検出する。
特徴量算出部133は、顔検出部132により検出された顔(すなわち、顔検出部132により検出された位置の顔)の特徴量(顔特徴量)を算出する。顔特徴量は、例えば、顔の特徴を数値化した値であり、複数の値を要素とする特徴ベクトルである。特徴量算出部133は、例えば、顔を構成する造作(目・鼻・口など)の位置やあごの輪郭線形状を数値的に表し、特徴ベクトルとする。
第2判定部(顔特徴量有無判定部)134は、特徴量算出部133により算出された顔特徴量の数が閾値以上あるか否か判定する。閾値は、予め定められており、例えば、3である。尚、閾値は、3に限られず、1以上の整数であればよい。
クラスタリング部135は、顔特徴量間の類似度に基づいてクラスタリングを行い、顔特徴量を1以上のグループにグループ化する。クラスタリング部135は、各グループからそのグループに含まれる顔特徴量を1つずつ選択し(選択された顔特徴量は代表ベクトルと称する)、選択した代表ベクトルと優先度とを対応付けて、登録顔情報173として、記憶部171に記憶させる。優先度は、例えば、動画像174のあるフレームに複数の顔が映っている場合に、どの顔の人物に対して所定の処理(例えば、ズームイン)等の処理を適用するかの判定基準として用いられる。優先度は、例えば、グループに含まれる顔特徴量の数が多いほど優先度は高くなる。例えば、ある代表ベクトルに対応付けられる優先度は、当該代表ベクトルが含まれるグループに含まれる顔特徴量の数である。
表示制御部141は、表示部181の表示の制御を行い、例えば、記憶部171に記憶されている静止画像および動画像174を表示部181に表示させる。選択部151からズーム領域情報を取得したときには、表示制御部141は、当該ズーム領域情報を参照して、拡大表示対象になる被写体が含まれる領域をズームイン(拡大)して動画像174を表示部181に表示させる。ズーム領域情報には、被写体が含まれる領域の範囲、および、当該領域の拡大率が含まれる。
選択部151は、動画像174に含まれる被写体の各々に関する情報を参照して、動画像174に含まれる被写体から拡大表示対象を選択する処理を行う。詳細には、選択部151は、拡大表示対象を選択する処理において、抽出部152から取得した、AIエンジン153の認識結果を利用して動画像174におけるズーム領域を選択し、ズーム領域の範囲を含むズーム領域情報を作成する。そして、選択部151は、拡大表示対象として選択した被写体が含まれる領域の拡大率を決定し、当該拡大率を上記ズーム領域情報に追加して、当該ズーム領域情報を表示制御部141に出力する。
抽出部152は、記憶部171に記憶されている動画像174から、当該動画像174に含まれる被写体および当該被写体の各々に関する被写体情報(情報)を抽出する処理を行う。当該被写体情報は、被写体の名称、被写体の大きさ、被写体の位置、被写体における顔の有無、被写体の顔の表情、被写体の動き、被写体の向き、被写体の数、被写体の明るさ、および、被写体の構図情報の少なくとも何れか1つを含む。詳細には、抽出部152は、AIエンジン153を制御する部分として、動画像174をAIエンジン153に解析させて、AIエンジン153の認識結果を選択部151に出力する。
なお、被写体の名称とは、被写体の種類(人、犬、猫など)を含み、被写体が人である場合には、当該被写体の個人名を含んでもよい。
また、被写体の構図情報とは、動画のフレームの構図情報であって、被写体およびその背景によって規定される構図の良し悪しを意味し、より詳細には当該構図に関する評価値を含むことが好ましい。
AIエンジン153は、動画像174を解析して、動画像174に含まれる被写体に関する認識結果を、抽出部152を通じて選択部151に出力する。例えば、AIエンジン153は、動画像174において構図判定を行う。構図判定とは、ズーム後の画像の、構図に関する評価値が所定値以上か否かを判定することである。AIエンジン153は、一般によい構図であると認識されている画像を学習し、そのような画像に近い動画像174に高いスコア(評価値)を付与する。AIエンジン153は、動画像174において物体認識を行う。物体認識とは、動画像174において、人、犬、猫などの特定の物体を認識することである。
記憶部171は、電子機器101で利用されるデータおよびプログラム等を記憶する。記憶部171は、例えば、フラッシュメモリまたはHDD(ハードディスクドライブ)等の記憶装置である。また、記憶部171は、SDメモリーカードまたはUSBメモリ等の可搬型記録媒体でもよい。記憶部171は、静止画像172、登録顔情報173、および動画像174を記憶する。
静止画像172は、例えば、カメラ111により撮影された静止画の画像データである。また、静止画像172は、複数の静止画像であってもよく、静止画像172が複数(例えば、m個)である場合には、複数の静止画像172をそれぞれ静止画像172-1~171-mと表記する場合がある。
登録顔情報173は、静止画像172に含まれる顔の特徴量に基づいて生成される情報である。登録顔情報173は、例えば、電子機器101のユーザと親しい人物の顔の特徴量を含む。登録顔情報173の詳細については後述する。
動画像174は、例えば、カメラ111により撮影された複数のフレームから構成される動画データである。
表示部181は、静止画像172および動画像174を表示する。また、表示部181は、静止画像172および動画像174の撮影時には、電子ファインダとして機能する。表示部181は、例えば、液晶パネルまたは有機ELパネル等である。また、表示部181は、タッチパネル機能を有し、ユーザによる入力操作が可能である。
次に登録顔情報173の生成について図2~4を参照しながら説明する。
図2は、第1の実施の形態に係る登録顔情報の生成処理のフローチャートの一例である。図3は、静止画像および顔特徴量のクラスタリングを説明する図である。図4は、顔特徴量のクラスタリングに基づく登録顔情報の生成を説明する図である。
ステップS201において、ユーザの入力操作により、画像取得部122は、カメラ111を用いて静止画像172を撮影するアプリケーションソフトウェアを実行し、カメラ111により静止画像172を撮影し、カメラ111から静止画像172を取得する。例えば、図3の左側に示すように、人物301、302が写った静止画像172-1が撮影される。
ステップS202において、画像取得部122は、取得した静止画像172を記憶部171に記憶させる。ステップS201、S202は、ユーザが静止画像172を撮影するアプリケーションソフトウェアの実行開始から終了するまで、静止画像172を撮影するたびに繰り返される。ここでは、図3の中央に示すように、複数の静止画像172-1~172-mが撮影され、記憶部171に記憶される場合を説明する。ユーザは、撮影を終了すると、静止画像172を撮影するアプリケーションソフトウェアを終了する入力操作を行い、画像取得部122は、当該アプリケーションソフトウェアを終了する。
ステップS203において、画像取得部122は、登録顔情報173の生成のトリガーが発生したか否か判定し、トリガーが発生したと判定された場合、制御はステップS204に進む。画像取得部122は、トリガーが発生したと判定されるまで、登録顔情報173の生成のトリガーが発生したか否かの判定を繰り返す。登録顔情報173の生成のトリガーは、例えば、電子機器101の充電が開始されたとき、または現在の時刻が予め定められた時刻になった場合などである。よって、画像取得部122は、例えば、電子機器101の充電が開始されたとき、または現在の時刻が予め定められた時刻になった場合などに、登録顔情報173の生成のトリガーが発生したと判定する。
ステップS204において、第1判定部123は、記憶部171に記憶された静止画像172のうち未処理の静止画像があるか否か判定する。具体的には、第1判定部123は、記憶部171に記憶された静止画像172-1~172-mのうち、ステップS205で顔が写っているか否か判定されていない静止画像があるか否か判定する。未処理の静止画像がある(すなわち、ステップS205で顔が写っているか否か判定されていない静止画像がある)と判定された場合(ステップS204:Yes)、制御はステップS205に進み、未処理の静止画像がない(すなわち、ステップS205で顔が写っているか否か判定されていない静止画像がない)と判定された場合(ステップS204:No)、制御はステップS208に進む。
ステップS205において、顔検出部132は、未処理の静止画像(記憶部171に記憶された静止画像172-1~172-mのうち、ステップS205で顔が写っているか否か判定されていない静止画像)のうち、いずれか1枚の静止画像を選択し、当該選択された静止画像に顔が写っているか否か判定する。顔が写っていると判定された場合(ステップS205:Yes)、制御はステップS206に進み、顔が写っていないと判定された場合(ステップS205:No)、制御はステップS204に戻る。
ステップS206において、顔検出部132は、ステップS205で顔が写っていると判定された静止画像において、当該顔の位置を検出する。尚、静止画像に写っている顔が複数である場合、顔検出部132は、複数の顔のそれぞれの位置を検出する。顔の位置は、例えば、顔が含まれる矩形の領域を示す座標であり、図3の中央に示す静止画像の171-1に示すように、人物301、302のそれぞれの顔を含む矩形の領域を示す座標が顔の位置として検出される。
ステップS207において、特徴量算出部133は、ステップS206で検出された顔の位置に基づいて、当該顔の特徴量(顔特徴量)を算出する。尚、ステップS206で複数の顔の位置が検出された場合、特徴量算出部133は、顔検出部132は、複数の顔のそれぞれの位置に基づいて、複数の顔のそれぞれの顔特徴量を算出する。特徴量算出部133は、算出した顔特徴量とIDとを対応付けた顔特徴量データを記憶部171に記憶させる。IDは、静止画像172-1~172-mに含まれる顔を識別する識別情報であり、特徴量算出部133は、顔ごとに異なるIDを割り当てる。
静止画像172-1~172-mに対して、ステップS204~S207の処理が行われることにより、図4に左側に示すような、静止画像172-1~172-mに含まれる複数の顔のそれぞれの顔特徴量とIDとが対応付けられた顔特徴量データ401が生成される。例えば、静止画像172-1~172-mにn個の顔が写っている場合、図4に示すようにn個の顔特徴量を含む顔特徴量データ401が生成される。また、顔特徴量データ401の顔特徴量は、それぞれk個の要素を有するk次元の特徴ベクトルである。
ステップS208において、第2判定部134は、顔特徴量データ401に含まれる顔特徴量の数が閾値以上であるか否か判定する。閾値は、予め定められており、例えば、3である。尚、閾値は、3に限られず、1以上の整数であればよい。顔特徴量の数が閾値以上であると判定された場合、制御はステップS209に進み、顔特徴量の数が閾値未満であると判定された場合、登録顔情報の生成処理は終了する。
ステップS209において、クラスタリング部135は、顔特徴量データ401に含まれる複数の顔特徴量を、顔特徴量間の類似度に基づいて、クラスタリングにより、1つ以上のグループにグループ化する。すなわち、クラスタリング部135は、類似度が高い顔特徴量を同じグループに含まれるようにグループ化する。顔特徴量間の類似度は、例えば、顔特徴量間のユークリッド距離などである。顔特徴量間のユークリッド距離が短いほど、顔特徴量間の類似度は高くなる。例えば、同じ人物の顔の顔特徴量は、顔特徴量間の類似度が高いため、同じグループに含まれる。
ここで、クラスタリングの結果の一例を示す。図3の右側の図は、クラスタリングの結果を分かり易くするため、顔特徴量を2次元ベクトルとして模式的に表した図であり、各点が顔特徴量を示す。図3の右側の図に示すように、類似度が高い顔特徴量が同じグループに含まれるようにグループ化され、顔特徴量はグループG1~G3のいずれかのグループに含まれるようにグループ化される。
ステップS210において、クラスタリング部135は、ステップS209でグループ化された顔特徴量に基づいて、登録顔情報173を生成し、記憶部171に記憶させる。具体的には、クラスタリング部135は、グループごとに当該グループ含まれる顔特徴量から1つの顔特徴量を選択し、グループを示すIDと、選択した顔特徴量(代表ベクトル)と、優先度と、を対応付けて登録顔情報173として記憶部171に記憶させる。尚、クラスタリング部135は、グループから選択する1つ顔特徴量を任意に選択してよい。クラスタリング部135は、例えば、グループに含まれる顔特徴量のうち、一番小さいIDに対応する顔特徴量を選択する。また、クラスタリング部135は、グループごとに当該グループ含まれる顔特徴量から1つの顔特徴量を選択する代わりに、グループごとに当該グループに含まれる顔特徴量の平均値または中央値を算出し、算出した平均値または中央値と、優先度と、を対応付けて登録顔情報173として記憶部171に記憶させてもよい。優先度は、例えば、グループに含まれる顔特徴量の数に基づいて決定され、グループに含まれる顔特徴量の数が多いほど優先度は高くなる。例えば、ある代表ベクトルに対応付けられる優先度は、当該代表ベクトルが含まれるグループに含まれる顔特徴量の数である。顔特徴量に対応する優先度が高いほど、当該顔特徴量の顔の人物は静止画像172に多く写っている人物であり、電子機器101のユーザとより親しい人物であると考えられる。
図4の中央に示すように、顔特徴量データ401のID=1に対応する顔特徴量=(0.2, 0.5, ..., 0.2)とID=5に対応する顔特徴量=(0.2, 0.5, ..., 0.4)とが同じグループ(グループa)にグループ化される。クラスタリング部135は、当該グループaに含まれる顔特徴量から1つの顔特徴量としてID=1に対応する顔特徴量=(0.2, 0.5, ..., 0.2)を選択し、当該グループaに含まれる顔特徴量の数=2を優先度として決定する。図4の右側に示すように、クラスタリング部135は、当該グループaを示すID=aと、選択されたID=1に対応する顔特徴量=(0.2, 0.5, ..., 0.2)と、優先度=2とを対応付けて登録顔情報173として、記憶部171に記憶させる。
同様に、図4の中央に示すように、顔特徴量データ401のID=4に対応する顔特徴量=(0.6, 0.6, ..., 0.1)と、顔特徴量=(0.6, 0.6, ..., 0.3)と、顔特徴量=(0.6, 0.6, ..., 0.2)とが同じグループ(グループb)にグループ化される。当該グループbからID=4に対応する顔特徴量=(0.6, 0.6, ..., 0.1)が選択され、当該グループbに含まれる顔特徴量の数=3が優先度として決定される。そして、当該グループbを示すID=bと、選択されたID=4に対応する顔特徴量=(0.6, 0.6, ..., 0.1)と、優先度=3とが対応付けて登録顔情報173として、記憶部171に記憶される。
図5A、5Bは、第1の実施の形態に係る電子機器の表示処理を示すフローチャートである。図6、7は、第1の実施形態に係る電子機器の表示部の表示例を示す図である。以下、図5A~図7を参照しながら、制御部121の表示処理について説明する。
制御部121の表示処理は、例えば、ユーザが電子機器101にインストールされた動画再生アプリケーションソフトウェア(動画再生アプリ)を起動することにより開始される。尚、記憶部171には、カメラ111により撮影された動画像174が記憶されているものとする。動画再生アプリが起動されると、表示制御部141は、動画像174を再生する。すなわち、表示制御部141は、記憶部171に記憶されている動画像174をズームせずにそのままのサイズで表示部181に表示させる。
そして、表示制御部141は、動画像174を表示部181に表示させる処理において、動画像174を再生しながら、ユーザの操作に応じて、動画像174の全体表示と、動画像174に含まれる被写体の拡大表示とを切り替える。表示制御部141は、動画再生処理が、動画像174の被写体を拡大表示するズームモードに移行したことに応じて、AIエンジン153を利用して決定された領域をズームイン再生する。
(ステップS501)
制御部121は、AIエンジン153を起動する。
(ステップS502)
制御部121は、動画再生処理がズームモードであるか否かを判定する。制御部121は、例えば、ユーザが被写体の拡大表示のために操作するズームイン再生ボタンを表示部181に表示させる。そして、ズームイン再生ボタンをユーザがタッチした場合に、制御部121の動画再生処理がズームモードに移行する。なお、ユーザがズームイン再生ボタンを再度タッチした場合、または、ズームイン再生が所定時間行われた場合に、ズームモードが解除される。
動画再生処理がズームモードである場合(ステップS502:YES)、制御部121は、ステップS503の判定を実行する。すなわち、抽出部152は、動画から被写体および当該被写体の各々に関する情報を抽出する処理において、動画像174に含まれる被写体の拡大表示に切り替えられたことに応じて、動画像174から被写体および当該被写体の各々に関する情報を抽出する(抽出ステップ)。一方、動画再生処理がズームモードでない場合(ステップS502:NO)、制御部121は、ステップS511の処理を実行する。
(ステップS503)
抽出部152は、ステップS501において起動したAIエンジン153を用いて、そのときに再生中の動画像174のフレームにズーム対象が存在するか否かを判定する。
例えば、AIエンジン153は、動画像174を拡大した画像に構図としてよい(構図に関する評価値が所定値以上である)ものがあるか否かを判定する。「動画像174を拡大した画像」とは、AIエンジン153が抽出した物体、人物などを含む領域を拡大した場合の画像である。
また、AIエンジン153は、動画像174に人、犬、猫などの特定の物体があるか否かを判定する。なお、制御部121は、上記以外の方法により、ズーム対象の存否判定を行ってもよい。
動画像174にズーム対象が存在する場合(ステップS503:YES)、制御部32は、ステップS504の判定を実行する。動画像174にズーム対象が存在しない場合(ステップS503:NO)、制御部121は、ステップS511の処理を実行する。
(ステップS504)
AIエンジン153は、ステップS503で存在すると判定されたズーム対象が人物であるか否か判定する。ズーム対象が人物であると判定された場合(ステップS504:Yes)、制御はステップS505に進み、ズーム対象が人物でないと判定された場合(ステップS504:No)、制御はステップS508に進む。AIエンジン153は、例えば、ズーム対象から人の顔を検出できる場合に、ズーム対象が人物であると判定する。
(ステップS505)
AIエンジン153は、ズーム対象である人物の顔特徴量を算出する。尚、ズーム対象である人物が複数いる場合には、AIエンジン153は、複数の人物のそれぞれの顔特徴量を算出する。例えば、図6に示すように表示部181表示されている動画像174のフレームには、人物A~Dが映っており、人物A~Dがズーム対象であるとすると、AIエンジン153は、人物A~Dのそれぞれの顔特徴量を算出する。
(ステップS506)
AIエンジン153は、ステップS505で算出した顔特徴量と類似度が高い顔特徴量が登録顔情報173にあるか否か判定する。AIエンジン153は、例えば、ステップS505で算出した顔特徴量と登録顔情報173のいずれかの顔特徴量との距離(例えば、ユークリッド距離)があらかじめ定められた閾値以下の場合、ステップS505で算出した顔特徴量と類似度が高い顔特徴量が登録顔情報173にあると判定する。ステップS505で算出した顔特徴量と類似度が高い顔特徴量が登録顔情報173にあると判定された場合(ステップS506:Yes)、制御はステップS507に進み、ステップS505で算出した顔特徴量と類似度が高い顔特徴量が登録顔情報173にないと判定された場合ステップS506:No)、制御はステップS511に進む。尚、ズーム対象である人物が複数おり、ステップS505で複数の顔特徴量が算出された場合には、AIエンジン153は、複数の顔特徴量のそれぞれについて、類似度が高い顔特徴量が登録顔情報173にあるか否か判定し、類似度が高い顔特徴量が1つ以上あると判定された場合、制御はステップS507に進む。
(ステップS507)
AIエンジン153は、類似度が高い顔特徴量が登録顔情報173にあると判定された顔特徴量の算出に用いられた顔の人物をズーム対象に設定する。また、類似度が高い顔特徴量が登録顔情報173にあると判定された顔特徴量が複数ある場合、複数の顔特徴量のいずれかと類似度が高いと判定された登録顔情報173の顔特徴量のうち、一番高い優先度に対応する顔特徴量と類似度が高いと判定された顔特徴量の算出に用いられた顔の人物をズーム対象に設定する。また、ステップS507で設定したズーム対象の人物以外の人物は、ズーム対象から除外する。例えば、図6に示す動画像のフレームの人物A~Dのうち、人物Aと人物Cの顔特徴量について、類似度が高い顔特徴量が登録顔情報173にないと判定され、人物Bの顔特徴量は図4に示す登録顔情報173の優先度=3に対応する顔特徴量と類似度が高いと判定され、人物Dの顔特徴量は図4に示す登録顔情報173の優先度=2に対応する顔特徴量と類似度が高いと判定された場合、AIエンジン153は、このうちで優先度が一番高い(すなわち、優先度=3)顔特徴量と類似度が高いと判定された顔特徴量の人物Bをズーム対象に設定する。また、AIエンジン153は、人物A、C、Dをズーム対象から除外する。優先度が一番高い顔特徴量と類似度が高いと判定された顔特徴量の人物Bは、人物A~Dのうち静止画172-1~172-mに一番多く写っていた人物であり、人物A~Dのうちでユーザと一番親しい人物と考えられる。
(ステップS508)
制御部121は、AIエンジン153を用いて、1以上のズーム対象がズーム条件を満たしているか否かを判定する。これは、ステップS503で動画像174のフレームに存在すると判定した、1以上のズーム対象が実際に拡大表示すべきものか否かをさらに判定するものである。尚、ステップS503で動画像174のフレームに存在すると判定したズーム対象が人物である場合(ステップS504:Yes)、AIエンジン323は、ステップS507で設定したズーム対象について、ズーム条件を満たしているか否かを判定する。
例えば、AIエンジン153は、各ズーム対象の、下記条件ごとのスコアを算出する。抽出部152は、算出したスコアを選択部151に出力する。選択部151は、下記条件の優先順位に応じて、ズーム対象ごとに各スコアを重み付けして合計し、その合計値によって、ズーム対象ごとにズーム条件を満たしているか否かを判定する。選択部151は、特に、被写体の大きさ、被写体の位置、被写体における顔の有無、および、被写体の顔の表情に関する評価を行って、ズーム対象ごとにスコアを算出してもよい。
・被写体の大きさ(所定の大きさ以上)
・被写体が写っている位置(画像全体の中心付近)
・被写体における顔の有無(顔が含まれているか否か)
・被写体の顔の表情(笑顔か否か)
・被写体の動き
・被写体の向き
・被写体の数
・被写体の明るさ
・被写体の構図
ズーム対象のいずれかがズーム条件を満たしていると判定された場合(ステップS508:Yes)、制御部121は、ステップS509の処理を実行する。ズーム対象のすべてがズーム条件を満たしていないと判定された場合(ステップS508:No)、制御部121は、ステップS511の処理を実行する。尚、ステップS508の1以上のズーム対象が実際に拡大表示すべきものか否かをさらに判定する処理は省略してもよく、スコアの算出を省略し、選択部151は、常にズーム対象はズーム条件を満たしていると判定してもよい。
(ステップS509)
選択部151は、ズーム条件を満たした1以上のズーム対象から実際の拡大表示対象を選択する(選択ステップ)。選択部151は、ステップS508において算出した、各条件のスコアの合計値が大きいズーム対象を選択してもよい。また、ステップS507で設定したズーム対象を実際の拡大表示対象として選択してもよい。例えば、図6に示す人物A~Dのうち、ズーム対象に設定された優先度が一番高い顔特徴量と類似度が高いと判定された顔特徴量の人物Bを実際の拡大表示対象として選択してもよい。
そして、選択部151は、選択した拡大表示対象のズーム領域情報を表示制御部141に出力する。例えば、S507でズーム対象に設定された人物Bまたは人物Bの顔を含む矩形の領域を示すズーム領域情報を表示制御部141に出力する。表示制御部141は、選択部151からズーム領域情報を取得し、当該ズーム領域情報に従って、動画像174の再生を、拡大表示対象が含まれる領域を拡大して表示させるズームイン再生に切り替える(表示制御ステップ)。例えば、表示制御部141は、図7に示す画面に切り替える。図7に示すように、S507でズーム対象に設定された人物Bが拡大されて表示される。拡大表示対象が含まれる領域を拡大して表示させるズームイン再生は、所定の処理の一例である。
なお、ズームイン再生中には、表示制御部141は、AIエンジン153を用いて、選択した拡大表示対象を追尾して、当該拡大表示対象が含まれる領域を拡大して表示部181に表示させる。
動画像174のフレームに拡大表示対象が含まれなくなった場合に、制御部121は、改めてステップS503~S508の処理を行う。新たな拡大表示対象が特定された場合、表示制御部141は、ズームイン再生を行う。ズーム対象が存在しない、または、ズーム条件を満たされない場合、表示制御部141は、ズームモードを解除して、そのままのサイズでの動画再生を行う。
(ステップS510)
制御部121は、動画再生を終了させるか否かを判定する。例えば、制御部121は、動画再生アプリの画面においてユーザが再生終了を指示する操作を行ったか否かを判定する。
動画再生を終了させる場合(ステップS510:YES)、制御部121は、動画再生アプリを終了させて、一連の動画再生処理を終了する。動画再生を終了させない場合(ステップS510:No)、制御は、ステップS502に戻る。
なお、制御部121は、所定の時間ごとにステップS503~S5508の処理を行うようにしてもよい。これによれば、所定の時間ごとに、動画の状況に応じてズーム対象を切り替えることができる。
(ステップS511)
動画再生処理がズームモードでない、動画像174にズーム対象が存在しない、または、動画像174がズーム条件を満たしていない場合、制御部121は処理せず、選択部151は表示制御部141に何も出力しない。従って、表示制御部141は、ズームインせず、そのままのサイズでの再生を続行することになる。
第1の実施の形態に係る電子機器によれば、静止画像に映っている人物に基づいて、動画像に含まれる人物がユーザと親しい人物であるか判定できる。それにより、電子機器は、動画像に映っているユーザと親しい人物を拡大して表示することができる。また、動画像の同じフレームに複数の人物が映っている場合には、当該複数の人物の中で一番ユーザと親しい人物を拡大して表示することができる。
また、表示制御部141は、拡大表示の代わりまたは拡大表示と同時に、動画像に写っているユーザと親しい人物または複数の人物の中で一番ユーザと親しい人物を囲う枠を表示してもよい。また、表示制御部141は、顔特徴量について、類似度が高い顔特徴量が登録顔情報173にないと判定された人物(例えば、図6の人物A,C)をぼかす等の処理をして表示し、類似度が高い顔特徴量が登録顔情報173にあると判定された人物(例えば、図6の人物B,D)をそのまま表示して、ユーザと親しい人物が明確になるように表示してもよい。
また、AIエンジン153は、カメラ111による動画像の撮影中にステップS503からステップS507の処理を行ってもよい。その場合、AIエンジン153は、当該動画像に映っている人物の顔特徴量が、登録顔情報173の顔特徴量と類似度が高いか判定し、類似度が高いと判定された場合に、表示制御部141は当該人物を囲う枠を表示するまたは制御部121は当該人物にカメラ111のフォーカスを合わせる等の処理をして、ユーザと親しい人物が映っていることをユーザに知らせてもよい。また、AIエンジン153は、当該人物を囲う枠の各動画フレーム中における位置の情報を、撮影中の動画像のデータとは分離して記憶部171に記憶してもよい。その場合、表示制御部141は、動画撮影後の当該動画再生時に、記憶部171に記憶した位置の情報を用いて、当該人物をズームインした動画として再生できる。
(第2の実施の形態)
図8は、第2の実施の形態に係る電子機器の構成図の一例である。
電子機器801は、カメラ(撮像部)111、制御部821、記憶部171、および表示部181を有する。
第2の実施の形態のカメラ111、記憶部171、および表示部181は、第1の実施の形態のカメラ111、記憶部171、および表示部181と同様の機能および構成を有するので説明は省略する。
制御部821は、電子機器801を制御する。制御部821は、記憶部171に記憶された各種のアプリケーションソフトウェア(不図示)を実行可能である。制御部821は、画像取得部122、第1判定部123、登録顔情報生成部131、表示制御部141、AIエンジン制御部161、重要シーン判定部162、シーン情報生成部163、および動画像生成部164を有する。
第2の実施の形態の画像取得部122、第1判定部123、および登録顔情報生成部131は、第1の実施の形態の画像取得部122、第1判定部123、および登録顔情報生成部131と同様の機能および構成を有するので説明は省略する。第2の実施の形態の登録顔情報生成部131は、第1の実施の形態と同様に登録顔情報173を生成する。
AIエンジン制御部161は、人工知能(AI:Artificial Intelligence)を動作させるAIエンジンとして機能する。人工知能が学習したデータ等は記憶部171に記憶されていてもよい。
AIエンジン制御部161は、撮影動画(第1動画像)に含まれるフレームごとに、または撮影動画に含まれる連続した複数のフレームであるシーンごとに、当該フレームまたは当該シーン中の画像情報に基づいてスコアを算出(重要度を評価)する。ここで、画像情報とは各フレームまたはシーンに係る情報であり、例えば被写体、構図、または色調等のうちの少なくとも1つであってよい。尚、撮影動画は、カメラ111により撮影中の動画像でもよいし、撮影済みの記憶部171に記憶された動画像174でもよい。
当該スコアは、例えば、撮影動画に含まれる被写体に基づいて算出する場合、被写体の種類(人または動物等の特定の物体であるか否か)、大きさ、動き、位置、向き、数または明るさ等に基づいて、人工知能が予め学習した基準によって算出される。
具体例としては、AIエンジン制御部161は、被写体の種類が人である場合に、被写体が人でない場合よりも高いスコアを算出してもよい。またAIエンジン制御部161は、被写体が人(人物)であり、当該人物の顔の特徴量と類似度が高い顔特徴量が登録顔情報173にある場合、当該人物を特定の被写体としてもよい。またAIエンジン制御部161は、被写体が人(人物)であり、当該人の顔の特徴量と類似度が高い顔特徴量が登録顔情報173にある場合、より高いスコアを算出してもよい。またエンジン制御部161は、当該人の表情が笑顔である場合には、より高いスコアを算出してもよい。なお、どのような被写体に対して高いスコアを算出するかは、ユーザにより設定されてもよい。このような構成によれば、人を撮影対象とした動画像を撮影する場合と、動物等の人以外を撮影対象とした動画像を撮影する場合とで、異なるスコア算出の基準をユーザが適切に設定できる。
同様に、AIエンジン制御部161が撮影動画に含まれる構図に基づいてスコアを算出する場合、人工知能が予め学習した基準に従ってスコアが算出される。例えば、AIエンジン制御部161は、三分割法に則った構図等の一般的に良いとされている構図に近いほど、高いスコアを算出してもよい。
AIエンジン制御部161が算出したフレームまたはシーンごとのスコアの情報は、後述する重要シーン判定部162に出力される。
重要シーン判定部162は、AIエンジン制御部161により算出された、撮影動画に含まれるフレームまたはシーンごとのスコアから、当該フレームまたは当該シーンが重要シーンであるか否かを判定する。言い換えれば、重要シーン判定部162は、撮影動画に含まれる画像情報に基づいて、撮影動画に含まれるそれぞれのフレームが重要シーンであるか否かを判定する重要シーン判定処理を実行する。また、重要シーン判定部162は、撮影動画に含まれる画像に係る被写体、構図および色調の少なくとも1つに基づいて、それぞれのフレームまたはシーンが重要シーンであるか否かを判定する。
重要シーン判定部162は、重要シーンであるか否かの判定について、前記のスコアが所定の閾値以上であるか否かによって判定する。所定の閾値は、AIエンジンのスコア算出基準に対応して、重要シーン判定部162が適切な値に設定する。また、ユーザが所定の閾値を任意の値として設定してもよい。これによれば、ユーザは、重要シーンであると判定されるフレームまたはシーンの数を、所定の閾値を変更することで調整できる。
また、重要シーン判定部162は、後述する切り出し動画(第2動画像)の長さが予め定められていた場合には、全ての重要シーンを足し合わせた動画像の長さが、定められた切り出し動画の長さと略同一となるように、所定の閾値を適宜調整してもよい。これによれば、重要シーン判定部162は、切り出し動画が所定の長さの動画像となるように、撮影動画から重要シーンを抽出できる。
尚、AIエンジン制御部161が備えるAIエンジンの機能は、重要シーン判定部162に含まれていてもよい。この場合、重要シーン判定部162は、撮影動画に含まれるそれぞれのフレームまたはシーンのスコアを算出する処理と、重要シーンであるか否かの判定処理との、両方の処理を実行する。
以上のように、重要シーン判定部162によれば、撮影動画に含まれる画像に基づいて、撮影動画においてどの部分が重要シーンであるかを判定できる。
シーン情報生成部163は、重要シーン判定部162による判定結果に基づいて、撮影動画に含まれるフレームまたはシーンが、それぞれ重要シーンであるか否かの判定結果を含む重要シーン情報を生成する、シーン情報生成処理を実行する。重要シーン情報は、撮影動画の各フレームに重要シーンであるか否かの情報が直接タグ付けされたものであってよい。
またシーン情報生成部163は、撮影動画のデータとは別個に、重要シーンと判定されたフレームを特定する情報を重要シーン情報として生成してもよい。このような構成によれば、電子機器801は、撮影動画と重要シーン情報とを分離して管理できる。
前記のフレームを特定する情報としては、撮影動画中の重要シーンであると判定されたフレームが、撮影動画において存在する時点に係る情報であってもよく、撮影動画中の何番目のフレームであるかの情報であってもよい。なお、撮影動画中におけるフレームが存在する時点を、フレームを特定する情報とする構成によれば、撮影動画のフレームレートが後から変更された場合でも、撮影動画において重要シーンであると判定されたフレームの存在位置は変わらない。そのため、撮影動画に係る重要シーン情報を変更する必要がない。
動画像生成部164は、撮影動画から重要シーンを切り出した切り出し動画(第2動画像)を生成する。言い換えれば、動画像生成部164は、シーン情報生成部163が生成した重要シーン情報に基づいて、撮影動画から重要シーンであると判定されたフレームを連結用フレームとして抽出する。そして、単一の連結用フレームからなる、または、複数の連結用フレーム同士を連結してなる第2動画像を生成する動画像生成処理を実行する。
このような構成によれば、動画像生成部164は、撮影動画よりも短い、重要シーンのみが含まれる切り出し動画を生成できる。したがってユーザは、動画像の長さおよびデータのサイズが小さい切り出し動画を得ることができるため、電子機器801に保存した動画像を容易に管理できる。
なお、制御部821は切り出し動画を生成した後、撮影動画を動画像174として記憶部171に記憶させ、さらに切り出し動画を記憶部171に記憶させてもよい。
また、動画像生成部164は、重要シーン判定部162が重要シーンであると判定したフレームから、さらに所定の条件を満たしたフレームを連結用フレームとして抽出してもよい。ここで、所定の条件とは例えば、重要シーンと判定されたフレームが一定数以上連続していた場合にのみ適用される、これらのフレームに係る被写体の表情、構図、動きの大きさ等の条件であってよい。
具体的には、動画像生成部164は、重要シーンと判定された一連のフレームについて、被写体の表情が笑顔でない場合と比較して、被写体の表情が笑顔である場合にはより多くのフレームを連結用フレームとして抽出してもよい。このような構成によれば、動画像生成部164は、所定の条件に応じて重要シーンと判定された一連の連続するフレームの数を変更できる。そのため、動画像生成部164は、同じ被写体または構図等を含むシーンの長さを調節できるため、短い時間の中で様々なシーンが含まれるような、ユーザにとってより好ましい内容の切り出し動画を生成できる。
所定の条件は前記の例に限られず、いかなる条件であってもよい。当該所定の条件は、様々な条件が電子機器801に予め設定されていてもよく、ユーザが所定の条件を任意に設定してもよい。また、電子機器801が備える通信機能を介して、逐次所定の条件の選択肢が増加または更新されてもよい。
このように、重要シーンであると判定されたフレームから、さらに所定の条件を満たしたフレームを連結用フレームとして抽出する構成によれば、制御部821は、重要シーン判定におけるスコアについての所定の閾値の他にも、切り出し動画を生成するための所定の条件を設定できる。したがって、ユーザは切り出し動画の生成条件を細かく設定および変更できるため、制御部821は、よりユーザの嗜好に合致した切り出し動画を生成できる。
図9は、第2の実施の形態に係る電子機器のマーキング処理を示すフローチャートである。尚、登録顔情報173は静止画像172に基づいて生成され、記憶部171に記憶されているものとする。
(ステップS901)
画像取得部122は、カメラ111が撮影した撮影動画を取得し(動画像取得ステップ)、当該撮影動画をAIエンジン制御部161に出力する。尚、取得される撮影動画は、撮影中の動画像でもよいし、撮影済みの記憶部171に記憶された動画像174でもよい。AIエンジン制御部161は、撮影動画の入力を受けて、AIエンジンの一つである被写体認識エンジンを起動する。
(ステップS902)
次に、AIエンジン制御部161は、撮影動画に含まれるそれぞれのフレームについて、当該フレームに係る画像情報に人または動物等の特定の被写体が含まれているか否かを判定する(ステップS902)。一つのフレームについて特定の被写体が含まれていなかった場合(ステップS902:NO)、AIエンジン制御部161は次のフレームについてS902の判定を実行する。一つのフレームについて特定の被写体が含まれていた場合(ステップS902:YES)、制御はステップS903に進む。
(ステップS903)
AIエンジン制御部161は、ステップS903でフレームに含まれると判定された特定の被写体が人であるか否か判定する。特定の被写体が人であると判定された場合、制御はステップS904に進み、特定の被写体が人でないと判定された場合、制御はステップS906に進む。
(ステップS904)
AIエンジン制御部161は、特定の被写体である人の顔特徴量を算出する。尚、特定の被写体である人がフレームに複数いる場合には、AIエンジン制御部161は、複数の人のそれぞれの顔特徴量を算出する。
(ステップS905)
AIエンジン制御部161は、ステップS904で算出した顔特徴量と類似度が高い顔特徴量が登録顔情報173にあるか否か判定する。AIエンジン制御部161は、例えば、ステップS904で算出した顔特徴量と登録顔情報173の顔特徴量との距離(例えば、ユークリッド距離)があらかじめ定められた閾値以下の場合、ステップS904で算出した顔特徴量と類似度が高い顔特徴量が登録顔情報173にあると判定する。ステップS904で算出した顔特徴量と類似度が高い顔特徴量が登録顔情報173にあると判定された場合、AIエンジン制御部161は、類似度が高いと判定された顔特徴量の算出に用いられた顔の人を特定の被写体として設定し、制御はステップS906に進み、ステップS904で算出した顔特徴量と類似度が高い顔特徴量が登録顔情報173にないと判定された場合、制御はステップS907に進む。尚、ズーム対象である人物が複数おり、ステップ904で複数の顔特徴量が算出された場合には、AIエンジン制御部161は、複数の顔特徴量のそれぞれについて、類似度が高い顔特徴量が登録顔情報173にあるか否か判定し、類似度が高い顔特徴量が1つ以上あると判定された場合、AIエンジン制御部161は、類似度が高いと判定された顔特徴量の算出に用いられた顔の人を特定の被写体として設定し、制御はステップS906に進む。
(ステップS906)
特定の被写体が人であり(ステップS903:Yes)、且つステップS904で算出した顔特徴量と類似度が高い顔特徴量が登録顔情報173にあると判定された場合(ステップS905:YES)、AIエンジン制御部161は当該フレームに対して所定の閾値以上のスコアを算出し、重要シーン判定部162は当該フレームを重要シーンであると判定する(重要シーン判定ステップ)。また、特定の被写体が人でない場合(ステップS903:No)、AIエンジン制御部161は当該フレームに対して所定の閾値以上のスコアを算出し、重要シーン判定部162は当該フレームを重要シーンであると判定する(重要シーン判定ステップ)。そして、シーン情報生成部163は、重要シーンであると判定されると、当該フレームが重要シーンであるとして、重要シーン情報を生成することでマーキングする(シーン情報生成ステップ)。マーキングは、所定の処理の一例である。
(ステップS907)
重要シーン判定部162は、カメラ111による撮影動画の撮影が終了したか否かを判定する。撮影が終了していなかった場合(ステップS907:NO)、制御部821は、撮影が終了するまでS902~S907の処理を繰り返し実行する。撮影が終了していた場合(ステップS907:YES)、制御はステップS908に進む。
(ステップS908)
撮影が終了していた場合(ステップS907:YES)、AIエンジン制御部161は、被写体認識エンジンの機能を終了する。
(ステップS909)
次に、動画像生成部164は、撮影動画から重要シーンとしてマーキングされたフレームを連結用フレームとして抽出し、連結用フレームを連結して切り出し動画(他の動画)を生成する(動画像生成ステップ)。重要シーンとしてマーキングされたフレームを連結用フレームとして抽出し、連結用フレームを連結して切り出し動画を生成する処理は、所定の処理の一例である。
なお、ここでは被写体認識エンジンが、判定対象であるフレームに係る画像情報に含まれる被写体の種類(特定の被写体であるか否か)および被写体の種類が人である場合には当該人の顔の特徴量と類似度が高い顔特徴量が登録顔情報173にあるか否かに基づいてスコアを算出する例を示した。しかし、被写体認識エンジンはこれに限られず、被写体のいかなる特徴に基づいてスコアを算出してもよい。
図9のマーキング処理の後、表示制御部141は、切り出し動画を表示部181に表示して再生する処理を実行する。表示制御部141は、再生中の切り出し動画に対して、フェードアウト等のトランジッション効果を付与してもよい。また表示制御部141は、切り出し動画中の特定の連結用フレームのみを一定時間再生してもよい。
第2の実施の形態に係る電子機器によれば、静止画像に映っている人物に基づいて登録顔情報を生成し、登録顔情報に基づいて撮影画像に含まれる人物がユーザと親しい人物であるか判定できる。それにより、電子機器は、撮影画像においてユーザと親しい人物が映っているフレームを重要シーンとしてマーキングできる。第2の実施の形態に係る電子機器によれば、撮影動画においてユーザと親しい人物が映ったフレームを重要シーンとしてマーキングし、マーキングされたフレームを連結した切り出し動画を生成できる。すなわち、第2の実施の形態に係る電子機器によれば、撮影動画からユーザと親しい人物が映ったシーンを抽出したダイジェスト動画を生成できる。
(ソフトウェアによる実現例)
電子機器101、801の制御ブロック(特に、制御部121、821)は、集積回路(IC(Integrated Circuit)チップ)等に形成された論理回路(ハードウェア)によって実現可能であり、またCPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、電子機器101、801は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROMまたは記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM等を備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、制御部121として動作し、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路等を用いることができる。また、上記プログラムは、伝送可能な任意の伝送媒体を介して上記コンピュータに供給されてよい。
尚、本発明は、上述した実施の形態に限定されるものではなく変形可能であり、上記の構成は、実質的に同一の構成、同一の作用効果を奏する構成又は同一の目的を達成することができる構成で置き換えることができる。
例えば、第1および第2の実施の形態において、動画像にユーザと親しい人物がいるか判定(具体的には、動画像に映っている人物の顔特徴量と類似度が高い顔特徴量が登録顔情報173にあるか判定)しているが、登録顔情報173の生成に用いた静止画像以外の静止画像に適用し、登録顔情報173の生成に用いた静止画像以外の静止画像にユーザと親しい人物が写っているか判定してもよい。
また、第1の実施の形態の表示処理および第2の実施の形態のマーキング処理は、動画像の撮影中や動画像の再生中に限らず、これら以外にタイミングで実行されてもよい。
101 電子機器
111 カメラ
121 制御部
131 登録顔情報生成部
141 表示制御部
151 選択部
152 抽出部
153 AIエンジン
161 AIエンジン制御部
162 重要シーン判定部
163 シーン情報生成部
164 動画像生成部
171 記憶部
172 静止画像
173 登録顔情報
174 動画像
181 表示部
801 電子機器
821 制御部

Claims (8)

  1. 静止画を記憶する記憶部と、
    制御部と、
    を備え、
    前記制御部は、
    前記静止画に含まれる複数の顔のそれぞれの特徴量を算出し、
    前記複数の顔のそれぞれの特徴量を、特徴量の類似度に基づいてクラスタリングにより、1つ以上のグループにグループ化し、
    前記1つ以上のグループのグループごとに当該グループ含まれる特徴量から1つの特徴量を選択し、
    前記グループごとに選択された特徴量を含む登録顔情報を前記記憶部に記憶させ、
    動画に含まれる少なくとも1つの顔の特徴量を算出し、
    前記動画に含まれる少なくとも1つの顔の特徴量および前記登録顔情報に基づいて、前記動画に対して所定の処理を行う電子機器。
  2. 前記制御部は、
    前記動画に含まれる少なくとも1つの顔の特徴量と前記登録顔情報に含まれる前記選択された特徴量とが類似するか否か判定し、
    前記動画に含まれる少なくとも1つの顔の特徴量と前記登録顔情報に含まれる前記選択された特徴量とが類似すると判定された場合に、前記動画の前記少なくとも1つの顔が含まれるフレームに対して前記所定の処理を行う請求項1記載の電子機器。
  3. 前記動画に含まれる前記少なくとも1つの顔は、複数の顔であって、
    前記制御部は、
    前記グループごとに選択された特徴量と、前記クラスタリングに基づく優先度と、を対応付けた前記登録顔情報を前記記憶部に記憶させ、
    前記動画に含まれる前記複数の顔のそれぞれの特徴量を算出し、
    前記複数の顔のそれぞれの特徴量と前記登録顔情報に含まれる前記選択された特徴量とが類似するか判定し、
    前記動画のうちの1つのフレームに前記複数の顔が含まれ、前記複数の顔のそれぞれの特徴量と前記登録顔情報に含まれる前記選択された特徴量とが類似すると判定された場合に、前記複数の顔のうち、前記登録顔情報において一番高い優先度に対応付けられた特徴量と類似すると判定された特徴量の算出に用いられた顔に基づいて前記所定の処理を行う請求項1または2記載の電子機器。
  4. 前記制御部は、前記所定の処理として、前記動画に含まれる前記少なくとも1つの顔を拡大して表示部に表示させる請求項1~3のいずれか1項に記載の電子機器。
  5. 前記制御部は、前記所定の処理として、前記動画に含まれる複数のフレームのうちの一部を連結用フレームとして抽出し、前記連結用フレームを連結して他の動画を生成する請求項1~3のいずれか1項に記載の電子機器。
  6. 前記優先度は、前記1つ以上のグループのそれぞれに含まれる特徴量の数に基づいて決定される請求項3記載の電子機器。
  7. 前記制御部は、前記所定の処理において、前記複数の顔のうち、前記登録顔情報において一番高い優先度に対応付けられた特徴量と類似すると判定された特徴量の算出に用いられた顔を拡大して表示部に表示させる請求項3または6記載の電子機器。
  8. 静止画に含まれる複数の顔のそれぞれの特徴量を算出し、
    前記複数の顔のそれぞれの特徴量を、特徴量の類似度に基づいてクラスタリングにより、1つ以上のグループにグループ化し、
    前記1つ以上のグループのグループごとに当該グループ含まれる特徴量から1つの特徴量を選択し、
    前記グループごとに選択された特徴量を含む登録顔情報を記憶部に記憶させ、
    動画に含まれる少なくとも1つの顔の特徴量を算出し、
    前記動画に含まれる少なくとも1つの顔の特徴量および前記登録顔情報に基づいて、前記動画に対して所定の処理を行う
    処理を備える制御方法。
JP2021065662A 2021-04-08 2021-04-08 電子機器および制御方法 Pending JP2022161107A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021065662A JP2022161107A (ja) 2021-04-08 2021-04-08 電子機器および制御方法
US17/714,755 US20220327865A1 (en) 2021-04-08 2022-04-06 Electronic device and control method
CN202210367570.9A CN115205921A (zh) 2021-04-08 2022-04-08 电子设备以及控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021065662A JP2022161107A (ja) 2021-04-08 2021-04-08 電子機器および制御方法

Publications (1)

Publication Number Publication Date
JP2022161107A true JP2022161107A (ja) 2022-10-21

Family

ID=83509457

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021065662A Pending JP2022161107A (ja) 2021-04-08 2021-04-08 電子機器および制御方法

Country Status (3)

Country Link
US (1) US20220327865A1 (ja)
JP (1) JP2022161107A (ja)
CN (1) CN115205921A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023002025A (ja) * 2021-06-22 2023-01-10 東芝テック株式会社 顧客確認サーバー、顧客確認システム及び顧客確認プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2018324122B2 (en) * 2017-09-01 2021-09-09 Percipient.ai Inc. Identification of individuals in a digital file using media analysis techniques

Also Published As

Publication number Publication date
CN115205921A (zh) 2022-10-18
US20220327865A1 (en) 2022-10-13

Similar Documents

Publication Publication Date Title
JP4618166B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP5837922B2 (ja) カメラ位置に基づくキービデオフレームのランク付け
WO2010113666A1 (ja) ビデオデータ記録装置、ビデオデータ再生装置、およびビデオデータ記録方法、ビデオデータ再生方法
JP2008027086A (ja) 表情誘導装置および表情誘導方法、表情誘導システム
US9881086B2 (en) Image shooting device, image shooting method, and recording medium
JP5671224B2 (ja) 画像処理装置、画像処理方法
JP2012105205A (ja) キーフレーム抽出装置、キーフレーム抽出プログラム、キーフレーム抽出方法、撮像装置、およびサーバ装置
JP2011091635A (ja) 撮像装置
JP2022161107A (ja) 電子機器および制御方法
JP7340720B1 (ja) 電子機器
JP2020072349A (ja) 画像処理装置、画像処理方法
JP6410427B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP5850188B2 (ja) 画像表示システム
US20220277547A1 (en) Method and electronic device for detecting candid moment in image frame
JP5479149B2 (ja) 画像生成装置
JP6625598B2 (ja) 画像生成装置、画像生成方法、画像生成プログラム及び画像生成システム
KR102066857B1 (ko) 객체 영상 트랙킹 스트리밍 시스템 및 이를 이용한 스트리밍 방법
JP7396919B2 (ja) 電子機器、撮像表示制御装置、撮像表示システム、撮像表示制御方法、および、プログラム
WO2012153747A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP7536462B2 (ja) 電子機器、表示制御装置、表示制御方法、および、プログラム
JP6259006B2 (ja) 画像生成装置、画像生成方法、画像生成プログラム及び画像生成システム
JP2011087105A (ja) 画像処理装置及びその制御方法、並びにプログラム及び媒体
JP5932963B2 (ja) 画像生成装置、画像生成方法、画像生成プログラム及び画像生成システム
JP5677598B2 (ja) 画像生成装置、画像生成方法、画像生成プログラム及び画像生成システム
JP2012004713A (ja) 画像処理装置、画像処理装置の制御方法、プログラム、及び記録媒体