JP6895669B1

JP6895669B1 - 端末、サーバ、プログラムおよび方法

Info

Publication number: JP6895669B1
Application number: JP2020081371A
Authority: JP
Inventors: 裕坂根
Original assignee: Exa Wizards Inc
Current assignee: Exa Wizards Inc
Priority date: 2020-05-01
Filing date: 2020-05-01
Publication date: 2021-06-30
Anticipated expiration: 2040-05-01
Also published as: JP2021176231A; JP2021176219A

Abstract

【課題】撮影装置が撮影した撮影画像を解析する際の解析の精度を高くする。【解決手段】端末（１０）は、撮影装置（３１）が撮影した撮影画像を取得する撮影画像取得部（１３１）と、撮影画像の撮影時における撮影装置（３１）の内部状況である撮影状況を示す情報を含む状況情報を取得する状況情報取得部（１３３）と、状況情報を表す状況画像を生成する状況画像生成部（１３５）と、撮影画像に状況画像を含めた合成画像を出力する合成画像出力部（１３７）と、を含む。【選択図】図１

Description

本発明は、撮影画像を解析する技術に関する。

撮影画像に対し顔認識や歩容解析等の解析を行う技術がある。特許文献１には、動画から人物の歩容を解析する歩容解析装置が記載されている。

特開２０１８−２６０１８号公報（２０１８年２月１５日公開）

ところで、撮影画像を解析する場合、撮影画像の撮影状況により解析の精度が大きく変化する傾向がある。そのため、特許文献１に記載の技術では、撮影画像の解析の精度を向上させる余地がある。

本発明の一態様は、撮影装置が撮影した撮影画像を解析する際の解析の精度を高くする技術を実現することを目的とする。

上記の課題を解決するために、本発明の一態様に係る端末は、撮影装置が撮影した撮影画像を取得する撮影画像取得部と、前記撮影画像の撮影時における前記撮影装置の内部状況である撮影状況を示す情報を含む状況情報を取得する状況情報取得部と、前記状況情報を表す状況画像を生成する状況画像生成部と、前記撮影画像に前記状況画像を含めた合成画像を出力する合成画像出力部と、を含む。

上記課題を解決するために、本発明の一態様に係るサーバは、上記端末によって出力される合成画像を取得する合成画像取得部と、前記合成画像に含まれる状況画像が示す状況情報を抽出する状況情報抽出部と、前記状況情報を用いて前記合成画像を解析する合成画像解析部と、を含む。

本発明の一態様によれば、撮影装置が撮影した撮影画像を解析する際の解析の精度を高くすることができる。

本発明の一実施形態に係る画像解析システム１の機能的な構成を示すブロック図である。本発明の一実施形態に係る端末１０が実行する画像合成処理の流れを示すフローチャートである。本発明の一実施形態に係る表示装置５１に表示される画面を例示する図である。撮影画像に含まれる複数のフレームを例示する図である。合成画像を例示する図である。本発明の一実施形態に係る表示装置５１に表示される画面を例示する図である。本発明の一実施形態に係る表示装置５１に表示される画面を例示する図である。合成画像を例示する図である。合成画像を例示する図である。合成画像を例示する図である。合成画像を例示する図である。本発明の一実施形態に係る表示装置５１に表示される画面を例示する図である。合成画像を例示する図である。合成画像を例示する図である。合成画像を例示する図である。合成画像を例示する図である。本発明の一実施形態に係るサーバ２０が実行する画像解析処理の流れを示すフローチャートである。端末１０およびサーバ２０として用いられるコンピュータの物理的構成を例示したブロック図である。

以下、本発明の一実施形態に係る画像解析システム１について説明する。

＜画像解析システム１の概要＞
図１は、本発明の一実施形態に係る画像解析システム１の機能的な構成を示すブロック図である。図１に示すように、画像解析システム１は、端末１０およびサーバ２０を含んでいる。ここで、図１に示す例では、画像解析システム１が、端末１０を１つ含んでいるが、これは本実施形態を限定するものではない。画像解析システム１は、端末１０を複数含む構成であってもよい。

端末１０とサーバ２０とは、ネットワークＮ１を介して通信可能に接続される。端末１０とサーバ２０とを接続するネットワークＮ１は、有線ＬＡＮ（Local Area Network）、無線ＬＡＮ、インターネット、公衆回線網、モバイルデータ通信網、またはこれらの組み合わせである。

画像解析システム１は、一例として、介護施設の管理者により使用されることを想定している。ここで、介護施設の管理者は、被介護者を介護したり施設を管理したりする者であり、本実施形態における「ユーザ」の一例である。

端末１０はユーザにより使用される。端末１０には、撮影するためのアプリケーションソフトウェア（以下「撮影アプリ」という）がインストールされている。端末１０は、撮影画像と状況情報とを取得し、取得した状況情報を表す状況画像を生成して、撮影画像に状況画像を含めた合成画像を出力する。

撮影画像とは、撮影装置（例えば、端末１０に接続される撮影装置３１）が撮影した画像である。撮影画像は、動画像または静止画像である。状況情報とは、撮影画像の撮影時における撮影状況を示す情報を含む情報である。撮影状況とは、撮影画像の解析に影響する端末１０及び撮影装置の内部状況である。撮影状況は、例えば撮影装置のハードウェア、ソフトウェアの撮影時の状況であってもよい。また、撮影状況とは、撮影装置に付帯するセンサ（例えば、撮影装置３１に付帯するセンサ６１）によって検出される撮影時の状況であってもよい。なお、撮影状況とは、これらに限らず、撮影画像の撮影時におけるその他の内部状況であってもよい。

状況画像は、状況情報を含む画像である。なお、状況情報は、後述する解析情報をさらに含む場合がある。その場合、状況画像は、解析情報を示す解析画像を含む。解析情報は、撮影画像を解析して得られる情報であり、例えば、被写体の位置を示す情報である。

状況画像は例えば、情報コード、テキスト画像、および図形の一部または全部を含む。情報コードとは、情報をコード化したものであり、例えば、一次元コード、二次元コード等であってもよい。

サーバ２０は、画像を解析する機能を備える。サーバ２０は、端末１０によって出力される合成画像を取得し、合成画像に含まれる状況画像が示す状況情報を抽出して、抽出した状況情報を用いて合成画像を解析する。合成画像を解析する処理は例えば、顔認識処理、または歩容解析処理である。状況情報を用いた合成画像の解析とは、例えば、状況情報を用いて合成画像を補正した補正画像を用いて合成画像を解析することをいう。また、状況情報を用いた合成画像の解析とは、例えば、状況情報に含まれる解像度に応じて選択される骨格検出モデルを用いた歩容解析、状況情報に含まれるフレームレートに応じたサンプリングレートを用いた歩容解析、である。

画像解析システム１によれば、端末１０が状況情報を表す状況画像を撮影画像に含めた合成画像を生成し、サーバ２０が状況情報を用いて画像解析を行う。これにより、撮影状況に応じた解析が可能となり、撮影画像の解析の精度を高くすることが可能になる。

（端末１０の構成）
続いて、図１を参照して端末１０の構成について説明する。図１に示すように、端末１０は、通信部１１と、制御部１３と、記憶部１５とを含む。また、端末１０は、撮影装置３１と、入力装置４１と、表示装置５１と、１または複数のセンサ６１とにそれぞれ接続される。端末１０は、例えば、撮影装置３１、入力装置４１、表示装置５１、および１または複数のセンサ６１と一体に構成されたノートＰＣ（Personal Computer）、タブレット端末、デジタルカメラ、およびスマートフォン等として実現される。ただし、撮影装置３１、入力装置４１、表示装置５１、および１または複数のセンサ６１の一部又は全部は、端末１０に接続される外部装置であってもよい。なお、上述した端末１０の具体的態様は本実施形態を限定するものではない。

通信部１１は、ネットワークＮ１を介してサーバ２０と通信を行う。制御部１３は、端末１０の各部を制御する。記憶部１５は、撮影装置３１が撮影した撮影画像を表す画像データを記憶する。以下の説明では、撮影画像を表す画像データを、単に「撮影画像」ともいう。

入力装置４１は、ユーザからの入力操作を受け付け、受け付けた入力を示す入力情報を制御部１３に供給する。表示装置５１は、制御部１３による制御に従って画像を表示する。

一例として、入力装置４１は、ユーザから、静止画の撮影指示、動画の撮影開始指示、および動画の撮影終了指示の入力を受け付ける。そして、制御部１３は、当該入力が示す指示に基づき、撮影装置３１が撮影した撮影画像を記憶部１５に記憶する。

撮影装置３１は、レンズおよびイメージセンサを有し、レンズから入射する光をイメージセンサにより受光して撮影画像を生成する。撮影装置３１が撮影画像を生成することを、以降、「撮影画像を撮影する」と記載する。ここで、撮影装置３１は、撮影画像として静止画像を生成してもよい。また、撮影装置３１は、撮影画像として動画像を生成してもよい。この場合、撮影装置３１は、静止画像を順次撮影し、複数の静止画像をそれぞれフレームとして撮影した順に配列することにより、動画像としての撮影画像を生成する。

センサ６１は、撮影装置３１に付帯している。センサ６１は、撮影状況を示す値を検出する。撮影状況を示す値は、例えば、撮影装置３１（すなわち端末１０）の傾き、加速度、または周囲の明るさ、またはズーム倍率である。センサ６１は、例えば、ジャイロセンサ、加速度センサ、光センサ、または距離センサ等であってもよい。

制御部１３は、撮影画像取得部１３１と、状況情報取得部１３３と、状況画像生成部１３５と、合成画像出力部１３７と、撮影画像表示部１３９とを含む。撮影画像取得部１３１は、撮影装置３１が撮影した撮影画像を取得する。状況情報取得部１３３は、撮影画像の撮影時における撮影状況を示す情報を含む状況情報を取得する。状況画像生成部１３５は、状況情報を表す状況画像を生成する。

合成画像出力部１３７は、撮影画像に状況画像を含めた合成画像を出力する。合成画像出力部１３７は、合成画像をサーバ２０に送信することにより、合成画像を出力してもよいし、合成画像をＵＳＢ（Universal Serial Bus）メモリ等の外部記憶媒体に出力してもよい。

撮影画像表示部１３９は、撮影装置３１による撮影中に撮影画像を表示装置５１に表示する。

（サーバ２０の構成）
続いて、図１を参照してサーバ２０の構成について説明する。図１に示すように、サーバ２０は、通信部２１と、制御部２３と、記憶部２５とを含む。制御部２３は、合成画像取得部２３１と、状況情報抽出部２３３と、合成画像解析部２３５とを含む。

通信部２１は、ネットワークＮ１を介して端末１０と通信を行う。制御部２３は、サーバ２０の各部を制御する。記憶部２５は、端末１０から受信される合成画像を記憶する。

合成画像取得部２３１は、端末１０によって出力される合成画像を取得する。合成画像取得部２３１は、端末１０から合成画像を受信することにより合成画像を取得する。なお、合成画像の取得方法はこれに限られず、例えば、合成画像取得部２３１は、ＵＳＢメモリ等の外部記憶媒体を介して合成画像を取得してもよい。

状況情報抽出部２３３は、合成画像に含まれる状況画像が示す状況情報を抽出する。合成画像解析部２３５は、状況情報を用いて合成画像を解析する。

＜端末１０の画像合成処理＞
以下では、本発明の一実施形態に係る端末１０の画像合成処理について詳細に説明する。端末１０のユーザは、入力装置４１を用いて撮影アプリを起動し、撮影を開始するための操作を行う。

図２は、本発明の一実施形態に係る端末１０が実行する画像合成処理（方法）の流れを示すフローチャートである。ここでは、撮影画像は、動画像であるものとして説明する。なお、一部のステップは並行して、または、順序を替えて実行してもよい。

（ステップＳ１０１）
ステップＳ１０１において、端末１０の制御部１３は、入力装置４１を介して入力される情報に基づき、撮影を開始する。すなわち、制御部１３は、撮影装置３１を制御して撮影を行わせる。撮影装置３１が撮影した撮影画像を表す画像データは記憶部１５のバッファ領域に記憶される。記憶部１５に記憶される撮影画像は、複数のフレームを含む。フレームとは、撮影画像を構成する静止画像である。

図３は、撮影画像の撮影中に表示装置５１に表示される画面を例示する図である。撮影画像表示部１３９は、撮影装置３１が撮影した撮影画像に含まれる最新のフレームＩｍｇ１１、および撮影を終了するためのボタンＢ１１を表示装置５１に表示する。フレームＩｍｇ１１は、撮影対象である被写体Ｔ１１を含む。被写体Ｔ１１は例えば、人物、動物、または車両であるが、これら以外のものであってもよい。特に、画像解析システム１が介護施設の管理者により使用される場合、被写体Ｔ１１は被介護者であってもよい。

図４は、記憶部１５に記憶される撮影画像に含まれる、連続した複数のフレームを例示する図である。図４では、フレームｆ１１〜ｆ１３の３つのフレームを示す。フレームｆ１１〜ｆ１３はそれぞれ被写体Ｔ１１を含む。撮影中に被写体Ｔ１１および端末１０の一方または両方が動いたことにより、被写体Ｔ１１が含まれる領域はフレームｆ１１〜ｆ１３のそれぞれで異なっている。

（ステップＳ１０２）
図２の説明に戻る。ステップＳ１０２において、撮影画像取得部１３１は、撮影画像を取得する。本動作例では、撮影画像取得部１３１は、記憶部１５に記憶された最新のフレームＩｍｇ１１を読み出すことにより、撮影画像を取得する。

（ステップＳ１０３）
続いて、ステップＳ１０３において、状況情報取得部１３３は、撮影画像の撮影時における撮影状況を示す情報を含む状況情報を取得する。状況情報は例えば、撮影状況を示す情報として、撮影装置３１のハードウェア情報およびソフトウェア情報の少なくともいずれか一方を含む。ハードウェア情報は例えば、撮影装置３１（または端末１０）の機種、型番、または撮影装置３１の性能（画角、解像度、フレームレート、等）を含む。ソフトウェア情報は例えば、端末１０のＯＳ（オペレーティングシステム）の種類、ＯＳのバージョン、または撮影画像のエンコーダのコーデックの設定を含む。例えば、状況情報取得部１３３は、ハードウェア情報およびソフトウェア情報を、ＯＳが提供するＡＰＩ（Application Programming Interface）を用いることにより取得する。

また、状況情報は例えば、撮影状況を示す情報として、撮影時において撮影装置３１に付帯するセンサ６１によって検出された情報を含む。センサ６１によって検出された情報は例えば、撮影装置３１の傾き、加速度、周囲の明るさ、またはズーム倍率を含む。例えば、状況情報取得部１３３は、撮影装置３１の傾きおよび加速度を、加速度センサおよびジャイロセンサの一方または両方の検出値から算出する。また、例えば、状況情報取得部１３３は、周囲の明るさを、光量を検出する光センサの検出値から算出する。また、例えば、状況情報取得部１３３は、距離センサにより検出した被写体までの距離から、オートフォーカスされたズーム倍率を取得する。

また、状況情報は例えば、撮影状況を示す情報として、撮影画像の種別を示す情報を含む。種別とは例えば、撮影画像のサイズ（パノラマサイズ、スクエア、等）の種別である。例えば、状況情報取得部１３３は、撮影装置３１の撮影時における設定情報を参照することにより、撮影画像の種別を示す情報を取得する。

また、状況情報は例えば、撮影画像を解析して得られる解析情報をさらに含む。解析情報は例えば、撮影画像において被写体Ｔ１１が含まれる領域、または撮影画像の明るさを含む。例えば、状況情報取得部１３３は、画像解析により撮影画像の特徴点を抽出し、抽出した特徴点に基づき被写体Ｔ１１の形状および位置を検出することにより、被写体Ｔ１１が含まれる領域を特定する。また、例えば、状況情報取得部１３３は、撮影画像の明るさを、撮影画像の輝度を解析することにより特定する。

状況情報が解析情報を含む場合、状況情報取得部１３３は、撮影画像取得部１３１が取得した撮影画像を画像解析し、解析結果を示す解析情報を状況情報に含める。なお、状況情報取得部１３３が行う画像解析処理は、後述するサーバ２０が行う画像解析処理に比べて、処理負荷の低い簡易な処理であることが望ましい。

（ステップＳ１０４）
続いて、ステップＳ１０４において、状況画像生成部１３５は、状況情報を表す状況画像を生成する。状況画像は例えば、情報コード、テキスト画像、および図形の一部または全部を含む。情報コードは、状況情報をコード化した画像である。テキスト画像は、状況情報を表す文字列を含む画像である。図形は例えば、直線、曲線、多角形、円、楕円、矢印、またはこれらの組み合わせであってもよい。例えば、直線の傾きにより、撮影装置３１の傾きが表される。また、例えば、多角形の歪みにより、撮影装置３１の傾きと撮影方向とが表される。

例えば、状況画像生成部１３５は、端末１０のハードウェア情報およびソフトウェア情報を示す文字列を表すテキスト画像を状況画像として生成する。また、例えば、状況画像生成部１３５は、端末１０のハードウェア情報およびソフトウェア情報を示す文字列をコード化した二次元コードを、状況画像として生成する。また、例えば、状況画像生成部１３５は、撮影装置３１の傾きをその傾きで表す直線を、状況画像として生成する。

状況画像は、その一部または全部が不透明、半透明または透明な画像であってもよい。状況画像生成部１３５は、状況画像の一部または全部について透明度を設定する。また、状況画像生成部１３５は、状況画像を、フレームに重畳することにより合成する。状況画像の一部または全部が半透明または透明であることにより、状況画像が合成された領域（以降、合成領域と記載）においてフレームに含まれる画像をユーザが認識しやすくなる。

（ステップＳ１０５）
続いて、ステップＳ１０５において、合成画像出力部１３７は、ステップＳ１０２で取得した最新フレームの合成領域に状況画像を含めた合成画像を出力する。すなわち、本動作例では、合成画像出力部１３７は、撮影装置３１が撮影した撮影画像に含まれるフレームのそれぞれに、各フレームが取得された時点に対応する状況画像を含める。各フレームが取得された時点に対応する状況画像とは、各フレームの撮影に対応して取得された状況情報を表す画像である。

図５は、合成画像を例示する図である。図において、フレームｆ２１〜ｆ２３は、撮影画像の合成領域に状況画像を含めた合成画像である。フレームｆ２１は、図４のフレームｆ１１の右上の合成領域に状況画像Ｉｍｇ２１を含めた合成画像である。なお、フレームにおける上下左右は、撮影時の垂直方向に対応する方向を上下方向として規定されるものとする。状況画像Ｉｍｇ２１は、フレームｆ１１の撮影に応じて取得された状況情報を表す。フレームｆ２２は、図４のフレームｆ１２の右上の領域に状況画像Ｉｍｇ２２を含めた合成画像である。状況画像Ｉｍｇ２２は、フレームｆ１２の撮影に応じて取得された状況情報を表す。フレームｆ２３は図４のフレームｆ１３の図中右上の領域に状況画像Ｉｍｇ２３を含めた合成画像である。状況画像Ｉｍｇ２３は、フレームｆ１３の撮影に応じて取得された状況情報を表す。

ここでは、状況画像を合成する合成領域の形状および位置は事前に定められている。換言すると、状況画像が合成される合成領域は、固定の領域である。例えば、図５の例では、合成領域は、事前に、撮影画像の右上の角に配置された矩形領域である。以降、図５に例示した合成領域を、「右上の合成領域」とも記載する。ただし、合成領域の形状および位置はこれに限られない。例えば、合成領域は、撮影画像の幅（すなわち、左右の長さ）と略同一の幅を有する上端（または下端）の矩形領域であってもよい。以降、このような合成領域を、「上端（または下端）の合成領域」とも記載する。また、合成領域は、撮影画像の左上（または、左下、右下等）の角に配置された矩形領域であってもよい。以降、このような合成領域を、「左上（または、左下、右下等）の合成領域」とも記載する。

また、合成領域の形状および位置は、事前に、ユーザにより設定可能であってもよい。この場合、ユーザは、入力装置４１を用いて領域を指定する操作を行い、合成画像出力部１３７は、当該操作が示す領域を、合成領域として特定する。

（ステップＳ１０６）
図２の説明に戻る。ステップＳ１０６において、合成画像出力部１３７は、撮影を終了するかを判定する。この判定は例えば、ボタンＢ１１に対する操作が受け付けられたか否かを判定することにより行われる。ボタンＢ１１に対する操作が受け付けられた場合、合成画像出力部１３７は撮影を終了すると判定する。一方、ボタンＢ１１に対する操作が受け付けられていない場合、合成画像出力部１３７は撮影を継続すると判定する。撮影を終了する場合（ステップＳ１０６のＹＥＳ）は、合成画像出力部１３７はステップＳ１０７へと進み、終了しない場合（ステップＳ１０６のＮＯ）は、ステップＳ１０２へと戻り、次のフレームについての処理を継続する。

（ステップＳ１０７）
ステップＳ１０７において、合成画像出力部１３７は、合成画像を記憶部１５に記憶する。合成画像出力部１３７は、記憶部１５に記憶された合成画像を、所定のタイミングにおいてサーバ２０に送信する。所定のタイミングとは例えば、ユーザが入力装置４１を用いて合成画像の送信を指示したタイミング、所定の単位時間が経過する毎、等であってもよい。サーバ２０は端末１０から合成画像を受信し、記憶部２５に記憶する。

＜撮影中における撮影画像の表示画面の他の例＞
上述の動作例では、撮影中に端末１０の表示装置５１に表示される画面として図３を例示した。撮影中に表示装置５１に表示される画面の他の例について、図６および図７を参照しつつ説明する。

図６および図７は、撮影中に端末１０の表示装置５１に表示される画面の他の例を示す図である。図６では、撮影画像表示部１３９は、撮影画像に含まれる最新のフレームＩｍｇ３１およびボタンＢ１１を表示するとともに、フレームＩｍｇ３１の上端の合成領域に、当該合成領域と同じ形状の画像Ｉｍｇ３２（本発明における「合成領域を示す画像」の一例）を重畳して表示する。フレームＩｍｇ３１は、撮影対象である被写体Ｔ１１を含む。

（撮影中に合成領域が視認できる画面例）
図６の例では、ユーザは撮影画像の撮影中に、状況画像が重畳される予定の上端の合成領域を視認できる。具体的には、フレームＩｍｇ３１における上端の合成領域は、画像Ｉｍｇ３２が重畳されるため視認できなくなる。そのため、ユーザは、上端の合成領域以外の領域に被写体Ｔ１１が含まれるように注意しつつ撮影を行うことができる。これにより、被写体Ｔ１１に状況画像が重畳されてしまい解析精度が低下することが防止される。

（撮影中に合成領域に状況画像が表示される画面例）
図７の例では、撮影画像表示部１３９は、フレームＩｍｇ３１およびボタンＢ１１を表示するとともに、フレームＩｍｇ３１の上端の合成領域に状況画像Ｉｍｇ３３を重畳して表示する。この例で、状況画像Ｉｍｇ３３は、撮影装置３１の傾きを示す直線を含む。これにより、ユーザは、各フレームの撮影状況（撮影時点における撮影装置３１の傾き）を確認しながら撮影を行うことができる。

＜合成画像の他の例＞
合成画像（図５参照）の他の例について、図面を参照しつつ説明する。上述の動作例では、合成画像出力部１３７は、図５に例示する合成画像を出力した。図８〜図１１を用いて、他の合成画像の例について説明する。

（合成領域の一部に状況画像が含まれる例）
図８は、撮影中に表示された合成領域の一部に状況画像が含まれる合成画像を例示する図である。

図８において、合成画像であるフレームｆ４１〜ｆ４３では、それぞれ、撮影画像に含まれるフレームｆ１１〜ｆ１３において撮影中に表示された上端の合成領域に、合成領域と同じ形状の画像Ｉｍｇ４６〜Ｉｍｇ４８が重畳されている。また、画像Ｉｍｇ４６〜Ｉｍｇ４８では、それぞれ、その一部に、状況画像Ｉｍｇ４１〜Ｉｍｇ４３が重畳されている。図８の例では、状況画像Ｉｍｇ４１は、フレームｆ１１の撮影に応じて取得された状況情報（例えば、２次元コード）である。状況画像Ｉｍｇ４２は、フレームｆ１２の撮影に応じて取得された状況情報（例えば、２次元コード）である。状況画像Ｉｍｇ４３は、フレームｆ１３の撮影に応じて取得された状況情報（例えば、２次元コード）である。

（テキスト画像を含む状況画像が含まれる例）
図９は、テキスト画像を含む状況画像が含まれる合成画像を例示する図である。図９において、合成画像であるフレームｆ５１〜ｆ５３ではそれぞれ、撮影画像に含まれるフレームｆ１１〜ｆ１３において撮影中に表示された上端の合成領域に、状況画像Ｉｍｇ５１〜Ｉｍｇ５３が重畳されている。図９の例では、状況画像Ｉｍｇ５１は、フレームｆ１１の撮影に応じて取得された状況情報を文字列で表すテキスト画像を含む。状況画像Ｉｍｇ５２は、フレームｆ１２の撮影に応じて取得された状況情報を文字列で表すテキスト画像を含む。状況画像Ｉｍｇ５３は、フレームｆ１３の撮影に応じて取得された状況情報を文字列で表すテキスト画像を含む。

（複数の図形を含む状況画像が含まれる例）
図１０は、撮影状況を示す複数の図形を含む状況画像が含まれる合成画像を例示する図である。図１０において、合成画像であるフレームｆ６１〜ｆ６３ではそれぞれ、撮影画像に含まれるフレームｆ１１〜ｆ１３（図４参照）において撮影中に表示された上端の合成領域に、状況画像Ｉｍｇ６１〜Ｉｍｇ６３が重畳されている。図１０の例では、状況画像Ｉｍｇ６１は、フレームｆ１１の撮影に応じて取得された状況情報を表す図形Ｉｍｇ６１１、Ｉｍｇ６１２を含む。状況画像Ｉｍｇ６２は、フレームｆ１２の撮影に応じて取得された状況情報を表す図形Ｉｍｇ６２１、Ｉｍｇ６２２を含む。状況画像Ｉｍｇ６３は、フレームｆ１３の撮影に応じて取得された状況情報を表す図形Ｉｍｇ６３１、Ｉｍｇ６３２を含む。図形Ｉｍｇ６１１，Ｉｍｇ６２１，Ｉｍｇ６３１は、撮影装置３１の傾きを表す直線である。図形Ｉｍｇ６１２，Ｉｍｇ６２２，Ｉｍｇ６３２は、撮影画像における被写体Ｔ１１の幅方向の位置を表す図形である。

（複数の合成領域に状況画像が含まれる例）
図１１は、複数の合成領域に状況画像が含まれる合成画像を例示する図である。この例では、上端の合成領域、左下の合成領域、および右下の合成領域が事前に定められている。図１１において、フレームｆ７１〜ｆ７３では、それぞれ、撮影画像に含まれるフレームｆ１１〜ｆ１３（図４参照）における上端の合成領域に状況画像Ｉｍｇ７１１〜Ｉｍｇ７１３が重畳され、左下の合成領域に状況画像Ｉｍｇ７２１〜Ｉｍｇ７２３が重畳され、右下の合成領域に状況画像Ｉｍｇ７３１〜Ｉｍｇ７３３が重畳されている。状況画像Ｉｍｇ７１１〜Ｉｍｇ７１３は、状況情報を文字列で表すテキスト画像を含む。状況画像Ｉｍｇ７２１〜Ｉｍｇ７２３は、撮影装置３１の傾きを表す図形を含む。状況画像Ｉｍｇ７３１〜Ｉｍｇ７３３は、状況情報を表す二次元コードを含む。また、状況画像Ｉｍｇ７１１、Ｉｍｇ７２１、Ｉｍｇ７３１は、フレームｆ１１の撮影に応じて取得された状況情報を示す。状況画像Ｉｍｇ７１２、Ｉｍｇ７２２、Ｉｍｇ７３２は、フレームｆ１２の撮影に応じて取得された状況情報を示す。また、状況画像Ｉｍｇ７１３、Ｉｍｇ７２３、Ｉｍｇ７３３は、フレームｆ１３の撮影に応じて取得された状況情報を示す。

＜状況画像を含める位置の決定方法＞
上述の動作例では、合成画像出力部１３７は、事前に定められた合成領域に状況画像を含めた合成画像を生成した。合成画像出力部１３７は、合成領域を、撮影状況に応じて変更してもよい。

（端末１０の向きに応じた合成領域）
撮影状況によって、解析の際に重要となる画像領域（以下「重要領域」という）が異なる場合がある。例えば、撮影時の端末１０の向きが縦向き（端末１０の長手方向が垂直方向となる方向）であるか横向き（端末１０の長手方向が水平方向となる方向）であるかによって、重要領域は異なる。この場合、合成画像出力部１３７は、センサ６１が検出した端末１０の向きを示す情報に基づき、状況画像の合成領域を異ならせる。

例えば、端末１０を縦向き（図６参照）にして、被写体Ｔ１１が画面の中央に位置するようにユーザが撮影した場合、被写体Ｔ１１を含む画面の中央部分の画像が解析の対象となるため、フレームにおける上端および下端は重要でない可能性が高い。この場合、合成画像出力部１３７は、画面の上端および下端の一方または両方を合成領域とする。

図１２は、端末１０を横向きにして人物である被写体Ｔ１１を撮影した様子を例示した図である。図１２の例において、被写体Ｔ１１が画面の中央に位置するようにユーザが撮影した場合、被写体Ｔ１１を含む画面の中央部分の画像が解析の対象となり、画面の左端および右端は重要でない可能性が高い。この場合、合成画像出力部１３７は、画面の左端および右端の一方または両方を合成領域とする。図１２の例では、フレームの高さと同じ高さを有する左端の領域ａ１０１が、合成領域となっている。

（フレーム毎に変化し得る合成領域）
また、合成画像出力部１３７は、撮影中の撮影状況の変化に応じて、フレーム毎に合成領域を決定してもよい。例えば、ユーザが撮影中に端末１０の向きを横向きから縦向きに変更した場合、合成画像出力部１３７は、状況画像を合成する位置を、上端又は下端の領域から左端又は右端の領域に変更する。

また、合成画像出力部１３７は、フレームに含まれる被写体Ｔ１１の領域の変化に応じて合成領域を変更してもよい。例えば、被写体Ｔ１１が撮影中に、撮影方向から見て左右方向に移動したとする。この場合、合成画像出力部１３７は、被写体Ｔ１１が左半分に含まれるフレームでは、右端の合成領域を決定し、右半分に含まれるフレームでは、左端の合成領域を決定してもよい。

（解析の種類に応じた合成領域）
また、重要領域はサーバ２０が行う解析の種類によっても異なってくる。そのため、合成画像出力部１３７は、サーバ２０が行う解析の種類に応じて重要領域を特定し、特定した重要領域を含まないように合成領域を決定してもよい。この場合、合成画像出力部１３７は、重要領域の特定方法を、サーバ２０が行う解析処理の種類に応じて異ならせる。例えば、サーバ２０が行う解析処理が歩容解析である場合、合成画像出力部１３７は、撮影画像を画像解析することにより人物の領域を重要領域として特定する。また、例えば、合成画像出力部１３７は、サーバ２０が行う解析処理が顔認識処理である場合、撮影画像を画像解析することにより顔の領域を重要領域として特定する。

例えば、サーバ２０が歩容解析を行う場合、各フレームにおいて被写体Ｔ１１である人物が写っている領域は解析の際に重要であるが、それ以外の領域は解析では用いられず、重要でない領域である。そのため、撮影中の被写体Ｔ１１の移動に伴い、各フレームにおける重要領域は変化する。

また、例えば、画像解析として顔認識を行う場合、顔の領域は解析の際に重要であるが、それ以外の領域は重要でない領域となる。そのため、撮影中の被写体Ｔ１１の顔の動きに伴い、各フレームにおける重要領域は変化する。

このように、合成画像出力部１３７は、解析の種類に応じて各フレームにおける重要領域を特定し、重要領域以外の領域を合成領域とする。

（状況画像の重畳位置を示す画像）
また、合成画像出力部１３７は、合成領域を撮影状況に応じて変更するとともに、状況画像の重畳位置を示す画像を、撮影画像の事前に定められた領域に重畳してもよい。なお、状況画像の重畳位置とは、状況画像を実際に合成した合成領域の位置である。例えば、合成画像出力部１３７は、各フレームにおける状況画像の重畳位置を示す画像を、そのフレーム又はそのフレーム前後のフレームの事前に定められた領域に重畳してもよい。

図１３は、状況画像の重畳位置を示す画像が合成された撮影画像を例示する図である。図１３において、合成画像であるフレームｆ１１１では、撮影画像に含まれるフレームｆ１１（図４参照）における右下の領域に状況画像Ｉｍｇ１１１が重畳されている。合成画像であるフレームｆ１１２では、撮影画像に含まれるフレームｆ１２（図４参照）における左上の領域に状況画像Ｉｍｇ１１２が重畳されている。合成画像であるフレームｆ１１３では、撮影画像に含まれるフレームｆ１３（図４参照）における左下の領域に状況画像Ｉｍｇ１１３が重畳されている。このように、合成画像出力部１３７は、撮影中の撮影状況の変化に応じて、状況画像の重畳位置を変更する。

更に、合成画像であるフレームｆ１１１〜ｆ１１３ではそれぞれ、撮影画像に含まれるフレームｆ１１〜ｆ１３（図４参照）の右上の領域に、状況画像の重畳位置を示す画像Ｉｍｇ１１６〜Ｉｍｇ１１８が重畳されている。画像Ｉｍｇ１１６〜Ｉｍｇ１１８は例えば、情報コード、テキスト画像、および図形の一部または全部を含む。画像Ｉｍｇ１１６は、フレームｆ１１１の次のフレームであるフレームｆ１１２に含まれる状況画像Ｉｍｇ１１２の重畳位置である「左上」を示す画像である。画像Ｉｍｇ１１７は、フレームｆ１１２の次のフレームであるフレームｆ１１３に含まれる状況画像Ｉｍｇ１１３の重畳位置である「左下」を示す画像である。画像Ｉｍｇ１１８は、フレームｆ１１３の次のフレーム（図示せず）に含まれる状況画像の重畳位置を示す画像である。

このように、図１３の例では、合成画像出力部１３７は、撮影画像に含まれるフレームにおける状況画像の重畳位置を示す画像を、当該フレームの前のフレームの事前に定められた領域に重畳する。なお、各フレームの状況画像の重畳位置を示す画像を重畳するフレームは、当該フレームの前のフレームに限らず、当該フレーム自体であってもよいし、当該フレームの次のフレームであってもよい。

これにより、後述するように、合成領域が可変である場合にサーバ２０がより確実に状況画像を抽出することができる。

（合成領域の変更）
また、合成画像出力部１３７は、撮影時において表示装置５１に表示された合成領域と異なる位置に、状況画像を重畳してもよい。換言すると、合成画像出力部１３７は、表示装置５１に表示した合成領域の位置を変更して状況画像を重畳してもよい。例えば、撮影時においては、撮影画像表示部１３９が、撮影画像に含まれる最新のフレームに事前に定められた合成領域と同じ形状の画像（図６の画像Ｉｍｇ３２、等）を重畳して表示する。ただし、合成画像出力部１３７は、状況画像を実際に重畳する合成領域を撮影状況に応じて変更する。合成画像出力部１３７は例えば、端末１０の向きを示す情報や被写体の位置を示す情報に応じて実際の合成領域を変更する。この場合、撮影時においては、図６に例示した画面が表示される。一方、合成画像出力部１３７は、例えば図１１に例示した合成画像を出力する。

これにより、撮影時に合成領域を示してユーザの利便性を高めながらも、表示した合成領域に被写体が含まれてしまった場合に当該被写体に状況画像が重畳されてしまうことを軽減できる。

＜状況画像を含めるフレームの他の例＞
次いで、撮影画像に含まれるフレームのうち状況画像を合成するフレームについて説明する。上述の動作例では、状況画像の合成処理（図２のステップＳ１０５の処理）は、撮影画像に含まれる最新のフレームを取得する度に行われていた。すなわち、フレーム毎に状況画像が合成される例について説明した。これに限らず、状況画像の合成処理が行われないフレームがあってもよい。例えば、状況画像の合成処理は、フレーム毎ではなく、２以上の所定数のフレームごとに行われてもよい。すなわち、合成画像出力部１３７は、動画像に含まれる複数のフレームのうち少なくとも一部のフレームに、当該フレームが撮影された時点に対応する状況画像を含めてもよい。

（撮影中に変化し得る状況情報と変化しない状況情報）
ここで、撮影画像が動画像である場合、状況情報は、撮影画像の撮影中に変化し得る情報と、変化し得ない情報とを含む。撮影画像の撮影中に変化し得る情報は、例えば、センサ６１により検出された情報、解析情報を含む。また、撮影画像の撮影中に変化し得ない情報は例えば、端末１０のハードウェア情報ソフトウェア情報を含む。

状況情報取得部１３３は、撮影画像の撮影中に変化し得る状況情報を、撮影開始から終了までの間に、複数の時点で取得する。例えば、状況情報取得部１３３は、撮影画像の撮影中に変化し得る状況情報を、図２を用いて説明したようにフレーム毎に取得してもよいが、２以上の所定数のフレーム毎に取得してもよい。例えば、状況情報取得部１３３は、２フレーム毎に状況情報を取得してもよい。

一方、状況情報取得部１３３は、撮影画像の撮影中に変化しない状況情報を、撮影開始から終了までの間に、少なくとも１度取得すればよい。例えば、状況情報取得部１３３は、撮影画像の撮影中に変化し得ない情報を、撮影開始時に取得し、その後、撮影終了まで取得しなくてもよい。

（一部のフレームに状況画像が合成される例）
図１４は、一部のフレームに状況画像が合成された撮影画像を例示する図である。図１４において、フレームｆ８１〜ｆ８６は連続したフレームである。図１４の例では、フレームｆ８１、ｆ８３、およびｆ８５が撮影されたタイミングにおいて、状況情報取得部１３３が状況情報を取得する。合成画像出力部１３７は、フレームｆ８１、ｆ８３、ｆ８５のそれぞれに、状況画像Ｉｍｇ８１、Ｉｍｇ８３、Ｉｍｇ８３を合成する。状況画像Ｉｍｇ８１は、フレームｆ８１の元となるフレームの撮影に応じて取得された状況情報を表す。状況画像Ｉｍｇ８３は、フレームｆ８３の元となるフレームの撮影に応じて取得された状況情報を表す。状況画像Ｉｍｇ８５は、フレームｆ８５の元となるフレームの撮影に応じて取得された状況情報を表す。フレームｆ８２、ｆ８４、ｆ８６は、撮影装置３１によって撮影されたフレームであり、状況画像は合成されていない。換言すると、図１４の例では、合成画像出力部１３７は、全てのフレームではなく、状況情報が取得されたタイミングに対応するフレームに状況画像を合成する。

（複数のフレームに同一の状況画像が合成される例）
図１５は、複数のフレームに同一の状況画像が合成された撮影画像を例示する図である。図１５において、フレームｆ９１〜ｆ９６は連続したフレームである。フレームｆ９１、ｆ９３、ｆ９５が撮影されたタイミングにおいて、状況情報取得部１３３が状況情報を取得する。合成画像出力部１３７は、フレームｆ９１およびｆ９２には、状況画像Ｉｍｇ９１を合成し、フレームｆ９３およびｆ９４には、状況画像Ｉｍｇ９２を合成し、フレームｆ９５およびｆ９６には、状況画像Ｉｍｇ９３を合成する。すなわち、図１５の例では、合成画像出力部１３７は、同一の状況画像を、次の状況画像が生成されるまでの複数のフレームのそれぞれに合成する。

（撮影状況が変化したフレームに状況画像が合成される例）
また、合成画像出力部１３７は、全てのフレームに状況画像を含めるのではなく、状況情報が変化したタイミングに対応するフレームに状況画像を合成してもよい。例えば、合成画像出力部１３７は、状況情報の示す端末１０の向きが縦向きから横向きに変化したタイミング、または、状況情報が示す被写体Ｔ１１の位置が変化したタイミングで、その状況情報を表す状況画像をフレームに合成してもよい。

（フレームに応じて状況画像の種類を変化させる例）
図１６は、フレームに応じて状況画像の種類を変化させた合成画像を例示する図である。状況画像の種類とは、状況画像が示す状況情報の種類に対応する。状況画像の種類としては、例えば、撮影装置３１の傾きを示す第１種類、被写体Ｔ１１の左右方向の位置を示す第２種類、エンコーダのコーデックの設定値を示す第３種類があるが、これらに限られない。図１６において、フレームｆ１０１〜ｆ１０６は連続したフレームである。図１６の例では、合成画像出力部１３７は、第１種類〜第３種類の状況画像を、順番にフレームに合成する。合成画像出力部１３７は、フレームｆ１０１〜ｆ１０６にそれぞれ、状況画像Ｉｍｇ１０１〜１０６を合成する。状況画像Ｉｍｇ１０１およびＩｍｇ１０４は、第１種類の状況画像であり、撮影装置３１の傾きを表す図形を含む。状況画像Ｉｍｇ１０２およびＩｍｇ１０５は、第２種類の状況画像であり、被写体Ｔ１１の左右方向の位置を示す図形を含む。状況画像Ｉｍｇ１０３およびＩｍｇ１０６は、第３種類の状況画像であり、エンコーダのコーデックの設定値を表す二次元バーコードを含む。

＜状況画像を合成するタイミングの他の例＞
また、撮影画像と状況画像との合成処理は、撮影中ではなく、撮影が終了した後に行われてもよい。この場合、状況情報取得部１３３は、撮影画像の撮影中に状況情報を取得し、取得した時点のフレームに関連付けて記憶部１５に記憶しておく。その後、合成画像出力部１３７は、記憶部１５に記憶された状況情報を表す状況画像を撮影画像の各フレームに合成する。

＜サーバ２０の画像解析処理＞
次いで、サーバ２０の画像解析処理について詳細に説明する。端末１０の記憶部１５に記憶された合成画像は、上述したように、所定のタイミングにおいてサーバ２０に送信される。

図１７は、サーバ２０が実行する画像解析処理（方法）の流れを示すフローチャートである。なお、一部のステップは並行して、または、順序を替えて実行してもよい。

（ステップＳ２０１）
ステップＳ２０１において、合成画像取得部２３１は、端末１０から合成画像を受信することにより、端末１０によって出力される合成画像を取得する。サーバ２０は受信した合成画像を記憶部２５に記憶する。

（ステップＳ２０２）
ステップＳ２０２において、状況情報抽出部２３３は、合成画像に含まれるフレームから、状況画像に対応する領域の画像を抽出する。事前に合成領域が定められている場合、状況情報抽出部２３３は、フレームから、合成領域として事前に定められた領域の画像を抽出すればよい。また、事前に合成領域が定められていない場合、状況情報抽出部２３３は、フレームを解析することにより状況画像の領域を推定し、推定した領域の画像を抽出してもよい。

また、状況画像の重畳位置を示す画像が事前に定められた領域に含まれている場合、状況情報抽出部２３３は、状況画像の重畳位置を示す画像を事前に定められた領域から抽出し、抽出した画像を解析して状況画像の重畳位置を特定する。例えば、抽出した画像にテキスト画像が含まれる場合、状況情報抽出部２３３は、抽出した画像に対しＯＣＲ（Optical character recognition）等の文字認識処理を行い、状況画像の重畳位置を示す情報として文字列を抽出する。抽出した画像に情報コードが含まれる場合、状況情報抽出部２３３は、情報コードを画像解析することにより状況画像の重畳位置を示す情報を抽出する。抽出した画像に図形が含まれる場合、状況情報抽出部２３３は、図形の形状等を解析することにより、状況画像の重畳位置を示す情報を抽出する。

状況情報抽出部２３３は、抽出した情報の示す重畳位置に対応する領域の画像を状況画像として抽出する。例えば、図１３に一例を示した撮影画像の場合、状況情報抽出部２３３は、フレームｆ１１１の右上の画像Ｉｍｇ１１６を解析して、次のフレームｆ１１２における状況画像の重畳位置である「左上」を示す情報を抽出する。これにより、状況情報抽出部２３３は、フレームｆ１１２の左上から状況画像Ｉｍｇ１１２を抽出する。また、状況情報抽出部２３３は、フレームｆ１１２の右上の画像Ｉｍｇ１１７を解析して、次のフレームｆ１１３における状況画像の重畳位置である「左下」を示す情報を抽出する。これにより、状況情報抽出部２３３は、フレームｆ１１３の左下から状況画像Ｉｍｇ１１３を抽出する。

このように、合成領域が可変である場合に、端末１０が状況画像の重畳位置を示す画像を合成画像の事前に定められた領域に重畳することにより、サーバ２０は状況画像をより確実に抽出することができる。

（ステップＳ２０３）
ステップＳ２０３において、状況情報抽出部２３３は、状況画像が示す状況情報を抽出する。

例えば、状況画像にテキスト画像が含まれる場合、状況情報抽出部２３３は、状況画像に対しＯＣＲ等の文字認識処理を行い、状況情報として文字列を抽出する。状況情報に情報コードが含まれる場合、状況情報抽出部２３３は、情報コードを画像解析することにより状況情報を抽出する。状況情報に図形が含まれる場合、状況情報抽出部２３３は、図形の形状等を解析することにより、状況情報を抽出する。

なお、ステップＳ２０２で抽出された状況画像から状況情報が抽出されなかった場合について説明する。この場合、状況情報抽出部２３３は、フレームにおける他の領域を合成領域として推定し、推定した領域の画像から状況情報を抽出する処理を再度実行してもよい。また、状況情報抽出部２３３は、当該フレームには状況画像が含まれていないものとしてもよい。また、状況情報抽出部２３３は、状況情報を再度抽出する処理を上限回数まで実行しても状況情報が抽出されない場合に、当該フレームには状況画像が含まれていないものとしてもよい。

（ステップＳ２０４）
ステップＳ２０４〜Ｓ２０６において、合成画像解析部２３５は、状況情報を用いて合成画像を解析する処理を実行する。まず、ステップＳ２０４において、合成画像解析部２３５は、抽出した状況情報に応じて各フレームを補正する。なお、ステップＳ２０２で抽出された状況画像から状況情報が抽出されなかった場合、合成画像解析部２３５は、それ以前のフレームから抽出された状況情報を用いて、補正を行ってもよいし、当該フレームについては補正を行わなくてもよい。

合成画像解析部２３５が行う補正処理は例えば、傾き補正、輝度補正、または手ぶれ補正である。傾き補正の場合、合成画像解析部２３５は例えば、状況情報の示す撮影装置３１の傾きを示す情報に基づき、傾きが是正されるように合成画像を回転させる処理を行う。輝度補正の場合、合成画像解析部２３５は例えば、状況情報の示す輝度情報に基づき、合成画像の輝度を補正する。手ぶれ補正の場合、合成画像解析部２３５は例えば、状況情報の示す加速度センサまたはジャイロセンサの検出値に基づき、合成画像の補正を行う。

また、補正処理は、状況情報に基づき合成画像の一部の領域を抽出する処理であってもよい。例えば、合成画像解析部２３５は、状況情報に含まれる被写体Ｔ１１の位置情報に基づき、合成画像から被写体Ｔ１１を含む領域を抽出する。

（ステップＳ２０５）
ステップＳ２０５において、合成画像解析部２３５は、解析対象である撮影画像に含まれる全てのフレームについて処理を完了したかを判定する。全てのフレームについて処理が完了した場合（ステップＳ２０５のＹＥＳ）は、合成画像解析部２３５はステップＳ２０６の処理へと進む。一方、次のフレームが残っている場合（ステップＳ２０５のＮＯ）、合成画像解析部２３５はステップＳ２０２の処理へと戻り、次のフレームについて状況情報の抽出処理を行う。

（ステップＳ２０６）
ステップＳ２０６において、合成画像解析部２３５は、状況情報を用いて合成画像を補正した補正画像を用いて、合成画像の解析を行う。合成画像の解析処理は例えば、顔認識処理、歩容解析処理である。例えば、合成画像解析部２３５は、歩容解析処理を、状況情報に含まれる解像度に応じて選択される骨格検出モデルを用いて行う。また、例えば、合成画像解析部２３５は、歩容解析処理を、状況情報に含まれるフレームレートに応じたサンプリングレートを用いて行う。

例えば、合成画像解析部２３５は、合成画像の解析を、機械学習による学習済モデルを用いて行う。学習済モデルは例えば、合成画像と、歩容解析結果との相関関係を機械学習させた学習済モデルである。歩容解析結果は例えば、被写体Ｔ１１である対象者の健康状態を示す情報を含む。

この場合、学習済モデルは、合成画像に基づいて歩容解析結果を生成可能な任意の学習モデルであり得る。学習済モデルは例えば、ＣＮＮ（Convolutional Neural Network）、ＲＮＮ（Recurrent Neural Network）、ＬＳＴＭ（Long Short-Term Memory）、ＤＮＮ（Deep Neural Network）、又はこれらの組み合わせで実現可能である。

この場合、合成画像解析部２３５は、合成画像を学習済モデルに入力し、学習済モデルから出力される歩容解析結果を取得することにより、歩容解析結果を推定する。学習済モデルには、合成画像がそのまま入力されてもよく、また、ステップＳ２０４で補正された合成画像（例えば、合成画像の一部の領域を抽出した画像）が入力されてもよい。また、合成画像から抽出された状況情報と合成画像とが学習済モデルに入力されてもよい。この場合、学習済モデルは、状況情報および合成画像と、歩容解析結果との相関関係を機械学習させた学習済モデルである。

なお、合成画像解析部２３５が行う画像解析処理は、上述した処理に限られない。合成画像解析部２３５は例えば、合成画像を顔画像データベースと照合することにより顔認識処理を行ってもよい。また、合成画像解析部２３５は例えば、ＣＮＮを用いた３次元物体認識の手法であるＭＭＳＳ（Multi-model Sharable and Specific Feature Learning for RGB-D Object Recognition）を用いて画像から物体の種類を推定する処理を行ってもよい。

また、合成画像解析部２３５は、撮影状況に応じた学習済モデルを利用することにより、合成画像の解析処理を実行してもよい。この場合、例えば、状況情報の種別や状況情報の値の範囲に対応する複数の学習済モデルを事前に用意しておき、合成画像解析部２３５が、複数の学習済モデルの中から、状況情報の種別や状況情報の値に対応する学習済モデルを選択して用いてもよい。

以上説明したように本実施形態によれば、サーバ２０は、状況情報が埋め込まれた合成画像から状況情報を抽出する。これにより、サーバ２０は、撮影状況に応じた解析を行うことができ、解析の精度を高くすることができる。

ところで、状況情報を用いて撮影画像を解析するためには、撮影状況を示す情報を画像ファイルのヘッダーやフッター等に含めることが考えられる。しかしながら、画像の生成または再生を行うアプリケーションソフトウェアの種類によっては、画像ファイルのヘッダーに付された情報が削除されてしまい、参照できなくなってしまう場合がある。

それに対し本実施形態では、撮影状況を表す状況画像が撮影画像に埋め込まれ、ひとつのファイルとして管理される。そのため、端末１０およびサーバ２０は、撮影状況を示す情報が記されたファイルを画像ファイルとは別に作成したり参照したりする必要がなく、その画像ファイル単体で撮影状況を示す情報と画像データの遣り取りが可能である。

また、撮影画像の解析に学習済モデルが利用される場合、解析に適した学習済モデルの種類やパラメータの種類は、撮影状況によって異なる。本実施形態では、サーバ２０が、撮影状況に応じて画像の補正を行ったり、撮影状況に応じた学習済モデルを利用したりすることにより、撮影画像の解析精度を高くすることができる。

また、本実施形態では、撮影画像に含まれるフレーム単位で状況情報を付加することができる。これにより、例えば撮影画像の一部を抽出する編集を行う場合であっても、状況情報が欠落してしまうことがなく、撮影画像の編集が容易である。

また、合成画像に埋め込まれた状況画像が半透明である場合、合成画像において状況画像が目立たないため、合成画像を視認するユーザに与える違和感を軽減することができる。

〔変形例〕
図１の例では、端末１０の制御部１３は、撮影画像取得部１３１、状況情報取得部１３３、状況画像生成部１３５、合成画像出力部１３７、および撮影画像表示部１３９を含んでいたが、これらの構成要素のうちの少なくとも一部の機能がサーバ２０に実装されてもよい。例えば、サーバ２０が合成画像出力部１３７に係る機能を備えていてもよい。

上述の動作例では、撮影画像が動画像である場合について説明したが、撮影画像は動画像に限られず、静止画像であってもよい。撮影画像が静止画像である場合、撮影画像取得部１３１は、撮影装置３１が撮影した静止画像撮影画像として取得し、状況情報取得部１３３は、撮影画像の撮影時における撮影状況を示す状況情報を取得する。状況画像生成部１３５は、状況情報を表す状況画像を生成し、合成画像出力部１３７は、撮影画像に状況画像を含めた合成画像を出力する。

〔ソフトウェアまたはハードウェアによる実現例〕
端末１０および／またはサーバ２０の制御ブロック（特に制御部１３および制御部２３）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ソフトウェアによって実現してもよい。

後者の場合、端末１０および／またはサーバ２０は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば１つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばＣＰＵ（Central Processing Unit）を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ＲＯＭ（Read Only Memory）等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するＲＡＭ（Random Access Memory）などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

（端末１０の物理的構成）
図１８は、端末１０およびサーバ２０として用いられるコンピュータの物理的構成を例示したブロック図である。端末１０は、図１８に示すように、バス１１０と、プロセッサ１０１と、主メモリ１０２と、補助メモリ１０３と、通信インタフェース１０４と、入出力インタフェース１０５とを備えたコンピュータによって構成可能である。プロセッサ１０１、主メモリ１０２、補助メモリ１０３、通信インタフェース１０４、および入出力インタフェース１０５は、バス１１０を介して互いに接続されている。入出力インタフェース１０５には、撮影装置３１、入力装置４１および表示装置５１が接続されている。

プロセッサ１０１としては、例えば、ＣＰＵ（Central Processing Unit）、マイクロプロセッサ、デジタルシグナルプロセッサ、マイクロコントローラ、またはこれらの組み合わせ等が用いられる。

主メモリ１０２としては、例えば、半導体ＲＡＭ（random access memory）等が用いられる。

補助メモリ１０３としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、またはこれらの組み合わせ等が用いられる。補助メモリ１０３には、上述したサーバ２０の動作をプロセッサ１０１に実行させるためのプログラムが格納されている。プロセッサ１０１は、補助メモリ１０３に格納されたプログラムを主メモリ１０２上に展開し、展開したプログラムに含まれる各命令を実行する。

通信インタフェース１０４は、ネットワークＮ１に接続するインタフェースである。

入出力インタフェース１０５としては、例えば、ＵＳＢインタフェース、赤外線やBluetooth（登録商標）等の近距離通信インタフェース、またはこれらの組み合わせが用いられる。

入力装置４１としては、例えば、キーボード、マウス、タッチパッド、マイク、又はこれらの組み合わせ等が用いられる。表示装置５１としては、例えば、ディスプレイ、プリンタ、スピーカ、又はこれらの組み合わせが用いられる。

この例で、プロセッサ１０１および通信インタフェース１０４は、制御部１３および通信部１１を実現するハードウェア要素の一例である。また、主メモリ１０２および補助メモリ１０３は、記憶部１５を実現するハードウェア要素の一例である。

（サーバ２０の物理的構成）
サーバ２０は、図１０に示すように、バス２１０と、プロセッサ２０１と、主メモリ２０２と、補助メモリ２０３と、通信インタフェース２０４とを備えたコンピュータによって構成可能である。プロセッサ２０１、主メモリ２０２、補助メモリ２０３、および通信インタフェース２０４は、バス２１０を介して互いに接続されている。

この例で、プロセッサ２０１および通信インタフェース２０４は、制御部２３および通信部２１を実現するハードウェア要素の一例である。また、主メモリ２０２および補助メモリ２０３は、記憶部２５を実現するハードウェア要素の一例である。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

〔まとめ〕
上記の課題を解決するために、本発明の一態様に係る端末は、撮影装置が撮影した撮影画像を取得する撮影画像取得部と、前記撮影画像の撮影時における前記撮影装置の内部状況である撮影状況を示す情報を含む状況情報を取得する状況情報取得部と、前記状況情報を表す状況画像を生成する状況画像生成部と、前記撮影画像に前記状況画像を含めた合成画像を出力する合成画像出力部と、を含む。

上記の構成によれば、端末は、状況情報を表す状況画像を撮影画像に含めた合成画像を出力する。撮影画像の解析において合成画像から撮影装置の撮影状況を得ることができるため、これにより、撮影装置が撮影した撮影画像の解析の精度を高くすることができる。

本発明の一態様に係る端末において、前記状況情報取得部は、前記状況情報として、前記撮影装置のハードウェア情報およびソフトウェア情報を取得する、ことが好ましい。

上記の構成によれば、端末は、撮影装置のハードウェア情報およびソフトウェア情報を表す状況画像を撮影画像に含めた合成画像を出力する。この撮影画像の解析において、合成画像から撮影装置のハードウェア情報およびソフトウェア情報を得ることができるため、これにより、撮影装置が撮影した撮影画像の解析の精度を高くすることができる。

本発明の一態様に係る端末において、前記状況情報取得部は、前記状況情報として、前記撮影時において前記撮影装置に付帯するセンサによって検出された情報を取得する、ことが好ましい。

上記の構成によれば、端末は、撮影画像の撮影時において撮影装置に付帯するセンサによって検出された情報を表す状況画像を撮影画像に含めた合成画像を出力する。撮影画像の解析において、合成画像から撮影時にセンサによって検出された情報を得ることができるため、これにより、撮影装置が撮影した撮影画像の解析の精度を高くすることができる。

本発明の一態様に係る端末において、前記状況情報取得部は、前記撮影画像を解析して得られる解析情報をさらに含む前記状況情報を取得する、ことが好ましい。

上記の構成によれば、端末は、解析情報を含む状況情報を表す状況画像を撮影画像に含めた合成画像を出力する。撮影画像の解析において、合成画像から撮影画像の解析結果を得ることができるため、これにより、撮影装置が撮影した撮影画像の解析の精度を高くすることができる。

本発明の一態様に係る端末において、前記状況画像生成部は、前記状況画像として、情報コード、テキスト画像、および図形の一部または全部を生成する、ことが好ましい。

上記の構成によれば、端末は、状況情報を表す状況画像として、二次元コード、テキスト画像、および図形の一部または全部を生成する。撮影画像の解析において、合成画像に含まれる二次元コード、テキスト画像、または図形から状況情報を得ることができるため、これにより、撮影装置が撮影した撮影画像の解析の精度を高くすることができる。

本発明の一態様に係る端末において、前記撮影装置による撮影中に前記撮影画像を表示装置に表示する撮影画像表示部をさらに備え、前記撮影画像表示部は、前記撮影画像のうち前記状況画像が合成される合成領域を示す画像を前記撮影画像に重畳して表示し、前記合成画像出力部は、前記撮影画像における前記合成領域に前記状況画像を含めた前記合成画像を生成する、ことが好ましい。

上記の構成によれば、撮影装置による撮影中にユーザは状況画像が配置される合成領域を視認できるため、例えば合成領域以外の領域に被写体が含まれるように注意しながら撮影を行うことができる。これにより、被写体に状況画像が重畳されてしまい解析できなくなってしまうことが防止される。

本発明の一態様に係る端末において、前記撮影画像は、動画像であり、前記合成画像出力部は、前記動画像に含まれる複数のフレームのうち少なくとも一部のフレームに、当該フレームが撮影された時点に対応する前記状況画像を含める、ことが好ましい。

上記の構成によれば、動画像の解析において、動画像に含まれる１または複数のフレームから状況情報を得ることができる。すなわち、動画像のファイルとは別に状況情報のファイルを用意したりすることなく、撮影装置が撮影した撮影画像の解析の精度を高くすることができる。

本発明の一態様に係るサーバは、上述の端末によって出力される合成画像を取得する合成画像取得部と、前記合成画像に含まれる状況画像が示す状況情報を抽出する状況情報抽出部と、前記状況情報を用いて前記合成画像を解析する合成画像解析部と、を含む。

上記の構成によれば、端末は、状況情報を表す状況画像を撮影画像に含めた合成画像を出力し、サーバは、撮影画像の解析において合成画像から抽出される状況情報を用いて解析を行う。これにより、撮影装置が撮影した撮影画像の解析の精度を高くすることができる。

本発明の一態様に係るサーバにおいて、前記合成画像解析部は、前記状況情報を用いて前記合成画像を補正した補正画像を用いて解析を行う、ことが好ましい。

上記の構成によれば、撮影状況に適した補正を行うことができる。

上記の課題を解決するために、本発明の一態様に係るプログラムは、上述した端末またはサーバとしてコンピュータを機能させるためのプログラムであって、前記各部としてコンピュータを機能させる。

上記の構成によれば、上述した端末またはサーバと同様の効果を奏する。

上記の課題を解決するために、本発明の一態様に係る方法は、コンピュータが実行する方法であって、撮影装置が撮影した撮影画像を取得するステップと、前記撮影画像の撮影時における前記撮影装置の内部状況である撮影状況を示す情報を含む状況情報を取得するステップと、前記状況情報を表す状況画像を生成するステップと、前記撮影画像に前記状況画像を含めた合成画像を出力するステップと、を含んでいる。

上記の構成によれば、上述した端末と同様の効果を奏する。

上記の課題を解決するために、本発明の一態様に係る方法は、コンピュータが実行する方法であって、上述の方法によって出力される合成画像を取得するステップと、前記合成画像に含まれる状況画像が示す状況情報を抽出するステップと、前記状況情報を用いて前記合成画像を解析するステップと、を含んでいる。

上記の構成によれば、上述したサーバと同様の効果を奏する。

１画像解析システム
１０端末
１１、２１通信部
１３、２３制御部
１５、２５記憶部
２０サーバ
３１撮影装置
４１入力装置
５１表示装置
６１センサ
１０１、２０１プロセッサ
１０２、２０２主メモリ
１０３、２０３補助メモリ
１０４、２０４通信インタフェース
１０５入出力インタフェース
１１０、２１０バス
１３１撮影画像取得部
１３３状況情報取得部
１３５状況画像生成部
１３７合成画像出力部
１３９撮影画像表示部
２３１合成画像取得部
２３３状況情報抽出部
２３５合成画像解析部

Claims

撮影装置が撮影した撮影画像を取得する撮影画像取得部と、
前記撮影画像の撮影時における前記撮影装置の内部状況である撮影状況を示す情報を含む状況情報を取得する状況情報取得部と、
前記状況情報を表す状況画像を生成する状況画像生成部と、
前記撮影画像に前記状況画像を含めた合成画像を、前記合成画像に含まれる状況画像が示す状況情報を抽出する状況情報抽出部と、前記状況情報を用いて前記合成画像を解析する合成画像解析部と、を含むサーバに出力する合成画像出力部と、
前記撮影装置による撮影中に前記撮影画像を表示装置に表示する撮影画像表示部と、
を備え、
前記撮影画像表示部は、前記撮影画像のうち前記状況画像が合成される合成領域を示す画像を前記撮影画像に重畳して表示し、
前記合成画像出力部は、前記撮影画像における前記合成領域に前記状況画像を含めた前記合成画像を生成する、
ことを特徴とする端末。
前記状況情報取得部は、前記状況情報として、前記撮影装置のハードウェア情報およびソフトウェア情報を取得する、請求項１に記載の端末。
前記状況情報取得部は、前記状況情報として、前記撮影時において前記撮影装置に付帯するセンサによって検出された情報を取得する、請求項１または２に記載の端末。
前記状況情報取得部は、前記撮影画像を解析して得られる解析情報をさらに含む前記状況情報を取得する、請求項１から３の何れか１項に記載の端末。
前記状況画像生成部は、前記状況画像として、情報コード、テキスト画像、および図形の一部または全部を生成する、請求項１から４の何れか１項に記載の端末。
前記撮影画像は、動画像であり、
前記合成画像出力部は、前記動画像に含まれる複数のフレームのうち少なくとも一部のフレームに、当該フレームが撮影された時点に対応する前記状況画像を含める、請求項１から５の何れか１項に記載の端末。
請求項１から６の何れか１項に記載の端末によって出力される合成画像を取得する合成画像取得部と、
前記合成画像に含まれる状況画像が示す状況情報を抽出する前記状況情報抽出部と、
前記状況情報を用いて前記合成画像を解析する前記合成画像解析部と、
を含むサーバ。
前記合成画像解析部は、前記状況情報を用いて前記合成画像を補正した補正画像を用いて解析を行う、請求項７に記載のサーバ。
請求項１から８の何れか１項に記載の端末またはサーバとしてコンピュータを機能させるためのプログラムであって、前記各部としてコンピュータを機能させるためのプログラム。
コンピュータが実行する方法であって、
撮影装置が撮影した撮影画像を取得するステップと、
前記撮影画像の撮影時における前記撮影装置の内部状況である撮影状況を示す情報を含む状況情報を取得するステップと、
前記状況情報を表す状況画像を生成するステップと、
前記撮影画像に前記状況画像を含めた合成画像を、前記合成画像に含まれる状況画像が示す状況情報を抽出するとともに前記状況情報を用いて前記合成画像を解析するサーバに出力するステップと、
前記撮影装置による撮影中に前記撮影画像を表示装置に表示するステップと、を含み、
前記撮影画像を表示するステップにおいては、前記撮影画像のうち前記状況画像が合成される合成領域を示す画像を前記撮影画像に重畳して表示し、
前記合成画像を出力するステップにおいては、前記撮影画像における前記合成領域に前記状況画像を含めた前記合成画像を生成する、
ことを特徴とする方法。
前記サーバが実行する方法であって、
請求項１０に記載の方法によって出力される合成画像を取得するステップと、
前記合成画像に含まれる状況画像が示す状況情報を抽出するステップと、
前記状況情報を用いて前記合成画像を解析するステップと、
を含む方法。