JP2019201360A

JP2019201360A - 画像処理装置、コンピュータプログラム、ビデオ通話システム、及び画像処理方法

Info

Publication number: JP2019201360A
Application number: JP2018095684A
Authority: JP
Inventors: 康野村; Yasushi Nomura; 柿井　俊昭; Toshiaki Kakii; 俊昭柿井; 康仁藤田; Yasuhito Fujita; 細谷俊史; Toshifumi Hosoya; 俊史細谷
Original assignee: Sumitomo Electric Industries Ltd
Current assignee: Sumitomo Electric Industries Ltd
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2019-11-21

Abstract

【課題】カメラと表示装置とを用いてより自然な対話を実現する画像処理装置、ビデオ通話システム、コンピュータプログラム、及び画像処理方法を提供する。【解決手段】画像処理装置は、人物を被写体として撮像された撮像画像中の人物被写体領域における身体又は顔の特定の部位に対応する部分を抽出する抽出部と、該抽出部により抽出された部分の特徴量に基づき、前記撮像画像を撮像する撮像装置に対する前記人物の姿勢又は視線を検出する検出部と、検出した姿勢又は視線に基づいて前記人物被写体領域の補正量を決定する補正量決定部と、決定された補正量に基づき、姿勢又は視線を補正した人物画像を作成する画像作成部とを備える。【選択図】図６

Description

本発明は、画像処理装置、コンピュータプログラム、ビデオ通話システム、及び画像処理方法に関する。

スマートフォン、タブレット端末、テレビジョン受信機等、ディスプレイと通信機能とを有する表示装置を用いたビデオ通話、ビデオ会議が実現されている。画像圧縮技術及び通信技術の進歩により表示される画質が向上しているが、話者同士の視線の不一致により、違和感を生じない自然な対話が困難である。話者を撮像するカメラの位置と、対話の相手の顔画像が表示されるディスプレイの位置との関係には表示装置の機能及びデザイン上の制限があるためである。このようなビデオ通話、ビデオ会議では、話者は対話の相手に向けて視線を送るにはカメラに対し適切な角度で視線を送らねばならず、ディスプレイにおける対話の相手を撮像した画像の表示箇所を注視することができない。ディスプレイを注視した場合には、対話の相手が観る自身の画像において自身は、相手に向けられず無関係の方向へ視線を向けていることになる。

特許文献１及び特許文献２には、視線の不一致を解消するための技術が提案されている。特許文献１では、話者に向けられたカメラにて撮像された顔領域に対して三次元モデル（ポリゴンモデル）を生成し、カメラの撮像角度と実際の視線との角度差に応じて三次元モデルを回転させて二次元画像へ置換する画像生成装置が用いられる。

特許文献２では、話者を撮像した画像に対し、話者に対して得られる奥行き画像（Depth Map ）を用いて自由に視線を変えられる技術が利用されている。奥行き画像は、赤外線センサ、撮影角度の異なる複数のカメラ、又は撮像画像に対する画像分析（輪郭、静物）により得られる。

特開２０１５−１９１５３７号公報特開２０１６−０８５５７９号公報

特許文献１及び特許文献２に開示されているように、種々の方法によって視線の一致が図られている。しかしながら、ビデオ通話、ビデオ会議ではリアルタイム性が求められるので、逐次ポリゴンの生成等の処理負荷を重くする構成、反射板、又は複数のカメラ等のハードウェア資源を特別に必要とする構成は望ましくない。

話者を撮像した画像中の目の領域を撮像した部分について、自由に視線を変更させる補正技術も提案されているが、目の領域のみの補正では不自然な場合がある。

本願は、カメラと表示装置とを用いてより自然な対話を実現する画像処理装置、ビデオ通話システム、コンピュータプログラム、及び画像処理方法を提供することを目的とする。

本開示に係る画像処理装置は、人物を被写体として撮像された撮像画像中の人物被写体領域における身体又は顔の特定の部位に対応する部分を抽出する抽出部と、該抽出部により抽出された部分の特徴量に基づき、前記撮像画像を撮像する撮像装置に対する前記人物の姿勢又は視線を検出する検出部と、検出した姿勢又は視線に基づいて前記人物被写体領域の補正量を決定する補正量決定部と、決定された補正量に基づき、姿勢又は視線を補正した人物画像を作成する画像作成部とを備える。

なお、本願は、このような特徴的な処理部を備える画像処理装置として実現することができるだけでなく、画像処理装置の一部又は全部を実現する半導体集積回路として実現したり、画像処理装置を含むビデオ通話システム、その他のシステムとして実現したりすることができる。

上記によれば、より自然な対話を実現することができる。

画像処理装置を用いたビデオ通話システムの概要を示す図である。ビデオ通話システムの構成を示すブロック図である。端末装置の処理部の機能を示す機能ブロック図である。処理部の端末アプリプログラムに基づく処理手順の一例を示すフローチャートである。実施の形態１における画像処理部の処理で生成される情報を示す模式図である。作成される人物画像の内容例を更に示す模式図である。実施の形態２における処理部の機能ブロック図である。学習モデルの概要を示す図である。ＧＡＮに基づく学習モデルの概要を示す図である。遠隔診療システムの概要を示す図である。

［本発明の実施形態の説明］
最初に本発明の実施態様を列記して説明する。また、以下に記載する実施形態の少なくとも一部を任意に組み合わせてもよい。

（１）本態様に係る画像処理装置は、人物を被写体として撮像された撮像画像中の人物被写体領域における身体又は顔の特定の部位に対応する部分を抽出する抽出部と、該抽出部により抽出された部分の特徴量に基づき、前記撮像画像を撮像する撮像装置に対する前記人物の姿勢又は視線を検出する検出部と、検出した姿勢又は視線に基づいて前記人物被写体領域の補正量を決定する補正量決定部と、決定された補正量に基づき、姿勢又は視線を補正した人物画像を作成する画像作成部とを備える。

本態様にあっては、通話相手の画像又は通話相手に関する情報が表示されている表示部の１箇所を注視する場合のユーザの視線と、ユーザを撮像する撮像部の撮像方向とのずれにより、ビデオ通話相手の表示部に表示される人物画像が生じさせる違和感を解消することができる。

本態様において検出部は、撮像画像中の人物被写体の姿勢又は視線（傾き等）を検出する。検出方法は、赤外光を瞳孔に当てて反射像を解析する方法、人物被写体の特徴点の位置から検出する方法等、種々の方法が適用される。

補正量決定部は、検出された姿勢又は視線に基づき、注視方向を撮像方向に一致させることを想定して補正量を決定する。

画像作成部は、決定された補正量を用いて撮像方向を注視方向として向く人物画像を作成することができる。撮像装置を複数設けて三次元的に人物を捉えることなく、撮像方向と特定箇所（例えば表示部の中央、表示部に表示されている通話相手の人物画像）への注視方向とを仮想的に一致させる処理をソフトウェア的に実施する。

（２）本態様に係る画像処理装置では、前記補正量決定部は、前記検出部により初期的に検出された姿勢又は視線と、前記撮像画像における撮像方向との差分を標準補正量として予め決定しておき、前記検出部により検出された姿勢又は視線と、前記標準補正量との差分を補正量として決定してもよい。

本態様にあっては、検出部は初期的に検出された姿勢又は視線を注視方向（正対方向）とし、撮像方向との差分を検出し、補正量決定部は検出された差分を標準補正量とする。標準補正量は、撮像画像中の人物被写体領域の人物が注視方向を向いている場合に、その視線を撮像方向に一致させる補正量である。検出される姿勢又は視線の方向から標準補正量を差し引くことにより、正対した姿勢又は視線を標準として対話中の身体及び視線の自然な動きを伴う人物画像を作成することが可能である。

（３）本態様に係る画像処理装置は、任意の姿勢又は視線の人物被写体領域を含む画像を入力した場合に、該人物被写体領域が設定方向を向いた人物画像を出力する学習モデルと、人物を被写体として撮像された撮像画像を前記学習モデルへ入力して姿勢又は視線を補正した人物画像を作成する画像作成部とを備える。

本態様にあっては、人物画像の作成は、深層学習を利用した学習モデルが用いられる。学習モデルは、姿勢又は視線が多様な人物が写っている人物被写体領域を含む画像を入力とし、設定角度を向く人物画像を出力する画像変換モデルである。例えば深層学習を用いて多様な姿勢の人物画像と、夫々について同一人物について設定方向を向いた画像を撮像した人物画像とを用いた学習モデルを作成しておき、各情報処理装置でユーザについて学習を進めていくことでユーザの特定に応じた学習モデルとしてもよい。

（４）本態様に係る画像処理装置では、設定方向は撮像方向に対し正対する方向であってもよい。

本態様にあっては、設定方向は正対する画像に対応する方向であることが望ましい。

更に、姿勢又は視線を検出し、検出された姿勢又は視線の注視方向からの差分を設定方向とし、正対する画像を標準として補正を行なうことで通話相手が注視する人物画像は通話相手と目線が一致することになり、自然な対話となる。

（５）本態様に係る画像処理装置では、前記人物に対応する写真画像であるユーザ画像、イラスト画像、又は三次元アニメーション画像であるアバター画像を予め記憶してある記憶部を備え、前記画像作成部は、前記撮像画像、前記記憶部に記憶してあるユーザ画像、又はアバター画像を元画像として人物画像を作成する。

本態様にあっては、姿勢又は視線を補正した人物画像の作成に基本となる元画像として、撮像されている撮像画像中の人物被写体領域、即ちライブ画像のみならず、予め記憶してあるユーザを撮像した写真画像（ユーザ画像）、アナログ又はデジタルで描かれたイラスト画像、三次元アニメーション画像等を用いたアバター画像を利用してもよい。

（６）本態様に係る画像処理装置では、前記画像作成部により作成する人物画像の元画像を、前記撮像画像、前記ユーザ画像及びアバター画像のいずれとするかの選択を受け付ける選択受付部を備え、前記画像作成部は、前記選択受付部で選択された画像を元画像として人物画像を作成する。

本態様にあっては、上述のライブ画像、ユーザ画像、又はアバター画像の内のいずれを用いるかの選択を受け付けることができる。ビデオ通話の目的に応じてユーザが選択でき、自身及び通話相手に不快感を生じさせずに通話が可能になる。

（７）本態様に係る画像処理装置では、人物を被写体として撮像された撮像画像中の人物被写体領域の特徴量に基づき、認証を行なう認証部を備え、該認証部により認証に失敗した場合、処理を停止する。

本態様にあっては、撮像画像から抽出される部分における特徴量に認証を行ない、失敗した場合には画像処理部の処理が停止する。態様（５）及び（６）で示したように、撮像画像（ライブ画像）以外の画像を元に人物画像を作成できるところ、なりすましを防ぐことが可能になる。

（８）本態様に係るビデオ通話システムは、表示部、撮像部、音声入出力部、及び通信部を備える複数の端末装置間で相互に、前記撮像部で撮像した画像及び前記音声入出力部にて入力した音声を含む映像データを前記通信部により送受信し、前記画像を前記表示部に表示させ、前記音声を音声入出力部にて出力するビデオ通話システムであって、前記複数の端末装置の内の少なくとも１つは、前記撮像部により撮像された撮像画像中の人物被写体が写っている人物被写体領域における身体又は顔の特定の部位に対応する部分を抽出する抽出部と、該抽出された部分の特徴量に基づき、前記撮像部に対する前記人物の姿勢又は視線を検出する検出部と、検出した姿勢又は視線に基づいて前記人物被写体領域の補正量を決定する補正量決定部と、決定された補正量に基づき、姿勢又は視線を補正した人物画像を作成する画像作成部とを備える。

ビデオ通話システムにおける端末装置にて、撮像装置をそのまま相互に送受信し合った場合には、通話相手の画像又は通話相手に関する情報が表示されている表示部の１箇所を注視する場合のユーザの視線と、ユーザを撮像する撮像部の撮像方向とのずれが生じる。したがって、通話相手の表示部に表示される人物画像が生じさせる。本態様にあっては、そのずれを解消するように補正した人物画像を作成して送信するから、自然な対話が可能になる。このとき撮像装置を複数設けたり、逐次三次元モデルを用いる必要はない。

（９）本態様に係るコンピュータプログラムは、コンピュータに、人物を被写体として撮像された撮像画像中の人物被写体領域における身体又は顔の特定の部位に対応する部分を抽出する処理、抽出された部分の特徴量に基づき、前記撮像画像を撮像する撮像装置に対する前記人物の姿勢又は視線を検出する処理、検出した姿勢又は視線に基づいて前記人物被写体領域の補正量を決定する処理、及び決定された補正量に基づき、姿勢又は視線を補正した人物画像を作成する処理を実行させる。

本態様にあっては、態様（１）同様に、ユーザの視線と、ユーザを撮像する撮像部の撮像方向とのずれにより、ビデオ通話相手の表示部に表示される人物画像が生じさせる違和感を解消することができる。

（１０）本態様に係る画像処理方法は、撮像部にて撮像される撮像画像を取得し、取得した撮像画像に基づき画像処理を行なう画像処理装置による画像処理方法であって、人物を被写体として撮像された撮像画像中の人物被写体領域における身体又は顔の特定の部位に対応する部分を抽出する処理、抽出された部分の特徴量に基づき、前記撮像画像を撮像する撮像装置に対する前記人物の姿勢又は視線を検出する処理、検出した姿勢又は視線に基づいて前記人物被写体領域の補正量を決定する処理、及び決定された補正量に基づき、姿勢又は視線を補正した人物画像を作成する処理を含む。

［本願発明の実施形態の詳細］
本発明の実施形態に係る画像処理装置の具体例を、以下に図面を参照しつつ説明する。なお、本発明は、これらの例示に限定されるものではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

（実施の形態１）
図１は、画像処理装置を用いたビデオ通話システム１００の概要を示す図である。ビデオ通話システム１００は、ユーザが各々用いる複数の端末装置１と、端末装置１間の通話セッションを確立するサーバ装置２とを含む。複数の端末装置１は、ネットワークＮを介してサーバ装置２と通信接続し、他の端末装置１と通話セッションを確立して通信することができる。

複数の端末装置１は夫々、所謂スマートフォン、タブレット端末、デスクトップ型パーソナルコンピュータ、ラップトップ型パーソナルコンピュータ等のコンピュータによって実現される。端末装置１は、図１に示すように撮像部１３と表示部１４とを備える。

ビデオ通話システム１００を利用するユーザは端末装置１を用い、カメラである撮像部１３で自身を撮像させながら、表示部１４に表示されている通話相手を撮像した画像、撮像部１３で撮像した自身の画像、その他の通話に関連する画像又は文書を確認しながら通話を行なう。

端末装置１では夫々、撮像部１３で撮像した画像とマイクロフォン等の音声入出力部１６で集音した音声とのデータを映像データへ符号化及び多重化し、映像データを通話セッションにて送受信する。そして受信した映像データから画像及び音声を復号し、夫々表示部１４及び音声入出力部１６にて出力する。

図１に示すように、撮像部１３の設置箇所は様々である。しかしながら撮像部１３は、表示部１４の表示領域中の、通話相手の人物画像が表示される箇所に設けることが困難である。撮像部１３で撮像した画像をそのまま通話相手の表示部１４に表示させる場合、表示される画像内の話者の視線は、通話相手へは向けられずに少しずれる。これにより、血和中に視線を一致させることが困難となり、ユーザはコミュニケーションにフラストレーションを感じることになる。

そこで実施の形態１のビデオ通話システム１００では、端末装置１にて、撮像画像を、正対する画像、又は対話中の身体及び視線の自然な動きを伴う適切な角度を向いた人物画像へ変換してから送信する。このとき、撮像部１３は左右にカメラを１つずつ、又は上下に１つずつなど、特定の複数のカメラを用いず、汎用コンピュータが備える最低限の簡素な構成でよい。また端末装置１は、ポリゴン、即ち三次元モデルを生成する処理を行なうことなしに、正対する画像又は対話中の動作に伴う姿勢又は視線等に応じた人物画像に変換する。

このように本実施の形態１のビデオ通話システム１００では、視線を通話相手同士で一致させるか、話者の視線に合わせた適切な角度を向けるようにして、ビデオ通話であっても自然な対話が可能になる。以下、具体的な構成について説明する。

図２は、ビデオ通話システム１００の構成を示すブロック図である。端末装置１は、処理部１０、記憶部１１、通信部１２、撮像部１３、表示部１４、操作部１５及び音声入出力部１６を備える。撮像部１３、表示部１４、操作部１５及び音声入出力部１６は、端末装置１に外付けで接続されるデバイスを用いてもよい。

処理部１０は、ＣＰＵ（Central Processing Unit ）、ＧＰＵ（Graphics Processing Unit）等のプロセッサと、クロック、内蔵メモリ等を用いる。なお処理部１０は、プロセッサ、クロック、内蔵メモリ、更には記憶部１１及び通信部１２を集積した１つのハードウェア（ＳｏＣ：System On a Chip）として構成されていてもよい。処理部１０は、記憶部１１に記憶してある端末用アプリプログラム１Ｐに基づいた各処理により、汎用コンピュータをビデオ通話システム１００における端末として機能させる。

記憶部１１はフラッシュメモリ、ハードディスク、ＳＳＤ（Solid State Disk）等の不揮発性記憶媒体を用いる。記憶部１１にはビデオ通話システム１００における端末としての機能を実現するための端末用アプリプログラム１Ｐが記憶されているほか、処理部１０が処理の際に参照する情報を記憶する。記憶部１１には、端末装置１のユーザの正当性を判定（認証）するために、予めユーザを撮像したユーザ画像、又はユーザ画像から得られる特徴量（ベクトル化された特徴量群）が記憶されている。ユーザ画像は、撮像画像そのまま、又は美化処理を行なった画像であってもよい。化粧を施してから撮像された画像でもよいし、化粧を施したり肌色を明るくしたりする等の美化処理が施された画像であってもよい。更に、ユーザ画像は、身体及び顔等のパーツ毎に細分化されていて組み合わせにより種々の角度の人物画像を作成できるようにしてあってもよい。また記憶部１１には、１又は複数のアバター画像又はアバター画像の特徴量が記憶されているとよい。アバター画像の態様は限定されないが、例えばユーザを撮像した二次元画像から作成された三次元ＣＧアニメーション画像であってもよい。

通信部１２は、ネットワークカード又は無線通信デバイスを用い、ネットワークＮへの通信接続を実現する。

撮像部１３は、カメラモジュールを用いて得られる映像信号を出力する。撮像部１３は揮発性メモリを内蔵しており、カメラモジュールから出力された映像信号から、フレーム画像を所定のフレームレートでキャプチャし、逐次巡回的に記憶する。処理部１０は、撮像部１３の内部メモリからフレーム画像を順に取得することが可能である。

表示部１４は液晶パネル又は有機ＥＬディスプレイ等のディスプレイ装置を用いる。表示部１４は、処理部１０の処理により映像データに多重化されている画像データに基づく画像を出力する。操作部１５は、ユーザの操作を受け付けるインタフェースであり、物理ボタン、ディスプレイ内蔵のタッチパネルデバイス等を用いる。操作部１５は、物理ボタン又はタッチパネルにて表示部１４で表示している画面上で操作を受け付けてもよいし、音声入出力部１６のマイクロフォンにて入力音声から操作内容を認識し、スピーカで出力する音声との対話形式で操作を受け付けてもよい。

音声入出力部１６は、スピーカ及びマイクロフォンを用いる。音声入出力部１６はスピーカを用いて、映像データに多重化されている音声データに基づく音声を出力し、マイクロフォンを用いて集音される音声を音声データへデジタル変換する。

サーバ装置２はサーバコンピュータを用いる。サーバ装置２は、ハードウェア的に１台のサーバコンピュータに対して、論理的に１つの装置として実現されるとは限らない。大抵の場合、１台のサーバコンピュータにて論理的に複数が動作する仮想マシンにより実現される。説明を簡易とするため、以下の説明では、サーバ装置２は物理的に１つのコンピュータを用いることとして説明する。

サーバ装置２は夫々、処理部２０、記憶部２１、及び通信部２２を備える。処理部２０はＣＰＵ、ＧＰＵ等のプロセッサを用い、記憶部２１に記憶されているサーバプログラム２Ｐに基づいた各処理を実行し、汎用コンピュータを画像通信システムのサーバ装置として機能させる。

記憶部２１は、ハードディスク又はフラッシュメモリ等の不揮発性記憶媒体を用いる。記憶部２１は、サーバプログラム２Ｐのほか、処理部２０が処理の際に参照する情報を記憶する。記憶部２１は、外部記憶装置を備えてデータベース２０１としてユーザ情報を記憶しておいてもよい。

通信部２２は、ネットワークカード又は無線通信デバイスを用い、ネットワークＮへの通信接続を実現する。通信部２２はＴＣＰ／ＩＰに準じた通信を行なうが、これに代替するプロトコルであっても構わない。サーバ装置２は通信部２２によりネットワークＮを介した通信接続を実現し、１つの端末装置１と他の端末装置１との間の１対１のセッションを確立させる。端末装置１と各装置との間のデータ通信は、暗号化処理等により安全に実行される。

ネットワークＮは、所謂インターネットである公衆網、通信キャリアネットワーク、及びビデオ通話システム１００を実現する事業者の事業者ネットワーク、それらへの接続拠点である基地局ＢＳ、アクセスポイントＡＰ等を含む総称である。なおサーバ装置２は事業者ネットワークからネットワークＮへ接続している。

図３は、端末装置１の処理部１０の機能を示す機能ブロック図である。処理部１０は端末用アプリプログラム１Ｐに基づき、端末装置１の各構成部を用いて画像データ取得部１０１、認証部１０２、選択受付部１０３、画像処理部１０４、映像処理部１０５及び通信処理部１０６として機能する。なお、画像処理部１０４の機能の一部又は全部は集積回路としてハードウェア的に実現されることで高速化されるとよい。画像処理部１０４の機能は、処理部１０とは別にＧＰＵを用いたプロセッサによって実現してもよい。

画像データ取得部１０１は、撮像部１３から映像信号に含まれるフレーム画像を取得する。画像データ取得部１０１は、取得したタイミングを示すタイムスタンプを処理部１０内蔵のタイマから取得してフレーム画像毎に付与し、フレーム画像と共に画像処理部１０４へ与える。

画像処理部１０４は、領域抽出部４１、姿勢／視線検出部４２、補正量決定部４３、及び画像作成部４４の機能を含む。

領域抽出部４１は、画像データ取得部１０１から与えられたフレーム画像に対して、人物被写体を撮影した人物被写体領域を抽出する。領域抽出部４１は、人物被写体領域における顔領域、顔領域内の目、口、鼻等の器官領域の輪郭を特定することが好ましい。輪郭は、フレーム画像内における座標で表される。

姿勢／視線検出部４２は、領域抽出部４１にて抽出された人物被写体領域における特徴量に基づき、フレーム画像中に写っている人物の、撮像方向（フレーム画像に対応する面の法線方向）に対する姿勢又は視線の傾き（φd ：左右（yaw ）、θd ：上下（pitch ）、ωd ：フレーム画像と平行な面上での回転（rolling ）等）を検出する。姿勢／視線検出部４２による姿勢又は視線の検出は、公知の多様な方法を使用してよい。例えば姿勢／視線検出部４２は例えば各器官の輪郭の分布から、撮像方向に対する人物の顔の向きの傾き（φd ，θd ，ωd ）を検出し、目領域内での眼球領域の位置によって視線の傾き（φd ，θd ）、顔を傾げている程度（ωd ）を検出する。姿勢／視線検出部４２は、人物被写体領域中の肩の位置を特定し、人物の姿勢（φd ，θd ，ωd ）を検出してもよい。また例えば姿勢／視線検出部４２は、撮像部１３に近赤外光を発する発光素子とその反射を受光する受光素子とを設け、眼球に近赤外光を当てたことによる角膜表面からの反射光（プルキニエ像）の位置を取得して視線を検出してもよい。姿勢／視線検出部４２は、人物被写体領域中の目領域における眼球の部分から瞳孔の中心の座標を特定し、瞳孔の位置及びプルキニエ像の位置と、予めキャリブレーションしてある情報とに基づいて視線の角度（φd ，θd ）を検出してもよい。

姿勢／視線検出部４２では、端末装置１がスマートフォンである、又はラップトップ型パーソナルコンピュータである場合等、加速度センサ又は角速度センサを備えている場合、これらのセンサから撮像部１３自体の傾きを取得してもよい。姿勢／視線検出部４２は、取得した撮像部１３の傾き（加速度、角速度、振動）を、画像作成部４４へ伝える。

補正量決定部４３は、姿勢／視線検出部４２により逐次フレーム画像に対して検出した顔の傾き、目線、又は身体全体の姿勢の角度（φd ，θd ，ωd ）に基づき、身体又は視線を、正対方向を基準とした角度へ向けた人物画像を作成するための補正量（φc ，θc ，ωc ）を決定する。補正決定部は、初期的に検出される撮像方向と、ユーザが表示部１４の通話相手の人物画像を注視する際の注視方向との間の差分を標準補正量とし、正対方向への姿勢又は視線からの差分を補正量として決定する。つまり補正量決定部４３は基本的に、検出された顔の傾き、目線、又は身体全体の姿勢の角度（φd ，θd ，ωd ）から標準補正量を差し引くように補正量を決定する。なお、補正量決定部４３は、姿勢又は視線の傾きについて固定角度の設定を受け付け、姿勢／視線検出部４２によって検出された角度に関わらず、設定された固定角度（例えば正対方向）に向けた人物画像とする補正量を決定してもよい。この場合、ユーザがどのような姿勢又は視線となっていても、通話相手の端末装置１にて表示される人物画像は固定角度を向く。

また補正量決定部４３は、人物被写体領域の画像内における位置及び範囲を適切化するための補正量を決定してもよい。例えば撮像部１３の画角では、フレーム画像内の中央から左、右、上及び下のいずれかに人物被写体領域が偏位している場合、補正量決定部４３は、画像作成部４４にて作成される人物画像がフレーム画像内にて中央寄りで適切な画角で含まれるように、人物被写体領域の移動距離を決定するとよい。この際、補正量決定部４３は、フレーム画像に対してトリミング範囲を決定するようにしてもよい。

画像作成部４４は、補正量決定部４３で決定された補正量を用いて物画像を作成して映像処理部１０５へ出力する。画像作成部４４は、選択されている元画像に基づいて人物画像を作成する。元画像として領域抽出部４１で抽出した元の人物被写体領域である場合（ライブ画像）、画像作成部は補正量決定部４３で決定した補正量により、人物被写体領域が設定角度に向くように補正して人物画像を作成する。画像作成部は、顔領域又は目領域のみならず、人物被写体領域を補正する。元画像として、記憶部１１に記憶してあるユーザの人物画像（ユーザ画像）とする場合、画像作成部４４は、ユーザ画像又はその特徴量を読み出して設定角度に向く人物画像を作成する。元画像として、記憶部１１に記憶してある作成された人物画像（アバター画像）とする場合、画像作成部４４は、アバター画像又はその特徴量を読み出して設定角度に向く人物画像を作成する。

画像作成部４４は、人物画像を作成するに際し、音声入出力部１６のマイクロフォンから出力される音声に対する音声認識に基づいて、口領域の画像を作成、又は補正するようにしてもよい。

画像作成部４４は、撮像部１３自体の鉛直方向に対する傾きを姿勢／視線検出部４２から取得できる場合、例えばその傾きに応じて歪む姿勢又は視線を補正する処理を行なってもよい。例えば画像作成部４４は、検出された傾きに応じて、首の傾き、瞼、目線又は顔のたるみを水平方向に向けて又は若干上向きになるように修正するようにしてもよい。

映像処理部１０５は、画像処理部１０４の画像作成部４４から出力される画像データと、前記音声入出力部１６のマイクロフォンにより集音された音声の音声データとを、時間を同期させて多重化した映像データを作成する。映像処理部１０５は、画像及び音声の符号化機能（エンコーダ）及び対応する復号機能（デコーダ）を内蔵しており、画像データ及び音声データを夫々、所定のプロトコルで符号化してから多重化する。そして時間の同期は、前記画像作成部４４４３から出力される画像データの元データに対応する画像を画像データ取得部１０１で取得したタイミングを示すタイムスタンプと、音声入出力部１６にて集音されたタイミングを示すタイムスタンプとに基づいて行なわれるとよい。映像処理部１０５は、映像データを受信すると多重化されている画像データと音声データとに分別し、各々の復号機能により復号して表示部１４及び音声入出力部１６のスピーカ夫々へ、タイムスタンプに従って画像及び音声を与えて出力させる。

通信処理部１０６は、映像処理部１０５により多重化された映像データを、処理部１０内蔵のタイマから得られる時間情報に対応させて通信部１２の通話相手先との間の通話セッションに対応するポートへ送出する。また通信処理部１０６は、通話相手先から受信した映像データを映像処理部１０５へ与える。

認証部１０２は、なりすましを防ぐため、画像データ取得部１０１で得られたフレーム画像に基づき、撮像部１３に写っている人物が正当なユーザであるか否かを判定する。認証部１０２は例えば、領域抽出部４１にて抽出された顔領域から得られる特徴量と、端末装置１を使用する正当なユーザの特徴量として予め記憶部１１に記憶してある特徴量とを照合することによって正当か否かを判定する。認証部１０２により不当なユーザであると判定された場合には、画像処理部１０４としての機能を停止するとよい。

選択受付部１０３は、画像作成部が生成する人物画像の元となる画像を、領域抽出部４１で抽出した元の人物被写体領域自体（ライブ画像）とするか、予め記憶部１１に記憶してあるユーザ画像とするか、又は、アバター画像とするかの選択を受け付ける。選択受付部１０３は、通話開始前即ち通話セッションの確立前に操作部１５により選択を受け付けておき、通話セッションが確立している間、記憶しておく。

画像処理部１０４による人物画像作成の処理手順についてフローチャートを参照して説明する。図４は、処理部１０の端末用アプリプログラム１Ｐに基づく処理手順の一例を示すフローチャートである。処理部１０は、端末用アプリプログラム１Ｐが起動されると以下の処理手順を実行する。

処理部１０は初期的に、表示部１４にアプリ画面を表示させ、アプリ画面の注視を促すメッセージを表示させる（ステップＳ１０１）。メッセージを表示させる箇所は、通話相手の人物画像を表示させる領域であることが望ましい。その間、処理部１０は、画像処理部１０４の補正量決定部４３にて、標準補正量（φ0 ，θ0 ，ω0 ）を決定する（ステップＳ１０２）。回転方向の角度ω0 については必須ではない。標準補正量は即ち、撮像方向と、ユーザのアプリ画面を注視する方向との差分である。処理部１０は、決定した標準補正量を記憶しておき、以後これを用いて補正量を決定する。上述の通話相手の人物画像を表示させる領域が表示部１４の表示領域内で、例えばユーザの操作によって移動した場合、その移動の向き及び距離に応じて標準補正量を修正するようにしてもよい。

処理部１０は、通話先のアドレス情報等、接続情報を操作部１５により受け付け（ステップＳ１０３）、次に選択受付部１０３により、画像作成部４４で作成する人物画像の元画像の選択を受け付け、選択内容を記憶する（ステップＳ１０４）。この際、処理部１０は、人物画像の姿勢／視線を撮像部１３で撮像されるユーザの動きに連動させるか、又は正対する向きのまま固定角度とするかの選択をも受け付けるとよい。処理部１０はこの間、バックグラウンドで認証部１０２により認証を行ない、認証に失敗した場合には、画像処理部１０４の機能を停止させ、以後の処理を行なわずにメッセージを表示させるとよい。

処理部１０は、ステップＳ１０１のメッセージを消去し（ステップＳ１０５）、受け付けた接続情報に基づき通話相手の端末装置１との通話リクエストをサーバ装置２へ送信する（ステップＳ１０６）。サーバ装置２の処理により、通話セッションが確立すると、処理部１０は、通信処理部１０６における処理を開始し（ステップＳ１０７）、通話相手の端末装置１から自身向けに送信される映像データを受信し、映像処理部１０５へ与える。処理部１０は、画像処理部１０４、及び映像処理部１０５における処理を開始する（ステップＳ１０８）。ステップＳ１０７，１０８にて処理部１０は、受信した映像データに基づく人物画像の表示部１４のアプリ画面への表示及び音声入出力部１６からの出力を開始する。処理部１０は、撮像部１３から得られる画像データ及び音声入出力部１６にて入力される音声データに基づく映像データの作成処理、及び通話相手への送信処理を開始する。

処理部１０は以後、撮像部１３からフレーム画像を取得する都度に、姿勢／視線検出部４２で検出される姿勢又は視線（φd ，θd ，ωd ）から標準補正量を差し引いた補正量（正対する姿勢／視線からの差分）を決定する（ステップＳ１０９）。

処理部１０は、決定した補正量を画像作成部４４へ与えて、選択されている元画像に基づき人物画像を作成する（ステップＳ１１０）。作成された人物画像を元に映像処理部１０５が映像データを作成し、通信処理部１０６から通話相手へ向けて送信する（ステップＳ１１１）。

処理部１０は、アプリの終了を操作部１５により検知したか否かを判断し（ステップＳ１１２）、検知していないと判断された場合には（Ｓ１１２：ＮＯ）、処理をステップＳ１０９へ戻す。

アプリの終了を検知したと判断された場合（Ｓ１１２：ＹＥＳ）、処理部１０は、通信処理部１０６により通信部１２の通信を終了し（ステップＳ１１３）、端末用アプリプログラム１Ｐに基づく処理を終了する。

図５は、実施の形態１における画像処理部１０４の処理で生成される情報を示す模式図である。実施の形態１の端末装置１では、処理部１０が画像処理部１０４の機能により、撮像部１３にて撮像された画像に対して画像データ取得部１０１により取得されたフレーム画像Ｆから領域抽出部４１により人物被写体領域Ｍが抽出される。

姿勢／視線検出部４２にて、視線、又は更に顔及び身体等の姿勢について傾き（φd ，θd ，ωd ）を検出する。図５では、視線の傾きのみ示している。補正量決定部４３は検出された傾きから標準補正量（φ0 ，θ0 ，ω0 ）を差し引いて補正量（φc ，θc ，ωc ）を決定する。補正量決定部４３は図５に示すように、フレーム画像Ｆ内における人物被写体領域Ｍの位置の中央からの変位Ｌを補正量（移動量）として決定してもよい。

図５において画像作成部４４は、元画像として人物被写体領域Ｍ（ライブ画像）を用い、補正量φc ，θc 、更に補正量（変位）Ｌに基づき人物画像を作成し、補正後のフレーム画像Ｆ’を出力している。画像処理部１０４はこのように作成した人物画像を補正後のフレーム画像Ｆ’として映像処理部１０５へ与える。これにより、撮像部１３の設置箇所の位置及び角度によらない人物画像を含む映像データを通話相手の端末装置１へ送信することができる。

予め記憶部１１に記憶してあるユーザ画像又はアバター画像を使用することが選択受付部１０３にて選択されており、固定角度を向けた人物画像とすることが選択されている場合、領域抽出部４１、姿勢／視線検出部４２による処理は必須ではない。

図６は、作成される人物画像の内容例を更に示す模式図である。図６Ａは、撮像部１３が、ユーザを見上げる向きで撮像するように設置されている場合の撮像画像の一例を示している。例えば撮像部１３が、Ｗｅｂカメラであって、デスクトップ型のパーソナルコンピュータである端末装置１の表示部１４と並べて設置されて使用される場合である（図１左部参照）。図６Ｂは、撮像部１３が、スマートフォンである端末装置１の筐体における表示部１４上方の箇所に設置されている場合である（図１右部参照）。これらの場合、通話中のユーザは、表示部１４に表示されている通話相手の画像を注視するので、撮像部１３では、正対した画像を撮影することができない。図６Ａ及び図６Ｂに示すような撮像画像をそのまま、通話相手の端末装置１の表示部１４に表示した場合、特に通話相手が話者でいる間、表示される人物画像とは視線が合致せず、通話相手にとってはフラストレーションを生じさせかねない。

図６Ｃは、画像処理部１０４の画像作成部４４により、元画像として抽出される人物被写体領域を用いて作成される人物画像を示している。上下方向の傾き（仰角）の補正量θc により正対する人物画像が作成されている。図６Ｂでは上下方向の傾きにより、首が短くなり、肩が盛り上がって写っている。このまま視線のみ目領域のみ補正するのでは、同一人物の人物被写体領域として不自然になるところ、図６Ｃに示すように、視線のみならず人物被写体を適切に補正させた人物画像の作成が可能である。

図６Ｄは、画像処理部１０４の画像作成部４４により、元画像としてユーザ画像を用いて作成される人物画像を示している。予め目的別、例えばビジネス用途で撮像しておいたユーザ自身の画像を用いて正対する画像を用い、改まって見える外見の画像でビデオ通話を行なうことができる。このように予め撮影してあるユーザ画像を用いることができるため、対話している人物がユーザ自身であることを認証部１０２にて認証することで、なりすましを防ぐことができる。アバター画像を用いる場合も同様である。

実施の形態１における端末装置１では、図６Ｃ及び図６Ｄに示すように、画像処理部１０４の処理により、正対する人物画像が作成できる。これにより、実施の形態１のビデオ通話システム１００では、既設の撮像部１３を用いつつもソフトウェア的に通話相手の端末装置１の表示部１４に正対する人物画像を表示させ、自然な対話を行なうことができる。スマートフォン等の端末装置１を用いた場合、ユーザが手で端末装置１を持ち、俯くようにして表示部１４を注視しながら対話することが想定される。この場合、撮像画像はユーザが俯いており、しかもユーザが表示部１４に近接し過ぎて不適切な画角で撮像されたものとなりがちである。画像処理部１０４にて姿勢も正対する人物画像としたり、美化されたユーザ画像又はアバター画像を用いたり、トリミング範囲を変更したりすることで、印象のよい人物画像でのビデオ通話が実現できる。

画像処理部１０４の機能により、画像作成部４４は、姿勢／視線検出部４２にて検出した傾きから標準補正量を差し引いて補正量を決定して人物画像を作成する。したがって正対画像のみならず、ユーザが視線を落としたり、視線を外したりした場合であっても画面を注視した場合の角度からの差分だけ、補正された人物画像を作成することができる。これにより、視線が合致する正対画像を基本としつつ、通話相手の端末装置１で表示される人物画像に自然なふるまいを反映させることができ、自然な対話が可能になる。

（実施の形態２）
実施の形態２では、画像の作成は深層学習により予め作成されてある学習モデルに基づいて行なわれる。図７は、実施の形態２における処理部１０の機能ブロック図である。実施の形態２における処理部１０の構成及び機能は、画像作成部４４ａの詳細以外は、実施の形態１における機能と同様であるから、共通する構成には同一の符号を付して詳細な説明を省略する。

実施の形態２における画像作成部４４ａは、深層学習により作成されている学習モデル４４０ａを有している。図８は、学習モデル４４０ａの概要を示す図である。学習モデル４４０ａの深層学習に基づく作成方法は種々の方法が考えられる。例えば図８に示すように、予め多数の多様な姿勢／視線の人物画像（異なる人物でもよい）を用いて、各々の姿勢／視線を精度よく判別するネットワークを、例えばＣＮＮ（Convolutional Neural Network ）を用いて作成し、出力を正対画像であると固定した場合に逆に入力の画像がどのような画像（元に戻す）となるのかを逆変換により作成する。正対画像ではなく、補正量に基づく角度に姿勢又は視線を向けた人物画像を出力するように作成してもよい。

例えば図８に示すように簡略化し、線図化された入力画像によって学習モデル４４０ａを作成しておく。学習モデル４４０ａを用いて人物画像を作成するに際しては、元の人物被写体領域Ｍをフィルタにより分解するなどして線図化し、これを学習モデル４４０ａに入力し、入力層又は中間層にて元の人物被写体領域Ｍのテクスチャを入力することで１つの学習モデル４４０ａからユーザ夫々の人物画像を作成することが可能である。このときテクスチャとして記憶部１１に記憶してあるユーザ画像、アバター画像を入力することで、それらの画像に基づく人物画像を作成することも可能である。学習モデル４４０ａは、正対画像のみを出力するモデルではなく、任意の設定角度へ姿勢又は視線を向けた人物の人物画像を出力するモデルとして作成しておいてもよい。

また学習モデル４４０ａは、サーバ装置２又は図示しない他の外部コンピュータにて作成し、端末装置１から取得できるようにしてもよい。また、通話中に別途、端末装置１とサーバ装置２（又は他の外部コンピュータ）との間でＷｅｂ通信によりにて動作する学習モデル４４０ａにより提供される画像を取得してもよい。

更にこの学習モデル４４０ａは、ＧＡＮ（Generative Adversarial Network）を用いてより精度のよい画像を作成するモデルへと向上させることも可能である。図９は、ＧＡＮに基づく学習モデル４４０ａの概要を示す図である。学習モデル４４０ａと、この学習モデル４４０ａにより作成された画像と本物画像とを判別する識別モデルとを用意し、互いに競い合わせる。学習モデル４４０ａには、多様な姿勢又は視線の人物画像を入力し、正対画像を作成させる。本物画像として正対した姿勢又は視線で撮像された画像を用意する。識別モデルに学習モデル４４０ａにより作成される正対画像（ノイズ）と、本物の画像とで見分けがつかない場合の学習モデル４４０ａへの評価を上昇させて学習を進める。これにより、学習モデル４４０ａによる正対画像がより自然な画像になる。

画像作成部４４ａは、このようにして予め多数の画像を用いて精度を向上させた学習モデル４４０ａを用いて画像を作成する。画像処理部１０４の動作が開始した後は、ユーザの顔を撮像した撮像画像を用いて学習を進め、ユーザ夫々の特徴量を反映させたモデルへと進化させるようにしてもよい。

学習モデル４４０ａを用いる場合、端末装置１の使用環境（撮像部１３の設置位置及び角度）に対応する標準補正量についても深層学習に取り込んでもよい。具体的には、学習モデル４４０ａに画像データ取得部１０１で取得したフレーム画像を入力すると、標準補正量で補正した適切な角度のフレーム画像が出力されるようにしてもよい。学習モデル４４０ａでは、視線のみについて出力するようにしてもよい。

上述の実施の形態１及び２にて説明したビデオ通話システム１００では、撮像部１３で撮像した撮像画像には、１人の人物被写体が写っている例を挙げて説明した。画像処理部１０４の処理は、複数人の人物被写体が含まれる撮像画像に対しても同様である。例えば画像処理部１０４は、夫々の姿勢又は視線の撮像方向に対する傾きを検出し、検出された傾きに基づき、姿勢又は視線を、正対方向を標準とした人物画像を作成する。この際に、設定又は選択により、視線のみ、即ち目領域の部分のみ補正するようにして人物画像を作成するか、又は複数人全員、姿勢も含めて補正するようにしてもよい。

上述の実施の形態１及び２にて説明したビデオ通話システム１００では、端末装置１同士でいずれも、正対画像を標準とした人物画像を作成する構成とした。しかしながら、２つの装置を用いてビデオ通話を行なうに際し、少なくとも一方の装置に端末装置１を利用して実施するようにしてもよい。

図１０は、遠隔診療システム２００の概要を示す図である。遠隔診療システム２００では、医療者がユーザとして端末装置１を用い、診療を受けるユーザは、表示装置３、撮像装置４、及び音声出力装置５を用いる。端末装置１と表示装置３とは、サーバ装置２を介して通話セッションが確立される。表示装置３は、撮像装置４及び音声出力装置５と接続されており、端末装置１から送信される映像データを復号して表示させ、音声出力装置５から音声を出力させる。表示装置３は、撮像装置４で撮像された画像と、撮像装置４内蔵の音声入力部（マイクロフォン）で集音した音声とを夫々符号化して端末装置１へ、又は、各々を映像データとして符号化の上で多重化して端末装置１へ送信する。

図１０に示すように、医療者が用いる端末装置１では、表示装置３から送信される診療対象者の顔又は患部等を撮像した画像を表示しつつ、コミュニケーションに係る音声を出力する。医療者は、表示部１４にて画像、及びカルテ等の情報を確認しながら通話相手である診療対象者と対話をすることができる。この際に表示装置３にて、医療者の正対画像を表示させることができ、遠隔診療システム２００にて診療を受けるユーザの安心感が高まる。

このように顧客が使用する装置の表示部に正対画像を標準とした人物画像を表示させる顧客向けのシステムでは、サービスの提供者にて端末装置１を用いることで、顧客に対して視線を合致させた画像を表示して満足度を向上させることができる。その他、一方向のみで正対画像を標準とした人物画像を表示させるシステムとしては、コールセンター、司法相談等にも適用可能である。これらの場合、状況に応じてオペレータの人物画像を仮想的なオペレータの画像（アバター画像）を元画像として使用することが好ましい。

いずれの場合であっても、特に三次元モデル（ポリゴン）を使用せずとも画像処理部１０４の機能によって適切な姿勢／視線の人物画像を作成することができ、ビデオ通話システム１００において、通話相手の顔を注視しながら自然な対話が可能になる。一方向のみで画像処理を行なう遠隔診療システム２００においても、ユーザは通話相手が正対する画像を確認することができ、対話に安心感を持つことができる。

１００ビデオ通話システム
１端末装置
１０処理部
１０１画像データ取得部
１０２認証部
１０３選択受付部
１０４画像処理部
４１領域抽出部
４２姿勢／視線検出部
４３補正量決定部
４４画像作成部
４４０ａ学習モデル
１０５映像処理部
１０６通信処理部
１１記憶部
１２通信部
１３撮像部
１４表示部
１５操作部
１６音声入出力部
１Ｐ端末用アプリプログラム
２サーバ装置
２０処理部
２１記憶部
２２通信部
２００遠隔診療システム
３表示装置
４撮像装置
５音声出力装置
Ｎネットワーク
ＡＰアクセスポイント
ＢＳ基地局
Ｆ，Ｆ’ フレーム画像
Ｍ人物被写体領域
Ｌ変位

Claims

人物を被写体として撮像された撮像画像中の人物被写体領域における身体又は顔の特定の部位に対応する部分を抽出する抽出部と、
該抽出部により抽出された部分の特徴量に基づき、前記撮像画像を撮像する撮像装置に対する前記人物の姿勢又は視線を検出する検出部と、
検出した姿勢又は視線に基づいて前記人物被写体領域の補正量を決定する補正量決定部と、
決定された補正量に基づき、姿勢又は視線を補正した人物画像を作成する画像作成部と
を備える画像処理装置。
前記補正量決定部は、前記検出部により初期的に検出された姿勢又は視線と、前記撮像画像における撮像方向との差分を標準補正量として予め決定しておき、
前記検出部により検出された姿勢又は視線と、前記標準補正量との差分を補正量として決定する
請求項１に記載の画像処理装置。
任意の姿勢又は視線の人物被写体領域を含む画像を入力した場合に、該人物被写体領域が設定方向を向いた人物画像を出力する学習モデルと、
人物を被写体として撮像された撮像画像を前記学習モデルへ入力して姿勢又は視線を補正した人物画像を作成する画像作成部と
を備える画像処理装置。
前記設定方向は、撮像方向に対し正対する方向である
請求項３に記載の画像処理装置。
前記人物に対応する写真画像であるユーザ画像、イラスト画像、又は三次元アニメーション画像であるアバター画像を予め記憶してある記憶部を備え、
前記画像作成部は、前記撮像画像、前記記憶部に記憶してあるユーザ画像、又はアバター画像を元画像として人物画像を作成する
請求項１から請求項４のいずれか１項に記載の画像処理装置。
前記画像作成部により作成する人物画像の元画像を、前記撮像画像、前記ユーザ画像及びアバター画像のいずれとするかの選択を受け付ける選択受付部を備え、
前記画像作成部は、前記選択受付部で選択された画像を元画像として人物画像を作成する
請求項５に記載の画像処理装置。
人物を被写体として撮像された撮像画像中の人物被写体領域の特徴量に基づき、認証を行なう認証部を備え、
該認証部により認証に失敗した場合、処理を停止する
請求項１から請求項６のいずれか１項に記載の画像処理装置。
表示部、撮像部、音声入出力部、及び通信部を備える複数の端末装置間で相互に、前記撮像部で撮像した画像及び前記音声入出力部にて入力した音声を含む映像データを前記通信部により送受信し、前記画像を前記表示部に表示させ、前記音声を音声入出力部にて出力するビデオ通話システムであって、
前記複数の端末装置の内の少なくとも１つは、
前記撮像部により撮像された撮像画像中の人物被写体が写っている人物被写体領域における身体又は顔の特定の部位に対応する部分を抽出する抽出部と、
該抽出された部分の特徴量に基づき、前記撮像部に対する前記人物被写体の姿勢又は視線を検出する検出部と、
検出した姿勢又は視線に基づいて前記人物被写体領域の補正量を決定する補正量決定部と、
決定された補正量に基づき、姿勢又は視線を補正した人物画像を作成する画像作成部と
を備えるビデオ通話システム。
コンピュータに、
人物を被写体として撮像された撮像画像中の人物被写体領域における身体又は顔の特定の部位に対応する部分を抽出する処理、
抽出された部分の特徴量に基づき、前記撮像画像を撮像する撮像装置に対する前記人物の姿勢又は視線を検出する処理、
検出した姿勢又は視線に基づいて前記人物被写体領域の補正量を決定する処理、及び
決定された補正量に基づき、姿勢又は視線を補正した人物画像を作成する処理
を実行させるコンピュータプログラム。
撮像部にて撮像される撮像画像を取得し、取得した撮像画像に基づき画像処理を行なう画像処理装置による画像処理方法であって、
人物を被写体として撮像された撮像画像中の人物被写体領域における身体又は顔の特定の部位に対応する部分を抽出する処理、
抽出された部分の特徴量に基づき、前記撮像画像を撮像する撮像装置に対する前記人物の姿勢又は視線を検出する処理、
検出した姿勢又は視線に基づいて前記人物被写体領域の補正量を決定する処理、及び
決定された補正量に基づき、姿勢又は視線を補正した人物画像を作成する処理
を含む画像処理方法。