JP2023154542A

JP2023154542A - 画像処理システム、画像処理方法、及び画像処理プログラム

Info

Publication number: JP2023154542A
Application number: JP2022063919A
Authority: JP
Inventors: 岳古市; Takeshi Furuichi
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2023-10-20

Abstract

【課題】ユーザーの顔の一部が覆われている場合でもユーザーの顔全体を把握することが可能な画像処理システム、画像処理方法、及び画像処理プログラムを提供する。【解決手段】画像処理システムは、被写体の顔画像を含む撮像画像を取得する取得処理部と、前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域が含まれるか否かを判定する判定処理部と、前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定する推定処理部と、複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部において、前記属性に対応する前記部分画像を選択する選択処理部と、前記部分画像に基づいて前記顔画像に対応する出力画像を生成する生成処理部と、前記出力画像を出力する出力処理部と、を備える。【選択図】図２

Description

本発明は、画像処理システム、画像処理方法、及び画像処理プログラムに関する。

近年、互いに離れた場所においてネットワークを介して音声、映像、ファイルなどを送受信して会議を行うテレビ会議システム（オンライン会議システム）が利用されている。例えば前記テレビ会議システムでは、会議に参加するユーザーの顔画像が互いの端末（ユーザー端末）に表示される。従来、前記テレビ会議システムにおいて、ユーザーの顔画像を他のモデル画像に切り替えてユーザー端末に表示させる技術が提案されている（例えば特許文献１参照）。

特開２０１５－１９１５３７号公報

ところで、テレビ会議において、ユーザーがマスクを着用して会議に参加する場合がある。この場合、ユーザーの表情を他のユーザーが読み取ることが困難になり、コミュニケーションを取り難くなる問題が生じる。また、聴覚障害者は、相手方がマスクを着用していると口の動きを把握することができずコミュニケーションを取り難くなる問題が生じる。このように、コミュニケーションを図る様々な場面において、ユーザーの顔全体を把握できることが望ましい。

本発明の目的は、ユーザーの顔の一部が覆われている場合でもユーザーの顔全体を把握することが可能な画像処理システム、画像処理方法、及び画像処理プログラムを提供することにある。

本発明の一の態様に係る画像処理システムは、被写体の顔画像を含む撮像画像を取得する取得処理部と、前記取得処理部により取得される前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域が含まれるか否かを判定する判定処理部と、前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定する推定処理部と、複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部において、前記推定処理部により推定される前記属性に対応する前記部分画像を選択する選択処理部と、前記選択処理部により選択される前記部分画像に基づいて前記被覆領域の画像を変更して、前記取得処理部により取得される前記撮像画像に含まれる前記顔画像に対応する出力画像を生成する生成処理部と、前記生成処理部により生成される前記出力画像を出力する出力処理部と、を備える。

本発明の他の態様に係る画像処理方法は、一又は複数のプロセッサーが、被写体の顔画像を含む撮像画像を取得する取得ステップと、前記取得ステップにより取得される前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域が含まれるか否かを判定する判定ステップと、前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定する推定ステップと、複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部において、前記推定ステップにおいて推定される前記属性に対応する前記部分画像を選択する選択ステップと、前記選択ステップにおいて選択される前記部分画像に基づいて、前記取得ステップにおいて取得される前記撮像画像に含まれる前記顔画像に対応する出力画像を生成する生成ステップと、前記生成ステップにより生成される前記出力画像を出力する出力ステップと、を実行する画像処理方法である。

本発明の他の態様に係る画像処理プログラムは、被写体の顔画像を含む撮像画像を取得する取得ステップと、前記取得ステップにより取得される前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域が含まれるか否かを判定する判定ステップと、前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定する推定ステップと、複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部において、前記推定ステップにおいて推定される前記属性に対応する前記部分画像を選択する選択ステップと、前記選択ステップにおいて選択される前記部分画像に基づいて、前記取得ステップにおいて取得される前記撮像画像に含まれる前記顔画像に対応する出力画像を生成する生成ステップと、前記生成ステップにより生成される前記出力画像を出力する出力ステップと、を一又は複数のプロセッサーに実行させるための画像処理プログラムである。

本発明によれば、ユーザーの顔の一部が覆われている場合でもユーザーの顔全体を把握することが可能な画像処理システム、画像処理方法、及び画像処理プログラムを提供することができる。

図１は、本発明の実施形態に係る会議システムの概略構成を示す模式図である。図２は、本発明の実施形態に係る会議システムの構成を示す機能ブロック図である。図３は、本発明の実施形態に係るサンプル画像情報の一例を示す図である。図４は、本発明の実施形態に係るサンプル画像の一例を示す図である。図５は、本発明の実施形態に係る撮影画像の一例を示す図である。図６は、本発明の実施形態に係る出力画像の生成手順の一例を示す図である。図７は、本発明の実施形態に係る補間画像の色の調整方法の一例を示す図である。図８は、従来の会議システムに係るユーザー端末の表示画面の一例を示す図である。図９は、本発明の実施形態に係る会議システムに係るユーザー端末の表示画面の一例を示す図である。図１０は、本発明の実施形態に係る会議システムで実行される会議処理の手順の一例を説明するためのフローチャートである。

以下、添付図面を参照しながら、本発明の実施形態について説明する。なお、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定するものではない。

本発明に係る画像処理システムは、例えば、複数のユーザー端末を利用してテレビ会議を実現する会議システムに適用される。前記会議システムは、例えば異なる場所（自宅、会議室など）において複数のユーザーが参加するテレビ会議（Ｗｅｂ会議）に適用することができる。本実施形態に係る会議システムは、本発明の画像処理システムの一例である。例えば本実施形態に係る会議システムでは、複数の会議室のそれぞれに、会議に参加するユーザーが利用するユーザー端末（ノートパソコン、スマートフォンなど）などが配置される。また、前記会議システムは、前記テレビ会議を実行するための汎用ソフトウェアである会議アプリケーションによりテレビ会議サービスを提供する会議サーバーなどを備える。

［会議システム１０］
図１は、本発明の実施形態に係る会議システム１０の概略構成を示す模式図である。会議システム１０は、会議サーバー１と、ユーザー端末２とを含んでいる。会議システム１０は、複数のユーザーが参加するテレビ会議（Ｗｅｂ会議）を支援するシステムである。

図１には、会議室Ｒ１及び会議室Ｒ２を示している。図１では、ユーザーＡが会議室Ｒ１で会議に参加し、ユーザーＢが会議室Ｒ２で会議に参加して、ユーザーＡ及びユーザーＢによりテレビ会議を行う例を示している。会議室Ｒ１にはユーザーＡが所持するユーザー端末２Ａが配置され、会議室Ｒ２にはユーザーＢが所持するユーザー端末２Ｂが配置されている。各会議室に、ユーザー端末２の表示画面を表示するディスプレイが配置されてもよい。

会議システム１０は、各ユーザー端末２にインストールされた会議アプリケーションを実行することにより、会議室Ｒ１及び会議室Ｒ２においてテレビ会議を行うことが可能になる。前記会議アプリケーションは汎用ソフトウェアであり、同一の会議に参加する複数のユーザーは共通の前記会議アプリケーションを選択して前記テレビ会議を実行する。

各ユーザー端末２は、カメラ２４（図２参照）、マイク及びスピーカー（不図示）を備えており、会議システム１０は、ユーザー端末２間で音声及びカメラ映像を双方向通信可能に構成されている。なお、カメラ、マイク、及びスピーカーは、ユーザー端末２とは別の機器で構成され、当該機器が会議室に設置されてもよい。

会議サーバー１は、例えば１台又は複数台のサーバー装置（例えばクラウドサーバー）で構築される。会議サーバー１は、会議スケジュールを管理する管理サーバーの機能を備えてもよい。

会議サーバー１及びユーザー端末２は、ネットワークＮ１を介して互いに接続されている。ネットワークＮ１は、インターネット、ＬＡＮ、ＷＡＮ、又は公衆電話回線などの通信網である。

［会議サーバー１］
図２に示すように、会議サーバー１は、制御部１１、記憶部１２、操作表示部１３、通信部１４などを備える。会議サーバー１は、１台又は複数台の仮想サーバー（クラウドサーバー）であってもよいし、１台又は複数台の物理サーバーであってもよい。

通信部１４は、会議サーバー１を有線又は無線でネットワークＮ１に接続し、ネットワークＮ１を介して他の機器（例えばユーザー端末２など）との間で所定の通信プロトコルに従ったデータ通信を実行するための通信部である。

操作表示部１３は、各種の情報を表示する液晶ディスプレイ又は有機ＥＬディスプレイのような表示部と、操作を受け付けるマウス、キーボード、又はタッチパネルなどの操作部とを備えるユーザーインターフェースである。

記憶部１２は、各種の情報を記憶するＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、又はフラッシュメモリーなどの不揮発性の記憶部である。記憶部１２には、制御部１１に後述の会議処理（図１０参照）を実行させるための会議処理プログラムなどの制御プログラムが記憶されている。例えば、前記会議処理プログラムは、ＣＤ又はＤＶＤなどのコンピュータ読取可能な記録媒体に非一時的に記録され、会議サーバー１が備えるＣＤドライブ又はＤＶＤドライブなどの読取装置（不図示）で読み取られて記憶部１２に記憶される。なお、前記会議処理プログラムは、クラウドサーバーから配信されて記憶部１２に記憶されてもよい。

また、記憶部１２には、テレビ会議サービスを実行させるためのテレビ会議プログラムが記憶されている。前記テレビ会議プログラムは、ユーザー端末２にインストールされた会議アプリケーションの実行に応じて前記テレビ会議を実行させる。本実施形態の会議サーバー１は、汎用ソフトウェアのテレビ会議サービスを提供するものとする。

また、記憶部１２には、前記会議アプリケーションを利用可能なユーザーに関するユーザー情報（ユーザーＩＤ、パスワードなど）が記憶されている。

また、記憶部１２には、ユーザーが開催するテレビ会議の開催概要に関する会議情報が記憶されている。例えば、テレビ会議の開催者であるユーザーＡは、自身のユーザー端末２Ａにおいて前記会議アプリケーションにログインしてテレビ会議の会議情報を登録する。前記会議情報には、テレビ会議の開催日時、開催場所（会議室ＩＤ）、会議名、参加者、会議資料などの情報が含まれる。

また、記憶部１２には、被写体の顔画像の一部（例えばマスク領域）を置き換える置き換え用のサンプル画像を含むサンプル画像情報Ｄ１が記憶されている。図３は、サンプル画像情報Ｄ１の一例を示す図である。前記サンプル画像は、本発明の部分画像の一例である。

図３に示すように、サンプル画像情報Ｄ１には、サンプル画像ごとに、サンプル画像ＩＤ、顔の向き、性別、年齢、骨格、サンプル画像の情報が関連付けられて登録されている。前記サンプル画像は、例えば、口元を含む顔の部分画像である。前記サンプル画像ＩＤは、サンプル画像の識別情報である。前記顔の向き（角度）は、サンプル画像の顔の向き（正面、上向き、下向き、左向き、右向きなど）を示す情報である。前記性別は、サンプル画像の顔の性別（男性又は女性）を示す情報である。前記年齢は、サンプル画像の顔の年齢（１０代、２０代、３０代、４０代、５０代など）を示す情報である。前記骨格は、サンプル画像の顔又は頭の骨格タイプ（卵型、四角型、丸型など）を示す情報である。前記サンプル画像は、サンプル画像の画像データである。

サンプル画像情報Ｄ１には、不特定多数の人物の顔画像から抽出された複数の部分画像（口元画像）の情報が予め登録されている。図４には、サンプル画像の一例を示している。

制御部１１は、ＣＰＵ、ＲＯＭ、及びＲＡＭなどの制御機器を有する。前記ＣＰＵは、各種の演算処理を実行するプロセッサーである。前記ＲＯＭは、前記ＣＰＵに各種の処理を実行させるためのＢＩＯＳ及びＯＳなどの制御プログラムを予め記憶する。前記ＲＡＭは、各種の情報を記憶し、前記ＣＰＵが実行する各種の処理の一時記憶メモリー（作業領域）として使用される。そして、制御部１１は、前記ＲＯＭ又は記憶部１２に予め記憶された各種の制御プログラムを前記ＣＰＵで実行することにより会議サーバー１を制御する。

具体的に、制御部１１は、図２に示すように、取得処理部１１１、検出処理部１１２、推定処理部１１３、選択処理部１１４、変換処理部１１５、補間処理部１１６、調整処理部１１７、生成処理部１１８、出力処理部１１９などの各種の処理部を含む。なお、制御部１１は、前記会議処理プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部１１に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。

取得処理部１１１は、被写体の顔画像を含む撮像画像を取得する。具体的には、会議が開始されると、ユーザー端末２Ａはカメラ２４が撮像したユーザーＡの撮像画像を会議サーバー１に送信し、ユーザー端末２Ｂはカメラ２４が撮像したユーザーＢの撮像画像を会議サーバー１に送信する。取得処理部１１１は、ユーザー端末２ＡからユーザーＡの撮像画像を取得し、ユーザー端末２ＢからユーザーＢの撮像画像を取得する。また、取得処理部１１１は、所定のフレームレートで各ユーザー端末２から前記撮像画像を順次取得する。

図５には、ユーザーＡの顔画像を含む撮像画像Ｐａ１の一例を示している。また、図５に示す撮像画像Ｐａ１には、マスク画像Ｍ１が含まれている。

検出処理部１１２は、取得処理部１１１により取得される前記撮像画像から顔画像を検出する。また、検出処理部１１２は、前記撮像画像に顔画像が含まれるか否かを判定する。具体的には、検出処理部１１２は、周知のディープラーニングによる顔検出技術（ＭＴＣＮＮなど）を利用して、顔器官（両目、鼻、両口角、顔の輪郭など）の位置、顔の向き（角度）などを特定し、前記撮像画像に顔画像を検出する。

また、検出処理部１１２は、検出した前記顔画像からマスク領域（マスク画像）を検出する。具体的には、検出処理部１１２は、前記顔画像において口元、鼻周辺の色情報からマスクの有無を判定する。例えば、検出処理部１１２は、ＨＳＶなどの色空間において肌色から大きく異なる場合に「マスク有り」と判定し、肌色から大きく異ならない場合に「マスク無し」と判定する。より具体的には、ＨＳＶにおいて肌色は、色相（Ｈ）が０～４０の範囲であり、彩度（Ｓ）が１５～４０の範囲であるため、検出処理部１１２は、前記顔画像の色が当該範囲内である場合に「マスク無し」と判定し、当該範囲外である場合に「マスク有り」と判定する。検出処理部１１２は、本発明の判定処理部の一例である。図５に示す撮像画像Ｐａ１の場合、検出処理部１１２は、マスク画像Ｍ１（図５参照）及びマスク領域Ａｍ（図６参照）を検出する。前記マスク領域は、本発明の被覆領域の一例である。

推定処理部１１３は、検出処理部１１２により検出される前記顔画像にマスク領域（図６のマスク領域Ａｍ）が含まれる場合に被写体（ユーザー）の顔の属性を推定する。具体的には、推定処理部１１３は、前記属性として、顔の向き、顔の骨格、被写体の年齢、被写体の性別、及び被写体の頭の骨格の少なくともいずれかを推定する。

例えば、推定処理部１１３は、検出処理部１１２が顔画像を検出する際に特定した顔の向き（角度）を取得する。また、推定処理部１１３は、検出処理部１１２が検出した顔画像において両目、鼻、口角、顔の輪郭の位置関係により、ディープラーニングにより顔の向きを推定してもよい。

また、推定処理部１１３は、検出処理部１１２が検出した顔画像においてディープラーニングにより性別及び年齢を推定する。

また、推定処理部１１３は、検出処理部１１２が検出した顔画像において頭の横幅、縦の長さ、形状に基づいて頭の骨格（骨格タイプ）を推定する。例えば、推定処理部１１３は、検出処理部１１２が検出した顔画像から取得された顔器官（両目、鼻、両口角、顔の輪郭）の位置情報から頭の横幅、縦の長さ、顔の輪郭により頭の骨格をタイプ分けする。例えば、推定処理部１１３は、予め性別、年齢層ごとに標準的な顔の大きさを求め、それに対し、顔の横幅、縦の長さがどれくらいかに応じて、横長か縦長（面長）かを求め、更に顔の輪郭情報から卵型、四角型などにタイプ分けする。

また例えば、推定処理部１１３は、サンプル画像情報Ｄ１（図３参照）に予め登録された複数のサンプル画像と、ユーザーの発話音声（発話内容、音の強弱など）とを用いて、学習モデルにより前記顔画像の顔の表情を推定する。

選択処理部１１４は、複数の顔のそれぞれの属性に対応する複数のサンプル画像を予め記憶する記憶部１２（サンプル画像情報Ｄ１（図３参照））において、推定処理部１１３により推定される前記属性に対応するサンプル画像を選択する。例えば、選択処理部１１４は、サンプル画像情報Ｄ１から、推定処理部１１３が推定した顔の向き（角度）、性別、年齢、頭の骨格に合致するサンプル画像を選択する。例えば、推定処理部１１３は、前記顔画像について、性別を「女性」、年齢を「２０代」、骨格を「卵型」、顔の向きを「右方向に２０度」とそれぞれ推定した場合に、サンプル画像情報Ｄ１において、これらの推定結果に合致する、「女性」、「２０代」、「卵型」に分類され、かつ、右方向２０度を囲む角度（例えば、１５度～３０度）のサンプル画像を選択する。選択処理部１１４は、前記属性に対応する１つのサンプル画像を選択してもよいし、複数のサンプル画像を選択してもよい。

図５に示す撮像画像Ｐａ１の場合、選択処理部１１４は、図６に示す１つのサンプル画像Ｐ１を選択する。

変換処理部１１５は、選択処理部１１４により選択される前記サンプル画像における口元の口角を、推定処理部１１３により推定される表情に基づいて変換する。具体的には、変換処理部１１５は、顔の向きが正面のサンプル画像の口角を、推定処理部１１３が推定した前記表情に合わせて変換する。なお、変換処理部１１５は、ユーザーが発話するごとに、口角を変換する処理を実行する。

例えば、変換処理部１１５は、推定された前記表情が「普通」の表情である場合には、口角を変更しない。また、変換処理部１１５は、推定された前記表情が「驚き」の表情である場合には、口角を上下方向に広げる。また、変換処理部１１５は、推定された前記表情が「楽しい」表情である場合には、口角を上げる。また、変換処理部１１５は、推定された前記表情が「悲しみ」の表情である場合には、口角を下げる。また、変換処理部１１５は、推定された前記表情が「怒り」の表情である場合には、口角を横に広げる。また、変換処理部１１５は、推定された前記表情が「喜び」の表情である場合には、口角を「楽しい」の場合の口角よりもさらに上げる。

また、変換処理部１１５は、選択処理部１１４により選択されたサンプル画像ごとに、正面のサンプル画像に対して施した前記口角処理と同様の処理を行う。例えば、変換処理部１１５は、口角を上げる際にその量をｙ１とした場合、サンプル画像が真横の向きの場合には、口角を同じ量ｙ１だけ上げ、サンプル画像が上向きの場合には、その角度に応じてた量（ｙ１よりも小さい量）だけ口角を上げる。

なお、変換処理部１１５は、サンプル画像において変換した口角の位置を算出して記憶する。

補間処理部１１６は、選択処理部１１４により選択される前記サンプル画像に基づいて、検出処理部１１２により検出される前記顔画像の顔の向きに合致する画像である補間画像を生成する。

例えば、推定処理部１１３により推定された顔の向き（角度）が２０度で、選択処理部１１４により選択されたサンプル画像が顔の向き１５度の画像と３０度の画像である場合、補間処理部１１６は、正面における３次元座標からそれぞれの顔角度における２次元座標への射影変換行列を、それぞれの角度差を重み係数で乗算し、加算して得られた補間射影変換行列を用いることで、所望の顔角度（例えば２０度）の画像を求めることができる。

より具体的には、予め用意されている各顔角度のサンプル画像は、平均的な顔形状の正面における顔器官の３次元座標から射影変換を行うことにより求められる。具体的には、平均的な顔形状の正面における顔器官の３次元座標をＳ、特定の顔角度における顔器官の２次元座標をＡ、３次元座標Ｓから二次元座標Ａに射影変換する射影変換行列をＭとすると、Ａ＝Ｍ×Ｓが成り立つ。そして、その射影変換行列ＭはＭ＝Ａ×（Ｓ^T（ＳＳ^T）^-1）で求めることができる。この射影変換行列を各性別、年齢、骨格分類の顔角度ごとに保持し、所望の顔角度において、それを包括する角度での線形補間により射影変換行列を求めることができる。さらに、補間により求められた射影変換行列Ｍによる顔の輪郭が撮影した顔画像の輪郭に合うよう、別途、射影変換行列Ｍ´を求め、それを補間により求められた射影変換行列Ｍに乗算することで、所望の顔角度および顔の輪郭が合う最適な射影変換行列Ｍ″（Ｍ″＝Ｍ×Ｍ´）が求まり、所望の顔画像を生成することができる。

なお、補間処理部１１６は、選択処理部１１４により選択される前記サンプル画像の顔の向きが、検出処理部１１２により検出される前記顔画像の顔の向きと一致する場合には、前記補間画像を生成する処理を省略する。

調整処理部１１７は、選択処理部１１４により選択されるサンプル画像の色を、前記顔画像の顔の色に合わせて調整する。具体的には、調整処理部１１７は、カメラ２４により撮影された状態の顔画像の明るさ、肌の色合いなどに合わせて、補間処理部１１６により生成された補間画像の口元の明るさ及び色合いを調整する。これにより、全体的な明るさや色の違いを軽減させる。なお、前記補間画像の生成処理が省略される場合は、調整処理部１１７は、検出処理部１１２が検出した顔画像に対して、口元の明るさ及び色合いを調整する処理を実行する。

生成処理部１１８は、選択処理部１１４により選択されるサンプル画像に基づいて、取得処理部１１１により取得される撮像画像に含まれる顔画像に対応する出力画像を生成する。具体的には、生成処理部１１８は、前記サンプル画像に基づいてマスク領域Ａｍの画像（マスク画像Ｍ１）を変更して、検出処理部１１２により検出された前記顔画像に対応する出力画像を生成する。例えば、生成処理部１１８は、前記サンプル画像を、検出処理部１１２により検出されたマスク領域Ａｍに合成して出力画像を生成する。図５に示す撮像画像Ｐａ１の場合、生成処理部１１８は、図６に示すように、サンプル画像Ｐ１を、撮像画像Ｐａ１のマスク領域Ａｍに合成して出力画像Ｐａ２を生成する。

また、補間処理部１１６が前記補間画像を生成した場合には、生成処理部１１８は、マスク領域Ａｍを補間処理部１１６により補間された前記補間画像に変更して出力画像を生成する。例えば、生成処理部１１８は、補間処理部１１６により補間された前記補間画像を、検出処理部１１２により検出されたマスク領域Ａｍに合成して前記出力画像を生成する。

また、調整処理部１１７が前記補間画像を色調整した場合には、生成処理部１１８は、調整処理部１１７により顔の色が調整された前記補間画像を、検出処理部１１２により検出されたマスク領域Ａｍに合成して前記出力画像を生成する。

また、生成処理部１１８は、変換処理部１１５が算出した口角の位置と、補間画像における口角位置の位置とを一致させて前記出力画像を生成する。このとき、生成処理部１１８は、顔画像と補間画像との境界が目立たないようにするために、マスク有りの画像（撮像画像Ｐａ１）におけるマスク領域Ａｍの境界はその周辺の肌色の平均値に置き換え、その周辺の平均肌色とマスク無しの画像（サンプル画像）とはマスク領域Ａｍの境界から閾値までの距離に応じて図７に示す曲線により重み係数を変えて合成を行ってもよい。図７に示すグラフにおいて、重み係数「０」は、マスク領域Ａｍの境界周辺の肌色の平均値を示し、重み係数「１」は、マスク無し画像（サンプル画像）の肌色を示している。

出力処理部１１９は、生成処理部１１８により生成される出力画像を出力する。具体的には、出力処理部１１９は、ユーザー端末２ＡからユーザーＡの撮像画像Ｐａ１（図５参照）を取得した場合に、撮像画像Ｐａ１に基づいて生成された出力画像Ｐａ２（図６参照）をユーザー端末２Ａ及びユーザー端末２Ｂのそれぞれに出力する。

図８には、従来の構成により出力される出力画像を示し、図９には、本実施形態の構成により出力される出力画像を示している。従来の構成では、ユーザー端末２Ｂに、ユーザーＡがマスクを着用した顔画像が表示される。これに対して、本実施形態の構成によれば、ユーザー端末２Ｂに、ユーザーＡがマスクを着用していない顔画像が表示される。このため、ユーザーＢは、ユーザーＡの表情を読み取ることができるため、コミュニケーションが取り易くなる。すなわち、ユーザーＢは、ユーザーＡの顔全体を把握し易くなる。

［ユーザー端末２］
図２に示すように、ユーザー端末２は、制御部２１、記憶部２２、操作表示部２３、カメラ２４、及び通信部２５などを備える。ユーザー端末２は、例えばパーソナルコンピューター、タブレット端末、スマートフォンなどの情報処理装置である。また、ユーザー端末２は、マイク及びスピーカーを備えてもよい。

通信部２５は、ユーザー端末２を有線又は無線でネットワークＮ１に接続し、ネットワークＮ１を介して会議サーバー１などの外部機器との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。

カメラ２４は、被写体（ユーザー）を撮像してデジタル画像データとして出力するデジタルカメラである。カメラ２４により撮像された画像データは制御部２１に送信される。制御部２１は、前記画像データを会議サーバー１に送信する。

操作表示部２３は、各種のウェブページなどの情報を表示する液晶ディスプレイ又は有機ＥＬディスプレイのような表示部と、操作を受け付けるマウス、キーボード、又はタッチパネルのような操作部とを備えるユーザーインターフェースである。

記憶部２２は、各種の情報を記憶するＨＤＤ、ＳＳＤ又はフラッシュメモリーなどの不揮発性の記憶部である。例えば、記憶部２２には、ブラウザプログラム等の制御プログラムが記憶される。具体的に、前記ブラウザプログラムは、ＨＴＴＰ（ＨｙｐｅｒｔｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）などの通信プロトコルに従って会議サーバー１などの外部装置との間で通信処理を制御部２１に実行させるための制御プログラムである。

制御部２１は、ＣＰＵ、ＲＯＭ、及びＲＡＭなどの制御機器を有する。前記ＣＰＵは、各種の演算処理を実行するプロセッサーである。前記ＲＯＭは、前記ＣＰＵに各種の処理を実行させるためのＢＩＯＳ及びＯＳなどの制御プログラムが予め記憶された不揮発性の記憶部である。前記ＲＡＭは、各種の情報を記憶する揮発性又は不揮発性の記憶部であり、前記ＣＰＵが実行する各種の処理の一時記憶メモリー（作業領域）として使用される。そして、制御部２１は、前記ＲＯＭ又は記憶部２２に予め記憶された各種の制御プログラムを前記ＣＰＵで実行することによりユーザー端末２を制御する。

具体的に、制御部２１は、記憶部２２に記憶されている前記ブラウザプログラムに従って各種の処理を実行することによりブラウザ処理部２１１として機能する。ブラウザ処理部２１１は、会議サーバー１からネットワークＮ１を介して提供されるウェブページ（会議ページ）を操作表示部２３に表示させ、操作表示部２３に対する操作を会議サーバー１に入力するブラウザ処理を実行することが可能である。すなわち、ユーザー端末２は、制御部２１によって前記ブラウザプログラムが実行されることにより、会議サーバー１の操作用端末として機能することが可能である。なお、制御部２１に含まれる一部又は全部の処理部は電子回路で構成されていてもよい。

例えば、ユーザー端末２は、会議サーバー１で提供されるテレビ会議サービスに対応する会議ページ（図９参照）のデータを取得して、操作表示部２３に表示させる。ユーザーは、ユーザー端末２を操作することにより、テレビ会議を行うことができる。

［会議処理］
以下、図１０を参照しつつ、会議システム１０において実行される会議処理の手順の一例について説明する。

なお、本発明は、前記会議処理に含まれる一又は複数のステップを実行する会議方法（本発明の画像処理方法の一例）の発明として捉えることができる。また、ここで説明する前記会議処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記会議処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。

さらに、ここでは会議サーバー１の制御部１１が前記会議処理における各ステップを実行する場合を例に挙げて説明するが、他の実施形態では、一又は複数のプロセッサーが前記会議処理における各ステップを分散して実行してもよい。

例えば、制御部１１は、会議が開始されると前記会議処理の実行を開始する。ここでは、ユーザーＡ及びユーザーＢがテレビ会議を行う場合（図１参照）を例に挙げて説明する。

先ず、ステップＳ１において、制御部１１は、ユーザー端末２ＡからユーザーＡの撮像画像を取得し、ユーザー端末２ＢからユーザーＢの撮像画像を取得する。

次に、ステップＳ２において、制御部１１は、取得した前記撮像画像において顔画像を検出したか否かを判定する。例えば、制御部１１は、周知の顔検出技術（ＭＴＣＮＮなど）を利用して、顔器官（両目、鼻、両口角、顔の輪郭など）の位置、顔の向きなどを特定して、前記撮像画像に顔画像が含まれるか否かを判定する。制御部１１は、前記撮像画像に顔画像が含まれると判定すると（Ｓ２：Ｙｅｓ）、処理をステップＳ３に移行させる（図５参照）。一方、制御部１１は、前記撮像画像に顔画像が含まれないと判定すると（Ｓ２：Ｎｏ）、処理をステップＳ２１に移行させる。

ステップＳ３において、制御部１１は、検出した前記顔画像にマスク領域Ａｍ（マスク画像Ｍ１）が含まれるか否かを判定する。例えば、制御部１１は、前記顔画像において口元、鼻周辺の色情報からマスク領域Ａｍ（マスク画像Ｍ１）の有無を判定する（図５及び図６参照）。制御部１１は、マスク領域Ａｍ（マスク画像Ｍ１）を検出すると（Ｓ３：Ｙｅｓ）、処理をステップＳ４に移行させる。一方、制御部１１は、マスク領域Ａｍ（マスク画像Ｍ１）を検出しない場合（Ｓ３：Ｎｏ）、処理をステップＳ２１に移行させる。

ステップＳ４において、制御部１１は、前記顔画像の属性を推定する。具体的には、制御部１１は、顔の向き、顔の骨格、被写体の年齢、被写体の性別、及び被写体の頭の骨格の少なくともいずれかの属性を推定する。制御部１１は、周知のディープラーニングにより前記属性を推定することが可能である。また、制御部１１は、前記顔画像の顔の表情を推定する。

次にステップＳ５において、制御部１１は、サンプル画像情報Ｄ１（図３参照）から、推定した前記属性に対応するサンプル画像を選択する。例えば、制御部１１は、前記顔画像について、性別を「女性」、年齢を「２０代」、骨格を「卵型」、顔の向きを「右方向に２０度」とそれぞれ推定した場合に、サンプル画像情報Ｄ１において、これらの推定結果に合致する、「女性」、「２０代」、「卵型」に分類され、かつ、右方向２０度を囲む角度（例えば、１５度及び３０度）のサンプル画像（例えばサンプル画像Ｐ１）を選択する。

次にステップＳ６において、制御部１１は、選択した前記サンプル画像における口元の口角を、ステップＳ４で推定した表情に基づいて変換する。具体的には、制御部１１は、正面のサンプル画像の口角を、推定した前記表情に合わせて変換する。また、制御部１１は、選択した前記サンプル画像ごとに、正面のサンプル画像において施した前記口角処理と同様の処理を行う。このようにして、制御部１１は、ユーザーの表情に応じた複数の前記サンプル画像を生成する。

次にステップＳ７において、制御部１１は、前記サンプル画像に基づいて、ステップＳ２で検出した前記顔画像の顔の向きに合致する補間画像を生成する。例えば、ステップＳ４で推定した顔の向き（角度）が２０度の場合、制御部１１は、ステップＳ５で選択した顔の向きが１５度のサンプル画像と３０度のサンプル画像とに基づいて、顔の向きが２０度の補間画像を生成する。

次にステップＳ８において、制御部１１は、生成した前記補間画像の色を、ステップＳ２で検出した前記顔画像の顔の色に合わせて調整する。具体的には、制御部１１は、カメラ２４により撮影された状態の顔画像の明るさ、肌の色合いなどに合わせて、前記補間画像の口元の明るさ及び色合いを調整する。

次にステップＳ９において、制御部１１は、ステップＳ３で検出したマスク領域Ａｍを、ステップＳ７で生成した前記補間画像に変更して出力画像を生成する。例えば、制御部１１は、ステップＳ８で色調整した前記補間画像を、マスク領域Ａｍに合成して出力画像Ｐａ２を生成する（図６参照）。

最後にステップＳ１０において、制御部１１は、生成した前記出力画像を出力する。具体的には、制御部１１は、ユーザー端末２ＡからユーザーＡの撮像画像Ｐａ１（図５参照）を取得した場合に、撮像画像Ｐａ１に基づいて生成した出力画像Ｐａ２（図６参照）をユーザー端末２Ａ及びユーザー端末２Ｂのそれぞれに出力する（図９参照）。

なお、ステップＳ２において制御部１１が顔画像を検出しない場合（Ｓ２：Ｎｏ）、又は、ステップＳ３において制御部１１がマスク領域Ａｍを検出しない場合（Ｓ３：Ｎｏ）には、ステップＳ２１において、制御部１１は、ステップＳ１において取得した前記撮像画像を出力する。例えば、制御部１１は、ユーザー端末２ＢからユーザーＢの撮像画像Ｐｂを取得した場合に、撮像画像Ｐｂをそのままユーザー端末２Ａ及びユーザー端末２Ｂのそれぞれに出力する（図９参照）。

制御部１１は、会議が開始されてから会議が終了するまで、上述の処理を繰り返し実行する。

以上説明したように、本実施形態に係る会議システム１０は、被写体の顔画像を含む撮像画像を取得し、取得した前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域（例えばマスク領域）が含まれるか否かを判定する。また、会議システム１０は、前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定し、複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部１２（サンプル画像情報Ｄ１）において、推定した前記属性に対応する前記部分画像を選択する。また、会議システム１０は、選択した前記部分画像に基づいて前記被覆領域の画像を変更して、前記撮像画像に含まれる前記顔画像に対応する出力画像を生成し、生成した前記出力画像を出力する。

上記構成によれば、撮像画像において顔画像を検出し、顔画像に被覆領域が含まれる場合に、前記撮像画像を、被覆領域を顔画像の属性（特徴）に合った部分画像（サンプル画像）に置き換えて出力することができる。例えば、マスクを着用しているユーザーＡの顔画像をマスク無しの顔画像に置き換えて相手のユーザーＢに出力することができる。よって、ユーザーＢは、ユーザーＡの表情を読み取ることができるため、コミュニケーションが取り易くなる。すなわち、ユーザーＢは、ユーザーＡの顔全体を把握し易くなる。

本発明の画像処理システムは、会議システム１０に限定されず、他の分野に適用することもできる。例えば、ユーザーＡがオンライン形式で講演、セミナーなどを実施する場合において、聴講者のユーザー端末に対して前記サンプル画像に基づいて生成された出力画像を送信することができる。また、聴覚障害者がマスクを着用する相手方（ユーザーＡ）とコミュニケーションを図る場合に、聴覚障害者のユーザー端末に対して前記サンプル画像に基づいて生成された出力画像を送信することができる。これにより、聴覚障害者は、相手方の顔全体を把握することができるためコミュニケーションを取り易くなる。

また、本発明の被覆領域は、マスク領域に限定されず、ユーザーの体の一部が被覆された領域であればよい。例えば、ユーザーが手袋を着用している場合に、手のサンプル画像に置き換えてユーザーの手の画像を出力してもよい。

また、本発明の画像処理システムは、会議サーバー１単体で構成されてもよいし、会議サーバー１とユーザー端末２とで構成されてもよい。また、本発明の画像処理システムは、ユーザー端末２単体で構成されてもよい。この場合、ユーザー端末２は、図２に示す制御部１１の各処理部を備えて構成される。

［発明の付記］
以下、上述の実施形態から抽出される発明の概要について付記する。なお、以下の付記で説明する各構成及び各処理機能は取捨選択して任意に組み合わせることが可能である。

＜付記１＞
被写体の顔画像を含む撮像画像を取得する取得処理部と、
前記取得処理部により取得される前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域が含まれるか否かを判定する判定処理部と、
前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定する推定処理部と、
複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部において、前記推定処理部により推定される前記属性に対応する前記部分画像を選択する選択処理部と、
前記選択処理部により選択される前記部分画像に基づいて前記被覆領域の画像を変更して、前記取得処理部により取得される前記撮像画像に含まれる前記顔画像に対応する出力画像を生成する生成処理部と、
前記生成処理部により生成される前記出力画像を出力する出力処理部と、
を備える画像処理システム。

＜付記２＞
前記生成処理部は、前記被覆領域を前記選択処理部により選択される前記部分画像に変更して前記出力画像を生成する、
請求項１に記載の画像処理システム。

＜付記３＞
前記推定処理部は、前記属性として、前記顔の向き、前記顔の骨格、前記被写体の年齢、前記被写体の性別、及び前記被写体の頭の骨格の少なくともいずれかを推定する、
付記１又は付記２に記載の画像処理システム。

＜付記４＞
前記部分画像は、顔のうち少なくとも口元を含む画像である、
付記１～付記３のいずれかに記載の画像処理システム。

＜付記５＞
前記取得処理部により取得される前記撮像画像に含まれる前記顔画像に基づいて顔の表情を推定し、前記選択処理部により選択される前記部分画像における前記口元の口角を、推定した前記表情に基づいて変換する変換処理部をさらに備える、
付記４に記載の画像処理システム。

＜付記６＞
前記変換処理部は、前記被写体の前記顔画像と、前記被写体の発話音声とに基づいて前記顔の表情を推定する、
付記５に記載の画像処理システム。

＜付記７＞
前記選択処理部により選択される前記部分画像に基づいて、前記取得処理部により取得される前記撮像画像に含まれる前記顔画像の顔の向きに合致する画像である補間画像を生成する補間処理部をさらに備え、
前記生成処理部は、前記被覆領域を前記補間処理部により補間される前記補間画像に変更して前記出力画像を生成する、
付記１～付記６のいずれかに記載の画像処理システム。

＜付記８＞
前記選択処理部により選択される前記部分画像の色を、前記撮像画像に含まれる前記顔画像の顔の色に合わせて調整する調整処理部をさらに備え、
前記生成処理部は、前記被覆領域を前記調整処理部により前記顔の色が調整された前記部分画像に変更して前記出力画像を生成する、
付記１～付記７のいずれかに記載の画像処理システム。

１：会議サーバー
２：ユーザー端末
１０：会議システム
１１：制御部
２４：カメラ
１１１：取得処理部
１１２：検出処理部
１１３：推定処理部
１１４：選択処理部
１１５：変換処理部
１１６：補間処理部
１１７：調整処理部
１１８：生成処理部
１１９：出力処理部
Ａｍ：マスク領域
Ｍ１：マスク画像
Ｄ１：サンプル画像情報
Ｐ１：サンプル画像

Claims

被写体の顔画像を含む撮像画像を取得する取得処理部と、
前記取得処理部により取得される前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域が含まれるか否かを判定する判定処理部と、
前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定する推定処理部と、
複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部において、前記推定処理部により推定される前記属性に対応する前記部分画像を選択する選択処理部と、
前記選択処理部により選択される前記部分画像に基づいて前記被覆領域の画像を変更して、前記取得処理部により取得される前記撮像画像に含まれる前記顔画像に対応する出力画像を生成する生成処理部と、
前記生成処理部により生成される前記出力画像を出力する出力処理部と、
を備える画像処理システム。
前記生成処理部は、前記被覆領域を前記選択処理部により選択される前記部分画像に変更して前記出力画像を生成する、
請求項１に記載の画像処理システム。
前記推定処理部は、前記属性として、前記顔の向き、前記顔の骨格、前記被写体の年齢、前記被写体の性別、及び前記被写体の頭の骨格の少なくともいずれかを推定する、
請求項１又は請求項２に記載の画像処理システム。
前記部分画像は、顔のうち少なくとも口元を含む画像である、
請求項１又は請求項２に記載の画像処理システム。
前記取得処理部により取得される前記撮像画像に含まれる前記顔画像に基づいて顔の表情を推定し、前記選択処理部により選択される前記部分画像における前記口元の口角を、推定した前記表情に基づいて変換する変換処理部をさらに備える、
請求項４に記載の画像処理システム。
前記変換処理部は、前記被写体の前記顔画像と、前記被写体の発話音声とに基づいて前記顔の表情を推定する、
請求項５に記載の画像処理システム。
前記選択処理部により選択される前記部分画像に基づいて、前記取得処理部により取得される前記撮像画像に含まれる前記顔画像の顔の向きに合致する画像である補間画像を生成する補間処理部をさらに備え、
前記生成処理部は、前記被覆領域を前記補間処理部により補間される前記補間画像に変更して前記出力画像を生成する、
請求項１又は請求項２に記載の画像処理システム。
前記選択処理部により選択される前記部分画像の色を、前記撮像画像に含まれる前記顔画像の顔の色に合わせて調整する調整処理部をさらに備え、
前記生成処理部は、前記被覆領域を前記調整処理部により前記顔の色が調整された前記部分画像に変更して前記出力画像を生成する、
請求項１又は請求項２に記載の画像処理システム。
一又は複数のプロセッサーが、
被写体の顔画像を含む撮像画像を取得する取得ステップと、
前記取得ステップにより取得される前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域が含まれるか否かを判定する判定ステップと、
前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定する推定ステップと、
複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部において、前記推定ステップにおいて推定される前記属性に対応する前記部分画像を選択する選択ステップと、
前記選択ステップにおいて選択される前記部分画像に基づいて、前記取得ステップにおいて取得される前記撮像画像に含まれる前記顔画像に対応する出力画像を生成する生成ステップと、
前記生成ステップにより生成される前記出力画像を出力する出力ステップと、
を実行する画像処理方法。
被写体の顔画像を含む撮像画像を取得する取得ステップと、
前記取得ステップにより取得される前記撮像画像に含まれる前記顔画像に顔を被覆する被覆領域が含まれるか否かを判定する判定ステップと、
前記顔画像に前記被覆領域が含まれる場合に前記顔の属性を推定する推定ステップと、
複数の顔のそれぞれの属性に対応する複数の部分画像を予め記憶する記憶部において、前記推定ステップにおいて推定される前記属性に対応する前記部分画像を選択する選択ステップと、
前記選択ステップにおいて選択される前記部分画像に基づいて、前記取得ステップにおいて取得される前記撮像画像に含まれる前記顔画像に対応する出力画像を生成する生成ステップと、
前記生成ステップにより生成される前記出力画像を出力する出力ステップと、
を一又は複数のプロセッサーに実行させるための画像処理プログラム。