JP2022043749A

JP2022043749A - 情報処理装置、情報処理システム、情報処理方法及びプログラム

Info

Publication number: JP2022043749A
Application number: JP2020149204A
Authority: JP
Inventors: 啓成島; Hiroshi Narushima; 兼太郎山口; Kentaro Yamaguchi
Original assignee: Celsys Inc
Current assignee: Celsys Inc
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2022-03-16
Anticipated expiration: 2040-09-04
Also published as: JP6927540B1

Abstract

【課題】対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減する情報処理装置、情報処理システム、情報処理方法及びプログラムを提供する。
【解決手段】情報処理装置１は、対象画像におけるキーポイント位置の推定及び／又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置及び／又は当該領域分類の結果を用いて、対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、抽出された限定領域に対して所望領域を認識する処理を実行して、限定領域から所望領域を抽出して出力する所望領域出力部と、を備える。
【選択図】図１

Description

本発明は、情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。

従来から、画像認識技術を用いて、画像から特定の領域を抽出することが行われている。たとえば、人体に対しては、人体検知、顔検出、顔認識、顔方向検知、顔器官検出、年齢、性別、表情、また肩、足元、身長等の人体の部位認識（人体特徴認識）を実行することが提案され、また、物体に対しては、大きさや形状の解析、及び椅子や自動車等の物体カテゴリの検出を行うことが提案されている（例えば、特許文献１参照）。

一方、非特許文献１には、人物が写った写真から、キーポイントを推定して、人物のポーズを推定する技術が開示されている。ここで、キーポイントとは、関節点(肩、肘、手首、腰、膝、足首など)や特徴点(目、鼻、口、耳など)のことである。
また、非特許文献２には、セマンティックセグメンテーションによって、写真から、人物の領域、自転車の領域、動物の領域など各領域を推定することが開示されている。

特開２０１５－６１２３９号公報

https://arxiv.org/abs/1611.08050 （Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields"） https://arxiv.org/abs/1605.06211（Evan Shelhamer, Jonathan Long, Trevor Darrell,"Fully Convolutional Networks for Semantic Segmentation"）

従来手法として例えば、人物が写った写真の画像から、顔を検出する手法がある。しかし、対象画像に例えば、顔だけでなく「顔と似て非なる物」（例えば、コンセント）が写っている場合、顔ではない領域が誤って検出されて出力されてしまうことがある。このように、対象画像から、ユーザが所望する所望領域（例えば、人物の顔または犬の顔）とは異なる領域が誤って検出されて出力されてしまうことがある。

本発明は、上記問題に鑑みてなされたものであり、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することを可能とする情報処理装置、情報処理システム、情報処理方法及びプログラムを提供することを目的とする。

本発明の第１の態様に係る情報処理装置は、対象画像におけるキーポイント位置の推定及び／又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び／又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力部と、を備える。

この構成によれば、キーポイントの推定、及び／又はセマンティックセグメンテーションによる対象画像内の画像領域の推定を用いることにより、所望領域を高精度に検出することができる。このため、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することができる。

本発明の第２の態様に係る情報処理装置は、第１の態様に係る情報処理装置であって、前記限定領域抽出部は、前記セマンティックセグメンテーションによって前記対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、前記所望領域の種類に対応するカテゴリに分類された領域を略含む領域を前記限定領域として抽出し、前記所望領域出力部は、前記選択された限定領域において前記所望領域を認識する処理を実行して、少なくとも一つの所望領域を出力する。

この構成によれば、複数のカテゴリの被写体が写った画像であっても、ユーザが所望する所望領域の種類に対応するカテゴリの画像領域だけを抽出することができる。

本発明の第３の態様に係る情報処理装置は、第１の態様に係る情報処理装置であって、前記限定領域抽出部は、前記推定されたキーポイントのうちの１個または複数個を含むように前記限定領域を抽出する。

この構成によれば、限定領域を確実に作ることができる。

本発明の第４の態様に係る情報処理装置は、第１の態様に係る情報処理装置であって、前記限定領域抽出部は、前記セマンティックセグメンテーションによって前記対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、前記所望領域の種類に対応するカテゴリに分類された領域を略含む領域において、キーポイント位置を推定し、当該推定したキーポイントのうちの１個または複数個を含むように前記限定領域を抽出する。

この構成によれば、２段階で抽出することによって、複数のカテゴリの被写体が写った画像であっても、ユーザが所望する所望領域の種類に対応するカテゴリの画像領域（例えば人の画像領域）であって所望領域の種類の画像領域（例えば、人の顔の画像領域）だけを高精度に抽出することができる。

本発明の第５の態様に係る情報処理装置は、第１から４のいずれかの態様に係る情報処理装置であって、前記限定領域抽出部によって抽出された限定領域が複数ある場合、当該複数の限定領域をユーザが選択可能にディスプレイに表示制御する表示制御部と、ユーザによって選択された限定領域を受け付ける受付部と、を備え、前記所望領域出力部は、前記ユーザによって選択された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する。

この構成によればユーザが複数の限定領域の中から１以上の限定領域を選択することで、ユーザによって選択された限定領域から所望領域が出力されるので、所望領域の出力精度を向上させることができる。

本発明の第６の態様に係る情報処理装置は、第１から５のいずれかの態様に係る情報処理装置であって、前記限定領域抽出部は、前記複数の限定領域を抽出し、前記所望領域出力部は、前記選択された複数の限定領域から、複数の所望領域を出力し、前記出力された複数の所望領域のうち、少なくとも一つをユーザが選択可能にディスプレイに表示制御する表示制御部を備える。

この構成によれば、ユーザが複数の所望領域から、１以上の領域を選択することができる。

本発明の第７の態様に係る情報処理装置は、第１から６のいずれかの態様に係る情報処理装置であって、前記所望領域出力部によって出力された所望領域が複数ある場合、前記複数の所望領域のうちユーザによって選択された１以上の所望領域を受け付ける受付部と、前記ユーザによって選択された１以上の所望領域をストレージに保存させる記憶処理部と、を更に備える。

この構成によれば、ユーザが選択した所望の画像を活用することができる。

本発明の第８の態様に係る情報処理装置は、第１から７のいずれかの態様に係る情報処理装置であって、前記所望領域の出力において優先する対象を、ユーザによる優先度の指定に基づき取得する取得部を備え、前記限定領域抽出部は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれの優先度を決定し、前記所望領域出力部は、当該優先度に応じて前記所望領域を出力する。

この構成によれば、ユーザが優先するもの（例えば、手前にいる人物）の画像領域を取得することができる。

本発明の第９の態様に係る情報処理システムは、対象画像におけるキーポイント位置の推定及び／又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び／又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力部と、を備える。

本発明の第１０の態様に係る情報処理方法は、対象画像におけるキーポイント位置の推定及び／又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び／又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出手順と、前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力手順と、を有する。

本発明の第１１の態様に係るプログラムは、対象画像におけるキーポイント位置の推定及び／又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び／又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出手順、前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力手順、を実行させるためのプログラムである。

本発明の一態様によれば、キーポイントの推定、及び／又はセマンティックセグメンテーションによる対象画像内の画像領域の推定を用いることにより、所望領域を高精度に検出することができる。このため、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することができる。

第１の実施形態に係る情報処理装置の概略構成図である。情報処理装置に表示される画面遷移の一例である。実施例１の処理について説明するための図である。実施例２の処理について説明するための図である。変形例の画面遷移の一例である。変形例の処理を説明するための図である。変形例の処理の一例を示すフローチャートである。第２の実施形態に係る情報処理システムの概略構成図である。本実施形態に係るコンピュータシステムの概略構成図である。

以下、各実施形態について、図面を参照しながら説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

本実施形態では、上記の課題だけでなく、対象画像に所望の人物だけでなく他の人物も写っている場合に、所望の人物の所望領域の画像を取得することができるようにすることも課題とする。

第１の実施形態に係る情報処理装置１は、例えば多機能携帯電話（いわゆるスマートフォン）などの携帯電話、タブレット、ノートパソコンなどのモバイルデバイス、またはデスクトップパソコンなどである。本実施形態では、一例として、多機能携帯電話であるものとして説明する。

図１は、第１の実施形態に係る情報処理装置の概略構成図である。図１に示すように、情報処理装置１は例えば、入力インタフェース１１と、通信モジュール１２と、ストレージ１３と、メモリ１４と、ディスプレイ１５と、プロセッサ１６と、カメラ１７とを備える。
入力インタフェース１１は、ユーザの操作を受け付け、受け付けた操作に応じた入力信号をプロセッサ１６へ出力する。本実施形態では入力インタフェース１１は一例としてタッチパネルである。
通信モジュール１２は、通信回路網に接続されて、通信回路網に接続されている他のコンピュータと通信する。この通信は有線であっても無線であってもよい。

ストレージ１３には、プロセッサ１６が読み出して実行するためのアプリケーションのプログラム及び各種のデータが格納されている。このアプリケーションは例えば、サーバもしくはクラウド経由でダウンロードされてインストールされたものである。
メモリ１４は、データ及びプログラムを一時的に保持する。メモリ１４は、揮発性メモリであり、例えばＲＡＭ（Random Access Memory）である。
ディスプレイ１５は、プロセッサ１６の指令に従って、情報を表示する。

プロセッサ１６は、ストレージ１３から第１の実施形態に係るアプリケーションのプログラムをメモリ１４にロードし、当該プログラムに含まれる一連の命令を実行することによって、取得部１６１、限定領域抽出部１６２、所望領域出力部１６３、表示制御部１６４、受付部１６５、記憶処理部１６６として機能する。各部の処理の詳細については後述する。

カメラ１７は、例えばディスプレイ１５側に設けられた背面カメラであり、被写体を撮像可能である。なお、情報処理装置１は、これに加えてまたはこれに替えて、ディスプレイ１５側に設けられた前面カメラを備えてもよい。

図２は、情報処理装置に表示される画面遷移の一例である。図２の画面Ｇ１、Ｇ２は、例えば、アプリケーションを立ち上げて表示される画面である。画面Ｇ１では、対象画像がユーザによって選択されて表示されている画面の一例である。画面Ｇ１には、対象画像を選択するためのファイル選択用ボタンＢ１と、ユーザが抽出したい所望領域の種類を入力するための入力ボックスＢ２と、所望領域抽出の開始を指示するための抽出開始ボタンＢ３と、対象画像Ｆ１が表示されている。ここでは、対象画像Ｆ１として、二人の男性が写った画像が表示されている。入力ボックスＢ２ではなく、セレクトボックスや、複数のタグからの選択など、選択式であってもよい。ここでは所望領域は例えば、ユーザが抽出を所望する種類（例えば、人の顔）の画像領域である。なお、所望領域の種類は一例としてユーザが設定するものとして説明するが、これに限らず、所望領域の種類は予め設定されていてもよく、その場合、所望領域は例えば、予め所望する種類（例えば、人の顔）が設定された画像領域である。例えば情報処理装置が、顔検出専用の装置である場合、所望領域の種類は、人の顔に予め設定されていてもよい。

例えば、ユーザによって「何を見つけますか？」（抽出したい所望領域の種類）に対する回答として「人の顔」が入力され、抽出開始ボタンＢ３が押された場合、処理が実行されて、画面Ｇ２に表示が遷移する。画面Ｇ２では例えば、「見つかった領域」（所望領域）として、二人の男性のうち一人の男性の顔の画像領域が所望領域として表示される。

続いて図２の画面Ｇ１から画面Ｇ２に遷移する間に実行されている処理について、説明する。画面Ｇ１で抽出開始ボタンＢ３が押された場合、取得部１６１は、対象画像内の領域であってユーザが所望する所望領域の種類（図２の例の場合、人の顔）を取得する。なお、予め所望領域の種類が特定の物（例えば、人の顔）に決められている場合には、取得部１６１はなくてもよい。限定領域抽出部１６２は、対象画像から次の手法（下記の＜実施例１の処理＞から＜実施例３の処理＞の手法）の一つ以上を使って「限定領域」を抽出する。そして所望領域出力部１６３は、抽出された限定領域に対して前記所望領域を認識する処理（例えば、顔検出）を実行して、当該限定領域から所望領域を抽出して出力する。

＜実施例１の処理＞
まず、処理の実施例１は、キーポイント推定を使ったものである。実施例１について図３を用いて説明する。図３は、実施例１の処理について説明するための図である。図３において、限定領域抽出部１６２は、対象画像Ｈ１において、非特許文献１などの技術を用いて、キーポイント位置を推定する。画像Ｈ２は、推定されたキーポイントの位置が白丸で示されている。このように、キーポイントとして、関節点（肩、肘、手首、腰、膝、足首など）や特徴点（目、鼻、口、耳など）が抽出される。一態様では、限定領域抽出部１６２によって、顔のキーポイントのバウンディングボックスは、１人の人物について１個設定され、その人物の顔のキーポイント（例えば目、鼻、口、耳のキーポイント）全部を含む１個のバウンディングボックスが設定される。図３の例では、顔のキーポイントのバウンディングボックスＨ２１と、顔のキーポイントのバウンディングボックスＨ２２が示されている。ここでは一例として、顔のキーポイントのバウンディングボックスは、人物の顔のキーポイント全部をちょうど囲うのに必要な大きさの四角い箱（矩形）である。また一態様では、限定領域抽出部１６２によって、身体のキーポイントに対するバウンディングボックスは、１人の人物について１個設定され、身体のキーポイントに対する関節点（例えば肩、肘、手首、腰、膝、足首のキーポイント）全部を含む１個のバウンディングボックスが設定される。

図３の画像Ｈ２のように、検出されたキーポイントが複数人分の場合は、限定領域抽出部１６２は、以下の方法のうちの１つを使って（あるいは複数方法を併用して）、複数人物のうちの１人分に絞り込む。
（１）より多くの顔のキーポイントが検出された人物を選ぶ。
（２）より多くの身体のキーポイントが検出された人物を選ぶ。
（３）顔のキーポイントのバウンディングボックスが大きい人物を選ぶ。
（４）身体のキーポイントのバウンディングボックスが大きい人物を選ぶ。

図３の例では、限定領域抽出部１６２は、上記（１）、（２）の方法では差が付かないので(検出された顔のキーポイントはいずれも６個で同数、検出された身体のキーポイントはいずれも２個で同数)、上記（３）の方法を用いて、顔のキーポイントのバウンディングボックスが大きい人物を選択する。これにより、対象画像に複数の人物が写っている場合に、主たる人物の顔の画像を取得することができる。

続いて、限定領域抽出部１６２は例えば、１人分のキーポイントから、例えば下記の方法で「限定領域」を決定する。
（１）顔のキーポイントのバウンディングボックスを所定量もしくは所定の割合だけ広げた領域を「限定領域」とする。ここで「所定量もしくは所定の割合」は、具体的には下記のようにしてもよい。
（ア）顔のキーポイントのバウンディングボックスの大きさに対する所定の割合。
（イ）身体のキーポイントのバウンディングボックスの大きさに対する所定の割合。
（ウ）ソース画像の大きさに対する所定の割合。
（エ）所定の画素数。

（２）顔のキーポイントの重心を中心とする所定の大きさの矩形領域を「限定領域」としてもよい。ここで「所定の大きさ」は，具体的には下記のようにしてもよい。
（ア）顔のキーポイントのバウンディングボックスの大きさに対する所定の割合。
（イ）身体のキーポイントのバウンディングボックスの大きさに対する所定の割合。
（ウ）ソース画像の大きさに対する所定の割合。
（エ）所定の画素数。
なお、顔のキーポイントが検出されなかった場合は，近隣の部位（例えば首，肩など）のキーポイントの位置を元に，顔が含まれるであろう「限定領域」を設定してもよい。

図３の例では、限定領域抽出部１６２は例えば、顔のキーポイントのバウンディングボックスを所定の割合だけ広げた領域を「限定領域」として抽出する。これによって、限定領域Ｈ３が抽出される。そして、抽出された限定領域Ｈ３に対して、所望領域出力部１６３によって顔検出が実行されて、所望領域Ｈ３が出力される。この顔検出は、公知の方法を用いてもよい。
このように、限定領域抽出部１６２は、対象画像におけるキーポイント位置を推定し当該推定したキーポイント位置を用いて、前記対象画像から前記所望領域を含む限定領域を抽出する。

＜実施例２の処理＞
続いて、実施例２の処理は、セマンティックセグメンテーションを使ったものである。実施例２について図４を用いて説明する。図４は、実施例２の処理について説明するための図である。図４において、限定領域抽出部１６２は、対象画像Ｈ１において、非特許文献２などのセマンティックセグメンテーションの技術を用いて、画像領域を分類して、人物領域を「限定領域」として抽出する。

図４では、対象画像Ｈ１１に対して、限定領域抽出部１６２によってセマンティックセグメンテーションが実行されることによって、画像Ｈ１２に示すように、人物領域Ｒ１１、Ｒ１２が抽出される。
限定領域抽出部１６２は、複数の人物領域が抽出された場合、画像の中心により近い人物領域を限定領域として抽出してもよいし、人物領域の大きさが最も大きい人物領域を限定領域として抽出してもよいし、画像の中心により近く且つ人物領域の大きさが最も大きい人物領域を限定領域として抽出してもよい。
図４の場合、例えば、限定領域抽出部１６２によって、人物領域Ｒ１１、Ｒ１２のうち、中心に近い、及び／又はより領域が大きい人物領域Ｒ１１が限定領域として抽出される。図４の例の場合、限定領域Ｈ１３は一例として、画像から人物領域Ｒ１１に対して上及び左右にマージンを付けて抜き出した領域である。なお、これに限らず、限定領域Ｈ１３は、人物領域Ｒ１１に対して上及び左右にマージンがなくてもよく、人物領域Ｒ１１にぴったり外接する矩形領域であってもよい。そして、抽出された限定領域Ｈ１３に対して、所望領域出力部１６３によって顔検出が実行されて、所望領域Ｈ１４が出力される。この顔検出は、公知の方法を用いてもよい。

このように実施例２では、限定領域抽出部１６２は例えば、セマンティックセグメンテーションによる領域分類を実行し、当該領域分類の結果を用いて、前記対象画像から前記所望領域を含む限定領域を抽出する。
例えば、限定領域抽出部１６２は、セマンティックセグメンテーションによって対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、ユーザが所望する所望領域の種類（例えば、人の顔）に対応するカテゴリ（例えば、人体）に分類された領域を略含む領域を限定領域として選択してもよい。所望領域出力部１６３は、当該選択された限定領域において当該所望領域を認識する処理（ここでは顔検出）を実行して、当該限定領域から所望領域（例えば、人の顔の画像領域）を抽出して出力してもよい。

上記について具体例を用いて説明する。例えば、人と犬が写った画像の場合において、ユーザが所望する所望領域の種類が「人の顔」である場合を例に説明する。この場合、限定領域抽出部１６２は、セマンティックセグメンテーションによって対象画像を複数の画像領域に分け、その中から、犬の画像領域やその他の画像領域を無視して、人の画像領域のみを選択して、限定領域としてもよい。そして所望領域出力部１６３は、人の画像領域から人の「顔」を認識し、人の「顔」画像領域を、所望領域として出力してもよい。これにより、２段階で抽出することによって、複数のカテゴリの被写体が写った画像であっても、ユーザが所望する所望領域の種類に対応するカテゴリの画像領域（例えば人の画像領域）であって所望領域の種類の画像領域（例えば、人の顔の画像領域）だけを高精度に抽出することができる。

＜実施例３の処理＞
続いて、実施例３は、セマンティックセグメンテーションとキーポイント推定を使った実施例である。この場合、限定領域抽出部１６２はまず、対象画像に対してセマンティックセグメンテーションを実行し、人物領域を抽出する。そして限定領域抽出部１６２は、この人物領域に対して、前記の「キーポイント推定を使った実施例」の手法を実行し、「限定領域」を抽出してもよい。このように、限定領域抽出部１６２は、セマンティックセグメンテーションによって前記対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、前記所望領域の種類に対応するカテゴリに分類された領域（例えば、人物領域）を略含む領域において、キーポイント位置を推定し、当該推定したキーポイントのうちの１個または複数個を含むように前記限定領域を作る。これにより、キーポイントを推定するときに、人物以外のもの（例えば、コンセント）などを対象とすることを未然に防止できる。

＜変形例：限定領域を複数抽出する例＞
以上の実施例では「限定領域」を１個（１人分）に絞り込んだが、数個（複数人）のままにしても良い。あるいは、「限定領域」の個数を，所定の個数（または所定の個数以下）に絞り込んでもよい。

続いて変形例について図５及び図６を用いて説明する。図５は、変形例の画面遷移の一例である。図５の画面Ｇ１１、Ｇ１２、Ｇ１３は、例えば、アプリケーションを立ち上げて表示される画面である。画面Ｇ１１では、対象画像がユーザによって選択されて表示されている画面の一例である。画面Ｇ１１には、対象画像を選択するためのファイル選択用ボタンＢ１１と、ユーザが抽出したい所望領域の種類を入力するための入力ボックスＢ１２と、所望領域抽出の開始を指示するための抽出開始ボタンＢ１３と、対象画像Ｆ１１が表示されている。ここでは、対象画像Ｆ１１として、一人の男性と一人の女性が写った画像が表示されている。入力ボックスＢ１２ではなく、セレクトボックスや、複数のタグからの選択など、選択式であってもよい。

例えば、画面Ｇ１１において、ユーザによって「抽出したい所望領域」として「人の顔」が入力され、抽出開始ボタンＢ１３が押された場合、処理が実行されて、画面Ｇ１２が表示される。画面Ｇ１２では例えば、所望領域として、男性の顔の画像領域Ｆ１２と女性の顔の画像領域Ｆ１３の両方が、所望領域として表示される。

この場合の処理として、限定領域抽出部１６２は、複数の限定領域を抽出する。そして、所望領域出力部１６３は、選択された複数の限定領域のそれぞれから、所望領域を出力してもよい。表示制御部１６４は、出力された複数の所望領域のうち、少なくとも一つをユーザが選択可能にディスプレイ１５に表示制御してもよい。これにより、ユーザが複数の所望領域から、１以上の領域を選択することができる。

例えば、画面Ｇ１２において、男性の顔の画像領域Ｆ１２がユーザによって選択されて、画面Ｇ１２の保存ボタンＢ１４が押された場合、受付部１６５は、複数の所望領域のうちユーザによって選択された男性の顔の画像領域Ｆ１２を受け付ける。記憶処理部１６６によって男性の顔の画像領域Ｆ１２がストレージ１３に保存され、画面Ｇ１３に表示が遷移する。このように、受付部１６５は、複数の所望領域のうちユーザによって選択された１以上の所望領域を受け付ける。そして、記憶処理部１６６は、ユーザによって選択された１以上の所望領域をストレージ１３に保存させる。これにより、ユーザが選択した所望の画像を活用することができる。

ユーザによって選択された領域は、ストレージ１３に保存され、ユーザは該画像を使用する。たとえば、１枚の集合写真からユーザの自己の顔のみを保存し、サムネイル画像として使用するなどが考えられる。

続いて図５の画面Ｇ１１から画面Ｇ１２に遷移する間に実行されている処理の一例について、説明する。図６は、変形例の処理を説明するための図である。図６において、限定領域抽出部１６２は、対象画像Ｈ２１において、非特許文献２などの技術を用いて、セマンティックセグメンテーションが実行されることによって、画像Ｈ２２に示すように、人物領域Ｒ２１、Ｒ２２が抽出される。

そして、限定領域抽出部１６２によって、人物領域Ｒ２１を含む限定領域Ｈ２３が抽出され、人物領域Ｒ２２を含む限定領域Ｈ２４が抽出される。そして、所望領域出力部１６３によって、顔検出が実行され、所望領域Ｈ２５、所望領域Ｈ２６が出力される。

図７は、変形例の処理の一例を示すフローチャートである。
（ステップＳ１１０）まずプロセッサ１６は、対象画像が選択され所望領域の種類が指定された状態で、抽出開始ボタンが押されたか否か判定する。

（ステップＳ１２０）ステップＳ１１０で、対象画像が選択され所望領の種域類が指定された状態で、抽出開始ボタンが押された場合、限定領域抽出部１６２は、対象画像から限定領域を抽出する。

（ステップＳ１３０）次には、所望領域出力部１６３は、限定領域に対して所望領域を認識する処理を実行して、限定領域から所望領域を抽出して出力する。

（ステップＳ１４０）次にプロセッサ１６は、ユーザによって保存する所望領域が選択された状態で保存ボタンが押されたか否か判定する。

（ステップＳ１５０）ステップＳ１４０で、ユーザによって保存する所望領域が選択された状態で保存ボタンが押された場合、ユーザによって選択された所望領域をストレージ１３に保存させる。以上で本フローチャートの処理を終了する。

さらに複数の「限定領域」に優先度を付けてもよい。優先度を付けるには，前記の「複数人物のうちの１人に限定する方法」を使ってもよい。例えば、より多くの顔のキーポイントが検出された人物の「限定領域」の優先度を高くしてもよい。ユーザが「全身が写っている人物を優先する」ことを指定した場合、全身が写っている人物の「限定領域」の優先度を上げて、全身が写っている人物を優先して抽出されてもよい。この場合、限定領域抽出部１６２は、身体のキーポイントのうち、どのキーポイントが検出されたかによって、身体の写っている割合による優先度を設定してもよい。例えば限定領域抽出部１６２は、顔だけより顔を含む上半身が写っている方が優先度を高くし、顔を含む上半身だけ写っているより全身が写っている方が優先度を高く設定してもよい。

何を優先するかは、ユーザが選択可能であってもよく、取得部１６１は、所望領域の出力において優先する対象（例えば、大きい画像領域）を、ユーザによる優先度の指定に基づき取得可能であってもよい。この場合、限定領域抽出部１６２は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれに優先度を決定する。例えば、手前にいる人物の画像領域を抽出する場合、限定領域抽出部１６２は例えば、複数の限定領域のうち、画像領域が大きいほど、優先度を高くしてもよい。所望領域出力部１６３は、当該優先度に応じて所望領域を出力する。例えば、所望領域出力部１６３は、優先度が基準以上高い限定領域から所望領域を抽出して出力する。これにより、ユーザが優先するもの（例えば、手前にいる人物）の画像領域を取得することができる。

以上の実施例では，領域抽出したい部位が顔であるとしたが，これ以外の部位（例えば手）であってもよい。これにより、例えば人の手を抽出することができる。また、領域抽出したい対象が人であるとしたが、他の動物（例えば、犬または猫）であってもよい。これにより、例えば、犬の顔や猫の顔を抽出することができる。

以上、第１の実施形態に係る情報処理装置１は、対象画像におけるキーポイント位置の推定及び／又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び／又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部１６２と、前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力部１６３と、を備える。

この構成によれば、キーポイントの推定、及び／又はセマンティックセグメンテーションによる対象画像内の画像領域の推定を用いることにより、所望領域を高精度に検出することができる。このため、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することができる。
なお、表示制御部１６４は、限定領域抽出部１６２によって抽出された限定領域が複数ある場合、当該複数の限定領域をユーザが選択可能にディスプレイ１５に表示制御してもよい。受付部１６５は、ユーザによって選択された限定領域を受け付ける受付部と、を備える。所望領域出力部１６３は、前記ユーザによって選択された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する。これにより、ユーザが複数の限定領域の中から１以上の限定領域を選択することで、ユーザによって選択された限定領域から所望領域が出力されるので、所望領域の出力精度を向上させることができる。

＜第２の実施形態＞
続いて第２の実施形態について説明する。第１の実施形態では、ユーザが使用する情報処理装置１によって処理を実行したが、第２の実施形態では、ユーザが使用する端末装置が通信回路網を介して接続されたコンピュータシステムによって実行される。
図８は、第２の実施形態に係る情報処理システムの概略構成図である。図８に示すように、情報処理システムＳは一例として、端末装置３－１、…、３－Ｎ（Ｎは自然数）と、端末装置３－１～３－Ｎそれぞれと通信回路網ＮＷを介して接続されたコンピュータシステム２を備える。コンピュータシステム２は、端末装置３－１、…、３－Ｎからの要求に応じて、処理を実行する。ここではコンピュータシステム２は一例として、一台のサーバであるものとして説明するが、これに限定されるものではなく、クラウドサービスのように複数のコンピュータで構成されてもよい。

端末装置３－１～３－Ｎは、別々のユーザが使用する端末装置であり、例えば、多機能携帯電話（いわゆるスマートフォン）などの携帯電話、タブレット、電子書籍リーダー、ノートパソコンなどのモバイルデバイス、またはデスクトップパソコンなどである。端末装置３－１～３－Ｎは例えば、ＷＥＢブラウザを用いて、コンピュータシステム２から送信された情報を表示してもよいし、端末装置３－１～３－Ｎにインストールされたアプリケーションにおいて、コンピュータシステム２から送信された情報を表示してもよい。

図９は、本実施形態に係るコンピュータシステムの概略構成図である。図９に示すように、コンピュータシステム２は例えば、入力インタフェース２１と、通信モジュール２２と、ストレージ２３と、メモリ２４と、プロセッサ２５とを備える。
入力インタフェース１１は、コンピュータシステム２の管理者の操作を受け付け、受け付けた操作に応じた入力信号をプロセッサ２５へ出力する。
通信モジュール２２は、通信回路網ＮＷに接続されて、通信回路網ＮＷに接続されている端末装置３－１～３－Ｎと通信する。この通信は有線であっても無線であってもよい。

ストレージ２３には、プロセッサ１６が読み出して実行するためのプログラム及び各種のデータが格納されている。
メモリ２４は、データ及びプログラムを一時的に保持する。メモリ１４は、揮発性メモリであり、例えばＲＡＭ（Random Access Memory）である。

プロセッサ２５は、ストレージ２３から第１の実施形態に係るプログラムをメモリ２４にロードし、当該プログラムに含まれる一連の命令を実行することによって、取得部１６１、限定領域抽出部１６２、所望領域出力部１６３、表示制御部１６４、受付部１６５、記憶処理部１６６として機能する。これらの機能は、第１の実施形態と同様であるので、その説明を省略する。

なお、コンピュータシステム２の一部の機能が、端末装置３－１～３－Ｎで実現されてもよい。

なお、上述した実施形態で説明した情報処理装置１の少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、情報処理装置１の少なくとも一部の機能を実現するプログラムをフレキシブルディスクやＣＤ－ＲＯＭ等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。

また、情報処理装置１の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線（無線通信も含む）を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。

さらに、一つまたは複数の情報処理機器によって情報処理装置１を機能させてもよい。複数の情報処理機器を用いる場合、情報処理機器のうちの１つをコンピュータとし、当該コンピュータが所定のプログラムを実行することにより情報処理装置１の少なくとも１つの手段として機能が実現されてもよい。

また、方法の発明においては、全ての工程（ステップ）をコンピュータによって自動制御で実現するようにしてもよい。また、各工程をコンピュータに実施させながら、工程間の進行制御を人の手によって実施するようにしてもよい。また、さらには、全工程のうちの少なくとも一部を人の手によって実施するようにしてもよい。

以上、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１情報処理装置
１１入力インタフェース
１２通信モジュール
１３ストレージ
１４メモリ
１５ディスプレイ
１６プロセッサ
１６１取得部
１６２限定領域抽出部
１６３所望領域出力部
１６４表示制御部
１６５受付部
１６６記憶処理部
１７カメラ
２コンピュータシステム
２１入力インタフェース
２２通信モジュール
２３ストレージ
２４メモリ
２５プロセッサ
３－１～３－Ｎ端末装置
Ｓ情報処理システム

Claims

対象画像におけるキーポイント位置の推定及び／又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び／又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、
前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から前記所望領域を抽出して出力する所望領域出力部と、
を備える情報処理装置。
前記限定領域抽出部は、前記セマンティックセグメンテーションによって前記対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、前記所望領域の種類に対応するカテゴリに分類された領域を略含む領域を前記限定領域として抽出し、
前記所望領域出力部は、前記選択された限定領域において前記所望領域を認識する処理を実行して、少なくとも一つの所望領域を出力する
請求項１に記載の情報処理装置。
前記限定領域抽出部は、前記推定されたキーポイントのうちの１個または複数個を含むように前記限定領域を抽出する
請求項１に記載の情報処理装置。
前記限定領域抽出部は、前記セマンティックセグメンテーションによって前記対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、前記所望領域の種類に対応するカテゴリに分類された領域を略含む領域において、キーポイント位置を推定し、当該推定したキーポイントのうちの１個または複数個を含むように前記限定領域を抽出する
請求項１に記載の情報処理装置。
前記限定領域抽出部によって抽出された限定領域が複数ある場合、当該複数の限定領域をユーザが選択可能にディスプレイに表示制御する表示制御部と、
ユーザによって選択された限定領域を受け付ける受付部と、
を備え、
前記所望領域出力部は、前記ユーザによって選択された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する
請求項１から４のいずれか一項に記載の情報処理装置。
前記所望領域出力部によって出力された所望領域が複数ある場合、前記出力された前記複数の所望領域のうち、少なくとも一つをユーザが選択可能にディスプレイに表示制御する表示制御部を備える
請求項１から５のいずれか一項に記載の情報処理装置。
前記所望領域出力部によって出力された所望領域が複数ある場合、前記複数の所望領域のうちユーザによって選択された１以上の所望領域を受け付ける受付部と、
前記ユーザによって選択された１以上の所望領域をストレージに保存させる記憶処理部と、
を更に備える請求項１から６のいずれか一項に記載の情報処理装置。
前記所望領域の出力において優先する対象を、ユーザによる優先度の指定に基づき取得する取得部を備え、
前記限定領域抽出部は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれの優先度を決定し、
前記所望領域出力部は、当該優先度に応じて前記所望領域を出力する
請求項１から７のいずれか一項に記載の情報処理装置。
対象画像におけるキーポイント位置の推定及び／又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び／又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、
前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力部と、
を備える情報処理システム。
対象画像におけるキーポイント位置の推定及び／又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び／又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出手順と、
前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力手順と、
を有する情報処理方法。
コンピュータに、
対象画像におけるキーポイント位置の推定及び／又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び／又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出手順、
前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力手順、
を実行させるためのプログラム。