JP2022043749A - 情報処理装置、情報処理システム、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理システム、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2022043749A
JP2022043749A JP2020149204A JP2020149204A JP2022043749A JP 2022043749 A JP2022043749 A JP 2022043749A JP 2020149204 A JP2020149204 A JP 2020149204A JP 2020149204 A JP2020149204 A JP 2020149204A JP 2022043749 A JP2022043749 A JP 2022043749A
Authority
JP
Japan
Prior art keywords
area
region
limited
information processing
target image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020149204A
Other languages
English (en)
Other versions
JP6927540B1 (ja
Inventor
啓 成島
Hiroshi Narushima
兼太郎 山口
Kentaro Yamaguchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Celsys Inc
Original Assignee
Celsys Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Celsys Inc filed Critical Celsys Inc
Priority to JP2020149204A priority Critical patent/JP6927540B1/ja
Application granted granted Critical
Publication of JP6927540B1 publication Critical patent/JP6927540B1/ja
Publication of JP2022043749A publication Critical patent/JP2022043749A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

Figure 2022043749000001
【課題】対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減する情報処理装置、情報処理システム、情報処理方法及びプログラムを提供する。
【解決手段】情報処理装置1は、対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置及び/又は当該領域分類の結果を用いて、対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、抽出された限定領域に対して所望領域を認識する処理を実行して、限定領域から所望領域を抽出して出力する所望領域出力部と、を備える。
【選択図】図1

Description

本発明は、情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。
従来から、画像認識技術を用いて、画像から特定の領域を抽出することが行われている。たとえば、人体に対しては、人体検知、顔検出、顔認識、顔方向検知、顔器官検出、年齢、性別、表情、また肩、足元、身長等の人体の部位認識(人体特徴認識)を実行することが提案され、また、物体に対しては、大きさや形状の解析、及び椅子や自動車等の物体カテゴリの検出を行うことが提案されている(例えば、特許文献1参照)。
一方、非特許文献1には、人物が写った写真から、キーポイントを推定して、人物のポーズを推定する技術が開示されている。ここで、キーポイントとは、関節点(肩、肘、手首、腰、膝、足首など)や特徴点(目、鼻、口、耳など)のことである。
また、非特許文献2には、セマンティックセグメンテーションによって、写真から、人物の領域、自転車の領域、動物の領域など各領域を推定することが開示されている。
特開2015-61239号公報
https://arxiv.org/abs/1611.08050 (Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields") https://arxiv.org/abs/1605.06211(Evan Shelhamer, Jonathan Long, Trevor Darrell,"Fully Convolutional Networks for Semantic Segmentation")
従来手法として例えば、人物が写った写真の画像から、顔を検出する手法がある。しかし、対象画像に例えば、顔だけでなく「顔と似て非なる物」(例えば、コンセント)が写っている場合、顔ではない領域が誤って検出されて出力されてしまうことがある。このように、対象画像から、ユーザが所望する所望領域(例えば、人物の顔または犬の顔)とは異なる領域が誤って検出されて出力されてしまうことがある。
本発明は、上記問題に鑑みてなされたものであり、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することを可能とする情報処理装置、情報処理システム、情報処理方法及びプログラムを提供することを目的とする。
本発明の第1の態様に係る情報処理装置は、対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力部と、を備える。
この構成によれば、キーポイントの推定、及び/又はセマンティックセグメンテーションによる対象画像内の画像領域の推定を用いることにより、所望領域を高精度に検出することができる。このため、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することができる。
本発明の第2の態様に係る情報処理装置は、第1の態様に係る情報処理装置であって、前記限定領域抽出部は、前記セマンティックセグメンテーションによって前記対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、前記所望領域の種類に対応するカテゴリに分類された領域を略含む領域を前記限定領域として抽出し、前記所望領域出力部は、前記選択された限定領域において前記所望領域を認識する処理を実行して、少なくとも一つの所望領域を出力する。
この構成によれば、複数のカテゴリの被写体が写った画像であっても、ユーザが所望する所望領域の種類に対応するカテゴリの画像領域だけを抽出することができる。
本発明の第3の態様に係る情報処理装置は、第1の態様に係る情報処理装置であって、前記限定領域抽出部は、前記推定されたキーポイントのうちの1個または複数個を含むように前記限定領域を抽出する。
この構成によれば、限定領域を確実に作ることができる。
本発明の第4の態様に係る情報処理装置は、第1の態様に係る情報処理装置であって、前記限定領域抽出部は、前記セマンティックセグメンテーションによって前記対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、前記所望領域の種類に対応するカテゴリに分類された領域を略含む領域において、キーポイント位置を推定し、当該推定したキーポイントのうちの1個または複数個を含むように前記限定領域を抽出する。
この構成によれば、2段階で抽出することによって、複数のカテゴリの被写体が写った画像であっても、ユーザが所望する所望領域の種類に対応するカテゴリの画像領域(例えば人の画像領域)であって所望領域の種類の画像領域(例えば、人の顔の画像領域)だけを高精度に抽出することができる。
本発明の第5の態様に係る情報処理装置は、第1から4のいずれかの態様に係る情報処理装置であって、前記限定領域抽出部によって抽出された限定領域が複数ある場合、当該複数の限定領域をユーザが選択可能にディスプレイに表示制御する表示制御部と、ユーザによって選択された限定領域を受け付ける受付部と、を備え、前記所望領域出力部は、前記ユーザによって選択された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する。
この構成によればユーザが複数の限定領域の中から1以上の限定領域を選択することで、ユーザによって選択された限定領域から所望領域が出力されるので、所望領域の出力精度を向上させることができる。
本発明の第6の態様に係る情報処理装置は、第1から5のいずれかの態様に係る情報処理装置であって、前記限定領域抽出部は、前記複数の限定領域を抽出し、前記所望領域出力部は、前記選択された複数の限定領域から、複数の所望領域を出力し、前記出力された複数の所望領域のうち、少なくとも一つをユーザが選択可能にディスプレイに表示制御する表示制御部を備える。
この構成によれば、ユーザが複数の所望領域から、1以上の領域を選択することができる。
本発明の第7の態様に係る情報処理装置は、第1から6のいずれかの態様に係る情報処理装置であって、前記所望領域出力部によって出力された所望領域が複数ある場合、前記複数の所望領域のうちユーザによって選択された1以上の所望領域を受け付ける受付部と、前記ユーザによって選択された1以上の所望領域をストレージに保存させる記憶処理部と、を更に備える。
この構成によれば、ユーザが選択した所望の画像を活用することができる。
本発明の第8の態様に係る情報処理装置は、第1から7のいずれかの態様に係る情報処理装置であって、前記所望領域の出力において優先する対象を、ユーザによる優先度の指定に基づき取得する取得部を備え、前記限定領域抽出部は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれの優先度を決定し、前記所望領域出力部は、当該優先度に応じて前記所望領域を出力する。
この構成によれば、ユーザが優先するもの(例えば、手前にいる人物)の画像領域を取得することができる。
本発明の第9の態様に係る情報処理システムは、対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力部と、を備える。
この構成によれば、キーポイントの推定、及び/又はセマンティックセグメンテーションによる対象画像内の画像領域の推定を用いることにより、所望領域を高精度に検出することができる。このため、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することができる。
本発明の第10の態様に係る情報処理方法は、対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出手順と、前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力手順と、を有する。
この構成によれば、キーポイントの推定、及び/又はセマンティックセグメンテーションによる対象画像内の画像領域の推定を用いることにより、所望領域を高精度に検出することができる。このため、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することができる。
本発明の第11の態様に係るプログラムは、対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出手順、前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力手順、を実行させるためのプログラムである。
この構成によれば、キーポイントの推定、及び/又はセマンティックセグメンテーションによる対象画像内の画像領域の推定を用いることにより、所望領域を高精度に検出することができる。このため、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することができる。
本発明の一態様によれば、キーポイントの推定、及び/又はセマンティックセグメンテーションによる対象画像内の画像領域の推定を用いることにより、所望領域を高精度に検出することができる。このため、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することができる。
第1の実施形態に係る情報処理装置の概略構成図である。 情報処理装置に表示される画面遷移の一例である。 実施例1の処理について説明するための図である。 実施例2の処理について説明するための図である。 変形例の画面遷移の一例である。 変形例の処理を説明するための図である。 変形例の処理の一例を示すフローチャートである。 第2の実施形態に係る情報処理システムの概略構成図である。 本実施形態に係るコンピュータシステムの概略構成図である。
以下、各実施形態について、図面を参照しながら説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
本実施形態では、上記の課題だけでなく、対象画像に所望の人物だけでなく他の人物も写っている場合に、所望の人物の所望領域の画像を取得することができるようにすることも課題とする。
第1の実施形態に係る情報処理装置1は、例えば多機能携帯電話(いわゆるスマートフォン)などの携帯電話、タブレット、ノートパソコンなどのモバイルデバイス、またはデスクトップパソコンなどである。本実施形態では、一例として、多機能携帯電話であるものとして説明する。
図1は、第1の実施形態に係る情報処理装置の概略構成図である。図1に示すように、情報処理装置1は例えば、入力インタフェース11と、通信モジュール12と、ストレージ13と、メモリ14と、ディスプレイ15と、プロセッサ16と、カメラ17とを備える。
入力インタフェース11は、ユーザの操作を受け付け、受け付けた操作に応じた入力信号をプロセッサ16へ出力する。本実施形態では入力インタフェース11は一例としてタッチパネルである。
通信モジュール12は、通信回路網に接続されて、通信回路網に接続されている他のコンピュータと通信する。この通信は有線であっても無線であってもよい。
ストレージ13には、プロセッサ16が読み出して実行するためのアプリケーションのプログラム及び各種のデータが格納されている。このアプリケーションは例えば、サーバもしくはクラウド経由でダウンロードされてインストールされたものである。
メモリ14は、データ及びプログラムを一時的に保持する。メモリ14は、揮発性メモリであり、例えばRAM(Random Access Memory)である。
ディスプレイ15は、プロセッサ16の指令に従って、情報を表示する。
プロセッサ16は、ストレージ13から第1の実施形態に係るアプリケーションのプログラムをメモリ14にロードし、当該プログラムに含まれる一連の命令を実行することによって、取得部161、限定領域抽出部162、所望領域出力部163、表示制御部164、受付部165、記憶処理部166として機能する。各部の処理の詳細については後述する。
カメラ17は、例えばディスプレイ15側に設けられた背面カメラであり、被写体を撮像可能である。なお、情報処理装置1は、これに加えてまたはこれに替えて、ディスプレイ15側に設けられた前面カメラを備えてもよい。
図2は、情報処理装置に表示される画面遷移の一例である。図2の画面G1、G2は、例えば、アプリケーションを立ち上げて表示される画面である。画面G1では、対象画像がユーザによって選択されて表示されている画面の一例である。画面G1には、対象画像を選択するためのファイル選択用ボタンB1と、ユーザが抽出したい所望領域の種類を入力するための入力ボックスB2と、所望領域抽出の開始を指示するための抽出開始ボタンB3と、対象画像F1が表示されている。ここでは、対象画像F1として、二人の男性が写った画像が表示されている。入力ボックスB2ではなく、セレクトボックスや、複数のタグからの選択など、選択式であってもよい。ここでは所望領域は例えば、ユーザが抽出を所望する種類(例えば、人の顔)の画像領域である。なお、所望領域の種類は一例としてユーザが設定するものとして説明するが、これに限らず、所望領域の種類は予め設定されていてもよく、その場合、所望領域は例えば、予め所望する種類(例えば、人の顔)が設定された画像領域である。例えば情報処理装置が、顔検出専用の装置である場合、所望領域の種類は、人の顔に予め設定されていてもよい。
例えば、ユーザによって「何を見つけますか?」(抽出したい所望領域の種類)に対する回答として「人の顔」が入力され、抽出開始ボタンB3が押された場合、処理が実行されて、画面G2に表示が遷移する。画面G2では例えば、「見つかった領域」(所望領域)として、二人の男性のうち一人の男性の顔の画像領域が所望領域として表示される。
続いて図2の画面G1から画面G2に遷移する間に実行されている処理について、説明する。画面G1で抽出開始ボタンB3が押された場合、取得部161は、対象画像内の領域であってユーザが所望する所望領域の種類(図2の例の場合、人の顔)を取得する。なお、予め所望領域の種類が特定の物(例えば、人の顔)に決められている場合には、取得部161はなくてもよい。限定領域抽出部162は、対象画像から次の手法(下記の<実施例1の処理>から<実施例3の処理>の手法)の一つ以上を使って「限定領域」を抽出する。そして所望領域出力部163は、抽出された限定領域に対して前記所望領域を認識する処理(例えば、顔検出)を実行して、当該限定領域から所望領域を抽出して出力する。
<実施例1の処理>
まず、処理の実施例1は、キーポイント推定を使ったものである。実施例1について図3を用いて説明する。図3は、実施例1の処理について説明するための図である。図3において、限定領域抽出部162は、対象画像H1において、非特許文献1などの技術を用いて、キーポイント位置を推定する。画像H2は、推定されたキーポイントの位置が白丸で示されている。このように、キーポイントとして、関節点(肩、肘、手首、腰、膝、足首など)や特徴点(目、鼻、口、耳など)が抽出される。一態様では、限定領域抽出部162によって、顔のキーポイントのバウンディングボックスは、1人の人物について1個設定され、その人物の顔のキーポイント(例えば目、鼻、口、耳のキーポイント)全部を含む1個のバウンディングボックスが設定される。図3の例では、顔のキーポイントのバウンディングボックスH21と、顔のキーポイントのバウンディングボックスH22が示されている。ここでは一例として、顔のキーポイントのバウンディングボックスは、人物の顔のキーポイント全部をちょうど囲うのに必要な大きさの四角い箱(矩形)である。また一態様では、限定領域抽出部162によって、身体のキーポイントに対するバウンディングボックスは、1人の人物について1個設定され、身体のキーポイントに対する関節点(例えば肩、肘、手首、腰、膝、足首のキーポイント)全部を含む1個のバウンディングボックスが設定される。
図3の画像H2のように、検出されたキーポイントが複数人分の場合は、限定領域抽出部162は、以下の方法のうちの1つを使って(あるいは複数方法を併用して)、複数人物のうちの1人分に絞り込む。
(1)より多くの顔のキーポイントが検出された人物を選ぶ。
(2)より多くの身体のキーポイントが検出された人物を選ぶ。
(3)顔のキーポイントのバウンディングボックスが大きい人物を選ぶ。
(4)身体のキーポイントのバウンディングボックスが大きい人物を選ぶ。
図3の例では、限定領域抽出部162は、上記(1)、(2)の方法では差が付かないので(検出された顔のキーポイントはいずれも6個で同数、検出された身体のキーポイントはいずれも2個で同数)、上記(3)の方法を用いて、顔のキーポイントのバウンディングボックスが大きい人物を選択する。これにより、対象画像に複数の人物が写っている場合に、主たる人物の顔の画像を取得することができる。
続いて、限定領域抽出部162は例えば、1人分のキーポイントから、例えば下記の方法で「限定領域」を決定する。
(1)顔のキーポイントのバウンディングボックスを所定量もしくは所定の割合だけ広げた領域を「限定領域」とする。ここで「所定量もしくは所定の割合」は、具体的には下記のようにしてもよい。
(ア)顔のキーポイントのバウンディングボックスの大きさに対する所定の割合。
(イ)身体のキーポイントのバウンディングボックスの大きさに対する所定の割合。
(ウ)ソース画像の大きさに対する所定の割合。
(エ)所定の画素数。
(2)顔のキーポイントの重心を中心とする所定の大きさの矩形領域を「限定領域」としてもよい。ここで「所定の大きさ」は,具体的には下記のようにしてもよい。
(ア)顔のキーポイントのバウンディングボックスの大きさに対する所定の割合。
(イ)身体のキーポイントのバウンディングボックスの大きさに対する所定の割合。
(ウ)ソース画像の大きさに対する所定の割合。
(エ)所定の画素数。
なお、顔のキーポイントが検出されなかった場合は,近隣の部位(例えば首,肩など)のキーポイントの位置を元に,顔が含まれるであろう「限定領域」を設定してもよい。
図3の例では、限定領域抽出部162は例えば、顔のキーポイントのバウンディングボックスを所定の割合だけ広げた領域を「限定領域」として抽出する。これによって、限定領域H3が抽出される。そして、抽出された限定領域H3に対して、所望領域出力部163によって顔検出が実行されて、所望領域H3が出力される。この顔検出は、公知の方法を用いてもよい。
このように、限定領域抽出部162は、対象画像におけるキーポイント位置を推定し当該推定したキーポイント位置を用いて、前記対象画像から前記所望領域を含む限定領域を抽出する。
<実施例2の処理>
続いて、実施例2の処理は、セマンティックセグメンテーションを使ったものである。実施例2について図4を用いて説明する。図4は、実施例2の処理について説明するための図である。図4において、限定領域抽出部162は、対象画像H1において、非特許文献2などのセマンティックセグメンテーションの技術を用いて、画像領域を分類して、人物領域を「限定領域」として抽出する。
図4では、対象画像H11に対して、限定領域抽出部162によってセマンティックセグメンテーションが実行されることによって、画像H12に示すように、人物領域R11、R12が抽出される。
限定領域抽出部162は、複数の人物領域が抽出された場合、画像の中心により近い人物領域を限定領域として抽出してもよいし、人物領域の大きさが最も大きい人物領域を限定領域として抽出してもよいし、画像の中心により近く且つ人物領域の大きさが最も大きい人物領域を限定領域として抽出してもよい。
図4の場合、例えば、限定領域抽出部162によって、人物領域R11、R12のうち、中心に近い、及び/又はより領域が大きい人物領域R11が限定領域として抽出される。図4の例の場合、限定領域H13は一例として、画像から人物領域R11に対して上及び左右にマージンを付けて抜き出した領域である。なお、これに限らず、限定領域H13は、人物領域R11に対して上及び左右にマージンがなくてもよく、人物領域R11にぴったり外接する矩形領域であってもよい。そして、抽出された限定領域H13に対して、所望領域出力部163によって顔検出が実行されて、所望領域H14が出力される。この顔検出は、公知の方法を用いてもよい。
このように実施例2では、限定領域抽出部162は例えば、セマンティックセグメンテーションによる領域分類を実行し、当該領域分類の結果を用いて、前記対象画像から前記所望領域を含む限定領域を抽出する。
例えば、限定領域抽出部162は、セマンティックセグメンテーションによって対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、ユーザが所望する所望領域の種類(例えば、人の顔)に対応するカテゴリ(例えば、人体)に分類された領域を略含む領域を限定領域として選択してもよい。所望領域出力部163は、当該選択された限定領域において当該所望領域を認識する処理(ここでは顔検出)を実行して、当該限定領域から所望領域(例えば、人の顔の画像領域)を抽出して出力してもよい。
上記について具体例を用いて説明する。例えば、人と犬が写った画像の場合において、ユーザが所望する所望領域の種類が「人の顔」である場合を例に説明する。この場合、限定領域抽出部162は、セマンティックセグメンテーションによって対象画像を複数の画像領域に分け、その中から、犬の画像領域やその他の画像領域を無視して、人の画像領域のみを選択して、限定領域としてもよい。そして所望領域出力部163は、人の画像領域から人の「顔」を認識し、人の「顔」画像領域を、所望領域として出力してもよい。これにより、2段階で抽出することによって、複数のカテゴリの被写体が写った画像であっても、ユーザが所望する所望領域の種類に対応するカテゴリの画像領域(例えば人の画像領域)であって所望領域の種類の画像領域(例えば、人の顔の画像領域)だけを高精度に抽出することができる。
<実施例3の処理>
続いて、実施例3は、セマンティックセグメンテーションとキーポイント推定を使った実施例である。この場合、限定領域抽出部162はまず、対象画像に対してセマンティックセグメンテーションを実行し、人物領域を抽出する。そして限定領域抽出部162は、この人物領域に対して、前記の「キーポイント推定を使った実施例」の手法を実行し、「限定領域」を抽出してもよい。このように、限定領域抽出部162は、セマンティックセグメンテーションによって前記対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、前記所望領域の種類に対応するカテゴリに分類された領域(例えば、人物領域)を略含む領域において、キーポイント位置を推定し、当該推定したキーポイントのうちの1個または複数個を含むように前記限定領域を作る。これにより、キーポイントを推定するときに、人物以外のもの(例えば、コンセント)などを対象とすることを未然に防止できる。
<変形例:限定領域を複数抽出する例>
以上の実施例では「限定領域」を1個(1人分)に絞り込んだが、数個(複数人)のままにしても良い。あるいは、「限定領域」の個数を,所定の個数(または所定の個数以下)に絞り込んでもよい。
続いて変形例について図5及び図6を用いて説明する。図5は、変形例の画面遷移の一例である。図5の画面G11、G12、G13は、例えば、アプリケーションを立ち上げて表示される画面である。画面G11では、対象画像がユーザによって選択されて表示されている画面の一例である。画面G11には、対象画像を選択するためのファイル選択用ボタンB11と、ユーザが抽出したい所望領域の種類を入力するための入力ボックスB12と、所望領域抽出の開始を指示するための抽出開始ボタンB13と、対象画像F11が表示されている。ここでは、対象画像F11として、一人の男性と一人の女性が写った画像が表示されている。入力ボックスB12ではなく、セレクトボックスや、複数のタグからの選択など、選択式であってもよい。
例えば、画面G11において、ユーザによって「抽出したい所望領域」として「人の顔」が入力され、抽出開始ボタンB13が押された場合、処理が実行されて、画面G12が表示される。画面G12では例えば、所望領域として、男性の顔の画像領域F12と女性の顔の画像領域F13の両方が、所望領域として表示される。
この場合の処理として、限定領域抽出部162は、複数の限定領域を抽出する。そして、所望領域出力部163は、選択された複数の限定領域のそれぞれから、所望領域を出力してもよい。表示制御部164は、出力された複数の所望領域のうち、少なくとも一つをユーザが選択可能にディスプレイ15に表示制御してもよい。これにより、ユーザが複数の所望領域から、1以上の領域を選択することができる。
例えば、画面G12において、男性の顔の画像領域F12がユーザによって選択されて、画面G12の保存ボタンB14が押された場合、受付部165は、複数の所望領域のうちユーザによって選択された男性の顔の画像領域F12を受け付ける。記憶処理部166によって男性の顔の画像領域F12がストレージ13に保存され、画面G13に表示が遷移する。このように、受付部165は、複数の所望領域のうちユーザによって選択された1以上の所望領域を受け付ける。そして、記憶処理部166は、ユーザによって選択された1以上の所望領域をストレージ13に保存させる。これにより、ユーザが選択した所望の画像を活用することができる。
ユーザによって選択された領域は、ストレージ13に保存され、ユーザは該画像を使用する。たとえば、1枚の集合写真からユーザの自己の顔のみを保存し、サムネイル画像として使用するなどが考えられる。
続いて図5の画面G11から画面G12に遷移する間に実行されている処理の一例について、説明する。図6は、変形例の処理を説明するための図である。図6において、限定領域抽出部162は、対象画像H21において、非特許文献2などの技術を用いて、セマンティックセグメンテーションが実行されることによって、画像H22に示すように、人物領域R21、R22が抽出される。
そして、限定領域抽出部162によって、人物領域R21を含む限定領域H23が抽出され、人物領域R22を含む限定領域H24が抽出される。そして、所望領域出力部163によって、顔検出が実行され、所望領域H25、所望領域H26が出力される。
図7は、変形例の処理の一例を示すフローチャートである。
(ステップS110)まずプロセッサ16は、対象画像が選択され所望領域の種類が指定された状態で、抽出開始ボタンが押されたか否か判定する。
(ステップS120)ステップS110で、対象画像が選択され所望領の種域類が指定された状態で、抽出開始ボタンが押された場合、限定領域抽出部162は、対象画像から限定領域を抽出する。
(ステップS130)次には、所望領域出力部163は、限定領域に対して所望領域を認識する処理を実行して、限定領域から所望領域を抽出して出力する。
(ステップS140)次にプロセッサ16は、ユーザによって保存する所望領域が選択された状態で保存ボタンが押されたか否か判定する。
(ステップS150)ステップS140で、ユーザによって保存する所望領域が選択された状態で保存ボタンが押された場合、ユーザによって選択された所望領域をストレージ13に保存させる。以上で本フローチャートの処理を終了する。
さらに複数の「限定領域」に優先度を付けてもよい。優先度を付けるには,前記の「複数人物のうちの1人に限定する方法」を使ってもよい。例えば、より多くの顔のキーポイントが検出された人物の「限定領域」の優先度を高くしてもよい。ユーザが「全身が写っている人物を優先する」ことを指定した場合、全身が写っている人物の「限定領域」の優先度を上げて、全身が写っている人物を優先して抽出されてもよい。この場合、限定領域抽出部162は、身体のキーポイントのうち、どのキーポイントが検出されたかによって、身体の写っている割合による優先度を設定してもよい。例えば限定領域抽出部162は、顔だけより顔を含む上半身が写っている方が優先度を高くし、顔を含む上半身だけ写っているより全身が写っている方が優先度を高く設定してもよい。
何を優先するかは、ユーザが選択可能であってもよく、取得部161は、所望領域の出力において優先する対象(例えば、大きい画像領域)を、ユーザによる優先度の指定に基づき取得可能であってもよい。この場合、限定領域抽出部162は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれに優先度を決定する。例えば、手前にいる人物の画像領域を抽出する場合、限定領域抽出部162は例えば、複数の限定領域のうち、画像領域が大きいほど、優先度を高くしてもよい。所望領域出力部163は、当該優先度に応じて所望領域を出力する。例えば、所望領域出力部163は、優先度が基準以上高い限定領域から所望領域を抽出して出力する。これにより、ユーザが優先するもの(例えば、手前にいる人物)の画像領域を取得することができる。
以上の実施例では,領域抽出したい部位が顔であるとしたが,これ以外の部位(例えば手)であってもよい。これにより、例えば人の手を抽出することができる。また、領域抽出したい対象が人であるとしたが、他の動物(例えば、犬または猫)であってもよい。これにより、例えば、犬の顔や猫の顔を抽出することができる。
以上、第1の実施形態に係る情報処理装置1は、対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部162と、前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力部163と、を備える。
この構成によれば、キーポイントの推定、及び/又はセマンティックセグメンテーションによる対象画像内の画像領域の推定を用いることにより、所望領域を高精度に検出することができる。このため、対象画像から、所望領域とは異なる領域が誤って検出される可能性を低減することができる。
なお、表示制御部164は、限定領域抽出部162によって抽出された限定領域が複数ある場合、当該複数の限定領域をユーザが選択可能にディスプレイ15に表示制御してもよい。受付部165は、ユーザによって選択された限定領域を受け付ける受付部と、を備える。所望領域出力部163は、前記ユーザによって選択された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する。これにより、ユーザが複数の限定領域の中から1以上の限定領域を選択することで、ユーザによって選択された限定領域から所望領域が出力されるので、所望領域の出力精度を向上させることができる。
<第2の実施形態>
続いて第2の実施形態について説明する。第1の実施形態では、ユーザが使用する情報処理装置1によって処理を実行したが、第2の実施形態では、ユーザが使用する端末装置が通信回路網を介して接続されたコンピュータシステムによって実行される。
図8は、第2の実施形態に係る情報処理システムの概略構成図である。図8に示すように、情報処理システムSは一例として、端末装置3-1、…、3-N(Nは自然数)と、端末装置3-1~3-Nそれぞれと通信回路網NWを介して接続されたコンピュータシステム2を備える。コンピュータシステム2は、端末装置3-1、…、3-Nからの要求に応じて、処理を実行する。ここではコンピュータシステム2は一例として、一台のサーバであるものとして説明するが、これに限定されるものではなく、クラウドサービスのように複数のコンピュータで構成されてもよい。
端末装置3-1~3-Nは、別々のユーザが使用する端末装置であり、例えば、多機能携帯電話(いわゆるスマートフォン)などの携帯電話、タブレット、電子書籍リーダー、ノートパソコンなどのモバイルデバイス、またはデスクトップパソコンなどである。端末装置3-1~3-Nは例えば、WEBブラウザを用いて、コンピュータシステム2から送信された情報を表示してもよいし、端末装置3-1~3-Nにインストールされたアプリケーションにおいて、コンピュータシステム2から送信された情報を表示してもよい。
図9は、本実施形態に係るコンピュータシステムの概略構成図である。図9に示すように、コンピュータシステム2は例えば、入力インタフェース21と、通信モジュール22と、ストレージ23と、メモリ24と、プロセッサ25とを備える。
入力インタフェース11は、コンピュータシステム2の管理者の操作を受け付け、受け付けた操作に応じた入力信号をプロセッサ25へ出力する。
通信モジュール22は、通信回路網NWに接続されて、通信回路網NWに接続されている端末装置3-1~3-Nと通信する。この通信は有線であっても無線であってもよい。
ストレージ23には、プロセッサ16が読み出して実行するためのプログラム及び各種のデータが格納されている。
メモリ24は、データ及びプログラムを一時的に保持する。メモリ14は、揮発性メモリであり、例えばRAM(Random Access Memory)である。
プロセッサ25は、ストレージ23から第1の実施形態に係るプログラムをメモリ24にロードし、当該プログラムに含まれる一連の命令を実行することによって、取得部161、限定領域抽出部162、所望領域出力部163、表示制御部164、受付部165、記憶処理部166として機能する。これらの機能は、第1の実施形態と同様であるので、その説明を省略する。
なお、コンピュータシステム2の一部の機能が、端末装置3-1~3-Nで実現されてもよい。
なお、上述した実施形態で説明した情報処理装置1の少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、情報処理装置1の少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD-ROM等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。
また、情報処理装置1の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線(無線通信も含む)を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。
さらに、一つまたは複数の情報処理機器によって情報処理装置1を機能させてもよい。複数の情報処理機器を用いる場合、情報処理機器のうちの1つをコンピュータとし、当該コンピュータが所定のプログラムを実行することにより情報処理装置1の少なくとも1つの手段として機能が実現されてもよい。
また、方法の発明においては、全ての工程(ステップ)をコンピュータによって自動制御で実現するようにしてもよい。また、各工程をコンピュータに実施させながら、工程間の進行制御を人の手によって実施するようにしてもよい。また、さらには、全工程のうちの少なくとも一部を人の手によって実施するようにしてもよい。
以上、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
1 情報処理装置
11 入力インタフェース
12 通信モジュール
13 ストレージ
14 メモリ
15 ディスプレイ
16 プロセッサ
161 取得部
162 限定領域抽出部
163 所望領域出力部
164 表示制御部
165 受付部
166 記憶処理部
17 カメラ
2 コンピュータシステム
21 入力インタフェース
22 通信モジュール
23 ストレージ
24 メモリ
25 プロセッサ
3-1~3-N 端末装置
S 情報処理システム

Claims (11)

  1. 対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、
    前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から前記所望領域を抽出して出力する所望領域出力部と、
    を備える情報処理装置。
  2. 前記限定領域抽出部は、前記セマンティックセグメンテーションによって前記対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、前記所望領域の種類に対応するカテゴリに分類された領域を略含む領域を前記限定領域として抽出し、
    前記所望領域出力部は、前記選択された限定領域において前記所望領域を認識する処理を実行して、少なくとも一つの所望領域を出力する
    請求項1に記載の情報処理装置。
  3. 前記限定領域抽出部は、前記推定されたキーポイントのうちの1個または複数個を含むように前記限定領域を抽出する
    請求項1に記載の情報処理装置。
  4. 前記限定領域抽出部は、前記セマンティックセグメンテーションによって前記対象画像を複数の領域に分け、当該領域毎に当該領域が表すカテゴリに分類し、前記所望領域の種類に対応するカテゴリに分類された領域を略含む領域において、キーポイント位置を推定し、当該推定したキーポイントのうちの1個または複数個を含むように前記限定領域を抽出する
    請求項1に記載の情報処理装置。
  5. 前記限定領域抽出部によって抽出された限定領域が複数ある場合、当該複数の限定領域をユーザが選択可能にディスプレイに表示制御する表示制御部と、
    ユーザによって選択された限定領域を受け付ける受付部と、
    を備え、
    前記所望領域出力部は、前記ユーザによって選択された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する
    請求項1から4のいずれか一項に記載の情報処理装置。
  6. 前記所望領域出力部によって出力された所望領域が複数ある場合、前記出力された前記複数の所望領域のうち、少なくとも一つをユーザが選択可能にディスプレイに表示制御する表示制御部を備える
    請求項1から5のいずれか一項に記載の情報処理装置。
  7. 前記所望領域出力部によって出力された所望領域が複数ある場合、前記複数の所望領域のうちユーザによって選択された1以上の所望領域を受け付ける受付部と、
    前記ユーザによって選択された1以上の所望領域をストレージに保存させる記憶処理部と、
    を更に備える請求項1から6のいずれか一項に記載の情報処理装置。
  8. 前記所望領域の出力において優先する対象を、ユーザによる優先度の指定に基づき取得する取得部を備え、
    前記限定領域抽出部は、複数の限定領域を抽出し、当該優先する対象に応じて、複数の限定領域それぞれの優先度を決定し、
    前記所望領域出力部は、当該優先度に応じて前記所望領域を出力する
    請求項1から7のいずれか一項に記載の情報処理装置。
  9. 対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出部と、
    前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力部と、
    を備える情報処理システム。
  10. 対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出手順と、
    前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力手順と、
    を有する情報処理方法。
  11. コンピュータに、
    対象画像におけるキーポイント位置の推定及び/又はセマンティックセグメンテーションによる領域分類を実行し、当該推定したキーポイント位置、及び/又は当該領域分類の結果を用いて、前記対象画像から所望領域を含む限定領域を抽出する限定領域抽出手順、
    前記抽出された限定領域に対して前記所望領域を認識する処理を実行して、前記限定領域から所望領域を抽出して出力する所望領域出力手順、
    を実行させるためのプログラム。
JP2020149204A 2020-09-04 2020-09-04 情報処理装置、情報処理システム、情報処理方法及びプログラム Active JP6927540B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020149204A JP6927540B1 (ja) 2020-09-04 2020-09-04 情報処理装置、情報処理システム、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020149204A JP6927540B1 (ja) 2020-09-04 2020-09-04 情報処理装置、情報処理システム、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP6927540B1 JP6927540B1 (ja) 2021-09-01
JP2022043749A true JP2022043749A (ja) 2022-03-16

Family

ID=77456265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020149204A Active JP6927540B1 (ja) 2020-09-04 2020-09-04 情報処理装置、情報処理システム、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6927540B1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004259215A (ja) * 2003-02-27 2004-09-16 Toshiba Corp 顔検出システムとその方法
JP2007081732A (ja) * 2005-09-13 2007-03-29 Canon Inc 撮像装置
JP2014168149A (ja) * 2013-02-28 2014-09-11 Casio Comput Co Ltd 撮像装置、及び撮像処理方法、プログラム
JP2018124973A (ja) * 2017-01-27 2018-08-09 株式会社デンソーアイティーラボラトリ 物体検出システム、物体検出装置、物体検出プログラム、及び物体検出方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004259215A (ja) * 2003-02-27 2004-09-16 Toshiba Corp 顔検出システムとその方法
JP2007081732A (ja) * 2005-09-13 2007-03-29 Canon Inc 撮像装置
JP2014168149A (ja) * 2013-02-28 2014-09-11 Casio Comput Co Ltd 撮像装置、及び撮像処理方法、プログラム
JP2018124973A (ja) * 2017-01-27 2018-08-09 株式会社デンソーアイティーラボラトリ 物体検出システム、物体検出装置、物体検出プログラム、及び物体検出方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
飯田 紗也香,外4名: "帝国会議会議録におけるsemantic segmentationを用いたレイアウト解析", 情報処理学会 研究報告 数理モデル化と問題解決(MPS) 2019−MPS−124 [ONLINE], JPN6021004198, 2019, JP, ISSN: 0004442532 *

Also Published As

Publication number Publication date
JP6927540B1 (ja) 2021-09-01

Similar Documents

Publication Publication Date Title
US10616475B2 (en) Photo-taking prompting method and apparatus, an apparatus and non-volatile computer storage medium
US8938100B2 (en) Image recomposition from face detection and facial features
CN110517185B (zh) 图像处理方法、装置、电子设备及存储介质
KR101605983B1 (ko) 얼굴 검출을 이용한 이미지 재구성
KR20190028349A (ko) 이미지 내 휴먼 분리를 위한 전자 장치 및 방법
US8811747B2 (en) Image recomposition from face detection and facial features
US20130108168A1 (en) Image Recomposition From Face Detection And Facial Features
US20130108164A1 (en) Image Recomposition From Face Detection And Facial Features
WO2020244074A1 (zh) 表情交互方法、装置、计算机设备及可读存储介质
US20130108119A1 (en) Image Recomposition From Face Detection And Facial Features
CN105430269B (zh) 一种应用于移动终端的拍照方法及装置
US20130108171A1 (en) Image Recomposition From Face Detection And Facial Features
WO2021190625A1 (zh) 拍摄方法和设备
US20130108170A1 (en) Image Recomposition From Face Detection And Facial Features
CN111739027A (zh) 一种图像处理方法、装置、设备及可读存储介质
CN106815803B (zh) 图片的处理方法及装置
WO2022017006A1 (zh) 视频处理方法、装置、终端设备及计算机可读存储介质
CN112330533A (zh) 混血人脸图像生成方法、模型训练方法、装置和设备
WO2023197648A1 (zh) 截图处理方法及装置、电子设备和计算机可读介质
US9025835B2 (en) Image recomposition from face detection and facial features
US11468571B2 (en) Apparatus and method for generating image
WO2022073516A1 (zh) 生成图像的方法、装置、电子设备及介质
CN115937033A (zh) 图像生成方法、装置及电子设备
JP2019067163A (ja) 画像抽出装置,画像抽出方法および画像抽出プログラムならびにそのプログラムを格納した記録媒体
WO2016082470A1 (zh) 一种图片处理方法、装置及计算机存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200904

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210112

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210727

R150 Certificate of patent or registration of utility model

Ref document number: 6927540

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250