JP6120169B2

JP6120169B2 - 画像編集装置

Info

Publication number: JP6120169B2
Application number: JP2013152203A
Authority: JP
Inventors: 宜史河口
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2012-07-25
Filing date: 2013-07-23
Publication date: 2017-04-26
Anticipated expiration: 2033-07-23
Also published as: US9235914B2; US20140029804A1; JP2014042234A

Description

本開示は、画像に対して、所定の画像処理を施す画像編集装置に関する。

これまで、個人的に撮影した静止画像や動画像は、撮影者自身とその家族や友人などの限られた人にのみ閲覧されることが通常であった。しかし、デジタルカメラやスマートフォンが普及し、ブログやＳＮＳ等のネットワークによる情報共有サービスが浸透するにつれて、不特定多数の人間に対して、個人が撮影した静止画像や動画像を公開する機会が増し、プライバシーや肖像権に関する意識が高まりつつある。

プライバシーや肖像権を保護する装置として、特許文献１に開示されたような、撮影画像から所定の被写体を認識し、認識した被写体に対してモザイク等の特殊効果を施す画像処理装置が知られている。

特開２０００−２３２６０９号公報

デジタルカメラやスマートフォンで撮影した動画像を、ブログやＳＮＳ等のネットワーク上の不特定多数の人に対して公開する場合、プライバシーや肖像権を保護しつつも、オリジナル画像の品質、ディテールを損なうことなく、必要最低限の画像処理を簡単に行えることが望ましい。

本開示は、ブログやＳＮＳ等のネットワーク上の不特定多数の人に対して公開される場合に、オリジナル画像の品質、ディテールを損なうことなく、簡単にプライバシーや肖像権を保護することを可能となる動画像を編集する画像編集装置を提供することを目的とする。

本開示の画像編集装置は、動画ストリームを入力する入力部と、入力した動画ストリームを構成する少なくとも１つ以上のフレームから、特定の被写体を抽出する抽出部と、入力した動画ストリームを構成するフレームに含まれる特定の被写体に対してマスク処理を施す画像処理部と、を備える。画像処理部は、特定の被写体に対して、動画ストリームの出力解像度に少なくとも基づく所定の出力条件に従ってマスク処理を施すか否かを判定し、判定結果に基づいて当該被写体に対してマスク処理を施す。

本開示によれば、動画像をブログやＳＮＳ等のネットワーク上の不特定多数の人に対して画像を公開する動画像を編集する場合に、出力する動画像の解像度に応じて必要最低限の特殊効果処理（マスキング処理）を行う。このため、オリジナル画像の品質、ディテールを過度に損なうことなく、プライバシーや肖像権を保護することができる。

本開示の実施形態の画像編集装置の基本構成を示す図実施の形態にかかるＰＣの構成図実施の形態にかかる変換処理部の構成図実施の形態にかかる多重化処理のイメージ図実施の形態にかかる液晶ディスプレイの選択画面のイメージ図実施の形態にかかる液晶ディスプレイの設定画面のイメージ図実施の形態にかかる液晶ディスプレイのプレビュー画面のイメージ図実施の形態にかかるマスクテーブルの構造の一例を示した図実施の形態にかかるマスクシーンの抽出を説明するための図実施の形態にかかるマスクテーブルの作成のフローチャート実施の形態にかかるマスクテーブルを作成する詳細動作のフローチャート実施の形態にかかるマスクシーン追記の詳細動作のフローチャート実施の形態にかかるマスクシーンをマスクオブジェクトとして追記する例を説明した図実施の形態にかかる特殊効果の合成処理のフローチャート実施の形態にかかる判定条件による判定処理を説明するための図出力画像における、出力解像度の違いによる特殊効果の適用状況の違いを説明するための図出力画像における、出力画像における被写体サイズに基づく特殊効果の適用状況の違いを説明するための図

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、発明者（ら）は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。

〔実施の形態１〕
実施の形態１にかかる画像編集装置は、入力ビデオストリームに含まれる被写体に対して、プライバシーや肖像権を保護するために、ぼかし処理等のマスク処理（特殊効果）を施すことができる。画像編集装置は、マスク処理の対象物（人物全体、人物の顔、車全体、ナンバープレートなど）にマスク処理を施すか否かを、出力する動画像の解像度や出力する動画像のサイズに応じて決定する。そして、画像編集装置は、マスク処理を施すことを決定した対象物に対してマスク処理を施すための画像を、元の画像に合成する。

具体的には、１）画像編集装置は、入力ビデオストリーム全体をスキャンして、マスク処理の対象に関する所定の条件を満たす対象を抽出し、抽出結果に基づきマスクテーブルを生成する。その後、２）画像編集装置は、出力する動画像の解像度等に基づき、マスクテーブルで管理された所定の条件を満たす対象物の中からマスキング処理を施す対象を決定し、当該対象のみに対してマスキング処理を実施する。

このような構成により、マスク処理の対象に関する所定の条件を満たす全ての対象物に対してマスキング処理を施すのではなく、出力する動画像の解像度等を考慮して決定した一部の対象物のみに対して、実際にマスク処理を施す。よって、出力する動画像の解像度に応じて決定した必要最低限の対象物に対してのみ、画像処理（マスク処理）を行うことが可能となり、オリジナル画像の品質、ディテールを損なうことなく、プライバシーや肖像権を保護することができる。

以下の説明において、マスク処理を施す対象物について、ある時刻における当該対象物の中心座標や、幅、高さ、特徴量等の情報を記述した情報単位を、「マスクシーン」と呼ぶ。

また、マスク処理を施す対象物について、当該対象物が入力ビデオストリーム中に連続して登場する時間単位（時間範囲）における、当該対象物の中心座標や、幅、高さ、特徴量等の情報を記述した情報単位を「マスクオブジェクト」と呼ぶ。

すなわち、マスク処理を施す対象物について、ある連続した時間範囲（時間単位）内のマスクシーンの集合体がマスクオブジェクトである。そのため、マスクオブジェクトなる実態が最初から存在するわけではなく、マスクシーンを集合させた結果、マスクオブジェクトと定義した情報単位が生成される。しかしながら、以下では、説明の便宜上、マスクオブジェクトにマスクシーンを追記するとして表現する。

以下、実施の形態１を説明する。

〔１−１．全体構成〕
具体的な実施形態を説明する前に、まず、実施形態における画像編集装置を用いたシステムの全体構成を説明する。

図１は、実施形態による画像編集装置の基本構成を示すブロック図である。画像編集装置１０は、入力装置２０および表示装置３０に電気的に接続される。ここで、「電気的に接続される」とは、銅線や光ファイバのような有線で接続される場合のみならず、電磁波を介して情報が伝送されるような無線で接続される場合も含む。画像編集装置１０は、典型的にはパーソナルコンピュータ（以下「ＰＣ」という）や携帯情報端末といったプロセッサを備えた電子機器である。画像編集装置１０は、データセンター等に設置されたサーバーであってもよい。その場合、入力装置２０および表示装置３０は、遠隔地のユーザーが操作する電子機器に内蔵または接続された入出力デバイスであってもよい。

画像編集装置１０は、入力動画ファイル全体に対して、「対象条件」のマッチングを行う。「対象条件」とは、人物の全体、人物の顔、車の全体、車のナンバープレート等のプライバシーや肖像権を有する対象物（マスクオブジェクトの候補）を指定する情報である。そして、画像編集装置１０は、「対象条件」に一致した対象物について、時間的に連続する一連の中心座標や、幅、高さ等の領域情報を、マスクテーブルで管理する。すなわち、マスクテーブルは、対象条件として指定された被写体が動画像内で所定の時間間隔で連続的に存在している範囲を表す。

画像編集装置１０は、「出力条件」に該当するマスクオブジェクトに対して、「特殊効果設定」で指定した特殊効果を施すため、入力画像に特殊効果を合成した動画像を生成し、動画ファイルとして出力する機能を備えている。「出力条件」は、出力解像度条件と、出力領域とを含む。出力解像度条件は、ネットワーク上の不特定多数の人に対して公開するためにサーバーで利用される動画ファイルの解像度や、アップロード時に圧縮符号化する場合の動画ファイルの解像度に関して、被写体に対してマスクを行なうか否かの判断を行うための解像度の条件である。出力領域は、対象物の大きさに関する、マスクを行なうか否かの判断基準であり、マスクオブジェクトの幅、高さ、面積で示される。マスクオブジェクトの幅、高さ、面積は、例えば、表示装置に対象物が表示されたときにユーザーがその対象物を確認できるか否かということに基づき決定される。

本実施の形態では、出力解像度条件および出力領域を、それぞれ独立して、ユーザーが任意に設定できる場合を説明するが、これに限定されない。すなわち、ユーザーが設定した出力解像度のみに基づいて決定される出力領域を用いるようにしてもよい。また、人物やナンバープレート等の対象物の種類に応じて、出力解像度条件および出力領域が予め定義されていてもよい。

「特殊効果設定」は、マスクオブジェクトに対して「出力条件」に従い、「ぼかし処理」「モザイク処理」「他の画像の合成処理」「ハイライト枠の合成処理」等、マスク処理の種類を指定するための設定である。マスク処理とは、特定の被写体を、当該被写体であると認識できない程度に画像加工等を施す処理である。「ぼかし処理」や「モザイク処理」以外に，レベル情報を変調して、ペイント，ネガ，モノカラー，モアレ，ソラリゼーション，デフォーカス，エンハンス、等の効果を利用してもよい。

本実施の形態では、特殊効果をユーザーが任意に設定できる場合を説明するが、特殊効果は自動で設定されてもよい。すなわち、人物やナンバープレート等の対象物に応じて、特殊効果が予め定義されていてもよいし、当該対象物のフレーム中の占有率に応じて、特殊効果が予め定義されていてもよい。

画像編集装置１０は、入力装置２０を介して処理対象となる動画ファイルを受け付ける入力インターフェース１１を備える。さらに、画像編集装置１０は、入力された情報に基づいてマスクテーブルを生成し、さらに、マスクテーブルに基づき、動画ファイルの特定の領域に特殊効果を合成した動画像を生成する画像編集部１２を備えている。画像編集装置１０によるマスクテーブルの生成動作の詳細は後述する。

入力インターフェース１１は、入力装置２０から入力される情報を受け付けるデバイスであり、例えば、ＵＳＢポート、通信ポートであり得る。また、入力装置２０がＨＤＤのようなデバイスの場合、入力インターフェース１１は、入力装置２０と画像編集部１２との間の通信を可能にする通信インターフェースやバスであり得る。入力インターフェース１１に入力された情報は画像編集部１２に転送される。あるいは、不図示のメモリに記録されてもよい。入力インターフェース１１には、編集対象としてユーザーなどによって指定された動画ファイル、対象条件、出力条件、特殊効果設定が入力される。

画像編集部１２は、指定された動画ファイルと、対象条件、出力条件、特殊効果設定から特定の個所に特殊効果を合成した動画像（マスク処理を施した動画像）を生成する。生成した動画像は、例えば、不図示のメモリに保存され、表示装置３０に表示され得る。

画像編集部１２は、ユーザーが指定した出力条件に応じて、最適にマスク処理を施した動画像を表示装置３０に表示する。

以上の構成により、ユーザーが指定した動画ファイルに対して、オリジナル画像の品質、ディテールを損なうことなく、出力する解像度に必要最低限のマスクの画像処理を行い、簡単にプライバシーや肖像権を保護することができる。

〔１−２．画像編集装置の構成〕
実施の形態１による画像編集装置１０を説明する。本実施の形態では、画像編集装置１０は、パーソナルコンピュータ（以下、「ＰＣ」と称する）１００により実現される。画像編集装置１０を実現するＰＣは、ユーザーが指定した動画ファイルに対して、オリジナル画像の品質、ディテールを損なうことなく、出力する解像度に必要最低限のマスクの画像処理を行い、簡単にプライバシーや肖像権を保護することができる。

［１−２−１．ＰＣ（画像編集装置）の構成］
画像編集装置１０を実現するＰＣ１００の構成について図２を用いて説明する。図２は、ＰＣ１００の全体構成を示すブロック図である。

ＰＣ１００は、中央演算処理装置（ＣＰＵ）１０１、システム管理メモリ１０２、ワークメモリ１０３、ハードディスクドライブ（ＨＤＤ）１０４、ＵＳＢコネクタ１０７、グラフィックコントローラ１０８、液晶ディスプレイ１０９、カードスロット１１２を備えている。ＵＳＢコネクタ１０７には、マウス１０５およびキーボード１０６が接続され得る。また、ＵＳＢコネクタ１０７には、動画データを格納した又は動画データを出力可能なデバイスが接続されてもよい。ＵＳＢコネクタ１０７は、図１における入力インターフェース１１に相当する。ＰＣ１００は、図示されていない要素をさらに含み得るが、それらの要素は本発明の本質とは関係がないため、説明を省略する。本実施形態では、ＰＣ１００として液晶ディスプレイ１０９を備えたノートＰＣを想定しているが、デスクトップＰＣであってもよいし、タブレットＰＣでもよい。ＣＰＵ１０１が画像編集部１２の機能を実現する。

ＣＰＵ１０１は、ＰＣ１００の処理を実行する処理部である。ＣＰＵ１０１は、システム管理メモリ１０２、ワークメモリ１０３、ＨＤＤ１０４、グラフィックコントローラ１０８、ＵＳＢコネクタ１０７に電気的に接続されている。ＣＰＵ１０１は、グラフィックコントローラ１０８を介して、液晶ディスプレイ１０９に表示される画面（画像）を変更することができる。また、ＣＰＵ１０１は、ＵＳＢコネクタ１０７を介して、マウス１０５やキーボード１０６を用いたユーザーによる操作情報を受け付ける。また、ＣＰＵ１０１は、ＰＣ１００の各部への電力供給等、システムの動作を全体的に制御している。

システム管理メモリ１０２は、オペレーティングシステム（ＯＳ）などを保持する。また、システム管理メモリ１０２には、システム時刻などが格納されている。システム時刻は、ＣＰＵ１０１がＯＳのプログラムを動作させることにより更新される。

ワークメモリ１０３は、ＣＰＵ１０１が各種処理動作を実行するために必要な情報を一時的に格納する。ＣＰＵ１０１は、ユーザーが指定した動画ファイルに対するマスクテーブル１５０を保存する領域として、ワークメモリ１０３を作業スペースとして使用する。ワークメモリ１０３には、ユーザーが指定した動画ファイルの情報、ユーザーが指定した対象条件、出力条件、特殊効果設定、マスクテーブル１５０が格納される。

ＨＤＤ１０４は、大容量記録媒体であり、画像編集ソフト１１０および動画ファイル１１１を格納している。

マウス１０５は、ユーザーが編集操作時に使用するポインティングデバイスである。キーボード１０６は、ユーザーが編集操作時に文字入力などを行うためのキーボードデバイスである。

ユーザーは、マウス１０５およびキーボード１０６を操作することにより、画像編集ソフト１１０により提示される画面上において、動画ファイル１１１の選択、対象条件の指定、出力条件の指定、特殊効果設定の指定、およびプレビュー再生の指定をすることができる。

ＵＳＢコネクタ１０７は、マウス１０５とキーボード１０６とをＰＣ１００に接続するためのコネクタである。

グラフィックコントローラ１０８は、ＣＰＵ１０１によって演算された画面情報を映像化するデバイスであり、画面情報を液晶ディスプレイ１０９に伝える。

液晶ディスプレイ１０９は、グラフィックコントローラ１０８が映像化した画面情報を表示する表示デバイスである。なお、液晶ディスプレイ１０９に限らず、外付けディスプレイに画面情報を表示してもよい。

カードスロット１１２は、メモリカードを装着可能なインターフェースである。ＣＰＵ１０１は、メモリカードに格納されている動画ファイルを読み込むことができる。また、ＣＰＵ１０１は、必要に応じて、メモリカードに格納された動画ファイルを、ＨＤＤ１０４に書き込むことができる。

ＣＰＵ１０１は、ＨＤＤ１０４に格納された画像編集ソフト１１０を、ワークメモリ１０３に読み出して、実行する。ＣＰＵ１０１は、画像編集ソフト１１０のプログラムに従って、以下の処理を実行する。

（１）マウス１０５、キーボード１０６を用いて行われたユーザーの選択操作、指定操作を、ＵＳＢコネクタ１０７を介して受け付ける。
（２）ユーザーにより選択された動画ファイル１１１を読み出す。
（３）ユーザーによる「対象条件」、「出力条件」、「特殊効果設定」の指定を受け付ける。
（４）ユーザーにより指定された「対象条件」に従い、動画ファイルに対するマスクテーブル１５０を作成する。
（５）液晶ディスプレイ１０９でプレビュー表示させるために、マスクテーブル１５０と、ユーザーが指定した「出力条件」および「特殊効果設定」とに従い、動画像の特定領域において、特殊効果を示す画像を元の画像に合成した画像情報（マスク処理を施した動画像）をグラフィックコントローラ１０８に送出する。
（６）ＨＤＤ１０４に合成結果を保存するために、動画ファイルの特定領域に特殊効果を合成した画像情報（マスク処理を施した動画像）を変換処理部１２０に送出する。

動画ファイル１１１は一般に所定のフォーマットで圧縮されている。このため、ＰＣ１００は圧縮された動画ファイルを変換処理部１２０にてデコードする。変換処理部１２０には、特定のフォーマットにエンコードする機能も備えている。

本実施の形態においては、変換処理部１２０は、ＣＰＵ１０１の一処理機能として説明するが、変換処理部１２０はＣＰＵ１０１の外部の機能として実施されてもよい。

［１−２−２．変換処理部の構成］
ＰＣ１００の変換処理部１２０の詳細な構成について図３を用いて説明する。変換処理部１２０は、ＨＤＤ１０４に圧縮符号化され格納された動画ファイル１１１の伸張復号化処理及び圧縮符号化処理を実行する。変換処理部１２０は、伸張復号化処理を実施するため、多重化分離部２０１、圧縮符号化処理を実施するため、ビデオデコーダ２０２、オーディオデコーダ２０３を備える。さらに、変換処理部１２０は、ビデオエンコーダ２０４、オーディオエンコーダ２０５、および多重化部２０６を備える。さらに、変換処理部１２０は、対象条件判定部２０７を有している。さらに、変換処理部１２０は、出力条件判定部２０８、特殊効果部２０９、合成部２１０およびリサイズ部２１１を有している。

多重化分離部２０１は、ＡＶＣＨＤ（登録商標）等のファイル形式で多重化されたＡＶストリームを入力し、入力したＡＶストリームをビデオストリームとオーディオストリームとに分離する。分離されたビデオストリームはビデオデコーダ２０２に、分離したオーディオデータはオーディオデコーダ２０３に送られる。

ビデオデコーダ２０２は、多重化分離部２０１によりＡＶストリームから分離されたビデオストリームの伸張復号化を行う。オーディオデコーダ２０３は、多重化分離部２０１によりＡＶストリームから分離されたオーディオストリームの伸張復号化を行う。ビデオデコーダ２０２およびオーディオデコーダ２０３により伸長復号化された各データは、ワークメモリ１０３に格納される。ワークメモリ１０３に格納されたデータは、画像編集の際、必要に応じて取り出される。

ビデオエンコーダ２０４は、入力したビデオストリームを所定の動画記録フォーマットに従って圧縮符号化を行い、圧縮符号化したビデオストリームは多重化部２０６に送られる。同様に、オーディオエンコーダ２０５は、入力したオーディオストリームを所定の音声記録フォーマットに従って圧縮符号化を行い、圧縮符号化したオーディオストリームは多重化部２０６に送られる。

多重化部２０６は、ビデオエンコーダ２０４から出力されたビデオストリームとオーディオエンコーダ２０５から出力されたオーディオストリームとを多重化して、ＡＶストリームを出力する。多重化部２０６から出力されたＡＶストリームは、ワークメモリ１０３またはＨＤＤ１０４に格納される。

対象条件判定部２０７は、入力した動画像を解析し、設定された対象条件（人物の全体、人物の顔、車の全体、車のナンバープレート等）に従い、画像認識技術にて対象物の特徴から対象物が存在する画像中の領域の判定を行う。対象条件判定部２０７は、対象条件に一致した被写体領域を、マスクオブジェクトとしマスクテーブル１５０に登録する。具体的には、時間的に連続する一連のマスクオブジェクト領域の中心座標、幅、高さがマスクテーブル１５０に登録される。

出力条件判定部２０８は、対象条件判定部２０７が登録したマスクテーブル１５０と、設定された出力条件とから、入力ビデオストリームに対して特殊効果処理が必要か否かの判定を行う。

特殊効果部２０９は、出力条件判定部２０８で特殊効果が必要と判定された映像の領域（マスクオブジェクトの領域）に対して、ユーザーが設定した特殊効果設定に従い特殊効果映像の生成を行う。

合成部２１０は、入力ビデオストリームと、特殊効果部２０９で生成した特殊効果映像（マスク処理が施された動画像領域）との合成処理を行ない、これにより、特殊効果が必要と判定された映像の領域に対して特殊効果処理が適用される。合成部２１０は、特殊効果部２０９からの出力がないフレームに対しては、合成処理を行なわずに、入力ビデオストリームをリサイズ部２１１に出力する。

リサイズ部２１１は、出力解像度条件に従って、合成部２１０で合成処理を施した動画像（合成処理を行なわなかったフレームの場合は、元の入力ビデオストリームの示す動画像）のリサイズ処理を行い、出力ビデオストリームを生成する。生成された出力ビデオストリームは、ビデオエンコーダ２０４に入力され、オーディエンコーダ２０３で符号化され生成されたオーディオストリームと多重化されて、ＡＶストリームとして出力される。

図４は、多重化分離部２０１によりＡＶストリームをビデオストリームとオーディオストリームとに分離する様子、および多重化部２０６によりビデオストリームとオーディオストリームとをＡＶストリームに多重化する様子をそれぞれ示した図である。

ＡＶストリーム３０１は所定単位のデータ（Ｖｋ、Ａｋ）（ｋ＝１，２，・・・，ｎ）に、時間情報等を付加して作成したビデオパックＶとオーディオパックＡとを、同期再生が可能な１つのストリームに多重化したストリームである。ここでは、ビデオ用のＡＶＣＨＤ（登録商標）に互換性のあるストリームを例に説明する。多重化分離部２０１は、多重化されたＡＶストリーム３０１をビデオエレメンタリーストリーム３０２とオーディオエレメンタリーストリーム３０３とに分離するデータ処理を行う。また、多重化部２０６は、ビデオエレメンタリーストリーム３０２とオーディオエレメンタリーストリーム３０３とをＡＶストリーム３０１に多重化するデータ処理を行う。

なお、ストリーム構造は、図４に示すストリーム構造に限定されない。すなわち、非圧縮のストリームであっても、ＣＰＵ１０１がそのビデオ情報を読み出し可能であれば、本開示に適用可能である。

［１−２−３．選択画面の構成］
図５は、液晶ディスプレイ１０９に表示される、動画ファイルの選択画面を示す。この選択画面上で、ユーザによりマスク処理を施す動画ファイルが選択される。図５に示すように、選択画面は、選択エリア４００、設定ボタン４０１、実行ボタン４０２を含む。

選択エリア４００に表示される動画ファイルは、ＨＤＤ１０４に格納された動画ファイルの全てでもよいし、特定のフォルダに格納された動画ファイルのみを選択的に抽出したものでもよい。あるいは、特定のフォルダに格納された動画ファイルの中から、更にユーザーにより選別された動画ファイルでもよい。

設定ボタン４０１は、対象条件、出力条件及び特殊効果設定を設定するための設定画面（図６）を表示するためのボタンである。設定画面（図６）の詳細については、後述する。

ユーザーのマウス１０５の操作により実行ボタン４０２が押下されると、設定画面（図６）上で事前に設定された条件に従い、選択エリア４００で選択された動画ファイルに対して、マスクテーブル１５０の生成処理が実行される。マスクテーブル１５０の生成処理の詳細は後述する。

［１−２−４．設定画面の構成］
液晶ディスプレイ１０９が表示する、対象条件、出力条件及び特殊効果設定を設定するための設定画面の構成について図６を参照しながら説明する。図６に示す設定画面５００は、図５における選択画面における設定ボタン４０１の押下により液晶ディスプレイ１０９に表示される。図６に示すように、設定画面５００は、対象条件５０１の選択メニュー、出力条件５０２の選択メニュー、特殊効果設定５０３の選択メニュー及び閉じるボタン５０４を含む。

対象条件５０１は、プライバシーや肖像権を保護するために特殊効果処理を施す対象物を指定するための条件である。例えば、人物の全体、人物の顔、車の全体、車のナンバープレート等の、対象物の存在領域を判定することが可能な対象物を指定する条件である。対象物の存在領域は、公知の画像認識技術により、対象物の特徴から判定することができる。ユーザーにより指定された対象物は、マスクオブジェクトの候補となる。対象条件５０１の選択メニューにおいて、複数の対象物が選択されてもよい。例えば、図６に示す例では、人物の顔と、ナンバープレートとを、対象物として指定している。なお、本画像編集装置１０においては、ユーザーの家族の顔など、マスクの対象から除外したい対象物を予め登録してくことができる。対象物として人物の顔を指定した場合であっても、除外対象として予め登録されている顔はマスクの対象外とすることができる。

出力条件５０２は、対象条件５０１を満たす対象物に対して、プライバシーや肖像権を保護するための特殊効果処理を施すか否かの判断を行う際の条件（判断基準）である。出力条件５０２は、具体的には、出力する動画像の解像度（出力解像度）と、特殊効果処理を施すための領域（出力領域）の条件（しきい値）とを含む。出力領域の条件は、特殊効果処理を施す対象物の幅、高さや面積等の条件（しきい値）を含む。ユーザーは、出力条件の選択メニューにおいて、出力条件を選択することができる。出力条件は、例えばプルダウンメニュー形式により選択可能に表示してもよい。このとき、アップロード先のサーバにアップロードするときの動画像の解像度を自動指定するようにしてもよい。また、ユーザーが任意の数値を入力するようにしてもよい。

特殊効果設定５０３は、マスクテーブル１５０と出力条件とから特定される映像の領域に施す特殊効果を設定するための情報である。ユーザーは、特殊効果設定の選択メニューにて、マスク対象に施す特殊効果（マスク処理）の種類を択一的に選択することができる。特殊効果設定５０３は、肖像権やプライバシーを保護するために、対象物が映っている領域に映像処理を施すための「ぼかし処理」「モザイク処理」「他の画像の合成処理」等の設定を含む。

閉じるボタン５０４は設定画面５００を閉じるためのボタンである。閉じるボタン５０４が押下されると、設定画面５００の設定内容を確定し、図６に示す設定画面５００から図５に示す選択画面に移行する。

［１−２−５．プレビュー画面の構成］
続いて、液晶ディスプレイ１０９が表示するプレビュー画面について図７を参照しながら説明する。図７に示すプレビュー画面は、図５に示す選択画面における実行ボタン４０２が押下されたときに、液晶ディスプレイ１０９に表示される特殊効果処理の結果をプレビュー表示する。図７に示すように、液晶ディスプレイ１０９に表示されるプレビュー画面６００は、プレビューエリア６０１、タイムラインエリア６０２、タイムラインバー６０３、マスクオブジェクト６０４、マスクシーン領域６０５、プレビューボタン６０６、対象物の画像６０７、ファイル出力ボタン６１０及び終了ボタン６１１を含む。

プレビューエリア６０１は、マスクテーブル１５０と、ユーザーが指定した出力条件５０２と特殊効果設定５０３とに従い、動画像の特定領域に特殊効果を合成した映像のプレビュー表示（再生）する領域である。プレビューエリア６０１により、ユーザーはファイル出力する前に、特殊効果を合成した映像を確認することができる。また、ユーザは必要に応じて特殊効果を修正することが可能である。例えば、予め登録しておいた家族の顔が、認識ミスによりマスク対象とされている場合に、ユーザーは、マスク対象から除外するよう、修正できる。

タイムラインエリア６０２は、動画像の再生位置を時間軸上で確認するためのエリアである。タイムラインエリア６０２には、マスクオブジェクトを示す複数の長方形（ａ、ｂ、ｃ、ｄ、ｅ、・・・）が配列される。マスクオブジェクト６０４の配列順序は時系列順に並ぶ。これらの長方形は、マスクオブジェクトが対象とする被写体が表示される時間の開始から終了までを表す。すなわち、長方形の始端は、マスクオブジェクトが対象とする被写体が表示される開始時間を示し、長方形の終端は、マスクオブジェクトが対象とする被写体が表示される終了時間を示す。それぞれの長方形には、マスク対象となった対象物の画像６０７が表示される。また、図示されてはいないが、該当する対象条件５０１を示すアイコン（例えば、人物の顔を対象物としていることを示すアイコンなど）、該当する出力条件５０２を示すアイコン、または、該当する特殊効果設定５０３を示すアイコン（例えば、ぼかし処理を示すアイコンなど）を合わせて表示してもよい。これにより、ユーザーは、動画ファイル上のどの時間にマスクオブジェクトが存在するかを確認することができ、また、どのマスクオブジェクトが出力条件５０２に該当し、特殊効果設定５０３の対象となっているかを確認することができる。

タイムラインバー６０３は動画ファイル上のある時間位置（時刻）を示すためのバーであり、タイムラインバー６０３で示す時間位置の映像と同期して、プレビューエリア６０１に映像が表示される。

マスクシーン領域６０５は、タイムラインエリア６０２に配置された、タイムラインバー６０３で示す時刻における、マスクオブジェクト６０４に含まれる情報単位（当該対象物の中心座標や、幅、高さ、特徴量等）に基づく領域である。図７では、タイムラインバー６０３の示す時間位置に、２つのマスクオブジェクトｂ、ｃが存在しており、それぞれのマスクオブジェクトｂ、ｃに対応したマスクシーン領域６０５が、プレビューエリア６０１に表示されている。マスクシーン領域６０５は、出力条件と特殊効果設定に従い、特殊効果が施された表示（マスク処理結果の表示）が行われている。なお、出力条件に基づき特殊効果の適用対象外となった領域は、ハイライト枠やアイコンを表示するようにしてもよい。これにより、マスク処理の対象物として認識しているが、出力条件によりマスク処理の対象外となった対象物を、ユーザーは容易に確認することができる。画像編集装置１０において、必要に応じて、出力条件によりマスク処理の対象外となった対象物にマスク処理を施すよう修正できるようにしてもよい。

プレビューボタン６０６は、マウス１０５の操作により選択することができる。プレビューボタン６０６が押下されることにより、出力条件５０２に該当するマスクオブジェクトが示す対象物に対して、特殊効果設定５０３で指定された画像特殊効果が施され、入力画像に特殊効果を合成した動画像が再生される。これにより、ユーザは、特殊効果を施した動画像を確認することができる。

ファイル出力ボタン６１０は、マウス１０５の操作により選択することができる。ファイル出力ボタン６１０が押下されることにより、出力条件５０２に該当するマスクオブジェクトが示す対象物に対して、特殊効果設定５０３で指定された特殊効果が施され、入力画像に特殊効果を合成した動画ファイルが作成される。

ＣＰＵ１０１は、変換処理部１２０における各処理部（多重化分離部２０１、ビデオデコーダ２０２、オーディオデコーダ２０３、出力条件判定部２０８、特殊効果部２０９、合成部２１０、ビデオエンコーダ２０４、オーディオエンコーダ２０５、多重化部２０６）を上述したように動作させることにより、出力条件５０２の内容に従い動画ファイルを作成する。

終了ボタン６１１は、マウス１０５の操作により選択することができる。ユーザーは、終了ボタン６１１を押下することにより画像編集ソフト１１０を終了することができる。

［１−２−６．マスクテーブル］
画像編集装置１０は、入力ビデオストリームの開始位置から終了位置に至るまでの全体に対して、対象条件５０１を満たす対象物の抽出処理を行う。画像編集装置１０は、当該対象物が連続して登場する時間範囲において、所定の時間間隔で当該対象物の情報単位（中心座標、幅、高さ、特徴量など）をマスクテーブル１５０に格納している。以下、マスクテーブル１５０について説明する。

図８Ａは、マスクテーブルの構造例を示す図である。図示されるように、マスクテーブルは、マスクシーンの情報（ＩＤ、ＳＵＢＩＤ、時間、中心座標、幅、高さ、特徴量等）を保持している。

図８Ａの例において、マスクシーンＡは、対象条件５０１に基づき抽出された領域で、対象条件判定部２０７により所定のフレーム間隔（すなわち、所定のサンプリング間隔（ｄｔ））で抽出処理が行なわれる。このように、所定のサンプリング間隔で抽出処理を行うことにより、処理負荷の軽減を図っている。図８Ａでは、所定のサンプリング間隔（ｄｔ）毎に抽出処理を実施しているが、動画像の全フレームに対して抽出処理を行ってもよい。時間ｄｔ毎に抽出処理を行い、同一の特徴量を持つ領域が示す情報単位は、同一のマスクオブジェクトとして管理する。ここで、特徴量間の差異が所定の許容範囲内にある場合、両者の特徴量は同一の特徴量であると判断する。同一のマスクオブジェクトに属するマスクシーンに対して、同一のＩＤ（図８Ａでは、Ａ）を付与し、時間ｄｔ毎の抽出処理において、新たにマスクシーンが生成される度に、ＳＵＢＩＤに連番を付与する。

ただし、同じマスクシーンが新たに抽出された場合でも、マスクシーンが示す被写体領域（中心座標、幅、高さ）が、所定の基準（以下「追記判定基準」という）以上変化していない場合は、マスクテーブル１５０へのマスクシーンの追記を行わない。すなわち、抽出されたマスクシーンが前回のものよりも大きく変化した場合にのみ、マスクシーンのマスクテーブル１５０への追記を行っている。これにより、マスクテーブル１５０のサイズの肥大化を防止するとともに、追記処理の低減を図っている。以下、追記判定基準について説明する。

ここで時刻ｔにおける被写体領域の中心座標（X(ｔ), Y(ｔ)）、幅W(ｔ)、高さH(ｔ)のそれぞれの変化量を下記のように定義する。
ｄX = X(ｔ) − X(ｔ−ｄｔ)
ｄY = Y(ｔ) − Y(ｔ−ｄｔ)
ｄW = W(ｔ) −W(ｔ−ｄｔ)
ｄH = H(ｔ) − H(ｔ−ｄｔ)

追記判定基準は一例として以下のように定義する。
（１）サンプリング間隔（ｄｔ）経過後の中心座標の変化量ｄX、ｄYの何れかが基準値（しきい値）以上の値である。
（２）サンプリング間隔（ｄｔ）経過後の幅の変化量ｄW、高さの変化量ｄHの何れかが基準値（しきい値）以上の値である。

すなわち、上記（１）（２）のいずれかの条件を満たす場合、追記判定基準を満たすとする。

なお、本開示はこれに限定されず、追記判定基準を以下のように定義してもよい。
（１’）サンプリング間隔（ｄｔ）経過後の中心座標の変化量ｄX、ｄYのどちらも基準値以上の値である。
（２’）サンプリング間隔（ｄｔ）経過後の幅の変化量ｄW、高さの変化量ｄHのどちらも基準値以上の値である。

このときは、上記（１’）（２’）の条件の少なくとも一方を満たす場合に、追記判定基準を満たすとすればよい。

具体的なマスクシーンの追記処理について、図８Ａ、図８Ｂを用いて説明を行う。追記判定基準は、上記（１）（２）のいずれかの条件を満たすこととする。

図８Ｂの（１）は、時刻ｔ1の時点で、マスクシーン抽出処理により、中心座標（5,5）、幅（10）、高さ（10）の領域に特徴量ＡＡＡのマスクシーンＡ１が初めて出現したと判定された状態を示す。この場合、X(ｔ１−ｄｔ)、Y(ｔ１−ｄｔ)、W(ｔ１−ｄｔ)、H(ｔ１−ｄｔ)は、いずれも０である。従って、ｄX=X(ｔ１)、ｄY=Y(ｔ１)、ｄW=W(ｔ１)、ｄH=H(ｔ１)となる。このとき、上記（１）（２）の追記判定基準に従い、ｄX、ｄY、ｄW、ｄHのいずれかが追記判定基準を満たすとする。このとき、ＣＰＵ１０１（変換処理部１２０の対象条件判定部２０７）は、マスクシーンＡ１をマスクテーブル１５０に追記する。

図８Ｂの（２）は、時刻ｔ2の時点で、マスクシーン抽出処理により、中心座標（30,20）、幅（30）、高さ（30）の位置に特徴量ＡＡＡ’のマスクシーンＡ２を抽出した状態を示す。この場合、マスクシーンＡ１の被写体がマスクシーンＡ２の位置に移動したと考えられる。このとき、上記（１）（２）の条件に従い、下記ｄX、ｄY、ｄW、ｄHのいずれかが追記判定基準を満たすとする。よって、ＣＰＵ１０１は、追記判定基準に従いマスクシーンＡ２をマスクテーブル１５０に追記する。
ｄX ＝ X(ｔ２) − X(ｔ２−ｄｔ) ＝ X(ｔ２) − X(ｔ１)
ｄY ＝Ｙ(ｔ２) − Ｙ(ｔ２−ｄｔ) ＝Ｙ(ｔ２) − Ｙ(ｔ１)
ｄW ＝Ｗ(ｔ２) − Ｗ(ｔ２−ｄｔ) ＝Ｗ(ｔ２) − Ｗ(ｔ１)
ｄＨ＝Ｈ(ｔ２) − Ｈ(ｔ２−ｄｔ) ＝Ｈ(ｔ２) − Ｈ(ｔ１)

図８Ｂの（３）は、時刻ｔ3の時点で、マスクシーン抽出処理により、中心座標（33,18）、幅（30）、高さ（30）の位置に特徴量ＡＡＡ’’のマスクシーンＡ３を抽出した状態を示す。この場合、マスクシーンＡ２の被写体がマスクシーンＡ３の位置に少しだけ移動したと考えられる。このとき、マスクシーンＡ２の被写体の移動量が小さいことから、下記ｄX、ｄY、ｄW、ｄHのいずれも追記判定基準を満たさないとする。よって、ＣＰＵ１０１は、追記判定基準に従いマスクシーンＡ３をマスクテーブル１５０に追記しない（図８Ａ参照）。
ｄX ＝ X(ｔ３) − X(ｔ３−ｄｔ) ＝ X(ｔ３) − X(ｔ２)
ｄY ＝Ｙ(ｔ３) − Ｙ(ｔ３−ｄｔ) ＝Ｙ(ｔ３) − Ｙ(ｔ２)
ｄW ＝Ｗ(ｔ３) − Ｗ(ｔ３−ｄｔ) ＝Ｗ(ｔ３) − Ｗ(ｔ２)
ｄＨ＝Ｈ(ｔ３) − Ｈ(ｔ３−ｄｔ) ＝Ｈ(ｔ３) − Ｈ(ｔ２)

図８Ｂの（４）は、時刻ｔ4の時点で、マスクシーン抽出処理により、中心座標（40,40）、幅（10）、高さ（10）の位置に特徴量ＡＡＡ’’’のマスクシーンＡ４を抽出した状態を示す。この場合、マスクシーンＡ３の被写体がマスクシーンＡ４の位置に移動したと考えられる。このとき、上記（１）（２）の条件に従い、下記ｄX、ｄY、ｄW、ｄHのいずれかが追記判定基準を満たすとする。この場合、ＣＰＵ１０１は、追記判定基準に従いマスクシーンＡ４はマスクテーブル１５０に追記する。
ｄX ＝ X(ｔ４) − X(ｔ４−ｄｔ) ＝ X(ｔ４) − X(ｔ３)
ｄY ＝Ｙ(ｔ４) − Ｙ(ｔ４−ｄｔ) ＝Ｙ(ｔ４) − Ｙ(ｔ３)
ｄW ＝Ｗ(ｔ４) − Ｗ(ｔ４−ｄｔ) ＝Ｗ(ｔ４) − Ｗ(ｔ３)
ｄＨ＝Ｈ(ｔ４) − Ｈ(ｔ４−ｄｔ) ＝Ｈ(ｔ４) − Ｈ(ｔ３)

図８Ｂの（５）は、時刻ｔ5の時点で、マスクシーン抽出処理によりマスクシーンが抽出されなかった状態を示す。このとき、マスクシーンＡ４の被写体が消滅したと考えられる。この場合は、マスクシーンが消滅したことを表すための情報をマスクテーブル１５０に追記する。マスクシーンが消滅したことを表すための情報は、例えば、中心座標（0,0）、幅（0）、高さ（0）等で表現することができる。

［１−３．画像編集装置のマスク処理動作］
画像編集装置１０のマスク処理動作について説明する。

［１−３−１．マスクテーブルの作成動作の概要］
選択された動画ファイル、指定した対象条件、指定した出力条件、設定した特殊効果情報に基づいて、マスクテーブルを作成する手順について説明する。図９は、本実施の形態にかかるマスクテーブル作成処理を示すフローチャートである。

まず、ユーザーにより、選択画面上で候補となる動画ファイルが選択される（Ｓ９００）。続いて、ユーザーにより、設定画面５００上で特殊効果を施す対象物の対象条件が設定される（Ｓ９０１）。続いて、ユーザーにより、出力ファイルの情報として出力条件が設定される（Ｓ９０２）。続いて、ユーザーにより、対象領域に施す特殊効果が設定される（Ｓ９０３）。ステップＳ９００からステップＳ９０３の動作は、順番が入れ替わっても構わない。また、ステップＳ９０２、ステップＳ９０３は、マスクテーブル１５０の作成後に実施しても構わない。

動画ファイルの選択、対象条件の設定、出力条件の設定、特殊効果の設定が終了すると、ＣＰＵ１０１は、ユーザーにより、選択画面上の実行ボタン４０２が押下されたか否かを判断する（Ｓ９０４）。実行ボタン４０２の押下により、ＣＰＵ１０１は、選択した動画ファイルと対象条件の内容に従って、マスクテーブル１５０の作成を実行する（Ｓ９０５）。

［１−３−２．マスクテーブルの作成動作の詳細］
図１０のフローチャートを参照して、ステップＳ９０５におけるマスクテーブル１５０の作成動作の詳細を説明する。マスクテーブル１５０は、ユーザーが選択した動画ファイルに、肖像権やプライバシーを保護する目的で、ユーザーが指定した特定条件に従い特殊効果を施すための候補を管理するテーブルである。

図１０のフローチャートにおいて、まず、ＣＰＵ１０１は、ステップ９００において選択された動画ファイルをデコードする（Ｓ１０００）。

次に、ＣＰＵ１０１は、ステップ９０１においてユーザーにより設定された対象条件に従い、マスクシーンの抽出処理を行う（Ｓ１００１）。マスクシーンが示す被写体領域（図７の領域６０５）は、図８ＡのマスクシーンＡに示す中心座標、幅、高さと特徴量で表現される矩形の領域である。１フレーム内には、複数の被写体が存在する場合があるため、同一フレーム内に、複数のマスクシーンが示す被写体領域が存在する場合もある。ステップＳ１００１のマスクシーンの抽出処理は、動画像の１フレーム単位で実施してもよいし、複数フレーム毎に実施してもよい。

マスクシーンが抽出できた場合（ステップＳ１００２におけるＹｅｓ）、ＣＰＵ１０１は、抽出したマスクシーンのマスクテーブル１５０への追記処理を行なう（Ｓ１００３）。

一方、マスクシーンが抽出できなかった場合（ステップＳ１００２におけるＮｏ）、ＣＰＵ１０１は、ステップＳ１００４に移行する。

ＣＰＵ１０１は、動画ファイルのすべてのフレームについて抽出処理を完了したか否かを判断する（Ｓ１００４）。ＣＰＵ１０１は、すべてのフレームについて抽出処理が完了するまで、ステップＳ１０００からステップＳ１００３の動作ステップを繰り返す。すべてのフレームについて抽出処理が完了すると（Ｓ１００４におけるＹｅｓ）、ＣＰＵ１０１は、マスクテーブル１５０の作成処理を完了する。

次に、ステップＳ１００３におけるマスクシーンの追記処理の詳細について図１１を参照しながら説明する。なお、以下の説明では、ステップＳ１００１でのマスクシーンの抽出は、時刻tにてなされたものとする。

まず、ステップＳ１１００において、抽出したマスクシーンが新規に登場した対象物のマスクシーンか否かを判断する。すなわち、時刻（ｔ−ｄｔ）に処理中のマスクシーンと同一の被写体と判断することが可能な特徴量を有しているマスクオブジェクトが、マスクテーブル１５０に存在するか否かを判断する。そのようなマスクオブジェクトが存在しない場合、新規に登場した対象物のマスクシーンであると判断し（Ｓ１１００におけるＹＥＳ）、新規のＩＤを付与し、新規のＳＵＢＩＤ、時間、中心座標、幅、高さ、特徴量を当該マスクシーンの情報としてマスクテーブル１５０に追記する（Ｓ１１０１）。このとき、新しいマスクオブジェクトの先頭のマスクシーン情報として追記する。

図１２は、本実施の形態にかかるマスクシーンをマスクオブジェクトとして追記する例を示した図である。図１２の（ａ）の例では、時刻ｔ２に特徴量ＹＹＹのマスクシーンが抽出されている。特徴量ＹＹＹは特徴量ＸＸＸとは全く異なるものであるとする。よって、時刻（ｔ２−ｄｔ）に相当する時刻ｔ１に、時刻ｔ２に抽出されたマスクシーンと同一の被写体と判断することが可能な特徴量を有しているマスクオブジェクトが存在していない。このため、新規のＩＤ（Ｂ）が付与され、新しいマスクオブジェクトの先頭のマスクシーン情報として追記されている。

図１１に戻り、ステップＳ１１００において、時刻（ｔ−ｄｔ）に処理中のマスクシーンと同一の被写体と判断することが可能な特徴量を保有しているマスクオブジェクトが、マスクテーブル１５０に存在するか否かを判断する。そのようなマスクオブジェクトが存在する場合、新規に登場した対象物のマスクシーンではないと判断する（Ｓ１１００におけるＮＯ）。すなわち既に登場している対象物のマスクシーンであると判断し、既に登録されたマスクオブジェクトのＩＤを継承し、新規のＳＵＢＩＤ、時間、中心座標、幅、高さ、特徴量を当該マスクシーンの情報としてマスクテーブル１５０に追記する（Ｓ１１０２）。

図１２の（ｂ）の例では、時刻ｔ２に特徴量ＸＸＸ’のマスクシーンが抽出されている。この例では、時刻ｔ−ｄｔに相当する時刻ｔ１に、時刻ｔ２に抽出されたマスクシーンと同一の被写体と判断することが可能な特徴量を保有しているマスクオブジェクトＡが既に存在している。このため、登録済みＩＤ（Ａ）を継承し、マスクテーブルに追記されている。

以上のように、画像編集装置１０は、ビデオストリームを解析して、マスクシーンを追記した集合体、すなわちマスクオブジェクトを生成し、マスクテーブル１５０に登録する。

［１−４．特殊効果処理］
図７に示すプレビュー画面６００におけるプレビューボタン６０６及びファイル出力ボタン６１０の押下時に実行される、特殊効果処理について図１３のフローチャートを参照しながら説明する。

まず、ＣＰＵ１０１の変換処理部１２０は、図２の多重化分離部２０１、ビデオデコーダ２０２にて動画ファイルのデコードを行う（Ｓ１３００）。

次に、ＣＰＵ１０１の変換処理部１２０は、出力条件判定部２０８にて、出力条件５０２に定義された出力領域に従い、デコードした映像において特殊効果処理を実施する対象があるか否かを判定する。

具体的には、まず、ＣＰＵ１０１は、マスクテーブル１５０を参照して、処理対象のフレームが、マスクオブジェクトが存在する時間単位（時間範囲）内のフレームか否かを判定する（Ｓ１３０１）。例えば、図８Ａに示すマスクテーブル１５０を参照すると、時刻ｔ１〜ｔ５までの期間を、マスクシーンＡに関するマスクオブジェクトが存在する時間単位（時間範囲）として認識できる。

処理対象のフレームが、マスクオブジェクトが存在しない時間単位（時間範囲）内のフレームである場合（Ｓ１３０１におけるＮｏ）、ＣＰＵ１０１は、動作ステップをＳ１３０５に移行する。

一方、処理対象のフレームが、マスクオブジェクトが存在する時間単位（時間範囲）内のフレームである場合（Ｓ１３０１におけるＹｅｓ）、ＣＰＵ１０１は、当該マスクオブジェクトに記述されたすべてのマスクシーンが示す情報単位（中心座標、幅、高さ、特徴量など）を解析し、少なくとも１つの情報単位が出力条件（５０２）を満たすか否かを判定する（Ｓ１３０２）。いずれの情報単位も出力条件を満たさないと判定した場合、ＣＰＵ１０１は、動作ステップをＳ１３０５に移行する。一方、少なくとも１つの情報単位が出力条件を満たすと判定した場合、ＣＰＵ１０１は、動作ステップをＳ１３０３に移行する。

ここで、出力条件（５０２）の判定について説明する。出力条件（５０２）を満たすか否かの判定するための判定基準を下記に示す。判定１から判定３の判定基準は単独で使用してもよいし、任意に組み合わせて（例えば判定１と判定３を組み合わせて）判定してもよい。例えば、判定１から判定３の全ての判定基準が満たされたときに、出力条件（５０２）を満たすと判定してもよい。または、判定１から判定３の任意の組み合わせにおいて、少なくともいずれかの判定基準が満たされたときに出力条件（５０２）を満たすと判定してもよい。

＜判定基準＞
判定１：a×V ≧ a2 又は b×V ≧ b2（少なくとも幅と高さの条件の何れかを満たす）
判定２：a×V ≧ a2 かつ b×V ≧ b2（幅と高さの条件のどちらも満たす）
判定３：a×b×V ≧ a2b2（面積を満たす）
ここで、Ｖ、ａ、ｂ、ａ２、ｂ２は下記のとおりである。
V：入力動画像に対する出力動画像の縮尺比（解像度比）
例えば、入力動画像の幅が1920ピクセル、出力動画像の幅が480ピクセルとした場合、縮尺比Ｖ＝ 480 ／ 1920 ＝ 0.25 となる。
a：入力動画像における判定対象のマスクシーン領域の幅
b：入力動画像における判定対象のマスクシーン領域の高さ
a2：出力領域として規定される幅（特殊効果を適用する領域の幅のしきい値）
b2：出力領域として規定される高さ（特殊効果を適用する領域の高さのしきい値）
a2b2：出力領域として規定される面積（特殊効果を適用する領域の面積のしきい値）

上記判定基準は、出力画像における判定対象のマスクシーンの領域の大きさが所定値以上であるか否かを判定するための基準である。

図１４を用いて判定１と判定３の組み合わせで出力条件を判断する場合の判定処理１４０２について説明する。図１４は、現在処理中の時刻ｔを含むマスクオブジェクト（Ａ）がマスクテーブル１５０に存在する場合の例を説明した図である。マスクシーン１４０１は、時刻ｔ2(= t１ + dt)、幅３０、高さ４０のマスクシーンである。図１４に示す例では、入力動画像の幅が１００ピクセル、出力動画像（出力解像度に基づく出力動画像）の幅が５０ピクセルであるため、縮尺比Ｖ = 0.5となる。また、出力条件１４００に示すように、出力領域の幅、高さはそれぞれ１５、２０、面積は３００である。このため、それぞれの変数は次の値になる。
a = 30 (判定対象のマスクシーン領域の幅)
b = 40 (判定対象のマスクシーン領域の高さ)
a2 = 15 (出力領域として規定される幅)
b2 = 20 (出力領域として規定される高さ)
a2b2 = 300 (出力領域として規定される面積)

上記の条件で判定１と判定３の判定基準を組み合わせて判定処理１４０２を行う場合、下記のように、判定１と判定３いずれも成立するため、ＣＰＵ１０１は、動作ステップをＳ１３０３に移行する。
判定１：30×0.5 ≧ 15となり、判定１は成立
判定３：30×40×0.5 ≧ 300となり、判定３は成立

図１３に戻り、ステップＳ１３０３では、現処理中のマスクシーンが示す被写体領域に対して、特殊効果設定５０３で指定された「ぼかし処理」、「モザイク処理」、「他の画像の合成処理」等の処理を施し、特殊効果映像（マスク処理映像）を生成する（Ｓ１３０３）。

このように、本実施形態では、マスクテーブル１５０に登録されたマスクシーンの被写体領域のうち、出力条件を満たすものに対してのみ特殊効果処理を実施する。より具体的には、出力画像（リサイズ後の画像）におけるサイズが出力条件で定まる所定サイズよりも大きいマスクシーンに対してのみ、特殊効果処理を実施する。このようにしても、画像中の小さい領域はそもそも視認者に視認しにくいことから、特殊効果をかけなくともプライバシー等の保護の観点からは問題ではない。また、全ての特殊効果の設定対象に特殊効果をかけるわけではないので、画像中の特殊効果を適用する領域を低減でき、このため、画像品質の劣化を低減できる。

図１５は、出力解像度の違いによる特殊効果の適用状態の違いを説明した図である。図１５は、入力動画像２００から、解像度（サイズ）の違う二種類の動画像２１０、２２０に変換される場合の例を示す。入力動画像２００のサイズは１００ピクセル×８０ピクセルである。一方の出力動画像２１０のサイズは５０ピクセル×４０ピクセルであり（縮尺比０．５）、他方の出力動画像２２０のサイズは２５ピクセル×２０ピクセルである（縮尺比０．２５）。入力動画像２００は３つのマスクシーン２００ａ、２００ｂ、２００ｃを含む。縮尺比が０．５の出力動画像２１０においては、マスクシーン２１０ａ、２１０ｂ、２１０ｃが示す被写体領域のうち、２１０ａ、２１０ｂは出力条件を満たす。このため、マスクシーン２１０ａ、２１０ｂには、特殊効果処理が施される。一方、マスクシーン２１０ｃは出力条件を満たさないため、特殊効果処理が施されない。また、縮尺比が０．２５である出力動画像２２０においては、マスクシーン２２０ａ、２２０ｂ、２２０ｃが示す被写体領域のうち、マスクシーン２２０ａのみが出力条件を満たす。このため、マスクシーン２２０ａには特殊効果処理が施される。一方、マスクシーン２２０ｂ、２２０ｃは出力条件を満たさないため、特殊効果処理が施されない。このように、出力画像において比較的サイズの小さい被写体に対しては、特殊効果の設定対象であっても、特殊効果処理が施されない。

図１６は、特殊効果設定として「他の画像の合成」が設定されている場合の、出力画像における特殊効果の適用状態を説明した図である。この例では、特殊効果として、他の画像Ｍに置換される。入力動画像２０１においてマスクシーン２０１ａ、２０１ｂ、２０１ｃが示す被写体領域は出力条件を満たさないため、出力動画像２１１において、合成されずにマスクシーン２１１ａ、２１１ｂ、２１１ｃとして出力される。一方、マスクシーン２０１ｄ、２０１ｅ、２０１ｆが示す被写体領域は出力条件を満たすため、特殊効果設定で指定した画像Ｍを合成してマスクシーン２１１ｄ、２１１ｅ、２１１ｆとして出力される。

次に、ＣＰＵ１０１は、ステップＳ１３００でデコードした動画像と、ステップＳ１３０３で生成した特殊効果映像（マスク処理映像）との合成を行う（Ｓ１３０４）。

次に、ＣＰＵ１０１は、出力条件５０２で設定された出力解像度に従い、処理対象のフレームのリサイズ処理を行う（Ｓ１３０５）。すなわち、入力動画像が示すフレームが、特殊効果映像（マスク処理映像）と合成されている場合、当該合成画像に対して、出力設定５０２の出力解像度に従いリサイズ処理を施す。一方、入力動画像が示すフレームが、特殊効果映像（マスク処理映像）と合成されていない場合、入力動画像を示すフレームをそのまま、出力条件５０２の出力解像度に従いリサイズ処理を施す。

以上のようにして、ＣＰＵ１０１は、出力動画ファイルに対して必要最低限の画像処理を行うため、オリジナル画像の品質、ディテールを損なうことなく肖像権やプライバシーを保護することができる。これにより、ユーザーは、保有している画像をブログやＳＮＳ等のネットワーク上の不特定多数の人に対して手軽に公開することができる。

以上のように、本実施形態の画像編集装置１０は、動画ストリームを入力する入力インターフェース１１（入力部の一例）と、入力した動画ストリームを構成する少なくとも１つ以上のフレームから、特定の被写体を抽出するＣＰＵ１０１（抽出部、画像処理部の一例）とを備える。ＣＰＵ１０１は、入力した動画ストリームを構成するフレームに含まれる特定の被写体に対してマスク処理を施す。また、ＣＰＵ１０１は、特定の被写体に対して、動画ストリームの出力解像度に少なくとも基づく所定の出力条件に従って、マスク処理を施すか否かを判定する（図１３のステップＳ１３０２）。ＣＰＵ１０１は、その判定結果に基づいて当該被写体に対してマスク処理を施す（図１３のステップＳ１３０３）。

〔他の実施の形態〕
以上のように、本出願において開示する技術の例示として、実施の形態１を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態１で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施の形態を例示する。

上記の実施形態では、ＰＣ１００が本開示における画像編集装置として機能する例を説明した。しかし、画像編集装置はこれに限定されず、上記の各処理を規定したプログラムを実行可能なプロセッサを有する任意の電子機器で構成してもよい。上記の各処理を規定するプログラムは、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ、半導体メモリなどのコンピュータが読み取り可能な記録媒体に記録され、または電気通信回線を通じて流通され得る。また、例えばデータセンター等に配置されたサーバーに当該プログラムを実行させれば、所謂クラウドコンピューティングの形態で、遠隔地のユーザーに上述した機能と等価なサービスを提供することもできる。

上記実施形態では、追記判定基準を満たす場合にのみ、マスクシーンをマスクテーブル１５０へ追記した。その際、追記判定基準における判定の基準値（しきい値）を、入力動画像に対する出力動画像の縮尺比（解像度比）Ｖに応じて変化させるようにしてもよい。例えば、判定の基準値＝所定値×Ｖとしてもよい。

上記の実施形態では、マスクオブジェクトが存在する時間単位内において、ある時刻において出力条件が満たされた場合は、その時間単位全体を通して、設定対象のオブジェクトに対して特殊効果を適用した。しかし、当所特殊効果を適用していた対象のオブジェクトに対して、時間経過とともに出力条件を満たさなくなったときに特殊効果の適用を停止するようにしてもよい。

以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

本開示は、電子機器に関し、特に画像の編集操作が可能な電子機器に関する。本開示はＰＣへの適用に限定されず、画像の編集操作が可能であれば、携帯電話、ビデオカメラ等の電子機器にも適用可能である。また、同様の機能を実行可能なプログラムを格納したＣＤやＤＶＤ等の記録メディアにも適用可能である。

１０画像編集装置
１１入力インターフェース
１２画像編集部
２０入力装置
３０表示装置
１００ＰＣ
１０１ＣＰＵ
１０２システム管理メモリ
１０３ワークメモリ
１０４ＨＤＤ
１０５マウス
１０６キーボード
１０７ＵＳＢコネクタ
１０８グラフィックコントローラ
１０９液晶ディスプレイ
１１０画像編集ソフト
１１１動画ファイル
１１２カードスロット
１２０変換処理部
２０１多重化分離部
２０２ビデオデコーダ
２０３オーディオ出コーダ
２０４ビデオエンコーダ
２０５オーディオエンコーダ
２０６多重化部
２０７対象条件判定部
２０８出力条件判定部
２０９特殊効果部
２１０合成部
２１１リサイズ
３０１ＡＶストリーム
３０２ビデオエレメンタリーストリーム
３０３オーディオエレメンタリーストリーム
４００選択エリア
４０１設定ボタン
４０２実行ボタン
５００設定画面
５０１対象条件
５０２出力条件
５０３特殊効果設定
５０４閉じるボタン
６００プレビュー画面
６０１プレビューエリア
６０２タイムラインエリア
６０３タイムラインバー
６０４マスクオブジェクト
６０５マスクシーン
６０６プレビューボタン
６０７対象物の画像
６１０ファイル出力ボタン
６１１終了ボタン

Claims

入力動画ストリームを入力する入力部と、
前記入力動画ストリームを構成する少なくとも１つ以上のフレームから、特定の被写体を抽出する抽出部と、
前記特定の被写体が所定の出力条件を満たすか否かに応じて前記特定の被写体に対してマスク処理を施し、出力動画ストリームを生成する画像処理部と、を備え、
下記の判定基準のうちの少なくとも１つが満たされたときに前記所定の出力条件が満たされたとする、
判定基準１：a×V ≧ a2 又は b×V ≧ b2
判定基準２：a×V ≧ a2 かつ b×V ≧ b2
判定基準３：a×b×V ≧ a2b2
V：前記入力動画ストリームによる入力動画像に対する前記出力動画ストリームによる出力動画像の縮尺比
a：前記入力動画像における特定の被写体の領域の幅
b：前記入力動画像における特定の被写体の領域の高さ
a2：前記出力動画像における特定の被写体の出力領域の幅
b2：前記特定の被写体の出力領域の高さ
a2b2：前記出力領域の面積
画像編集装置。
前記画像処理部は、前記特定の被写体が所定の出力条件を満たさない場合に、前記特定の被写体に対して前記マスク処理を施さないと判定する、
請求項１記載の画像編集装置。
前記抽出部は、所定のサンプリング間隔毎に、前記特定の被写体を抽出し、前記抽出した被写体に関する情報を前記抽出結果として所定のテーブルに登録し、
前記画像処理部は、前記所定のテーブルを参照し、前記特定の被写体が所定の出力条件を満たすか否かに応じて前記特定の被写体に対して、前記マスク処理を施す請求項１記載の画像編集装置。
前記抽出部は、連続したサンプリング間隔において同じ特徴量を有する被写体を抽出した場合、前記同じ特徴量を有する被写体を同一の特定の被写体であると認定し、前記認定した特定の被写体の移動量及び／またはサイズの変化量が所定量以上変化した場合にのみ、新たに抽出された前記特定の被写体の情報を前記所定のテーブルに登録する、請求項３記載の画像編集装置。
前記抽出部は、人物、人物の顔、車体、及びナンバープレートの少なくともいずれか１つを含む被写体を、特定の被写体として抽出する、請求項１ないし４のいずれかに記載の画像編集装置。
前記マスク処理は、前記特定の被写体の画像に対して、ぼかし、モザイクまたは所定の画像を合成する処理である、請求項１ないし４のいずれかに記載の画像編集装置。
前記画像処理部は、
前記特定の被写体に対して、前記マスク処理を施すと判定したときは、前記入力動画ストリームを構成するフレームのうち、前記マスク処理を施すと判定するに至ったフレーム以前及び以後のフレームに含まれる前記特定の被写体に対してマスク処理を施す、請求項１から６のいずれかに記載の画像編集装置。
入力動画ストリームを受信する入力部と、
前記入力動画ストリームを構成する少なくとも１つのフレームから、特定の被写体を特定する特定部と、
前記特定の被写体が所定の出力条件を満たすか否かに応じて前記特定の被写体に対してマスク処理を施し、出力動画ストリームを生成する画像処理部と、を備え、
下記の判定基準のうちの少なくとも１つが満たされたときに前記所定の出力条件が満たされたとする、
判定基準１：a×V ≧ a2 又は b×V ≧ b2
判定基準２：a×V ≧ a2 かつ b×V ≧ b2
判定基準３：a×b×V ≧ a2b2
V：前記入力動画ストリームにおける入力動画像に対する前記出力動画ストリームにおける出力動画像の縮尺比
a：前記入力動画像における特定の被写体の領域の幅
b：前記入力動画像における特定の被写体の領域の高さ
a2：前記出力動画像における特定の被写体の出力領域の幅
b2：前記特定の被写体の出力領域の高さ
a2b2：前記出力領域の面積
画像編集装置。