JP7266672B2

JP7266672B2 - 画像処理方法および画像処理装置、ならびにデバイス

Info

Publication number: JP7266672B2
Application number: JP2021520989A
Authority: JP
Inventors: 宇李; ▲飛▼▲龍▼ ▲馬▼; 提政王; 秀杰黄
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-10-15
Filing date: 2019-06-18
Publication date: 2023-04-28
Anticipated expiration: 2039-06-18
Also published as: KR20210073570A; MX2021004309A; EP3859672A1; AU2019363031A1; CN113298845A; CN109961453B; US20210233248A1; CN112868050A; JP2022505086A; CN109961453A; CN113163133A; BR112021007087A2; WO2020078026A1; EP3859672A4

Description

本発明は、端末技術の分野に関し、詳細には、画像処理方法および画像処理装置、ならびにデバイスに関する。

撮影とは、カメラやビデオレコーダを用いて人物や物体の画像を記録することである。夜景撮影、雨天撮影、ビルディング撮影、ポートレート撮影など、様々なシーンごとに様々な撮影技術がある。映画技術用の動的撮影も撮影の一種であるが、特定の原理に従う必要がある。科学および技術の進歩に伴い、撮影はより簡単になり、かつより普及している。

ネットワーク帯域幅の増加および端末処理能力の向上により、ビデオおよび画像の撮影および共有はより簡便になり、ビデオ消費は全ての人々にとって新しい生活様式になっている。ビデオは急速にネットワーク上のトラフィック集約型サービスになり、今後数年でトラフィック全体の80％～90％を占めると予想されている。

日常生活において、撮影は、人々が自分自身を見せ、物の美しさを見つけるための主要な方法になってきている。人々は、より興味をひくようなスタイルで撮影を行うことを望んでいる。例えば、撮影中に、画像や映像の特殊効果処理が完了されて、「見たままが、得られる」という撮影体験が実現される。したがって、専門家ではない人にとっては、端末により斬新な画像処理技術を統合する必要がある。

現在、端末のビデオ記録機能は単調である。現在は、従来のビデオ撮影しか提供することができず、いくつかのパーソナライズされた効果が欠けている。

本発明は、画像処理方法を提供する。画像に対してマスク（テンプレート）セグメンテーションを実行することによって、画像内のターゲット領域および背景領域が決定される。ターゲット領域と背景領域に異なる色処理モードが適用され、その結果、ターゲット領域の輝度が背景領域の輝度よりも大きいか、またはターゲット領域の色差が背景領域の色差よりも大きく、ターゲット領域に対応する主被写体がより目立つように強調される。これにより、端末のユーザは、写真撮影中またはビデオ撮影中に映画の特殊効果を得ることができ、ユーザの撮影体験を向上させる。

本発明の実施形態で提供される具体的な技術的解決策は以下の通りである。

第1の態様によれば、本発明の一実施形態は画像処理方法を提供する。方法は、ビデオ記録プロセスに適用され、方法は、N個の画像を取得するステップと、ターゲットビデオを取得するために、N個の画像の各々に対してステップ1およびステップ2を実行するステップであって、
ステップ1は、画像内の被写体のカテゴリに基づいて画像内のターゲット領域および背景領域を決定するステップであって、背景領域は画像のうちのターゲット領域以外の領域である、ステップであり、
ステップ2は、ターゲット画像を取得するために、ターゲット領域および背景領域を異なる色処理モードで処理するステップであって、ターゲット画像内のターゲット領域の色差が、ターゲット画像内の背景領域の色差よりも大きいか、またはターゲット画像内のターゲット領域の輝度がターゲット画像内の背景領域の輝度よりも大きい、ステップである、ステップとを含む。

第2の態様によれば、本発明の一実施形態は画像処理装置を提供する。装置はビデオ撮影プロセスに適用され、装置は、N個の画像を取得するように構成された撮影モジュールと、画像内の被写体のカテゴリに基づいてN個の画像の各々におけるターゲット領域および背景領域を決定するように構成された決定モジュールであって、背景領域は画像のうちのターゲット領域以外の領域である、決定モジュールと、ターゲット画像を取得するために、ターゲット領域および背景領域を異なる色処理モードで処理するように構成された色処理モジュールであって、ターゲット画像内のターゲット領域の色差がターゲット画像内の背景領域の色差よりも大きいか、またはターゲット画像内のターゲット領域の輝度がターゲット画像内の背景領域の輝度よりも大きい、色処理モジュールとを備える。

第3の態様によれば、本発明の一実施形態は画像処理方法を提供する。方法は、撮影プロセスに適用され、方法は、
画像を取得するステップと、
画像内の被写体のカテゴリに基づいて画像内のターゲット領域および背景領域を決定するステップであって、背景領域は画像のうちのターゲット領域以外の領域である、ステップと、
ターゲット画像を取得するために、ターゲット領域および背景領域を異なる色処理モードで処理するステップであって、ターゲット画像内のターゲット領域の色差がターゲット画像内の背景領域の色差よりも大きいか、またはターゲット画像内のターゲット領域の輝度がターゲット画像内の背景領域の輝度よりも大きい、ステップとを含む。

第4の態様によれば、本発明の一実施形態は画像処理装置を提供する。装置は、
画像を取得するように構成された撮影モジュールと、画像内の被写体のカテゴリに基づいて画像内のターゲット領域および背景領域を決定するように構成された決定モジュールであって、背景領域は画像のうちのターゲット領域以外の領域である、決定モジュールと、ターゲット画像を取得するために、ターゲット領域および背景領域を異なる色処理モードで処理するように構成された色処理モジュールであって、ターゲット画像内のターゲット領域の色差がターゲット画像内の背景領域の色差よりも大きいか、またはターゲット画像内のターゲット領域の輝度がターゲット画像内の背景領域の輝度よりも大きい、色処理モジュールとを備える。

第1の態様、第2の態様、第3の態様、または第4の態様によれば、可能な設計において、画像内の被写体のカテゴリに基づいて画像内のターゲット領域および背景領域を決定するステップは、k個のマスクを取得するために、画像に対してセマンティックセグメンテーションを実行するステップであって、k個のマスクは異なる被写体カテゴリに対応する、ステップと、
k＝2であり、かつ2つのマスクが1つの主被写体マスクと、1つの背景マスクとを含む場合、主被写体マスクに対応する画像領域をターゲット領域として決定し、背景マスクに対応する領域を背景領域として決定するステップと、
kが2より大きく、かつk個のマスク内のk0の主被写体マスクに含まれる画素の数が、事前設定された閾値より大きい場合、k0の主被写体マスクに対応する画像領域をターゲット領域として決定し、残りのマスクに対応する画像領域を背景領域として決定するステップであって、k0はk未満の非負整数である、ステップと、
kが2より大きい場合、最大数の画素を含み、かつk個のマスク内にあるマスクに対応する画像領域をターゲット領域として決定し、残りのマスクに対応する画像領域を背景領域として決定するステップと、
kが2より大きい場合、被写体カテゴリの事前設定された優先順位に基づいてk個のマスクからターゲットマスクを決定し、ターゲットマスクに対応する画像領域をターゲット領域として決定し、残りのマスクに対応する画像領域を背景領域として決定するステップ、または
kが2より大きい場合、ユーザの選択命令に従ってk個のマスクからターゲットマスクを決定し、ターゲットマスクに対応する画像領域をターゲット領域として決定し、残りのマスクに対応する画像領域を背景領域として決定するステップとを含む。方法は、決定モジュールによって特に実行されてよい。

第1の態様、第2の態様、第3の態様、または第4の態様によれば、可能な設計において、ターゲット領域および背景領域を異なる色処理モードで処理するステップは、これらに限定されないが、
ターゲット領域の色を保持し、背景領域に白黒処理を実行するステップ、
ターゲット領域の色を保持し、背景領域に減光処理を実行するステップ、
ターゲット領域の色を保持し、背景領域にぼかし処理を実行するステップ、
ターゲット領域の色を濃くし、背景領域に白黒処理を実行するステップ、
ターゲット領域の色を濃くし、背景領域に減光処理を実行するステップ、または
ターゲット領域の色を強調し、背景領域にぼかし処理を実行するステップを含む。

加えて、背景領域を処理するための方式は、ダークトーンフィルタ方式、例えば、レトロフィルタ方式またはフィルムフィルタ方式をさらに含んでもよい。この方法は、色処理モジュールによって特に実行される。

第1の態様、第2の態様、第3の態様、または第4の態様によれば、可能な設計において、被写体のカテゴリは、人物、動物、植物、事前設定された被写体、または背景のうちの少なくとも1つを含む。

より具体的には、前述の可能な技術的実装形態において、プロセッサが、メモリ内のプログラムおよび命令を呼び出して、アルゴリズム実装および／または信号取得などの対応する処理を実行してよい。

第5の態様によれば、本発明の一実施形態は、画像処理方法を提供する。方法は、ビデオ記録プロセスに適用され、方法は、具体的には、
取得された各画像に含まれる被写体のカテゴリを決定するステップと、
現在の画像の最初のN0画像において、異なる被写体カテゴリとして決定された同じ被写体を有する隣接する画像のグループの数が、事前設定された閾値以下である場合、画像内の被写体のカテゴリに基づいて現在の画像内のターゲット領域および背景領域を決定するステップであって、背景領域は現在の画像のうちのターゲット領域以外の領域である、ステップと、ターゲット画像を取得するために、ターゲット領域および背景領域を第1の色処理モードおよび第2の色処理モードでそれぞれ処理するステップであって、ターゲット画像内のターゲット領域の色差がターゲット画像内の背景領域の色差よりも大きいか、またはターゲット画像内のターゲット領域の輝度がターゲット画像内の背景領域の輝度よりも大きい、ステップ、
または、現在の画像の最初のN0画像において、異なる被写体カテゴリとして決定された同じ被写体を有する隣接する画像のグループの数が、事前設定された閾値より大きい場合、ターゲット画像を取得するために、現在の画像を第1の色処理モードまたは第2の色処理モードで処理するステップとを含む。

第6の態様によれば、本発明の一実施形態は画像処理装置を提供する。画像処理装置は、ビデオ記録プロセスで使用され、装置は、具体的には、画像を取得するように構成された撮影モジュールと、取得された各画像に含まれる被写体のカテゴリを決定するように構成された決定モジュールと、現在の画像の最初のN0画像において、異なる被写体カテゴリとして決定された同じ被写体を有する隣接する画像のグループの数が、事前設定された閾値以下である場合、画像内の被写体のカテゴリに基づいて現在の画像内のターゲット領域および背景領域を決定するように決定モジュールを制御し、背景領域は現在の画像のうちのターゲット領域以外の領域であり、ターゲット画像を取得するために、ターゲット領域および背景領域を第1の色処理モードおよび第2の色処理モードでそれぞれ処理するように色処理モジュールを制御し、ターゲット画像内のターゲット領域の色差がターゲット画像内の背景領域の色差よりも大きいか、またはターゲット画像内のターゲット領域の輝度がターゲット画像内の背景領域の輝度よりも大きい、あるいは現在の画像の最初のN0画像において、異なる被写体カテゴリとして決定された同じ被写体を有する隣接する画像のグループの数が、事前設定された閾値より大きい場合、ターゲット画像を取得するために、現在の画像を第1の色処理モードまたは第2の色処理モードで処理するようにちらつき除去モジュールを制御するように構成された判定モジュールとを備える。

現在のビデオ画像は、ある瞬間に記録されている1つの画像として理解され得ることを理解されたい。本明細書における瞬間とは、一部のシナリオでは一般的な瞬間として理解されてよい、または一部のシナリオでは特定の瞬間、例えば、ユーザが関心を持つ最新の瞬間または特定の瞬間として理解されてもよい。

第5の態様または第6の態様によれば、可能な設計では、画像内の被写体のカテゴリに基づいて現在の画像内のターゲット領域および背景領域を決定するステップは、k個のマスクを取得するために、画像に対してセマンティックセグメンテーションを実行するステップであって、k個のマスクは異なる被写体カテゴリに対応する、ステップと、
k＝2であり、かつ2つのマスクが1つの主被写体マスクと、1つの背景マスクとを含む場合、主被写体マスクに対応する画像領域をターゲット領域として決定し、背景マスクに対応する領域を背景領域として決定するステップと、
kが2より大きく、かつk個のマスク内のk0の主被写体マスクに含まれる画素の数が事前設定された閾値より大きい場合、k0の主被写体マスクに対応する画像領域をターゲット領域として決定し、残りのマスクに対応する画像領域を背景領域として決定するステップであって、k0はk未満の非負整数である、ステップと、
kが2より大きい場合、最大数の画素を含み、かつk個のマスク内であるマスクに対応する画像領域をターゲット領域として決定し、残りのマスクに対応する画像領域を背景領域として決定するステップと、
kが2より大きい場合、被写体カテゴリの事前設定された優先順位に基づいてk個のマスクからターゲットマスクを決定し、ターゲットマスクに対応する画像領域をターゲット領域として決定し、残りのマスクに対応する画像領域を背景領域として決定するステップ、または
kが2より大きい場合、ユーザの選択命令に従ってk個のマスクからターゲットマスクを決定し、ターゲットマスクに対応する画像領域をターゲット領域として決定し、残りのマスクに対応する画像領域を背景領域として決定するステップとを含む。方法は、決定モジュールによって特に実行されてよい。

第5の態様または第6の態様によれば、可能な設計において、ターゲット領域および背景領域を異なる色処理モードで処理するステップは、これらに限定されないが、
ターゲット領域の色を保持し、背景領域に白黒処理を実行するステップ、
ターゲット領域の色を保持し、背景領域に減光処理を実行するステップ、
ターゲット領域の色を保持し、背景領域にぼかし処理を実行するステップ、
ターゲット領域の色を濃くし、背景領域に白黒処理を実行するステップ、
ターゲット領域の色を濃くし、背景領域に減光処理を実行するステップ、または
ターゲット領域の色を強調し、背景領域にぼかし処理を実行するステップを含む。

第5の態様または第6の態様によれば、可能な設計において、被写体のカテゴリは、人物、動物、植物、事前設定された被写体、または背景のうちの少なくとも1つを含む。

より具体的には、前述の可能な技術的実装形態において、プロセッサは、メモリ内のプログラムおよび命令を呼び出して、アルゴリズム実装および信号取得などの対応する処理を実行してよい。

第7の態様によれば、本発明の一実施形態は、カメラ、メモリ、プロセッサおよびバスを備える端末デバイスを提供する。カメラ、メモリ、およびプロセッサは、バスを介して接続される。カメラは画像を取り込むように構成され、メモリはコンピュータプログラムおよび命令を記憶するように構成される。プロセッサは、メモリに記憶されたコンピュータプログラム、命令、および取り込まれた画像を呼び出すように構成され、端末デバイスが前述の可能な設計方法のいずれか1つを実行することを可能にするようにさらに特に構成される。

第7の態様によれば、可能な設計では、端末デバイスはアンテナシステムをさらに備える。アンテナシステムは、モバイル通信ネットワークとの無線通信を実施するために、プロセッサの制御下で無線通信信号を送受信する。モバイル通信ネットワークには、GSM(登録商標)ネットワーク、CDMAネットワーク、3Gネットワーク、4Gネットワーク、5Gネットワーク、FDMAネットワーク、TDMAネットワーク、PDCネットワーク、TACSネットワーク、AMPSネットワーク、WCDMA(登録商標)ネットワーク、TDSCDMAネットワーク、Wi－Fiネットワーク、およびLTEネットワークのうちの1つまたは複数が含まれる。

前述の可能な設計における技術的解決策は、自然の摂理に逆らうことなく組み合わせることができる。

従来の技術では、ビデオや画像が撮影される際、いずれの画像においても個体同士または色同士を区別しなければ、特殊効果は十分に価値があるとは言えない。本発明によれば、画像内の異なる領域を色を用いて区別することができるため、写真やビデオの特殊効果が強調され、画像内の主被写体およびターゲットをより強調することができる。このようにして、主要な役割がより目立つようになる。

本発明の一実施形態による、端末の構造の概略図である。本発明の一実施形態による画像処理方法のフローチャートである。本発明の一実施形態によるマスク識別子の一例を示す図である。本発明の一実施形態によるマスク識別子の別の例を示す図である。本発明の一実施形態によるターゲットマスクを決定する概略図である。本発明の一実施形態によるターゲットマスクを決定する別の概略図である。本発明の一実施形態によるターゲットマスクを決定する別の概略図である。本発明の一実施形態によるターゲットマスクを決定する別の概略図である。本発明の一実施形態による画像処理装置の概略図である。本発明の一実施形態による画像処理装置の別の概略図である。

本発明の実施形態における技術的解決策を、本発明の実施形態における添付の図面を参照して、明確かつ完全に以下に説明する。明らかに、記載される実施形態は、本発明の実施例の全てではなく、その一部に過ぎない。創造的な努力をすることなく本発明の実施形態に基づいて当業者によって獲得されるその他の全ての実施例は、本発明の保護範囲内にあるものとする。

本発明の実施形態では、端末は、ビデオ撮影および／またはデータ接続性をユーザに提供するデバイス、無線接続機能を有するハンドヘルドデバイス、または無線モデムに接続された別の処理デバイス、例えば、デジタルカメラ、一眼レフカメラ、携帯電話（または「セルラー」フォンとも呼ばれる）、あるいはスマートフォンであってもよい。端末は、ポータブルデバイス、ポケットサイズのデバイス、ハンドヘルドデバイス、またはウェアラブルデバイス（例えば、スマートウォッチ）、タブレットコンピュータ、パーソナルコンピュータ（PC、Personal Computer）、PDA（Personal Digital Assistant、パーソナル・デジタル・アシスタント）、車載コンピュータ、ドローン、航空機器などであってもよい。

図1は、端末100の任意選択のハードウェア構成の概略図である。

図1に示すように、端末100は、無線周波数ユニット110、メモリ120、入力ユニット130、表示ユニット140、カメラ150、オーディオ回路160（スピーカー161およびマイクロフォン162を含む）、プロセッサ170、外部インターフェース180、および電源190などの構成要素を含み得る。当業者は、図1はインテリジェント端末または多機能デバイスの一例に過ぎず、インテリジェント端末または多機能デバイスに対する限定を構成していないことを理解し得る。インテリジェント端末または多機能デバイスは、図に示されているものより多い、またはそれより少ない構成要素を含む場合がある、またはいくつかの構成要素を組み合わせる場合がある、または異なる構成要素を含む場合もある。例えば、インテリジェント端末または多機能デバイスは、少なくともメモリ120、プロセッサ170、およびカメラ150を含む。

カメラ150は、画像またはビデオを取り込むように構成され、アプリケーションプログラムからの命令に従ってトリガおよび起動されて、写真撮影機能またはビデオ撮影機能を実施してよい。カメラは、撮像レンズ、光フィルタ、および画像センサなどの構成要素を含んでよい。被写体によって放出または反射された光線は、撮像レンズに進入し、光フィルタを通過し、最終的に画像センサ上で収束する。撮像レンズは、主に、撮影画角内の全ての被写体（これは、撮影されるべきシナリオ、撮影されるべき被写体、ターゲットシナリオ、またはターゲット被写体とも呼ばれ、ユーザが撮影画角内で撮影するつもりでいるシナリオ画像と理解されてもよい）によって放出または反射された光を画像の中に収束するように構成される。光フィルタは、主に、光線の中の冗長な光波（例えば、可視光以外の光波、例えば赤外光）を除去するように構成される。画像センサは主に、受信した光信号に対して光電気変換を実行して、光信号を電気信号に変換し、その後の処理のためにプロセッサ170に電気信号を入力するように構成される。カメラは、端末デバイスの前に配置されてもよいし、端末デバイスの後ろに配置されてもよい。カメラの具体的な数量および具体的な配置方法は、設計者の要件または売り手のポリシーに基づいて柔軟に決定されてよい。これは本出願では限定されない。

入力ユニット130は、入力された数字または文字情報を受信し、ユーザ設定および多機能装置の機能制御に関連するキー信号入力を生成するように構成され得る。具体的には、入力ユニット130はタッチスクリーン131および／または別の入力デバイス132を含んでよい。タッチスクリーン131は、タッチスクリーン上またはタッチスクリーンの近くでのユーザのタッチ操作（例えば、任意の適切な物体を使用して、例えば指、関節、またはスタイラスを使用して、タッチスクリーン上またはタッチスクリーンの近くでユーザによって実行される操作）を収集し、事前設定されたプログラムに基づいて対応する接続装置を駆動してよい。タッチスクリーンは、タッチスクリーン上でユーザによって実行されたタッチ行動を検出し、タッチ行動をタッチ信号に変換し、タッチ信号をプロセッサ170に送信してよく、プロセッサ170によって送信されたコマンドを受信し、コマンドを実行してよい。タッチ信号は、少なくとも接触座標情報を含む。タッチスクリーン131は、端末100とユーザ間の入力インターフェースおよび出力インターフェースを提供してよい。さらに、タッチスクリーンは、抵抗タイプ、静電容量タイプ、赤外線タイプ、および表面弾性波タイプなどの様々なタイプで実装されてよい。タッチスクリーン131に加えて、入力ユニット130は、別の入力デバイスをさらに含んでもよい。具体的には、別の入力デバイス132は、これに限定されないが、物理キーボード、ファンクションキー（例えば、ボリューム制御キーまたはオン／オフキー133）、トラックボール、マウス、ジョイスティックなどのうちの1つまたは複数を含んでもよい。

表示ユニット140は、ユーザによって入力された情報またはユーザに提供される情報、端末100の様々なメニュー、対話インターフェース、ファイルを表示する、および／または任意のマルチメディアファイルを再生するように構成されてよい。本発明のこの実施形態では、表示ユニットは、カメラ150を使用することによって端末によって取得された画像／ビデオを表示するようにさらに構成される。画像／ビデオは、いくつかの撮影モードでのプレビュー画像／ビデオ、撮影された初期画像／ビデオ、および撮影が実行された後に特定のアルゴリズム処理が実行されるターゲット画像／ビデオを含んでよい。

さらに、タッチスクリーン131が表示パネル141を覆ってもよい。タッチスクリーン131上またはタッチスクリーンの近くでのタッチ操作を検出した後、タッチスクリーン131はタッチイベントのタイプを特定するためにタッチ操作をプロセッサ170に転送する。その後、プロセッサ170は、タッチイベントのタイプに基づいて、対応する視覚的出力を表示パネル141に提供する。この実施形態では、タッチスクリーンおよび表示ユニットは、1つの構成要素に統合されて、端末100の入力、出力、および表示機能を実現してよい。説明を簡単にするために、本発明のこの実施形態では、タッチディスプレイスクリーンは、タッチスクリーンおよび表示ユニットの1つの機能セットを表す。いくつかの実施形態では、タッチスクリーンおよび表示ユニットは代替として、2つの独立した構成要素として使用されてもよい。

メモリ120は、命令およびデータを記憶するように構成されてよい。メモリ120は、主に、命令記憶領域およびデータ記憶領域を含んでよい。データ記憶領域は、マルチメディアファイルおよびテキストなどのデータを記憶してよい。命令記憶領域は、オペレーティングシステム、アプリケーション、および少なくとも1つの機能に必要とされる命令、そのサブセットまたはその拡張セットなどのソフトウェアユニットを記憶してよい。メモリ120は、不揮発性ランダム・アクセス・メモリをさらに含んでもよく、また、コンピューティング処理デバイス内のハードウェア、ソフトウェア、およびデータリソースを管理し、ソフトウェアおよびアプリケーションに対する制御をサポートすることを含めた機能をプロセッサ170に与えてもよい。メモリ120は、マルチメディアファイルを記憶し、実行プログラムおよびアプリケーションを記憶するようにさらに構成される。

プロセッサ170は、端末100のコントロールセンターであり、様々なインターフェースおよび回線を介して端末全体の様々な部分に接続されている。プロセッサ170は、端末100の様々な機能を実行し、メモリ120に記憶された命令を作動または実行し、メモリ120に記憶されたデータを呼び出すことによってデータを処理して、端末に対する全体的な制御を実行する。任意選択で、プロセッサ170は、1つまたは複数の処理ユニットを含んでよい。任意選択で、プロセッサ170はアプリケーションプロセッサおよびモデムプロセッサと統合されてもよい。アプリケーションプロセッサは、オペレーティングシステム、ユーザインターフェース、およびアプリケーションプログラムなどを主に処理する。モデムプロセッサは、無線通信を主に処理する。モデムプロセッサは代替として、プロセッサ170に統合されない場合もあることが理解され得る。いくつかの実施形態では、プロセッサおよびメモリが代替として、単一のチップ上に実装されてもよい。いくつかの実施形態では、プロセッサおよびメモリは、独立したチップ上にそれぞれ実装されてもよい。プロセッサ170は、対応する動作制御信号を生成し、動作制御信号をコンピューティング処理デバイス内の対応する構成要素に送信し、ソフトウェア内のデータを読み出し処理し、とりわけメモリ120内のデータおよびプログラムを読み出し処理し、その結果、プロセッサ170内の機能モジュールが対応する機能を実行し、命令によって必要とされる行為を実行するように対応する構成要素を制御するようにさらに構成されてよい。

無線周波数ユニット110は、情報を送受信する、または呼び出しプロセス中に信号を送受信するように構成されてよい。例えば、無線周波数ユニット110は、基地局からのダウンリンク情報を受信し、その後、処理用にダウンリンク情報をプロセッサ170に提供し、関連するアップリンクデータを基地局に送信する。一般に、無線周波数ユニットは、これらに限定されないが、アンテナ、少なくとも1つの増幅器、トランシーバ、カプラ、低雑音増幅器（Low Noise Amplifier、LNA）、およびデュプレクサなどを含む。さらに、無線周波数ユニット110は、無線通信を介してネットワークデバイスおよび別のデバイスとさらに通信してよい。無線通信は、これらに限定されないが、モバイル通信用グローバル・システム（Global System of Mobile communication、GSM(登録商標)）、汎用パケット無線サービス（General Packet Radio Service、GPRS）、符号分割多重アクセス（Code Division Multiple Access、CDMA）、広帯域符号分割多重アクセス（Wideband Code Division Multiple Access、WCDMA(登録商標)）、ロング・ターム・エボリューション（Long Term Evolution、LTE）、電子メール、およびショートメッセージサービス（Short Messaging Service、SMS）などを含む、通信規格またはプロトコルを使用し得る。

オーディオ回路160、スピーカー161、およびマイクロフォン162は、ユーザと端末100との間のオーディオインターフェースを提供してよい。オーディオ回路160は、受信したオーディオデータから変換された電気信号をスピーカー161に送信することができ、スピーカー161は出力のためにその電気信号を音声信号に変換する。さらに、マイクロフォン162は、音声信号を収集するように構成され、収集された音声信号を電気信号にさらに変換してよい。オーディオ回路160は、電気信号を受信し、電気信号をオーディオデータに変換し、処理のためにオーディオデータをプロセッサ170に出力し、その後、処理されたオーディオデータを、無線周波数ユニット110を介して、例えば別の端末に送信するか、またはさらなる処理のために処理されたオーディオデータをメモリ120に出力する。オーディオ回路はまた、オーディオ回路とヘッドセットとの間の接続インターフェースを提供するように構成されたヘッドセットジャック163を含んでもよい。スピーカーおよびマイクロフォンの具体的な数量および具体的な配置方法は、設計者の要件または売り手のポリシーに基づいて柔軟に決定されてよい。これは本出願では限定されない。

端末100は、各構成要素に電力を供給する電源190（例えばバッテリ）をさらに含む。好ましくは、電源は、電力管理システムを使用することによって充電、放電、および電力消費管理などの機能を実装するために、電力管理システムを使用することによってプロセッサ170に論理的に接続されてよい。

端末100は、外部インターフェース180をさらに含む。外部インターフェースは、標準的なマイクロUSBポートであってもよいし、マルチピンコネクタであってもよい。外部インターフェースは、通信のために端末100を別の装置に接続するように構成されてよく、または充電器に接続して端末100を充電するように構成されてよい。

示されていないが、端末100は、フラッシュライト、無線フィデリティ（wireless fidelity、WiFi）モジュール、ブルートゥース（登録商標）モジュール、種々の機能を有するセンサなどをさらに含んでもよい。ここでは詳細は説明されない。以下で説明される方法の一部または全ては、図1に示される端末に適用され得る。

本発明は、撮影機能（写真撮影機能およびビデオ撮影機能の少なくとも一方を含む）を有する端末デバイスに適用されてよく、実現される製品は、インテリジェント端末の形態であってよく、例えば、カメラが搭載された製品、例えば、携帯電話、タブレット、DV、ビデオカメラ、カメラ、ポータブルコンピュータ、ノートブックコンピュータ、インテリジェントロボット、テレビ、セキュリティ保護システム、またはドローンであってよい。具体的には、本発明の機能モジュールは、関連するデバイスのDSPチップ上に配備されてもよく、具体的には、DSPチップ内のアプリケーションプログラムまたはソフトウェアであってもよい。本発明では、機能モジュールは、ソフトウェアのインストールまたはアップグレード、ならびにハードウェアの呼び出しおよび連携を通じて画像処理機能を提供するために、端末デバイス上に配備される。

本発明は、端末デバイスを使用することによって画像またはビデオが撮影されるシナリオに主に適用される。人々は、ビデオ撮影に対してますます高い要求を持っており、「見たままが、得られる」ビデオ撮影体験を実現するために、撮影中にビデオの特殊効果処理を完了することを期待している。本発明によれば、画像またはビデオに対して主被写体のセグメンテーションが実行されてよく、画像のリアルタイムの特殊効果を実現するために、異なる領域の色が調整されてよい。

詳細については図2を参照されたい。図2は、本発明の一実施形態による画像処理方法のフローチャートである。方法は、画像またはビデオを撮影するプロセスにおいて実行されてよい。以下で、実施例を用いて本発明を説明する。

実施例1：画像撮影（撮影モード）
この実施例に関して、特定の実装プロセスにおいて、端末は撮影モードを構成してよい。撮影モードでは、方法は以下のステップを含んでよい。

ステップ21：画像を取得する（撮影する、または取り込むとも理解され得る）。

具体的には、ユーザが写真を撮ると、対応するプレビューストリームも同様にスクリーンに表示される。プレビュー画像は、一般に、プレビューストリームの中の1つの画像を指してよい。ユーザがシャッターをタップすると、撮影された画像が取得される。撮影された画像のサイズは、これに限定されないが、例えば、1920×1080である。

ステップ22：撮影された画像内のコンテンツ（シーンセマンティクスとして理解され得る）に基づいて画像内のターゲット領域および背景領域を決定する。より具体的には、画像内の被写体のカテゴリに基づいて画像内でターゲット領域および背景領域が決定されてよい。背景領域は、画像のうちのターゲット領域以外の領域である。ターゲット領域は、画像内のターゲット被写体またはターゲット本体、すなわち、ユーザが画像内で強調することを期待する被写体に対応し、ユーザの対話型選択またはシステム設定に関連し得る。具体的には、ステップ22は、S221～S224を含んでよい。

S221：画像を前処理する。

元のサイズの撮影された画像がダウンサンプリングされ、より解像度の低い画像に変換される。小さな画像に基づいて計算が行われる場合、計算量を削減することができる。特定の実装プロセスでは、元のサイズ（例えば、m0 xn0）は、m×nのサイズにダウンサンプリングされてよい。mおよびnの値が小さいほど、後の計算量が小さくなることを示す。ただし、mおよびnの値が過剰に小さすぎると、画素の解像度がその後低下する。実験により、mおよびnの適切な値の範囲は［128、512］であり、より具体的には［256、300］であることが示されている。加えて、mとnは、等しくてもよいし、等しくなくてもよい。例えば、1920×1080の画像は、256×256にダウンサンプリングされてよい。

S222：ダウンサンプリングされたm×n画像をニューラルネットワークに入力してセマンティックセグメンテーションを実行し、画像マスク（Mask）を決定する。

セマンティックセグメンテーションは、画像内の被写体に対して実行される画素レベルのセグメンテーションを指し、被写体のカテゴリは画素ごとにマークされる。被写体カテゴリがマークされていない領域は、「背景」としてマークされる。

具体的には、セマンティックセグメンテーションは、CNN（Convolutional Neural Networks）に基づく深層学習アルゴリズムを使用してよい。CNNベースのネットワークモデルを以下のように具体的に説明する。

（1）ダウンサンプリングおよび畳み込みが、m×n画像に対して実行されて、m1×n1画像、m2×n2画像、．．．、およびmz×nz画像を取得し、画像セマンティックフィーチャを層ごとに抽出して、m1×n1フィーチャマップ、m2×n2フィーチャマップ、．．．、およびmz×nzフィーチャマップを取得し、すなわち、マルチスケールセマンティックフィーチャを取得し、ここで、m1、m2、．．．、およびmzは倍数の関係にあり、m未満であり、n1、n2、．．．、nzは倍数の関係にあり、n未満である。例えば、m＝2m1＝4m2＝、．．．、＝2^z×mzであり、n＝2n1＝4n2＝、．．．、＝2^z×nzである。zの値および倍数関係は、アルゴリズム性能および設計要件に基づいて決定されてよい。

（2）マルチスケールセマンティックフィーチャを融合するために、畳み込みおよびアップサンプリングが、m1×n1フィーチャマップ、m2×n2フィーチャマップ、．．．、およびmz×nzフィーチャマップに対して実行される。

上記の畳み込み、ダウンサンプリング、およびアップサンプリングの方法は、この業界で周知の技術を使用してよく、本発明において限定および列挙されていない。

（3）画像内で識別される必要がある被写体カテゴリが決定され、各画素上の各被写体カテゴリのスコアが計算され、最高のスコアを有する被写体カテゴリ（略してカテゴリであってもよい）が、画素の分類結果として使用され、マスクグラフ、すなわちマスクが最終的に取得される。

例えば、端末がk個の被写体カテゴリ（例えば、人物、動物、植物、別の事前設定された被写体、または背景のうちの少なくとも1つ）を識別することができる場合、k個の画像が取得され得る。画像内の各画素は、被写体カテゴリに属するスコアを取得する。スコアが高いほど、画素が被写体カテゴリに属する確率が高いことを示す。

任意の画素の被写体カテゴリが決定されると、その画素が識別され得る。例えば、1は人物を示すために使用され、2は車両を示すために使用され、3は動物を示すために使用され、4は植物を示すために使用され、0は背景を示すために使用される。これは一例に過ぎず、いかなる限定も構成するものではない。ユーザは、設計要件に基づいてカテゴリの数、カテゴリ、および識別方法をランダムに設計してよい。具体例が図3に示されてよい。車両が位置する全ての画素領域は、ニューラルネットワークによって車両として分類され、1として識別される。周囲の背景部分にある全ての画素領域は、ニューラルネットワークによって背景として分類され、0として識別される。別の例では、ニューラルネットワークによって出力されるマスク内では、同じカテゴリの被写体の領域は同じラベルを有する。例えば、背景のラベルは0であり、猫のラベルは1であり、スケートボードのラベルは2である。図4に示すマスクでは、同じ被写体カテゴリのラベルを表すために同じ色がさらに使用されてよい。例えば、人物、馬、および背景は、異なる色でそれぞれ識別される。

マスクは、セマンティックセグメンテーションアルゴリズムの結果である。1つの画像では、被写体のカテゴリに属する全ての画素が色または識別子としてラベル付けされ、背景もまた色または識別子としてラベル付けされる。処理後に得られた画像をマスクと呼ぶことで、セグメンテーション結果が直感的に表示される。

画像のコンテンツは、主被写体と、背景とを含んでよい。説明を容易にするために、これに対応して、画像マスクは、主被写体マスクと、背景マスクとを含んでよい。主被写体マスクは、ユーザが特定の画像内または撮影された画像内で強調することを期待する個体、例えば、人物、動物、植物、または特定の被写体（カップ、テーブル、服、装飾品など）を含む、セグメンテーション方法を使用して識別された主被写体に対応してよい。背景マスクは、画像内にあり、かつ主被写体マスクとして識別されない別の領域に対応する。画像マスクは、画像全体に対応する。主被写体マスクの識別能力は、ニューラルネットワークの性能に関連する。例えば、一部のニューラルネットワークは、人物および背景のみを識別することができる。一部のニューラルネットワークは、人物、車両、および背景を識別することができる。一部のニューラルネットワークは、車両および背景のみを識別することができる。一部のニューラルネットワークは、人物、動物、および背景を識別することができる。一部のニューラルネットワークは、動物および背景のみを識別することができる。いくつかのニューラルネットワークは、動物、植物、背景などを識別することができる。

画像は、代替として、主被写体のみを含む場合がある、または背景のみを含む場合があることを理解されたい。画像が主被写体のみを含む場合、主被写体は背景としても識別され得る。画像内の主被写体および背景に関するこのような設定は、設計者によって柔軟に設計および決定され得る。

ディープニューラルネットワークの訓練には大量のセグメンテーション訓練データを使用する必要があり、訓練データセットは、セグメンテーション被写体カテゴリ、入力画像、およびマスクグラフを含む大量の画像を含む。訓練データセットは、セグメンテーション被写体の様々な典型的な適用シナリオをカバーしてよく、多様なデータを有する。訓練データセット内の入力画像およびマスクグラフは、優れたネットワークパラメータを獲得するために、言い換えれば、ユーザが満足するセグメンテーション性能を獲得するためにネットワークを訓練するために使用される。獲得されたネットワークパラメータは、ニューラルネットワークの最終的に使用される計算パラメータとして使用される。

S223：マスクに基づいてターゲットマスクを決定する。

異なる画像および異なる能力を有するニューラルネットワークについて、様々なマスクが取得されてよい。端末は、マスク内にあり、強調され目立つように表示される必要が最もある被写体に対応するマスクをさらに決定してよい。すなわち、ターゲットマスクを決定する必要がある。ターゲットマスクを決定することは、これらに限定されないが、以下のいくつかの方式を含む。

方式1：マスクが1つの主被写体マスクおよび1つの背景マスクのみを含む場合、主被写体マスクがターゲットマスクとして決定される。

具体的には、k個のマスクを取得するために画像に対してセマンティックセグメンテーションが実行されると仮定する。k個のマスクは、異なる被写体カテゴリに対応する。k＝2であり、かつ2つのマスクが1つの主被写体マスクと、1つの背景マスクとを含む場合、主被写体マスクに対応する画像領域がターゲット領域として決定され、背景マスクに対応する領域が背景領域として決定される。

図5に示すように、ニューラルネットワークによって出力される画像のマスクは、主被写体マスクA1および背景マスクのみを含む。この場合、A1がターゲットマスクとして決定されてよい。

方式2：マスクが複数の主被写体マスクと、背景マスクとを含む場合、任意の主被写体マスクに含まれる画素の数が特定の閾値よりも大きい場合、主被写体マスクはターゲット主被写体として決定される、または主被写体マスクに含まれる画素の数が特定の閾値未満である場合、主被写体マスクは再マークされ、背景としてもマークされる。主被写体マスクに含まれる画素の数は、画像内の個体の領域に含まれる画素の数であってよい。

具体的には、k個のマスクを取得するために画像に対してセマンティックセグメンテーションが実行されると仮定する。k個のマスクは、異なる被写体カテゴリに対応する。kが2より大きく、かつk個のマスク内のk0主被写体マスクに含まれる画素の数が、事前設定された閾値より大きい場合、k0の主被写体マスクに対応する画像領域がターゲット領域として決定され、残りのマスクに対応する画像領域が背景領域として決定され、k0はk未満の非負整数である。

図6に示すように、ニューラルネットワークによって出力される画像のマスクは、主被写体マスクA1、主被写体マスクA2、および背景マスクを含む。A1に含まれる画素の数が事前設定された閾値よりも大きく、A2に含まれる画素の数が事前設定された閾値以下である場合、A1がターゲットマスクとして決定され、主被写体マスクA2は背景マスクとして再マークされる。再マークされたマスクは図5に示されてもよい。A1に含まれる画素の数が事前設定された閾値よりも大きく、A2に含まれる画素の数も事前設定された閾値よりも大きい場合、A1とA2の両方がターゲットマスクとして決定される。A1に含まれる画素の数もA2に含まれる画素の数も事前設定された閾値よりも大きくない場合、A1およびA2は背景マスクとして再識別される。言い換えると、画像は主被写体マスクを含まない。

特定の実装プロセスでは、A1およびA2は、同じ被写体カテゴリであってもよいし、または異なる被写体カテゴリであってもよいことを理解されたい。

方式3：マスクが複数の主被写体マスクと、背景マスクとを含む場合、最大数の画素を含む主被写体マスクがターゲットマスクとして選択され、他の主被写体マスクもまた背景マスクとして再マークされる。

具体的には、k個のマスクを取得するために画像に対してセマンティックセグメンテーションが実行されると仮定する。k個のマスクは、異なる被写体カテゴリに対応する。kが2より大きい場合、最大数の画素を含み、かつk個のマスク内にある主被写体マスクに対応する画像領域がターゲット領域として決定され、残りのマスクに対応する画像領域が背景領域として決定される。

図6に示すように、ニューラルネットワークによって出力される画像のマスクは、主被写体マスクA1、主被写体マスクA2、および背景マスクを含む。画素数が最も多いA1がターゲットマスクとして決定され、主被写体マスクA2は背景マスクとして再マークされる。再マークされたマスクは図5に示されてもよい。

方式4：マスクが複数の主被写体マスクと、背景マスクとを含み、複数の主被写体マスクが複数の被写体カテゴリを含む場合、ターゲットマスクは、被写体カテゴリの優先順位に基づいて決定される。例えば、人物マスクの優先順位が車両マスクの優先順位よりも高い場合、人物マスクがターゲットマスクであり、車両マスクは背景として再マークされてよい。例えば、人物マスクの優先順位が、動物マスクの優先順位よりも高く、かつ植物マスクの優先順位よりも高く、システムによって設定された優先順位が、優先順位が植物マスクの優先順位よりも高い全てのマスクは主被写体マスクであるという場合、人物マスクと動物マスクは両方ともターゲットマスクであり、植物マスクは背景として再マークされてよい。1つまたは複数の個体が同じ被写体カテゴリマスクに属することを理解されたい。

具体的には、k個のマスクを取得するために画像に対してセマンティックセグメンテーションが実行されると仮定する。k個のマスクは、異なる被写体カテゴリに対応する。kが2より大きい場合、ターゲットマスクは、被写体カテゴリの事前設定された優先順位に基づいてk個のマスクから決定される。ターゲットマスクに対応する画像領域がターゲット領域として決定され、残りのマスクに対応する画像領域が背景領域として決定される。

図7に示すように、ニューラルネットワークによって出力される画像のマスクは、主被写体マスクA1、主被写体マスクB1、および背景マスクを含む。A1とB1は異なる被写体カテゴリであり、A1の優先順位はB1の優先順位よりも高い。システムが、優先順位がB1の優先順位よりも高い、またはB1の優先順位と等しい任意の主被写体マスクがターゲットマスクとして使用され得ると設定した場合、A1とB1の両方ともターゲットマスクである。システムが、B1よりも優先順位が高い主被写体マスクがターゲットマスクとして使用され得ると設定した場合、A1がターゲットマスクとして決定され、B1は背景マスクとして再マークされる。

方式5：マスクが複数の主被写体マスクと、背景マスクとを含む場合、ターゲットマスクは、ユーザによって入力された選択操作に従って決定されてよい。入力モードは、これらに限定されないが、画面タッチおよび音声などの選択命令を含む。ユーザによって選択された個体に対応する主被写体マスクがターゲットマスクである。

具体的には、k個のマスクを取得するために画像に対してセマンティックセグメンテーションが実行されると仮定する。k個のマスクは、異なる被写体カテゴリに対応する。kが2より大きい場合、ユーザの選択命令に従ってk個のマスクからターゲットマスクが決定される。ターゲットマスクに対応する画像領域がターゲット領域として決定され、残りのマスクに対応する画像領域が背景領域として決定される。

図7に示すように、ニューラルネットワークによって出力される画像のマスクは、主被写体マスクA1、主被写体マスクB1、および背景マスクを含む。ユーザが、撮影プロセスにおいて、タッチスクリーン上のA1に対応する個体をタップすると、A1がターゲットマスクとして決定され、B1が背景マスクとして再マークされる。ユーザが、撮影プロセスにおいて、タッチスクリーン上のB1に対応する個体をタップすると、B1がターゲットマスクとして決定され、A1が背景マスクとして再マークされる。

方式6：マスクが複数の主被写体マスクと、背景マスクとを含み、複数の主被写体マスクが複数の被写体カテゴリを含む場合、ターゲットマスクは、ユーザによって入力された選択操作に基づいて決定されてよい。入力モードは、これらに限定されないが、画面タッチおよび音声などの選択命令を含む。ユーザによって選択された個体に対応する被写体カテゴリの全ての主被写体マスクがターゲットマスクである。

図8に示すように、ニューラルネットワークによって出力される画像のマスクは、主被写体マスクA1、A2、B1、およびB2と、背景マスクとを含む。A1およびA2は同じ被写体カテゴリのものであり、B1およびB2は同じ被写体カテゴリのものである。ユーザが撮影プロセスにおいて、A1に対応するタッチスクリーン上の個体をタップすると、同じ被写体カテゴリのA1およびA2がターゲットマスクとして決定され、B1およびB2は背景マスクとして再マークされる。ユーザが撮影プロセスにおいて、タッチスクリーン上のB2に対応する個体をタップすると、同じ被写体カテゴリのB1およびB2がターゲットマスクとして決定され、A1およびA2が背景マスクとして再マークされる。

前述の特定の実装形態または実施形態は単なる例であり、限定を構成するものではないことを理解されたい。前述の特定の実装形態または実施形態は、論理に違反することなく自由に組み合わされてよい。したがって、画像に対してマスクセグメンテーションが実行された後、1つまたは複数のターゲットマスクが取得されてよい。これらのターゲットマスクは、1つまたは複数の被写体カテゴリのものであってよく、ターゲットマスクの各被写体カテゴリは、1つまたは複数の個体をさらに含んでもよい。表示された結果は、端末システムに設定され、ターゲットマスクを決定するための規則、およびユーザの入力に関連する。いくつかのシナリオでは、画像は代替として、背景マスクのみを含んでもよい。

s224：元の画像内のターゲット領域および背景領域を決定する。

マスクから撮影された画像の元のサイズがサンプリングされ、マスク内のターゲットマスクおよび背景マスクもアップサンプリングされる。アップサンプリングされたターゲットマスクのものであり、元の画像に対応する全ての画素によって構成される領域がターゲット領域であり、アップサンプリングされた背景マスクのものであり、元の画像に対応する全ての画素によって構成される領域が背景領域である。

ステップ23：ターゲット画像を取得するために、画像内のターゲット領域および背景領域を異なる色処理モードで処理する。異なる色処理モードが処理のために使用され、その結果、ターゲット領域の色差が背景領域の色差よりも大きいか、またはターゲット領域の輝度が背景領域の輝度よりも大きい。言い換えれば、ターゲット画像内のターゲット領域の色差が、ターゲット画像内の背景領域の色差よりも大きいか、またはターゲット画像内のターゲット領域の輝度が、ターゲット画像内の背景領域の輝度よりも大きい。

具体的には、第1の色処理モードおよび第2の色処理モードが、画像内のターゲット領域および背景領域に対してそれぞれ使用される。第1の色処理モードおよび第2の色処理モードは、これらに限定されないが、以下の方式を含む。

方式1：第1の色処理モードは色を保持し、第2の色処理モードはフィルタを使用しており、例えば、背景領域の色を白黒に変換する。典型的なフィルタは、白黒フィルタ、減光フィルタ、レトロフィルタ、フィルムフィルタ、ぼかしフィルタ、ボケフィルタなどのいずれかをさらに含む。

例えば、白黒フィルタは、白黒フィルタの効果を実現するために、各画素値をグレースケール値にマッピングするものである。別の例では、減光フィルタは、特殊な減光効果を達成するために各画素値の輝度を暗くするものである。

方法2：第1の色処理モードは第1のフィルタ方式であり、第2の色処理モードは第2のフィルタ方式であり、第1のフィルタ方式は第2のフィルタ方式とは異なる。同じ画像について、第1のフィルタ方式で取得された画像の色差は、第2のフィルタ方式で取得された画像の色差よりも大きい。

方式3：第1の色処理モードは第3のフィルタ方式であり、第2の色処理モードは第4のフィルタ方式であり、第3のフィルタ方式は第4のフィルタ方式とは異なる。同じ画像について、第3のフィルタ方式で取得された画像の輝度は、第4のフィルタ方式で取得された画像の輝度よりも大きい。

色は輝度と色差の両方によって表されることを理解されたい。色差とは、輝度を含まない色の特性であり、色のトーンおよび彩度を反映し、輝度は色の明るさを指す。したがって、色処理は、輝度処理および／または色差処理を含む。

具体的には、フィルタは、色差、輝度、および色相を調整することを含んでよく、重畳テクスチャなどをさらに含んでもよい。色差および色相を調整することによって表色系が目標通りに調整されてよく、その結果、表色系により厚みがでる、またはより明るくなる、あるいはトーンが変更され、そして別の表色系は変更されないままである。フィルタはまた、画素ごとの画素マッピングとして理解されてもよい。特殊効果を達成するために、事前設定されたマッピングテーブルを使用して、入力画像の画素値がターゲット画素の画素値にマッピングされる。フィルタは事前設定されたパラメータマスクであり得ることを理解されたい。これらの色関連のパラメータは、業界で周知のフィルタマスクにおけるパラメータであってもよく、またはユーザによって独立して設計されたパラメータであってもよい。

補足として、ステップ23の後に、方法は、ステップ23で処理された画像を記憶するステップ24をさらに含む。

本発明によれば、撮影プロセスにおいて、端末は、画像コンテンツに基づいてターゲット個体および背景を決定し、ターゲット個体および背景に対して異なる色処理を実行してよく、その結果、ユーザによって撮影された画像内の主被写体をより目立たせることができ、撮影された画像はフィルムのようになる。

実施例2：ビデオ撮影（ビデオ記録モード）
具体的には、本発明において、ビデオ記録用の画像処理方法は、写真撮影用の画像処理方法と同様であり、写真撮影時に処理される被写体が1つの画像であるのに対して、ビデオ記録時に処理される被写体は連続する映像フレームである、すなわち複数の連続画像である点が異なっている。ビデオ記録で処理される被写体は、完全なビデオであってもよいし、完全なビデオの1つのセグメントであってもよいし、所定の期間の範囲内のユーザが定義したビデオクリップであってもよい。ビデオまたはビデオクリップ内の各画像の処理手順については、実施例1の処理方法を参照されたい。

具体的には、ビデオ撮影のための画像処理方法は、以下のステップを含んでよい。

ステップ31：N個の撮影された画像を取得し、Nは正の整数であり、各画像に対してステップ32および33の動作を実行し、N個の画像は隣接するビデオフレームであってよく、N個の画像の合計がビデオとして理解されてよい。あるいは、N個の画像は隣接していなくてもよい。

ステップ32の任意選択の実装形態は、ステップ22の実装形態と同じであってもよい。

ステップ33の任意選択の実装形態は、ステップ23の実装形態と同じであってもよい。

補足として、ビデオは連続する画像を含むため、個体を決定する方法もまた時系列に関連する。したがって、ステップ23に加えて、ステップ33にはより多くの実装形態が存在し得る。任意選択で、S223で主被写体を決定する任意の方法には遅延があってもよい。例えば、第L1フレームにおいて人物および背景が決定され、画素マーキングおよびマスク比較によって、第（L1＋1）フレームの画像から第（L1＋L0）フレームの画像まで、これらの画像内の人物は主被写体であること、およびこれらの画像内の人物に対応する領域がターゲット領域0であることが決定されてよい。また、主被写体および背景は、各フレームについて決定する必要はない。主被写体が毎回決定される瞬間は、ユーザによって定義されてもよいし、または主被写体は、例えば、限定はしないが、2秒ごとまたは10秒ごとに周期的に決定されてもよい。主被写体を毎回決定する方式は、これに限定されないが、S223における6つの方式を含む。

ステップ34：色処理されたN個の画像によって構成されるビデオを記憶する。

本発明によれば、ユーザがビデオを記録するプロセスにおいて、端末は、ビデオコンテンツに基づいてターゲット個体および背景を決定し、ターゲット個体および背景に対して異なる色処理を実行してよく、その結果、ユーザによって撮影されたビデオの主被写体をより目立たせることができ、撮影されたビデオは映画のように洗練されており、ユーザ体験が改善される。

実施例3：ビデオ撮影（ビデオ記録モード）
本発明において、ビデオ記録用の画像処理方法は、写真撮影用の画像処理方法と同様であり、写真撮影時に処理される被写体が1つの画像であるのに対して、ビデオ記録時に処理される被写体は、連続する映像フレームである、すなわち複数の連続する画像である点が異なっている。したがって、各画像の処理手順については、実施例1の処理方法を参照されたい。一部の複雑なビデオ撮影のシナリオでは、画像内のいくつかの領域が誤って検出される場合がある。同じ領域が隣接するフレーム内でターゲットまたは背景として別々にマークされる場合、同じ領域が前述の例示的な色処理方法に従って異なる色に処理され、隣接するフレーム内の同じ領域の色の変化は知覚のちらつきを引き起こす。したがって、処理中にちらつきを特定して除去する必要がある。ちらつきは、被写体カテゴリの決定エラーとして理解され得る。

ビデオのちらつきを特定するための方法では、オプティカルフローベースのマスクを取得するために、オプティカルフローに基づいて前のフレームのマスクが処理されてよく、オプティカルフローベースのマスクと現在のフレームのマスクとの差が比較される。一致度または類似度が特定の割合を超えている場合、ちらつきは発生していないと特定される。一致度または類似度が特定割合を超えない場合、ちらつきが発生していると特定される。また、ちらつきの特定は連続的な処理であることを理解されたい。任意選択で、ちらつきが存在するかどうかを特定するための具体的な方法は以下の通りである。

（1）最初に、隣接するフレームのオプティカルフローが計算され、この場合、オプティカルフローは、隣接するフレーム（第（t－1）フレームと、第tフレーム）における画素間の変位関係を示す。

（2）第（t－1）フレームのマスクが取得され、第（t－1）フレームのマスクと第（t－1）フレームおよび第tフレームのオプティカルフロー情報とに基づいて、第tフレームのオプティカルフローマスクFが計算され、オプティカルフローマスクはオプティカルフローに基づく計算によって取得される。

（3）第tフレームのマスクSが取得される。

（4）オプティカルフローマスクFにおける主被写体の画素セットSFがカウントされ、マスクSにおける主被写体の画素セットSSがカウントされる。SFとSSの和集合と交点集合の画素数はそれぞれNuとNiである。（Nu－Ni）／Nuが特定の閾値よりも大きい場合、隣接する第（t－1）フレームと第tフレームのマスクの間に比較的大きな差があると考えられ、第（t－1）フレームと第tフレームとの間にちらつきが発生していると特定される、または第tフレームにちらつきが発生していると理解される場合もある。相対的に大きな差は、同じ被写体が異なる被写体カテゴリとして誤って決定される可能性があることを示す。例えば、第（t－1）フレームと第tフレームにおける同一の個体が人物と猿に別々に特定される。

任意選択的に、現在の画像の最初のN0（2より大きい正の整数）画像において、異なる被写体カテゴリとして決定された同じ被写体を有する隣接する画像のグループの数が、事前設定された閾値より大きい場合、現在のフレームに対してちらつき除外処理を実行する必要があると特定され得る。異なる被写体カテゴリとして決定された同じ被写体を有する隣接する画像のグループの数が、事前設定された閾値以下であると決定された場合、現在のフレームに対してちらつき除外処理を実行する必要がないと特定され得る。

任意選択で、例えば、所定の数の過去の隣接するフレームまたは事前設定された数の過去のフレームについて、フレームの半分以上においてちらつきが発生したと特定された（例えば、現在のビデオフレームの最初の5つの隣接するフレーム内の3つのビデオフレームにちらつきが発生したと特定された）場合、現在のフレームに対してちらつき除外処理を実行する必要があると特定され得る。ちらつきが発生したフレームが半数未満であると特定された（例えば、現在のビデオフレームの最初の5つの隣接フレームのうちの1つにちらつきが発生したと特定された）場合、現在のフレームに対してちらつき除外処理を実行する必要がないと特定され得る。

具体的には、この実施例におけるビデオ撮影のための画像処理方法は、以下のステップを含んでよい。

ステップ41：N個の撮影された画像を取得し、Nは正の整数であり、各画像に対してステップ32および33の動作を実行し、N個の画像は隣接するビデオフレームであってよく、N個の画像の合計はビデオとして理解されてよい、またはN個の画像は隣接していなくてもよい。

ステップ42：現在のフレーム（現在の画像）の最初のN0フレームでちらつきが発生した隣接する画像のグループの数が事前設定された閾値より大きいかどうかを特定する。ここで、N0および閾値はユーザによって設定されてもよい。例えば、N0は、過去のビデオフレームサンプルの選択された数であり、閾値は、N0の1／2、2／3などであり得る。これは単に一例として使用されており、限定されない。

特定結果が事前設定された閾値以下である場合、ステップ43および44の動作が、現在撮影されている、または取り込まれている画像に対して実行される。

ステップ43の任意選択の実装形態は、ステップ32の実装形態と同じであってもよい。

ステップ44の任意選択の実装形態は、ステップ33の実装形態と同じであってもよい。

特定結果が事前設定された閾値よりも大きい場合、ステップ45の動作が現在撮影されている、または取り込まれている画像に対して実行される。

ステップ45：ターゲット画像を取得するために、同じ色処理方法を使用して現在のフレームの全ての画像領域を処理する。同じ色処理方法は、前のフレーム内の背景領域の色処理方法と同じであってもよいし、または前のフレーム内のターゲット領域の色処理方法と同じであってもよいし、または前のフレーム内の画像全体の色処理方法と同じであってもよい。例えば、ステップ33（23）の背景領域に対するものと同じ色処理方法が画像全体に使用されてもよい。あるいは、ステップ33（23）のターゲット領域に対するものと同じ色処理方法が画像全体に使用されてもよい。例えば、画像全体がフルカラーのままである、または画像全体が白黒である、または第1または第2の色処理モード（実施例1での色処理モードを含むがこれに限定されない）が画像全体に使用される。

この場合、現在のフレームについて、ステップ22と同様のマスクセグメンテーション手順が存在してもよいし、省略されてもよい。これは、この例では限定されない。

ステップ45の後、色処理が行われたN個の画像で構成されるビデオを記憶するステップ46が実行される。Nは正の整数である。

実施例4：ビデオ撮影（ビデオ記録モード）
いくつかの適用シナリオでは、ユーザによって撮影された画像のコンテンツはたいてい変化する。したがって、画像の主被写体もたいてい変化する。ユーザはまた、ビデオスタイルを独立して制御するために、異なる画像内の主被写体の色処理モードを自由に選択することを期待する。

ビデオ撮影プロセスにおける画像処理方法は、以下のステップを含んでよい。
ステップ51：端末がビデオフレームを取得する。
ステップ52：端末が、ビデオから取得した任意のビデオフレーム内の主被写体領域および背景領域を決定する。
ステップ53：端末が、主被写体領域に対していかなる時点においても任意の色処理モードを使用し、背景領域に対してもいかなる時点においても任意の色処理モードを使用する。しかしながら、任意の画像について、色処理後の主被写体領域の輝度または色差は、色処理後の背景領域の輝度または色差よりも大きいことが保証される必要がある。あるいは、任意の画像について、主被写体領域に使用される色処理モードで得られた画像の色差または輝度は、背景領域に使用される色処理モードで得られた画像の色差または輝度よりも大きい。

実施例5：ビデオ撮影（ビデオ記録モード）
いくつかの適用シナリオでは、ユーザによって撮影された画像のコンテンツはたいてい変化する。したがって、画像の主被写体もたいてい変化する。ユーザはまた、ビデオスタイルを独立して制御するために、異なる画像内の主被写体の色処理モードを自由に選択することを期待する。とりわけ、色は、期間によって変化する。

ビデオ撮影プロセスにおける画像処理方法は、以下のステップを含んでよい。

ステップ61：第1の期間にN1画像を取り込み、第2の期間にN2画像を取り込み、第1の期間と第2の期間は隣接する期間であり、N1およびN2は両方とも正の整数であり、第1の期間および第2の期間は、ユーザが肉眼で画像の変化を識別できる継続時間であってよく、N1およびN2は、フレームレートと、ビデオ記録中の期間とによって決定される。これは、本発明において限定されない。

ステップ62：N1画像の各々における第1のターゲット領域および第1の背景領域を決定し、第1の背景領域は画像のうちの第1のターゲット領域以外の領域であり、N1画像の各々における第1のターゲット領域は（少なくとも一つの被写体を含み得る）第1の被写体に対応し、N2画像の各々における第2のターゲット領域および第2の背景領域を決定し、第2の背景領域は、画像のうちの第2のターゲット領域以外の領域であり、N2画像の各々における第2のターゲット領域は（少なくとも1つの被写体を含み得る）第2の被写体に対応する。

ステップ63：ターゲットビデオを取得するために、第1の色処理モードで第1のターゲット領域を処理し、第2の色処理モードで第1の背景領域を処理し、第3の色処理モードで第2のターゲット領域を処理し、第4の色処理モードで第2の背景領域を処理し、ターゲットビデオでは、第1のターゲット領域の色差が第1の背景領域の色差よりも大きいか、または第1のターゲット領域の輝度が第1の背景領域の輝度よりも大きい、ならびに第2のターゲット領域の色差が第2の背景領域の色差よりも大きいか、または第2のターゲット領域の輝度が第2の背景領域の輝度よりも大きい。

実施例6：ビデオ撮影（ビデオ記録モード）
いくつかの適用シナリオでは、ユーザによって撮影された画像のコンテンツはたいてい変化する。したがって、画像の主被写体もたいてい変化する。ユーザはまた、ユーザが異なる画像内で強調することを期待するターゲット主被写体を自由に選択することを期待する。例えば、第1の被写体に対応する画像領域は、第1の期間におけるターゲット領域として決定され、第2の被写体に対応する画像領域は、第2の期間におけるターゲット領域として決定され、第1の被写体および第2の被写体は、異なる被写体、異なる個体または異なる被写体カテゴリである。

このシナリオでは、ビデオ撮影プロセスにおける画像処理方法は、以下のステップを含んでよい。

ステップ71の任意選択の実装形態は、ステップ61の実装形態と同じであってよい。

ステップ72：画像コンテンツに基づいてN1画像のうちのいずれか1つにおける第1のターゲット領域および第1の背景領域を決定し、画像コンテンツに基づいてN2画像のうちのいずれか1つにおける第2のターゲット領域および第2の背景領域を決定し、第2のターゲット領域に対応する被写体または被写体カテゴリは、第1のターゲット領域に対応する被写体または被写体カテゴリとは異なり、その結果、システムおよびユーザは、画像のターゲット主被写体およびターゲット領域を独立して選択することができる。画像は、主被写体および背景を含み、それに対応して、画像は、ターゲット領域および背景領域を含む。

例えば、第1の被写体は人物であり、第2の被写体は動物である。例えば、第1の被写体は人物Aであり、第2の被写体は人物Bである。例えば、第1の被写体は2人の人物であり、第2の被写体は1匹の犬と2匹の猫である。識別されない残りの領域は、背景としてマークされる。

この方法では、S221およびS222での前述の方法を使用して画像マスクが決定されてよい。しかしながら、その後の方法は、各画像についてマスク内のターゲット被写体を決定することに限定されない。

任意選択で、画像マスクにおいて、ユーザは、第1の被写体および第2の被写体を自由に入力してよく、第1の被写体および第2の被写体は、ユーザによって入力された選択命令に従って決定される。例えば、ユーザが個体を選択する場合、システムは、ユーザによって入力された命令に対応する画素を識別し、ユーザによって選択されたマスクの特定の（／任意の）個体（／複数の個体）（／少なくとも1つの個体であってよい）または特定の（／任意の）被写体カテゴリ（／複数のカテゴリ）（／少なくとも1つの被写体カテゴリであってよい）をさらに識別し、特定の（／任意の）被写体カテゴリ（／複数の被写体カテゴリ）に属する特定の（／任意の）個体（／複数の個体）または全ての個体を第1の被写体としてさらに決定し、第1の被写体または第1の被写体に対応する画像領域を第1のターゲット領域として決定する。この状況は、一定期間維持されてよい。言い換えれば、その後のいくつかのフレームにおいて、第1の被写体に対応するマスクに対応する領域は、ユーザが次の瞬間に別の個体を選択するまで第1のターゲット領域であり、新しい個体に対応する領域は、前述の方法と同様の方法に従って第2のターゲット領域として決定される。1つの画像において、第1のターゲット領域または第2のターゲット領域以外の画像領域は、背景領域である。具体的には、第1の期間における第1の被写体に対応するマスクに対応する領域は第1のターゲット領域であり、第2の期間における第2の被写体に対応するマスクに対応する領域は第2のターゲット領域である。

任意選択で、画像マスクにおいて、システムは、事前設定された時間間隔（例えば、これに限定されないが、1秒または2秒）、または事前設定されたフレーム数（例えば、これに限定されないが50フレームまたは100フレーム）に基づいて、画像マスク内で特定の期間内の画像のターゲットマスクを決定してよい。例えば、第101フレームで第1のターゲットマスクが決定され、第201フレームで第2のターゲットマスクが決定されるまで、後続の102フレーム～200フレームのそれぞれについて、第1のターゲットマスクと同じ被写体カテゴリまたは個体を有するマスクが第1のターゲットマスクとして使用される。次の202フレーム～300フレームのそれぞれについて、第2のターゲットマスクと同じ被写体カテゴリまたは個体を有するマスクが第2のターゲットマスクとして使用される。前述の実施例の数字は、ユーザまたはシステムによって事前に定義され得ることを理解されたい。

第1のターゲットマスクおよび第2のターゲットマスクを決定するための方法については、これに限定されないが、ステップS223での6つの方式のうちのいずれか1つを参照されたい。したがって、第1のターゲットマスクおよび第2のターゲットマスクは、同じ被写体カテゴリまたは同じ個体のものであってもよく、あるいは異なる被写体カテゴリまたは異なる個体のものであってもよい。これは、ネットワークの識別能力、シーン画像の変更、またはユーザ入力コマンドに関連する。

具体的には、ターゲットマスクが特定の瞬間に決定され、このタイプのマスクまたはこの個体のマスクが一定期間継続して使用される。

加えて、第1のターゲット領域、第1の背景領域、第2のターゲット領域、および第2の背景領域が、s224の方法に従ってさらに決定される。

ステップ73の任意選択の実装形態は、ステップ63の実装形態と同じであってよい。

加えて、この実施例は、期間によっても異なる場合があるため、色処理方法の組み合わせは、複数ある場合もある。

例えば、第1の色処理モードは第3の色処理モードと同じであり、第2の色処理モードは第4の色処理モードと同じである。この色処理モードは、優れた一貫性を有する。

例えば、第1の色処理モードは第3の色処理モードと同じであり、第2の色処理モードは第4の色処理モードとは異なる。このような色処理モードでは、ターゲット主被写体の色は一貫しており、背景色が変化するので、全体的な視覚効果がより眩しくなる。

例えば、第1の色処理モードは第3の色処理モードとは異なり、第2の色処理モードは第4の色処理モードと同じである。このような色処理モードでは、背景色は一貫しており、ターゲット主被写体の色が変化するため、ターゲット主被写体がより目立つようになる。

例えば、第1の色処理モードは第3の色処理モードとは異なり、第2の色処理モードは第4の色処理モードとは異なる。このような色処理モードでは、より多くの色変換方式を提供することができ、異なるシナリオの要件に基づいて、より多くの色の協調を提供することができる。

第1の色処理モードまたは第3の色処理モードは、フィルタ、例えば色の保持または色の強調を含む。第2の色処理モードまたは第4の色処理モードは、白黒フィルタ、減光フィルタ、レトロフィルタ、フィルムフィルタ、ぼかしフィルタ、ボケフィルタ等のフィルタを含む。

具体的には、同じ画像のターゲット領域および背景領域の色処理方法については、ステップ23を参照されたい。N2個の画像について、第3の色処理モードおよび第4の色処理モードは、それぞれ第1の色処理モードおよび第2の色処理モードと同様である。

前述の解決策によれば、いくつかのシナリオでは、ユーザは、異なる背景を強調するために、異なる画像内の背景の色処理モードを自由に選択してよい。いくつかのシナリオでは、ユーザは、異なる度合いまたは異なる形態で主被写体を強調するために、異なる画像内の主被写体の色処理モードを自由に選択してよい。

本発明の異なる実施例では、同じラベルによって示される信号は、異なるソースを有してよい、または異なる方式で取得されてもよいことを理解されたい。これは、限定を構成しない。加えて、異なる実施例のステップ参照では、「ステップxxと同じ」は、2つのステップの信号処理ロジックが類似していることにより重点を置いている。これは、2つのステップの入力と出力の両方が完全に同じである必要があること、および2つの方法手順が完全に等価であることに限定されない。当業者によって生じる適切な引用および変形は、本発明の保護範囲内に含まれるものとする。

本発明は、画像処理方法を提供する。画像に対してマスクセグメンテーションを実行することによって、画像内のターゲット領域および背景領域が決定される。ターゲット領域と背景領域に異なる色処理モードが適用され、その結果、ターゲット領域の輝度が背景領域の輝度よりも大きいか、またはターゲットの色差が背景領域の色差よりも大きく、ターゲット領域に対応する主被写体がより目立つように強調される。これは、映画の特殊効果を実現する。

前述の実施形態で提供された画像処理方法に基づいて、本発明の一実施形態は画像処理装置900を提供する。装置は、複数の端末デバイスにおいて使用されてよく、端末100の任意の実装の形態にあってよく、例えば、ビデオ撮影機能を有する端末であってよい。図9を参照すると、装置は、
写真撮影またはビデオ撮影であり得る、画像を取得するように構成された撮影モジュール901であって、モジュールは、前述の実施例でのステップ21、ステップ31、ステップ51、ステップ61、またはステップ71における方法、およびこの方法と同等であり得る方法を実行するように特に構成され、またモジュールは、画像を取り込むようにカメラを制御するために、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサによって実施され得る、撮影モジュール901と、
画像コンテンツに基づいて画像内のターゲット領域および背景領域を決定するように構成された決定モジュール902であって、モジュールは、前述の実施例でのステップ22、ステップ32、ステップ52、ステップ62、またはステップ72における方法、およびこの方法と同等であり得る方法を実行するように特に構成され、またモジュールは、対応するアルゴリズムを実装するために、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサによって実装され得る、決定モジュール902と、
ターゲット画像またはターゲットビデオを取得するために、画像内のターゲット領域および背景領域について異なる色処理モードを使用することで、ターゲット領域の色差が背景領域の色差より大きいか、またはターゲット領域の輝度が背景領域の輝度より大きくなるように構成された色処理モジュール903であって、モジュールは、前述の実施例でのステップ23、ステップ33、ステップ53、ステップ63、またはステップ73における方法、およびこの方法と同等であり得る方法を実行するように特に構成され、またモジュールは、特有のアルゴリズムを使用することによって、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサによって実施され得る、色処理モジュール903とを備える。

加えて、装置は、色処理が実行される画像またはビデオを記憶するように構成された記憶モジュール904をさらに備えてもよい。

上記の特定の方法の実施例、実施形態における技術的特徴の説明および記述、ならびに複数の実装形態の拡張は、装置における方法の実行にも適用可能であり、装置の実施形態では詳細は説明されない。

本発明は、画像処理装置を提供する。画像に対してマスクセグメンテーションが実行され、その結果、画像コンテンツに基づいて画像内のターゲット領域および背景領域が決定される。ターゲット領域と背景領域に異なる色処理モードが適用され、その結果、ターゲット領域の輝度が背景領域の輝度よりも大きいか、またはターゲット領域の色差が背景領域の色差よりも大きく、ターゲット領域に対応する主被写体がより目立つように強調される。これは、映画の特殊効果を達成する。

前述した実施形態で提供される画像処理方法に基づいて、本発明の一実施形態は、画像処理装置1000をさらに提供する。装置は、複数の端末デバイスにおいて使用されてよく、端末100の任意の実装の形態にあってよく、例えば、ビデオ撮影機能を有する端末であってよい。図10を参照すると、装置は、
写真撮影またはビデオ撮影であり得る、画像を取得するように構成された撮影モジュール1001であって、モジュールは、前述の実施例でのステップ21、ステップ31、ステップ51、ステップ61、またはステップ71における方法、およびこの方法と同等であり得る方法を実行するように特に構成され、またモジュールは、画像を取り込むようにカメラを制御するために、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサによって実施され得る、撮影モジュール1001と、
現在のフレームの最初のN0フレーム内のちらつきのあるフレームの数が、事前設定された閾値より大きいかどうかを判定し、判定結果が、ちらつきのあるフレームの数が事前設定された閾値以下である場合、決定モジュール1003および色処理モジュール1004をトリガし続けて、関連する機能を実行する、または判定結果が、ちらつきのあるフレームの数が、事前設定された閾値よりも大きい場合、ちらつき除去モジュール1005をトリガし続けて、関連する機能を実行する、するように構成された判定モジュール1002であって、モジュール1002は、前述の実施例でのステップ42における方法、およびこの方法と同等であり得る方法を実行するように特に構成され、またモジュールは、対応するアルゴリズムを実装するために、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサによって実施され得る、判定モジュール1002と、
判定モジュール1002が、最初のN0フレームにおけるちらつきのあるフレームの数が事前設定された閾値以下であると判定した場合、画像コンテンツに基づいてターゲット領域および背景領域を決定するように構成された決定モジュール1003であって、モジュールは、前述の実施例でのステップ22、ステップ32、ステップ43、ステップ52、ステップ62またはステップ72における方法、およびこの方法と同等であり得る方法を実行するように特に構成され、またモジュールは、対応するアルゴリズムを実装するために、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサによって実施され得る、決定モジュール1003と、
画像内のターゲット領域および背景領域について、異なる色処理モードを使用することで、ターゲット領域の色差が背景領域の色差より大きいか、またはターゲット領域の輝度が背景領域の輝度より大きくなるように構成された色処理モジュール1004であって、モジュールは、前述の実施例でのステップ23、ステップ33、ステップ44、ステップ53、ステップ63、またはステップ73における方法、およびこの方法と同等であり得る方法を実行するように特に構成され、またモジュールは、特有のアルゴリズムを使用することによって、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサによって実施され得る、色処理モジュール1004と、
判定モジュール1002が、現在のフレームの最初のN0フレーム内のちらつきのあるフレームの数が、事前設定された閾値より大きいと判定した場合、現在のフレームの全ての画像領域に対して同じ色処理方法を使用するように構成されたちらつき除去モジュール1005であって、同じ色処理方法は、前のフレーム内の背景領域の色処理方法と同じであってよい、または前のフレーム内のターゲット領域の色処理方法と同じであってよく、またモジュールは、前述の実施例でのステップ45における方法、およびこの方法と同等であり得る方法を実行するように特に構成され、またモジュールは、特有のアルゴリズムを使用することによって、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサによって実施され得る、ちらつき除去モジュール1005とを備える。

さらに、装置1000は、色処理が実行される画像またはビデオを記憶するように構成された記憶モジュール1006をさらに含んでもよい。

本発明は、画像処理装置を提供する。画像に対してマスクセグメンテーションが実行され、その結果、画像コンテンツに基づいて画像内のターゲット領域および背景領域が決定される。ターゲット領域と背景領域に異なる色処理モードが適用され、その結果、ターゲット領域の輝度が背景領域の輝度よりも大きいか、またはターゲット領域の色差が背景領域の色差よりも大きく、ターゲット領域に対応する主被写体がより目立つように強調される。これは、映画の特殊効果を実現する。

上述の装置におけるモジュールへの分割は、単に論理的な機能の分割であることを理解されたい。実際の実装形態では、モジュールの一部または全てが、1つの物理エンティティに統合されてもよく、または物理的に分離されてもよい。例えば、前述のモジュールの各々は、別個のプロセッサ要素であってもよく、または端末のチップ上に統合されてもよく、またはプログラムコードの形態でコントローラの記憶要素に記憶されてもよい。プロセッサのプロセッサ要素は、前述のモジュールの各々の機能を呼び出して実行する。加えて、モジュールは統合されてもよく、または独立して実装されてもよい。本明細書のプロセッサ要素は、集積回路チップであってもよく、信号処理能力を有する。一実装形態のプロセスでは、前述の方法におけるステップまたは前述のモジュールは、プロセッサ要素内のハードウェア集積論理回路を使用することによって、またはソフトウェアの形の命令を使用することによって実装されてもよい。プロセッサ要素は、汎用プロセッサ、例えば、中央処理装置（英語：central processing unit、略してCPU）であってよい、あるいは前述の方法を実施するように構成された1つまたは複数の集積回路、例えば1つまたは複数の特定用途向け集積回路（英語：application－specific integrated circuit、略してASIC）、あるいは1つまたは複数のマイクロプロセッサ（英語：digital signal processor、略してDSP）、あるいは1つまたは複数のフィールド・プログラマブル・ゲート・アレイ（英語：field－programmable gate array、略してFPGA）であってもよい。

本発明の明細書、特許請求の範囲、および添付の図面において、「第1の」、「第2の」などの用語は、類似した対象を区別するためのものであり、必ずしも特定の順序や連続を示しているとは限らないことを理解されたい。このように用語を用いて記載されたデータはしかるべき状況で入れ替え可能であり、したがって、本明細書に記載される実施形態は、本明細書で図示される、または記載される順序とは別の順序で実施される場合があることを理解されたい。加えて、用語「含む（include）」、「包含する（contain）」および任意の他の変形は、非排他的な包含を網羅することを意味し、例えば、ステップまたはモジュールのリストを含むプロセス、方法、システム、製品またはデバイスは、明示的に列挙されたステップまたはモジュールに必ずしも限定されないが、明示的に列挙されていない他のステップまたはモジュール、あるいはそのようなプロセス、方法、製品もしくはデバイスに固有のものではない他のステップまたはモジュールを含む場合がある。

当業者は、本発明の実施形態が、方法、システム、またはコンピュータプログラム製品として提供され得ることを理解すべきである。したがって、本発明は、ハードウェアのみの実施形態、ソフトウェアのみの実施形態、またはソフトウェアとハードウェアとの組み合わせを有する実施形態の形態を使用してよい。さらに、本発明は、コンピュータで使用可能なプログラムコードを含む1つまたは複数のコンピュータで使用可能な記憶媒体（これらに限定されないが、ディスクメモリ、CD－ROM、光学メモリなどを含む）上に実装されるコンピュータプログラム製品の形態を使用してもよい。

本発明は、本発明の実施形態による方法、デバイス（システム）、およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照して説明されている。コンピュータプログラム命令は、フローチャートおよび／またはブロック図内の各プロセスおよび／または各ブロック、ならびにフローチャートおよび／またはブロック図内のプロセスおよび／またはブロックの組み合わせを実施するために使用され得ることを理解されたい。これらのコンピュータプログラム命令は、マシンを生成するために、汎用コンピュータ、専用コンピュータ、組み込みプロセッサ、または別のプログラマブルデータ処理デバイスのプロセッサに提供されてよく、その結果、コンピュータまたは別のプログラマブルデータ処理デバイスのプロセッサによって実行される命令は、フローチャートの1つまたは複数のプロセスおよび／またはブロック図の1つまたは複数のブロックにおける特定の機能を実施するための装置を生成する。

コンピュータまたは他のプログラマブルデータ処理デバイスに特定の方式で動作するよう命令することができるこれらのコンピュータプログラム命令は、コンピュータ可読メモリに記憶され、その結果、コンピュータ可読メモリに記憶された命令は、命令装置を含むアーティファクトを生成する。命令装置は、フローチャートにおける1つまたは複数のプロセスおよび／またはブロック図における1つまたは複数のブロックにおける特定の機能を実施する。

これらのコンピュータプログラム命令は、代替として、コンピュータまたは別のプログラマブルデータ処理デバイスにロードされてもよく、その結果、一連の動作およびステップは、コンピュータまたは別のプログラマブルデバイス上で行われ、それによってコンピュータ実装処理が生成される。したがって、コンピュータまたは別のプログラマブルデバイス上で実行される命令は、フローチャートにおける1つまたは複数のプロセスおよび／またはブロック図における1つまたは複数のブロックにおける特定の機能を実施するためのステップを提供する。

本発明のいくつかの実施形態が記載されているが、当業者は、基本的な発明構想を学習した後、これらの実施形態に対して変更および修正を行うことができる。従って、添付の特許請求の範囲は、本発明の範囲にある列挙される実施形態ならびに全ての変更および修正を包含するように解釈されるものとして意図されている。明らかであるように、当業者は、本発明の実施形態の趣旨および範囲から逸脱することなく、本発明の実施形態に対して様々な修正および変形を行うことができる。本発明は、それらが、添付の特許請求の範囲およびそれらと等価な技術によって規定される保護の範囲内にあるという条件で、これらの修正および変形を包含することが意図されている。

100 端末
110 無線周波数ユニット
120 メモリ
130 入力ユニット
131 タッチスクリーン
132 別の入力デバイス
133 オン／オフキー
140 表示ユニット
141 表示パネル
150 カメラ
160 オーディオ回路
161 スピーカー
162 マイクロフォン
163 ヘッドセットジャック
170 プロセッサ
180 外部インターフェース
190 電源
900 画像処理装置
901 撮影モジュール
902 決定モジュール
903 色処理モジュール
904 記憶モジュール
1000 画像処理装置
1001 撮影モジュール
1002 判定モジュール
1003 決定モジュール
1004 色処理モジュール
1005 ちらつき除去モジュール
1006 記憶モジュール
A1 主被写体マスク
A2 主被写体マスク
B1 主被写体マスク
B2 主被写体マスク

Claims

画像処理方法であって、前記方法が、
N個の画像を取得するステップであって、Nは正の整数であり、前記N個の画像はビデオを構成する、ステップと、
ニューラルネットワークを使用することによって、取得された各画像に含まれる被写体のカテゴリを決定するステップと、
現在の画像の最初のN0画像において、異なる被写体カテゴリとして決定された同じ被写体を有する隣接する画像のグループの数が、事前設定された閾値以下である場合、
前記画像内の前記被写体の前記カテゴリに基づいて前記現在の画像内のターゲット領域および背景領域を決定するステップであって、前記背景領域が前記現在の画像のうちの前記ターゲット領域以外の領域である、ステップと、
ターゲット画像を取得するために、前記ターゲット領域および前記背景領域を第1の色処理モードおよび第2の色処理モードでそれぞれ処理するステップであって、前記第1の色処理モードは前記第2の色処理モードとは異なる、ステップと、
現在の画像の最初のN0画像において、異なる被写体カテゴリとして決定された同じ被写体を有する隣接する画像のグループの数が、事前設定された閾値より大きい場合、
ターゲット画像を取得するために、前記現在の画像を前記第1の色処理モードまたは前記第2の色処理モードで処理するステップであって、前記現在の画像は、前記N個の画像のうちの1つである、ステップと
を含み、
前記画像内の前記被写体の前記カテゴリに基づいて前記現在の画像内のターゲット領域および背景領域を決定する前記ステップが、以下の方式、すなわち、
方式1：k個のマスクを取得するために、前記画像に対してセマンティックセグメンテーションを実行し、前記k個のマスクが異なる被写体カテゴリに対応し、
k＝2であり、かつ前記2つのマスクが1つの主被写体マスクと、1つの背景マスクとを含む場合、前記主被写体マスクに対応する画像領域を前記ターゲット領域として決定し、前記背景マスクに対応する領域を前記背景領域として決定する、方式
方式2：k個のマスクを取得するために、前記画像に対してセマンティックセグメンテーションを実行し、前記k個のマスクが異なる被写体カテゴリに対応し、前記k個のマスクが背景マスクおよび主被写体マスクを含み、
kが2より大きく、かつ前記k個のマスク内のk0の主被写体マスクに含まれる画素の数が、事前設定された閾値より大きい場合、前記k0の主被写体マスクに対応する画像領域を前記ターゲット領域として決定し、残りのマスクに対応する画像領域を前記背景領域として決定し、k0はk未満の非負整数である、方式
方式3：k個のマスクを取得するために、前記画像に対してセマンティックセグメンテーションを実行し、前記k個のマスクが異なる被写体カテゴリに対応し、前記k個のマスクが背景マスクおよび主被写体マスクを含み、
kが2より大きい場合、最大数の画素を含み、前記k個のマスク内にある主被写体マスクに対応する画像領域を前記ターゲット領域として決定し、残りのマスクに対応する画像領域を前記背景領域として決定する、方式
方式4：k個のマスクを取得するために、前記画像に対してセマンティックセグメンテーションを実行し、前記k個のマスクが異なる被写体カテゴリに対応し、
kが2より大きい場合、前記被写体カテゴリの事前設定された優先順位に基づいて前記k個のマスクからターゲットマスクを決定し、
前記ターゲットマスクに対応する画像領域を前記ターゲット領域として決定し、残りのマスクに対応する画像領域を前記背景領域として決定する、方式
の1つを含む、方法。
前記第1の色処理モードが色を保持するステップを含み、前記第2の色処理モードが、白黒処理するステップ、減光処理するステップ、またはぼかし処理するステップを含む、請求項1に記載の方法。
前記被写体の前記カテゴリが、人物、動物、植物、事前設定された被写体、または背景のうちの少なくとも1つを含む、請求項1または2に記載の方法。
画像処理装置であって、前記装置が、
N個の画像を取得するように構成された撮影モジュールであって、Nは正の整数であり、前記N個の画像はビデオを構成する、撮影モジュールと、
ニューラルネットワークを使用することによって、取得された各画像に含まれる被写体のカテゴリを決定するように構成された決定モジュールと、
現在の画像の最初のN0画像において、異なる被写体カテゴリとして決定された同じ被写体を有する隣接する画像のグループの数が、事前設定された閾値以下である場合、
前記画像内の前記被写体の前記カテゴリに基づいて前記現在の画像内のターゲット領域および背景領域を決定するように前記決定モジュールを制御し、前記背景領域は前記画像のうちの前記ターゲット領域以外の領域であり、ターゲット画像を取得するために、前記ターゲット領域および前記背景領域を第1の色処理モードおよび第2の色処理モードでそれぞれ処理するように色処理モジュールを制御し、前記第1の色処理モードは前記第2の色処理モードとは異なり、
現在の画像内の前記最初のN0画像において、異なる被写体カテゴリとして決定された同じ被写体を有する隣接する画像のグループの数が、事前設定された閾値より大きい場合、
ターゲット画像を取得するために、前記現在の画像を前記第1の色処理モードまたは前記第2の色処理モードで処理するようにちらつき除去モジュールを制御し、前記現在の画像は前記N個の画像のうちの1つである、ように構成された判定モジュールと
を備え、
前記決定モジュールは、
k個のマスクを取得するために、前記画像に対してセマンティックセグメンテーションを実行し、前記k個のマスクは異なる被写体カテゴリに対応し、前記k個のマスクは背景マスクと、主被写体マスクとを含み、
k＝2であり、かつ前記2つのマスクが1つの主被写体マスクと、1つの背景マスクを含む場合、前記主被写体マスクに対応する画像領域を前記ターゲット領域として決定し、前記背景マスクに対応する領域を前記背景領域として決定し、
kが2より大きく、かつ前記k個のマスク内のk0の主被写体マスクに含まれる画素の数が、事前設定された閾値より大きい場合、前記k0の主被写体マスクに対応する画像領域を前記ターゲット領域として決定し、残りのマスクに対応する画像領域を前記背景領域として決定し、k0はk未満の非負整数であり、
kが2より大きい場合、最大数の画素を含み、前記k個のマスク内にある主被写体マスクに対応する画像領域を前記ターゲット領域として決定し、残りのマスクに対応する画像領域を前記背景領域として決定し、
kが2より大きい場合、前記被写体カテゴリの事前設定された優先順位に基づいて前記k個のマスクからターゲットマスクを決定し、前記ターゲットマスクに対応する画像領域を前記ターゲット領域として決定し、残りのマスクに対応する画像領域を前記背景領域として決定する、または
kが2より大きい場合、ユーザの選択命令に従って前記k個のマスクからターゲットマスクを決定し、前記ターゲットマスクに対応する画像領域を前記ターゲット領域として決定し、残りのマスクに対応する画像領域を前記背景領域として決定する、
ようにさらに特に構成される、装置。
前記色処理モジュールは、
前記ターゲット領域の色を保持し、前記背景領域に白黒処理、減光処理、またはぼかし処理を実行するように特に構成される、請求項4に記載の装置。
端末デバイスであって、前記端末デバイスが、カメラと、メモリと、プロセッサと、バスとを備え、前記カメラ、前記メモリ、および前記プロセッサは、前記バスを介して接続され、
前記カメラは、画像を取り込むように構成され、
前記メモリは、コンピュータプログラムおよび命令を記憶するように構成され、
前記プロセッサは、請求項1から3のいずれか一項に記載の方法を実行するために、前記メモリに記憶された前記コンピュータプログラム、前記命令、および取り込まれた前記画像を呼び出すように構成される、端末デバイス。
前記端末デバイスはアンテナシステムをさらに備え、前記アンテナシステムは、前記プロセッサの制御下で、モバイル通信ネットワークとの無線通信を実施するために、無線通信信号を送受信し、前記モバイル通信ネットワークは、以下の、GSMネットワーク、CDMAネットワーク、3Gネットワーク、4Gネットワーク、5Gネットワーク、FDMAネットワーク、TDMAネットワーク、PDCネットワーク、TACSネットワーク、AMPSネットワーク、WCDMAネットワーク、TDSCDMAネットワーク、Wi－Fiネットワーク、およびLTEネットワークのうちの1つまたは複数を含む、請求項6に記載の端末デバイス。