JP7226851B2

JP7226851B2 - 画像処理の方法および装置並びにデバイス

Info

Publication number: JP7226851B2
Application number: JP2021521025A
Authority: JP
Inventors: リ、ユ; マ、フェイロン; ワン、ティゼン; フアン、シウジエ
Original assignee: ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date: 2018-10-15
Filing date: 2019-06-18
Publication date: 2023-02-21
Anticipated expiration: 2039-06-18
Also published as: BR112021007094A2; JP2022505115A; CN112840376B; CN113129312A; CN112840376A; EP3859670A1; KR20210073568A; CN113112505B; WO2020078027A1; AU2019362347B2; CN113112505A; MX2021004295A; US20210241432A1; AU2019362347A1; CN113129312B; CN109816663A; EP3859670A4; CN109816663B

Description

本発明は、端末技術の分野、特に、画像処理の方法および装置並びにデバイスに関する。

撮影とは、カメラまたはビデオレコーダを使用して人物または物体の画像を記録することである。夜のシーンの撮影、雨のシーンの撮影、建物の撮影、およびポートレートの撮影等、異なるシーンには異なる撮影スキルがある。映画芸術の動態撮影も一種の撮影であるが、特定の原則に従っている必要がある。科学技術の進歩に伴って、撮影がより簡単になり、人気が高まっている。

ネットワーク帯域幅の拡大および端末処理能力の強化に伴って、ビデオおよび画像の撮影および共有がより便利になり、ビデオの消費が全ての人々にとって新しい生活様式になっている。ビデオはすぐにネットワーク上のトラフィック集約的なサービスになり、今後数年間で総トラフィックの８０％から９０％を占めることが予想される。

日常生活において、撮影は、人々が自分自身を示し物事の美しさを見つける主な方法になっている。人々はより興味深いスタイルで撮影を実行したいと思っている。例えば、撮影中に画像またはビデオの特殊効果処理を完了して「見たままが得られる」撮影体験を実装する。従って、素人の場合は、より新しい画像処理技術を端末に統合する必要がある。

現在のところ、端末のビデオ記録機能は単調である。現在のところ、提供され得るのは従来のビデオ撮影のみであり、幾つかのパーソナライズ効果に欠いている。

本発明は画像処理方法を提供する。画像に対するマスク（テンプレート）セグメンテーションを実行することにより、画像内のターゲット領域および背景領域が決定される。ターゲット領域および背景領域に対して異なる色処理モードが適用され、その結果、ターゲット領域の輝度が背景領域の輝度よりも大きくなるか、または、ターゲット領域の色度が背景領域の色度よりも大きくなり、ターゲット領域に対応する主要物体がより目立つように強調される。これによって端末ユーザは写真撮影またはビデオ撮影の間に映画の特殊効果を得ることができ、ユーザの撮影体験が向上する。

本発明の複数の実施形態で提供する特定の技術的解決策は以下の通りである。

第１態様によれば、本発明のある実施形態は画像処理方法を提供する。方法はビデオ記録プロセスに適用され、方法は、第１期間にＮ１個の画像を撮像する段階と、第２期間にＮ２個の画像を撮像する段階であって、第１期間および第２期間は隣接する期間であり、Ｎ１およびＮ２はどちらも正の整数である、撮像する段階と、Ｎ１個の画像の各々から第１ターゲット領域および第１背景領域を決定する段階であって、第１背景領域は第１ターゲット領域以外の画像の領域であり、Ｎ１個の画像の各々における第１ターゲット領域は第１物体に対応する、決定する段階と、Ｎ２個の画像の各々から第２ターゲット領域および第２背景領域を決定する段階であって、第２背景領域は第２ターゲット領域以外の画像の領域であり、Ｎ２個の画像の各々における第２ターゲット領域は第２物体に対応する、決定する段階と、ターゲットビデオを取得するために、第１色処理モードでの第１ターゲット領域の処理と、第２色処理モードでの第１背景領域の処理と、第３色処理モードでの第２ターゲット領域の処理と、第４色処理モードでの第２背景領域の処理とを行う段階とを含む。ターゲットビデオでは、第１ターゲット領域の色度が第１背景領域の色度よりも大きくなるか、または、第１ターゲット領域の輝度が第１背景領域の輝度よりも大きくなる。加えて、第２ターゲット領域の色度が第２背景領域の色度よりも大きくなるか、または、第２ターゲット領域の輝度が第２背景領域の輝度よりも大きくなる。

第２態様によれば、本発明のある実施形態は画像処理装置を提供する。装置はビデオ撮影プロセスで使用され、装置は、第１期間にＮ１個の画像を撮像し、かつ、第２期間にＮ２個の画像を撮像するように構成される撮影モジュールであって、第１期間および第２期間は隣接する期間であり、Ｎ１およびＮ２はどちらも正の整数である、撮影モジュールと、Ｎ１個の画像の各々から第１ターゲット領域および第１背景領域を決定することであって、第１背景領域は第１ターゲット領域以外の画像の領域であり、Ｎ１個の画像の各々における第１ターゲット領域は第１物体に対応する、決定することと、Ｎ２個の画像の各々から第２ターゲット領域および第２背景領域を決定することであって、第２背景領域は第２ターゲット領域以外の画像の領域であり、Ｎ２個の画像の各々における第２ターゲット領域は第２物体に対応する、決定することとを行うように構成される決定モジュールと、ターゲットビデオを取得するために、第１色処理モードでの第１ターゲット領域の処理と、第２色処理モードでの第１背景領域の処理と、第３色処理モードでの第２ターゲット領域の処理と、第４色処理モードでの第２背景領域の処理とを行うように構成される色処理モジュールとを含む。ターゲットビデオでは、第１ターゲット領域の色度が第１背景領域の色度よりも大きくなるか、または、第１ターゲット領域の輝度が第１背景領域の輝度よりも大きくなる。加えて、第２ターゲット領域の色度が第２背景領域の色度よりも大きくなるか、または、第２ターゲット領域の輝度が第２背景領域の輝度よりも大きくなる。

第１態様または第２態様によれば、考えられる設計において、第１物体および第２物体は同じ物体である。

第１態様または第２態様によれば、考えられる設計において、第１物体および第２物体は異なる物体である。

第１態様または第２態様によれば、考えられる設計において、第１物体または第２物体は、ある物体種別（例えば、人物、動物、または植物）の少なくとも１つの個体を含む。

第１態様または第２態様によれば、考えられる設計において、第１物体および第２物体はユーザの選択命令に従って決定される。

具体的には、例えば、第１物体はユーザの選択命令に従って第１期間における第１画像から決定され、第１物体は第１期間における全ての画像でターゲット物体として使用される。同様に、第２物体はユーザの選択命令に従って第２期間における第１画像から決定され、第２物体は第２期間における全ての画像でターゲット物体として使用される。例えば、画像に対するセマンティックセグメンテーションを実行してｋ個のマスクを取得してよい。ｋ個のマスクは異なる物体種別に対応し、ユーザにより入力される選択命令が１または複数の特定のマスクに対応し、１または複数の特定のマスクに対応する物体がターゲット物体である。

第１態様または第２態様によれば、考えられる設計において、第１物体および第２物体は、予め設定された時間間隔での２つの画像の内容に基づいて端末により別個に決定される。

具体的には、例えば、第１物体は第１期間における第１画像から決定され、第１物体は第１期間における全ての画像でターゲット物体として使用される。同様に、第２物体は第２期間における第１画像から決定され、第２物体は第２期間における全ての画像でターゲット物体として使用される。第１物体が第１期間における第１画像から決定され、かつ、第２物体が第２期間における第１画像から決定される方式は、限定されるわけではないが、画像に対するセマンティックセグメンテーションを実行してｋ個のマスクを取得する方式であって、ｋ個のマスクは異なる物体種別に対応する、取得する方式、および、ｋ＝２であり、かつ、２つのマスクが１つの物体マスクおよび１つの背景マスクを含む場合に、物体マスクに対応する画像領域をターゲット領域として決定し、背景マスクに対応する領域を背景領域として決定する方式であって、物体マスクに対応する物体が第１物体または第２物体である、決定する方式、ｋが２よりも大きく、かつ、ｋ個のマスクのうちｋ０個の物体マスクに含まれる画素の数が予め設定された閾値よりも大きい場合に、ｋ０個の物体マスクに対応する画像領域をターゲット領域として決定し、残りのマスクに対応する画像領域を背景領域として決定する方式であって、物体マスクに対応する物体が第１物体または第２物体であり、ｋ０はｋよりも小さな非負整数である、決定する方式、ｋが２よりも大きい場合に、ｋ個のマスクのうち最大数の画素を含むマスクに対応する画像領域をターゲット領域として決定し、残りのマスクに対応する画像領域を背景領域として決定する方式であって、物体マスクに対応する物体が第１物体または第２物体である、決定する方式、ｋが２よりも大きい場合に、物体種別の予め設定された優先度に基づいてｋ個のマスクからターゲットマスクを決定することと、ターゲットマスクに対応する画像領域をターゲット領域として決定し、残りのマスクに対応する画像領域を背景領域として決定することであって、物体マスクに対応する物体が第１物体または第２物体である、決定することとを行う方式、または、ｋが２よりも大きい場合に、ユーザの選択命令に従ってｋ個のマスクからターゲットマスクを決定することと、ターゲットマスクに対応する画像領域をターゲット領域として決定し、残りのマスクに対応する画像領域を背景領域として決定することであって、物体マスクに対応する物体が第１物体または第２物体である、決定することとを行う方式のうちの１つを含む。方法は具体的に決定モジュールにより実行されてよい。

第１態様または第２態様によれば、考えられる設計において、第１色処理モードは第３色処理モードと同じであり、第２色処理モードは第４色処理モードと同じである。

第１態様または第２態様によれば、考えられる設計において、第１色処理モードは第３色処理モードと同じであり、第２色処理モードは第４色処理モードと異なる。

第１態様または第２態様によれば、考えられる設計において、第１色処理モードは第３色処理モードと異なり、第２色処理モードは第４色処理モードと同じである。

第１態様または第２態様によれば、考えられる設計において、第１色処理モードは第３色処理モードと異なり、第２色処理モードは第４色処理モードと異なる。

第１態様または第２態様によれば、考えられる設計において、第１色処理モードまたは第３色処理モードは、色保持または色強化を含む。

第１態様または第２態様によれば、考えられる設計において、第２色処理モードまたは第４色処理モードは、白黒、暗化、ぼかし、またはレトロモードを含む。

第３態様によれば、本発明のある実施形態は、カメラと、メモリと、プロセッサと、バスとを含む端末デバイスを提供する。カメラ、メモリ、およびプロセッサはバスを介して接続される。カメラは画像を撮像するように構成され、メモリはコンピュータプログラムおよび命令を記憶するように構成される。プロセッサは、メモリに記憶されるコンピュータプログラム、命令、および撮像された画像を呼び出すように構成され、更には具体的に、前述した考えられる設計方法のいずれか１つを端末デバイスが実行することを可能にするように構成される。

第３態様によれば、考えられる設計において、端末デバイスは更にアンテナシステムを含む。アンテナシステムは、プロセッサの制御下で無線通信信号を送受信してモバイル通信ネットワークとの無線通信を実装する。モバイル通信ネットワークは、ＧＳＭ（登録商標）ネットワーク、ＣＤＭＡネットワーク、３Ｇネットワーク、４Ｇネットワーク、５Ｇネットワーク、ＦＤＭＡネットワーク、ＴＤＭＡネットワーク、ＰＤＣネットワーク、ＴＡＣＳネットワーク、ＡＭＰＳネットワーク、ＷＣＤＭＡ（登録商標）ネットワーク、ＴＤＳＣＤＭＡネットワーク、Ｗｉ－Ｆｉ（登録商標）ネットワーク、およびＬＴＥネットワークのうちの１または複数を含む。

前述した考えられる設計における技術的解決策を、自然に反することなく組み合わせてよい。

従来技術では、ビデオまたは画像が撮影されると、任意の画像における個体同士または色同士が区別されず、特殊効果が十分に豊富ではない。本発明によれば、複数の色を使用することにより画像内の異なる領域同士を区別することができ、その結果、写真またはビデオの特殊効果が高まり、画像内の主要物体およびターゲットをより強調することができる。このようにして、主な役割がより顕著になる。加えて、本発明は更に、色の変化および主要物体の変化をより多く提供して、ユーザの粘性を向上させることができる。

本発明のある実施形態に係る端末の構造の概略図である。

本発明のある実施形態に係る画像処理方法のフローチャートである。

本発明のある実施形態に係るマスク識別子の例を示す。

本発明のある実施形態に係るマスク識別子の別の例を示す。

本発明のある実施形態に係るターゲットマスクの決定の概略図である。

本発明のある実施形態に係るターゲットマスクの決定の別の概略図である。

本発明のある実施形態に係る画像処理装置の概略図である。

本発明のある実施形態に係る画像処理装置の別の概略図である。

以下では、本発明の実施形態における添付図面を参照しながら、本発明の実施形態における技術的解決策について明確かつ十分に説明する。当然、説明されている実施形態は本発明の実施形態の全てではなく、幾つかであるに過ぎない。当業者が創造的努力をすることなく本発明の実施形態に基づいて取得する他の実施形態は全て、本発明の保護範囲に含まれるものとする。

本発明の実施形態では、端末が、ユーザにビデオ撮影および／またはデータ接続を提供するデバイス、無線接続機能を有するハンドヘルドデバイス、または無線モデムに接続される別の処理デバイス、例えば、デジタルカメラ、一眼レフカメラ、携帯電話（または「セルラ」電話と呼ばれる）、またはスマートフォンであってよい。端末は、携帯用デバイス、ポケットサイズのデバイス、ハンドヘルドデバイス、またはウェアラブルデバイス（例えば、スマートウォッチ）、タブレットコンピュータ、パーソナルコンピュータ（ＰＣ）、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、車載コンピュータ、ドローン、または空中デバイス等であってよい。

図１は、端末１００の任意選択的なハードウェア構造の概略図である。

図１に示すように、端末１００は、無線周波数ユニット１１０、メモリ１２０、入力ユニット１３０、表示ユニット１４０、カメラ１５０、オーディオ回路１６０（スピーカ１６１およびマイク１６２を含む）、プロセッサ１７０、外部インタフェース１８０、および電力供給装置１９０等の構成要素を含んでよい。当業者は、図１がインテリジェント端末または多機能デバイスの例に過ぎず、インテリジェント端末への制限にも多機能デバイスへの制限にもならないことを理解することができる。インテリジェント端末または多機能デバイスは、図に示すものよりも多いか少ない構成要素を含んでも、幾つかの構成要素を組み合わせても、異なる構成要素を含んでもよい。例えば、インテリジェント端末または多機能デバイスは、少なくともメモリ１２０、プロセッサ１７０、およびカメラ１５０を含む。

カメラ１５０は、画像またはビデオを撮像するように構成され、写真撮影機能またはビデオ撮影機能を実装するために、アプリケーションプログラムからの命令に従ってトリガおよび開始されてよい。カメラは、結像レンズ、光フィルタ、および画像センサ等の構成要素を含んでよい。物体により放出または反射される光線が結像レンズに入り、光フィルタを通過し、最終的に画像センサ上に収束する。結像レンズは主に、ある撮影画角で全ての物体（撮影されるシナリオ、撮影される物体、ターゲットシナリオ、またはターゲット物体と呼ばれることもあり、ユーザが撮影したいシナリオ画像として理解されることもある）により放出または反射される光を画像内に収束するように構成される。光フィルタは主に、光線中の余剰光波（例えば、可視光以外の光波、例えば、赤外光）をフィルタで除去するように構成される。画像センサは主に、受信される光信号に対して光から電気への変換を実行し、その光信号を電気信号に変換し、その電気信号を後続処理のためプロセッサ１７０に入力するように構成される。カメラは端末デバイスの前に配置されてもよいし、端末デバイスの後ろに配置されてもよい。カメラの具体的な数および具体的な配置方式は、設計者またはベンダポリシの要件に基づいて柔軟に決定されてよい。本願ではこれについて限定しない。

入力ユニット１３０は、入力される数字または文字情報を受信し、多機能装置のユーザ設定および機能制御に関連するキー信号入力を生成するように構成されてよい。具体的には、入力ユニット１３０は、タッチスクリーン１３１および／または別の入力デバイス１３２を含んでよい。タッチスクリーン１３１は、タッチスクリーン１３１上またはその近くにおけるユーザのタッチ操作（例えば、指、関節、またはタッチペン等の任意の適切な物体を使用することにより、タッチスクリーン上またはタッチスクリーンの近くでユーザにより実行される操作）を収集し、予め設定されたプログラムに基づいて、対応する接続装置を駆動してよい。タッチスクリーンは、タッチスクリーン上におけるユーザのタッチ行為を検出し、そのタッチ行為をタッチ信号に変換し、そのタッチ信号をプロセッサ１７０に送信してよく、プロセッサ１７０により送信されるコマンドを受信および実行することができる。タッチ信号は少なくとも接触座標情報を含む。タッチスクリーン１３１は、端末１００とユーザとの間の入力インタフェースおよび出力インタフェースを提供してよい。加えて、タッチスクリーンは、抵抗型、容量型、赤外線型、および表面弾性波型等の様々なタイプで実装されてよい。タッチスクリーン１３１に加えて、入力ユニット１３０は更に、この別の入力デバイスを含んでよい。具体的には、別の入力デバイス１３２は、限定されるわけではないが、物理キーボード、ファンクションキー（例えば、ボリュームコントロールキーまたはオン／オフキー１３３）、トラックボール、マウス、およびジョイスティック等のうちの１または複数を含んでよい。

表示ユニット１４０は、ユーザにより入力される情報またはユーザに提供される情報、端末１００の様々なメニュー、対話インタフェース、およびファイルの表示、および／または、任意のマルチメディアファイルの再生を行うように構成されてよい。本発明のこの実施形態において、表示ユニットは更に、カメラ１５０を使用することによって端末により取得される画像／ビデオを表示するように構成される。画像／ビデオは、幾つかの撮影モードにおけるプレビューの画像／ビデオ、撮影される初期の画像／ビデオ、および、撮影が実行された後に特定のアルゴリズム処理が実行されるターゲットの画像／ビデオを含んでよい。

更に、タッチスクリーン１３１は表示パネル１４１を含んでよい。タッチスクリーン１３１は、タッチスクリーン１３１上またはその近くにおけるタッチ操作を検出した後、プロセッサ１７０にタッチ操作を転送してタッチイベントのタイプを決定する。次に、プロセッサ１７０は、タッチイベントのタイプに基づいて、表示パネル１４１上に対応する視覚的出力を提供する。この実施形態では、タッチスクリーンおよび表示ユニットを１つの構成要素に統合して、端末１００の入力機能、出力機能、および表示機能を実装してよい。説明し易くするために、本発明のこの実施形態では、タッチ表示スクリーンがタッチスクリーンおよび表示ユニットの機能セットを表す。幾つかの実施形態では、タッチスクリーンおよび表示ユニットは代替的に、２つの独立した構成要素として使用されてもよい。

メモリ１２０は、命令およびデータを記憶するように構成されてよい。メモリ１２０は主に、命令記憶領域およびデータ記憶領域を含んでよい。データ記憶領域は、マルチメディアファイルおよびテキスト等のデータを記憶してよい。命令記憶領域は、オペレーティングシステム、アプリケーション、および、少なくとも１つの機能に必要な命令等のソフトウェアユニット、それらのサブセット、またはそれらの拡張セットを記憶してよい。メモリ１２０は更に、不揮発性ランダムアクセスメモリを含んでよく、コンピューティング処理デバイスにおけるハードウェア、ソフトウェア、データリソースの管理と、ソフトウェアおよびアプリケーションの制御のサポートとを含む機能をプロセッサ１７０に提供してよい。メモリ１２０は更に、マルチメディアファイルを記憶し、かつ、実行プログラムおよびアプリケーションを記憶するように構成される。

プロセッサ１７０は端末１００の制御センタであり、様々なインタフェースおよび回線を介して端末全体の様々な部分に接続される。プロセッサ１７０は、メモリ１２０に記憶される命令を動作させるか実行すること、および、メモリ１２０に記憶されるデータを呼び出すことにより、端末１００の様々な機能を実行し、データを処理して、端末の全体的な制御を実行する。任意選択で、プロセッサ１７０は１または複数の処理ユニットを含んでよい。好ましくは、プロセッサ１７０は、アプリケーションプロセッサおよびモデムプロセッサと統合されてよい。アプリケーションプロセッサは主に、オペレーティングシステム、ユーザインタフェース、およびアプリケーションプログラム等を処理する。モデムプロセッサは主に無線通信を処理する。モデムプロセッサは代替的に、プロセッサ１７０に統合されなくてもよいことが理解できる。幾つかの実施形態では、プロセッサおよびメモリは代替的に、単一のチップ上に実装されてよい。幾つかの実施形態では、プロセッサおよびメモリは、独立したチップ上にそれぞれ実装されてよい。プロセッサ１７０は更に、対応する動作制御信号を生成し、その動作制御信号をコンピューティング処理デバイス内の対応する構成要素に送信し、ソフトウェア内のデータの読み取りおよび処理、特に、メモリ１２０内のデータおよびプログラムの読み取りおよび処理を行うように構成されてよく、その結果、プロセッサ１７０内の機能モジュールが、対応する機能を実行して、命令に必要な動作を実行するよう、対応する構成要素を制御する。

無線周波数ユニット１１０は、発信プロセスで情報の送受信または信号の送受信を行うように構成されてよい。例えば、無線周波数ユニット１１０は基地局からダウンリンク情報を受信し、次に、そのダウンリンク情報を処理のためプロセッサ１７０に配信し、関連するアップリンクデータを基地局に送信する。概して、無線周波数ユニットは、限定されるわけではないが、アンテナ、少なくとも１つの増幅器、トランシーバ、カプラ、低雑音増幅器（ＬｏｗＮｏｉｓｅＡｍｐｌｉｆｉｅｒ、ＬＮＡ）、およびデュプレクサ等を含む。加えて、無線周波数ユニット１１０は更に、無線通信を介してネットワークデバイスおよび別のデバイスと通信してよい。無線通信は、限定されるわけではないが、グローバルシステム・フォー・モバイルコミュニケーションズ（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ、ＧＳＭ）、汎用パケット無線サービス（ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ、ＧＰＲＳ）、符号分割多重アクセス（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、ＣＤＭＡ）、広帯域符号分割多重アクセス（ＷｉｄｅｂａｎｄＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、ＷＣＤＭＡ）、ロングタームエボリューション（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ、ＬＴＥ）、電子メール、およびショートメッセージサービス（ＳｈｏｒｔＭｅｓｓａｇｅＳｅｒｖｉｃｅ、ＳＭＳ）等を含む任意の通信規格またはプロトコルを使用してよい。

オーディオ回路１６０、スピーカ１６１、およびマイク１６２は、ユーザと端末１００との間のオーディオインタフェースを提供してよい。オーディオ回路１６０は、受信されたオーディオデータから変換される電気信号をスピーカ１６１に送信してよく、スピーカ１６１は、その電気信号を出力のため音信号に変換する。加えて、マイク１６２は音信号を収集するように構成されており、更には、収集された音信号を電気信号に変換してよい。オーディオ回路１６０は電気信号を受信し、電気信号をオーディオデータに変換し、そのオーディオデータを処理のためプロセッサ１７０に出力し、次に、処理されるオーディオデータを、例えば、無線周波数ユニット１１０を介して別の端末に送信するか、または、処理されるオーディオデータを更なる処理のためメモリ１２０に出力する。オーディオ回路は、オーディオ回路とヘッドセットとの間の接続インタフェースを提供するように構成されるヘッドセットジャック１６３を含んでもよい。スピーカおよびマイクの具体的な数および具体的な配置方式は、設計者またはベンダポリシの要件に基づいて柔軟に決定されてよい。本願ではこれについて限定しない。

端末１００は更に、各構成要素に電力を供給する電力供給装置１９０（例えば、バッテリ）を含む。好ましくは、電力管理システムを使用することによりプロセッサ１７０に電力供給装置を論理的に接続して、電力管理システムを使用することによる充電、放電、および電力消費管理等の機能を実装してよい。

端末１００は更に外部インタフェース１８０を含む。外部インタフェースは標準的なマイクロＵＳＢポートであってもよいし、多ピンコネクタであってもよい。外部インタフェースは、端末１００を通信のため別の装置に接続するように構成されてもよいし、端末１００を充電するための充電器に接続するように構成されてもよい。

示されてはいないが、端末１００は更に、閃光、ワイヤレスフィデリティ（ｗｉｒｅｌｅｓｓｆｉｄｅｌｉｔｙ、Ｗｉ－Ｆｉ）モジュール、ブルートゥース（登録商標）モジュール、および異なる機能を持つセンサ等を含んでよい。本明細書では詳細について説明しない。図１に示す端末には、以下で説明する方法の幾つかまたは全てが適用されてよい。

本発明は、撮影機能（写真撮影機能またはビデオ撮影機能のうちの少なくとも一方を含む）を有する端末デバイスに適用されてよく、実装される製品は、インテリジェント端末、例えば、携帯電話、タブレット、ＤＶ、ビデオカメラ、カメラ、携帯用コンピュータ、ノートブックコンピュータ、インテリジェントロボット、テレビ、セキュリティ保護システム、またはドローン等のカメラが設置される製品の形態であってよい。具体的には、本発明の機能モジュールは、関連するデバイスのＤＳＰチップ上に展開されてよく、具体的には、ＤＳＰチップ内のアプリケーションプログラムまたはソフトウェアであってよい。本発明では、端末デバイス上に機能モジュールを展開して、ソフトウェアのインストールまたはアップグレードとハードウェアの呼び出しおよび協調とを通じて画像処理機能を提供する。

本発明は主に、端末デバイスを使用することにより画像またはビデオが撮影されるシナリオに適用される。人々はビデオ撮影に対する要求をますます高めており、「見たままが得られる」ビデオ撮影体験を実装するために、撮影しながらビデオの特殊効果処理を完了したいと思っている。本発明によれば、画像の特殊効果をリアルタイムで実装するために、画像またはビデオに対して主要物体のセグメンテーションが実行されてよく、異なる領域の色が調整されてよい。

以下では、例を使用することにより本発明について説明する。

［例１］

詳細については図２を参照されたい。図２は、本発明のある実施形態に係る画像処理方法のフローチャートである。方法は、画像を撮影するプロセスで実行される。特定の実装プロセスでは、端末が撮影モードを構成してよい。撮影モードでは、方法が以下の段階を含んでよい。

段階２１：画像を取得（撮影または撮像として理解されてもよい）する。

具体的には、ユーザが写真を取ると、対応するプレビューストリームもスクリーン上に表示される。プレビュー画像とは概して、プレビューストリーム内の１つの画像を指してよい。ユーザがシャッタをクリックすると、撮影された画像が取得される。撮影された画像のサイズは、例えば、限定されるわけではないが、１９２０×１０８０である。

段階２２：撮影された画像内の内容（シーンセマンティクスとして理解されてよい）に基づいて、画像内のターゲット領域および背景領域を決定する。より具体的には、画像内のターゲット領域および背景領域は、画像内の物体の種別に基づいて決定されてよい。背景領域はターゲット領域以外の画像の領域である。ターゲット領域は、画像内のターゲット物体、すなわち、ユーザが画像内で強調したい物体に対応しており、ユーザの対話的選択またはシステム設定に関連してよい。具体的には、段階２２はＳ２２１からＳ２２４を含んでよい。

Ｓ２２１：画像の前処理をする。

撮影された元のサイズの画像はダウンサンプリングされ、より小さな解像度の画像に変換される。この小さな画像に基づいて計算が実行されると、計算量が低減され得る。特定の実装プロセスでは、元のサイズ（例えば、ｍ０×ｎ０）がｍ×ｎのサイズにダウンサンプリングされてよい。ｍおよびｎの値が小さいほど、後続の計算量が少ないことを示す。ただし、ｍおよびｎの値が過度に小さい場合は、後に画素の解像度が低下する。実験では、ｍおよびｎの適切な値の範囲が［１２８、５１２］、より具体的には、［２５６、３００］であることが示されている。加えて、ｍおよびｎは等しい場合と等しくない場合がある。例えば、１９２０×１０８０の画像が２５６×２５６にダウンサンプリングされてよい。

Ｓ２２２：ダウンサンプリングされたｍ×ｎ画像をニューラルネットワークに入力してセマンティックセグメンテーションを実行することで、画像マスク（Ｍａｓｋ）を決定する。

セマンティックセグメンテーションとは、画像内の物体に対して実行される画素レベルのセグメンテーションを指し、画素ごとに物体の種別がマーキングされる。物体種別がマーキングされていない領域が「背景」としてマーキングされる。

具体的には、セマンティックセグメンテーションは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に基づく深層学習アルゴリズムを使用してよい。ＣＮＮベースのネットワークモデルの具体的な説明は以下の通りである。

（１）ｍ×ｎ画像に対するダウンサンプリングおよび畳み込みを実行して、ｍ１×ｎ１画像、ｍ２×ｎ２画像、・・・、およびｍｚ×ｎｚ画像を取得する。層ごとに画像セマンティック特徴を抽出して、ｍ１×ｎ１特徴マップ、ｍ２×ｎ２特徴マップ、・・・、およびｍｚ×ｎｚ特徴マップ、すなわち、マルチスケールのセマンティック特徴を取得する。ここで、ｍ１、ｍ２、・・・、およびｍｚは倍数関係（ｍｕｌｔｉｐｌｅｒｅｌａｔｉｏｎｓｈｉｐ）にあり、ｍよりも小さく、ｎ１、ｎ２、・・・、ｎｚは倍数関係にあり、ｎよりも小さい。例えば、ｍ＝２ｍ１＝４ｍ２＝、・・・、＝２^Ｚ×ｍｚであり、ｎ＝２ｎ１＝４ｎ２＝、・・・、＝２^Ｚ×ｎｚである。ｚの値および倍数関係は、アルゴリズム性能および設計要件に基づいて決定されてよい。

（２）ｍ１×ｎ１特徴マップ、ｍ２×ｎ２特徴マップ、・・・、およびｍｚ×ｎｚ特徴マップに対する畳み込みおよびアップサンプリングを実行して、マルチスケールのセマンティック特徴を融合する。

上述した畳み込み、ダウンサンプリング、およびアップサンプリングの方法は、この業界でよく知られている技術を使用してよく、本発明では限定および列挙されない。

（３）画像内で識別する必要がある物体種別を決定し、各画素における各物体種別のスコアを計算し、スコアが最も高い物体種別（略して、種別であってよい）を画素の分類結果として使用し、最終的にマスクグラフ、すなわち、マスクを取得する。

例えば、端末がｋ個の物体種別（例えば、人物、動物、植物、別の予め設定された物体、または背景のうちの少なくとも１つ）を識別できる場合は、ｋ個の画像が取得されてよい。画像内の各画素は、ある物体種別に属するスコアを取得する。スコアが高いほど、その画素がその物体種別に属する確率が高いことを示す。

任意の画素の物体種別が決定されると、その画素は識別されてよい。例えば、１は人物を示すために使用され、２は車両を示すために使用され、３は動物を示すために使用され、４は植物を示すために使用され、０は背景を示すために使用される。これは例に過ぎず、いかなる制限にもならない。ユーザは、設計要件に基づいて、種別の数、種別、および識別方法をランダムに設計してよい。具体的な例を図３に示すことができる。車両が位置する全ての画素領域がニューラルネットワークにより車両として分類され、１として識別される。周辺の背景部分における全ての画素領域がニューラルネットワークにより背景として分類され、０として識別される。別の例として、ニューラルネットワークにより出力されるマスクでは、同じ種別の物体の領域が同じラベルを有する。例えば、背景のラベルが０であり、猫のラベルが１であり、スケートボードのラベルが２である。図４に示すマスクでは更に、同じ物体種別のラベルを表すために同じ色が使用されてよい。例えば、異なる色を使用することにより、人物、馬、および背景がそれぞれ識別される。

マスクは、セマンティックセグメンテーションアルゴリズムの結果である。ある画像では、物体のある種別に属する全ての画素が色または識別子としてラベル付けされ、背景も色または識別子としてラベル付けされる。処理後に取得される画像はマスクと呼ばれ、その結果、セグメンテーション結果が直感的に表示される。

画像の内容は主要物体および背景を含んでよい。説明し易くするため、それに応じて、画像マスクは主要物体マスクおよび背景マスクを含んでよい。主要物体マスクは、画像または撮影される画像内でユーザが強調したい個体、例えば、人物、動物、植物、または特定の物体（カップ、テーブル、衣類、装飾品・・・）を含む、セグメンテーション方法を使用することにより識別される主要物体に対応してよい。背景マスクは、主要物体マスクとして識別されない画像内の別の領域に対応する。画像マスクは画像全体に対応する。主要物体マスクの識別能はニューラルネットワークの性能に関連する。例えば、幾つかのニューラルネットワークは、人物および背景のみを識別することができる。幾つかのニューラルネットワークは、人物、車両、および背景を識別することができる。幾つかのニューラルネットワークは、車両および背景のみを識別することができる。幾つかのニューラルネットワークは、人物、動物、および背景を識別することができる。幾つかのニューラルネットワークは、動物および背景のみを識別することができる。幾つかニューラルネットワークは、動物、植物、背景・・を識別することができる。

画像は代替的に主要物体のみを含んでもよいし、背景のみを含んでもよいことを理解されたい。画像が主要物体のみを含む場合は、主要物体が背景として識別されてもよい。画像内の主要物体および背景に関するこれらの設定は、設計者により柔軟に設計および決定されてよい。

深層ニューラルネットワークのトレーニングには大量のセグメンテーショントレーニングデータを使用する必要があり、トレーニングデータセットが、セグメンテーション物体種別、入力画像、およびマスクグラフを含む多数の画像を含む。トレーニングデータセットは、セグメンテーション物体の様々な典型的な適用シナリオをカバーしてよく、多様なデータを有する。トレーニングデータセット内の入力画像およびマスクグラフを使用してネットワークをトレーニングすることで、優れたネットワークパラメータを取得する、すなわち、ユーザが満足するセグメンテーション性能を取得する。取得されたネットワークパラメータは、ニューラルネットワークの最終的に使用される計算パラメータとして使用される。

Ｓ２２３：マスクに基づいてターゲットマスクを決定する。

異なる能力を持つ異なる画像およびニューラルネットワークの場合は、様々なマスクが取得されてよい。端末は更に、これらのマスクのうち強調して目立つように表示する必要が最もある物体に対応するマスクを決定してよい。すなわち、ターゲットマスクを決定する必要がある。ターゲットマスクの決定は、限定されるわけではないが、以下の幾つかのの方式を含む。

方式１：マスクが１つの主要物体マスクおよび１つの背景マスクのみを含む場合は、主要物体マスクがターゲットマスクとして決定される。

具体的には、画像に対するセマンティックセグメンテーションを実行してｋ個のマスクを取得することが想定される。ｋ個のマスクは異なる物体種別に対応する。ｋ＝２であり、かつ、２つのマスクが１つの物体マスクおよび１つの背景マスクを含む場合は、物体マスクに対応する画像領域がターゲット領域として決定され、背景マスクに対応する領域が背景領域として決定される。

図５に示すように、ニューラルネットワークにより出力される画像のマスクが主要物体マスクＡ１および背景マスクのみを含む。この場合は、Ａ１がターゲットマスクとして決定されてよい。

方式２：マスクが複数の主要物体マスクおよび１つの背景マスクを含むときに、任意の主要物体マスクに含まれる画素の数が特定の閾値よりも大きい場合は、その主要物体マスクがターゲット主要物体として決定される、または、任意の主要物体マスクに含まれる画素の数が特定の閾値よりも小さい場合は、その主要物体マスクが再マーキングされ、また、背景としてマーキングされる。主要物体マスクに含まれる画素の数は、画像内の個体の領域に含まれる画素の数であってよい。

具体的には、画像に対するセマンティックセグメンテーションを実行してｋ個のマスクを取得することが想定される。ｋ個のマスクは異なる物体種別に対応する。ｋが２よりも大きく、かつ、ｋ個のマスクのうちｋ０個の物体マスクに含まれる画素の数が予め設定された閾値よりも大きい場合は、ｋ０個の物体マスクに対応する画像領域がターゲット領域として決定され、残りのマスクに対応する画像領域が背景領域として決定される。ここで、ｋ０はｋよりも小さな非負整数である。

図６に示すように、ニューラルネットワークにより出力される画像のマスクが、主要物体マスクＡ１、主要物体マスクＡ２、および背景マスクを含む。Ａ１に含まれる画素の数が予め設定された閾値よりも大きく、かつ、Ａ２に含まれる画素の数が予め設定された閾値よりも大きくない場合は、Ａ１がターゲットマスクとして決定され、主要物体マスクＡ２が背景マスクとして再マーキングされる。再マーキングされるマスクを図５に示すことができる。Ａ１に含まれる画素の数が予め設定された閾値よりも大きく、かつ、Ａ２に含まれる画素の数も予め設定された閾値より大きい場合は、Ａ１およびＡ２の両方がターゲットマスクとして決定される。Ａ１に含まれる画素の数もＡ２に含まれる画素の数も予め設定された閾値より大きくない場合は、Ａ１およびＡ２が背景マスクとして再識別される。すなわち、画像は主要物体マスクを含まない。

特定の実装プロセスでは、Ａ１およびＡ２が同じ物体種別または異なる物体種別であってよいことを理解されたい。

方式３：マスクが複数の主要物体マスクおよび１つの背景マスクを含む場合は、最大数の画素を含む主要物体マスクがターゲットマスクとして選択され、他の主要物体マスクがまた、背景マスクとして再マーキングされる。

具体的には、画像に対するセマンティックセグメンテーションを実行してｋ個のマスクを取得することが想定される。ｋ個のマスクは異なる物体種別に対応する。ｋが２よりも大きい場合は、ｋ個のマスクのうち最大数の画素を含むマスクに対応する画像領域がターゲット領域として決定され、残りのマスクに対応する画像領域が背景領域として決定される。

図６に示すように、ニューラルネットワークにより出力される画像のマスクが、主要物体マスクＡ１、主要物体マスクＡ２、および背景マスクを含む。最大数の画素を含むＡ１はターゲットマスクとして決定され、主要物体マスクＡ２は背景マスクとして再マーキングされる。再マーキングされるマスクは図５に示すことができる。

方式４：マスクが複数の主要物体マスクおよび１つの背景マスクを含み、かつ、これら複数の主要物体マスクが複数の物体種別を含む場合は、物体種別の優先度に基づいてターゲットマスクが決定される。例えば、人物マスクの優先度が車両マスクの優先度よりも高い場合は、人物マスクがターゲットマスクであり、車両マスクが背景として再マーキングされてよい。例えば、人物マスクの優先度が動物マスクの優先度よりも高く、植物マスクの優先度よりも高い場合、および、システムにより設定されている優先度が、植物マスクの優先度よりも高い優先度を持つ全てのマスクが主要物体マスクであることである場合は、人物マスクおよび動物マスクの両方がターゲットマスクであり、植物マスクが背景として再マーキングされてよい。１または複数の個体が同じ物体種別のマスクに属することを理解されたい。

具体的には、画像に対するセマンティックセグメンテーションを実行してｋ個のマスクを取得することが想定される。ｋ個のマスクは異なる物体種別に対応する。ｋが２よりも大きい場合は、物体種別の予め設定された優先度に基づいて、ターゲットマスクがｋ個のマスクから決定される。ターゲットマスクに対応する画像領域がターゲット領域として決定され、残りのマスクに対応する画像領域が背景領域として決定される。

図７に示すように、ニューラルネットワークにより出力される画像のマスクが、主要物体マスクＡ１、主要物体マスクＢ１、および背景マスクを含む。Ａ１およびＢ１は異なる物体種別であり、Ａ１の優先度がＢ１の優先度よりも高い。Ｂ１の優先度よりも高いかそれに等しい優先度を持つ任意の主要物体マスクがターゲットマスクとして使用され得るようにシステムが設定している場合は、Ａ１およびＢ１の両方がターゲットマスクである。Ｂ１よりも高い優先度を持つ主要物体マスクがターゲットマスクとして使用され得るようにシステムが設定している場合は、Ａ１がターゲットマスクとして決定され、Ｂ１が背景マスクとして再マーキングされる。

方式５：マスクが複数の主要物体マスクおよび１つの背景マスクを含む場合は、ユーザにより入力される選択操作に従ってターゲットマスクが決定されてよい。入力モードは、限定されるわけではないが、スクリーンタッチおよび声等の選択命令を含む。ユーザにより選択される個体に対応する主要物体マスクがターゲットマスクである。

具体的には、画像に対するセマンティックセグメンテーションを実行してｋ個のマスクを取得することが想定される。ｋ個のマスクは異なる物体種別に対応する。ｋが２よりも大きい場合は、ユーザの選択命令に従って、ターゲットマスクがｋ個のマスクから決定される。ターゲットマスクに対応する画像領域がターゲット領域として決定され、残りのマスクに対応する画像領域が背景領域として決定される。

図７に示すように、ニューラルネットワークにより出力される画像のマスクは、主要物体マスクＡ１、主要物体マスクＢ１、および背景マスクを含む。撮影プロセスにおいてＡ１に対応する個体をユーザがタッチスクリーン上でクリックした場合は、Ａ１がターゲットマスクとして決定され、Ｂ１が背景マスクとして再マーキングされる。撮影プロセスにおいてＢ１に対応する個体をユーザがタッチスクリーン上でクリックした場合は、Ｂ１がターゲットマスクとして決定され、Ａ１が背景マスクとして再マーキングされる。

方式６：マスクが複数の主要物体マスクおよび１つの背景マスクを含み、かつ、これら複数の主要物体マスクが複数の物体種別を含む場合は、ユーザにより入力される選択操作に基づいてターゲットマスクが決定されてよい。入力モードは、限定されるわけではないが、スクリーンタッチおよび声等の選択命令を含む。ユーザにより選択される個体に対応する物体種別の全ての主要物体マスクがターゲットマスクである。

図８に示すように、ニューラルネットワークにより出力される画像のマスクが、主要物体マスクＡ１、Ａ２、Ｂ１、およびＢ２と、背景マスクとを含む。Ａ１およびＡ２は同じ物体種別であり、Ｂ１およびＢ２は同じ物体種別である。撮影プロセスにおいてＡ１に対応する個体をユーザがタッチスクリーン上でクリックした場合は、同じ物体種別のＡ１およびＡ２がターゲットマスクとして決定され、Ｂ１およびＢ２が背景マスクとして再マーキングされる。撮影プロセスにおいてＢ２に対応する個体をユーザがタッチスクリーン上でクリックした場合は、同じ物体種別のＢ１およびＢ２がターゲットマスクとして決定され、Ａ１およびＡ２が背景マスクとして再マーキングされる。

前述した特定の実装または実施形態は例に過ぎず、制限になるべきではないことを理解されたい。前述した特定の実装または実施形態は、論理に違反することなく自由に組み合わされてよい。従って、画像に対するマスクセグメンテーションが実行された後に、１または複数のターゲットマスクが取得されてよい。これらのターゲットマスクは１または複数の物体種別であってよく、ターゲットマスクの各物体種別は更に１または複数の個体を含んでよい。表示される結果は、端末システムで設定されているターゲットマスクを決定するためのルールと、ユーザの入力とに関連する。幾つかのシナリオでは、画像が代替的に背景マスクのみを含んでもよい。

Ｓ２２４：元の画像内のターゲット領域および背景領域を決定する。

撮影された画像の元のサイズがマスクからサンプリングされ、マスク内のターゲットマスクおよび背景マスクもアップサンプリングされる。元の画像に対応する、アップサンプリングされたターゲットマスクの全ての画素で構成される領域がターゲット領域であり、元の画像に対応する、アップサンプリングされた背景マスクの全ての画素で構成される領域が背景領域である。

段階２３：異なる色処理モードで画像内のターゲット領域および背景領域を処理して、ターゲット画像を取得する。処理には異なる色処理モードが使用され、その結果、ターゲット領域の色度が背景領域の色度よりも大きくなるか、または、ターゲット領域の輝度が背景領域の輝度よりも大きくなる。すなわち、ターゲット画像内のターゲット領域の色度がターゲット画像内の背景領域の色度よりも大きくなるか、または、ターゲット画像内のターゲット領域の輝度がターゲット画像内の背景領域の輝度よりも大きくなる。

具体的には、第１色処理モードおよび第２色処理モードが画像内のターゲット領域および背景領域にそれぞれ使用される。第１色処理モードおよび第２色処理モードは、限定されるわけではないが、以下の方式を含む。

方式１：第１色処理モードは色を保持しており、第２色処理モードはフィルタを使用している、例えば、背景領域の色を白黒に変換している。典型的なフィルタは更に、白黒フィルタ、暗化フィルタ、レトロフィルタ、フィルムフィルタ、ぼかしフィルタ、およびボケフィルタ等のいずれかを含む。

例えば、白黒フィルタは、各画素値をグレースケール値にマッピングして白黒フィルタの効果を実装するものである。別の例として、暗化フィルタは、各画素値の輝度を暗化して特殊暗化効果を実現するものである。

方式２：第１色処理モードは第１フィルタ方式であり、第２色処理モードは第２フィルタ方式であり、第１フィルタ方式は第２フィルタ方式と異なる。同じ画像の場合は、第１フィルタ方式で取得される画像の色度が、第２フィルタ方式で取得される画像の色度よりも大きい。

方式３：第１色処理モードは第３フィルタ方式であり、第２色処理モードは第４フィルタ方式であり、第３フィルタ方式は第４フィルタ方式と異なる。同じ画像の場合は、第３フィルタ方式で取得される画像の輝度が、第４フィルタ方式で取得される画像の輝度よりも大きい。

輝度および色度の両方で色が表されることを理解されたい。色度とは輝度を含まない色の特性であり、色の色調および彩度を反映する。輝度とは色の明度を指す。従って、色処理は輝度処理および／または色度処理を含む。

具体的には、フィルタは、色度、輝度、および色相の調整を含んでよく、更には、重ね合わされたテクスチャ等を含んでよい。色度および色相を調整することにより、ターゲットを絞った方式で色系統が調整されてよく、その結果、その色系統は濃くなるか薄くなる、または色調が変更され、別の色系統は変更されないままである。フィルタは画素間のマッピングとして理解されてもよい。予め設定されたマッピングテーブルを使用することにより、入力画像の画素値がターゲット画素の画素値にマッピングされて、特殊効果が実現される。フィルタは予め設定されたパラメータマスクであってよいことを理解されたい。これらの色関連のパラメータは、この業界でよく知られているフィルタマスクのパラメータであってもよいし、ユーザにより独立的に設計されるパラメータであってもよい。

補足として、段階２３の後、方法は更に、段階２３で処理される画像を記憶する段階２４を含む。

本発明によれば、撮影プロセスにおいて、端末は画像内容に基づきターゲット個体および背景を決定し、そのターゲット個体および背景に対して異なる色処理を実行してよく、その結果、ユーザにより撮影される画像内の主要物体をより顕著にすることができ、撮影された画像はフィルムさながらである。

［例２］

具体的には、本発明では、ビデオ記録の画像処理方法が写真撮影の画像処理方法と同様であり、写真撮影で処理される物体は１つの画像であるが、ビデオ記録で処理される物体は連続ビデオフレーム、すなわち、複数の連続画像であるという点で違いがある。ビデオ記録で処理される物体は、完成したビデオであってもよいし、完成したビデオ内のセグメント、または、ある期間範囲におけるユーザ定義のビデオクリップであってもよい。ビデオまたはビデオクリップ内の各画像の処理手順については、例１の処理方法を参照されたい。

具体的には、ビデオ撮影の画像処理方法は以下の段階を含んでよい。

段階３１：撮影されたＮ個の画像を取得することであって、Ｎは正の整数である、取得することと、各画像に対して段階３２および段階３３の動作を実行することであって、Ｎ個の画像は隣接するビデオフレームであってよく、Ｎ個の画像の合計がビデオとして理解されてよい、実行することとを行う。代替的に、Ｎ個の画像は隣接していないこともある。

段階３２の任意選択的な実装が段階２２のものと同じであってよい。

段階３３の任意選択的な実装が段階２３のものと同じであってよい。

補足として、ビデオが連続画像を含むことから、個体を決定する方式は時系列にも関連する。従って、段階２３に加えて、段階３３にはより多くの実装があってよい。任意選択で、Ｓ２２３で主要物体を決定する方式にはいずれも遅延が生じることがある。例えば、Ｌ１番目のフレームでは人物および背景が決定され、（Ｌ１＋１）番目の画像フレームから（Ｌ１＋Ｌ０）番目の画像フレームでは、画素のマーキングおよびマスクの比較を通じて、これらの画像内の人物が主要物体であり、かつ、これらの画像内の人物に対応する領域がターゲット領域０であることが依然として決定されてよい。フレームごとに主要物体および背景を決定する必要はない。毎回主要物体が決定される時点はユーザにより定義されてよい、または、主要物体は定期的に、例えば、限定されるわけではないが、２秒ごとまたは１０秒ごとに決定されてよい。毎回主要物体を決定する方式は、限定されるわけではないが、Ｓ２２３における６つの方式を含む。

段階３４：色処理が実行されるＮ個の画像で構成されるビデオを記憶する。

本発明によれば、ユーザがビデオを記録するプロセスにおいて、端末はビデオ内容に基づきターゲット個体および背景を決定し、そのターゲット個体および背景に対して異なる色処理を実行してよく、その結果、ユーザにより撮影されるビデオの主要物体をより顕著にすることができ、撮影されたビデオは映画のようにクールであり、ユーザ体験が向上する。

［例３］

本発明では、ビデオ記録の画像処理方法が写真撮影の画像処理方法と同様であり、写真撮影で処理される物体は１つの画像であるが、ビデオ記録で処理される物体は連続ビデオフレーム、すなわち、複数の連続画像であるという点で違いがある。従って、各画像の処理手順については、例１の処理方法を参照されたい。幾つかの複雑なビデオ撮影シナリオでは、画像内の幾つかの領域が誤って検出されることがある。隣接するフレームにおいて同じ領域がターゲットまたは背景として別個にマーキングされている場合は、前述した例の色処理方法に従って同じ領域が異なる色に処理され、隣接するフレームにおける同じ領域の色の変化によって感覚的なちらつきが生じる。従って、処理中にちらつきを判断および除去する必要がある。ちらつきは物体種別の誤判断として理解されてよい。

ビデオのちらつきを判断する方法では、オプティカルフローに基づき前のフレームのマスクを処理してオプティカルフローベースのマスクを取得してよく、オプティカルフローベースのマスクと現在のフレームのマスクとの違いを比較する。一致度または類似度が特定の割合を超える場合は、ちらつきが生じていないと判断される。一致度または類似度が特定の割合を超えない場合は、ちらつきが生じていると判断される。加えて、ちらつきの判断は継続的なプロセスであることを理解されたい。任意選択で、ちらつきが存在するかどうかを判断する具体的な方法は以下の通りである。

（１）第１に、隣接するフレームのオプティカルフローを計算する。ここで、オプティカルフローは、隣接するフレーム（（ｔ－１）番目のフレームおよびｔ番目のフレーム）における画素間の変位関係を示す。

（２）（ｔ－１）番目のフレームのマスクを取得し、（ｔ－１）番目のフレームのマスクと、（ｔ－１）番目のフレームおよびｔ番目のフレームのオプティカルフロー情報とに基づいて、ｔ番目のフレームのオプティカルフローマスクＦを計算する。ここで、オプティカルフローマスクは、オプティカルフローに基づく計算を通じて取得される。

（３）ｔ番目のフレームのマスクＳを取得する。

（４）オプティカルフローマスクＦにおける主要物体の画素集合（ｐｉｘｅｌｓｅｔ）ＳＦをカウントし、マスクＳにおける主要物体の画素集合ＳＳをカウントする。ＳＦおよびＳＳの和集合（ｕｎｉｏｎｓｅｔ）および共通集合（ｉｎｔｅｒｓｅｃｔｉｏｎｓｅｔ）における画素の数は、それぞれＮｕおよびＮｉである。（Ｎｕ－Ｎｉ）／Ｎｕが特定の閾値よりも大きい場合は、隣接する（ｔ－１）番目のフレームおよびｔ番目のフレームのマスク間に比較的大きな違いがあるものとみなされ、（ｔ－１）番目のフレームとｔ番目のフレームとの間でちらつきが生じていると判断されるか、または、ｔ番目のフレームでちらつきが生じていると理解されてよい。比較的大きな違いは、同じ物体が異なる物体種別と誤判定され得ることを示す。例えば、（ｔ－１）番目のフレームおよびｔ番目のフレームにおける同じ個体が人物および猿として別個に判断される。

任意選択で、現在の画像の最初のＮ０（２よりも大きな正の整数）個の画像において、同じ物体が異なる物体種別として判断される隣接する画像のグループの数が予め設定された閾値よりも大きい場合は、現在のフレームに対するちらつき例外処理を実行する必要があると判断されてよい。同じ物体が異なる物体種別として判断される隣接する画像のグループの数が予め設定された閾値よりも大きくないと判断された場合は、現在のフレームに対するちらつき例外処理を実行する必要はないと判断されてよい。

任意選択で、例えば、予め定められた数の過去の隣接するフレーム、または予め設定された数の過去のフレームについて、これらのフレームの半分よりも多くのフレームでちらつきが生じていると判断された（例えば、現在のビデオフレームの最初の５つの隣接するフレームのうち３つのビデオフレームでちらつきが生じていると判断された）場合は、現在のフレームに対するちらつき例外処理を実行する必要があると判断されてよい。これらのフレームの半分よりも少ないフレームでちらつきが生じていると判断された（例えば、現在のビデオフレームの最初の５つの隣接するフレームのうちの１つでちらつきが生じていると判断された）場合は、現在のフレームに対するちらつき例外処理を実行する必要はないと判断されてよい。

現在のビデオ画像はある時点で記録されている画像として理解され得ることを理解されたい。本明細書における時点は、幾つかのシナリオにおける一般的な時点として理解されてもよいし、幾つかのシナリオにおける何らかの特定の時点、例えば、最近の時点またはユーザが興味を持っている時点として理解されてもよい。

具体的には、この例におけるビデオ撮影の画像処理方法は以下の段階を含んでよい。

段階４１：撮影されたＮ個の画像を取得することであって、Ｎは正の整数である、取得することと、各画像に対して段階３２および段階３３の動作を実行することであって、Ｎ個の画像は隣接するビデオフレームであってよく、Ｎ個の画像の合計がビデオとして理解されてよい、または、Ｎ個の画像は隣接していないことがある、実行することとを行う。

段階４２：現在のフレーム（ｔｈｅｃｕｒｒｅｎｔｉｍａｇｅ）の最初のＮ０個のフレームでちらつきが生じている、隣接する画像のグループの数が予め設定された閾値よりも大きいかどうかを判断する。本明細書では、Ｎ０および閾値がユーザにより設定されてよい。例えば、Ｎ０は、選択された過去のビデオフレームサンプル数であり、閾値は、Ｎ０の１／２または２／３等であってよい。これは例に過ぎず、限定はされない。

判断結果が予め設定された閾値よりも大きくない場合は、現在撮影または撮像されている画像に対して段階４３および段階４４の動作が実行される。

段階４３の任意選択的な実装が段階３２のものと同じであってよい。

段階４４の任意選択的な実装が段階３３のものと同じであってよい。

判断結果が予め設定された閾値よりも大きい場合は、現在撮影または撮像されている画像に対して段階４５の動作が実行される。

段階４５：同じ色処理方法を使用することにより現在のフレームの全ての画像領域を処理して、ターゲット画像を取得する。同じ色処理方法は、前のフレームにおける背景領域の色処理方法と同じであってもよいし、前のフレームにおけるターゲット領域の色処理方法と同じであってもよいし、前のフレームにおける画像全体の色処理方法と同じであってもよい。例えば、段階３３（２３）における背景領域の色処理方法と同じ色処理方法が画像全体に使用されてよい。代替的に、段階３３（２３）におけるターゲット領域の色処理方法と同じ色処理方法が画像全体に使用されてもよい。例えば、画像全体がカラフルなままであるか、または、画像全体が白黒であるか、または、第１色処理モードまたは第２色処理モード（限定されるわけではないが、例１の色処理モードを含む）が画像全体に使用される。

この場合は、現在のフレームについて、段階２２のものと同様のマスクセグメンテーション手順が存在してもよいし、省略されてもよい。この例ではこれについて限定しない。

段階４５の後、色処理が実行されるＮ個の画像で構成されるビデオを記憶する段階４６が実行される。Ｎは正の整数である。

［例４］

幾つかの適用シナリオでは、ユーザにより撮影される画像の内容が通常は変化する。従って、その画像の主要物体が通常は変化する。ユーザは、異なる画像における主要物体の色処理モードを自由に選択して、ビデオスタイルを独立的に制御したいとも思っている。

ビデオ撮影プロセスにおける画像処理方法は以下の段階を含んでよい。

段階５１：端末がビデオフレームを取得する。

段階５２：端末が、ビデオから取得される任意のビデオフレームにおける主要物体領域および背景領域を決定する。

段階５３：端末は、主要物体領域にいつでも任意の色処理モードを使用し、背景領域にいつでも任意の色処理モードを使用する。ただし、いかなる画像についても、色処理後の主要物体領域の輝度または色度が、色処理後の背景領域の輝度または色度よりも大きくなるよう保証する必要がある。代替的に、いかなる画像についても、主要物体領域に使用される色処理モードで取得される画像の色度または輝度が、背景領域に使用される色処理モードで取得される画像の色度または輝度よりも大きい。

［例５］

幾つかの適用シナリオでは、ユーザにより撮影される画像の内容が通常は変化する。従って、その画像の主要物体が通常は変化する。ユーザは、異なる画像における主要物体の色処理モードを自由に選択して、ビデオスタイルを独立的に制御したいとも思っている。特に、期間によって色が変更される。

段階６１：第１期間にＮ１個の画像を撮像し、第２期間にＮ２個の画像を撮像する。ここで、第１期間および第２期間は隣接する期間であり、Ｎ１およびＮ２はどちらも正の整数であり、第１期間および第２期間は、ユーザが肉眼で画像の変化を識別できる持続時間であってよく、Ｎ１およびＮ２は、ビデオ記録中のフレームレートおよびこれらの期間の持続時間で決定される。本発明ではこれについて限定しない。

段階６２：Ｎ１個の画像の各々における第１ターゲット領域および第１背景領域を決定することであって、第１背景領域は第１ターゲット領域以外の画像の領域であり、Ｎ１個の画像の各々における第１ターゲット領域は第１物体（少なくとも１つの物体を含んでよい）に対応する、決定することと、Ｎ２個の画像の各々における第２ターゲット領域および第２背景領域を決定することであって、第２背景領域は第２ターゲット領域以外の画像の領域であり、Ｎ２個の画像の各々における第２ターゲット領域は第２物体（少なくとも１つの物体を含んでよい）に対応する、決定することとを行う。

段階６３：ターゲットビデオを取得するために、第１色処理モードでの第１ターゲット領域の処理と、第２色処理モードでの第１背景領域の処理と、第３色処理モードでの第２ターゲット領域の処理と、第４色処理モードでの第２背景領域の処理とを行う。ここで、ターゲットビデオでは、第１ターゲット領域の色度が第１背景領域の色度よりも大きくなるか、または、第１ターゲット領域の輝度が第１背景領域の輝度よりも大きくなり、第２ターゲット領域の色度が第２背景領域の色度よりも大きくなるか、または、第２ターゲット領域の輝度が第２背景領域の輝度よりも大きくなる。

［例６］

幾つかの適用シナリオでは、ユーザにより撮影される画像の内容が通常は変化する。従って、その画像の主要物体が通常は変化する。ユーザは、ユーザが異なる画像において強調したいターゲット主要物体を自由に選択したいとも思っている。例えば、第１物体に対応する画像領域が第１期間におけるターゲット領域として決定され、第２物体に対応する画像領域が第２期間におけるターゲット領域として決定され、第１物体および第２物体は、異なる物体、個体、または物体種別である。

このシナリオでは、ビデオ撮影プロセスにおける画像処理方法が以下の段階を含んでよい。

段階７１の任意選択的な実装が段階６１のものと同じであってよい。

段階７２：画像内容に基づいてＮ１個の画像のいずれか１つにおける第１ターゲット領域および第１背景領域を決定し、画像内容に基づいてＮ２個の画像のいずれか１つにおける第２ターゲット領域および第２背景領域を決定する。ここでは、第２ターゲット領域に対応する物体または物体種別が、第１ターゲット領域に対応する物体または物体種別と異なり、その結果、システムおよびユーザは、画像のターゲット主要物体およびターゲット領域を独立的に選択することができる。画像が主要物体および背景を含み、それに応じて、画像はターゲット領域および背景領域を含む。

例えば、第１物体は人物であり、第２物体は動物である。例えば、第１物体は人物Ａであり、第２物体は人物Ｂである。例えば、第１物体は２人の人物であり、第２物体は１匹の犬および２匹の猫である。識別されない残りの領域が背景としてマーキングされる。

この方法では、Ｓ２２１およびＳ２２２における前述の方法を使用することにより画像マスクが決定されてよい。ただし、後続の方法が、画像ごとにマスク内のターゲット物体を決定することに限定されることはない。

任意選択で、画像マスクにおいて、ユーザは第１物体および第２物体を自由に入力してよく、第１物体および第２物体は、ユーザにより入力される選択命令に従って決定される。例えば、ユーザがある個体を選択した場合に、システムは、ユーザにより入力される命令に対応する画素を識別し、更には、特定の（／幾つかの）個体（少なくとも１つの個体であってよい）、または、ユーザにより選択されるマスクの特定の（／幾つかの）物体種別（少なくとも１つの物体種別であってよい）を識別し、更には、特定の（／幾つかの）物体種別の特定の（／幾つかの）個体または全ての個体を第１物体として決定し、第１物体または第１物体に対応する画像領域を第１ターゲット領域として決定する。この状況はある期間にわたって維持されてよい。すなわち、後続の幾つかのフレームでは、ユーザが次の時点で別の個体を選択するまで、第１物体に対応するマスクに対応する領域が第１ターゲット領域であり、前述の方法と同様の方法に従って、新しい個体に対応する領域が第２ターゲット領域として決定される。ある画像では、第１ターゲット領域または第２ターゲット領域以外の画像領域が背景領域である。具体的には、第１期間における第１物体に対応するマスクに対応する領域が第１ターゲット領域であり、第２期間における第２物体に対応するマスクに対応する領域が第２ターゲット領域である。

任意選択で、画像マスクにおいて、システムは、予め設定された時間間隔（例えば、限定されるわけではないが、１秒または２秒）または予め設定された数のフレーム（例えば、限定されるわけではないが、５０フレームまたは１００フレーム）に基づいて、画像マスク内のある期間における画像のターゲットマスクを決定してよい。例えば、１０１番目のフレームで第１ターゲットマスクが決定され、次の１０２フレームから２００フレームの各々については、２０１番目のフレームで第２ターゲットマスクが決定されるまで、１０１番目のフレームにおける第１ターゲットマスクと同じ物体種別または個体を有するマスクが第１ターゲットマスクとして使用される。次の２０２フレームから３００フレームの各々については、２０１番目のフレームにおける第２ターゲットマスクと同じ物体種別または個体を有するマスクが第２ターゲットマスクとして使用される。前述した例の番号はユーザまたはシステムにより予め定義され得ることを理解されたい。具体的には、ある時点でターゲットマスクが決定され、このタイプのマスクまたはこの個体のマスクが、ある期間にわたって継続的に使用される。

第１位にランク付けされた第１ターゲットマスクと第１位にランク付けされた第２ターゲットマスクとを決定する方法については、限定されるわけではないが、段階Ｓ２２３における６つの方式のいずれか１つを参照されたい。従って、第１ターゲットマスクおよび第２ターゲットマスクは、同じ物体種別または同じ個体のものであってもよいし、異なる物体種別または異なる個体のものであってもよい。これは、ネットワークの識別能、シーン画像の変化、またはユーザの入力コマンドに関連する。

加えて、第１ターゲット領域、第１背景領域、第２ターゲット領域、および第２背景領域は更に、Ｓ２２４の方法に従って決定される。この例では詳細について説明しない。

段階７３の任意選択的な実装が段階６３のものと同じであってよい。

加えて、この例は期間によって変化することがあるため、色処理方法の組み合わせは複数あってよい。

例えば、第１色処理モードは第３色処理モードと同じであり、第２色処理モードは第４色処理モードと同じである。この色処理モードには優れた一貫性がある。

例えば、第１色処理モードは第３色処理モードと同じであり、第２色処理モードは第４色処理モードと異なる。この色処理モードでは、ターゲット主要物体の色が一貫しており、背景色が変化し、その結果、全体的な視覚的効果がより目覚ましい。

例えば、第１色処理モードは第３色処理モードと異なり、第２色処理モードは第４色処理モードと同じである。この色処理モードでは、背景色が一貫しており、ターゲット主要物体の色が変化し、その結果、ターゲット主要物体はより顕著である。

例えば、第１色処理モードは第３色処理モードと異なり、第２色処理モードは第４色処理モードと異なる。この色処理モードでは、より多くの色変換方式を提供することができ、異なるシナリオの要件に基づいて、より多くの色協調を提供することができる。

第１色処理モードまたは第３色処理モードは、フィルタ、例えば、色保持または色強化を含む。第２色処理モードまたは第４色処理モードは、白黒フィルタ、暗化フィルタ、レトロフィルタ、フィルムフィルタ、ぼかしフィルタ、およびボケフィルタ等のフィルタを含む。

具体的には、同じ画像のターゲット領域および背景領域の色処理方法については、段階２３を参照されたい。Ｎ２個の画像の場合は、第３色処理モードおよび第４色処理モードが第１色処理モードおよび第２色処理モードとそれぞれ同様である。

前述の解決策によれば、幾つかのシナリオにおいて、ユーザは、異なる画像における背景の色処理モードを自由に選択して、異なる背景を強調してよい。幾つかのシナリオにおいて、ユーザは、異なる画像における主要物体の色処理モードを自由に選択して、その主要物体を異なる程度または形態で強調してよい。

本発明の異なる例では、同じラベルで示される信号が異なるソースを有してもよいし、異なる方式で取得されてもよいことを理解されたい。これは制限にはならない。加えて、異なる例の段階の参照では、「段階ｘｘと同じ」は、２つの段階の信号処理ロジックが同様であることにより焦点を当てている。これは、２つの段階の入力および出力の両方が完全に同じである必要があること、および、２つの方法手順が完全に同等であることに限定されない。本発明の保護範囲には、当業者が為し得る適切な引用および変更が含まれるものとする。

本発明は画像処理方法を提供する。画像に対するマスクセグメンテーションを実行することにより、画像内のターゲット領域および背景領域が決定される。ターゲット領域および背景領域に対して異なる色処理モードが適用され、その結果、ターゲット領域の輝度が背景領域の輝度よりも大きくなるか、または、ターゲット領域の色度が背景領域の色度よりも大きくなり、ターゲット領域に対応する主要物体がより目立つように強調される。これによって映画の特殊効果が実装される。

前述の実施形態で提供する画像処理方法に基づいて、本発明のある実施形態は画像処理装置９００を提供する。装置は複数の端末デバイスで使用されてよく、端末１００の任意の実装形態、例えば、ビデオ撮影機能を有する端末であってよい。図９を参照すると、装置は、撮影モジュール９０１であって、写真撮影またはビデオ撮影であり得る画像を取得するように構成され、前述の例における段階２１、段階３１、段階５１、段階６１、または段階７１の方法と、その方法と同等であり得る方法とを実行するように具体的に構成され、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサにより実装されて、その画像を撮像するようカメラを制御してよい、撮影モジュール９０１と、決定モジュール９０２であって、画像内容に基づいて画像内のターゲット領域および背景領域を決定するように構成され、前述の例における段階２２、段階３２、段階５２、段階６２、または段階７２の方法と、その方法と同等であり得る方法とを実行するように具体的に構成され、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサにより実装されて、対応するアルゴリズムを実装してよい、決定モジュール９０２と、色処理モジュール９０３であって、画像内のターゲット領域および背景領域に異なる色処理モードを使用してターゲット画像またはターゲットビデオを取得し、その結果、ターゲット領域の色度を背景領域の色度よりも大きくするか、または、ターゲット領域の輝度を背景領域の輝度よりも大きくするように構成され、前述の例における段階２３、段階３３、段階５３、段階６３、または段階７３の方法と、その方法と同等であり得る方法とを実行するように具体的に構成され、特定のアルゴリズムを使用してメモリ内の対応するプログラム命令を呼び出すことによってプロセッサにより実装されてよい、色処理モジュール９０３とを含む。

加えて、装置は更に、色処理が実行される画像またはビデオを記憶するように構成される記憶モジュール９０４を含んでよい。

前述した特定の方法の例と、実施形態における技術的特徴の説明および記述と、複数の実装形態の拡張とは、装置における方法の実行にも適用可能であり、装置の実施形態では詳細について説明しない。

本発明は画像処理装置を提供する。画像に対するマスクセグメンテーションが実行され、その結果、画像内容に基づいて画像内のターゲット領域および背景領域が決定される。ターゲット領域および背景領域に対して異なる色処理モードが適用され、その結果、ターゲット領域の輝度が背景領域の輝度よりも大きくなるか、または、ターゲット領域の色度が背景領域の色度よりも大きくなり、ターゲット領域に対応する主要物体がより目立つように強調される。これによって映画の特殊効果が実現される。

前述の実施形態で提供する画像処理方法に基づいて、本発明のある実施形態は更に画像処理装置１０００を提供する。装置は複数の端末デバイスで使用されてよく、端末１００の任意の実装形態、例えば、ビデオ撮影機能を有する端末であってよい。図１０を参照すると、装置は、撮影モジュール１００１であって、写真撮影またはビデオ撮影であり得る画像を取得するように構成され、前述の例における段階２１、段階３１、段階５１、段階６１、または段階７１の方法と、その方法と同等であり得る方法とを実行するように具体的に構成され、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサにより実装されて、その画像を撮像するようカメラを制御してよい、撮影モジュール１００１と、判定モジュール１００２であって、現在のフレームの最初のＮ０個のフレームのうち、ちらつきフレームの数が予め設定された閾値よりも大きいかどうかを判断し、判断結果が、ちらつきフレームの数が予め設定された閾値よりも大きくないことである場合に、関連機能を実行するよう決定モジュール１００３および色処理モジュール１００４をトリガし続ける、または、判断結果が、ちらつきフレームの数が予め設定された閾値よりも大きいことである場合に、関連機能を実行するようちらつき除去モジュール１００５をトリガし続けるように構成され、前述の例における段階４２の方法と、その方法と同等であり得る方法とを実行するように具体的に構成され、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサにより実装されて、対応するアルゴリズムを実装してよい、判定モジュール１００２と、決定モジュール１００３であって、現在のフレームの最初のＮ０個のフレームのうち、ちらつきフレームの数が予め設定された閾値よりも大きくないと判定モジュール１００２が判断した場合に、画像内容に基づいて画像内のターゲット領域および背景領域を決定するように構成され、前述の例における段階２２、段階３２、段階４３、段階５２、段階６２、または段階７２の方法と、その方法と同等であり得る方法とを実行するように具体的に構成され、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサにより実装されて、対応するアルゴリズムを実装してよい、決定モジュール１００３と、色処理モジュール１００４であって、画像内のターゲット領域および背景領域に異なる色処理モードを使用し、その結果、ターゲット領域の色度を背景領域の色度よりも大きくするか、または、ターゲット領域の輝度を背景領域の輝度よりも大きくするように構成され、前述の例における段階２３、段階３３、段階４４、段階５３、段階６３、または段階７３の方法と、その方法と同等であり得る方法とを実行するように具体的に構成され、特定のアルゴリズムを使用してメモリ内の対応するプログラム命令を呼び出すことによってプロセッサにより実装されてよい、色処理モジュール１００４と、ちらつき除去モジュール１００５であって、現在のフレームの最初のＮ０個のフレームのうち、ちらつきフレームの数が予め設定された閾値よりも大きいと判定モジュール１００２が判断した場合に、現在のフレームの全ての画像領域に同じ色処理方法を使用することであって、同じ色処理方法は、前のフレームにおける背景領域の色処理方法と同じであってもよいし、前のフレームにおけるターゲット領域の色処理方法と同じであってもよい、使用することを行うように構成され、前述の例における段階４５の方法と、その方法と同等であり得る方法とを実行するように具体的に構成され、特定のアルゴリズムを使用してメモリ内の対応するプログラム命令を呼び出すことによってプロセッサにより実装されてよい、ちらつき除去モジュール１００５とを含む。

加えて、装置１０００は更に、色処理が実行される画像またはビデオを記憶するように構成される記憶モジュール１００６を含んでよい。

本発明は画像処理装置を提供する。画像に対するマスクセグメンテーションが実行され、その結果、画像内容に基づいて画像内のターゲット領域および背景領域は決定される。ターゲット領域および背景領域に対して異なる色処理モードが適用され、その結果、ターゲット領域の輝度が背景領域の輝度よりも大きくなるか、または、ターゲット領域の色度が背景領域の色度よりも大きくなり、ターゲット領域に対応する主要物体がより目立つように強調される。これによって映画の特殊効果が実装される。

前述の装置におけるモジュールへの分割は論理的な機能分割に過ぎないことを理解されたい。実際の実装では、これらのモジュールの幾つかまたは全てが１つの物理エンティティに統合されてもよいし、物理的に分離されてもよい。例えば、前述のモジュールの各々は、別個のプロセッサ要素であってもよいし、端末のチップ上に統合されてもよいし、プログラムコードの形態でコントローラの記憶要素に記憶されてもよい。プロセッサのプロセッサ要素が、前述したモジュールの各々の機能を呼び出して実行する。加えて、モジュールは統合されてもよいし、独立的に実装されてもよい。本明細書のプロセッサ要素は集積回路チップであってよく、信号処理能力を有する。実装プロセスでは、プロセッサ要素内のハードウェア集積論理回路を使用することにより、または、ソフトウェアの形態の命令を使用することにより、前述の方法における段階または前述のモジュールが実装されてよい。プロセッサ要素は、汎用プロセッサ、例えば、中央処理装置（略してＣＰＵ）であってもよいし、前述の方法を実装するように構成される１または複数の集積回路、例えば、１または複数の特定用途向け集積回路（英語：ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ、略してＡＳＩＣ）、１または複数のマイクロプロセッサ（英語：ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ、略してＤＳＰ）、または、１または複数のフィールドプログラマブルゲートアレイ（英語：ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ、略してＦＰＧＡ）であってもよい。

本発明の明細書、特許請求の範囲、添付図面において、「第１」および「第２」等の用語は同様の物体同士を区別するよう意図されているが、必ずしも特定の順序または順番を示すものではないことを理解されたい。このように呼ばれるデータは適切な状況において交換可能であり、その結果、本明細書で説明する実施形態は、本明細書で図示または説明する順序以外の順序で実装され得ることを理解されたい。加えて、「含む（ｉｎｃｌｕｄｅ）」、「含む（ｃｏｎｔａｉｎ）」という用語、および任意の他の変形語は、非排他的な包含をカバーすることを意味しており、例えば、段階またはモジュールのリストを含むプロセス、方法、システム、製品、またはデバイスが必ずしも、明示的に列挙された段階またはモジュールに限定されるわけではないが、明示的に列挙されていないか、または、係るプロセス、方法、製品、またはデバイスに固有である、他の段階またはモジュールを含んでよい。

当業者であれば、本発明の実施形態が方法、システム、またはコンピュータプログラム製品として提供され得ることを理解するはずである。従って、本発明は、ハードウェアのみの実施形態、ソフトウェアのみの実施形態、またはソフトウェアとハードウェアとの組み合わせを用いた実施形態の形で使用されてよい。更に、本発明は、コンピュータ使用可能プログラムコードを含む１または複数のコンピュータ使用可能記憶媒体（限定されるわけではないが、ディスクメモリ、ＣＤ－ＲＯＭ、および光メモリ等を含む）上に実装されるコンピュータプログラム製品の形態を使用してよい。

本発明は、本発明の実施形態に係る方法、デバイス（システム）、およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照しながら説明されている。コンピュータプログラム命令を使用して、フローチャートおよび／またはブロック図における各プロセスおよび／または各ブロック、並びに、フローチャートおよび／またはブロック図におけるプロセスおよび／またはブロックの組み合わせを実装してよいことを理解されたい。これらのコンピュータプログラム命令を汎用コンピュータ、専用コンピュータ、組み込みプロセッサ、または別のプログラマブルデータ処理デバイスのプロセッサに提供してマシンを生成してよく、その結果、コンピュータまたは別のプログラマブルデータ処理デバイスのプロセッサにより実行される命令は、フローチャートにおける１または複数のプロセス、および／または、ブロック図における１または複数のブロックに特定の機能を実装するための装置を生成する。

これらのコンピュータプログラム命令は、コンピュータまたは別のプログラマブルデータ処理デバイスに特定の方式で動作するよう命令できるコンピュータ可読メモリに記憶されてよく、その結果、コンピュータ可読メモリに記憶される命令は、命令装置を含むアーチファクトを生成する。命令装置は、フローチャートにおける１または複数のプロセス、および／または、ブロック図における１または複数のブロックに特定の機能を実装する。

これらのコンピュータプログラム命令は代替的に、コンピュータまたは別のプログラマブルデータ処理デバイス上にロードされてよく、その結果、一連の動作および段階がコンピュータまたは別のプログラマブルデバイス上で実行され、それにより、コンピュータで実装される処理が生成される。従って、コンピュータまたは別のプログラマブルデバイス上で実行される命令は、フローチャートにおける１または複数のプロセス、および／または、ブロック図における１または複数のブロックに特定の機能を実装するための段階を提供する。

本発明の幾つかの実施形態について説明してきたが、当業者は、基本的な発明の概念を学習すると、これらの実施形態に対する変更および修正を加えることができる。従って、添付の特許請求の範囲は、列挙されている実施形態と、本発明の範囲に含まれる全ての変更および修正とをカバーするように解釈されることを意図している。明らかに、当業者は、本発明の実施形態の主旨および範囲から逸脱することなく、本発明の実施形態に対する様々な修正および変更を加えることができる。本発明は、以下の特許請求の範囲およびそれらの同等技術により定義される保護範囲にこれらの修正および変更が含まれる限り、それらを包含するよう意図されている。
［他の考えられる項目］
（項目１）
画像処理方法であって、
第１期間にＮ１個の画像を撮像する段階と、
第２期間にＮ２個の画像を撮像する段階であって、上記第１期間および上記第２期間は隣接する期間であり、Ｎ１およびＮ２はどちらも正の整数であり、上記Ｎ１個の画像および上記Ｎ２個の画像はビデオを形成する、撮像する段階と、
上記Ｎ１個の画像の各々から第１ターゲット領域および第１背景領域を決定する段階であって、上記第１背景領域は上記第１ターゲット領域以外の上記画像の領域であり、上記Ｎ１個の画像の各々における上記第１ターゲット領域は第１物体に対応する、決定する段階と、
上記Ｎ２個の画像の各々から第２ターゲット領域および第２背景領域を決定する段階であって、上記第２背景領域は上記第２ターゲット領域以外の上記画像の領域であり、上記Ｎ２個の画像の各々における上記第２ターゲット領域は第２物体に対応する、決定する段階と、
ターゲットビデオを取得するために、第１色処理モードでの上記第１ターゲット領域の処理と、第２色処理モードでの上記第１背景領域の処理と、第３色処理モードでの上記第２ターゲット領域の処理と、第４色処理モードでの上記第２背景領域の処理とを行う段階であって、上記第１色処理モードまたは上記第３色処理モードは、色保持または色強化を含み、上記第２色処理モードまたは上記第４色処理モードは、白黒、暗化、ぼかし、またはレトロモードを含む、行う段階と
を備える方法。
（項目２）
上記第１物体および上記第２物体は同じ物体である、項目１に記載の方法。
（項目３）
上記第１物体および上記第２物体は異なる物体である、項目１に記載の方法。
（項目４）
上記第１色処理モードは上記第３色処理モードと同じであり、上記第２色処理モードは上記第４色処理モードと同じである、項目１から３のいずれか一項に記載の方法。
（項目５）
上記第１色処理モードは上記第３色処理モードと同じであり、上記第２色処理モードは上記第４色処理モードと異なる、項目１から３のいずれか一項に記載の方法。
（項目６）
上記第１色処理モードは上記第３色処理モードと異なり、上記第２色処理モードは上記第４色処理モードと同じである、項目１から３のいずれか一項に記載の方法。
（項目７）
上記第１色処理モードは上記第３色処理モードと異なり、上記第２色処理モードは上記第４色処理モードと異なる、項目１から３のいずれか一項に記載の方法。
（項目８）
上記第１物体または上記第２物体は、ある物体種別（例えば、人物、動物、または植物）の少なくとも１つの個体を含む、項目１から７のいずれか一項に記載の方法。
（項目９）
上記第１物体および上記第２物体はユーザの選択命令に従って決定される、項目１から７のいずれか一項に記載の方法。
（項目１０）
上記第１物体および上記第２物体は、予め設定された時間間隔での２つの画像の内容に基づいて端末により別個に決定される、項目１から７のいずれか一項に記載の方法。
（項目１１）
画像処理装置であって、
第１期間にＮ１個の画像を撮像し、かつ、第２期間にＮ２個の画像を撮像するように構成される撮影モジュールであって、上記第１期間および上記第２期間は隣接する期間であり、Ｎ１およびＮ２はどちらも正の整数であり、上記Ｎ１個の画像および上記Ｎ２個の画像はビデオを形成する、撮影モジュールと、
上記Ｎ１個の画像の各々から第１ターゲット領域および第１背景領域を決定することであって、上記第１背景領域は上記第１ターゲット領域以外の上記画像の領域であり、上記Ｎ１個の画像の各々における上記第１ターゲット領域は第１物体に対応する、決定することと、上記Ｎ２個の画像の各々から第２ターゲット領域および第２背景領域を決定することであって、上記第２背景領域は上記第２ターゲット領域以外の上記画像の領域であり、上記Ｎ２個の画像の各々における上記第２ターゲット領域は第２物体に対応する、決定することとを行うように構成される決定モジュールと、
ターゲットビデオを取得するために、第１色処理モードでの上記第１ターゲット領域の処理と、第２色処理モードでの上記第１背景領域の処理と、第３色処理モードでの上記第２ターゲット領域の処理と、第４色処理モードでの上記第２背景領域の処理とを行うように構成される色処理モジュールであって、上記第１色処理モードまたは上記第３色処理モードは、色保持または色強化を含み、上記第２色処理モードまたは上記第４色処理モードは、白黒、暗化、ぼかし、またはレトロモードを含む、色処理モジュールと
を備える装置。
（項目１２）
上記第１物体および上記第２物体は同じ物体または異なる物体である、項目１１に記載の装置。
（項目１３）
上記第１色処理モードは上記第３色処理モードと同じであり、上記第２色処理モードは上記第４色処理モードと同じであるか、
上記第１色処理モードは上記第３色処理モードと同じであり、上記第２色処理モードは上記第４色処理モードと異なるか、
上記第１色処理モードは上記第３色処理モードと異なり、上記第２色処理モードは上記第４色処理モードと同じであるか、または、
上記第１色処理モードは上記第３色処理モードと異なり、上記第２色処理モードは上記第４色処理モードと異なる、
項目１１または１２に記載の装置。
（項目１４）
上記第１物体または上記第２物体は、ある物体種別（例えば、人物、動物、または植物）の少なくとも１つの個体を含む、項目１１から１３のいずれか一項に記載の装置。
（項目１５）
上記第１物体および上記第２物体はユーザの選択命令に従って決定される、項目１１から１３のいずれか一項に記載の装置。
（項目１６）
上記第１物体および上記第２物体は、予め設定された時間間隔での２つの画像の内容に基づいて端末により別個に決定される、項目１１から１５のいずれか一項に記載の装置。
（項目１７）
カメラ、メモリ、プロセッサ、およびバスを備える端末デバイスであって、上記カメラ、上記メモリ、および上記プロセッサは上記バスを介して接続され、
上記カメラは画像を撮像するように構成され、
上記メモリはコンピュータプログラムおよび命令を記憶するように構成され、
上記プロセッサは、上記メモリに記憶される上記コンピュータプログラム、上記命令、および上記撮像された画像を呼び出して、項目１から１０のいずれか一項に記載の方法を実行するように構成される、
端末デバイス。
（項目１８）
上記端末デバイスは更にアンテナシステムを備え、上記アンテナシステムは、上記プロセッサの制御下で無線通信信号を送受信してモバイル通信ネットワークとの無線通信を実装し、上記モバイル通信ネットワークは、ＧＳＭネットワーク、ＣＤＭＡネットワーク、３Ｇネットワーク、４Ｇネットワーク、５Ｇネットワーク、ＦＤＭＡネットワーク、ＴＤＭＡネットワーク、ＰＤＣネットワーク、ＴＡＣＳネットワーク、ＡＭＰＳネットワーク、ＷＣＤＭＡネットワーク、ＴＤＳＣＤＭＡネットワーク、Ｗｉ－Ｆｉネットワーク、およびＬＴＥネットワークのうちの１または複数を含む、項目１７に記載の端末デバイス。
（項目１９）
画像処理方法であって、
ビデオを撮影するときに、
ビデオ画像内の主要物体を決定する段階と、
ターゲットビデオを取得するために、上記ビデオ画像内のターゲット領域および背景領域に対して異なる色処理を実行する段階であって、上記ターゲット領域は上記主要物体に対応し、上記背景領域は上記ターゲット領域以外の上記ビデオ画像の領域である、実行する段階と
を備える方法。
（項目２０）
上記ビデオ画像内のターゲット領域および背景領域に対して異なる色処理を実行する上記段階は、
上記ビデオ画像内の上記ターゲット領域の色を保持し、上記ビデオ画像内の上記背景領域に対してグレースケール処理を実行する段階
を有する、項目１９に記載の方法。
（項目２１）
上記ビデオ画像内のターゲット領域および背景領域に対して異なる色処理を実行する上記段階は、
上記ビデオ画像内の上記ターゲット領域の上記色を保持し、上記ビデオ画像内の上記背景領域に対してぼかし処理を実行する段階
を有する、項目１９または２０に記載の方法。
（項目２２）
画像処理装置であって、
ビデオを撮影するように構成される撮影モジュールと、
ビデオ画像内の主要物体を決定するように構成される決定モジュールと、
ターゲットビデオを取得するために、上記ビデオ画像内のターゲット領域および背景領域に対して異なる色処理を実行するように構成される色処理モジュールであって、上記ターゲット領域は上記主要物体に対応し、上記背景領域は上記ターゲット領域以外の上記ビデオ画像の領域である、色処理モジュールと
を備える装置。
（項目２３）
上記色処理モジュールは具体的に、
上記ビデオ画像内の上記ターゲット領域の色を保持し、上記ビデオ画像内の上記背景領域に対してグレースケール処理を実行する
ように構成される、項目２２に記載の装置。
（項目２４）
上記色処理モジュールは具体的に、
上記ビデオ画像内の上記ターゲット領域の上記色を保持し、上記ビデオ画像内の上記背景領域に対してぼかし処理を実行する
ように構成される、項目２２または２３に記載の装置。
（項目２５）
カメラ、メモリ、プロセッサ、およびバスを備える端末デバイスであって、上記カメラ、上記メモリ、および上記プロセッサは上記バスを介して接続され、
上記カメラは画像を撮像するように構成され、
上記メモリはコンピュータプログラムおよび命令を記憶するように構成され、
上記プロセッサは、上記メモリに記憶される上記コンピュータプログラム、上記命令、および上記撮像された画像を呼び出して、項目１９から２１のいずれか一項に記載の方法を実行するように構成される、
端末デバイス。
［項目１］
画像をリアルタイムで撮影するかビデオをリアルタイムで撮影するために端末により使用される画像処理方法であって、
画像を撮像する段階と、
上記画像において主題および背景が識別されるときに、上記画像内の主要物体領域の色を保持し、上記画像内の背景領域に対して白黒処理またはぼかし処理を実行する段階であって、上記背景領域は上記主要物体領域以外の上記画像の領域である、実行する段階、または、
上記画像において背景のみが識別されるときに、上記画像の背景領域に対して白黒処理またはぼかし処理を実行する段階と、
上記処理された画像に基づいてターゲット画像またはターゲットビデオを生成する段階と
を備え、
上記主要物体領域および／または上記背景領域は、上記画像において、ニューラルネットワークを使用することにより上記画像内の物体の種別に基づいて識別される、
方法。
［項目２］
上記主題の領域を識別するには第１物体種別のマスクが使用され、上記背景領域を識別するには第２物体種別のマスクが使用され、上記第１物体種別は、人物、動物、植物、車両、または別の予め設定された物体種別のうちの少なくとも１つを含み、上記第２物体種別は上記背景であり、上記第１物体種別の上記マスクと上記第２物体種別の上記マスクとは上記ニューラルネットワークに基づいて決定される、項目１に記載の方法。
［項目３］
上記ニューラルネットワークは、トレーニング用のトレーニングデータセットを使用することにより取得され、上記トレーニングデータセットは複数の適用シナリオの入力画像を含む、項目１または２に記載の方法。
［項目４］
上記トレーニングデータセットは更に上記複数の適用シナリオのマスクグラフを含む、項目３に記載の方法。
［項目５］
上記ニューラルネットワークは、上記人物、上記動物、上記植物、上記車両、衣類、または上記別の予め設定された物体種別のうちの少なくとも２つの物体種別を識別することができる、項目２に記載の方法。
［項目６］
上記第１物体種別の上記マスクに対応する上記画像内の画素の数が、第３物体種別のマスクに対応する、上記画像内の画素の数よりも多く、上記第３物体種別は上記第２物体種別と異なる、項目２に記載の方法。
［項目７］
上記第１物体種別の上記マスクは、主要物体の決定優先度が別の物体種別のマスクよりも高い、項目２に記載の方法。
［項目８］
上記主要物体領域は複数の個体を含み、上記複数の個体は同じ物体種別または異なる物体種別に属する、項目１から７のいずれか一項に記載の方法。
［項目９］
上記主要物体領域は、上記ニューラルネットワークを使用することにより上記画像内の上記物体に対して画素レベルのセグメンテーションを実行することによって取得される、項目１から８のいずれか一項に記載の方法。
［項目１０］
画像をリアルタイムで撮影するかビデオをリアルタイムで撮影するために端末により使用される画像処理装置であって、
画像を撮像するように構成される撮影モジュールと、
ニューラルネットワークを使用することにより上記画像内の物体の種別に基づいて上記画像内の主要物体領域および／または背景領域を識別するように構成される決定モジュールと、
上記決定モジュールが上記画像内の主題および背景を識別するときに、上記画像内の上記主要物体領域の色を保持し、上記画像内の上記背景領域に対して白黒処理またはぼかし処理を実行することであって、上記背景領域は上記主要物体領域以外の上記画像の領域である、実行すること、または、
上記決定モジュールが上記画像内の背景のみを識別するときに、上記画像の上記背景領域に対して白黒処理またはぼかし処理を実行することと、
上記処理された画像に基づいてターゲット画像またはターゲットビデオを生成することと
を行うように構成される色処理モジュールと
を備える装置。
［項目１１］
上記主題の領域を識別するには第１物体種別のマスクが使用され、上記背景領域を識別するには第２物体種別のマスクが使用され、上記第１物体種別は、人物、動物、植物、車両、または別の予め設定された物体種別のうちの少なくとも１つを含み、上記第２物体種別は上記背景であり、上記第１物体種別の上記マスクと上記第２物体種別の上記マスクとは上記ニューラルネットワークに基づいて決定される、項目１０に記載の装置。
［項目１２］
上記ニューラルネットワークは、トレーニング用のトレーニングデータセットを使用することにより取得され、上記トレーニングデータセットは複数の適用シナリオの入力画像を含む、項目１０または１１に記載の装置。
［項目１３］
上記トレーニングデータセットは更に上記複数の適用シナリオのマスクグラフを含む、項目１２に記載の装置。
［項目１４］
上記ニューラルネットワークは、上記人物、上記動物、上記植物、上記車両、衣類、または上記別の予め設定された物体種別のうちの少なくとも２つの物体種別を識別することができる、項目１１に記載の装置。
［項目１５］
上記第１物体種別の上記マスクに対応する上記画像内の画素の数が、第３物体種別のマスクに対応する、上記画像内の画素の数よりも多く、上記第３物体種別は上記第２物体種別と異なる、項目１１に記載の装置。
［項目１６］
上記第１物体種別の上記マスクは、主要物体の決定優先度が別の物体種別のマスクよりも高い、項目１１に記載の装置。
［項目１７］
上記主要物体領域は複数の個体を含み、上記複数の個体は同じ物体種別または異なる物体種別に属する、項目１０から１６のいずれか一項に記載の装置。
［項目１８］
上記主要物体領域は、上記ニューラルネットワークを使用することにより上記画像内の上記物体に対して画素レベルのセグメンテーションを実行することによって取得される、項目１０から１７のいずれか一項に記載の装置。
［項目１９］
カメラ、メモリ、プロセッサ、およびバスを備える端末デバイスであって、上記カメラ、上記メモリ、および上記プロセッサは上記バスを介して接続され、
上記カメラは画像を撮像するように構成され、
上記メモリはコンピュータプログラムおよび命令を記憶するように構成され、
上記プロセッサは、上記メモリに記憶される上記コンピュータプログラム、上記命令、および上記撮像された画像を呼び出して、項目１から９のいずれか一項に記載の方法を実行するように構成される、
端末デバイス。
［項目２０］
上記端末デバイスは更にアンテナシステムを備え、上記アンテナシステムは、上記プロセッサの制御下で無線通信信号を送受信してモバイル通信ネットワークとの無線通信を実装し、上記モバイル通信ネットワークは、ＧＳＭネットワーク、ＣＤＭＡネットワーク、３Ｇネットワーク、４Ｇネットワーク、５Ｇネットワーク、ＦＤＭＡネットワーク、ＴＤＭＡネットワーク、ＰＤＣネットワーク、ＴＡＣＳネットワーク、ＡＭＰＳネットワーク、ＷＣＤＭＡネットワーク、ＴＤＳＣＤＭＡネットワーク、Ｗｉ－Ｆｉネットワーク、またはＬＴＥネットワークのうちの１または複数を含む、項目１９に記載の端末デバイス。
［項目２１］
画像処理方法であって、
第１期間にＮ１個の画像を撮像する段階と、
第２期間にＮ２個の画像を撮像する段階であって、上記Ｎ１個の画像および上記Ｎ２個の画像は異なる内容に対応し、Ｎ１およびＮ２はどちらも正の整数である、撮像する段階と、
上記Ｎ１個の画像の各々から第１ターゲット領域および第１背景領域を決定する段階であって、上記第１背景領域は上記第１ターゲット領域以外の上記画像の領域であり、上記Ｎ１個の画像の各々における上記第１ターゲット領域は第１物体に対応する、決定する段階と、
上記Ｎ２個の画像の各々から第２ターゲット領域および第２背景領域を決定する段階であって、上記第２背景領域は上記第２ターゲット領域以外の上記画像の領域であり、上記Ｎ２個の画像の各々における上記第２ターゲット領域は第２物体に対応する、決定する段階と、
ターゲットビデオを取得するために、第１色処理モードでの上記第１ターゲット領域の処理と、第２色処理モードでの上記第１背景領域の処理と、第３色処理モードでの上記第２ターゲット領域の処理と、第４色処理モードでの上記第２背景領域の処理とを行う段階であって、上記第１色処理モードまたは上記第３色処理モードは、色保持または色強化を含み、上記第２色処理モードまたは上記第４色処理モードは、白黒、暗化、ぼかし、またはレトロモードを含み、上記第１物体および上記第２物体は異なる物体であり、上記ターゲットビデオは、処理されるＮ１個の画像と処理されるＮ２個の画像とを含む、行う段階と
を備える方法。
［項目２２］
上記第１色処理モードは上記第３色処理モードと同じであり、上記第２色処理モードは上記第４色処理モードと同じであるか、または、
上記第１色処理モードは上記第３色処理モードと同じであり、上記第２色処理モードは上記第４色処理モードと異なるか、または、
上記第１色処理モードは上記第３色処理モードと異なり、上記第２色処理モードは上記第４色処理モードと同じであるか、または、
上記第１色処理モードは上記第３色処理モードと異なり、上記第２色処理モードは上記第４色処理モードと異なる、
項目２１に記載の方法。
［項目２３］
上記第１物体または上記第２物体は、人物、動物、または植物のうちの少なくとも１つの個体を含む、項目２１または２２に記載の方法。
［項目２４］
ニューラルネットワークが、上記人物、上記動物、上記植物、車両、衣類、または別の予め設定された物体種別のうちの少なくとも２つの物体種別を識別することができる、項目２３に記載の方法。
［項目２５］
上記第１物体および上記第２物体は、予め設定された時間間隔での２つの画像の内容に基づいて端末により別個に決定される、項目２１から２４のいずれか一項に記載の方法。
［項目２６］
画像処理装置であって、
第１期間にＮ１個の画像を撮像し、かつ、第２期間にＮ２個の画像を撮像するように構成される撮影モジュールであって、上記Ｎ１個の画像および上記Ｎ２個の画像は異なる内容に対応し、Ｎ１およびＮ２はどちらも正の整数である、撮影モジュールと、
上記Ｎ１個の画像の各々から第１ターゲット領域および第１背景領域を決定することであって、上記第１背景領域は上記第１ターゲット領域以外の上記画像の領域であり、上記Ｎ１個の画像の各々における上記第１ターゲット領域は第１物体に対応する、決定することと、上記Ｎ２個の画像の各々から第２ターゲット領域および第２背景領域を決定することであって、上記第２背景領域は上記第２ターゲット領域以外の上記画像の領域であり、上記Ｎ２個の画像の各々における上記第２ターゲット領域は第２物体に対応する、決定することとを行うように構成される決定モジュールと、
ターゲットビデオを取得するために、第１色処理モードでの上記第１ターゲット領域の処理と、第２色処理モードでの上記第１背景領域の処理と、第３色処理モードでの上記第２ターゲット領域の処理と、第４色処理モードでの上記第２背景領域の処理とを行うように構成される色処理モジュールであって、上記第１色処理モードまたは上記第３色処理モードは、色保持または色強化を含み、上記第２色処理モードまたは上記第４色処理モードは、白黒、暗化、ぼかし、またはレトロモードを含み、上記第１物体および上記第２物体は異なる物体であり、上記ターゲットビデオは、処理されるＮ１個の画像と処理されるＮ２個の画像とを含む、色処理モジュールと
を備える装置。
［項目２７］
上記第１色処理モードは上記第３色処理モードと同じであり、上記第２色処理モードは上記第４色処理モードと同じであるか、
上記第１色処理モードは上記第３色処理モードと同じであり、上記第２色処理モードは上記第４色処理モードと異なるか、
上記第１色処理モードは上記第３色処理モードと異なり、上記第２色処理モードは上記第４色処理モードと同じであるか、または、
上記第１色処理モードは上記第３色処理モードと異なり、上記第２色処理モードは上記第４色処理モードと異なる、
項目２６に記載の装置。
［項目２８］
上記第１物体または上記第２物体は、人物、動物、または植物のうちの少なくとも１つの個体を含む、項目２６または２７に記載の装置。
［項目２９］
ニューラルネットワークが、上記人物、上記動物、上記植物、車両、衣類、または別の予め設定された物体種別のうちの少なくとも２つの物体種別を識別することができる、項目２８に記載の装置。
［項目３０］
上記第１物体および上記第２物体は、予め設定された時間間隔での２つの画像の内容に基づいて端末により別個に決定される、項目２６から２９のいずれか一項に記載の装置。
［項目３１］
カメラ、メモリ、プロセッサ、およびバスを備える端末デバイスであって、上記カメラ、上記メモリ、および上記プロセッサは上記バスを介して接続され、
上記カメラは画像を撮像するように構成され、
上記メモリはコンピュータプログラムおよび命令を記憶するように構成され、
上記プロセッサは、上記メモリに記憶される上記コンピュータプログラム、上記命令、および上記撮像された画像を呼び出して、項目２１から２５のいずれか一項に記載の方法を実行するように構成される、
端末デバイス。
［項目３２］
上記端末デバイスは更にアンテナシステムを備え、上記アンテナシステムは、上記プロセッサの制御下で無線通信信号を送受信してモバイル通信ネットワークとの無線通信を実装し、上記モバイル通信ネットワークは、ＧＳＭネットワーク、ＣＤＭＡネットワーク、３Ｇネットワーク、４Ｇネットワーク、５Ｇネットワーク、ＦＤＭＡネットワーク、ＴＤＭＡネットワーク、ＰＤＣネットワーク、ＴＡＣＳネットワーク、ＡＭＰＳネットワーク、ＷＣＤＭＡネットワーク、ＴＤＳＣＤＭＡネットワーク、Ｗｉ－Ｆｉネットワーク、またはＬＴＥネットワークのうちの１または複数を含む、項目３１に記載の端末デバイス。
［項目３３］
画像処理方法であって、
ビデオを撮影するときに、
ビデオ画像内の主要物体を決定する段階と、
上記ビデオ画像内のターゲット領域の色を保持し、ターゲットビデオを取得するために上記ビデオ画像内の背景領域に対してグレースケール処理を実行する段階であって、上記ターゲット領域は上記主要物体に対応し、上記背景領域は上記ターゲット領域以外の上記ビデオ画像の領域である、実行する段階と
を備える方法。
［項目３４］
ニューラルネットワークが、人物、動物、植物、車両、衣類、または別の予め設定された物体種別のうちの少なくとも２つの物体種別を識別することができる、項目３３に記載の方法。
［項目３５］
上記背景領域に対してフィルタ処理を実行する段階であって、上記フィルタ処理は、ボケ処理、暗化処理、レトロ処理、フィルム処理、またはテクスチャ重ね合わせ処理のうちの少なくとも１つを含む、実行する段階を更に備える項目３３または３４に記載の方法。
［項目３６］
画像処理装置であって、
ビデオを撮影するように構成される撮影モジュールと、
ビデオ画像内の主要物体を決定するように構成される決定モジュールと、
上記ビデオ画像内のターゲット領域の色を保持し、ターゲットビデオを取得するために上記ビデオ画像内の背景領域に対してグレースケール処理を実行することであって、上記ターゲット領域は上記主要物体に対応し、上記背景領域は上記ターゲット領域以外の上記ビデオ画像の領域である、実行することを行うように構成される色処理モジュールと
を備える装置。
［項目３７］
上記色処理モジュールは更に、上記背景領域に対してフィルタ処理を実行するように構成され、上記フィルタ処理は、ボケ処理、暗化処理、レトロ処理、フィルム処理、またはテクスチャ重ね合わせ処理のうちの少なくとも１つを含む、項目３６に記載の装置。
［項目３８］
上記色処理モジュールは更に、
上記背景領域に対してフィルタ処理を実行することであって、上記フィルタ処理は、ボケ処理、暗化処理、レトロ処理、フィルム処理、またはテクスチャ重ね合わせ処理のうちの少なくとも１つを含む、実行することを行う
ように構成される、項目３６または３７に記載の装置。
［項目３９］
カメラ、メモリ、プロセッサ、およびバスを備える端末デバイスであって、上記カメラ、上記メモリ、および上記プロセッサは上記バスを介して接続され、
上記カメラは画像を撮像するように構成され、
上記メモリはコンピュータプログラムおよび命令を記憶するように構成され、
上記プロセッサは、上記メモリに記憶される上記コンピュータプログラム、上記命令、および上記撮像された画像を呼び出して、項目３３から３５のいずれか一項に記載の方法を実行するように構成される、
端末デバイス。

Claims

画像をリアルタイムで撮影するかビデオをリアルタイムで撮影するために端末により使用される画像処理方法であって、
画像を撮像する段階と、
前記画像において主題および背景が識別されるときに、前記画像内の主要物体領域の色を保持し、前記画像内の背景領域に対して白黒処理またはぼかし処理を実行する段階であって、前記背景領域は前記主要物体領域以外の前記画像の領域である、実行する段階、または、
前記画像において背景のみが識別されるときに、前記画像の背景領域に対して白黒処理またはぼかし処理を実行する段階と、
前記処理された画像に基づいてターゲット画像またはターゲットビデオを生成する段階と
を備え、
前記主要物体領域および／または前記背景領域は、前記画像において、ニューラルネットワークを使用することにより前記画像内の物体の種別に基づいて識別され、
前記識別は、前記画像を、前記ニューラルネットワークに入力して、画像マスクを取得する段階を含み、
前記画像マスクを取得する段階は、前記画像にダウンサンプリングを実行して、第１画像を取得する段階と、
前記第１画像に対してダウンサンプリングおよび畳み込みを実行して、複数の第２画像を取得する段階であって、前記複数の第２画像のそれぞれの各辺は、前記第１画像の対応する各辺に対して、所定の数のべき乗倍の倍数関係を有する、段階と、
対応する前記複数の第２画像から、複数の特徴マップを取得する段階と、
前記複数の特徴マップに対して、畳み込みおよびアップサンプリングを実行して、セマンティック特徴を融合する段階と、を含む、
方法。
前記複数の第２画像のそれぞれの各辺は、互いに前記所定の数のべき乗倍の倍数関係を有する、請求項１に記載の方法。
前記ビデオをリアルタイムで撮影する際に、オプティカルフローに基づいて、第１フレームのマスクを処理してオプティカルフローベースのマスクを取得する段階と、
前記オプティカルフローベースのマスクと、前記第１フレームより後の第２のフレームのマスクとを比較して、類似度が所定の閾値以上である場合には、前記ビデオにちらつきが生じていないと判定し、前記類似度が前記所定の閾値未満である場合には前記ビデオにちらつきが生じていると判定する段階と、
を含む、
請求項１または２に記載の方法。
前記主題の領域を識別するには第１物体種別のマスクが使用され、前記背景領域を識別するには第２物体種別のマスクが使用され、前記第１物体種別は、人物、動物、植物、車両、または別の予め設定された物体種別のうちの少なくとも１つを含み、前記第２物体種別は前記背景であり、前記第１物体種別の前記マスクと前記第２物体種別の前記マスクとは前記ニューラルネットワークに基づいて決定される、請求項１から３のいずれか一項に記載の方法。
前記ニューラルネットワークは、トレーニング用のトレーニングデータセットを使用することにより取得され、前記トレーニングデータセットは複数の適用シナリオの入力画像を含む、請求項１から４のいずれか一項に記載の方法。
前記トレーニングデータセットは更に前記複数の適用シナリオのマスクグラフを含む、請求項５に記載の方法。
前記ニューラルネットワークは、前記人物、前記動物、前記植物、前記車両、衣類、または前記別の予め設定された物体種別のうちの少なくとも２つの物体種別を識別することができる、請求項４に記載の方法。
前記第１物体種別の前記マスクに対応する前記画像内の画素の数が、第３物体種別のマスクに対応する、前記画像内の画素の数よりも多く、前記第３物体種別は前記第２物体種別と異なる、請求項４に記載の方法。
前記第１物体種別の前記マスクは、主要物体の決定優先度が別の物体種別のマスクよりも高い、請求項４に記載の方法。
前記主要物体領域は複数の個体を含み、前記複数の個体は同じ物体種別または異なる物体種別に属する、請求項１から９のいずれか一項に記載の方法。
前記主要物体領域は、前記ニューラルネットワークを使用することにより前記画像内の前記物体に対して画素レベルのセグメンテーションを実行することによって取得される、請求項１から１０のいずれか一項に記載の方法。
画像をリアルタイムで撮影するかビデオをリアルタイムで撮影するために端末により使用される画像処理装置であって、
画像を撮像するように構成される撮影モジュールと、
ニューラルネットワークを使用することにより前記画像内の物体の種別に基づいて前記画像内の主要物体領域および／または背景領域を識別するように構成される決定モジュールと、
前記決定モジュールが前記画像内の主題および背景を識別するときに、前記画像内の前記主要物体領域の色を保持し、前記画像内の前記背景領域に対して白黒処理またはぼかし処理を実行することであって、前記背景領域は前記主要物体領域以外の前記画像の領域である、実行すること、または、
前記決定モジュールが前記画像内の背景のみを識別するときに、前記画像の前記背景領域に対して白黒処理またはぼかし処理を実行することと、
前記処理された画像に基づいてターゲット画像またはターゲットビデオを生成することと
を行うように構成される色処理モジュールと
を備え、
前記決定モジュールは、前記識別をする際に、前記画像を前記ニューラルネットワークに入力することにより取得した画像マスクを使用し、
前記画像マスクを取得することは、前記画像にダウンサンプリングを実行して、第１画像を取得することと、
前記第１画像に対してダウンサンプリングおよび畳み込みを実行して、複数の第２画像を取得することであって、前記複数の第２画像のそれぞれの各辺は、前記第１画像の対応する各辺に対して、所定の数のべき乗倍の倍数関係を有する、ことと、
対応する前記複数の第２画像から、複数の特徴マップを取得することと、
前記複数の特徴マップに対して、畳み込みおよびアップサンプリングを実行して、セマンティック特徴を融合することと、を含む、
装置。
前記複数の第２画像のそれぞれの各辺は、互いに前記所定の数のべき乗倍の倍数関係を有する、請求項１２に記載の装置。
前記ビデオをリアルタイムで撮影する際に、オプティカルフローに基づいて、第１フレームのマスクを処理してオプティカルフローベースのマスクを取得することと、
前記オプティカルフローベースのマスクと、前記第１フレームより後の第２のフレームのマスクとを比較して、類似度が所定の閾値以上である場合には、前記ビデオにちらつきが生じていないと判定し、前記類似度が前記所定の閾値未満である場合には前記ビデオにちらつきが生じていると判定する、判定モジュールを含む、
請求項１２または１３に記載の装置。
前記主題の領域を識別するには第１物体種別のマスクが使用され、前記背景領域を識別するには第２物体種別のマスクが使用され、前記第１物体種別は、人物、動物、植物、車両、または別の予め設定された物体種別のうちの少なくとも１つを含み、前記第２物体種別は前記背景であり、前記第１物体種別の前記マスクと前記第２物体種別の前記マスクとは前記ニューラルネットワークに基づいて決定される、請求項１２から１４のいずれか一項に記載の装置。
前記ニューラルネットワークは、トレーニング用のトレーニングデータセットを使用することにより取得され、前記トレーニングデータセットは複数の適用シナリオの入力画像を含む、請求項１２から１５のいずれか一項に記載の装置。
前記トレーニングデータセットは更に前記複数の適用シナリオのマスクグラフを含む、請求項１６に記載の装置。
前記ニューラルネットワークは、前記人物、前記動物、前記植物、前記車両、衣類、または前記別の予め設定された物体種別のうちの少なくとも２つの物体種別を識別することができる、請求項１５に記載の装置。
前記第１物体種別の前記マスクに対応する前記画像内の画素の数が、第３物体種別のマスクに対応する、前記画像内の画素の数よりも多く、前記第３物体種別は前記第２物体種別と異なる、請求項１５に記載の装置。
前記第１物体種別の前記マスクは、主要物体の決定優先度が別の物体種別のマスクよりも高い、請求項１５に記載の装置。
前記主要物体領域は複数の個体を含み、前記複数の個体は同じ物体種別または異なる物体種別に属する、請求項１２から２０のいずれか一項に記載の装置。
前記主要物体領域は、前記ニューラルネットワークを使用することにより前記画像内の前記物体に対して画素レベルのセグメンテーションを実行することによって取得される、請求項１２から２１のいずれか一項に記載の装置。
カメラ、メモリ、プロセッサ、およびバスを備える端末デバイスであって、前記カメラ、前記メモリ、および前記プロセッサは前記バスを介して接続され、
前記カメラは画像を撮像するように構成され、
前記メモリはコンピュータプログラムおよび命令を記憶するように構成され、
前記プロセッサは、前記メモリに記憶される前記コンピュータプログラム、前記命令、および前記撮像された画像を呼び出して、請求項１から１１のいずれか一項に記載の方法を実行するように構成される、
端末デバイス。
前記端末デバイスは更にアンテナシステムを備え、前記アンテナシステムは、前記プロセッサの制御下で無線通信信号を送受信してモバイル通信ネットワークとの無線通信を実装し、前記モバイル通信ネットワークは、ＧＳＭネットワーク、ＣＤＭＡネットワーク、３Ｇネットワーク、４Ｇネットワーク、５Ｇネットワーク、ＦＤＭＡネットワーク、ＴＤＭＡネットワーク、ＰＤＣネットワーク、ＴＡＣＳネットワーク、ＡＭＰＳネットワーク、ＷＣＤＭＡネットワーク、ＴＤＳＣＤＭＡネットワーク、Ｗｉ－Ｆｉネットワーク、またはＬＴＥネットワークのうちの１または複数を含む、請求項２３に記載の端末デバイス。
画像処理方法であって、
ビデオを撮影するときに、
ビデオ画像内の主要物体を決定する段階と、
前記ビデオ画像内のターゲット領域の色を保持し、ターゲットビデオを取得するために前記ビデオ画像内の背景領域に対してグレースケール処理を実行する段階であって、前記ターゲット領域は前記主要物体に対応し、前記背景領域は前記ターゲット領域以外の前記ビデオ画像の領域である、実行する段階と
を備え、
前記ターゲット領域および／または前記背景領域は、前記ビデオ画像において、ニューラルネットワークを使用することにより前記ビデオ画像内の物体の種別に基づいて識別され、
前記識別は、前記ビデオ画像を、前記ニューラルネットワークに入力して、画像マスクを取得する段階を含み、
前記画像マスクを取得する段階は、前記ビデオ画像にダウンサンプリングを実行して、第１画像を取得する段階と、
前記第１画像に対してダウンサンプリングおよび畳み込みを実行して、複数の第２画像を取得する段階であって、前記複数の第２画像のそれぞれの各辺は、前記第１画像の対応する各辺に対して、所定の数のべき乗倍の倍数関係を有する、段階と、
対応する前記複数の第２画像から、複数の特徴マップを取得する段階と、
前記複数の特徴マップに対して、畳み込みおよびアップサンプリングを実行して、セマンティック特徴を融合する段階と、を含む、
方法。
前記複数の第２画像のそれぞれの各辺は、互いに前記所定の数のべき乗倍の倍数関係を有する、請求項２５に記載の方法。
オプティカルフローに基づいて、第１フレームのマスクを処理してオプティカルフローベースのマスクを取得する段階と、
前記オプティカルフローベースのマスクと、前記第１フレームより後の第２のフレームのマスクとを比較して、類似度が所定の閾値以上である場合には、前記ビデオにちらつきが生じていないと判定し、前記類似度が前記所定の閾値未満である場合には前記ビデオにちらつきが生じていると判定する段階と、
を含む、
請求項２５または２６に記載の方法。
前記ニューラルネットワークが、人物、動物、植物、車両、衣類、または別の予め設定された物体種別のうちの少なくとも２つの物体種別を識別することができる、請求項２７に記載の方法。
前記背景領域に対してフィルタ処理を実行する段階であって、前記フィルタ処理は、ボケ処理、暗化処理、レトロ処理、フィルム処理、またはテクスチャ重ね合わせ処理のうちの少なくとも１つを含む、実行する段階を更に備える請求項２５から２８のいずれか一項に記載の方法。
画像処理装置であって、
ビデオを撮影するように構成される撮影モジュールと、
ビデオ画像内の主要物体を決定するように構成される決定モジュールと、
前記ビデオ画像内のターゲット領域の色を保持し、ターゲットビデオを取得するために前記ビデオ画像内の背景領域に対してグレースケール処理を実行することであって、前記ターゲット領域は前記主要物体に対応し、前記背景領域は前記ターゲット領域以外の前記ビデオ画像の領域である、実行することを行うように構成される色処理モジュールと
を備え、
前記決定モジュールは、前記ビデオ画像において、ニューラルネットワークを使用することにより前記ビデオ画像内の物体の種別に基づいて前記ターゲット領域および／または前記背景領域を識別し、
前記識別をする際に、前記ビデオ画像を前記ニューラルネットワークに入力することにより取得した画像マスクを使用し、
前記画像マスクを取得することは、前記ビデオ画像にダウンサンプリングを実行して、第１画像を取得することと、
前記第１画像に対してダウンサンプリングおよび畳み込みを実行して、複数の第２画像を取得することであって、前記複数の第２画像のそれぞれの各辺は、前記第１画像の対応する各辺に対して、所定の数のべき乗倍の倍数関係を有する、ことと、
対応する前記複数の第２画像から、複数の特徴マップを取得することと、
前記複数の特徴マップに対して、畳み込みおよびアップサンプリングを実行して、セマンティック特徴を融合することと、を含む、
装置。
前記複数の第２画像のそれぞれの各辺は、互いに前記所定の数のべき乗倍の倍数関係を有する、請求項３０に記載の装置。
オプティカルフローに基づいて、第１フレームのマスクを処理してオプティカルフローベースのマスクを取得し、
前記オプティカルフローベースのマスクと、前記第１フレームより後の第２のフレームのマスクとを比較して、類似度が所定の閾値以上である場合には、前記ビデオにちらつきが生じていないと判定し、前記類似度が前記所定の閾値未満である場合には前記ビデオにちらつきが生じていると判定する、判定モジュールを含む、
請求項３０または３１に記載の装置。
前記色処理モジュールは更に、前記背景領域に対してフィルタ処理を実行するように構成され、前記フィルタ処理は、ボケ処理、暗化処理、レトロ処理、フィルム処理、またはテクスチャ重ね合わせ処理のうちの少なくとも１つを含む、請求項３０から３２のいずれか一項に記載の装置。
前記色処理モジュールは更に、
前記背景領域に対してフィルタ処理を実行することであって、前記フィルタ処理は、ボケ処理、暗化処理、レトロ処理、フィルム処理、またはテクスチャ重ね合わせ処理のうちの少なくとも１つを含む、実行することを行う
ように構成される、請求項３０から３３のいずれか一項に記載の装置。
カメラ、メモリ、プロセッサ、およびバスを備える端末デバイスであって、前記カメラ、前記メモリ、および前記プロセッサは前記バスを介して接続され、
前記カメラは画像を撮像するように構成され、
前記メモリはコンピュータプログラムおよび命令を記憶するように構成され、
前記プロセッサは、前記メモリに記憶される前記コンピュータプログラム、前記命令、および前記撮像された画像を呼び出して、請求項２５から２９のいずれか一項に記載の方法を実行するように構成される、
端末デバイス。