JP7226851B2 - 画像処理の方法および装置並びにデバイス - Google Patents

画像処理の方法および装置並びにデバイス Download PDF

Info

Publication number
JP7226851B2
JP7226851B2 JP2021521025A JP2021521025A JP7226851B2 JP 7226851 B2 JP7226851 B2 JP 7226851B2 JP 2021521025 A JP2021521025 A JP 2021521025A JP 2021521025 A JP2021521025 A JP 2021521025A JP 7226851 B2 JP7226851 B2 JP 7226851B2
Authority
JP
Japan
Prior art keywords
image
mask
video
region
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021521025A
Other languages
English (en)
Other versions
JP2022505115A (ja
Inventor
リ、ユ
マ、フェイロン
ワン、ティゼン
フアン、シウジエ
Original Assignee
ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ホアウェイ・テクノロジーズ・カンパニー・リミテッド filed Critical ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Publication of JP2022505115A publication Critical patent/JP2022505115A/ja
Application granted granted Critical
Publication of JP7226851B2 publication Critical patent/JP7226851B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • G06T5/94
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • G06T5/60
    • G06T5/70
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2621Cameras specially adapted for the electronic generation of special effects during image pickup, e.g. digital cameras, camcorders, video cameras having integrated special effects capability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Description

本発明は、端末技術の分野、特に、画像処理の方法および装置並びにデバイスに関する。
撮影とは、カメラまたはビデオレコーダを使用して人物または物体の画像を記録することである。夜のシーンの撮影、雨のシーンの撮影、建物の撮影、およびポートレートの撮影等、異なるシーンには異なる撮影スキルがある。映画芸術の動態撮影も一種の撮影であるが、特定の原則に従っている必要がある。科学技術の進歩に伴って、撮影がより簡単になり、人気が高まっている。
ネットワーク帯域幅の拡大および端末処理能力の強化に伴って、ビデオおよび画像の撮影および共有がより便利になり、ビデオの消費が全ての人々にとって新しい生活様式になっている。ビデオはすぐにネットワーク上のトラフィック集約的なサービスになり、今後数年間で総トラフィックの80%から90%を占めることが予想される。
日常生活において、撮影は、人々が自分自身を示し物事の美しさを見つける主な方法になっている。人々はより興味深いスタイルで撮影を実行したいと思っている。例えば、撮影中に画像またはビデオの特殊効果処理を完了して「見たままが得られる」撮影体験を実装する。従って、素人の場合は、より新しい画像処理技術を端末に統合する必要がある。
現在のところ、端末のビデオ記録機能は単調である。現在のところ、提供され得るのは従来のビデオ撮影のみであり、幾つかのパーソナライズ効果に欠いている。
本発明は画像処理方法を提供する。画像に対するマスク(テンプレート)セグメンテーションを実行することにより、画像内のターゲット領域および背景領域が決定される。ターゲット領域および背景領域に対して異なる色処理モードが適用され、その結果、ターゲット領域の輝度が背景領域の輝度よりも大きくなるか、または、ターゲット領域の色度が背景領域の色度よりも大きくなり、ターゲット領域に対応する主要物体がより目立つように強調される。これによって端末ユーザは写真撮影またはビデオ撮影の間に映画の特殊効果を得ることができ、ユーザの撮影体験が向上する。
本発明の複数の実施形態で提供する特定の技術的解決策は以下の通りである。
第1態様によれば、本発明のある実施形態は画像処理方法を提供する。方法はビデオ記録プロセスに適用され、方法は、第1期間にN1個の画像を撮像する段階と、第2期間にN2個の画像を撮像する段階であって、第1期間および第2期間は隣接する期間であり、N1およびN2はどちらも正の整数である、撮像する段階と、N1個の画像の各々から第1ターゲット領域および第1背景領域を決定する段階であって、第1背景領域は第1ターゲット領域以外の画像の領域であり、N1個の画像の各々における第1ターゲット領域は第1物体に対応する、決定する段階と、N2個の画像の各々から第2ターゲット領域および第2背景領域を決定する段階であって、第2背景領域は第2ターゲット領域以外の画像の領域であり、N2個の画像の各々における第2ターゲット領域は第2物体に対応する、決定する段階と、ターゲットビデオを取得するために、第1色処理モードでの第1ターゲット領域の処理と、第2色処理モードでの第1背景領域の処理と、第3色処理モードでの第2ターゲット領域の処理と、第4色処理モードでの第2背景領域の処理とを行う段階とを含む。ターゲットビデオでは、第1ターゲット領域の色度が第1背景領域の色度よりも大きくなるか、または、第1ターゲット領域の輝度が第1背景領域の輝度よりも大きくなる。加えて、第2ターゲット領域の色度が第2背景領域の色度よりも大きくなるか、または、第2ターゲット領域の輝度が第2背景領域の輝度よりも大きくなる。
第2態様によれば、本発明のある実施形態は画像処理装置を提供する。装置はビデオ撮影プロセスで使用され、装置は、第1期間にN1個の画像を撮像し、かつ、第2期間にN2個の画像を撮像するように構成される撮影モジュールであって、第1期間および第2期間は隣接する期間であり、N1およびN2はどちらも正の整数である、撮影モジュールと、N1個の画像の各々から第1ターゲット領域および第1背景領域を決定することであって、第1背景領域は第1ターゲット領域以外の画像の領域であり、N1個の画像の各々における第1ターゲット領域は第1物体に対応する、決定することと、N2個の画像の各々から第2ターゲット領域および第2背景領域を決定することであって、第2背景領域は第2ターゲット領域以外の画像の領域であり、N2個の画像の各々における第2ターゲット領域は第2物体に対応する、決定することとを行うように構成される決定モジュールと、ターゲットビデオを取得するために、第1色処理モードでの第1ターゲット領域の処理と、第2色処理モードでの第1背景領域の処理と、第3色処理モードでの第2ターゲット領域の処理と、第4色処理モードでの第2背景領域の処理とを行うように構成される色処理モジュールとを含む。ターゲットビデオでは、第1ターゲット領域の色度が第1背景領域の色度よりも大きくなるか、または、第1ターゲット領域の輝度が第1背景領域の輝度よりも大きくなる。加えて、第2ターゲット領域の色度が第2背景領域の色度よりも大きくなるか、または、第2ターゲット領域の輝度が第2背景領域の輝度よりも大きくなる。
第1態様または第2態様によれば、考えられる設計において、第1物体および第2物体は同じ物体である。
第1態様または第2態様によれば、考えられる設計において、第1物体および第2物体は異なる物体である。
第1態様または第2態様によれば、考えられる設計において、第1物体または第2物体は、ある物体種別(例えば、人物、動物、または植物)の少なくとも1つの個体を含む。
第1態様または第2態様によれば、考えられる設計において、第1物体および第2物体はユーザの選択命令に従って決定される。
具体的には、例えば、第1物体はユーザの選択命令に従って第1期間における第1画像から決定され、第1物体は第1期間における全ての画像でターゲット物体として使用される。同様に、第2物体はユーザの選択命令に従って第2期間における第1画像から決定され、第2物体は第2期間における全ての画像でターゲット物体として使用される。例えば、画像に対するセマンティックセグメンテーションを実行してk個のマスクを取得してよい。k個のマスクは異なる物体種別に対応し、ユーザにより入力される選択命令が1または複数の特定のマスクに対応し、1または複数の特定のマスクに対応する物体がターゲット物体である。
第1態様または第2態様によれば、考えられる設計において、第1物体および第2物体は、予め設定された時間間隔での2つの画像の内容に基づいて端末により別個に決定される。
具体的には、例えば、第1物体は第1期間における第1画像から決定され、第1物体は第1期間における全ての画像でターゲット物体として使用される。同様に、第2物体は第2期間における第1画像から決定され、第2物体は第2期間における全ての画像でターゲット物体として使用される。第1物体が第1期間における第1画像から決定され、かつ、第2物体が第2期間における第1画像から決定される方式は、限定されるわけではないが、画像に対するセマンティックセグメンテーションを実行してk個のマスクを取得する方式であって、k個のマスクは異なる物体種別に対応する、取得する方式、および、k=2であり、かつ、2つのマスクが1つの物体マスクおよび1つの背景マスクを含む場合に、物体マスクに対応する画像領域をターゲット領域として決定し、背景マスクに対応する領域を背景領域として決定する方式であって、物体マスクに対応する物体が第1物体または第2物体である、決定する方式、kが2よりも大きく、かつ、k個のマスクのうちk0個の物体マスクに含まれる画素の数が予め設定された閾値よりも大きい場合に、k0個の物体マスクに対応する画像領域をターゲット領域として決定し、残りのマスクに対応する画像領域を背景領域として決定する方式であって、物体マスクに対応する物体が第1物体または第2物体であり、k0はkよりも小さな非負整数である、決定する方式、kが2よりも大きい場合に、k個のマスクのうち最大数の画素を含むマスクに対応する画像領域をターゲット領域として決定し、残りのマスクに対応する画像領域を背景領域として決定する方式であって、物体マスクに対応する物体が第1物体または第2物体である、決定する方式、kが2よりも大きい場合に、物体種別の予め設定された優先度に基づいてk個のマスクからターゲットマスクを決定することと、ターゲットマスクに対応する画像領域をターゲット領域として決定し、残りのマスクに対応する画像領域を背景領域として決定することであって、物体マスクに対応する物体が第1物体または第2物体である、決定することとを行う方式、または、kが2よりも大きい場合に、ユーザの選択命令に従ってk個のマスクからターゲットマスクを決定することと、ターゲットマスクに対応する画像領域をターゲット領域として決定し、残りのマスクに対応する画像領域を背景領域として決定することであって、物体マスクに対応する物体が第1物体または第2物体である、決定することとを行う方式のうちの1つを含む。方法は具体的に決定モジュールにより実行されてよい。
第1態様または第2態様によれば、考えられる設計において、第1色処理モードは第3色処理モードと同じであり、第2色処理モードは第4色処理モードと同じである。
第1態様または第2態様によれば、考えられる設計において、第1色処理モードは第3色処理モードと同じであり、第2色処理モードは第4色処理モードと異なる。
第1態様または第2態様によれば、考えられる設計において、第1色処理モードは第3色処理モードと異なり、第2色処理モードは第4色処理モードと同じである。
第1態様または第2態様によれば、考えられる設計において、第1色処理モードは第3色処理モードと異なり、第2色処理モードは第4色処理モードと異なる。
第1態様または第2態様によれば、考えられる設計において、第1色処理モードまたは第3色処理モードは、色保持または色強化を含む。
第1態様または第2態様によれば、考えられる設計において、第2色処理モードまたは第4色処理モードは、白黒、暗化、ぼかし、またはレトロモードを含む。
第3態様によれば、本発明のある実施形態は、カメラと、メモリと、プロセッサと、バスとを含む端末デバイスを提供する。カメラ、メモリ、およびプロセッサはバスを介して接続される。カメラは画像を撮像するように構成され、メモリはコンピュータプログラムおよび命令を記憶するように構成される。プロセッサは、メモリに記憶されるコンピュータプログラム、命令、および撮像された画像を呼び出すように構成され、更には具体的に、前述した考えられる設計方法のいずれか1つを端末デバイスが実行することを可能にするように構成される。
第3態様によれば、考えられる設計において、端末デバイスは更にアンテナシステムを含む。アンテナシステムは、プロセッサの制御下で無線通信信号を送受信してモバイル通信ネットワークとの無線通信を実装する。モバイル通信ネットワークは、GSM(登録商標)ネットワーク、CDMAネットワーク、3Gネットワーク、4Gネットワーク、5Gネットワーク、FDMAネットワーク、TDMAネットワーク、PDCネットワーク、TACSネットワーク、AMPSネットワーク、WCDMA(登録商標)ネットワーク、TDSCDMAネットワーク、Wi-Fi(登録商標)ネットワーク、およびLTEネットワークのうちの1または複数を含む。
前述した考えられる設計における技術的解決策を、自然に反することなく組み合わせてよい。
従来技術では、ビデオまたは画像が撮影されると、任意の画像における個体同士または色同士が区別されず、特殊効果が十分に豊富ではない。本発明によれば、複数の色を使用することにより画像内の異なる領域同士を区別することができ、その結果、写真またはビデオの特殊効果が高まり、画像内の主要物体およびターゲットをより強調することができる。このようにして、主な役割がより顕著になる。加えて、本発明は更に、色の変化および主要物体の変化をより多く提供して、ユーザの粘性を向上させることができる。
本発明のある実施形態に係る端末の構造の概略図である。
本発明のある実施形態に係る画像処理方法のフローチャートである。
本発明のある実施形態に係るマスク識別子の例を示す。
本発明のある実施形態に係るマスク識別子の別の例を示す。
本発明のある実施形態に係るターゲットマスクの決定の概略図である。
本発明のある実施形態に係るターゲットマスクの決定の別の概略図である。
本発明のある実施形態に係るターゲットマスクの決定の別の概略図である。
本発明のある実施形態に係るターゲットマスクの決定の別の概略図である。
本発明のある実施形態に係る画像処理装置の概略図である。
本発明のある実施形態に係る画像処理装置の別の概略図である。
以下では、本発明の実施形態における添付図面を参照しながら、本発明の実施形態における技術的解決策について明確かつ十分に説明する。当然、説明されている実施形態は本発明の実施形態の全てではなく、幾つかであるに過ぎない。当業者が創造的努力をすることなく本発明の実施形態に基づいて取得する他の実施形態は全て、本発明の保護範囲に含まれるものとする。
本発明の実施形態では、端末が、ユーザにビデオ撮影および/またはデータ接続を提供するデバイス、無線接続機能を有するハンドヘルドデバイス、または無線モデムに接続される別の処理デバイス、例えば、デジタルカメラ、一眼レフカメラ、携帯電話(または「セルラ」電話と呼ばれる)、またはスマートフォンであってよい。端末は、携帯用デバイス、ポケットサイズのデバイス、ハンドヘルドデバイス、またはウェアラブルデバイス(例えば、スマートウォッチ)、タブレットコンピュータ、パーソナルコンピュータ(PC)、PDA(Personal Digital Assistant)、車載コンピュータ、ドローン、または空中デバイス等であってよい。
図1は、端末100の任意選択的なハードウェア構造の概略図である。
図1に示すように、端末100は、無線周波数ユニット110、メモリ120、入力ユニット130、表示ユニット140、カメラ150、オーディオ回路160(スピーカ161およびマイク162を含む)、プロセッサ170、外部インタフェース180、および電力供給装置190等の構成要素を含んでよい。当業者は、図1がインテリジェント端末または多機能デバイスの例に過ぎず、インテリジェント端末への制限にも多機能デバイスへの制限にもならないことを理解することができる。インテリジェント端末または多機能デバイスは、図に示すものよりも多いか少ない構成要素を含んでも、幾つかの構成要素を組み合わせても、異なる構成要素を含んでもよい。例えば、インテリジェント端末または多機能デバイスは、少なくともメモリ120、プロセッサ170、およびカメラ150を含む。
カメラ150は、画像またはビデオを撮像するように構成され、写真撮影機能またはビデオ撮影機能を実装するために、アプリケーションプログラムからの命令に従ってトリガおよび開始されてよい。カメラは、結像レンズ、光フィルタ、および画像センサ等の構成要素を含んでよい。物体により放出または反射される光線が結像レンズに入り、光フィルタを通過し、最終的に画像センサ上に収束する。結像レンズは主に、ある撮影画角で全ての物体(撮影されるシナリオ、撮影される物体、ターゲットシナリオ、またはターゲット物体と呼ばれることもあり、ユーザが撮影したいシナリオ画像として理解されることもある)により放出または反射される光を画像内に収束するように構成される。光フィルタは主に、光線中の余剰光波(例えば、可視光以外の光波、例えば、赤外光)をフィルタで除去するように構成される。画像センサは主に、受信される光信号に対して光から電気への変換を実行し、その光信号を電気信号に変換し、その電気信号を後続処理のためプロセッサ170に入力するように構成される。カメラは端末デバイスの前に配置されてもよいし、端末デバイスの後ろに配置されてもよい。カメラの具体的な数および具体的な配置方式は、設計者またはベンダポリシの要件に基づいて柔軟に決定されてよい。本願ではこれについて限定しない。
入力ユニット130は、入力される数字または文字情報を受信し、多機能装置のユーザ設定および機能制御に関連するキー信号入力を生成するように構成されてよい。具体的には、入力ユニット130は、タッチスクリーン131および/または別の入力デバイス132を含んでよい。タッチスクリーン131は、タッチスクリーン131上またはその近くにおけるユーザのタッチ操作(例えば、指、関節、またはタッチペン等の任意の適切な物体を使用することにより、タッチスクリーン上またはタッチスクリーンの近くでユーザにより実行される操作)を収集し、予め設定されたプログラムに基づいて、対応する接続装置を駆動してよい。タッチスクリーンは、タッチスクリーン上におけるユーザのタッチ行為を検出し、そのタッチ行為をタッチ信号に変換し、そのタッチ信号をプロセッサ170に送信してよく、プロセッサ170により送信されるコマンドを受信および実行することができる。タッチ信号は少なくとも接触座標情報を含む。タッチスクリーン131は、端末100とユーザとの間の入力インタフェースおよび出力インタフェースを提供してよい。加えて、タッチスクリーンは、抵抗型、容量型、赤外線型、および表面弾性波型等の様々なタイプで実装されてよい。タッチスクリーン131に加えて、入力ユニット130は更に、この別の入力デバイスを含んでよい。具体的には、別の入力デバイス132は、限定されるわけではないが、物理キーボード、ファンクションキー(例えば、ボリュームコントロールキーまたはオン/オフキー133)、トラックボール、マウス、およびジョイスティック等のうちの1または複数を含んでよい。
表示ユニット140は、ユーザにより入力される情報またはユーザに提供される情報、端末100の様々なメニュー、対話インタフェース、およびファイルの表示、および/または、任意のマルチメディアファイルの再生を行うように構成されてよい。本発明のこの実施形態において、表示ユニットは更に、カメラ150を使用することによって端末により取得される画像/ビデオを表示するように構成される。画像/ビデオは、幾つかの撮影モードにおけるプレビューの画像/ビデオ、撮影される初期の画像/ビデオ、および、撮影が実行された後に特定のアルゴリズム処理が実行されるターゲットの画像/ビデオを含んでよい。
更に、タッチスクリーン131は表示パネル141を含んでよい。タッチスクリーン131は、タッチスクリーン131上またはその近くにおけるタッチ操作を検出した後、プロセッサ170にタッチ操作を転送してタッチイベントのタイプを決定する。次に、プロセッサ170は、タッチイベントのタイプに基づいて、表示パネル141上に対応する視覚的出力を提供する。この実施形態では、タッチスクリーンおよび表示ユニットを1つの構成要素に統合して、端末100の入力機能、出力機能、および表示機能を実装してよい。説明し易くするために、本発明のこの実施形態では、タッチ表示スクリーンがタッチスクリーンおよび表示ユニットの機能セットを表す。幾つかの実施形態では、タッチスクリーンおよび表示ユニットは代替的に、2つの独立した構成要素として使用されてもよい。
メモリ120は、命令およびデータを記憶するように構成されてよい。メモリ120は主に、命令記憶領域およびデータ記憶領域を含んでよい。データ記憶領域は、マルチメディアファイルおよびテキスト等のデータを記憶してよい。命令記憶領域は、オペレーティングシステム、アプリケーション、および、少なくとも1つの機能に必要な命令等のソフトウェアユニット、それらのサブセット、またはそれらの拡張セットを記憶してよい。メモリ120は更に、不揮発性ランダムアクセスメモリを含んでよく、コンピューティング処理デバイスにおけるハードウェア、ソフトウェア、データリソースの管理と、ソフトウェアおよびアプリケーションの制御のサポートとを含む機能をプロセッサ170に提供してよい。メモリ120は更に、マルチメディアファイルを記憶し、かつ、実行プログラムおよびアプリケーションを記憶するように構成される。
プロセッサ170は端末100の制御センタであり、様々なインタフェースおよび回線を介して端末全体の様々な部分に接続される。プロセッサ170は、メモリ120に記憶される命令を動作させるか実行すること、および、メモリ120に記憶されるデータを呼び出すことにより、端末100の様々な機能を実行し、データを処理して、端末の全体的な制御を実行する。任意選択で、プロセッサ170は1または複数の処理ユニットを含んでよい。好ましくは、プロセッサ170は、アプリケーションプロセッサおよびモデムプロセッサと統合されてよい。アプリケーションプロセッサは主に、オペレーティングシステム、ユーザインタフェース、およびアプリケーションプログラム等を処理する。モデムプロセッサは主に無線通信を処理する。モデムプロセッサは代替的に、プロセッサ170に統合されなくてもよいことが理解できる。幾つかの実施形態では、プロセッサおよびメモリは代替的に、単一のチップ上に実装されてよい。幾つかの実施形態では、プロセッサおよびメモリは、独立したチップ上にそれぞれ実装されてよい。プロセッサ170は更に、対応する動作制御信号を生成し、その動作制御信号をコンピューティング処理デバイス内の対応する構成要素に送信し、ソフトウェア内のデータの読み取りおよび処理、特に、メモリ120内のデータおよびプログラムの読み取りおよび処理を行うように構成されてよく、その結果、プロセッサ170内の機能モジュールが、対応する機能を実行して、命令に必要な動作を実行するよう、対応する構成要素を制御する。
無線周波数ユニット110は、発信プロセスで情報の送受信または信号の送受信を行うように構成されてよい。例えば、無線周波数ユニット110は基地局からダウンリンク情報を受信し、次に、そのダウンリンク情報を処理のためプロセッサ170に配信し、関連するアップリンクデータを基地局に送信する。概して、無線周波数ユニットは、限定されるわけではないが、アンテナ、少なくとも1つの増幅器、トランシーバ、カプラ、低雑音増幅器(Low Noise Amplifier、LNA)、およびデュプレクサ等を含む。加えて、無線周波数ユニット110は更に、無線通信を介してネットワークデバイスおよび別のデバイスと通信してよい。無線通信は、限定されるわけではないが、グローバルシステム・フォー・モバイルコミュニケーションズ(Global System for Mobile Communications、GSM)、汎用パケット無線サービス(General Packet Radio Service、GPRS)、符号分割多重アクセス(Code Division Multiple Access、CDMA)、広帯域符号分割多重アクセス(Wideband Code Division Multiple Access、WCDMA)、ロングタームエボリューション(Long Term Evolution、LTE)、電子メール、およびショートメッセージサービス(Short Message Service、SMS)等を含む任意の通信規格またはプロトコルを使用してよい。
オーディオ回路160、スピーカ161、およびマイク162は、ユーザと端末100との間のオーディオインタフェースを提供してよい。オーディオ回路160は、受信されたオーディオデータから変換される電気信号をスピーカ161に送信してよく、スピーカ161は、その電気信号を出力のため音信号に変換する。加えて、マイク162は音信号を収集するように構成されており、更には、収集された音信号を電気信号に変換してよい。オーディオ回路160は電気信号を受信し、電気信号をオーディオデータに変換し、そのオーディオデータを処理のためプロセッサ170に出力し、次に、処理されるオーディオデータを、例えば、無線周波数ユニット110を介して別の端末に送信するか、または、処理されるオーディオデータを更なる処理のためメモリ120に出力する。オーディオ回路は、オーディオ回路とヘッドセットとの間の接続インタフェースを提供するように構成されるヘッドセットジャック163を含んでもよい。スピーカおよびマイクの具体的な数および具体的な配置方式は、設計者またはベンダポリシの要件に基づいて柔軟に決定されてよい。本願ではこれについて限定しない。
端末100は更に、各構成要素に電力を供給する電力供給装置190(例えば、バッテリ)を含む。好ましくは、電力管理システムを使用することによりプロセッサ170に電力供給装置を論理的に接続して、電力管理システムを使用することによる充電、放電、および電力消費管理等の機能を実装してよい。
端末100は更に外部インタフェース180を含む。外部インタフェースは標準的なマイクロUSBポートであってもよいし、多ピンコネクタであってもよい。外部インタフェースは、端末100を通信のため別の装置に接続するように構成されてもよいし、端末100を充電するための充電器に接続するように構成されてもよい。
示されてはいないが、端末100は更に、閃光、ワイヤレスフィデリティ(wireless fidelity、Wi-Fi)モジュール、ブルートゥース(登録商標)モジュール、および異なる機能を持つセンサ等を含んでよい。本明細書では詳細について説明しない。図1に示す端末には、以下で説明する方法の幾つかまたは全てが適用されてよい。
本発明は、撮影機能(写真撮影機能またはビデオ撮影機能のうちの少なくとも一方を含む)を有する端末デバイスに適用されてよく、実装される製品は、インテリジェント端末、例えば、携帯電話、タブレット、DV、ビデオカメラ、カメラ、携帯用コンピュータ、ノートブックコンピュータ、インテリジェントロボット、テレビ、セキュリティ保護システム、またはドローン等のカメラが設置される製品の形態であってよい。具体的には、本発明の機能モジュールは、関連するデバイスのDSPチップ上に展開されてよく、具体的には、DSPチップ内のアプリケーションプログラムまたはソフトウェアであってよい。本発明では、端末デバイス上に機能モジュールを展開して、ソフトウェアのインストールまたはアップグレードとハードウェアの呼び出しおよび協調とを通じて画像処理機能を提供する。
本発明は主に、端末デバイスを使用することにより画像またはビデオが撮影されるシナリオに適用される。人々はビデオ撮影に対する要求をますます高めており、「見たままが得られる」ビデオ撮影体験を実装するために、撮影しながらビデオの特殊効果処理を完了したいと思っている。本発明によれば、画像の特殊効果をリアルタイムで実装するために、画像またはビデオに対して主要物体のセグメンテーションが実行されてよく、異なる領域の色が調整されてよい。
以下では、例を使用することにより本発明について説明する。
[例1]
詳細については図2を参照されたい。図2は、本発明のある実施形態に係る画像処理方法のフローチャートである。方法は、画像を撮影するプロセスで実行される。特定の実装プロセスでは、端末が撮影モードを構成してよい。撮影モードでは、方法が以下の段階を含んでよい。
段階21:画像を取得(撮影または撮像として理解されてもよい)する。
具体的には、ユーザが写真を取ると、対応するプレビューストリームもスクリーン上に表示される。プレビュー画像とは概して、プレビューストリーム内の1つの画像を指してよい。ユーザがシャッタをクリックすると、撮影された画像が取得される。撮影された画像のサイズは、例えば、限定されるわけではないが、1920×1080である。
段階22:撮影された画像内の内容(シーンセマンティクスとして理解されてよい)に基づいて、画像内のターゲット領域および背景領域を決定する。より具体的には、画像内のターゲット領域および背景領域は、画像内の物体の種別に基づいて決定されてよい。背景領域はターゲット領域以外の画像の領域である。ターゲット領域は、画像内のターゲット物体、すなわち、ユーザが画像内で強調したい物体に対応しており、ユーザの対話的選択またはシステム設定に関連してよい。具体的には、段階22はS221からS224を含んでよい。
S221:画像の前処理をする。
撮影された元のサイズの画像はダウンサンプリングされ、より小さな解像度の画像に変換される。この小さな画像に基づいて計算が実行されると、計算量が低減され得る。特定の実装プロセスでは、元のサイズ(例えば、m0×n0)がm×nのサイズにダウンサンプリングされてよい。mおよびnの値が小さいほど、後続の計算量が少ないことを示す。ただし、mおよびnの値が過度に小さい場合は、後に画素の解像度が低下する。実験では、mおよびnの適切な値の範囲が[128、512]、より具体的には、[256、300]であることが示されている。加えて、mおよびnは等しい場合と等しくない場合がある。例えば、1920×1080の画像が256×256にダウンサンプリングされてよい。
S222:ダウンサンプリングされたm×n画像をニューラルネットワークに入力してセマンティックセグメンテーションを実行することで、画像マスク(Mask)を決定する。
セマンティックセグメンテーションとは、画像内の物体に対して実行される画素レベルのセグメンテーションを指し、画素ごとに物体の種別がマーキングされる。物体種別がマーキングされていない領域が「背景」としてマーキングされる。
具体的には、セマンティックセグメンテーションは、CNN(Convolutional Neural Network)に基づく深層学習アルゴリズムを使用してよい。CNNベースのネットワークモデルの具体的な説明は以下の通りである。
(1)m×n画像に対するダウンサンプリングおよび畳み込みを実行して、m1×n1画像、m2×n2画像、・・・、およびmz×nz画像を取得する。層ごとに画像セマンティック特徴を抽出して、m1×n1特徴マップ、m2×n2特徴マップ、・・・、およびmz×nz特徴マップ、すなわち、マルチスケールのセマンティック特徴を取得する。ここで、m1、m2、・・・、およびmzは倍数関係(multiple relationship)にあり、mよりも小さく、n1、n2、・・・、nzは倍数関係にあり、nよりも小さい。例えば、m=2m1=4m2=、・・・、=2×mzであり、n=2n1=4n2=、・・・、=2×nzである。zの値および倍数関係は、アルゴリズム性能および設計要件に基づいて決定されてよい。
(2)m1×n1特徴マップ、m2×n2特徴マップ、・・・、およびmz×nz特徴マップに対する畳み込みおよびアップサンプリングを実行して、マルチスケールのセマンティック特徴を融合する。
上述した畳み込み、ダウンサンプリング、およびアップサンプリングの方法は、この業界でよく知られている技術を使用してよく、本発明では限定および列挙されない。
(3)画像内で識別する必要がある物体種別を決定し、各画素における各物体種別のスコアを計算し、スコアが最も高い物体種別(略して、種別であってよい)を画素の分類結果として使用し、最終的にマスクグラフ、すなわち、マスクを取得する。
例えば、端末がk個の物体種別(例えば、人物、動物、植物、別の予め設定された物体、または背景のうちの少なくとも1つ)を識別できる場合は、k個の画像が取得されてよい。画像内の各画素は、ある物体種別に属するスコアを取得する。スコアが高いほど、その画素がその物体種別に属する確率が高いことを示す。
任意の画素の物体種別が決定されると、その画素は識別されてよい。例えば、1は人物を示すために使用され、2は車両を示すために使用され、3は動物を示すために使用され、4は植物を示すために使用され、0は背景を示すために使用される。これは例に過ぎず、いかなる制限にもならない。ユーザは、設計要件に基づいて、種別の数、種別、および識別方法をランダムに設計してよい。具体的な例を図3に示すことができる。車両が位置する全ての画素領域がニューラルネットワークにより車両として分類され、1として識別される。周辺の背景部分における全ての画素領域がニューラルネットワークにより背景として分類され、0として識別される。別の例として、ニューラルネットワークにより出力されるマスクでは、同じ種別の物体の領域が同じラベルを有する。例えば、背景のラベルが0であり、猫のラベルが1であり、スケートボードのラベルが2である。図4に示すマスクでは更に、同じ物体種別のラベルを表すために同じ色が使用されてよい。例えば、異なる色を使用することにより、人物、馬、および背景がそれぞれ識別される。
マスクは、セマンティックセグメンテーションアルゴリズムの結果である。ある画像では、物体のある種別に属する全ての画素が色または識別子としてラベル付けされ、背景も色または識別子としてラベル付けされる。処理後に取得される画像はマスクと呼ばれ、その結果、セグメンテーション結果が直感的に表示される。
画像の内容は主要物体および背景を含んでよい。説明し易くするため、それに応じて、画像マスクは主要物体マスクおよび背景マスクを含んでよい。主要物体マスクは、画像または撮影される画像内でユーザが強調したい個体、例えば、人物、動物、植物、または特定の物体(カップ、テーブル、衣類、装飾品・・・)を含む、セグメンテーション方法を使用することにより識別される主要物体に対応してよい。背景マスクは、主要物体マスクとして識別されない画像内の別の領域に対応する。画像マスクは画像全体に対応する。主要物体マスクの識別能はニューラルネットワークの性能に関連する。例えば、幾つかのニューラルネットワークは、人物および背景のみを識別することができる。幾つかのニューラルネットワークは、人物、車両、および背景を識別することができる。幾つかのニューラルネットワークは、車両および背景のみを識別することができる。幾つかのニューラルネットワークは、人物、動物、および背景を識別することができる。幾つかのニューラルネットワークは、動物および背景のみを識別することができる。幾つかニューラルネットワークは、動物、植物、背景・・を識別することができる。
画像は代替的に主要物体のみを含んでもよいし、背景のみを含んでもよいことを理解されたい。画像が主要物体のみを含む場合は、主要物体が背景として識別されてもよい。画像内の主要物体および背景に関するこれらの設定は、設計者により柔軟に設計および決定されてよい。
深層ニューラルネットワークのトレーニングには大量のセグメンテーショントレーニングデータを使用する必要があり、トレーニングデータセットが、セグメンテーション物体種別、入力画像、およびマスクグラフを含む多数の画像を含む。トレーニングデータセットは、セグメンテーション物体の様々な典型的な適用シナリオをカバーしてよく、多様なデータを有する。トレーニングデータセット内の入力画像およびマスクグラフを使用してネットワークをトレーニングすることで、優れたネットワークパラメータを取得する、すなわち、ユーザが満足するセグメンテーション性能を取得する。取得されたネットワークパラメータは、ニューラルネットワークの最終的に使用される計算パラメータとして使用される。
S223:マスクに基づいてターゲットマスクを決定する。
異なる能力を持つ異なる画像およびニューラルネットワークの場合は、様々なマスクが取得されてよい。端末は更に、これらのマスクのうち強調して目立つように表示する必要が最もある物体に対応するマスクを決定してよい。すなわち、ターゲットマスクを決定する必要がある。ターゲットマスクの決定は、限定されるわけではないが、以下の幾つかのの方式を含む。
方式1:マスクが1つの主要物体マスクおよび1つの背景マスクのみを含む場合は、主要物体マスクがターゲットマスクとして決定される。
具体的には、画像に対するセマンティックセグメンテーションを実行してk個のマスクを取得することが想定される。k個のマスクは異なる物体種別に対応する。k=2であり、かつ、2つのマスクが1つの物体マスクおよび1つの背景マスクを含む場合は、物体マスクに対応する画像領域がターゲット領域として決定され、背景マスクに対応する領域が背景領域として決定される。
図5に示すように、ニューラルネットワークにより出力される画像のマスクが主要物体マスクA1および背景マスクのみを含む。この場合は、A1がターゲットマスクとして決定されてよい。
方式2:マスクが複数の主要物体マスクおよび1つの背景マスクを含むときに、任意の主要物体マスクに含まれる画素の数が特定の閾値よりも大きい場合は、その主要物体マスクがターゲット主要物体として決定される、または、任意の主要物体マスクに含まれる画素の数が特定の閾値よりも小さい場合は、その主要物体マスクが再マーキングされ、また、背景としてマーキングされる。主要物体マスクに含まれる画素の数は、画像内の個体の領域に含まれる画素の数であってよい。
具体的には、画像に対するセマンティックセグメンテーションを実行してk個のマスクを取得することが想定される。k個のマスクは異なる物体種別に対応する。kが2よりも大きく、かつ、k個のマスクのうちk0個の物体マスクに含まれる画素の数が予め設定された閾値よりも大きい場合は、k0個の物体マスクに対応する画像領域がターゲット領域として決定され、残りのマスクに対応する画像領域が背景領域として決定される。ここで、k0はkよりも小さな非負整数である。
図6に示すように、ニューラルネットワークにより出力される画像のマスクが、主要物体マスクA1、主要物体マスクA2、および背景マスクを含む。A1に含まれる画素の数が予め設定された閾値よりも大きく、かつ、A2に含まれる画素の数が予め設定された閾値よりも大きくない場合は、A1がターゲットマスクとして決定され、主要物体マスクA2が背景マスクとして再マーキングされる。再マーキングされるマスクを図5に示すことができる。A1に含まれる画素の数が予め設定された閾値よりも大きく、かつ、A2に含まれる画素の数も予め設定された閾値より大きい場合は、A1およびA2の両方がターゲットマスクとして決定される。A1に含まれる画素の数もA2に含まれる画素の数も予め設定された閾値より大きくない場合は、A1およびA2が背景マスクとして再識別される。すなわち、画像は主要物体マスクを含まない。
特定の実装プロセスでは、A1およびA2が同じ物体種別または異なる物体種別であってよいことを理解されたい。
方式3:マスクが複数の主要物体マスクおよび1つの背景マスクを含む場合は、最大数の画素を含む主要物体マスクがターゲットマスクとして選択され、他の主要物体マスクがまた、背景マスクとして再マーキングされる。
具体的には、画像に対するセマンティックセグメンテーションを実行してk個のマスクを取得することが想定される。k個のマスクは異なる物体種別に対応する。kが2よりも大きい場合は、k個のマスクのうち最大数の画素を含むマスクに対応する画像領域がターゲット領域として決定され、残りのマスクに対応する画像領域が背景領域として決定される。
図6に示すように、ニューラルネットワークにより出力される画像のマスクが、主要物体マスクA1、主要物体マスクA2、および背景マスクを含む。最大数の画素を含むA1はターゲットマスクとして決定され、主要物体マスクA2は背景マスクとして再マーキングされる。再マーキングされるマスクは図5に示すことができる。
特定の実装プロセスでは、A1およびA2が同じ物体種別または異なる物体種別であってよいことを理解されたい。
方式4:マスクが複数の主要物体マスクおよび1つの背景マスクを含み、かつ、これら複数の主要物体マスクが複数の物体種別を含む場合は、物体種別の優先度に基づいてターゲットマスクが決定される。例えば、人物マスクの優先度が車両マスクの優先度よりも高い場合は、人物マスクがターゲットマスクであり、車両マスクが背景として再マーキングされてよい。例えば、人物マスクの優先度が動物マスクの優先度よりも高く、植物マスクの優先度よりも高い場合、および、システムにより設定されている優先度が、植物マスクの優先度よりも高い優先度を持つ全てのマスクが主要物体マスクであることである場合は、人物マスクおよび動物マスクの両方がターゲットマスクであり、植物マスクが背景として再マーキングされてよい。1または複数の個体が同じ物体種別のマスクに属することを理解されたい。
具体的には、画像に対するセマンティックセグメンテーションを実行してk個のマスクを取得することが想定される。k個のマスクは異なる物体種別に対応する。kが2よりも大きい場合は、物体種別の予め設定された優先度に基づいて、ターゲットマスクがk個のマスクから決定される。ターゲットマスクに対応する画像領域がターゲット領域として決定され、残りのマスクに対応する画像領域が背景領域として決定される。
図7に示すように、ニューラルネットワークにより出力される画像のマスクが、主要物体マスクA1、主要物体マスクB1、および背景マスクを含む。A1およびB1は異なる物体種別であり、A1の優先度がB1の優先度よりも高い。B1の優先度よりも高いかそれに等しい優先度を持つ任意の主要物体マスクがターゲットマスクとして使用され得るようにシステムが設定している場合は、A1およびB1の両方がターゲットマスクである。B1よりも高い優先度を持つ主要物体マスクがターゲットマスクとして使用され得るようにシステムが設定している場合は、A1がターゲットマスクとして決定され、B1が背景マスクとして再マーキングされる。
方式5:マスクが複数の主要物体マスクおよび1つの背景マスクを含む場合は、ユーザにより入力される選択操作に従ってターゲットマスクが決定されてよい。入力モードは、限定されるわけではないが、スクリーンタッチおよび声等の選択命令を含む。ユーザにより選択される個体に対応する主要物体マスクがターゲットマスクである。
具体的には、画像に対するセマンティックセグメンテーションを実行してk個のマスクを取得することが想定される。k個のマスクは異なる物体種別に対応する。kが2よりも大きい場合は、ユーザの選択命令に従って、ターゲットマスクがk個のマスクから決定される。ターゲットマスクに対応する画像領域がターゲット領域として決定され、残りのマスクに対応する画像領域が背景領域として決定される。
図7に示すように、ニューラルネットワークにより出力される画像のマスクは、主要物体マスクA1、主要物体マスクB1、および背景マスクを含む。撮影プロセスにおいてA1に対応する個体をユーザがタッチスクリーン上でクリックした場合は、A1がターゲットマスクとして決定され、B1が背景マスクとして再マーキングされる。撮影プロセスにおいてB1に対応する個体をユーザがタッチスクリーン上でクリックした場合は、B1がターゲットマスクとして決定され、A1が背景マスクとして再マーキングされる。
方式6:マスクが複数の主要物体マスクおよび1つの背景マスクを含み、かつ、これら複数の主要物体マスクが複数の物体種別を含む場合は、ユーザにより入力される選択操作に基づいてターゲットマスクが決定されてよい。入力モードは、限定されるわけではないが、スクリーンタッチおよび声等の選択命令を含む。ユーザにより選択される個体に対応する物体種別の全ての主要物体マスクがターゲットマスクである。
具体的には、画像に対するセマンティックセグメンテーションを実行してk個のマスクを取得することが想定される。k個のマスクは異なる物体種別に対応する。kが2よりも大きい場合は、ユーザの選択命令に従って、ターゲットマスクがk個のマスクから決定される。ターゲットマスクに対応する画像領域がターゲット領域として決定され、残りのマスクに対応する画像領域が背景領域として決定される。
図8に示すように、ニューラルネットワークにより出力される画像のマスクが、主要物体マスクA1、A2、B1、およびB2と、背景マスクとを含む。A1およびA2は同じ物体種別であり、B1およびB2は同じ物体種別である。撮影プロセスにおいてA1に対応する個体をユーザがタッチスクリーン上でクリックした場合は、同じ物体種別のA1およびA2がターゲットマスクとして決定され、B1およびB2が背景マスクとして再マーキングされる。撮影プロセスにおいてB2に対応する個体をユーザがタッチスクリーン上でクリックした場合は、同じ物体種別のB1およびB2がターゲットマスクとして決定され、A1およびA2が背景マスクとして再マーキングされる。
前述した特定の実装または実施形態は例に過ぎず、制限になるべきではないことを理解されたい。前述した特定の実装または実施形態は、論理に違反することなく自由に組み合わされてよい。従って、画像に対するマスクセグメンテーションが実行された後に、1または複数のターゲットマスクが取得されてよい。これらのターゲットマスクは1または複数の物体種別であってよく、ターゲットマスクの各物体種別は更に1または複数の個体を含んでよい。表示される結果は、端末システムで設定されているターゲットマスクを決定するためのルールと、ユーザの入力とに関連する。幾つかのシナリオでは、画像が代替的に背景マスクのみを含んでもよい。
S224:元の画像内のターゲット領域および背景領域を決定する。
撮影された画像の元のサイズがマスクからサンプリングされ、マスク内のターゲットマスクおよび背景マスクもアップサンプリングされる。元の画像に対応する、アップサンプリングされたターゲットマスクの全ての画素で構成される領域がターゲット領域であり、元の画像に対応する、アップサンプリングされた背景マスクの全ての画素で構成される領域が背景領域である。
段階23:異なる色処理モードで画像内のターゲット領域および背景領域を処理して、ターゲット画像を取得する。処理には異なる色処理モードが使用され、その結果、ターゲット領域の色度が背景領域の色度よりも大きくなるか、または、ターゲット領域の輝度が背景領域の輝度よりも大きくなる。すなわち、ターゲット画像内のターゲット領域の色度がターゲット画像内の背景領域の色度よりも大きくなるか、または、ターゲット画像内のターゲット領域の輝度がターゲット画像内の背景領域の輝度よりも大きくなる。
具体的には、第1色処理モードおよび第2色処理モードが画像内のターゲット領域および背景領域にそれぞれ使用される。第1色処理モードおよび第2色処理モードは、限定されるわけではないが、以下の方式を含む。
方式1:第1色処理モードは色を保持しており、第2色処理モードはフィルタを使用している、例えば、背景領域の色を白黒に変換している。典型的なフィルタは更に、白黒フィルタ、暗化フィルタ、レトロフィルタ、フィルムフィルタ、ぼかしフィルタ、およびボケフィルタ等のいずれかを含む。
例えば、白黒フィルタは、各画素値をグレースケール値にマッピングして白黒フィルタの効果を実装するものである。別の例として、暗化フィルタは、各画素値の輝度を暗化して特殊暗化効果を実現するものである。
方式2:第1色処理モードは第1フィルタ方式であり、第2色処理モードは第2フィルタ方式であり、第1フィルタ方式は第2フィルタ方式と異なる。同じ画像の場合は、第1フィルタ方式で取得される画像の色度が、第2フィルタ方式で取得される画像の色度よりも大きい。
方式3:第1色処理モードは第3フィルタ方式であり、第2色処理モードは第4フィルタ方式であり、第3フィルタ方式は第4フィルタ方式と異なる。同じ画像の場合は、第3フィルタ方式で取得される画像の輝度が、第4フィルタ方式で取得される画像の輝度よりも大きい。
輝度および色度の両方で色が表されることを理解されたい。色度とは輝度を含まない色の特性であり、色の色調および彩度を反映する。輝度とは色の明度を指す。従って、色処理は輝度処理および/または色度処理を含む。
具体的には、フィルタは、色度、輝度、および色相の調整を含んでよく、更には、重ね合わされたテクスチャ等を含んでよい。色度および色相を調整することにより、ターゲットを絞った方式で色系統が調整されてよく、その結果、その色系統は濃くなるか薄くなる、または色調が変更され、別の色系統は変更されないままである。フィルタは画素間のマッピングとして理解されてもよい。予め設定されたマッピングテーブルを使用することにより、入力画像の画素値がターゲット画素の画素値にマッピングされて、特殊効果が実現される。フィルタは予め設定されたパラメータマスクであってよいことを理解されたい。これらの色関連のパラメータは、この業界でよく知られているフィルタマスクのパラメータであってもよいし、ユーザにより独立的に設計されるパラメータであってもよい。
補足として、段階23の後、方法は更に、段階23で処理される画像を記憶する段階24を含む。
本発明によれば、撮影プロセスにおいて、端末は画像内容に基づきターゲット個体および背景を決定し、そのターゲット個体および背景に対して異なる色処理を実行してよく、その結果、ユーザにより撮影される画像内の主要物体をより顕著にすることができ、撮影された画像はフィルムさながらである。
[例2]
具体的には、本発明では、ビデオ記録の画像処理方法が写真撮影の画像処理方法と同様であり、写真撮影で処理される物体は1つの画像であるが、ビデオ記録で処理される物体は連続ビデオフレーム、すなわち、複数の連続画像であるという点で違いがある。ビデオ記録で処理される物体は、完成したビデオであってもよいし、完成したビデオ内のセグメント、または、ある期間範囲におけるユーザ定義のビデオクリップであってもよい。ビデオまたはビデオクリップ内の各画像の処理手順については、例1の処理方法を参照されたい。
具体的には、ビデオ撮影の画像処理方法は以下の段階を含んでよい。
段階31:撮影されたN個の画像を取得することであって、Nは正の整数である、取得することと、各画像に対して段階32および段階33の動作を実行することであって、N個の画像は隣接するビデオフレームであってよく、N個の画像の合計がビデオとして理解されてよい、実行することとを行う。代替的に、N個の画像は隣接していないこともある。
段階32の任意選択的な実装が段階22のものと同じであってよい。
段階33の任意選択的な実装が段階23のものと同じであってよい。
補足として、ビデオが連続画像を含むことから、個体を決定する方式は時系列にも関連する。従って、段階23に加えて、段階33にはより多くの実装があってよい。任意選択で、S223で主要物体を決定する方式にはいずれも遅延が生じることがある。例えば、L1番目のフレームでは人物および背景が決定され、(L1+1)番目の画像フレームから(L1+L0)番目の画像フレームでは、画素のマーキングおよびマスクの比較を通じて、これらの画像内の人物が主要物体であり、かつ、これらの画像内の人物に対応する領域がターゲット領域0であることが依然として決定されてよい。フレームごとに主要物体および背景を決定する必要はない。毎回主要物体が決定される時点はユーザにより定義されてよい、または、主要物体は定期的に、例えば、限定されるわけではないが、2秒ごとまたは10秒ごとに決定されてよい。毎回主要物体を決定する方式は、限定されるわけではないが、S223における6つの方式を含む。
段階34:色処理が実行されるN個の画像で構成されるビデオを記憶する。
本発明によれば、ユーザがビデオを記録するプロセスにおいて、端末はビデオ内容に基づきターゲット個体および背景を決定し、そのターゲット個体および背景に対して異なる色処理を実行してよく、その結果、ユーザにより撮影されるビデオの主要物体をより顕著にすることができ、撮影されたビデオは映画のようにクールであり、ユーザ体験が向上する。
[例3]
本発明では、ビデオ記録の画像処理方法が写真撮影の画像処理方法と同様であり、写真撮影で処理される物体は1つの画像であるが、ビデオ記録で処理される物体は連続ビデオフレーム、すなわち、複数の連続画像であるという点で違いがある。従って、各画像の処理手順については、例1の処理方法を参照されたい。幾つかの複雑なビデオ撮影シナリオでは、画像内の幾つかの領域が誤って検出されることがある。隣接するフレームにおいて同じ領域がターゲットまたは背景として別個にマーキングされている場合は、前述した例の色処理方法に従って同じ領域が異なる色に処理され、隣接するフレームにおける同じ領域の色の変化によって感覚的なちらつきが生じる。従って、処理中にちらつきを判断および除去する必要がある。ちらつきは物体種別の誤判断として理解されてよい。
ビデオのちらつきを判断する方法では、オプティカルフローに基づき前のフレームのマスクを処理してオプティカルフローベースのマスクを取得してよく、オプティカルフローベースのマスクと現在のフレームのマスクとの違いを比較する。一致度または類似度が特定の割合を超える場合は、ちらつきが生じていないと判断される。一致度または類似度が特定の割合を超えない場合は、ちらつきが生じていると判断される。加えて、ちらつきの判断は継続的なプロセスであることを理解されたい。任意選択で、ちらつきが存在するかどうかを判断する具体的な方法は以下の通りである。
(1)第1に、隣接するフレームのオプティカルフローを計算する。ここで、オプティカルフローは、隣接するフレーム((t-1)番目のフレームおよびt番目のフレーム)における画素間の変位関係を示す。
(2)(t-1)番目のフレームのマスクを取得し、(t-1)番目のフレームのマスクと、(t-1)番目のフレームおよびt番目のフレームのオプティカルフロー情報とに基づいて、t番目のフレームのオプティカルフローマスクFを計算する。ここで、オプティカルフローマスクは、オプティカルフローに基づく計算を通じて取得される。
(3)t番目のフレームのマスクSを取得する。
(4)オプティカルフローマスクFにおける主要物体の画素集合(pixel set)SFをカウントし、マスクSにおける主要物体の画素集合SSをカウントする。SFおよびSSの和集合(union set)および共通集合(intersection set)における画素の数は、それぞれNuおよびNiである。(Nu-Ni)/Nuが特定の閾値よりも大きい場合は、隣接する(t-1)番目のフレームおよびt番目のフレームのマスク間に比較的大きな違いがあるものとみなされ、(t-1)番目のフレームとt番目のフレームとの間でちらつきが生じていると判断されるか、または、t番目のフレームでちらつきが生じていると理解されてよい。比較的大きな違いは、同じ物体が異なる物体種別と誤判定され得ることを示す。例えば、(t-1)番目のフレームおよびt番目のフレームにおける同じ個体が人物および猿として別個に判断される。
任意選択で、現在の画像の最初のN0(2よりも大きな正の整数)個の画像において、同じ物体が異なる物体種別として判断される隣接する画像のグループの数が予め設定された閾値よりも大きい場合は、現在のフレームに対するちらつき例外処理を実行する必要があると判断されてよい。同じ物体が異なる物体種別として判断される隣接する画像のグループの数が予め設定された閾値よりも大きくないと判断された場合は、現在のフレームに対するちらつき例外処理を実行する必要はないと判断されてよい。
任意選択で、例えば、予め定められた数の過去の隣接するフレーム、または予め設定された数の過去のフレームについて、これらのフレームの半分よりも多くのフレームでちらつきが生じていると判断された(例えば、現在のビデオフレームの最初の5つの隣接するフレームのうち3つのビデオフレームでちらつきが生じていると判断された)場合は、現在のフレームに対するちらつき例外処理を実行する必要があると判断されてよい。これらのフレームの半分よりも少ないフレームでちらつきが生じていると判断された(例えば、現在のビデオフレームの最初の5つの隣接するフレームのうちの1つでちらつきが生じていると判断された)場合は、現在のフレームに対するちらつき例外処理を実行する必要はないと判断されてよい。
現在のビデオ画像はある時点で記録されている画像として理解され得ることを理解されたい。本明細書における時点は、幾つかのシナリオにおける一般的な時点として理解されてもよいし、幾つかのシナリオにおける何らかの特定の時点、例えば、最近の時点またはユーザが興味を持っている時点として理解されてもよい。
具体的には、この例におけるビデオ撮影の画像処理方法は以下の段階を含んでよい。
段階41:撮影されたN個の画像を取得することであって、Nは正の整数である、取得することと、各画像に対して段階32および段階33の動作を実行することであって、N個の画像は隣接するビデオフレームであってよく、N個の画像の合計がビデオとして理解されてよい、または、N個の画像は隣接していないことがある、実行することとを行う。
段階42:現在のフレーム(the current image)の最初のN0個のフレームでちらつきが生じている、隣接する画像のグループの数が予め設定された閾値よりも大きいかどうかを判断する。本明細書では、N0および閾値がユーザにより設定されてよい。例えば、N0は、選択された過去のビデオフレームサンプル数であり、閾値は、N0の1/2または2/3等であってよい。これは例に過ぎず、限定はされない。
判断結果が予め設定された閾値よりも大きくない場合は、現在撮影または撮像されている画像に対して段階43および段階44の動作が実行される。
段階43の任意選択的な実装が段階32のものと同じであってよい。
段階44の任意選択的な実装が段階33のものと同じであってよい。
判断結果が予め設定された閾値よりも大きい場合は、現在撮影または撮像されている画像に対して段階45の動作が実行される。
段階45:同じ色処理方法を使用することにより現在のフレームの全ての画像領域を処理して、ターゲット画像を取得する。同じ色処理方法は、前のフレームにおける背景領域の色処理方法と同じであってもよいし、前のフレームにおけるターゲット領域の色処理方法と同じであってもよいし、前のフレームにおける画像全体の色処理方法と同じであってもよい。例えば、段階33(23)における背景領域の色処理方法と同じ色処理方法が画像全体に使用されてよい。代替的に、段階33(23)におけるターゲット領域の色処理方法と同じ色処理方法が画像全体に使用されてもよい。例えば、画像全体がカラフルなままであるか、または、画像全体が白黒であるか、または、第1色処理モードまたは第2色処理モード(限定されるわけではないが、例1の色処理モードを含む)が画像全体に使用される。
この場合は、現在のフレームについて、段階22のものと同様のマスクセグメンテーション手順が存在してもよいし、省略されてもよい。この例ではこれについて限定しない。
段階45の後、色処理が実行されるN個の画像で構成されるビデオを記憶する段階46が実行される。Nは正の整数である。
本発明によれば、ユーザがビデオを記録するプロセスにおいて、端末はビデオ内容に基づきターゲット個体および背景を決定し、そのターゲット個体および背景に対して異なる色処理を実行してよく、その結果、ユーザにより撮影されるビデオの主要物体をより顕著にすることができ、撮影されたビデオは映画のようにクールであり、ユーザ体験が向上する。
[例4]
幾つかの適用シナリオでは、ユーザにより撮影される画像の内容が通常は変化する。従って、その画像の主要物体が通常は変化する。ユーザは、異なる画像における主要物体の色処理モードを自由に選択して、ビデオスタイルを独立的に制御したいとも思っている。
ビデオ撮影プロセスにおける画像処理方法は以下の段階を含んでよい。
段階51:端末がビデオフレームを取得する。
段階52:端末が、ビデオから取得される任意のビデオフレームにおける主要物体領域および背景領域を決定する。
段階53:端末は、主要物体領域にいつでも任意の色処理モードを使用し、背景領域にいつでも任意の色処理モードを使用する。ただし、いかなる画像についても、色処理後の主要物体領域の輝度または色度が、色処理後の背景領域の輝度または色度よりも大きくなるよう保証する必要がある。代替的に、いかなる画像についても、主要物体領域に使用される色処理モードで取得される画像の色度または輝度が、背景領域に使用される色処理モードで取得される画像の色度または輝度よりも大きい。
[例5]
幾つかの適用シナリオでは、ユーザにより撮影される画像の内容が通常は変化する。従って、その画像の主要物体が通常は変化する。ユーザは、異なる画像における主要物体の色処理モードを自由に選択して、ビデオスタイルを独立的に制御したいとも思っている。特に、期間によって色が変更される。
ビデオ撮影プロセスにおける画像処理方法は以下の段階を含んでよい。
段階61:第1期間にN1個の画像を撮像し、第2期間にN2個の画像を撮像する。ここで、第1期間および第2期間は隣接する期間であり、N1およびN2はどちらも正の整数であり、第1期間および第2期間は、ユーザが肉眼で画像の変化を識別できる持続時間であってよく、N1およびN2は、ビデオ記録中のフレームレートおよびこれらの期間の持続時間で決定される。本発明ではこれについて限定しない。
段階62:N1個の画像の各々における第1ターゲット領域および第1背景領域を決定することであって、第1背景領域は第1ターゲット領域以外の画像の領域であり、N1個の画像の各々における第1ターゲット領域は第1物体(少なくとも1つの物体を含んでよい)に対応する、決定することと、N2個の画像の各々における第2ターゲット領域および第2背景領域を決定することであって、第2背景領域は第2ターゲット領域以外の画像の領域であり、N2個の画像の各々における第2ターゲット領域は第2物体(少なくとも1つの物体を含んでよい)に対応する、決定することとを行う。
段階63:ターゲットビデオを取得するために、第1色処理モードでの第1ターゲット領域の処理と、第2色処理モードでの第1背景領域の処理と、第3色処理モードでの第2ターゲット領域の処理と、第4色処理モードでの第2背景領域の処理とを行う。ここで、ターゲットビデオでは、第1ターゲット領域の色度が第1背景領域の色度よりも大きくなるか、または、第1ターゲット領域の輝度が第1背景領域の輝度よりも大きくなり、第2ターゲット領域の色度が第2背景領域の色度よりも大きくなるか、または、第2ターゲット領域の輝度が第2背景領域の輝度よりも大きくなる。
[例6]
幾つかの適用シナリオでは、ユーザにより撮影される画像の内容が通常は変化する。従って、その画像の主要物体が通常は変化する。ユーザは、ユーザが異なる画像において強調したいターゲット主要物体を自由に選択したいとも思っている。例えば、第1物体に対応する画像領域が第1期間におけるターゲット領域として決定され、第2物体に対応する画像領域が第2期間におけるターゲット領域として決定され、第1物体および第2物体は、異なる物体、個体、または物体種別である。
このシナリオでは、ビデオ撮影プロセスにおける画像処理方法が以下の段階を含んでよい。
段階71の任意選択的な実装が段階61のものと同じであってよい。
段階72:画像内容に基づいてN1個の画像のいずれか1つにおける第1ターゲット領域および第1背景領域を決定し、画像内容に基づいてN2個の画像のいずれか1つにおける第2ターゲット領域および第2背景領域を決定する。ここでは、第2ターゲット領域に対応する物体または物体種別が、第1ターゲット領域に対応する物体または物体種別と異なり、その結果、システムおよびユーザは、画像のターゲット主要物体およびターゲット領域を独立的に選択することができる。画像が主要物体および背景を含み、それに応じて、画像はターゲット領域および背景領域を含む。
例えば、第1物体は人物であり、第2物体は動物である。例えば、第1物体は人物Aであり、第2物体は人物Bである。例えば、第1物体は2人の人物であり、第2物体は1匹の犬および2匹の猫である。識別されない残りの領域が背景としてマーキングされる。
この方法では、S221およびS222における前述の方法を使用することにより画像マスクが決定されてよい。ただし、後続の方法が、画像ごとにマスク内のターゲット物体を決定することに限定されることはない。
任意選択で、画像マスクにおいて、ユーザは第1物体および第2物体を自由に入力してよく、第1物体および第2物体は、ユーザにより入力される選択命令に従って決定される。例えば、ユーザがある個体を選択した場合に、システムは、ユーザにより入力される命令に対応する画素を識別し、更には、特定の(/幾つかの)個体(少なくとも1つの個体であってよい)、または、ユーザにより選択されるマスクの特定の(/幾つかの)物体種別(少なくとも1つの物体種別であってよい)を識別し、更には、特定の(/幾つかの)物体種別の特定の(/幾つかの)個体または全ての個体を第1物体として決定し、第1物体または第1物体に対応する画像領域を第1ターゲット領域として決定する。この状況はある期間にわたって維持されてよい。すなわち、後続の幾つかのフレームでは、ユーザが次の時点で別の個体を選択するまで、第1物体に対応するマスクに対応する領域が第1ターゲット領域であり、前述の方法と同様の方法に従って、新しい個体に対応する領域が第2ターゲット領域として決定される。ある画像では、第1ターゲット領域または第2ターゲット領域以外の画像領域が背景領域である。具体的には、第1期間における第1物体に対応するマスクに対応する領域が第1ターゲット領域であり、第2期間における第2物体に対応するマスクに対応する領域が第2ターゲット領域である。
任意選択で、画像マスクにおいて、システムは、予め設定された時間間隔(例えば、限定されるわけではないが、1秒または2秒)または予め設定された数のフレーム(例えば、限定されるわけではないが、50フレームまたは100フレーム)に基づいて、画像マスク内のある期間における画像のターゲットマスクを決定してよい。例えば、101番目のフレームで第1ターゲットマスクが決定され、次の102フレームから200フレームの各々については、201番目のフレームで第2ターゲットマスクが決定されるまで、101番目のフレームにおける第1ターゲットマスクと同じ物体種別または個体を有するマスクが第1ターゲットマスクとして使用される。次の202フレームから300フレームの各々については、201番目のフレームにおける第2ターゲットマスクと同じ物体種別または個体を有するマスクが第2ターゲットマスクとして使用される。前述した例の番号はユーザまたはシステムにより予め定義され得ることを理解されたい。具体的には、ある時点でターゲットマスクが決定され、このタイプのマスクまたはこの個体のマスクが、ある期間にわたって継続的に使用される。
第1位にランク付けされた第1ターゲットマスクと第1位にランク付けされた第2ターゲットマスクとを決定する方法については、限定されるわけではないが、段階S223における6つの方式のいずれか1つを参照されたい。従って、第1ターゲットマスクおよび第2ターゲットマスクは、同じ物体種別または同じ個体のものであってもよいし、異なる物体種別または異なる個体のものであってもよい。これは、ネットワークの識別能、シーン画像の変化、またはユーザの入力コマンドに関連する。
加えて、第1ターゲット領域、第1背景領域、第2ターゲット領域、および第2背景領域は更に、S224の方法に従って決定される。この例では詳細について説明しない。
段階73の任意選択的な実装が段階63のものと同じであってよい。
加えて、この例は期間によって変化することがあるため、色処理方法の組み合わせは複数あってよい。
例えば、第1色処理モードは第3色処理モードと同じであり、第2色処理モードは第4色処理モードと同じである。この色処理モードには優れた一貫性がある。
例えば、第1色処理モードは第3色処理モードと同じであり、第2色処理モードは第4色処理モードと異なる。この色処理モードでは、ターゲット主要物体の色が一貫しており、背景色が変化し、その結果、全体的な視覚的効果がより目覚ましい。
例えば、第1色処理モードは第3色処理モードと異なり、第2色処理モードは第4色処理モードと同じである。この色処理モードでは、背景色が一貫しており、ターゲット主要物体の色が変化し、その結果、ターゲット主要物体はより顕著である。
例えば、第1色処理モードは第3色処理モードと異なり、第2色処理モードは第4色処理モードと異なる。この色処理モードでは、より多くの色変換方式を提供することができ、異なるシナリオの要件に基づいて、より多くの色協調を提供することができる。
第1色処理モードまたは第3色処理モードは、フィルタ、例えば、色保持または色強化を含む。第2色処理モードまたは第4色処理モードは、白黒フィルタ、暗化フィルタ、レトロフィルタ、フィルムフィルタ、ぼかしフィルタ、およびボケフィルタ等のフィルタを含む。
具体的には、同じ画像のターゲット領域および背景領域の色処理方法については、段階23を参照されたい。N2個の画像の場合は、第3色処理モードおよび第4色処理モードが第1色処理モードおよび第2色処理モードとそれぞれ同様である。
前述の解決策によれば、幾つかのシナリオにおいて、ユーザは、異なる画像における背景の色処理モードを自由に選択して、異なる背景を強調してよい。幾つかのシナリオにおいて、ユーザは、異なる画像における主要物体の色処理モードを自由に選択して、その主要物体を異なる程度または形態で強調してよい。
本発明の異なる例では、同じラベルで示される信号が異なるソースを有してもよいし、異なる方式で取得されてもよいことを理解されたい。これは制限にはならない。加えて、異なる例の段階の参照では、「段階xxと同じ」は、2つの段階の信号処理ロジックが同様であることにより焦点を当てている。これは、2つの段階の入力および出力の両方が完全に同じである必要があること、および、2つの方法手順が完全に同等であることに限定されない。本発明の保護範囲には、当業者が為し得る適切な引用および変更が含まれるものとする。
本発明は画像処理方法を提供する。画像に対するマスクセグメンテーションを実行することにより、画像内のターゲット領域および背景領域が決定される。ターゲット領域および背景領域に対して異なる色処理モードが適用され、その結果、ターゲット領域の輝度が背景領域の輝度よりも大きくなるか、または、ターゲット領域の色度が背景領域の色度よりも大きくなり、ターゲット領域に対応する主要物体がより目立つように強調される。これによって映画の特殊効果が実装される。
前述の実施形態で提供する画像処理方法に基づいて、本発明のある実施形態は画像処理装置900を提供する。装置は複数の端末デバイスで使用されてよく、端末100の任意の実装形態、例えば、ビデオ撮影機能を有する端末であってよい。図9を参照すると、装置は、撮影モジュール901であって、写真撮影またはビデオ撮影であり得る画像を取得するように構成され、前述の例における段階21、段階31、段階51、段階61、または段階71の方法と、その方法と同等であり得る方法とを実行するように具体的に構成され、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサにより実装されて、その画像を撮像するようカメラを制御してよい、撮影モジュール901と、決定モジュール902であって、画像内容に基づいて画像内のターゲット領域および背景領域を決定するように構成され、前述の例における段階22、段階32、段階52、段階62、または段階72の方法と、その方法と同等であり得る方法とを実行するように具体的に構成され、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサにより実装されて、対応するアルゴリズムを実装してよい、決定モジュール902と、色処理モジュール903であって、画像内のターゲット領域および背景領域に異なる色処理モードを使用してターゲット画像またはターゲットビデオを取得し、その結果、ターゲット領域の色度を背景領域の色度よりも大きくするか、または、ターゲット領域の輝度を背景領域の輝度よりも大きくするように構成され、前述の例における段階23、段階33、段階53、段階63、または段階73の方法と、その方法と同等であり得る方法とを実行するように具体的に構成され、特定のアルゴリズムを使用してメモリ内の対応するプログラム命令を呼び出すことによってプロセッサにより実装されてよい、色処理モジュール903とを含む。
加えて、装置は更に、色処理が実行される画像またはビデオを記憶するように構成される記憶モジュール904を含んでよい。
前述した特定の方法の例と、実施形態における技術的特徴の説明および記述と、複数の実装形態の拡張とは、装置における方法の実行にも適用可能であり、装置の実施形態では詳細について説明しない。
本発明は画像処理装置を提供する。画像に対するマスクセグメンテーションが実行され、その結果、画像内容に基づいて画像内のターゲット領域および背景領域が決定される。ターゲット領域および背景領域に対して異なる色処理モードが適用され、その結果、ターゲット領域の輝度が背景領域の輝度よりも大きくなるか、または、ターゲット領域の色度が背景領域の色度よりも大きくなり、ターゲット領域に対応する主要物体がより目立つように強調される。これによって映画の特殊効果が実現される。
前述の実施形態で提供する画像処理方法に基づいて、本発明のある実施形態は更に画像処理装置1000を提供する。装置は複数の端末デバイスで使用されてよく、端末100の任意の実装形態、例えば、ビデオ撮影機能を有する端末であってよい。図10を参照すると、装置は、撮影モジュール1001であって、写真撮影またはビデオ撮影であり得る画像を取得するように構成され、前述の例における段階21、段階31、段階51、段階61、または段階71の方法と、その方法と同等であり得る方法とを実行するように具体的に構成され、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサにより実装されて、その画像を撮像するようカメラを制御してよい、撮影モジュール1001と、判定モジュール1002であって、現在のフレームの最初のN0個のフレームのうち、ちらつきフレームの数が予め設定された閾値よりも大きいかどうかを判断し、判断結果が、ちらつきフレームの数が予め設定された閾値よりも大きくないことである場合に、関連機能を実行するよう決定モジュール1003および色処理モジュール1004をトリガし続ける、または、判断結果が、ちらつきフレームの数が予め設定された閾値よりも大きいことである場合に、関連機能を実行するようちらつき除去モジュール1005をトリガし続けるように構成され、前述の例における段階42の方法と、その方法と同等であり得る方法とを実行するように具体的に構成され、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサにより実装されて、対応するアルゴリズムを実装してよい、判定モジュール1002と、決定モジュール1003であって、現在のフレームの最初のN0個のフレームのうち、ちらつきフレームの数が予め設定された閾値よりも大きくないと判定モジュール1002が判断した場合に、画像内容に基づいて画像内のターゲット領域および背景領域を決定するように構成され、前述の例における段階22、段階32、段階43、段階52、段階62、または段階72の方法と、その方法と同等であり得る方法とを実行するように具体的に構成され、メモリ内の対応するプログラム命令を呼び出すことによってプロセッサにより実装されて、対応するアルゴリズムを実装してよい、決定モジュール1003と、色処理モジュール1004であって、画像内のターゲット領域および背景領域に異なる色処理モードを使用し、その結果、ターゲット領域の色度を背景領域の色度よりも大きくするか、または、ターゲット領域の輝度を背景領域の輝度よりも大きくするように構成され、前述の例における段階23、段階33、段階44、段階53、段階63、または段階73の方法と、その方法と同等であり得る方法とを実行するように具体的に構成され、特定のアルゴリズムを使用してメモリ内の対応するプログラム命令を呼び出すことによってプロセッサにより実装されてよい、色処理モジュール1004と、ちらつき除去モジュール1005であって、現在のフレームの最初のN0個のフレームのうち、ちらつきフレームの数が予め設定された閾値よりも大きいと判定モジュール1002が判断した場合に、現在のフレームの全ての画像領域に同じ色処理方法を使用することであって、同じ色処理方法は、前のフレームにおける背景領域の色処理方法と同じであってもよいし、前のフレームにおけるターゲット領域の色処理方法と同じであってもよい、使用することを行うように構成され、前述の例における段階45の方法と、その方法と同等であり得る方法とを実行するように具体的に構成され、特定のアルゴリズムを使用してメモリ内の対応するプログラム命令を呼び出すことによってプロセッサにより実装されてよい、ちらつき除去モジュール1005とを含む。
加えて、装置1000は更に、色処理が実行される画像またはビデオを記憶するように構成される記憶モジュール1006を含んでよい。
前述した特定の方法の例と、実施形態における技術的特徴の説明および記述と、複数の実装形態の拡張とは、装置における方法の実行にも適用可能であり、装置の実施形態では詳細について説明しない。
本発明は画像処理装置を提供する。画像に対するマスクセグメンテーションが実行され、その結果、画像内容に基づいて画像内のターゲット領域および背景領域は決定される。ターゲット領域および背景領域に対して異なる色処理モードが適用され、その結果、ターゲット領域の輝度が背景領域の輝度よりも大きくなるか、または、ターゲット領域の色度が背景領域の色度よりも大きくなり、ターゲット領域に対応する主要物体がより目立つように強調される。これによって映画の特殊効果が実装される。
前述の装置におけるモジュールへの分割は論理的な機能分割に過ぎないことを理解されたい。実際の実装では、これらのモジュールの幾つかまたは全てが1つの物理エンティティに統合されてもよいし、物理的に分離されてもよい。例えば、前述のモジュールの各々は、別個のプロセッサ要素であってもよいし、端末のチップ上に統合されてもよいし、プログラムコードの形態でコントローラの記憶要素に記憶されてもよい。プロセッサのプロセッサ要素が、前述したモジュールの各々の機能を呼び出して実行する。加えて、モジュールは統合されてもよいし、独立的に実装されてもよい。本明細書のプロセッサ要素は集積回路チップであってよく、信号処理能力を有する。実装プロセスでは、プロセッサ要素内のハードウェア集積論理回路を使用することにより、または、ソフトウェアの形態の命令を使用することにより、前述の方法における段階または前述のモジュールが実装されてよい。プロセッサ要素は、汎用プロセッサ、例えば、中央処理装置(略してCPU)であってもよいし、前述の方法を実装するように構成される1または複数の集積回路、例えば、1または複数の特定用途向け集積回路(英語:application-specific integrated circuit、略してASIC)、1または複数のマイクロプロセッサ(英語:digital signal processor、略してDSP)、または、1または複数のフィールドプログラマブルゲートアレイ(英語:field-programmable gate array、略してFPGA)であってもよい。
本発明の明細書、特許請求の範囲、添付図面において、「第1」および「第2」等の用語は同様の物体同士を区別するよう意図されているが、必ずしも特定の順序または順番を示すものではないことを理解されたい。このように呼ばれるデータは適切な状況において交換可能であり、その結果、本明細書で説明する実施形態は、本明細書で図示または説明する順序以外の順序で実装され得ることを理解されたい。加えて、「含む(include)」、「含む(contain)」という用語、および任意の他の変形語は、非排他的な包含をカバーすることを意味しており、例えば、段階またはモジュールのリストを含むプロセス、方法、システム、製品、またはデバイスが必ずしも、明示的に列挙された段階またはモジュールに限定されるわけではないが、明示的に列挙されていないか、または、係るプロセス、方法、製品、またはデバイスに固有である、他の段階またはモジュールを含んでよい。
当業者であれば、本発明の実施形態が方法、システム、またはコンピュータプログラム製品として提供され得ることを理解するはずである。従って、本発明は、ハードウェアのみの実施形態、ソフトウェアのみの実施形態、またはソフトウェアとハードウェアとの組み合わせを用いた実施形態の形で使用されてよい。更に、本発明は、コンピュータ使用可能プログラムコードを含む1または複数のコンピュータ使用可能記憶媒体(限定されるわけではないが、ディスクメモリ、CD-ROM、および光メモリ等を含む)上に実装されるコンピュータプログラム製品の形態を使用してよい。
本発明は、本発明の実施形態に係る方法、デバイス(システム)、およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら説明されている。コンピュータプログラム命令を使用して、フローチャートおよび/またはブロック図における各プロセスおよび/または各ブロック、並びに、フローチャートおよび/またはブロック図におけるプロセスおよび/またはブロックの組み合わせを実装してよいことを理解されたい。これらのコンピュータプログラム命令を汎用コンピュータ、専用コンピュータ、組み込みプロセッサ、または別のプログラマブルデータ処理デバイスのプロセッサに提供してマシンを生成してよく、その結果、コンピュータまたは別のプログラマブルデータ処理デバイスのプロセッサにより実行される命令は、フローチャートにおける1または複数のプロセス、および/または、ブロック図における1または複数のブロックに特定の機能を実装するための装置を生成する。
これらのコンピュータプログラム命令は、コンピュータまたは別のプログラマブルデータ処理デバイスに特定の方式で動作するよう命令できるコンピュータ可読メモリに記憶されてよく、その結果、コンピュータ可読メモリに記憶される命令は、命令装置を含むアーチファクトを生成する。命令装置は、フローチャートにおける1または複数のプロセス、および/または、ブロック図における1または複数のブロックに特定の機能を実装する。
これらのコンピュータプログラム命令は代替的に、コンピュータまたは別のプログラマブルデータ処理デバイス上にロードされてよく、その結果、一連の動作および段階がコンピュータまたは別のプログラマブルデバイス上で実行され、それにより、コンピュータで実装される処理が生成される。従って、コンピュータまたは別のプログラマブルデバイス上で実行される命令は、フローチャートにおける1または複数のプロセス、および/または、ブロック図における1または複数のブロックに特定の機能を実装するための段階を提供する。
本発明の幾つかの実施形態について説明してきたが、当業者は、基本的な発明の概念を学習すると、これらの実施形態に対する変更および修正を加えることができる。従って、添付の特許請求の範囲は、列挙されている実施形態と、本発明の範囲に含まれる全ての変更および修正とをカバーするように解釈されることを意図している。明らかに、当業者は、本発明の実施形態の主旨および範囲から逸脱することなく、本発明の実施形態に対する様々な修正および変更を加えることができる。本発明は、以下の特許請求の範囲およびそれらの同等技術により定義される保護範囲にこれらの修正および変更が含まれる限り、それらを包含するよう意図されている。
[他の考えられる項目]
(項目1)
画像処理方法であって、
第1期間にN1個の画像を撮像する段階と、
第2期間にN2個の画像を撮像する段階であって、上記第1期間および上記第2期間は隣接する期間であり、N1およびN2はどちらも正の整数であり、上記N1個の画像および上記N2個の画像はビデオを形成する、撮像する段階と、
上記N1個の画像の各々から第1ターゲット領域および第1背景領域を決定する段階であって、上記第1背景領域は上記第1ターゲット領域以外の上記画像の領域であり、上記N1個の画像の各々における上記第1ターゲット領域は第1物体に対応する、決定する段階と、
上記N2個の画像の各々から第2ターゲット領域および第2背景領域を決定する段階であって、上記第2背景領域は上記第2ターゲット領域以外の上記画像の領域であり、上記N2個の画像の各々における上記第2ターゲット領域は第2物体に対応する、決定する段階と、
ターゲットビデオを取得するために、第1色処理モードでの上記第1ターゲット領域の処理と、第2色処理モードでの上記第1背景領域の処理と、第3色処理モードでの上記第2ターゲット領域の処理と、第4色処理モードでの上記第2背景領域の処理とを行う段階であって、上記第1色処理モードまたは上記第3色処理モードは、色保持または色強化を含み、上記第2色処理モードまたは上記第4色処理モードは、白黒、暗化、ぼかし、またはレトロモードを含む、行う段階と
を備える方法。
(項目2)
上記第1物体および上記第2物体は同じ物体である、項目1に記載の方法。
(項目3)
上記第1物体および上記第2物体は異なる物体である、項目1に記載の方法。
(項目4)
上記第1色処理モードは上記第3色処理モードと同じであり、上記第2色処理モードは上記第4色処理モードと同じである、項目1から3のいずれか一項に記載の方法。
(項目5)
上記第1色処理モードは上記第3色処理モードと同じであり、上記第2色処理モードは上記第4色処理モードと異なる、項目1から3のいずれか一項に記載の方法。
(項目6)
上記第1色処理モードは上記第3色処理モードと異なり、上記第2色処理モードは上記第4色処理モードと同じである、項目1から3のいずれか一項に記載の方法。
(項目7)
上記第1色処理モードは上記第3色処理モードと異なり、上記第2色処理モードは上記第4色処理モードと異なる、項目1から3のいずれか一項に記載の方法。
(項目8)
上記第1物体または上記第2物体は、ある物体種別(例えば、人物、動物、または植物)の少なくとも1つの個体を含む、項目1から7のいずれか一項に記載の方法。
(項目9)
上記第1物体および上記第2物体はユーザの選択命令に従って決定される、項目1から7のいずれか一項に記載の方法。
(項目10)
上記第1物体および上記第2物体は、予め設定された時間間隔での2つの画像の内容に基づいて端末により別個に決定される、項目1から7のいずれか一項に記載の方法。
(項目11)
画像処理装置であって、
第1期間にN1個の画像を撮像し、かつ、第2期間にN2個の画像を撮像するように構成される撮影モジュールであって、上記第1期間および上記第2期間は隣接する期間であり、N1およびN2はどちらも正の整数であり、上記N1個の画像および上記N2個の画像はビデオを形成する、撮影モジュールと、
上記N1個の画像の各々から第1ターゲット領域および第1背景領域を決定することであって、上記第1背景領域は上記第1ターゲット領域以外の上記画像の領域であり、上記N1個の画像の各々における上記第1ターゲット領域は第1物体に対応する、決定することと、上記N2個の画像の各々から第2ターゲット領域および第2背景領域を決定することであって、上記第2背景領域は上記第2ターゲット領域以外の上記画像の領域であり、上記N2個の画像の各々における上記第2ターゲット領域は第2物体に対応する、決定することとを行うように構成される決定モジュールと、
ターゲットビデオを取得するために、第1色処理モードでの上記第1ターゲット領域の処理と、第2色処理モードでの上記第1背景領域の処理と、第3色処理モードでの上記第2ターゲット領域の処理と、第4色処理モードでの上記第2背景領域の処理とを行うように構成される色処理モジュールであって、上記第1色処理モードまたは上記第3色処理モードは、色保持または色強化を含み、上記第2色処理モードまたは上記第4色処理モードは、白黒、暗化、ぼかし、またはレトロモードを含む、色処理モジュールと
を備える装置。
(項目12)
上記第1物体および上記第2物体は同じ物体または異なる物体である、項目11に記載の装置。
(項目13)
上記第1色処理モードは上記第3色処理モードと同じであり、上記第2色処理モードは上記第4色処理モードと同じであるか、
上記第1色処理モードは上記第3色処理モードと同じであり、上記第2色処理モードは上記第4色処理モードと異なるか、
上記第1色処理モードは上記第3色処理モードと異なり、上記第2色処理モードは上記第4色処理モードと同じであるか、または、
上記第1色処理モードは上記第3色処理モードと異なり、上記第2色処理モードは上記第4色処理モードと異なる、
項目11または12に記載の装置。
(項目14)
上記第1物体または上記第2物体は、ある物体種別(例えば、人物、動物、または植物)の少なくとも1つの個体を含む、項目11から13のいずれか一項に記載の装置。
(項目15)
上記第1物体および上記第2物体はユーザの選択命令に従って決定される、項目11から13のいずれか一項に記載の装置。
(項目16)
上記第1物体および上記第2物体は、予め設定された時間間隔での2つの画像の内容に基づいて端末により別個に決定される、項目11から15のいずれか一項に記載の装置。
(項目17)
カメラ、メモリ、プロセッサ、およびバスを備える端末デバイスであって、上記カメラ、上記メモリ、および上記プロセッサは上記バスを介して接続され、
上記カメラは画像を撮像するように構成され、
上記メモリはコンピュータプログラムおよび命令を記憶するように構成され、
上記プロセッサは、上記メモリに記憶される上記コンピュータプログラム、上記命令、および上記撮像された画像を呼び出して、項目1から10のいずれか一項に記載の方法を実行するように構成される、
端末デバイス。
(項目18)
上記端末デバイスは更にアンテナシステムを備え、上記アンテナシステムは、上記プロセッサの制御下で無線通信信号を送受信してモバイル通信ネットワークとの無線通信を実装し、上記モバイル通信ネットワークは、GSMネットワーク、CDMAネットワーク、3Gネットワーク、4Gネットワーク、5Gネットワーク、FDMAネットワーク、TDMAネットワーク、PDCネットワーク、TACSネットワーク、AMPSネットワーク、WCDMAネットワーク、TDSCDMAネットワーク、Wi-Fiネットワーク、およびLTEネットワークのうちの1または複数を含む、項目17に記載の端末デバイス。
(項目19)
画像処理方法であって、
ビデオを撮影するときに、
ビデオ画像内の主要物体を決定する段階と、
ターゲットビデオを取得するために、上記ビデオ画像内のターゲット領域および背景領域に対して異なる色処理を実行する段階であって、上記ターゲット領域は上記主要物体に対応し、上記背景領域は上記ターゲット領域以外の上記ビデオ画像の領域である、実行する段階と
を備える方法。
(項目20)
上記ビデオ画像内のターゲット領域および背景領域に対して異なる色処理を実行する上記段階は、
上記ビデオ画像内の上記ターゲット領域の色を保持し、上記ビデオ画像内の上記背景領域に対してグレースケール処理を実行する段階
を有する、項目19に記載の方法。
(項目21)
上記ビデオ画像内のターゲット領域および背景領域に対して異なる色処理を実行する上記段階は、
上記ビデオ画像内の上記ターゲット領域の上記色を保持し、上記ビデオ画像内の上記背景領域に対してぼかし処理を実行する段階
を有する、項目19または20に記載の方法。
(項目22)
画像処理装置であって、
ビデオを撮影するように構成される撮影モジュールと、
ビデオ画像内の主要物体を決定するように構成される決定モジュールと、
ターゲットビデオを取得するために、上記ビデオ画像内のターゲット領域および背景領域に対して異なる色処理を実行するように構成される色処理モジュールであって、上記ターゲット領域は上記主要物体に対応し、上記背景領域は上記ターゲット領域以外の上記ビデオ画像の領域である、色処理モジュールと
を備える装置。
(項目23)
上記色処理モジュールは具体的に、
上記ビデオ画像内の上記ターゲット領域の色を保持し、上記ビデオ画像内の上記背景領域に対してグレースケール処理を実行する
ように構成される、項目22に記載の装置。
(項目24)
上記色処理モジュールは具体的に、
上記ビデオ画像内の上記ターゲット領域の上記色を保持し、上記ビデオ画像内の上記背景領域に対してぼかし処理を実行する
ように構成される、項目22または23に記載の装置。
(項目25)
カメラ、メモリ、プロセッサ、およびバスを備える端末デバイスであって、上記カメラ、上記メモリ、および上記プロセッサは上記バスを介して接続され、
上記カメラは画像を撮像するように構成され、
上記メモリはコンピュータプログラムおよび命令を記憶するように構成され、
上記プロセッサは、上記メモリに記憶される上記コンピュータプログラム、上記命令、および上記撮像された画像を呼び出して、項目19から21のいずれか一項に記載の方法を実行するように構成される、
端末デバイス。
[項目1]
画像をリアルタイムで撮影するかビデオをリアルタイムで撮影するために端末により使用される画像処理方法であって、
画像を撮像する段階と、
上記画像において主題および背景が識別されるときに、上記画像内の主要物体領域の色を保持し、上記画像内の背景領域に対して白黒処理またはぼかし処理を実行する段階であって、上記背景領域は上記主要物体領域以外の上記画像の領域である、実行する段階、または、
上記画像において背景のみが識別されるときに、上記画像の背景領域に対して白黒処理またはぼかし処理を実行する段階と、
上記処理された画像に基づいてターゲット画像またはターゲットビデオを生成する段階と
を備え、
上記主要物体領域および/または上記背景領域は、上記画像において、ニューラルネットワークを使用することにより上記画像内の物体の種別に基づいて識別される、
方法。
[項目2]
上記主題の領域を識別するには第1物体種別のマスクが使用され、上記背景領域を識別するには第2物体種別のマスクが使用され、上記第1物体種別は、人物、動物、植物、車両、または別の予め設定された物体種別のうちの少なくとも1つを含み、上記第2物体種別は上記背景であり、上記第1物体種別の上記マスクと上記第2物体種別の上記マスクとは上記ニューラルネットワークに基づいて決定される、項目1に記載の方法。
[項目3]
上記ニューラルネットワークは、トレーニング用のトレーニングデータセットを使用することにより取得され、上記トレーニングデータセットは複数の適用シナリオの入力画像を含む、項目1または2に記載の方法。
[項目4]
上記トレーニングデータセットは更に上記複数の適用シナリオのマスクグラフを含む、項目3に記載の方法。
[項目5]
上記ニューラルネットワークは、上記人物、上記動物、上記植物、上記車両、衣類、または上記別の予め設定された物体種別のうちの少なくとも2つの物体種別を識別することができる、項目2に記載の方法。
[項目6]
上記第1物体種別の上記マスクに対応する上記画像内の画素の数が、第3物体種別のマスクに対応する、上記画像内の画素の数よりも多く、上記第3物体種別は上記第2物体種別と異なる、項目2に記載の方法。
[項目7]
上記第1物体種別の上記マスクは、主要物体の決定優先度が別の物体種別のマスクよりも高い、項目2に記載の方法。
[項目8]
上記主要物体領域は複数の個体を含み、上記複数の個体は同じ物体種別または異なる物体種別に属する、項目1から7のいずれか一項に記載の方法。
[項目9]
上記主要物体領域は、上記ニューラルネットワークを使用することにより上記画像内の上記物体に対して画素レベルのセグメンテーションを実行することによって取得される、項目1から8のいずれか一項に記載の方法。
[項目10]
画像をリアルタイムで撮影するかビデオをリアルタイムで撮影するために端末により使用される画像処理装置であって、
画像を撮像するように構成される撮影モジュールと、
ニューラルネットワークを使用することにより上記画像内の物体の種別に基づいて上記画像内の主要物体領域および/または背景領域を識別するように構成される決定モジュールと、
上記決定モジュールが上記画像内の主題および背景を識別するときに、上記画像内の上記主要物体領域の色を保持し、上記画像内の上記背景領域に対して白黒処理またはぼかし処理を実行することであって、上記背景領域は上記主要物体領域以外の上記画像の領域である、実行すること、または、
上記決定モジュールが上記画像内の背景のみを識別するときに、上記画像の上記背景領域に対して白黒処理またはぼかし処理を実行することと、
上記処理された画像に基づいてターゲット画像またはターゲットビデオを生成することと
を行うように構成される色処理モジュールと
を備える装置。
[項目11]
上記主題の領域を識別するには第1物体種別のマスクが使用され、上記背景領域を識別するには第2物体種別のマスクが使用され、上記第1物体種別は、人物、動物、植物、車両、または別の予め設定された物体種別のうちの少なくとも1つを含み、上記第2物体種別は上記背景であり、上記第1物体種別の上記マスクと上記第2物体種別の上記マスクとは上記ニューラルネットワークに基づいて決定される、項目10に記載の装置。
[項目12]
上記ニューラルネットワークは、トレーニング用のトレーニングデータセットを使用することにより取得され、上記トレーニングデータセットは複数の適用シナリオの入力画像を含む、項目10または11に記載の装置。
[項目13]
上記トレーニングデータセットは更に上記複数の適用シナリオのマスクグラフを含む、項目12に記載の装置。
[項目14]
上記ニューラルネットワークは、上記人物、上記動物、上記植物、上記車両、衣類、または上記別の予め設定された物体種別のうちの少なくとも2つの物体種別を識別することができる、項目11に記載の装置。
[項目15]
上記第1物体種別の上記マスクに対応する上記画像内の画素の数が、第3物体種別のマスクに対応する、上記画像内の画素の数よりも多く、上記第3物体種別は上記第2物体種別と異なる、項目11に記載の装置。
[項目16]
上記第1物体種別の上記マスクは、主要物体の決定優先度が別の物体種別のマスクよりも高い、項目11に記載の装置。
[項目17]
上記主要物体領域は複数の個体を含み、上記複数の個体は同じ物体種別または異なる物体種別に属する、項目10から16のいずれか一項に記載の装置。
[項目18]
上記主要物体領域は、上記ニューラルネットワークを使用することにより上記画像内の上記物体に対して画素レベルのセグメンテーションを実行することによって取得される、項目10から17のいずれか一項に記載の装置。
[項目19]
カメラ、メモリ、プロセッサ、およびバスを備える端末デバイスであって、上記カメラ、上記メモリ、および上記プロセッサは上記バスを介して接続され、
上記カメラは画像を撮像するように構成され、
上記メモリはコンピュータプログラムおよび命令を記憶するように構成され、
上記プロセッサは、上記メモリに記憶される上記コンピュータプログラム、上記命令、および上記撮像された画像を呼び出して、項目1から9のいずれか一項に記載の方法を実行するように構成される、
端末デバイス。
[項目20]
上記端末デバイスは更にアンテナシステムを備え、上記アンテナシステムは、上記プロセッサの制御下で無線通信信号を送受信してモバイル通信ネットワークとの無線通信を実装し、上記モバイル通信ネットワークは、GSMネットワーク、CDMAネットワーク、3Gネットワーク、4Gネットワーク、5Gネットワーク、FDMAネットワーク、TDMAネットワーク、PDCネットワーク、TACSネットワーク、AMPSネットワーク、WCDMAネットワーク、TDSCDMAネットワーク、Wi-Fiネットワーク、またはLTEネットワークのうちの1または複数を含む、項目19に記載の端末デバイス。
[項目21]
画像処理方法であって、
第1期間にN1個の画像を撮像する段階と、
第2期間にN2個の画像を撮像する段階であって、上記N1個の画像および上記N2個の画像は異なる内容に対応し、N1およびN2はどちらも正の整数である、撮像する段階と、
上記N1個の画像の各々から第1ターゲット領域および第1背景領域を決定する段階であって、上記第1背景領域は上記第1ターゲット領域以外の上記画像の領域であり、上記N1個の画像の各々における上記第1ターゲット領域は第1物体に対応する、決定する段階と、
上記N2個の画像の各々から第2ターゲット領域および第2背景領域を決定する段階であって、上記第2背景領域は上記第2ターゲット領域以外の上記画像の領域であり、上記N2個の画像の各々における上記第2ターゲット領域は第2物体に対応する、決定する段階と、
ターゲットビデオを取得するために、第1色処理モードでの上記第1ターゲット領域の処理と、第2色処理モードでの上記第1背景領域の処理と、第3色処理モードでの上記第2ターゲット領域の処理と、第4色処理モードでの上記第2背景領域の処理とを行う段階であって、上記第1色処理モードまたは上記第3色処理モードは、色保持または色強化を含み、上記第2色処理モードまたは上記第4色処理モードは、白黒、暗化、ぼかし、またはレトロモードを含み、上記第1物体および上記第2物体は異なる物体であり、上記ターゲットビデオは、処理されるN1個の画像と処理されるN2個の画像とを含む、行う段階と
を備える方法。
[項目22]
上記第1色処理モードは上記第3色処理モードと同じであり、上記第2色処理モードは上記第4色処理モードと同じであるか、または、
上記第1色処理モードは上記第3色処理モードと同じであり、上記第2色処理モードは上記第4色処理モードと異なるか、または、
上記第1色処理モードは上記第3色処理モードと異なり、上記第2色処理モードは上記第4色処理モードと同じであるか、または、
上記第1色処理モードは上記第3色処理モードと異なり、上記第2色処理モードは上記第4色処理モードと異なる、
項目21に記載の方法。
[項目23]
上記第1物体または上記第2物体は、人物、動物、または植物のうちの少なくとも1つの個体を含む、項目21または22に記載の方法。
[項目24]
ニューラルネットワークが、上記人物、上記動物、上記植物、車両、衣類、または別の予め設定された物体種別のうちの少なくとも2つの物体種別を識別することができる、項目23に記載の方法。
[項目25]
上記第1物体および上記第2物体は、予め設定された時間間隔での2つの画像の内容に基づいて端末により別個に決定される、項目21から24のいずれか一項に記載の方法。
[項目26]
画像処理装置であって、
第1期間にN1個の画像を撮像し、かつ、第2期間にN2個の画像を撮像するように構成される撮影モジュールであって、上記N1個の画像および上記N2個の画像は異なる内容に対応し、N1およびN2はどちらも正の整数である、撮影モジュールと、
上記N1個の画像の各々から第1ターゲット領域および第1背景領域を決定することであって、上記第1背景領域は上記第1ターゲット領域以外の上記画像の領域であり、上記N1個の画像の各々における上記第1ターゲット領域は第1物体に対応する、決定することと、上記N2個の画像の各々から第2ターゲット領域および第2背景領域を決定することであって、上記第2背景領域は上記第2ターゲット領域以外の上記画像の領域であり、上記N2個の画像の各々における上記第2ターゲット領域は第2物体に対応する、決定することとを行うように構成される決定モジュールと、
ターゲットビデオを取得するために、第1色処理モードでの上記第1ターゲット領域の処理と、第2色処理モードでの上記第1背景領域の処理と、第3色処理モードでの上記第2ターゲット領域の処理と、第4色処理モードでの上記第2背景領域の処理とを行うように構成される色処理モジュールであって、上記第1色処理モードまたは上記第3色処理モードは、色保持または色強化を含み、上記第2色処理モードまたは上記第4色処理モードは、白黒、暗化、ぼかし、またはレトロモードを含み、上記第1物体および上記第2物体は異なる物体であり、上記ターゲットビデオは、処理されるN1個の画像と処理されるN2個の画像とを含む、色処理モジュールと
を備える装置。
[項目27]
上記第1色処理モードは上記第3色処理モードと同じであり、上記第2色処理モードは上記第4色処理モードと同じであるか、
上記第1色処理モードは上記第3色処理モードと同じであり、上記第2色処理モードは上記第4色処理モードと異なるか、
上記第1色処理モードは上記第3色処理モードと異なり、上記第2色処理モードは上記第4色処理モードと同じであるか、または、
上記第1色処理モードは上記第3色処理モードと異なり、上記第2色処理モードは上記第4色処理モードと異なる、
項目26に記載の装置。
[項目28]
上記第1物体または上記第2物体は、人物、動物、または植物のうちの少なくとも1つの個体を含む、項目26または27に記載の装置。
[項目29]
ニューラルネットワークが、上記人物、上記動物、上記植物、車両、衣類、または別の予め設定された物体種別のうちの少なくとも2つの物体種別を識別することができる、項目28に記載の装置。
[項目30]
上記第1物体および上記第2物体は、予め設定された時間間隔での2つの画像の内容に基づいて端末により別個に決定される、項目26から29のいずれか一項に記載の装置。
[項目31]
カメラ、メモリ、プロセッサ、およびバスを備える端末デバイスであって、上記カメラ、上記メモリ、および上記プロセッサは上記バスを介して接続され、
上記カメラは画像を撮像するように構成され、
上記メモリはコンピュータプログラムおよび命令を記憶するように構成され、
上記プロセッサは、上記メモリに記憶される上記コンピュータプログラム、上記命令、および上記撮像された画像を呼び出して、項目21から25のいずれか一項に記載の方法を実行するように構成される、
端末デバイス。
[項目32]
上記端末デバイスは更にアンテナシステムを備え、上記アンテナシステムは、上記プロセッサの制御下で無線通信信号を送受信してモバイル通信ネットワークとの無線通信を実装し、上記モバイル通信ネットワークは、GSMネットワーク、CDMAネットワーク、3Gネットワーク、4Gネットワーク、5Gネットワーク、FDMAネットワーク、TDMAネットワーク、PDCネットワーク、TACSネットワーク、AMPSネットワーク、WCDMAネットワーク、TDSCDMAネットワーク、Wi-Fiネットワーク、またはLTEネットワークのうちの1または複数を含む、項目31に記載の端末デバイス。
[項目33]
画像処理方法であって、
ビデオを撮影するときに、
ビデオ画像内の主要物体を決定する段階と、
上記ビデオ画像内のターゲット領域の色を保持し、ターゲットビデオを取得するために上記ビデオ画像内の背景領域に対してグレースケール処理を実行する段階であって、上記ターゲット領域は上記主要物体に対応し、上記背景領域は上記ターゲット領域以外の上記ビデオ画像の領域である、実行する段階と
を備える方法。
[項目34]
ニューラルネットワークが、人物、動物、植物、車両、衣類、または別の予め設定された物体種別のうちの少なくとも2つの物体種別を識別することができる、項目33に記載の方法。
[項目35]
上記背景領域に対してフィルタ処理を実行する段階であって、上記フィルタ処理は、ボケ処理、暗化処理、レトロ処理、フィルム処理、またはテクスチャ重ね合わせ処理のうちの少なくとも1つを含む、実行する段階を更に備える項目33または34に記載の方法。
[項目36]
画像処理装置であって、
ビデオを撮影するように構成される撮影モジュールと、
ビデオ画像内の主要物体を決定するように構成される決定モジュールと、
上記ビデオ画像内のターゲット領域の色を保持し、ターゲットビデオを取得するために上記ビデオ画像内の背景領域に対してグレースケール処理を実行することであって、上記ターゲット領域は上記主要物体に対応し、上記背景領域は上記ターゲット領域以外の上記ビデオ画像の領域である、実行することを行うように構成される色処理モジュールと
を備える装置。
[項目37]
上記色処理モジュールは更に、上記背景領域に対してフィルタ処理を実行するように構成され、上記フィルタ処理は、ボケ処理、暗化処理、レトロ処理、フィルム処理、またはテクスチャ重ね合わせ処理のうちの少なくとも1つを含む、項目36に記載の装置。
[項目38]
上記色処理モジュールは更に、
上記背景領域に対してフィルタ処理を実行することであって、上記フィルタ処理は、ボケ処理、暗化処理、レトロ処理、フィルム処理、またはテクスチャ重ね合わせ処理のうちの少なくとも1つを含む、実行することを行う
ように構成される、項目36または37に記載の装置。
[項目39]
カメラ、メモリ、プロセッサ、およびバスを備える端末デバイスであって、上記カメラ、上記メモリ、および上記プロセッサは上記バスを介して接続され、
上記カメラは画像を撮像するように構成され、
上記メモリはコンピュータプログラムおよび命令を記憶するように構成され、
上記プロセッサは、上記メモリに記憶される上記コンピュータプログラム、上記命令、および上記撮像された画像を呼び出して、項目33から35のいずれか一項に記載の方法を実行するように構成される、
端末デバイス。

Claims (35)

  1. 画像をリアルタイムで撮影するかビデオをリアルタイムで撮影するために端末により使用される画像処理方法であって、
    画像を撮像する段階と、
    前記画像において主題および背景が識別されるときに、前記画像内の主要物体領域の色を保持し、前記画像内の背景領域に対して白黒処理またはぼかし処理を実行する段階であって、前記背景領域は前記主要物体領域以外の前記画像の領域である、実行する段階、または、
    前記画像において背景のみが識別されるときに、前記画像の背景領域に対して白黒処理またはぼかし処理を実行する段階と、
    前記処理された画像に基づいてターゲット画像またはターゲットビデオを生成する段階と
    を備え、
    前記主要物体領域および/または前記背景領域は、前記画像において、ニューラルネットワークを使用することにより前記画像内の物体の種別に基づいて識別され、
    前記識別は、前記画像を、前記ニューラルネットワークに入力して、画像マスクを取得する段階を含み、
    前記画像マスクを取得する段階は、前記画像にダウンサンプリングを実行して、第1画像を取得する段階と、
    前記第1画像に対してダウンサンプリングおよび畳み込みを実行して、複数の第2画像を取得する段階であって、前記複数の第2画像のそれぞれの各辺は、前記第1画像の対応する各辺に対して、所定の数のべき乗倍の倍数関係を有する、段階と、
    対応する前記複数の第2画像から、複数の特徴マップを取得する段階と、
    前記複数の特徴マップに対して、畳み込みおよびアップサンプリングを実行して、セマンティック特徴を融合する段階と、を含む、
    方法。
  2. 前記複数の第2画像のそれぞれの各辺は、互いに前記所定の数のべき乗倍の倍数関係を有する、請求項1に記載の方法。
  3. 前記ビデオをリアルタイムで撮影する際に、オプティカルフローに基づいて、第1フレームのマスクを処理してオプティカルフローベースのマスクを取得する段階と、
    前記オプティカルフローベースのマスクと、前記第1フレームより後の第2のフレームのマスクとを比較して、類似度が所定の閾値以上である場合には、前記ビデオにちらつきが生じていないと判定し、前記類似度が前記所定の閾値未満である場合には前記ビデオにちらつきが生じていると判定する段階と、
    を含む、
    請求項1または2に記載の方法。
  4. 前記主題の領域を識別するには第1物体種別のマスクが使用され、前記背景領域を識別するには第2物体種別のマスクが使用され、前記第1物体種別は、人物、動物、植物、車両、または別の予め設定された物体種別のうちの少なくとも1つを含み、前記第2物体種別は前記背景であり、前記第1物体種別の前記マスクと前記第2物体種別の前記マスクとは前記ニューラルネットワークに基づいて決定される、請求項1から3のいずれか一項に記載の方法。
  5. 前記ニューラルネットワークは、トレーニング用のトレーニングデータセットを使用することにより取得され、前記トレーニングデータセットは複数の適用シナリオの入力画像を含む、請求項1から4のいずれか一項に記載の方法。
  6. 前記トレーニングデータセットは更に前記複数の適用シナリオのマスクグラフを含む、請求項に記載の方法。
  7. 前記ニューラルネットワークは、前記人物、前記動物、前記植物、前記車両、衣類、または前記別の予め設定された物体種別のうちの少なくとも2つの物体種別を識別することができる、請求項に記載の方法。
  8. 前記第1物体種別の前記マスクに対応する前記画像内の画素の数が、第3物体種別のマスクに対応する、前記画像内の画素の数よりも多く、前記第3物体種別は前記第2物体種別と異なる、請求項に記載の方法。
  9. 前記第1物体種別の前記マスクは、主要物体の決定優先度が別の物体種別のマスクよりも高い、請求項に記載の方法。
  10. 前記主要物体領域は複数の個体を含み、前記複数の個体は同じ物体種別または異なる物体種別に属する、請求項1からのいずれか一項に記載の方法。
  11. 前記主要物体領域は、前記ニューラルネットワークを使用することにより前記画像内の前記物体に対して画素レベルのセグメンテーションを実行することによって取得される、請求項1から10のいずれか一項に記載の方法。
  12. 画像をリアルタイムで撮影するかビデオをリアルタイムで撮影するために端末により使用される画像処理装置であって、
    画像を撮像するように構成される撮影モジュールと、
    ニューラルネットワークを使用することにより前記画像内の物体の種別に基づいて前記画像内の主要物体領域および/または背景領域を識別するように構成される決定モジュールと、
    前記決定モジュールが前記画像内の主題および背景を識別するときに、前記画像内の前記主要物体領域の色を保持し、前記画像内の前記背景領域に対して白黒処理またはぼかし処理を実行することであって、前記背景領域は前記主要物体領域以外の前記画像の領域である、実行すること、または、
    前記決定モジュールが前記画像内の背景のみを識別するときに、前記画像の前記背景領域に対して白黒処理またはぼかし処理を実行することと、
    前記処理された画像に基づいてターゲット画像またはターゲットビデオを生成することと
    を行うように構成される色処理モジュールと
    を備え
    前記決定モジュールは、前記識別をする際に、前記画像を前記ニューラルネットワークに入力することにより取得した画像マスクを使用し、
    前記画像マスクを取得することは、前記画像にダウンサンプリングを実行して、第1画像を取得することと、
    前記第1画像に対してダウンサンプリングおよび畳み込みを実行して、複数の第2画像を取得することであって、前記複数の第2画像のそれぞれの各辺は、前記第1画像の対応する各辺に対して、所定の数のべき乗倍の倍数関係を有する、ことと、
    対応する前記複数の第2画像から、複数の特徴マップを取得することと、
    前記複数の特徴マップに対して、畳み込みおよびアップサンプリングを実行して、セマンティック特徴を融合することと、を含む、
    装置。
  13. 前記複数の第2画像のそれぞれの各辺は、互いに前記所定の数のべき乗倍の倍数関係を有する、請求項12に記載の装置。
  14. 前記ビデオをリアルタイムで撮影する際に、オプティカルフローに基づいて、第1フレームのマスクを処理してオプティカルフローベースのマスクを取得することと、
    前記オプティカルフローベースのマスクと、前記第1フレームより後の第2のフレームのマスクとを比較して、類似度が所定の閾値以上である場合には、前記ビデオにちらつきが生じていないと判定し、前記類似度が前記所定の閾値未満である場合には前記ビデオにちらつきが生じていると判定する、判定モジュールを含む、
    請求項12または13に記載の装置。
  15. 前記主題の領域を識別するには第1物体種別のマスクが使用され、前記背景領域を識別するには第2物体種別のマスクが使用され、前記第1物体種別は、人物、動物、植物、車両、または別の予め設定された物体種別のうちの少なくとも1つを含み、前記第2物体種別は前記背景であり、前記第1物体種別の前記マスクと前記第2物体種別の前記マスクとは前記ニューラルネットワークに基づいて決定される、請求項12から14のいずれか一項に記載の装置。
  16. 前記ニューラルネットワークは、トレーニング用のトレーニングデータセットを使用することにより取得され、前記トレーニングデータセットは複数の適用シナリオの入力画像を含む、請求項12から15のいずれか一項に記載の装置。
  17. 前記トレーニングデータセットは更に前記複数の適用シナリオのマスクグラフを含む、請求項16に記載の装置。
  18. 前記ニューラルネットワークは、前記人物、前記動物、前記植物、前記車両、衣類、または前記別の予め設定された物体種別のうちの少なくとも2つの物体種別を識別することができる、請求項15に記載の装置。
  19. 前記第1物体種別の前記マスクに対応する前記画像内の画素の数が、第3物体種別のマスクに対応する、前記画像内の画素の数よりも多く、前記第3物体種別は前記第2物体種別と異なる、請求項15に記載の装置。
  20. 前記第1物体種別の前記マスクは、主要物体の決定優先度が別の物体種別のマスクよりも高い、請求項15に記載の装置。
  21. 前記主要物体領域は複数の個体を含み、前記複数の個体は同じ物体種別または異なる物体種別に属する、請求項12から20のいずれか一項に記載の装置。
  22. 前記主要物体領域は、前記ニューラルネットワークを使用することにより前記画像内の前記物体に対して画素レベルのセグメンテーションを実行することによって取得される、請求項12から21のいずれか一項に記載の装置。
  23. カメラ、メモリ、プロセッサ、およびバスを備える端末デバイスであって、前記カメラ、前記メモリ、および前記プロセッサは前記バスを介して接続され、
    前記カメラは画像を撮像するように構成され、
    前記メモリはコンピュータプログラムおよび命令を記憶するように構成され、
    前記プロセッサは、前記メモリに記憶される前記コンピュータプログラム、前記命令、および前記撮像された画像を呼び出して、請求項1から11のいずれか一項に記載の方法を実行するように構成される、
    端末デバイス。
  24. 前記端末デバイスは更にアンテナシステムを備え、前記アンテナシステムは、前記プロセッサの制御下で無線通信信号を送受信してモバイル通信ネットワークとの無線通信を実装し、前記モバイル通信ネットワークは、GSMネットワーク、CDMAネットワーク、3Gネットワーク、4Gネットワーク、5Gネットワーク、FDMAネットワーク、TDMAネットワーク、PDCネットワーク、TACSネットワーク、AMPSネットワーク、WCDMAネットワーク、TDSCDMAネットワーク、Wi-Fiネットワーク、またはLTEネットワークのうちの1または複数を含む、請求項23に記載の端末デバイス。
  25. 画像処理方法であって、
    ビデオを撮影するときに、
    ビデオ画像内の主要物体を決定する段階と、
    前記ビデオ画像内のターゲット領域の色を保持し、ターゲットビデオを取得するために前記ビデオ画像内の背景領域に対してグレースケール処理を実行する段階であって、前記ターゲット領域は前記主要物体に対応し、前記背景領域は前記ターゲット領域以外の前記ビデオ画像の領域である、実行する段階と
    を備え
    前記ターゲット領域および/または前記背景領域は、前記ビデオ画像において、ニューラルネットワークを使用することにより前記ビデオ画像内の物体の種別に基づいて識別され、
    前記識別は、前記ビデオ画像を、前記ニューラルネットワークに入力して、画像マスクを取得する段階を含み、
    前記画像マスクを取得する段階は、前記ビデオ画像にダウンサンプリングを実行して、第1画像を取得する段階と、
    前記第1画像に対してダウンサンプリングおよび畳み込みを実行して、複数の第2画像を取得する段階であって、前記複数の第2画像のそれぞれの各辺は、前記第1画像の対応する各辺に対して、所定の数のべき乗倍の倍数関係を有する、段階と、
    対応する前記複数の第2画像から、複数の特徴マップを取得する段階と、
    前記複数の特徴マップに対して、畳み込みおよびアップサンプリングを実行して、セマンティック特徴を融合する段階と、を含む、
    方法。
  26. 前記複数の第2画像のそれぞれの各辺は、互いに前記所定の数のべき乗倍の倍数関係を有する、請求項25に記載の方法。
  27. オプティカルフローに基づいて、第1フレームのマスクを処理してオプティカルフローベースのマスクを取得する段階と、
    前記オプティカルフローベースのマスクと、前記第1フレームより後の第2のフレームのマスクとを比較して、類似度が所定の閾値以上である場合には、前記ビデオにちらつきが生じていないと判定し、前記類似度が前記所定の閾値未満である場合には前記ビデオにちらつきが生じていると判定する段階と、
    を含む、
    請求項25または26に記載の方法。
  28. 前記ニューラルネットワークが、人物、動物、植物、車両、衣類、または別の予め設定された物体種別のうちの少なくとも2つの物体種別を識別することができる、請求項27に記載の方法。
  29. 前記背景領域に対してフィルタ処理を実行する段階であって、前記フィルタ処理は、ボケ処理、暗化処理、レトロ処理、フィルム処理、またはテクスチャ重ね合わせ処理のうちの少なくとも1つを含む、実行する段階を更に備える請求項25から28のいずれか一項に記載の方法。
  30. 画像処理装置であって、
    ビデオを撮影するように構成される撮影モジュールと、
    ビデオ画像内の主要物体を決定するように構成される決定モジュールと、
    前記ビデオ画像内のターゲット領域の色を保持し、ターゲットビデオを取得するために前記ビデオ画像内の背景領域に対してグレースケール処理を実行することであって、前記ターゲット領域は前記主要物体に対応し、前記背景領域は前記ターゲット領域以外の前記ビデオ画像の領域である、実行することを行うように構成される色処理モジュールと
    を備え
    前記決定モジュールは、前記ビデオ画像において、ニューラルネットワークを使用することにより前記ビデオ画像内の物体の種別に基づいて前記ターゲット領域および/または前記背景領域を識別し、
    前記識別をする際に、前記ビデオ画像を前記ニューラルネットワークに入力することにより取得した画像マスクを使用し、
    前記画像マスクを取得することは、前記ビデオ画像にダウンサンプリングを実行して、第1画像を取得することと、
    前記第1画像に対してダウンサンプリングおよび畳み込みを実行して、複数の第2画像を取得することであって、前記複数の第2画像のそれぞれの各辺は、前記第1画像の対応する各辺に対して、所定の数のべき乗倍の倍数関係を有する、ことと、
    対応する前記複数の第2画像から、複数の特徴マップを取得することと、
    前記複数の特徴マップに対して、畳み込みおよびアップサンプリングを実行して、セマンティック特徴を融合することと、を含む、
    装置。
  31. 前記複数の第2画像のそれぞれの各辺は、互いに前記所定の数のべき乗倍の倍数関係を有する、請求項30に記載の装置。
  32. オプティカルフローに基づいて、第1フレームのマスクを処理してオプティカルフローベースのマスクを取得し、
    前記オプティカルフローベースのマスクと、前記第1フレームより後の第2のフレームのマスクとを比較して、類似度が所定の閾値以上である場合には、前記ビデオにちらつきが生じていないと判定し、前記類似度が前記所定の閾値未満である場合には前記ビデオにちらつきが生じていると判定する、判定モジュールを含む、
    請求項30または31に記載の装置。
  33. 前記色処理モジュールは更に、前記背景領域に対してフィルタ処理を実行するように構成され、前記フィルタ処理は、ボケ処理、暗化処理、レトロ処理、フィルム処理、またはテクスチャ重ね合わせ処理のうちの少なくとも1つを含む、請求項30から32のいずれか一項に記載の装置。
  34. 前記色処理モジュールは更に、
    前記背景領域に対してフィルタ処理を実行することであって、前記フィルタ処理は、ボケ処理、暗化処理、レトロ処理、フィルム処理、またはテクスチャ重ね合わせ処理のうちの少なくとも1つを含む、実行することを行う
    ように構成される、請求項30から33のいずれか一項に記載の装置。
  35. カメラ、メモリ、プロセッサ、およびバスを備える端末デバイスであって、前記カメラ、前記メモリ、および前記プロセッサは前記バスを介して接続され、
    前記カメラは画像を撮像するように構成され、
    前記メモリはコンピュータプログラムおよび命令を記憶するように構成され、
    前記プロセッサは、前記メモリに記憶される前記コンピュータプログラム、前記命令、および前記撮像された画像を呼び出して、請求項25から29のいずれか一項に記載の方法を実行するように構成される、
    端末デバイス。
JP2021521025A 2018-10-15 2019-06-18 画像処理の方法および装置並びにデバイス Active JP7226851B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811199234.8A CN109816663B (zh) 2018-10-15 2018-10-15 一种图像处理方法、装置与设备
CN201811199234.8 2018-10-15
PCT/CN2019/091717 WO2020078027A1 (zh) 2018-10-15 2019-06-18 一种图像处理方法、装置与设备

Publications (2)

Publication Number Publication Date
JP2022505115A JP2022505115A (ja) 2022-01-14
JP7226851B2 true JP7226851B2 (ja) 2023-02-21

Family

ID=66601864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021521025A Active JP7226851B2 (ja) 2018-10-15 2019-06-18 画像処理の方法および装置並びにデバイス

Country Status (9)

Country Link
US (1) US20210241432A1 (ja)
EP (1) EP3859670A4 (ja)
JP (1) JP7226851B2 (ja)
KR (1) KR20210073568A (ja)
CN (4) CN113112505B (ja)
AU (1) AU2019362347B2 (ja)
BR (1) BR112021007094A2 (ja)
MX (1) MX2021004295A (ja)
WO (1) WO2020078027A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113112505B (zh) * 2018-10-15 2022-04-29 华为技术有限公司 一种图像处理方法、装置与设备
CN111369598B (zh) * 2020-03-02 2021-03-30 推想医疗科技股份有限公司 深度学习模型的训练方法及装置、应用方法及装置
CN113395441A (zh) * 2020-03-13 2021-09-14 华为技术有限公司 图像留色方法及设备
CN111598902B (zh) * 2020-05-20 2023-05-30 抖音视界有限公司 图像分割方法、装置、电子设备及计算机可读介质
CN111726476B (zh) * 2020-07-06 2022-05-31 北京字节跳动网络技术有限公司 图像处理方法、装置、设备和计算机可读介质
CN111815505A (zh) * 2020-07-14 2020-10-23 北京字节跳动网络技术有限公司 用于处理图像的方法、装置、设备和计算机可读介质
US20220070241A1 (en) * 2020-08-28 2022-03-03 Tmrw Foundation Ip S. À R.L. System and method enabling interactions in virtual environments with virtual presence
CN112188260A (zh) * 2020-10-26 2021-01-05 咪咕文化科技有限公司 视频的分享方法、电子设备及可读存储介质
US11335048B1 (en) * 2020-11-19 2022-05-17 Sony Group Corporation Neural network-based image colorization on image/video editing applications
CN113225477A (zh) * 2021-04-09 2021-08-06 天津畅索软件科技有限公司 一种拍摄方法、装置和相机应用
CN113569713A (zh) * 2021-07-23 2021-10-29 浙江大华技术股份有限公司 视频图像的条纹检测方法及装置、计算机可读存储介质
CN114363659A (zh) * 2021-12-15 2022-04-15 深圳万兴软件有限公司 降低视频闪烁的方法、装置、设备及存储介质
CN114422682B (zh) * 2022-01-28 2024-02-02 安谋科技(中国)有限公司 拍摄方法、电子设备和可读存储介质
CN115118948B (zh) * 2022-06-20 2024-04-05 北京华录新媒信息技术有限公司 一种全景视频中无规则遮挡的修复方法及装置
CN115422986B (zh) * 2022-11-07 2023-08-22 深圳传音控股股份有限公司 处理方法、处理设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002245471A (ja) 2000-12-07 2002-08-30 Eastman Kodak Co 被写体内容に基づく修正を有する第2プリントを伴うダブルプリントの写真仕上げサービス
US20170200279A1 (en) 2014-08-28 2017-07-13 Xin Zhong Temporal saliency map
US20170337693A1 (en) 2016-05-23 2017-11-23 Intel Corporation Method and system of real-time image segmentation for image processing
JP2018045359A (ja) 2016-09-13 2018-03-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100464569C (zh) * 2007-04-17 2009-02-25 北京中星微电子有限公司 对图像添加特效的方法和系统
CN101072289B (zh) * 2007-06-11 2010-06-02 北京中星微电子有限公司 一种图像特效的自动生成方法及装置
CN101790020B (zh) * 2009-09-28 2013-03-20 苏州佳世达电通有限公司 胶片扫描方法
US8355039B2 (en) * 2010-07-06 2013-01-15 DigitalOptics Corporation Europe Limited Scene background blurring including range measurement
CN102567727B (zh) * 2010-12-13 2014-01-01 中兴通讯股份有限公司 一种背景目标替换方法和装置
CN102542593A (zh) * 2011-09-30 2012-07-04 中山大学 一种基于视频解译的交互式视频风格化渲染方法
CN102880873B (zh) * 2012-08-31 2015-06-03 公安部第三研究所 基于图像分割和语义提取实现人员行为识别的系统及方法
TWI542201B (zh) * 2013-12-26 2016-07-11 智原科技股份有限公司 降低視訊畫面抖動的方法與裝置
CN104156947B (zh) * 2014-07-23 2018-03-16 小米科技有限责任公司 图像分割方法、装置及设备
WO2016197303A1 (en) * 2015-06-08 2016-12-15 Microsoft Technology Licensing, Llc. Image semantic segmentation
CN105049695A (zh) * 2015-07-07 2015-11-11 广东欧珀移动通信有限公司 一种视频录制方法及装置
CN105005980B (zh) * 2015-07-21 2019-02-01 深圳Tcl数字技术有限公司 图像处理方法及装置
CN105872509A (zh) * 2015-11-23 2016-08-17 乐视致新电子科技(天津)有限公司 一种图像对比度调节方法及装置
CN105513081A (zh) * 2015-12-21 2016-04-20 中国兵器工业计算机应用技术研究所 一种多目标的跟踪识别方法
JP2018085008A (ja) * 2016-11-25 2018-05-31 株式会社ジャパンディスプレイ 画像処理装置および画像処理装置の画像処理方法
CN106846321B (zh) * 2016-12-08 2020-08-18 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于贝叶斯概率与神经网络的图像分割方法
CN108230252B (zh) * 2017-01-24 2022-02-01 深圳市商汤科技有限公司 图像处理方法、装置以及电子设备
WO2018145030A1 (en) * 2017-02-06 2018-08-09 Intuitive Surgical Operations, Inc. System and method for extracting multiple feeds from a rolling-shutter sensor
US10049308B1 (en) * 2017-02-21 2018-08-14 A9.Com, Inc. Synthesizing training data
CN106997595A (zh) * 2017-03-09 2017-08-01 广东欧珀移动通信有限公司 基于景深的图像颜色处理方法、处理装置及电子装置
CN106851124B (zh) * 2017-03-09 2021-03-02 Oppo广东移动通信有限公司 基于景深的图像处理方法、处理装置和电子装置
US9965865B1 (en) * 2017-03-29 2018-05-08 Amazon Technologies, Inc. Image data segmentation using depth data
CN107509045A (zh) * 2017-09-11 2017-12-22 广东欧珀移动通信有限公司 图像处理方法和装置、电子装置和计算机可读存储介质
CN107566723B (zh) * 2017-09-13 2019-11-19 维沃移动通信有限公司 一种拍摄方法、移动终端及计算机可读存储介质
CN107798653B (zh) * 2017-09-20 2019-12-24 北京三快在线科技有限公司 一种图像处理的方法和一种装置
CN107665482B (zh) * 2017-09-22 2021-07-23 北京奇虎科技有限公司 实现双重曝光的视频数据实时处理方法及装置、计算设备
US20190130191A1 (en) * 2017-10-30 2019-05-02 Qualcomm Incorporated Bounding box smoothing for object tracking in a video analytics system
CN108010037B (zh) * 2017-11-29 2019-09-13 腾讯科技(深圳)有限公司 图像处理方法、装置及存储介质
CN107948519B (zh) * 2017-11-30 2020-03-27 Oppo广东移动通信有限公司 图像处理方法、装置及设备
CN107977940B (zh) * 2017-11-30 2020-03-17 Oppo广东移动通信有限公司 背景虚化处理方法、装置及设备
US10528820B2 (en) * 2017-12-07 2020-01-07 Canon Kabushiki Kaisha Colour look-up table for background segmentation of sport video
CN108108697B (zh) * 2017-12-25 2020-05-19 中国电子科技集团公司第五十四研究所 一种实时无人机视频目标检测与跟踪方法
CN108133695B (zh) * 2018-01-02 2020-08-14 京东方科技集团股份有限公司 一种图像显示方法、装置、设备和介质
CN108305223B (zh) * 2018-01-09 2020-11-03 珠海格力电器股份有限公司 图像背景虚化处理方法及装置
CN108234882B (zh) * 2018-02-11 2020-09-29 维沃移动通信有限公司 一种图像虚化方法及移动终端
CN108491889A (zh) * 2018-04-02 2018-09-04 深圳市易成自动驾驶技术有限公司 图像语义分割方法、装置及计算机可读存储介质
CN108648284A (zh) * 2018-04-10 2018-10-12 光锐恒宇(北京)科技有限公司 一种视频处理的方法和装置
CN108648139A (zh) * 2018-04-10 2018-10-12 光锐恒宇(北京)科技有限公司 一种图像处理方法和装置
CN113112505B (zh) * 2018-10-15 2022-04-29 华为技术有限公司 一种图像处理方法、装置与设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002245471A (ja) 2000-12-07 2002-08-30 Eastman Kodak Co 被写体内容に基づく修正を有する第2プリントを伴うダブルプリントの写真仕上げサービス
US20170200279A1 (en) 2014-08-28 2017-07-13 Xin Zhong Temporal saliency map
US20170337693A1 (en) 2016-05-23 2017-11-23 Intel Corporation Method and system of real-time image segmentation for image processing
JP2018045359A (ja) 2016-09-13 2018-03-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Also Published As

Publication number Publication date
US20210241432A1 (en) 2021-08-05
WO2020078027A1 (zh) 2020-04-23
AU2019362347A1 (en) 2021-05-27
CN113112505B (zh) 2022-04-29
EP3859670A1 (en) 2021-08-04
CN113129312A (zh) 2021-07-16
CN109816663A (zh) 2019-05-28
CN112840376B (zh) 2022-08-09
AU2019362347B2 (en) 2023-07-06
JP2022505115A (ja) 2022-01-14
KR20210073568A (ko) 2021-06-18
CN113129312B (zh) 2022-10-28
MX2021004295A (es) 2021-08-05
CN113112505A (zh) 2021-07-13
BR112021007094A2 (pt) 2021-07-27
CN109816663B (zh) 2021-04-20
EP3859670A4 (en) 2021-12-22
CN112840376A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
JP7226851B2 (ja) 画像処理の方法および装置並びにデバイス
JP7266672B2 (ja) 画像処理方法および画像処理装置、ならびにデバイス
US9451173B2 (en) Electronic device and control method of the same
CN107507160B (zh) 一种图像融合方法、终端及计算机可读存储介质
CN111885294A (zh) 一种拍摄方法、装置与设备
WO2021036991A1 (zh) 高动态范围视频生成方法及装置
WO2020192692A1 (zh) 图像处理方法以及相关设备
US20220319077A1 (en) Image-text fusion method and apparatus, and electronic device
CN116569213A (zh) 图像区域的语义细化
WO2022252649A1 (zh) 一种视频的处理方法及电子设备
US10769416B2 (en) Image processing method, electronic device and storage medium
CN117061861B (zh) 一种拍摄方法、芯片系统和电子设备
RU2791810C2 (ru) Способ, аппаратура и устройство для обработки и изображения
RU2794062C2 (ru) Устройство и способ обработки изображения и оборудование
CN114207669A (zh) 一种人脸光照图像生成装置及方法
CN117271817A (zh) 生成分享素材的方法及装置、设备、存储介质
CN115526788A (zh) 图像处理方法和装置
CN110706163A (zh) 图像处理方法、终端及计算机存储介质
CN115942122A (zh) 图像的亮度调整方法、装置、终端及存储介质
CN114911546A (zh) 图像显示方法、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230202

R150 Certificate of patent or registration of utility model

Ref document number: 7226851

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150