JP7214926B1

JP7214926B1 - 画像処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP7214926B1
Application number: JP2022537296A
Authority: JP
Inventors: ジュゴ，ジンジン; ニ，グアンヤオ; ヤン，ホイ
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2019-12-18
Filing date: 2020-12-16
Publication date: 2023-01-30
Anticipated expiration: 2040-12-16
Also published as: JP2023504926A; AU2020404293B2; AU2020404293A1; US11651529B2; WO2021121291A1; CN112991147A; CA3162058A1; EP4060611A4; EP4060611A1; CN112991147B; US20220319062A1; KR102534449B1; MX2022007700A; KR20220099584A; BR112022012014A2

Abstract

画像処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体であって、そのうち、この画像処理方法は、第１のビデオフレーム画像における第１の対象と、前記第１の対象内に位置する第２の対象とを識別すること（Ｓ１０１）と、前記第１の対象の前記第１のビデオフレーム画像における位置に基づいて、第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、第２のビデオフレーム画像を得ることであって、そのうち、前記第２のビデオフレーム画像において前記第３の対象が前記第１の対象を覆ったこと（Ｓ１０２）と、前記第２の対象の前記第１のビデオフレーム画像における位置に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ること（Ｓ１０３）と、を含む。上記の方法により、従来技術における、対象上にオーバーレイしたエフェクトが対象の本来の特徴を表すことができないことに起因する現実感に欠けるという技術課題を解決した。【選択図】図１

Description

［関連出願の相互参照］
本開示は、２０１９年１２月１８日に中国特許局に提出された、出願番号が２０１９１１３０６４２１．６であり、出願の名称が「画像処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体」である中国特許出願の優先権を主張し、その内容の全てが参照によって本開示に組み込まれる。

［技術分野］
本開示は、画像処理分野に関し、特に画像処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体に関する。

コンピュータネットワークの発展やスマートフォンの普及に伴い、一般ユーザは、単調な画像や文字だけで自分の感情を表すことに満足できない。ビデオは、より多様な内容と形式を呈し、直観的な感覚をもたらすことができるため、ユーザに深く好ましくなっており、徐々に流行ってきており、一般ユーザがオリジナルビデオを制作することは徐々にトレンドになる。しかし、自分撮りビデオのようなオリジナルビデオでは表現形式が無味乾燥であるが、一方、映画・テレビ作品におけるビデオエフェクトの活用がますます豊富になり、内容表現形式もより多様であるため、ビデオエフェクトは、成功した映画・テレビ作品の支え、保障になると言える。

しかしながら、従来技術では、直接的に目標対象（例えば、人の顔）をエフェクトによって覆うことによりエフェクトを制作するのが一般的であるが、覆われた箇所がエフェクトによって遮られ、目標対象の本来の特徴を表すことができないため、エフェクトの実際の効果が不自然で、現実感に欠ける。

この発明の概要は、構想を簡単な形で紹介するために提供され、これら構想は、後の発明を実施するための形態で詳細に記述される。この発明の概要は、権利化しようとする技術案のキーポイントとなる特徴又は必須な特徴を標識することを意図するものではなく、権利化しようとする技術案の範囲を制限することも意図していない。

第一の側面によれば、本開示の実施例は、
第１のビデオフレーム画像における第１の対象と、前記第１の対象内に位置する第２の対象とを識別することと、
前記第１の対象の前記第１のビデオフレーム画像における位置に基づいて、第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、第２のビデオフレーム画像を得ることであって、そのうち、前記第２のビデオフレーム画像において前記第３の対象が前記第１の対象を覆ったことと、
前記第２の対象の前記第１のビデオフレーム画像における位置に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ることと、を含む画像処理方法を提供する。

第二の側面によれば、本開示の実施例は、
第１のビデオフレーム画像における第１の対象と、前記第１の対象内に位置する第２の対象と、を識別するための対象識別モジュールと、
前記第１の対象の前記第１のビデオフレーム画像における位置に基づいて、第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、前記第３の対象が前記第１の対象を覆った第２のビデオフレーム画像を得るための第２のビデオフレーム画像生成モジュールと、
前記第２の対象の前記第１のビデオフレーム画像における位置に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得るための第３のビデオフレーム生成モジュールと、を含む画像処理装置を提供する。

第三の側面によれば、本開示の実施例は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサが前記第一の側面のいずれかの前記画像処理方法を実行できるようにした、電子機器を提供する。

第四の側面によれば、本開示の実施例は、コンピュータに前記第一の側面のいずれかの前記画像処理方法を実行させるためのコンピュータ命令を記憶したことを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体を提供する。

第五の側面によれば、本開示の実施例は、コンピュータによって実行されると、前記コンピュータに前記第一の側面のいずれかの前記画像処理方法を実行させるコンピュータプログラムを提供する。

本開示の実施例には、画像処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体が開示されている。この画像処理方法は、第１のビデオフレーム画像における第１の対象と、前記第１の対象内に位置する第２の対象とを識別することと、前記第１の対象の前記第１のビデオフレーム画像における位置に基づいて、第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、第２のビデオフレーム画像を得ることであって、そのうち、前記第２のビデオフレーム画像において前記第３の対象が前記第１の対象を覆ったことと、前記第２の対象の前記第１のビデオフレーム画像における位置に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ることと、を含む。上記の方法により、従来技術における、対象上にオーバーレイしたエフェクトが対象の本来の特徴を表すことができないことに起因する現実感に欠けるという技術課題を解決した。

上記の説明は本開示の技術案の概要に過ぎず、本開示の技術的手段をより明確に理解させるために、明細書の内容に基づいて実施でき、また、本開示の上記及び他の目的、特徴及び利点をより明らかで理解しやすいようにするために、以下、好ましい実施例を挙げて、添付図面を結び付けながら、以下のように詳しく説明する。

本開示の各実施例の上記及び他の特徴、利点、並びに態様は、添付図面を結び付けながら、以下の発明を実施するための形態を参照することでより明らかとなる。全ての添付図面において、同一又は類似する要素を同一又は類似する符号で示している。添付図面は概略的なものであり、素子及び要素は必ずしも縮尺通りに描かれていないことを理解されたい。

本開示による画像処理方法の実施例のフローチャートである。本開示による画像処理方法の実施例において人の顔のポジショニングポイントを算出する模式図である。本開示による画像処理方法の実施例におけるステップＳ１０３の具体例のフローチャートである。本開示による画像処理方法の実施例におけるステップＳ３０２の具体例のフローチャートである。本開示の実施例による画像処理装置の実施例の構造模式図である。本開示の実施例による電子機器の構造模式図である。

以下は、添付図面を参照しながら、本開示の実施例をより詳細に記述する。添付図面においては本開示のいくつかの実施例が示されたが、本開示を各種の形態で実現することができ、ここで記述された実施例に限定されると解釈されるべきではないことを理解されたい。逆に、これらの実施例は、本開示をより徹底的且つ完全に理解するために提供される。本開示の添付図面及び実施例は、例示的なものに過ぎず、本開示の保護範囲を制限するものではないことを理解されたい。

本開示の方法の実施形態に記載された各ステップは、異なる順序で実行されてもよく、及び／又は並行して実行されてもよいことを理解されたい。なお、方法の実施形態は、追加のステップを含んでもよく、及び／又は示されたステップの実行を省略してもよい。本開示の範囲はこの点において制限されない。

本明細書で使用される「含む」という用語及びその変形は、開放式包括であり、即ち、「を含むが、それらに限らない」ことを意味する。「基づいて」という用語は、「少なくとも部分的に基づいて」を意味する。「一実施例」という用語は、「少なくとも１つの実施例」を意味し、「別の実施例」という用語は、「少なくとも１つの別の実施例」を意味し、「いくつかの実施例」という用語は、「少なくともいくつかの実施例」を意味する。他の用語の関連定義は、以下の記述において与えられる。

なお、本開示で記載された「第一の」、「第二の」などの概念は、単に異なる装置、モジュール、又はユニットを区別するためのものであり、これらの装置、モジュール、又はユニットによって実行される機能の順序又は相互依存関係を限定するためのものではない。

なお、本開示で記載された「１つ」、「複数」の修飾は、模式的なものであり、制限性のあるものではない。特別な説明がない限り、「１つ又は複数」と理解されるべきであることは当業者にとって自明である。

本開示の実施形態における複数の装置間でやりとりされるメッセージ又は情報の名称は、説明的なものに過ぎず、これらメッセージ又は情報の範囲を制限するものではない。

図１は本開示による画像処理方法の実施例のフローチャートである。本実施例によるこの画像処理方法は、１つの画像処理装置によって実行されてもよい。この画像処理装置は、ソフトウェアとして実現され、又はソフトウェアとハードウェアの組み合わせとして実現されてもよい。この画像処理装置は、画像処理システムにおける、画像処理サーバ又は画像処理端末機器などの機器に集積設置されてもよい。図１に示すように、この方法は以下のようなステップを含む。
ステップＳ１０１：第１のビデオフレーム画像における第１の対象と、前記第１の対象内に位置する第２の対象とを識別する。

このステップにおいて、前記第１のビデオフレーム画像は、イメージセンサ又はメモリによって取得される。そのうち、前記イメージセンサとは、画像を取り込むことができる様々な機器を指し、典型的なイメージセンサは、ビデオカメラ、カメラヘッド、カメラなどである。この実施例では、前記イメージセンサは、端末機器上のカメラヘッド、例えば、スマートフォン上の前向き又は後ろ向きカメラヘッドであってもよく、カメラヘッドで撮像した画像をそのまま携帯電話の表示画面に表示することができる。そのうち、前記メモリは、ローカルストレージ又はネットワークストレージであり、ローカルストレージでの記憶位置又はネットワークストレージでの記憶アドレスからビデオフレーム画像を取得し、メモリにおけるビデオフレーム画像は、予め撮像されたビデオフレーム画像ファイルであり、端末機器でのプレーヤにより端末機器の表示装置に表示可能である。

前記第１のビデオフレーム画像には、第１の対象が含まれ、前記第１の対象は、第１のビデオフレーム画像における任意の物体であってもよい。例示的に、前記第１の対象は、人の顔であり、前記第２の対象は、第１の対象の一部であり、第１の対象内に位置する。例示的に、前記第１の対象が人の顔である場合、前記第２の対象は、人の顔における目、口などの五官である。

この実施例では、対象のキーポイントを用いて対象を識別する。例示的に、予め設定された複数のキーポイントに基づいて対象を識別してもよい。前記複数のキーポイントが識別された場合、前記対象が識別される。選択的に、前記の、第１のビデオフレーム画像における第１の対象と、前記第１の対象内に位置する第２の対象とを識別することは、前記第１のビデオフレーム画像において前記第１の対象の複数の第１のキーポイントと前記第２の対象の複数の第２のキーポイントとを識別することと、前記第１の対象の複数の第１のキーポイントに基づいて前記第１の対象を識別することと、前記第２の対象の複数の第２のキーポイントに基づいて前記第２の対象を識別することと、を含み、そのうち、前記複数の第２のキーポイントは前記第２の対象のエッジキーポイントである。そのうち、前記エッジキーポイントは、前記第２の対象の輪郭を特定する。例示的に、前記第１の対象は、人の顔であり、前記第２の対象は、人の顔における目と口である。前記複数の第１のキーポイントは、人の顔における両目の中心キーポイントと鼻先キーポイントであり、前記両目の中心キーポイントと鼻先キーポイントが識別された場合、前記人の顔が識別されてもよい。前記複数の第２のキーポイントは、前記目のエッジキーポイントと口のエッジキーポイントであり、同様に、前記目のエッジキーポイントと口のエッジキーポイントの場合、前記目と口が識別される。例示的に、前記第１のキーポイントと第２のキーポイントは、ディープラーニングアルゴリズムを用いて識別されることができ、前記第１のキーポイントと第２のキーポイントがマークされたフレーム画像集合を直接に用いてディープラーニングネットワークを訓練して、第１のキーポイントと第２のキーポイントを回帰できるネットワークモデルを得て、その後、第１のビデオフレーム画像を前記ネットワークモデルに入力することができ、前記第１のビデオフレーム画像に第１の対象と第２の対象が含まれる場合、前記ネットワークモデルは、第１のキーポイントと第２のキーポイントの位置を出力し、これにより第１の対象と第２の対象が直接に識別されるとともに、第１のキーポイントと第２のキーポイントの位置が識別される。他の任意のキーポイント識別アルゴリズムを用いて前記第１のキーポイントと第２のキーポイントを識別してもよいことを理解されたく、ここではこれ以上説明しない。

ステップＳ１０２：前記第１の対象の前記第１のビデオフレーム画像における位置に基づいて、第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、前記第３の対象が前記第１の対象を覆った第２のビデオフレーム画像を得る。

選択的に、前記第３の対象は３次元仮想対象であり、かつ前記３次元仮想対象の前記第１のビデオフレーム画像における２次元投影の領域は、前記第１の対象の領域よりも大きく、つまり、前記第３の対象は、前記第１の対象を完全に覆うことができる。例示的に、前記３次元仮想対象は、３次元オレンジ、３次元ボール、３次元スイカなどの球形の仮想対象であってもよい。前記第３の対象は、前記第３の対象の位置を位置決めるための第３の対象のポジショニングポイントを含む。

前記第３の対象は、上述した３次元仮想対象に限らず、２次元仮想対象や現実の対象など任意の対象であってもよく、前記現実の対象は、現実の物体が撮像された画像に形成される対象であり、例えば、第１のビデオフレーム画像に人の顔画像及び動物の顔画像が含まれており、このとき、動物の顔画像は、第３の対象として、前記人の顔画像上にオーバーレイしてよいこと、を理解されたい。

このステップでは、第３の対象を前記第１の対象上にオーバーレイする際に、単一キーポイントアライメントという方法を用いて、第３の対象が覆う位置を特定し得る。例示的に、第３の対象に第３の対象のポジショニングポイントが含まれ、前記第１の対象には、前記第３の対象のポジショニングポイントに対応する第１の対象のポジショニングキーポイントが予め設置され、前記第１の対象のポジショニングキーポイントは、前記第１のキーポイントのうちの１つであってもよい。第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイする際に、前記第３の対象のポジショニングポイントと第１の対象のポジショニングキーポイントの位置とをアライメントすることにより、前記第３の対象を前記第１の対象上にオーバーレイすることができる。

単一のキーポイントを用いたアライメントはそれほど正確でない場合があるため、選択的に、前記の、前記第１の対象の前記第１のビデオフレーム画像における位置に基づいて、第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして第２のビデオフレーム画像を得ることは、前記第１のビデオフレーム画像における前記第１の対象の複数の第１のキーポイントから、前記第１のビデオフレーム画像における前記第１の対象のポジショニングポイントを算出することと、前記第３の対象のポジショニングポイントと前記第１のビデオフレーム画像における前記第１の対象のポジショニングポイントとをアライメントすることにより、前記第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、前記第２のビデオフレーム画像を得ることと、を含む。この選択的な実施例では、前記第１の対象のポジショニングポイントは、複数の第１のキーポイントから算出され、このように前記第１の対象のポジショニングポイントに複数の第１のキーポイントの位置情報が含まれるので、単一の第１のキーポイントよりも位置決めが正確になる。例示的に、図２に示すように、前記第１の対象は人の顔であり、前記複数の第１のキーポイントは、左右両目の中心キーポイント２０１と２０２、鼻先キーポイント２０３であり、両目の中心キーポイントと鼻先キーポイントのそれぞれが１／３ずつの重みを占めるようにして前記人の顔のポジショニングポイントを算出することができ、このように算出されるのは、両目の中心キーポイントと鼻先キーポイントとで構成される三角形の中心点２０４であり、このように単一のキーポイントの位置の歪みがポジショニングポイントの位置に与える影響がかなり小さく、第１の対象のポジショニングポイントがより安定で正確になる。

第１の対象のポジショニングポイントを得た後、前記第３の対象のポジショニングポイントを前記第１の対象のポジショニングポイントの位置に設置し、第３の対象を前景として第１のビデオフレーム画像をレンダリングして第２のビデオフレーム画像を得る。
ステップＳ１０３：前記第２の対象の前記第１のビデオフレーム画像における位置に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得る。

ステップＳ１０１で既に第２の対象が識別され、そのうち、前記第２の対象の前記第１のビデオフレーム画像における位置は、前記第２の対象の中心点の位置又は前記複数の第２のキーポイントによって特定され得、例示的に、前記第２の対象を識別する際に、前記第２の対象のポジショニングポイントを１つのキーポイントとして直接に識別し、又は前記複数の第２のキーポイントから前記第２の対象のポジショニングポイントを算出し、前記第２の対象のポジショニングポイントを算出する際に、算出に関与する第２のキーポイント毎に重み値を設定することができ、前記第２の対象のポジショニングポイントの位置は、前記複数の第２のキーポイントの位置の加重平均値である。前記第２の対象の前記第１のビデオフレーム画像における位置を得た後、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象の対応位置上に重ね合わせる。

選択的に、前記第３の対象が３次元対象である場合、３次元対象は一定の奥行き（Ｚ軸方向の情報）を有し、第２の対象は２次元対象であり、奥行きを有しないため、第２の対象を第３の対象上に重ね合わせると、一定のずれが生じるので、第２の対象を第３の対象上に重ね合わせる際に、重ね合わせ結果が比較的に自然となるように、ある程度のオフセット量を持たせる必要がある。このとき、図３に示すように、ステップＳ１０３は以下のようなステップを含んで良い。

ステップＳ３０１：前記第１の対象上に予め設定された２つのキーポイント間の第１の距離を算出する。

ステップＳ３０２：前記第１の距離に基づいて、前記第２の対象のオフセット量を算出する。

ステップＳ３０３：前記第２の対象の前記第１のビデオフレーム画像における位置及び前記第２の対象のオフセット量に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得る。

前記第１の対象上に予め設定された２つのキーポイントは、第１の対象上の任意の２つのキーポイントであってもよく、例示的に、前記予め設定された２つのキーポイントは、第１の対象上の左右対称な２つのキーポイントであり、例えば、上記実施例では、第１の対象が人の顔である場合、前記予め設定された２つのキーポイントは、左右両目の中心キーポイントであってもよい。例示的に、前記の、前記第１の距離に基づいて、前記第２の対象のオフセット量を算出することは、第１の距離に１つのオフセット係数を乗算することであってもよく、前記オフセット係数は前記第１の距離の値に関連し、例えば、第１の距離の値が大きいほどオフセット係数は大きくなり、すると、第２の対象のオフセット量は大きくなり、これにより、第１の対象がレンズに近づくほど、第３の対象の３次元表面に適応するように前記第２の対象はより大きくオフセットするという効果をもたらす。

上述したオフセット量の算出は近似的な算出であり、選択的に、前記オフセット量をより正確に算出してもよく、このとき、図４に示すように、前記ステップＳ３０２は、以下のようなステップを含んでもよい。

ステップＳ４０１：前記第１の対象のヨー角とピッチ角とを取得し、そのうち、前記ヨー角は、前記第１の対象の前記第１のビデオフレーム画像における向きとレンズ撮影方向との水平夾角であり、前記ピッチ角は、第１の対象の前記第１のビデオフレーム画像における向きとレンズ撮影方向との垂直夾角である。

ステップＳ４０２：前記第１の距離、ヨー角及びピッチ角に基づいて、前記第２の対象のオフセット量を算出する。

具体的には、前記ステップＳ４０２における算出手順を以下の式で表すことができる：

ここで、ｓｉｇｎは、符号を取る操作であり、ｄｘは、前記第２の対象のＸ軸方向のオフセット量であり、ｄｙは、前記第２の対象のＹ軸方向のオフセット量であり、ｄｉｓｔ_ｅｙｅは第１の距離であり、ｙａｗは、第１の対象のヨー角であり、ｐｉｔｃｈは、第１の対象のピッチ角であり、θ_１は、第２の対象が前方を向っているときの初期相対ピッチ角であり、θ_２は、第２の対象が前方を向っているときの初期相対ヨー角である。ここで、θ_１とθ_２は、予め設定された角度値であり、３次元の第３の対象の外面は一定のラジアンを有するので、移動する際に、ある程度の減衰が必要である。第１の対象が人の顔で、第２の対象が目と口である場合を例にして、口が第３の対象における上下領域の下半分の領域に位置するため、口の初期相対ピッチ角は大きく、口が第３の対象の左右領域の中間に位置するため、口の初期相対ヨー角は０である。他の第２の対象のθ_１とθ_２は、第３の対象の違いに応じて予め異なる値に設定されてもよく、ここではこれ以上説明しない。

選択的に、前記のステップＳ３０３において、前記第２の対象の前記第１のビデオフレーム画像における位置及び前記第２の対象のオフセット量に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ることは、前記第２の対象のオフセット量に基づいて、前記第２の対象の前記第１のビデオフレーム画像における初期ポジショニングポイントを位置シフトさせて目標ポジショニングポイントを得ることと、前記第２のビデオフレーム画像において、前記第２の対象を前景画像として前記目標ポジショニングポイントの位置にレンダリングして、前記第３のビデオフレーム画像を得ることと、をさらに含む。前述ステップにおいて、前記第２の対象の第１のビデオフレーム画像における位置を初期ポジショニングポイントとし、前記初期ポジショニングポイントは、Ｘ軸の座標値とＹ軸の座標値を含み、前記初期ポジショニングポイントのＸ軸座標値及びＹ軸座標値をそれぞれ前記オフセット量のＸ軸座標値とＹ軸座標値に加算して目標ポジショニングポイントを得ており、その後、第２のビデオフレーム画像において、前記第２の対象を前景として前記第２の目標ポジショニングポイントの位置にレンダリングして第３のビデオフレーム画像を得て、前記第３のビデオフレーム画像において、前記第３の対象上に第２の対象を重ね合わせ、第１の対象の特徴をリアルに反映することができ、これにより、エフェクトにより現実感を持たせることができる。

選択的に、第３の対象と第２の対象は大きさが異なる可能性があるので、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせる前に、第３の対象に従って前記第２の対象をスケーリングすることをさらに含む。このとき、第３の対象上の所定の２つのキーポイント間の距離と、第１の対象上の所定の２つのキーポイント間の距離との比に基づいて、第２の対象のスケーリング率を決定することができ、このように前記第３の対象が前記第１の対象より大きい場合、前記第２の対象を拡大し、前記第３の対象が前記第１の対象より小さい場合、前記第２の対象を縮小する。このステップの後に前記第２のビデオフレーム画像における第３の対象上に重ね合わせられる第２の対象は、スケーリング後の第２の対象である。

さらに、前記目標対象が前記３次元仮想対象上にオーバーレイした後、目標対象の色と３次元仮想対象の色との間に違いがある可能性があるため、さらなる色処理によってこのような違いを解消することで、第２の対象と第３の対象との重ね合わせ効果をより自然にすることができる。さらに、前記ステップＳ１０３の後に、
前記第３のビデオフレーム画像における第２の対象及び第３の対象の色空間を、ＲＧＢ（Ｒｅｄ、Ｇｒｅｅｎ、Ｂｌｕｅ；赤、緑、青）色空間からＨＳＶＨＳＶ（Ｈｕｅ、Ｓａｔｕｒａｔｉｏｎ、Ｖａｌｕｅ；色相、彩度、明度）色空間に変換することと、
前記第２の対象のＨＳＶ色空間におけるＨチャネルの値を前記第３の対象のＨチャネルの値に置き換えることと、
前記第２の対象及び第３の対象の色空間をＨＳＶ空間からＲＧＢ色空間に変換して第４のビデオフレーム画像を得ることと、をさらに含む。

前記ステップにより、ＲＧＢ空間をＨＳＶ空間に変換し、第２の対象の元の彩度と明度を保存した場合に、第２の対象の色を第３の対象の前記目標位置における色に変換して、このように第２の対象と第３の対象との融合度をより高め、第２の対象が第３の対象の一部であるように見えるようにして、より現実的にすることができる。

本開示の実施例には、画像処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体が開示されている。そのうち、この画像処理方法は、第１のビデオフレーム画像における第１の対象と、前記第１の対象内に位置する第２の対象とを識別することと、前記第１の対象の前記第１のビデオフレーム画像における位置に基づいて、第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、前記第３の対象が前記第１の対象を覆った第２のビデオフレーム画像を得ることと、前記第２の対象の前記第１のビデオフレーム画像における位置に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ることと、を含む。上記方法により、従来技術における、対象上にオーバーレイしたエフェクトが対象の本来の特徴を表すことができないことに起因する現実感に欠けるという技術課題を解決した。

以上、上記方法の実施例における各ステップを上述した順序で説明したが、本開示の実施例におけるステップは必ずしも上述した順序で実行される必要はなく、逆順、並列、交差などの他の順序で実行されてもよいことは当業者にとって自明であり、さらに、上述したステップを基にして、当業者は、他のステップを追加してもよく、これらの明らかな変形又は同等な置換の方式は、本開示の保護範囲に含まれるべきであり、ここではこれ以上説明しない。

図５は本開示の実施例による画像処理装置の実施例の構造模式図である。図５に示すように、この装置５００は、対象識別モジュール５０１と、第２のビデオフレーム画像生成モジュール５０２と、第３のビデオフレーム生成モジュール５０３とを含む。そのうち、
対象識別モジュール５０１は、第１のビデオフレーム画像における第１の対象と、前記第１の対象内に位置する第２の対象とを識別するためのものであり、
第２のビデオフレーム画像生成モジュール５０２は、前記第１の対象の前記第１のビデオフレーム画像における位置に基づいて、第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、前記第３の対象が前記第１の対象を覆った第２のビデオフレーム画像を得るためのものであり、
第３のビデオフレーム生成モジュール５０３は、前記第２の対象の前記第１のビデオフレーム画像における位置に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得るためのものである。

さらに、前記対象識別モジュール５０１は、さらに、
前記第１のビデオフレーム画像において前記第１の対象の複数の第１のキーポイントと前記第２の対象の複数の第２のキーポイントとを識別することと、
前記第１の対象の複数の第１のキーポイントに基づいて前記第１の対象を識別することと、
前記第２の対象のエッジキーポイントである前記第２の対象の複数の第２のキーポイントに基づいて、前記第２の対象を識別することと、に用いられる。

さらに、前記第２のビデオフレーム画像生成モジュール５０２は、
前記第１のビデオフレーム画像における前記第１の対象の複数の第１のキーポイントに基づいて、前記第１のビデオフレーム画像における前記第１の対象のポジショニングポイントを算出することと、
前記第３の対象のポジショニングポイントと、前記第１のビデオフレーム画像における前記第１の対象のポジショニングポイントとをアライメントすることにより、前記第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、前記第２のビデオフレーム画像を得ることと、を含む。

さらに、前記第２のビデオフレーム画像生成モジュール５０２は、さらに、
前記第１の対象上に予め設定された２つのキーポイント間の第１の距離を算出することと、
前記第１の距離に基づいて、前記第２の対象のオフセット量を算出することと、
前記第２の対象の前記第１のビデオフレーム画像における位置及び前記第２の対象のオフセット量に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ることと、に用いられる。

さらに、前記の、前記第１の距離に基づいて、前記第２の対象のオフセット量を算出することは、
前記第１の対象のヨー角とピッチ角とを取得し、そのうち、前記ヨー角は、前記第１の対象の前記第１のビデオフレーム画像における向きとレンズ撮影方向との水平夾角であり、前記ピッチ角は、第１の対象の前記第１のビデオフレーム画像における向きとレンズ撮影方向との垂直夾角であることと、
前記第１の距離、ヨー角及びピッチ角に基づいて前記第２の対象のオフセット量を算出することと、を含む。

さらに、前記の、前記第２の対象の前記第１のビデオフレーム画像における位置及び前記第２の対象のオフセット量に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ることは、
前記第２の対象のオフセット量に基づいて、前記第２の対象の前記第１のビデオフレーム画像における初期ポジショニングポイントを位置シフトさせて目標ポジショニングポイントを得ることと、
前記第２のビデオフレーム画像において、前記第２の対象を前景画像として前記目標ポジショニングポイントの位置にレンダリングして、前記第３のビデオフレーム画像を得ることと、を含む。

さらに、前記画像処理装置５００は、
前記第３のビデオフレーム画像における第２の対象及び第３の対象の色空間をＲＧＢ色空間からＨＳＶ色空間に変換することと、前記第２の対象のＨＳＶ色空間におけるＨチャネルの値を前記第３の対象のＨチャネルの値に置き換えることと、前記第２の対象及び第３の対象の色空間をＨＳＶ空間からＲＧＢ色空間に変換して第４のビデオフレーム画像を得ることと、に用いられる第４のビデオ画像生成モジュールをさらに含む。

図５に示す装置は、図１～図４に示す実施例の方法を実行することができ、本実施例に詳細に説明されていない部分については、図１～図４に示す実施例に関する説明を参照することができる。該技術案の実行手順及び技術効果については、図１～図４に示す実施例の説明を参照することができ、ここではこれ以上説明しない。

以下、本開示の実施例を実現することに適合する電子機器（例えば、図１における端末機器又はサーバ）６００の構造模式図を示す図６を参照する。本開示の実施例中の端末機器は、例えば、携帯電話、ノートパソコン、デジタル放送受信機、ＰＤＡ（パーソナルデジタルアシスタント）、ＰＡＤ（タブレット）、ＰＭＰ（可搬式マルチメディア再生機）、車載端末（例えば、車載ナビゲーション端末）などの携帯端末、及び例えばデジタルＴＶ、デスクトップコンピュータなどの固定端末を含み得るが、それらに限らない。図６に示された電子機器は一例に過ぎず、本開示の実施例の機能及び使用範囲に何の制限も加えない。

図６に示すように、電子機器６００は処理装置（例えば、中央処理装置、グラフィックプロセッサーなど）６０１を含んでもよく、それはリードオンリメモリ（ＲＯＭ）６０２に記憶されたプログラム又は記憶装置６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたプログラムによって各種の適切な動作及び処理を実行することができる。ＲＡＭ６０３には、電子機器６００の操作に必要な各種のプログラムとデータが記憶されている。処理装置６０１、ＲＯＭ６０２及びＲＡＭ６０３は、バス６０４を介して相互に接続される。入力／出力（Ｉ／Ｏ）インタフェース６０５もバス６０４に接続される。

一般的には、例えばタッチスクリーン、タッチパネル、キーボード、マウス、カメラヘッド、マイクロホン、加速度計、ジャイロなどを含む入力装置６０６と、例えば液晶ディスプレイー（ＬＣＤ）、スピーカー、発振器などを含む出力装置６０７と、例えば磁気テープ、ハードディスクなどを含む記憶装置６０８と、通信装置６０９と、がＩ／Ｏインタフェース６０５に接続されていてもよい。通信装置６０９は、電子機器６００が他のデバイスと無線又は有線通信してデータを交換することを許可することができる。図６に各種の装置を備えた電子機器６００が示されているが、示された装置の全てを実施したり具備したりすることを要求する意図がないことを理解されたい。それ以上又は以下の装置を代替的に実施したり具備したりすることが可能である。

特に、本開示の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それは非一時的なコンピュータ読み取り可能な媒体に搭載されたコンピュータプログラムを含み、当該コンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムは通信装置６０９によってネットワークからダウンロード及びインストールされ、又は記憶装置６０８からインストールされ、又はＲＯＭ６０２からインストールされ得る。該コンピュータプログラムが処理装置６０１によって実行される時に、本開示の実施例の方法で限定された上記機能が実行される。

なお、本開示における上記コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、又はコンピュータ読み取り可能な記憶媒体、又は上記両者の任意の組み合わせであってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気、磁気、光、電磁、赤外線又は半導体のシステム、装置又はデバイス、或いはこれらの任意の組み合わせであってもよいが、それらに限らない。コンピュータ読み取り可能な記憶媒体は、より具体的な例として、１つ又は複数の導線を有する電気接続、携帯型コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置又はこれらの任意の適切な組み合わせを含んでもよいが、それらに限らない。本開示では、コンピュータ読み取り可能な記憶媒体は、プログラムを含む或いは記憶するいかなる有形媒体であってもよく、該プログラムはコマンド実行システム、装置又はデバイスに使用されるか、それらと組み合わせて使用されることが可能である。本開示では、コンピュータ読み取り可能な信号媒体は、ベースバンドで伝播されるデータ信号又は搬送波の一部として伝播されるデータ信号を含んでもよく、その中にコンピュータ読み取り可能なプログラムコードを搭載した。このように伝播されるデータ信号は多種の形式を採用してもよく、電磁信号、光信号又はこれらの任意の適切な組み合わせを含むが、それらに限らない。コンピュータ読み取り可能な信号媒体は、更にコンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、該コンピュータ読み取り可能な信号媒体は、コマンド実行システム、装置又はデバイスに使用されるかそれらと組み合わせて使用されるプログラムを送信、伝播又は伝送することができる。コンピュータ読み取り可能な媒体に含まれるプログラムコードは任意の適切な媒体で伝送可能であり、電線、光ケーブル、ＲＦ（ラジオ周波数）など、又はこれらの任意の適切な組み合わせを含んでもよいが、それらに限らない。

いくつかの実施形態において、クライアント、サーバは、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ、ハイパーテキスト転送プロトコル）などの任意の現在既知の又は将来開発されるネットワークプロトコルを用いて通信することができ、任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）と相互接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（「ＬＡＮ」）、広域ネットワーク（「ＷＡＮ」）、インターネット（例えば、Ｉｎｔｅｒｎｅｔ）及びエンドツーエンドネットワーク（例えば、ａｄｈｏｃエンドツーエンドネットワーク）、並びに現在既知の又は将来開発される任意のネットワークを含む。

上記コンピュータ読み取り可能な媒体は上記電子機器に含まれるものであってもよいし、該電子機器に実装されていなく単独したものであってもよい。

上記コンピュータ読み取り可能な媒体には、１つ又は複数のプログラムが搭載されており、上記１つ又は複数のプログラムが該電子機器によって実行されると、該電子機器に、第１のビデオフレーム画像における第１の対象と、前記第１の対象内に位置する第２の対象とを識別することと、前記第１の対象の前記第１のビデオフレーム画像における位置に基づいて、第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、前記第３の対象が前記第１の対象を覆った第２のビデオフレーム画像を得ることと、前記第２の対象の前記第１のビデオフレーム画像における位置に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ることと、を実行させる。

本開示の操作を実行するためのコンピュータプログラムコードは、１種又は多種のプログラミング言語又はそれらの組み合わせを用いて作成されることが可能であり、上記プログラミング言語は、オブジェクト指向のプログラミング言語、例えばＪａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋を含み、更に一般の手続き型プログラミング言語、例えば「Ｃ」言語又は類似的なプログラミング言語を含むが、それらに限らない。プログラムコードは、完全にユーザコンピュータで実行されたり、部分的にユーザコンピュータで実行されたり、独立したソフトウェアパッケージとして実行されたり、一部がユーザコンピュータで一部がリモートコンピュータで実行されたり、完全にリモートコンピュータ又はサーバで実行されたりすることができる。リモートコンピュータの場合に、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意のネットワークによってユーザコンピュータに接続でき、又は、外部コンピュータに接続できる（例えば、インターネットサービスプロバイダーを用いてインターネット経由で接続する）。

添付図面のうちフローチャート及びブロック図は本開示の各種の実施例に係るシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び動作を示す。この点では、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部分を代表することができ、該モジュール、プログラムセグメント、又はコードの一部分は、指定された論理機能を実現するための１つ又は複数の実行可能命令を含む。なお、いくつかの置換としての実現では、ブロックに表記される機能は図面に付したものと異なる順序で実現されてもよい。例えば、二つの連続的に示されたブロックは実質的に基本的に並列に実行されてもよく、また、係る機能によって、それらは逆な順序で実行されてもよい場合がある。なお、ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、指定される機能又は操作を実行するハードウェアに基づく専用システムによって実現されてもよいし、又は専用ハードウェアとコンピュータ命令との組み合わせによって実現されてもよいことに注意すべきである。

本開示の実施例に係るユニットはソフトウェアで実現されてもよいし、ハードウェアで実現されてもよい。ここで、ユニットの名称は、ある場合には該ユニット自身に対する限定とはならない。

本明細書で上述された機能は、少なくとも部分的に１つ又は複数のハードウェア論理構成要素によって実行され得る。例えば、使用可能な例示的なハードウェア論理構成要素は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブル論理装置（ＣＰＬＤ）などを含むが、それらに限らない。

本開示の説明において、機器読み取り可能な媒体は、有形媒体であってもよく、コマンド実行システム、装置又はデバイスによって使用され、もしくはコマンド実行システム、装置又はデバイスと組み合わせて使用されるプログラムを含んだり記憶したりすることができる。機器読み取り可能な媒体は、機器読み取り可能な信号媒体又は機器読み取り可能な記憶媒体であり得る。機器読み取り可能な媒体は、電子的、磁気的、光学的、電磁的、赤外線の媒体、又は半導体システム、装置もしくはデバイス、又は上記の任意の好適な組み合わせを含み得るが、それらに限らない。機器読み取り可能な記憶媒体のより具体的な例は、１つ又は複数の配線に基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。

本開示の実施例は、コンピュータによって実行されると前記コンピュータに本開示の実施例による画像処理方法を実行させるコンピュータプログラムをさらに提供する。

本開示の１つ又は複数の実施例によれば、
第１のビデオフレーム画像における第１の対象と、前記第１の対象内に位置する第２の対象とを識別することと、
前記第１の対象の前記第１のビデオフレーム画像における位置に基づいて、第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、第２のビデオフレーム画像を得ることであって、そのうち、前記第２のビデオフレーム画像において前記第３の対象が前記第１の対象を覆ったことと、
前記第２の対象の前記第１のビデオフレーム画像における位置に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ることと、を含む画像処理方法を提供する。
さらに、前記の、第１のビデオフレーム画像における第１の対象と、前記第１の対象内に位置する第２の対象とを識別することは、
前記第１のビデオフレーム画像において前記第１の対象の複数の第１のキーポイントと前記第２の対象の複数の第２のキーポイントとを識別することと、
前記第１の対象の複数の第１のキーポイントに基づいて前記第１の対象を識別することと、
前記第２の対象の複数の第２のキーポイントに基づいて、前記第２の対象を識別することであって、そのうち、前記複数の第２のキーポイントは前記第２の対象のエッジキーポイントであることと、を含む。

さらに、前記の、前記第１の対象の前記第１のビデオフレーム画像における位置に基づいて、第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、第２のビデオフレーム画像を得ることは、
前記第１のビデオフレーム画像における前記第１の対象の複数の第１のキーポイントに基づいて、前記第１のビデオフレーム画像における前記第１の対象のポジショニングポイントを算出することと、
前記第３の対象のポジショニングポイントと、前記第１のビデオフレーム画像における前記第１の対象のポジショニングポイントとをアライメントすることにより、前記第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、前記第２のビデオフレーム画像を得ることと、を含む。

さらに、前記の、前記第２の対象の前記第１のビデオフレーム画像における位置に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ることは、
前記第１の対象上に予め設定された２つのキーポイント間の第１の距離を算出することと、
前記第１の距離に基づいて、前記第２の対象のオフセット量を算出することと、
前記第２の対象の前記第１のビデオフレーム画像における位置及び前記第２の対象のオフセット量に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ることと、を含む。

さらに、第３のビデオフレーム画像を得た後、
前記第３のビデオフレーム画像における第２の対象及び第３の対象の色空間を、ＲＧＢ色空間からＨＳＶ色空間に変換することと、
前記第２の対象のＨＳＶ色空間におけるＨチャネルの値を前記第３の対象のＨチャネルの値に置き換えることと、
前記第２の対象及び第３の対象の色空間をＨＳＶ空間からＲＧＢ色空間に変換して第４のビデオフレーム画像を得ることと、をさらに含む。

本開示の１つ又は複数の実施例によれば、
第１のビデオフレーム画像における第１の対象と、前記第１の対象内に位置する第２の対象とを識別するための対象識別モジュールと、
前記第１の対象の前記第１のビデオフレーム画像における位置に基づいて、第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、前記第３の対象が前記第１の対象を覆った第２のビデオフレーム画像を得るための第２のビデオフレーム画像生成モジュールと、
前記第２の対象の前記第１のビデオフレーム画像における位置に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得るための第３のビデオフレーム生成モジュールと、を含む画像処理装置を提供する。

さらに、前記対象識別モジュールは、さらに、
前記第１のビデオフレーム画像において前記第１の対象の複数の第１のキーポイントと前記第２の対象の複数の第２のキーポイントとを識別することと、
前記第１の対象の複数の第１のキーポイントに基づいて前記第１の対象を識別することと、
前記第２の対象の複数の第２のキーポイントに基づいて、前記第２の対象を識別することであって、そのうち、前記複数の第２のキーポイントは前記第２の対象のエッジキーポイントであることと、に用いられる。

さらに、前記第２のビデオフレーム画像生成モジュールは、
前記第１のビデオフレーム画像における前記第１の対象の複数の第１のキーポイントに基づいて、前記第１のビデオフレーム画像における前記第１の対象のポジショニングポイントを算出することと、
前記第３の対象のポジショニングポイントと、前記第１のビデオフレーム画像における前記第１の対象のポジショニングポイントとをアライメントすることにより、前記第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、前記第２のビデオフレーム画像を得ることと、を含む。

さらに、前記第２のビデオフレーム画像生成モジュールは、さらに、
前記第１の対象上に予め設定された２つのキーポイント間の第１の距離を算出することと、
前記第１の距離に基づいて、前記第２の対象のオフセット量を算出することと、
前記第２の対象の前記第１のビデオフレーム画像における位置及び前記第２の対象のオフセット量に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ることと、に用いられる。

さらに、前記画像処理装置は、
前記第３のビデオフレーム画像における第２の対象及び第３の対象の色空間をＲＧＢ色空間からＨＳＶ色空間に変換することと、前記第２の対象のＨＳＶ色空間におけるＨチャネルの値を前記第３の対象のＨチャネルの値に置き換えることと、前記第２の対象及び第３の対象の色空間をＨＳＶ空間からＲＧＢ色空間に変換して第４のビデオフレーム画像を得ることと、に用いられる第４のビデオ画像生成モジュールを、さらに含む。

本開示の１つ又は複数の実施例によれば、コンピュータによって実行されると前記コンピュータに本開示の実施例による画像処理方法を実行させるコンピュータプログラムを提供する。
上述したのは本開示の実施例及び適用する技術原理の説明に過ぎない。本開示に係る開示の範囲は、上記技術特徴の特定組合による技術案に限定されなく、上記開示の構想を逸脱することなく上記技術特徴又はそれと同等な特徴を任意に組み合わせて形成した他の技術案をも含むべきであることは、当業者にとって自明である。例えば、上記特徴と本開示に開示された（それらに限らない）類似的な機能を有する技術的特徴を互いに取り替えて形成した技術案をも含む。
また、各操作は、特定の順序で記述されているが、これは、そのような操作が、示されている特定の順序で又は順次的な順序で実行されることを求めていると理解されるべきではない。一定の環境では、マルチタスク及び並行処理が有利であり得る。同様に、若干の具体的な実現の詳細が上記の記述に含まれているが、それらは、本開示の範囲を制限するものとして解釈されるべきではない。単一の実施例のコンテキストで記載されている特定の特徴は、単一の実施例において組み合わせて実現可能である。逆に、単一の実施例のコンテキストで記載されている様々な特徴は、複数の実施例で別々に、又は何らかの適切なサブコンビネーションで実現可能でもある。

本主題は、構造的特徴及び／又は方法論理動作に特有の言語で記述されたが、添付の特許請求の範囲に限定された主題は、必ずしも上記で記述された特定の特徴又は動作に限定されないことを理解されたい。むしろ、上述された特定の特徴及び動作は、特許請求の範囲を実現する例示的な形態に過ぎない。

Claims

第１のビデオフレーム画像における第１の対象と、前記第１の対象内に位置する第２の対象とを識別することと、
前記第１の対象の前記第１のビデオフレーム画像における位置に基づいて、第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、第２のビデオフレーム画像を得ることであって、そのうち、前記第２のビデオフレーム画像において前記第３の対象が前記第１の対象を覆ったことと、
前記第２の対象の前記第１のビデオフレーム画像における位置に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ることと、を含む画像処理方法。
前記の第１のビデオフレーム画像における第１の対象と、前記第１の対象内に位置する第２の対象とを識別することは、
前記第１のビデオフレーム画像において前記第１の対象の複数の第１のキーポイントと前記第２の対象の複数の第２のキーポイントとを識別することと、
前記第１の対象の複数の第１のキーポイントに基づいて前記第１の対象を識別することと、
前記第２の対象の複数の第２のキーポイントに基づいて、前記第２の対象を識別することであって、そのうち、前記複数の第２のキーポイントは前記第２の対象のエッジキーポイントであることと、を含む請求項１に記載の画像処理方法。
前記の前記第１の対象の前記第１のビデオフレーム画像における位置に基づいて、第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、第２のビデオフレーム画像を得ることは、
前記第１のビデオフレーム画像における前記第１の対象の複数の第１のキーポイントに基づいて、前記第１のビデオフレーム画像における前記第１の対象のポジショニングポイントを算出することと、
前記第３の対象のポジショニングポイントと、前記第１のビデオフレーム画像における前記第１の対象のポジショニングポイントとをアライメントすることにより、前記第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、前記第２のビデオフレーム画像を得ることと、を含む請求項２に記載の画像処理方法。
前記の前記第２の対象の前記第１のビデオフレーム画像における位置に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ることは、
前記第１の対象上に予め設定された２つのキーポイント間の第１の距離を算出することと、
前記第１の距離に基づいて、前記第２の対象のオフセット量を算出することと、
前記第２の対象の前記第１のビデオフレーム画像における位置及び前記第２の対象のオフセット量に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ることと、を含む請求項１～３のいずれか１項に記載の画像処理方法。
前記の前記第１の距離に基づいて、前記第２の対象のオフセット量を算出することは、
前記第１の対象のヨー角とピッチ角とを取得することであって、そのうち、前記ヨー角は、前記第１の対象の前記第１のビデオフレーム画像における向きとレンズ撮影方向との水平夾角であり、前記ピッチ角は、第１の対象の前記第１のビデオフレーム画像における向きとレンズ撮影方向との垂直夾角であることと、
前記第１の距離、ヨー角及びピッチ角に基づいて前記第２の対象のオフセット量を算出することと、を含む請求項４に記載の画像処理方法。
前記の前記第２の対象の前記第１のビデオフレーム画像における位置及び前記第２の対象のオフセット量に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ることは、
前記第２の対象のオフセット量に基づいて、前記第２の対象の前記第１のビデオフレーム画像における初期ポジショニングポイントを位置シフトさせて目標ポジショニングポイントを得ることと、
前記第２のビデオフレーム画像において、前記第２の対象を前景画像として前記目標ポジショニングポイントの位置にレンダリングして、前記第３のビデオフレーム画像を得ることと、を含む請求項４又は５に記載の画像処理方法。
第３のビデオフレーム画像を得た後、
前記第３のビデオフレーム画像における第２の対象及び第３の対象の色空間を、ＲＧＢ色空間からＨＳＶ色空間に変換することと、
前記第２の対象のＨＳＶ色空間におけるＨチャネルの値を前記第３の対象のＨチャネルの値に置き換えることと、
前記第２の対象及び第３の対象の色空間をＨＳＶ空間からＲＧＢ色空間に変換して第４のビデオフレーム画像を得ることと、をさらに含む請求項１～６のいずれか１項に記載の画像処理方法。
第１のビデオフレーム画像における第１の対象と、前記第１の対象内に位置する第２の対象とを識別するための対象識別モジュールと、
前記第１の対象の前記第１のビデオフレーム画像における位置に基づいて、第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、前記第３の対象が前記第１の対象を覆った第２のビデオフレーム画像を得るための第２のビデオフレーム画像生成モジュールと、
前記第２の対象の前記第１のビデオフレーム画像における位置に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得るための第３のビデオフレーム生成モジュールと、を含む画像処理装置。
前記対象識別モジュールは、さらに、
前記第１のビデオフレーム画像において前記第１の対象の複数の第１のキーポイントと前記第２の対象の複数の第２のキーポイントとを識別することと、
前記第１の対象の複数の第１のキーポイントに基づいて前記第１の対象を識別することと、
前記第２の対象の複数の第２のキーポイントに基づいて、前記第２の対象を識別することであって、そのうち、前記複数の第２のキーポイントは前記第２の対象のエッジキーポイントであることと、に用いられる請求項８に記載の画像処理装置。
前記第２のビデオフレーム画像生成モジュールは、
前記第１のビデオフレーム画像における前記第１の対象の複数の第１のキーポイントに基づいて、前記第１のビデオフレーム画像における前記第１の対象のポジショニングポイントを算出することと、
前記第３の対象のポジショニングポイントと、前記第１のビデオフレーム画像における前記第１の対象のポジショニングポイントとをアライメントすることにより、前記第３の対象を前景画像として前記第１のビデオフレーム画像上にオーバーレイして、前記第２のビデオフレーム画像を得ることと、を含む請求項９に記載の画像処理装置。
前記第２のビデオフレーム画像生成モジュールは、さらに、
前記第１の対象上に予め設定された２つのキーポイント間の第１の距離を算出することと、
前記第１の距離に基づいて、前記第２の対象のオフセット量を算出することと、
前記第２の対象の前記第１のビデオフレーム画像における位置及び前記第２の対象のオフセット量に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ることと、に用いられる請求項８～１０のいずれか１項に記載の画像処理装置。
前記の前記第１の距離に基づいて、前記第２の対象のオフセット量を算出することは、
前記第１の対象のヨー角とピッチ角とを取得することであって、そのうち、前記ヨー角は、前記第１の対象の前記第１のビデオフレーム画像における向きとレンズ撮影方向との水平夾角であり、前記ピッチ角は、第１の対象の前記第１のビデオフレーム画像における向きとレンズ撮影方向との垂直夾角であることと、
前記第１の距離、ヨー角及びピッチ角に基づいて前記第２の対象のオフセット量を算出することと、を含む請求項１１に記載の画像処理装置。
前記の前記第２の対象の前記第１のビデオフレーム画像における位置及び前記第２の対象のオフセット量に基づいて、前記第２の対象を前景画像として前記第２のビデオフレーム画像における第３の対象上に重ね合わせて、第３のビデオフレーム画像を得ることは、
前記第２の対象のオフセット量に基づいて、前記第２の対象の前記第１のビデオフレーム画像における初期ポジショニングポイントを位置シフトさせて目標ポジショニングポイントを得ることと、
前記第２のビデオフレーム画像において、前記第２の対象を前景画像として前記目標ポジショニングポイントの位置にレンダリングして、前記第３のビデオフレーム画像を得ることと、を含む請求項１１又は１２に記載の画像処理装置。
前記第３のビデオフレーム画像における第２の対象及び第３の対象の色空間をＲＧＢ色空間からＨＳＶ色空間に変換することと、前記第２の対象のＨＳＶ色空間におけるＨチャネルの値を前記第３の対象のＨチャネルの値に置き換えることと、前記第２の対象及び第３の対象の色空間をＨＳＶ空間からＲＧＢ色空間に変換して第４のビデオフレーム画像を得ることと、に用いられる第４のビデオ画像生成モジュールを、さらに含む請求項８～１３のいずれか１項に記載の画像処理装置。
コンピュータ読み取り可能な命令を記憶するためのメモリと、
前記コンピュータ読み取り可能な命令を実行するためのプロセッサであって、前記プロセッサが実行すると請求項１～７のいずれか１項に記載の画像処理方法を実現させるプロセッサと、を含む電子機器。
コンピュータ読み取り可能な命令を記憶するために用いられ、前記コンピュータ読み取り可能な命令がコンピュータによって実行されると、前記コンピュータに請求項１～７のいずれか１項に記載の画像処理方法を実行させる、非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータによって実行されると、前記コンピュータに請求項１～７のいずれか１項に記載の画像処理方法を実行させることを特徴とするコンピュータプログラム。