JP7270761B2

JP7270761B2 - 画像処理方法及び装置、電子機器並びにコンピュータプログラム

Info

Publication number: JP7270761B2
Application number: JP2021555830A
Authority: JP
Inventors: ▲遠▼力 ▲鄭▼; 照▲鵬▼ ▲顧▼; 年▲華▼ ▲謝▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-10
Filing date: 2020-08-27
Publication date: 2023-05-10
Anticipated expiration: 2040-08-27
Also published as: EP3923248A1; CN110599605A; CN110599605B; US20230075270A1; EP3923248A4; WO2021047396A1; JP2022524891A; US11538229B2; US20210183165A1

Description

本願は、２０１９年９月１０日に提出された出願番号が２０１９１０８５４８７７．Ｘであり、発明の名称が「画像処理方法及び装置、電子機器並びにコンピュータ可読記憶媒体」である中国特許出願の優先権を主張する。

本開示は、コンピュータ及び通信の技術分野に関し、具体的には、画像処理方法及び装置、電子機器並びにコンピュータ可読記憶媒体に関する。

ビジョン技術による広告挿入（ｖｉｄｅｏ－ｉｎａｄｖｅｒｔｉｓｅｍｅｎｔ）は、作成されたビデオに広告をコンピュータビジョン技術によってインテリジェントに挿入する技術であり、ビデオ前後で広告を挿入したり、販売広告ビデオが浮かび上がるように表示したりする等のような従来のビデオ技術に比べて、ユーザ体験がより良好で、集客量がより多い等の利点を有し、国内外で開発の焦点の技術手段となっている。

説明すべきは、上記の背景技術部分に開示されている情報は、本開示の背景に対して理解を深めるためのものに過ぎないため、当業者の既知の従来技術にならない情報を含み得る。

本開示の実施例は、画像処理方法及び装置、電子機器並びにコンピュータ可読記憶媒体を提供し、ビデオにリンク表示モデルを挿入する効率及び効果を高めることができる。

本開示の他の特性及び利点は以下の詳細な説明から明らかになり、又は部分的に本開示の実践によって習得できる。

本開示の一態様によれば、画像処理方法を提供し、前記方法は、処理対象ビデオを取得するステップであって、前記処理対象ビデオはｍフレームの画像を含み、ｍは２以上の正整数であるステップと、前記処理対象ビデオの第１フレームの画像の目標平面に目標三次元モデルを配置するステップであって、前記目標三次元モデルの目標面の複数の特徴点は前記目標平面上にあるステップと、前記目標面の複数の特徴点の、世界座標系における三次元座標及び前記第１フレームの画像における画素座標を特定するステップと、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第１フレームの画像における画素座標に基づき、前記世界座標系に対する前記第１フレームの画像のカメラ座標系の位置姿勢を特定するステップと、前記目標平面、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第１フレームの画像における画素座標に基づき、前記世界座標系に対する前記処理対象ビデオの第２フレームの画像～第ｍフレームの画像のカメラ座標系の位置姿勢を特定するステップと、前記目標三次元モデルを目標リンク表示モデルに置き換えて前記世界座標系に配置し、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを含む目標ビデオを生成するステップと、を含む。

本開示の一態様によれば、画像処理装置を提供し、前記装置は、処理対象ビデオを取得するように構成される処理ビデオ取得モジュールであって、前記処理対象ビデオはｍフレームの画像を含み、ｍは２以上の正整数である処理ビデオ取得モジュールと、前記処理対象ビデオの第１フレームの画像の目標平面に目標三次元モデルを配置するように構成される三次元モデル配置モジュールであって、前記目標三次元モデルの目標面の複数の特徴点は前記目標平面上にある三次元モデル配置モジュールと、前記目標面の複数の特徴点の、世界座標系における三次元座標及び前記第１フレームの画像における画素座標を特定するように構成される第１座標特定モジュールと、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第１フレームの画像における画素座標に基づき、前記世界座標系に対する前記第１フレームの画像のカメラ座標系の位置姿勢を特定するように構成される第１位置姿勢特定モジュールと、前記目標平面、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第１フレームの画像における画素座標に基づき、前記世界座標系に対する前記処理対象ビデオの第２フレームの画像～第ｍフレームの画像のカメラ座標系の位置姿勢を特定するように構成される第２位置姿勢特定モジュールと、前記目標三次元モデルを目標リンク表示モデルに置き換えて前記世界座標系に配置し、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを含む目標ビデオを生成するように構成される目標ビデオ生成モジュールと、を含む。

本開示の実施例の一態様によれば、プロセッサによって実行されると上記実施例に記載の画像処理方法を実現するコンピュータプログラムを記憶したコンピュータ可読記憶媒体を提供する。

本開示の実施例の一態様によれば、１つ又は複数のプロセッサと、前記１つ又は複数のプロセッサによって実行されると、前記１つ又は複数のプロセッサに上記実施例に記載の画像処理方法を実現させる１つ又は複数のプログラムを記憶するように構成される記憶装置と、を含む電子機器を提供する。

本開示のいくつかの実施例により提供される技術的解決手段において、処理対象ビデオの第１フレームの画像に１つの目標三次元モデルを入れ、該目標三次元モデルを該第１フレームの画像内の１つの目標平面に配置することで、カメラ座標系に対する該第１フレームの画像における目標三次元モデルの位置姿勢を算出し、該目標平面に対する追跡により、カメラ座標系に対する該処理対象ビデオの後の各フレームの画像における目標三次元モデルの位置姿勢を算出することができ、その後、該処理対象ビデオにおける目標三次元モデルを目標リンク表示モデルに置き換えれば、該処理対象ビデオの各フレームの画像に該目標リンク表示モデルを自動的に挿入することができ、もう一方、目標平面を追跡する方式を用いたため、処理対象ビデオにおける画像の特徴点に対する計算に依存せず、視差が大きいビデオを必要とせず、計算量が小さく、速度が速く、操作しやすく、正確性が高く、より多様なビデオに適用でき、ビデオに目標リンク表示モデルを挿入する効率及び効果を高めることができる。

なお、以上の一般説明と以下の詳細説明は解釈するための例示的なものに過ぎず、本開示を制限しないことを理解すべきである。

本開示の実施例の画像処理方法又は画像処理装置を適用できる例示的なシステムアーキテクチャの模式図を示す。本開示の実施例の実現に適する電子機器のコンピュータシステムの構成図を示す。本開示の一実施例に係る画像処理方法のフローチャートを模式的に示す。本開示の別の実施例に係る画像処理方法のフローチャートを模式的に示す。図３に示すステップＳ３２０の一実施例における処理プロセスの模式図を示す。図３に示すステップＳ３３０の一実施例における処理プロセスの模式図を示す。図６に示すステップＳ３３１の一実施例における処理プロセスの模式図を示す。図３に示すステップＳ３５０の一実施例における処理プロセスの模式図を示す。図３に示すステップＳ３６０の一実施例における処理プロセスの模式図を示す。本開示のさらに別の実施例に係る画像処理方法のフローチャートを模式的に示す。本開示の一実施例に係る立方体及びその世界座標系の模式図を模式的に示す。本開示の一実施例に係る立方体の頂点をドラッグすることで立方体の位置姿勢を制御することを示す模式図である。本開示の一実施例に係る立方体を回転することで立方体の位置姿勢を制御することを示す模式図である。本開示の一実施例に係る立方体の所在する目標平面を追跡することを示す模式図である。本開示の一実施例に係る各フレームの画像における立方体を表示することを示す模式図である。本開示の一実施例に係る各フレームの画像において三次元広告を合成することを示す模式図である。本開示の一実施例に係る画像処理装置のブロック図を模式的に示す。

ここの図面は、明細書に組み込まれて本明細書の一部を構成し、本開示に合致する実施例を示し、明細書と共に本開示の原理を解釈することに用いられる。当然ながら、上述した図面は本開示の実施例の一部に過ぎず、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面に想到し得る。

次に、図面を参照しながら、例示的実施形態をさらに詳しく説明する。しかし、例示的実施形態は様々な形態で実施することができ、且つ本明細書で説明される例に限定されると解釈されるべきではなく、むしろ、これらの実施形態は、本開示が十分且つ完全になるために、しかも例示的実施形態の思想を当業者に十分に伝えるように、提供される。

また、説明した特徴、構成又は特性は任意の適切な方法により、１つ又は多数の実施例に組み合わせられてもよい。以下の説明において、本開示の実施例を十分に理解できるように、多くの具体的な細部が述べられる。しかし、当業者であれば、１つ又は多数の特定の細部なくても、又は他の方法、要素、装置、ステップ等により、本開示の技術的解決手段を実施できることが認識される。この他、本開示の各態様を紛らわしくさせないために、公知の方法、装置、実施又は操作は詳細に表示又は記載しない。

図面に示すブロック図は機能エンティティに過ぎず、必ずしも物理的に独立したエンティティに対応する必要はない。つまり、ソフトウェアの形式でこれらの機能エンティティを実現してもよく、又は１つ又は複数のハードウェアモジュール又は集積回路においてこれらの機能エンティティを実現してもよく、又は異なるネットワーク及び／又はプロセッサ装置及び／又はマイクロコントローラ装置においてこれらの機能エンティティを実現してもよい。

図面に示すフローチャートは例示的な説明に過ぎず、必ずしも全ての内容及び操作／ステップを含む必要はなく、必ずしも説明された順序で行う必要もない。例えば、一部の操作／ステップが分解してもよく、一部の操作／ステップが統合又は部分的に統合してもよいため、実際の実行順は実際の状況に応じて変更し得る。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ：ＡＩと略称）は、デジタルコンピュータ又はデジタルコンピュータに制御される機械を用いて人間の知能をシミュレーション、延長及び拡張し、環境を知覚し、知識を取得して使用することで最良の結果を得る理論、方法、技術及び応用システムである。言い換えれば、人工知能はコンピュータ科学の総合技術であり、知能の本質を理解し、人間知能と同様な方式で反応できる新たな知能機械を創出することを意図するものである。つまり、人工知能は様々な知能機械の設計原理と実現方法を研究し、機械に知覚、推論及び意思決定の機能を備えるものである。

人工知能技術は総合学科であり、広範な技術が関連し、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能の基本的技術は一般的にセンサ、特化型人工知能チップ、クラウドコンピューティング、分散記憶、ビッグデータの処理技術、操作／対話システム、電気機械一体化等の技術を含む。人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習／深層学習等の研究方向がある。

コンピュータビジョン技術（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ：ＣＶと略称）はどのように機械に「見る」という動作をさせるかについて研究する科学であり、さらに言えば、人の目に代えてカメラ及びコンピュータで目標に対して認識、追跡及び測定する等のマシンビジョン処理を行い、更なる画像処理を行い、コンピュータで、人間の目での観察又は機器への送信検出に適した画像になるように処理することを意味する。科学学科としてコンピュータビジョンでは関連理論及び技術を研究し、画像又は多次元データから情報を取得可能な人工知能システムを確立しようとしている。コンピュータビジョン技術は一般的に画像処理、画像認識、画像意味解析、画像検索、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ：光学文字認識）、ビデオ処理、ビデオ意味解析、ビデオ内容／行動認識、三次元物体の再構成、３Ｄ（３ｄｉｍｅｎｓｉｏｎ：三次元）技術、仮想現実、拡張現実、同期測位及び地図作成等の技術を含み、一般的な顔認識、指紋認識等の生体特徴認識技術も含む。

機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ：ＭＬと略称）は複数の分野を横断する総合的な学科であり、確率論、統計学、近似論、凸解析、アルゴリズム複雑度理論等複数の学科に関わっている。コンピュータが新しい知識又はスキルを取得し、既存の知識構成を再構築して自身の性能を向上させるためにどのように人間の学習行動をシミュレート又は実現するかを専門として研究している。機械学習は人工知能の核心であり、コンピュータに知能を持たせる根本的な手段であり、人工知能の各分野にわたって応用されている。機械学習及び深層学習は一般的に人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納学習、教師あり学習等の技術を含む。

ブロックチェーンは分散データ記憶、ピアツーピア伝送、コンセンサスメカニズム、暗号化アルゴリズム等のコンピュータ技術の新規の応用形態である。ブロックチェーン（Ｂｌｏｃｋｃｈａｉｎ）は、本質的には脱中心化のデータベースであり、暗号化方法で関連付けて生じる一連のデータブロックであり、各データブロックには１バッチのネットワーク取引情報が含まれ、それは情報の有効性検証（偽造防止）及び次のブロックの生成に用いられる。ブロックチェーンはブロックチェーンの下層プラットフォーム、プラットフォーム製品サービス層及びアプリケーションサービス層を含むことができる。

ブロックチェーンの下層プラットフォームはユーザ管理、基本サービス、インテリジェントコントラクト及び運営監視等の処理モジュールを含むことができる。そのうち、ユーザ管理モジュールは、公開鍵及び秘密鍵生成の維持（アカウント管理）、鍵管理及びユーザの真の身元とブロックチェーンアドレスとの対応関係の維持（権限管理）等を含むブロックチェーン参加者の身元情報管理の全てを担当し、そして許可を得た場合、一部の真の身元の取引状況を監督及び監査し、リスク管理のルールを制定する（リスク管理及び監査）。基本サービスモジュールは、全てのブロックチェーンノード機器に配置され、サービスリクエストの有効性を検証し、有効なリクエストへのコンセンサスを達成した後メモリに記憶するように構成され、新しいサービスリクエストについて、基本サービスはまず、インタフェースの適合性解析及び認証処理を行い（インタフェース適合）、次に、コンセンサスアルゴリズムによってサービス情報を暗号化し（コンセンサス管理）、暗号化後、完全一致で共有台帳へ伝送し（ネットワーク通信）、記録記憶する。インテリジェントコントラクトモジュールは、コントラクトの登録と発行、コントラクトトリガ、及びコントラクト実行を担当し、開発者があるプログラミング言語でコントラクト論理を定義し、ブロックチェーンに送信し（コントラクト登録）、コントラクト条項の論理に基づき、鍵又は他のイベントを呼び出して実行をトリガし、コントラクト論理を完了することができるほか、コントラクトのアップグレード及び登録解除の機能も提供する。運営監視モジュールは、主に製品リリース時の手配、構成の修正、コントラクト設定、クラウドアダプテーション、及び製品動作中のリアルタイム状態の視覚的出力、例えば警告、ネットワーク状況監視、ノード機器健全状態監視等を担当する。

プラットフォーム製品サービス層は、典型的なアプリケーションの基本能力及び実現アーキテクチャを提供し、開発者はこれらの基本能力を基礎として、サービス特性を積み重ね、サービス論理のブロックチェーンによる実現を達成することができる。アプリケーションサービス層は、ブロックチェーン方式に基づくアプリケーションサービスをサービス参加者用に提供する。

本願の実施例により提供される解決手段は人工知能におけるコンピュータビジョンや機械学習、及びブロックチェーン等の技術に関し、具体的には以下の実施例により説明する。

図１は、本開示の実施例の画像処理方法又は画像処理装置を適用できる例示的なシステムアーキテクチャ１００の模式図を示す。

図１に示すように、システムアーキテクチャ１００は、端末機器１０１、１０２、１０３の１つ又は複数と、ネットワーク１０４と、サーバ１０５とを含んでもよい。ネットワーク１０４は、端末機器１０１、１０２、１０３とサーバ１０５との間で通信リンクの媒体を提供するために用いられる。ネットワーク１０４は、例えば有線、無線通信リンク又は光ファイバケーブル等、各種接続タイプを含んでもよい。

図１における端末機器、ネットワーク及びサーバの数は、例示的なものに過ぎないと理解されるべきである。実現で、必要に応じて、任意の数の端末機器、ネットワーク及びサーバを有してもよい。例えば、サーバ１０５は複数のサーバからなるサーバクラスタ等であってもよい。

ユーザは、端末機器１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５と対話することで、メッセージ等を送受信することができる。端末機器１０１、１０２、１０３は表示画面を有する様々な電子機器であってもよく、ウェアラブルインテリジェントデバイス、仮想現実機器、インテリジェントホーム、スマートフォン、タブレット、携帯型コンピュータ、デスクトップコンピュータ、ジタルシネマプロジェクタ等を含むがこれらに限定されない。

サーバ１０５は様々なサービスを提供するサーバであってもよい。例えば、ユーザは端末機器１０３（端末機器１０１又は１０２であってもよい）を用いて処理対象ビデオを開き、前記処理対象ビデオの第１フレームの画像に目標三次元モデルをドラッグインし、前記目標三次元モデルの目標面の複数の特徴点が前記第１フレームの画像の目標平面上にあるように前記目標三次元モデルの位置姿勢を調整し、前記処理対象ビデオはｍフレームの画像を含み、ｍは２以上の正整数である。ユーザは端末機器１０３を用いてサーバ１０５にリクエストを送信し、サーバ１０５は、該リクエストに含まれている関連情報に基づき、前記目標面の複数の特徴点の、世界座標系における三次元座標及び前記第１フレームの画像における画素座標を取得し、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第１フレームの画像における画素座標に基づき、前記世界座標系に対する前記第１フレームの画像のカメラ座標系の位置姿勢を特定し、前記目標平面、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第１フレームの画像における画素座標に基づき、前記世界座標系に対する前記処理対象ビデオの第２フレームの画像～第ｍフレームの画像のカメラ座標系の位置姿勢を特定し、そして前記目標三次元モデルを目標リンク表示モデルに置き換えて前記世界座標系に配置し、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを含む目標ビデオを生成することができ、サーバ１０５は、該目標ビデオを端末機器１０３に返信することができ、これによって、ユーザは端末機器１０３で、前記目標リンク表示モデルを含む表示された目標ビデオを確認することができる。

別の例として、端末機器１０３（端末機器１０１又は１０２であってもよい）は、インテリジェントテレビ、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ：仮想現実）／ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ：拡張現実）ヘッドマウントディスプレイ、又はインスタントメッセンジャ、ビデオアプリケーション（ａｐｐｌｉｃａｔｉｏｎ：ＡＰＰと略称）等がインストールされた携帯端末、例えばスマートフォン、タブレットコンピュータ等であってもよく、ユーザは、該インテリジェントテレビ、ＶＲ／ＡＲヘッドマウントディスプレイ又は該インスタントメッセンジャ、ビデオＡＰＰによってサーバ１０５に様々なリクエストを送信することができる。サーバ１０５は、該リクエストに基づき、前記リクエストに応答するフィードバック情報を取得して該インテリジェントテレビ、ＶＲ／ＡＲヘッドマウントディスプレイ又は該インスタントメッセンジャ、ビデオＡＰＰに返信し、さらに該インテリジェントテレビ、ＶＲ／ＡＲヘッドマウントディスプレイ又は該インスタントメッセンジャ、ビデオＡＰＰによって返信されたフィードバック情報を表示することができる。

図２は、本開示の実施例の実現に適する電子機器のコンピュータシステムの構成図を示す。

説明すべきは、図２に示す電子機器のコンピュータシステム２００は例示的なものに過ぎず、本開示の実施例の機能及び使用範囲を一切限定しない点である。

図２に示すように、コンピュータシステム２００は、中央処理ユニット（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１を含み、それは読み取り専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）２０２に記憶されたプログラム又は記憶部２０８からランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３にロードされたプログラムによって各種の適切な動作及び処理を実行することができる。ＲＡＭ２０３には、システムの動作に必要な各種のプログラムやデータが記憶されている。ＣＰＵ２０１、ＲＯＭ２０２及びＲＡＭ２０３は、通信バス２０４を介して相互に接続される。入力／出力（Ｉ／Ｏ）インタフェース２０５も通信バス２０４に接続される。

キーボード、マウス等を含む入力部２０６と、陰極線管（ＣＲＴ：ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）等及びスピーカー等を含む出力部２０７と、ハードディスク等を含む記憶部２０８と、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ：ローカルエリアネットワーク）カード、モデム等のネットワークインタフェースカードを含む通信部２０９とがＩ／Ｏインタフェース２０５に接続されている。通信部２０９は例えばインタネットのようなネットワークを介して通信処理を行う。ドライバ２１０も必要に応じてＩ／Ｏインタフェース２０５に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等のリムーバブル媒体２１１は、必要に応じてドライバ２１０上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部２０８にインストールする。

特に、本開示の実施例によれば、以下フローチャートを参照しながら説明するプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それはコンピュータ可読記憶媒体に搭載されるコンピュータプログラムを含み、該コンピュータプログラムはフローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムは通信部２０９によってネットワークからダウンロード及びインストールされ、及び／又はリムーバブル媒体２１１からインストールされ得る。該コンピュータプログラムが中央処理ユニット（ＣＰＵ）２０１によって実行されると、本願の方法及び／又は装置で限定される各種の機能を実行する。

なお、本開示に示すコンピュータ可読記憶媒体はコンピュータ可読信号媒体、又はコンピュータ可読記憶媒体、又は上記両方の任意の組み合わせであってよい点である。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線又は半導体のシステム、装置又はデバイス、又はそれらの任意の組み合わせであってよいが、それらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、１つ又は複数の導線を有する電気的接続、携帯型コンピュータディスク、ハードディス、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ：イレーサブル・プログラマブル読み取り専用メモリ）又はフラッシュメモリ）、光ファイバー、コンパクトディスク・リード・オンリー・メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又はそれらの任意の適切な組み合わせを含んでもよいが、これらに限定されない。本開示では、コンピュータ可読記憶媒体はプログラムを含むか記憶するいかなる有形媒体であってもよく、該プログラムは命令実行システム、装置又はデバイスに使用されるか、それらと組み合わせて使用されることが可能である。本開示では、コンピュータ可読信号媒体はベースバンド内で又は搬送波の一部として伝播されるデータ信号を含んでよく、その中にコンピュータ可読プログラムコードが搭載される。このように伝播されるデータ信号は多種の形式を採用してよく、電磁信号、光信号又はそれらの任意の適切な組み合わせを含むが、それらに限定されない。コンピュータ可読信号媒体はさらにコンピュータ可読記憶媒体以外の任意のコンピュータ可読記憶媒体であってもよく、該コンピュータ可読記憶媒体は命令実行システム、装置又はデバイスに使用されるかそれらと組み合わせて使用されるプログラムを送信、伝播又は伝送することができる。コンピュータ可読記憶媒体に含まれるプログラムコードは任意の適切な媒体で伝送可能であり、無線、電線、光ケーブル、ＲＦ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、ラジオ周波数）等又はそれらの任意の適切な組み合わせを含むが、それらに限定されない。

図面のうちフローチャート及びブロック図は本開示の種々の実施例の方法、装置及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び動作を示す。この点では、フローチャート又はブロック図における各ブロックは１つのモジュール、プログラムセグメント又はコードの一部を代表することができ、上記モジュール、プログラムセグメント、又はコードの一部は指定された論理機能を実現するための１つ又は複数の実行可能命令を含む。なお、いくつかの置換としての実現形態では、ブロックに表記される機能は図面に付したものと異なる順序で実現してもよい点にも注意すべきである。例えば、２つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図又はフローチャートにおける各ブロック、及びブロック図又はフローチャートにおけるブロックの組み合わせは、指定される機能又は動作を実行するハードウェアに基づく専用システムによって実現してもよいし、又は専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。

本開示に記載の実施例に係るモジュール及び／又はユニット及び／又はサブユニットは、ソフトウェアの方式で実現されてもよく、ハードウェアの方式で実現されてもよく、記載されたモジュール及び／又はユニット及び／又はサブユニットは、プロセッサに設けてもよい。これらのモジュール及び／又はユニット及び／又はサブユニットの名称は、該モジュール及び／又はユニット及び／又はサブユニット自身を限定しない場合がある。

別の態様として、本願はさらにコンピュータ可読記憶媒体を提供し、該コンピュータ可読記憶媒体は、上記実施例に記載の電子機器に含まれるものであってもよく、又は単独で存在し、該電子機器に組み込まれていないものであってもよい。上記コンピュータ可読記憶媒体に１つ又は複数のプログラムが搭載されており、上記１つ又は複数のプログラムが該電子機器に実行されると、該電子機器に下記実施例に記載の方法を実現させる。例えば、前記電子機器は、図３、図４、図５、図６、図７、図８、図９、又は図１０に示す各ステップを実現することができる。

関連技術におけるビデオに三次元広告を挿入する方法は、一般的に三次元再構成アルゴリズムＳＬＡＭ（Ｓｉｍｕｌｔａｎｅｏｕｓｌｏｃａｌｉｚａｔｉｏｎａｎｄｍａｐｐｉｎｇ：同時測位及び地図作成、又は同時構図及び測位）又はＳＦＭ（ｓｔｒｕｃｔｕｒｅｆｒｏｍｍｏｔｉｏｎ：動き再構成）に基づき、ビデオの各フレームの画像の場面全体に対して三次元再構成を行い、三次元空間を得て、各フレームの画像のカメラ位置及び姿勢を算出する。その後、三次元広告モデルを該三次元空間に入れ、各フレームの画像に投影することで、三次元広告の挿入を実現する。

図３は、本開示の一実施例に係る画像処理方法のフローチャートを模式的に示す。本開示の実施例により提供される方法は計算処理能力を有する任意の電子機器、例えば図１の端末機器１０１、１０２、１０３の１つ又は複数及び／又はサーバ１０５によって実行され得る。

図３に示すように、本開示の実施例により提供される画像処理方法は以下のステップを含んでもよい。

ステップＳ３１０では、処理対象ビデオを取得し、前記処理対象ビデオはｍフレームの画像を含み、ｍは２以上の正整数である。

本開示の実施例において、前記処理対象ビデオは、例えば現在、何かしらの広告を挿入しようとするビデオであってよい。処理対象ビデオに対してデフレーミング処理を行うことで、そこに含ませて該広告に挿入しようとするｍフレームの画像を抽出することができるが、ここでは、前記処理対象ビデオがこのｍフレームの画像のみを含むことを限定しない。

ステップＳ３２０では、前記処理対象ビデオの第１フレームの画像の目標平面に目標三次元モデルを配置し、前記目標三次元モデルの目標面の複数の特徴点は前記目標平面上にある。

本開示の実施例において、前記第１フレームの画像は、上記抽出されたｍフレームの画像のうち、時間的に最初の１フレーム目の画像であってもよく、それを０又は１で番号付けしてもよい（以下において、１で番号付けすることを例とする）。しかし、本開示はこれに限定されず、他の実施例において、上記抽出されたｍフレームの画像のうちの任意の１フレームを該第１フレームの画像としてもよい。

本開示の実施例において、前記第１フレームの画像の目標平面とは、ユーザが該広告を配置しようとするある平面を意味し、例えば、該第１フレームの画像におけるテーブル面、腰掛け面、ピアノ面、机面、地面等のいずれか１つであってよい。

本開示の実施例において、前記目標三次元モデルは、立方体、直方体、ルービックキューブ、四角錐、球体、円柱体等のいずれか１つであってよい、本開示はこれを限定しない。さらに、前記目標三次元モデルとして、挿入対象の広告自体の三次元モデル、例えば下記実施例に記載される赤色のコーラ缶をそのまま該第１フレームの画像に入れてもよい。以下に示す例では、いずれも前記目標三次元モデルが立方体であることを例として説明する。例えば、挿入しようとする広告が赤色のコーラ缶である場合、前記目標三次元モデルとして辺長が０．１メートルの立方体を用いることができるが、本開示はこれに限定されず、入れる目標三次元モデルの寸法が挿入しようとする広告の体積寸法にほぼ適合すればよく、ユーザが挿入しようとする広告の形状及び寸法が変わったら、入れる目標三次元モデルの形状及び寸法を適宜調整することができる。ここで目標三次元モデルとして立方体を用いたのは、立方体の形状で、位置姿勢が正確であるか否かが視覚的に分かりやすく、位置や姿勢がより調整しやすいからである。

立方体を例にすると、該立方体の底面（世界座標系では、ｘ軸、ｙ軸からなる平面）を該立方体の目標面として決定し、且つ該立方体の底面の４つの頂点を４つの特徴点とし、該第１フレームの画像において立方体の位置及び姿勢（位置姿勢と略称）を調整し、該立方体の底面の４つの頂点が該目標平面上にあるようにすることができる。

説明すべきは、他の実施例において、立方体の底面を目標面として用いることに限定されず、立方体の任意の１つの面を目標面とすることができる点である。また、目標面の頂点を特徴点として用いることにも限定されず、目標面における任意の標定しやすいいくつかの特徴点を用いることができる。特徴点の数も前記で挙げた４つに限られず、例えば５つの特徴点又は６つの特徴点等であってもよい。他の三次元モデルを該目標三次元モデルとして使用する場合、その目標面は頂点を有する形状に限定されず、円形／楕円形等のような頂点を有しない形状であってもよく、例えば、円柱体を目標三次元モデルとして用いる場合、その底部の円形を目標面とし、該円形におけるいくつかの特徴点を標定すればよい。決定された目標面が頂点を有する図形である場合においても、目標面が四角形等の図形に限定されず、例えば、三角形である場合、三角形が３つの頂点しか有しないが、３つの頂点及び他の特徴点をその複数の特徴点とすることができる。つまり、取られた少なくとも４つの特徴点の目標三次元モデルの世界座標系における三次元座標を特定することができればよい。別の例として、目標三次元モデルが球体である場合、球体の中心を座標原点とし、中心を通る１つの断面を目標面とし、該断面の球面と交わる円上の点を特徴点とすることができる。

ステップＳ３３０では、前記目標面の複数の特徴点の、世界座標系における三次元座標及び前記第１フレームの画像における画素座標を特定する。

ステップＳ３４０では、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第１フレームの画像における画素座標に基づき、前記世界座標系に対する前記第１フレームの画像のカメラ座標系の位置姿勢を特定する。

ステップＳ３５０では、前記目標平面、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第１フレームの画像における画素座標に基づき、前記世界座標系に対する前記処理対象ビデオの第２フレームの画像～第ｍフレームの画像のカメラ座標系の位置姿勢を特定する。

ステップＳ３６０では、前記目標三次元モデルを目標リンク表示モデルに置き換えて前記世界座標系に配置し、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを含む目標ビデオを生成する。

本開示は選択する目標三次元モデル及び目標リンク表示モデルの形状や構造を限定せず、目標平面及び目標面は三角形、四角形等に限定されず、円形、楕円形等任意の形状であってもよい。

本開示の実施例において、依然としてビデオに広告を挿入する応用場面を例とし、前記目標リンク表示モデルは、例えば目標三次元広告モデルであってもよく、当業者であれば、二次元広告を無限に薄い三次元広告とみなすことができるため、本開示の実施例により提供される解決手段を二次元広告の挿入に用いることもできることが理解される。

本開示の実施形態により提供される画像処理方法は、処理対象ビデオの第１フレームの画像に１つの目標三次元モデルを入れ、該目標三次元モデルを該第１フレームの画像内の１つの目標平面に配置することで、カメラ座標系に対する該第１フレームの画像における目標三次元モデルの位置姿勢を算出し、該目標平面に対する追跡により、カメラ座標系に対する該処理対象ビデオの後の各フレームの画像における目標三次元モデルの位置姿勢を算出することができ、その後、該処理対象ビデオにおける目標三次元モデルを目標リンク表示モデルに置き換えれば、該処理対象ビデオの各フレームの画像に該目標リンク表示モデルを自動的に挿入することができ、一方、目標平面を追跡する方式を用いたため、処理対象ビデオにおける画像の特徴点に対する計算に依存せず、視差が大きいビデオを必要とせず、計算量が小さく、速度が速く、操作しやすく、正確性が高く、より多様なビデオに適用でき、ビデオに目標リンク表示モデルを挿入する効率及び効果を高めることができる。

図４は、本開示の別の実施例に係る画像処理方法のフローチャートを模式的に示す。

図４に示すように、本実施例と上記実施例との相違点は、本開示の実施例により提供される画像処理方法が以下のステップをさらに含んでもよいことである。

ステップＳ４１０では、ニューラルネットワークモデルによって前記第１フレームの画像を処理し、前記第１フレームの画像における少なくとも１つの平面を得る。

本開示の実施例において、前記ニューラルネットワークモデルは、インスタンスセグメンテーション（Ｉｎｓｔａｎｃｅｓｅｇｍｅｎｔａｔｉｏｎ）を行うことができる任意の深層学習モデル、例えばＭａｓｋＲ－ＣＮＮ（ＭａｓｋＲｅｇｉｏｎ－ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ：マスク領域畳み込みニューラルネットワーク）であってよい。

例示的実施例において、前記方法は、サンプル画像及びそのラベル付けされた平面位置と平面タイプを含む訓練データセットを取得するステップと、前記訓練データセットを用いて前記ニューラルネットワークモデルを訓練するステップと、をさらに含んでもよい。

本開示の実施例において、まず一群のサンプル画像に平面位置及び平面タイプ、例えばテーブル面、壁面、ピアノ平面、腰掛け面等を事前にラベル付けし、次にこれらのサンプルを用いてニューラルネットワークモデルを訓練する。その後、広告を挿入しようとする処理対象ビデオの第１フレームの画像をこの訓練済みのニューラルネットワークモデルに入力すると、第１フレームの画像における各平面を分割することができる。

ステップＳ４２０では、前記第１フレームの画像に対する平面選択命令に応答して、前記少なくとも１つの平面から前記目標平面を特定する。

例えば、赤色のコーラ缶という目標三次元広告を処理対象ビデオの画像におけるピアノ平面に挿入しようとする場合、該第１フレームの画像におけるピアノ平面を前記目標平面とすることができる。

他の実施例において、ユーザが該第１フレームの画像におけるある平面を手動で前記目標平面として選択するようにしてもよく、例えば、ユーザがマウスをドラッグし、該第１フレームの画像のピアノ平面にマークを付けた場合、該ピアノ平面を前記目標平面として利用し、本開示は、目標平面を特定する方式を限定しない。

図５は、図３に示すステップＳ３２０の一実施例における処理プロセスの模式図を示す。

図５に示すように、本開示の実施例において、上記ステップＳ３２０は以下のステップをさらに含んでもよい。

ステップＳ３２１では、前記第１フレームの画像に前記目標三次元モデルを追加する追加命令に応答して、前記目標三次元モデルを前記第１フレームの画像に追加する。

例えば、ユーザは指又はマウスで立方体を押し、前記処理対象ビデオの第１フレームの画像にドラッグインしてもよく、又は追加等の機能ボタンによって、選択された又はデフォルトの目標三次元モデルを第１フレームの画像に追加してもよい。

ステップＳ３２２では、前記目標三次元モデルの目標面及びその複数の特徴点を特定する。

例えば、立方体の底面を立方体の目標面とし、立方体の底面的４つの頂点を４つの特徴点とすることができる。

ステップＳ３２３では、前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルの位置姿勢を調整する。

例示的実施例において、前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルの位置姿勢を調整するステップは、前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルの複数の特徴点を調整するステップ、又は、前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルを回転するステップを含んでもよい。

例えば、立方体を処理対象ビデオの第１フレームの画像にドラッグインした後、該第１フレームの画像において、立方体の底面の４つの頂点が第１フレームの画像の目標平面上にあるように、ユーザが立方体の複数の頂点を手動で調整し又は該立方体を回転することができる。別の例として、該立方体の底面の４つの頂点が第１フレームの画像の目標平面上にあるように、ＡＩによって該第１フレームの画像における目標平面及び立方体を自動的に認識し、該立方体の位置姿勢を自動的に調整することもできる。その後、立方体の所在する目標平面、及び立方体の目標平面における４つの点（立方体の底面の４つの頂点であってもよいし、底面の他の任意の４つの画素点であってもよく、以下に示す例ではいずれも４つの頂点を例として説明する）を記録することができる。

図６は、図３に示すステップＳ３３０の一実施例における処理プロセスの模式図を示す。

図６に示すように、本開示の実施例において、上記ステップＳ３３０は以下のステップをさらに含んでもよい。

ステップＳ３３１では、前記目標三次元モデルに基づき、前記世界座標系を確立する。

ステップＳ３３２では、前記目標面の複数の特徴点の前記世界座標系における三次元座標を特定する。

ステップＳ３３３では、前記目標面の複数の特徴点が前記目標平面上にあるとき、前記目標面の複数の特徴点の前記第１フレームの画像における画素座標を記録する。

立方体の底面を目標面とすることを例にすると、その底面のａ、ｂ、ｃ、ｄ（図１１を参照）という４つの頂点の前記第１フレームの画像における画素座標を

_{と記すことができる。}

図７は、図６に示すステップＳ３３１の一実施例における処理プロセスの模式図を示す。

図７に示すように、本開示の実施例において、上記ステップＳ３３１は以下のステップをさらに含んでもよい。

ステップＳ３３１１では、前記立方体の最左上の特徴点を原点とする。

ステップＳ３３１２では、前記最左上の特徴点と交わる前記立方体の３つの辺を座標軸とし、前記世界座標系を確立する。

ここで、立方体の底面のａ、ｂ、ｃ、ｄという４つの頂点の前記世界座標系における三次元座標を

と記録する。

他の三次元モデル、例えば四角錐を前記目標三次元モデルとして用いる場合、四角錐の底面の最左下の頂点を原点とし、原点から右の頂点までをｘ軸とし、原点から左上頂点までをｙ軸とし、この底面に垂直な方向をｚ軸とし、該四角錐の世界座標系として直交座標系を確立することができる。

図８は、図３に示すステップＳ３５０の一実施例における処理プロセスの模式図を示す。

図８に示すように、本開示の実施例において、上記ステップＳ３５０は以下のステップをさらに含んでもよい。

ステップＳ３５１では、前記第１フレームの画像における目標平面に対する前記処理対象ビデオの第ｊフレームの画像における目標平面のホモグラフィ行列を特定し、それは前記第ｊフレームの画像のホモグラフィ行列と呼ばれ、ｊは２以上且つｍ以下の正整数である。

ホモグラフィは、射影幾何学における概念であり、射影変換とも呼ばれる。それは１つの射影平面における点（三次元斉次ベクトル）を別の射影平面にマッピングし、直線を直線としてマッピングし、線を確保する性質を有する。一般的に言えば、ホモグラフィは、三次元斉次ベクトルに関する線形変換であり、３×３の非特異行列Ｈで表すことができる。

本開示の実施例において、ビデオに広告を挿入する応用場面を例にし、処理対象ビデオにおける目標平面Ｂを追跡し、該目標平面Ｂの各フレームの画像における領域及び変形を計算し、つまり、別のフレームの画像における該目標平面Ｂに対する現フレームの画像における目標平面Ｂのホモグラフィ行列を計算する。その後の各フレームの画像において、平面追跡の方式で目標平面Ｂを追跡し、ホモグラフィ行列を計算する。

以下において、処理対象ビデオの第１フレーム、第２フレーム及び第３フレームの画像を例として説明する。

まず、処理対象ビデオの第１フレームの画像に広告挿入しようとする目標平面Ｂを選択し、目標平面Ｂ上の全ての画素座標Ａ_１を特定する。

であり、ここで

は目標平面ＢのＡ_１におけるｉ番目の画素点を表し、合計でｎ個の画素点があり、ｎは１以上の正整数、ｉは１以上且つｎ以下の正整数であると仮定する。

該処理対象ビデオの第２フレームの画像のホモグラフィ行列Ｈ_２の初期値が単位行列

であると仮定する。次に、Ｈ_２でＡ_１を第２フレームの画像にマッピングし、目標平面Ｂ上の全ての画素座標Ａ_２を得て、

である。例えば、Ａ_１における１番目の画素点の画素座標は

であり、Ａ_２にマッピングされる１番目の画素点の画素座標は

であり、計算式は以下のとおりである。

式中、

次に、Ａ_１における各画素点の画素値と対応するＡ_２の各画素点の画素値との残差を計算することで相関度ｆを計算する。相関度ｆはＡ_１とＡ_２の類似度を評価するものであり、その計算方法は、ＳＳＤ（ｓｕｍｏｆｓｑｕａｒｅｄｄｉｆｆｅｒｅｎｃｅｓ：誤差の平方和）であってもよく、ピアソン相関法等であってもよい。相関度ｆに基づいてホモグラフィ行列Ｈ_２を最適化する（Ｈ_２，０と記す）。例えば、相関度ｆの値が最大となるように、Ｈ_２に対して調整ΔＨを行うことができ、その最適化式は以下のとおりである。

上記式中、Ｉ_１とＩ_２はそれぞれ処理対象ビデオの第１フレームの画像と第２フレームの画像を表し、最適値

の具体的な計算方法として、勾配降下法、ガウスニュートン法及びニュートン法等のいずれか１つを用いることができる。

は最適化されたΔＨを表す。ΔＨの初期値はゼロ行列であるため、ガウスニュートン法等の方法で最適化してから、初めて最適値

となる。

最適化されたＨ_２，０を得る。その更新は、下式に示されるとおりである。

その後、最適化されたＨ_２，０を処理対象ビデオの第３フレームの画像のホモグラフィ行列Ｈ_３の仮定初期値とし、Ｈ_３でＡ_１を第３フレームの画像にマッピングし、最適化されたＨ_３，０を得る。その後、最適化されたＨ_３，０を処理対象ビデオの第４フレームの画像のホモグラフィ行列Ｈ_４の仮定初期値とし……このように第ｍフレームの画像まで繰り返す。

本開示の実施例において、あるフレームの画像における目標平面Ｂには人、車のような前景遮蔽物が存在する場合、遮蔽された部分の画素については、残差を計算しない。遮蔽された領域を認識する方法は、手動で選択される方法であってもよく、又は何らかの深層学習方法であってもよい。つまり

のうち、相関度ｆの計算に関与する画素は、全て非遮蔽の画素である。

本開示の実施例により提供される解決手段は、特徴点の抽出に依存せず、目標平面の輝度変化が小さく、テクスチャが豊富でない場合でも動作できる。そして目標平面全体の情報を十分に利用することができる。本開示の実施例により提供される平面追跡方法は毎回、１個前のフレームの最適化されたホモグラフィ行列を次フレームのホモグラフィ行列の初期値として使用し、その上で、次フレームのホモグラフィ行列を最適化し、計算速度が速く、処理対象ビデオにおける目標平面を効果的に追跡することができる。また、目標平面が遮蔽された場合、目標平面を観察する角度に制限されずに、第１フレームに対する後の画像の観察角度が大きく変化した場合でも効果的に追跡することができる。

他の実施例において、特徴点法で目標平面を追跡することもできる。それは異なるフレームの画像の特徴点をマッチングすることで、異なるフレームの画像の間のホモグラフィ行列を計算する。

ステップＳ３５２では、前記第ｊフレームの画像のホモグラフィ行列と前記目標面の複数の特徴点の前記第１フレームにおける画素座標とに基づき、前記目標面の複数の特徴点の前記第ｊフレームの画像における画素座標を特定する。

依然として立方体の底面を目標面とすることを例にし、まず平面追跡の方式で、第１フレームの画像における目標平面に対する第ｊフレームの画像における目標平面Ｂのホモグラフィ行列Ｈ_ｊ，０を算出する。次に、ホモグラフィ行列Ｈ_ｊ，０に基づき、立方体の底面の４つの頂点の第ｊフレームの画像における画素座標

を算出し、計算式は例えば以下のとおりである。

説明すべきは、本開示において平面追跡の方法を使用してホモグラフィ行列を計算し、その後ホモグラフィ行列に基づき、立方体の底面の４つの頂点の現フレームの画像における画素座標を計算することが限定されない。他の実施例において、特徴点マッチングの方法を用いて、この４つの頂点の各フレームの画像における画素座標を直接追跡してマッチングすることもできる。

ステップＳ３５３では、前記処理対象ビデオのカメラ内部パラメータと、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第ｊフレームの画像における画素座標とに基づき、前記世界座標系に対する前記処理対象ビデオの第ｊフレームの画像のカメラ座標系の位置姿勢を特定する。

カメラ内部パラメータＫが既知であると仮定し、カメラ内部パラメータＫが未知である場合、処理対象ビデオの画像を深層学習モデルに入力し、カメラ内部パラメータＫを習得させることができる。ここの深層学習モデルは、例えば深度単一画像カメラキャリブレーションのための知覚測定方法（ＡＰｅｒｃｅｐｔｕａｌＭｅａｓｕｒｅｆｏｒＤｅｅｐＳｉｎｇｌｅＩｍａｇｅＣａｍｅｒａＣａｌｉｂｒａｔｉｏｎ）のような、「ＳｉｎｇｌｅＩｍａｇｅＣａｍｅｒａＣａｌｉｂｒａｔｉｏｎ（単一画像カメラキャリブレーション）」を実現できる任意の深層学習モデルであってよい。

本開示の実施例において、第１フレームの画像の後の各フレームの画像において、第１フレームの画像に対する目標平面Ｂのホモグラフィ行列を算出する。ホモグラフィ行列に基づき、第ｊフレームの画像における立方体の底面の４つの特徴点の画素座標

を算出する。その後、この４つの特徴点の画素座標

、立方体の底面の４つの特徴点の三次元座標

、及びカメラ内部パラメータＫに基づき、第ｊフレームの画像における立方体の位置及び姿勢を算出する。

例えば、立方体の底面の４つの頂点の三次元座標

、それらの第ｊフレームの画像における画素座標

、及びカメラ内部パラメータＫをＰｎＰ（Ｐｅｒｓｐｅｃｔｉｖｅ－ｎ－Ｐｏｉｎｔ：透視－ｎ－点）アルゴリズムに入力して計算し、世界座標系

に対する第ｊフレームの画像のカメラ座標系の位置ｔ_ｉ及び姿勢Ｒ_ｉを得ることができる。次に、立方体を現フレームの画像に投影して表示することができる。

説明すべきは、本開示においてＰｎＰの方法で立方体の位置姿勢を計算することを限定せず、目標三次元モデルの目標面の複数の特徴点の、世界座標系における三次元座標及び現フレームの画像における画素座標を入力することで、世界座標系に対する現フレームの画像のカメラ座標系の位置ｔ及び姿勢Ｒを算出可能であるという機能を実現できれば、他の任意の方法であってもよい点である。

図９は、図３に示すステップＳ３６０の一実施例における処理プロセスの模式図を示す。

図９に示すように、本開示の実施例において、上記ステップＳ３６０は以下のステップをさらに含んでもよい。

ステップＳ３６１では、前記世界座標系に対する前記処理対象ビデオの第２フレームの画像～第ｍフレームの画像のカメラ座標系の位置姿勢に基づき、前記目標三次元モデルを前記処理対象ビデオの第２フレームの画像～第ｍフレームの画像にそれぞれ投影する。

例えば、世界座標系に対する現フレームの画像のカメラ座標系の位置及び姿勢に基づき、立方体を現フレームの画像の画面に投影する。

ステップＳ３６２では、前記目標三次元モデルを前記目標リンク表示モデルに置き換えて、前記処理対象ビデオの各フレームの画像の前記世界座標系に配置する。

ステップＳ３６３では、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを前記処理対象ビデオの各フレームの画像に投影する。

ステップＳ３６４では、前記処理対象ビデオの各フレームの画像を合成し、前記目標リンク表示モデルを含む目標ビデオを生成する。

例えば、処理対象ビデオの各フレームの画像において、立方体を目標三次元広告モデルに置き換える。目標三次元広告モデルを各フレームの画像に投影し、各フレームの画像を合成して前記目標リンク表示モデルを含む目標ビデオを生成する。

具体的には、前のステップによって、世界座標系に対する処理対象ビデオの全てのフレームの画像のカメラ座標系の位置及び姿勢を算出し、目標三次元広告モデルを世界座標系に配置し、各フレームの画像の位置姿勢に基づき、目標三次元広告モデルを各フレームの画像に投影し、目標三次元広告モデルを含む目標ビデオを合成する。

例えば、立方体の底面上のある頂点を原点とし、三次元直交座標系を前記世界座標系として確立する。赤色のコーラ缶の三次元モデルは、独自の参照座標系を有する。赤色のコーラ缶の参照座標系を立方体の三次元直交座標系として定義することができ、つまり、立方体に対する赤色のコーラ缶の位置及び姿勢（固定で変わらないものである）を得れば、カメラ座標系に対する赤色のコーラ缶の位置及び姿勢を算出し、置き換えを実現することができる。計算過程は以下のとおりである。

上記式中、

はカメラ座標系に対する赤色のコーラ缶の位置姿勢を表し、

はカメラ座標系に対する立方体の位置姿勢を表し、

は立方体に対する赤色のコーラ缶の位置姿勢を表す。また、最初からこの赤色のコーラ缶が立方体に入れ、赤色のコーラ缶の底面が立方体の底面と重なると解されてもよい。こうして、カメラ座標系に対する各フレームの画像における目標三次元広告モデルの位置及び姿勢が全て、カメラ座標系に対する立方体の位置及び姿勢から特定できるようになる。最後に立方体を除去し、赤色のコーラ缶を表示させる。

図１０は、本開示のさらに別の実施例に係る画像処理方法のフローチャートを模式的に示す。

図１０に示すように、本開示の実施例により提供される画像処理方法は以下のステップを含んでもよい。

ステップＳ１００１では、ビデオＤを取得する。

ステップＳ１００２では、ビデオＤにおける画像のフレーム数ｍを算出し、ｊ＝１とする。

ステップＳ１００３では、立方体ＡをビデオＤの第１フレームの画像にドラッグインする。

ステップＳ１００４では、底面の４つの頂点が第１フレームの画像の目標平面Ｂ上にあるように、立方体Ａの位置及び姿勢を調整する。

ステップＳ１００５では、目標平面Ｂ上にある立方体Ａの底面の４つの頂点の第１フレームの画像における画素座標ｐ_１を記録する。

ステップＳ１００６では、ｊ＜＝ｍである場合、ステップＳ１００７に進み、そうでない場合、ステップＳ１０１３へジャンプする。

ステップＳ１００７では、ビデオＤの第ｊフレームの画像Ｍ_ｊを取得する。

ステップＳ１００８では、目標平面Ｂを追跡し、第１フレームの画像における目標平面Ｂに対する第ｊフレームの画像Ｍ_ｊにおける目標平面Ｂのホモグラフィ行列Ｈ_ｊ，０を計算する。

ステップＳ１００９では、ホモグラフィ行列Ｈ_ｊ，０に基づき、目標平面Ｂ上にある立方体Ａの４つの頂点の第ｊフレームの画像Ｍ_ｊにおける画素座標ｐ_ｊ＝Ｈ_ｊ，０＊ｐ_１を算出する。

ステップＳ１０１０では、ｐ_ｊに基づき、第ｊフレームの画像Ｍ_ｊのカメラ座標系の位置ｔ_ｊ及び姿勢Ｒ_ｊを算出する。

ステップＳ１０１１では、Ｍ_ｊの位置姿勢ｔ_ｊとＲ_ｊに基づき、立方体Ａを第ｊフレームの画像Ｍ_ｊ上に投影する。

ステップＳ１０１２では、ｊ＝ｊ＋１とし、ステップＳ１００６に戻り、ｊがｍより大きくなるまで、上記ステップＳ１００７～Ｓ１０１２を実行する。

ステップＳ１０１３では、広告Ｃを取得する。

ステップＳ１０１４では、記録された各フレームの画像の位置姿勢Ｒとｔに基づき、広告Ｃを各フレームの画像に投影し、広告Ｃを含むビデオＤ’を合成する。

ステップＳ１０１５では、終了する。

本開示の実施例において、関連するオリジナルデータ及び／又は処理済みのデータはいずれもブロックチェーンに記憶してもよい。例えば、三次元広告を挿入していないオリジナルビデオデータをブロックチェーンに記憶し、ブロックチェーンに記憶されているオリジナルビデオデータから処理対象ビデオを抽出することができる。また、広告を前記ブロックチェーンに記憶し、ある広告を前記処理対象ビデオに挿入する必要がある時、前記ブロックチェーンから目標三次元広告を抽出することもできる。上記画像処理方法を実行する主体はブロックチェーンにおけるいずれか１つのノード（サーバ及び／又はユーザ端末機器等であってよい）であってもよい。抽出された処理対象ビデオ及び目標三次元広告に対して上記画像処理方法を実行した後、目標三次元広告を挿入した目標ビデオを得ることができる。

以下において、立方体を目標三次元モデルとし、立方体の底面を目標面とし、処理対象ビデオにおけるピアノ平面を目標平面とすることを例にして説明し、本開示の実施例の解決手段は、立方体を処理対象ビデオの第１フレームの画像にドラッグインするステップと、処理対象ビデオにおけるピアノ平面を追跡するステップと、立方体の位置姿勢を更新するステップと、三次元広告を含む目標ビデオを合成するステップと、を含んでよい。

図１１は、本開示の一実施例に係る立方体及びその世界座標系の模式図を模式的に示す。

図１１に示すように、立方体の辺長が０．１メートルとすると仮定し、立方体の最左上の頂点を原点とし、３つの辺を座標軸として、世界座標系Ｏを確立する。立方体の底面上の４つの頂点の三次元座標Ｐを得ることができる。ａ頂点の三次元座標は

、ｂ頂点の三次元座標は

、ｃ頂点の三次元座標は

、ｄ頂点の三次元座標は

である。

図１２は、本開示の一実施例に係る立方体の頂点をドラッグすることで立方体の位置姿勢を制御することを示す模式図である。

図１２に示すように、立方体を処理対象ビデオの第１フレームの画像にドラッグインし、次に第１フレームの画像において立方体の各頂点をドラッグすることで、立方体の位置及び姿勢を調整する。図１２の左側の図（ａ）は、立方体を第１フレームの画像にドラッグインしたばかりの各白丸の初期位置を表すものであり、中央の図（ｂ）は、白丸をドラッグし、ユーザ所望の位置に調整することを表すものであり、例えばユーザの想定した、立方体の底面の４つの頂点及び頂面の１つの頂点が位置すべき画素位置に調整し、右側の図（ｃ）は、図（ｂ）の調整された白丸の位置に基づき、立方体の位置姿勢を自動的に調整することを表すものであり、それによって立方体の頂点がこれらの白丸に可能な限り近接し、視覚的には立方体の底面の４つの頂点が目標平面内にあり、且つ立方体の位置及び姿勢も視覚的には正確であるようにさせる。即ち、ユーザはこれらの白丸をドラッグすることで立方体の位置及び姿勢を調整することができる。

説明すべきは、図１２には、立方体の５つの頂点を５つの白丸で調整することが示されているが、実操作時、これに限定されず、例えば４つ、６つ、７つさらには８つ又はそれ以上の白丸を用いてそれぞれ対応して立方体の８つの頂点を調整することもできる点である。

図１２では、例えば底面の４つの辺を青色で示し、頂面の４つの辺を赤色で示し、側面の４つの辺を緑色で示すように、立方体の異なる辺を色分けして描画することで、異なる面を区別するようにも設定できるが、本開示はこれに限定されない。

図１３は、本開示の一実施例に係る立方体を回転することで立方体の位置姿勢を制御することを示す模式図である。

上記図１２に示す方法に加えて、図１３に示す方法で立方体の位置姿勢を調整することもできる。図１３の左側の図（ａ）は立方体を第１フレームの画像にドラッグインした際の初期位置を表すものであり、中央の図（ｂ）は、ユーザが立方体を回転することを表すものであり、それによって、右側の図（ｃ）に示す最終効果の目的を達成し、即ち、立方体の底面の４つの頂点が目標平面内にあり、且つ立方体の位置姿勢が視覚的には正確である。ユーザは、指又はマウスで第１フレームの画像に表示される矢印を押して立方体をドラッグしてもよく、第１フレームの画像に表示される円弧を押して立方体を回転してもよく、これによって、立方体の位置姿勢を調整することができる。

本開示の実施例において、立方体の位置姿勢をヒューマンインタラクティブの方法によって調整してもよく、ＡＩに基づく方法で第１フレームの画像における目標平面を認識し、立方体の位置及び姿勢を自動的に調整し、立方体を目標平面Ｂに配置するようにしてもよい。調整は、立方体の底面の４つの頂点ａ、ｂ、ｃ、ｄが目標平面Ｂ上にあるように、立方体の位置及び姿勢を調整することを目的とする。この時この４つの頂点の第１フレームの画像における画素座標を記録する。立方体の底面の４つの頂点の三次元座標、それらの第１フレームの画像における画素座標、及びカメラ内部パラメータをＰｎＰアルゴリズムに入力し、世界座標系

に対する第１フレームの画像のカメラ座標系の位置及び姿勢を算出する。

図１４は、本開示の一実施例に係る立方体の所在する目標平面を追跡することを示す模式図である。

目標平面がピアノ平面であると仮定すると、平面追跡の効果は図１４に示すとおりである。図１４の左側の図（ａ）は処理対象ビデオの第１フレームの画像に表示される目標平面であると仮定し、中央の図（ｂ）は第２フレームの画像に表示される目標平面であると仮定し、右側の図（ｃ）は第３フレームの画像に表示される目標平面であると仮定する。図１４の（ａ）、（ｂ）、（ｃ）において、目標平面はそれぞれ２つの三角形から構成される四角形で表す。

図１５は、本開示の一実施例に係る各フレームの画像における立方体を表示することを示す模式図である。

図１５の左側の図（ａ）は処理対象ビデオの第１フレームの画像に表示される立方体であると仮定し、中央の図（ｂ）は第２フレームの画像に表示される立方体であると仮定し、右側の図（ｃ）は第３フレームの画像に表示される立方体であると仮定する。

図１６は、本開示の一実施例に係る各フレームの画像において三次元広告を合成することを示す模式図である。

図１６の右側の図（ａ）は処理対象ビデオの第１フレームの画像に表示される赤色のコーラ缶であると仮定し、中央の図（ｂ）は第２フレームの画像に表示される赤色のコーラ缶であると仮定し、右側の図（ｃ）は第３フレームの画像に表示される赤色のコーラ缶であると仮定する。

図１２－１６及び本願の他の実施例において、前記ビデオの前記画像処理は例えば画像処理インタフェース又はページにおいて行われる。

図１７は、本開示の一実施例に係る画像処理装置のブロック図を模式的に示す。

図１７に示すように、本開示の実施形態により提供される画像処理装置１７００は、処理ビデオ取得モジュール１７１０と、三次元モデル配置モジュール１７２０と、第１座標特定モジュール１７３０と、第１位置姿勢特定モジュール１７４０と、第２位置姿勢特定モジュール１７５０及び目標ビデオ生成モジュール１７６０とを含んでもよい。

そのうち、処理ビデオ取得モジュール１７１０は、処理対象ビデオを取得するように構成されてもよく、前記処理対象ビデオはｍフレームの画像を含み、ｍは２以上の正整数である。三次元モデル配置モジュール１７２０は、前記処理対象ビデオの第１フレームの画像の目標平面に目標三次元モデルを配置するように構成されてもよく、前記目標三次元モデルの目標面の複数の特徴点は前記目標平面上にある。第１座標特定モジュール１７３０は、前記目標面の複数の特徴点の、世界座標系における三次元座標及び前記第１フレームの画像における画素座標を特定して取得するように構成されてもよい。第１位置姿勢特定モジュール１７４０は、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第１フレームの画像における画素座標に基づき、前記世界座標系に対する前記第１フレームの画像のカメラ座標系の位置姿勢を特定して得るように構成されてもよい。第２位置姿勢特定モジュール１７５０は、前記目標平面、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第１フレームの画像における画素座標に基づき、前記世界座標系に対する前記処理対象ビデオの第２フレームの画像～第ｍフレームの画像のカメラ座標系の位置姿勢を特定して得るように構成されてもよい。目標ビデオ生成モジュール１７６０は、前記目標三次元モデルを目標リンク表示モデルに置き換えて前記世界座標系に配置し、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを含む目標ビデオを生成するように構成されてもよい。

例示的実施例において、第２位置姿勢特定モジュール１７５０は、前記第１フレームの画像における目標平面に対する前記処理対象ビデオの第ｊフレームの画像における目標平面のホモグラフィ行列を、前記第ｊフレームの画像のホモグラフィ行列として特定するように構成されてもよいホモグラフィ行列特定ユニットであって、ｊは２以上且つｍ以下の正整数であるホモグラフィ行列特定ユニットと、前記第ｊフレームの画像のホモグラフィ行列と前記目標面の複数の特徴点の前記第１フレームにおける画素座標とに基づき、前記目標面の複数の特徴点の前記第ｊフレームの画像における画素座標を得るように構成されてもよい画素座標特定ユニットと、前記処理対象ビデオのカメラ内部パラメータと、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第ｊフレームの画像における画素座標とに基づき、前記世界座標系に対する前記処理対象ビデオの第ｊフレームの画像のカメラ座標系の位置姿勢を特定するように構成されてもよい位置姿勢特定ユニットと、を含んでもよい。

例示的実施例において、目標ビデオ生成モジュール１７６０は、前記世界座標系に対する前記処理対象ビデオの第２フレームの画像～第ｍフレームの画像のカメラ座標系の位置姿勢に基づき、前記目標三次元モデルを前記処理対象ビデオの第２フレームの画像～第ｍフレームの画像にそれぞれ投影するように構成されてもよい三次元モデル投影ユニットと、前記目標三次元モデルを前記目標リンク表示モデルに置き換えて、前記処理対象ビデオの各フレームの画像の前記世界座標系に配置するように構成されてもよい表示モデル切換ユニットと、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを前記処理対象ビデオの各フレームの画像に投影するように構成されてもよい表示モデル投影ユニットと、前記処理対象ビデオの各フレームの画像を合成し、前記目標リンク表示モデルを含む目標ビデオを生成するように構成されてもよい画像合成ユニットと、を含んでもよい。

例示的実施例において、三次元モデル配置モジュール１７２０は、前記第１フレームの画像に前記目標三次元モデルを追加する追加命令に応答して、前記目標三次元モデルを前記第１フレームの画像に追加するように構成されてもよい三次元モデルドラッグインユニットと、前記目標三次元モデルの目標面及びその複数の特徴点を特定するように構成されてもよい目標面特定ユニットと、前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルの位置姿勢を調整するように構成されてもよい三次元モデル位置姿勢調整ユニットと、を含んでもよい。

例示的実施例において、前記三次元モデル位置姿勢調整ユニットは、特徴点調整サブユニット又は三次元モデル回転サブユニットを含んでもよい。前記特徴点調整サブユニットは、前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルの複数の特徴点を調整するように構成されてもよい。前記三次元モデル回転サブユニットは、前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルを回転するように構成されてもよい。

例示的実施例において、第１座標特定モジュール１７３０は、前記目標三次元モデルに基づき、前記世界座標系を確立するように構成されてもよい世界座標系確立ユニットと、前記目標面の複数の特徴点の前記世界座標系における三次元座標を特定するように構成されてもよい三次元座標特定ユニットと、前記目標面の複数の特徴点が前記目標平面上にあるとき、前記目標面の複数の特徴点の前記第１フレームの画像における画素座標を記録するように構成されてもよい画素座標記録ユニットと、を含んでもよい。

例示的実施例において、前記目標三次元モデルは、所定の辺長を有する立方体であってもよい。前記世界座標系確立ユニットは、前記立方体の最左上の特徴点を原点とするように構成されてもよい原点特定サブユニットと、前記最左上の特徴点と交わる前記立方体の３つの辺を座標軸とし、前記世界座標系を確立するように構成されてもよい座標軸特定サブユニットと、を含んでもよい。

例示的実施例において、画像処理装置１７００は、ニューラルネットワークモデルによって前記第１フレームの画像を処理し、前記第１フレームの画像における少なくとも１つの平面を得るように構成されてもよい平面特定モジュールと、前記第１フレームの画像に対する平面選択命令に応答して、前記少なくとも１つの平面から前記目標平面を特定するように構成されてもよい目標平面特定モジュールと、を含んでもよい。

本開示の実施例により提供される画像処理装置における各モジュール、ユニット及びサブユニットの具体的な実施形態は上記画像処理方法の内容を参照してよく、ここで重複説明は割愛する。

なお、上記の詳細な説明では、動作を実行するための機器の複数のモジュール、ユニット及びサブユニットが記載されているが、これらの区分は強制的なものではない点に注意すべきである。実際、本開示の実施形態によれば、上述した２つ又はそれ以上のモジュール、ユニット及びサブユニットの特徴及び機能は１つのモジュール、ユニット及びサブユニットにおいて具現化することが可能である。逆に、上述した１つのモジュール、ユニット及びサブユニットの特徴及び機能は複数のモジュール、ユニット及びサブユニットにより具現化するようにさらに区分してもよい。

以上の実施形態に対する説明によって、当業者であればここで説明した例示的実施形態はソフトウェアで実現してもよく、ソフトウェアと必要なハードウェアの組み合わせの形で実現してもよいことを容易に理解できるであろう。従って、本開示の実施形態に係る技術的解決手段はソフトウェア製品の形で実施することができ、該コンピュータソフトウェア製品は、非揮発性記憶媒体（ＣＤ－ＲＯＭ、Ｕディスク、ポータブルハードディスク等であってもよい）又はネットワークに記憶することができ、コンピューティング機器（パーソナルコンピュータ、サーバ、タッチ端末、又はネットワーク機器等であってもよい）に本開示の実施形態に係る方法を実行させる複数の命令を含む。

本開示の他の実施形態は、本明細書の考察と本明細書で開示された発明の実施により、当業者には自明であろう。本開示は本開示のあらゆる変形、用途又は適応的な変化を包含することを意図し、これらの変形、用途又は適応的な変化は、本開示の一般原理に従い本開示に掲示されていない当技術分野での技術常識又は慣用されている技術手段を含む。明細書及び実施例は単に例示的なものとみなされ、本開示の真の範囲及び趣旨は以下の請求項によって示される。

本開示は以上で説明され且つ図面に示された精確な構造に限定されるものでなく、その範囲を逸脱しない限り様々な修正や変更を加えることができるのを理解すべきである。本開示の範囲は追加される請求項のみに限定される。

１００システムアーキテクチャ
１０１、１０２、１０３端末機器
１０４ネットワーク
１０５サーバ
２００コンピュータシステム
２０１中央処理ユニット（ＣＰＵ）
２０２読み取り専用メモリ（ＲＯＭ）
２０３ランダムアクセスメモリ（ＲＡＭ）
２０４通信バス
２０５入力／出力（Ｉ／Ｏ）インターフェース
２０７出力部
２０８記憶部
２０９通信部
２１０ドライバ
２１１リムーバブル媒体
１７００画像処理装置
１７１０処理ビデオ取得モジュール
１７２０三次元モデル配置モジュール
１７３０第１座標特定モジュール
１７４０第１位置姿勢特定モジュール
１７５０第２位置姿勢特定モジュール
１７６０目標ビデオ生成モジュール

Claims

電子機器が実行する、画像処理方法であって、
処理対象ビデオを取得するステップであって、前記処理対象ビデオはｍフレームの画像を含み、ｍは２以上の正整数であるステップと、
前記処理対象ビデオの第１フレームの画像の目標平面に目標三次元モデルを配置するステップであって、前記目標三次元モデルの目標面の複数の特徴点は前記目標平面上にあるステップと、
前記目標面の複数の特徴点の、世界座標系における三次元座標及び前記第１フレームの画像における画素座標を特定するステップと、
前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第１フレームの画像における画素座標に基づき、前記世界座標系に対する前記第１フレームの画像のカメラ座標系の位置姿勢を特定するステップと、
前記目標平面、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第１フレームの画像における画素座標に基づき、前記世界座標系に対する前記処理対象ビデオの第２フレームの画像～第ｍフレームの画像のカメラ座標系の位置姿勢を特定するステップであって、前記第１フレームの画像における目標平面に対する前記処理対象ビデオの第ｊフレームの画像における目標平面のホモグラフィ行列を、前記第ｊフレームの画像のホモグラフィ行列として特定するステップであって、ｊは２以上且つｍ以下の正整数であるステップを含み、各フレーム毎、１個前のフレームの最適化されたホモグラフィ行列を次フレームのホモグラフィ行列の初期値として使用し、次フレームのホモグラフィ行列を最適化するように構成された、ステップと、
前記目標三次元モデルを目標リンク表示モデルに置き換えて前記世界座標系に配置し、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを含む目標ビデオを生成するステップと、を含むことを特徴とする画像処理方法。
前記目標平面、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第１フレームの画像における画素座標に基づき、前記世界座標系に対する前記処理対象ビデオの第２フレームの画像～第ｍフレームの画像のカメラ座標系の位置姿勢を特定するステップは、
前記第ｊフレームの画像のホモグラフィ行列と前記目標面の複数の特徴点の前記第１フレームにおける画素座標とに基づき、前記目標面の複数の特徴点の前記第ｊフレームの画像における画素座標を特定するステップと、
前記処理対象ビデオのカメラ内部パラメータと、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第ｊフレームの画像における画素座標とに基づき、前記世界座標系に対する前記処理対象ビデオの第ｊフレームの画像のカメラ座標系の位置姿勢を特定するステップと、を含むことを特徴とする
請求項１に記載の方法。
前記目標三次元モデルを目標リンク表示モデルに置き換えて前記世界座標系に配置し、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを含む目標ビデオを生成するステップは、
前記世界座標系に対する前記処理対象ビデオの第２フレームの画像～第ｍフレームの画像のカメラ座標系の位置姿勢に基づき、前記目標三次元モデルを前記処理対象ビデオの第２フレームの画像～第ｍフレームの画像にそれぞれ投影するステップと、
前記目標三次元モデルを前記目標リンク表示モデルに置き換えて、前記処理対象ビデオの各フレームの画像の前記世界座標系に配置するステップと、
前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを前記処理対象ビデオの各フレームの画像に投影するステップと、
前記処理対象ビデオの各フレームの画像を合成し、前記目標リンク表示モデルを含む目標ビデオを生成するステップと、を含むことを特徴とする
請求項１に記載の方法。
前記処理対象ビデオの第１フレームの画像の目標平面に目標三次元モデルを配置するステップであって、前記目標三次元モデルの目標面の複数の特徴点は前記目標平面上にあるステップは、
前記第１フレームの画像に前記目標三次元モデルを追加する追加命令に応答して、前記目標三次元モデルを前記第１フレームの画像に追加するステップと、
前記目標三次元モデルの目標面及びその複数の特徴点を特定するステップと、
前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルの位置姿勢を調整するステップと、を含むことを特徴とする
請求項１から３のいずれか１項に記載の方法。
前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルの位置姿勢を調整するステップは、
前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルの複数の特徴点を調整するステップ、又は
前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルを回転するステップ、を含むことを特徴とする
請求項４に記載の方法。
前記目標面の複数の特徴点の、世界座標系における三次元座標及び前記第１フレームの画像における画素座標を特定するステップは、
前記目標三次元モデルに基づき、前記世界座標系を確立するステップと、
前記目標面の複数の特徴点の前記世界座標系における三次元座標を特定するステップと、
前記目標面の複数の特徴点が前記目標平面上にあるとき、前記目標面の複数の特徴点の前記第１フレームの画像における画素座標を記録するステップと、を含むことを特徴とする
請求項１から３のいずれか１項に記載の方法。
前記目標三次元モデルは所定の辺長を有する立方体であり、前記目標三次元モデルに基づき、前記世界座標系を確立するステップは、
前記立方体の最左上の特徴点を原点とするステップと、
前記最左上の特徴点と交わる前記立方体の３つの辺を座標軸とし、前記世界座標系を確立するステップと、を含むことを特徴とする
請求項６に記載の方法。
ニューラルネットワークモデルによって前記第１フレームの画像を処理し、前記第１フレームの画像における少なくとも１つの平面を得るステップと、
前記第１フレームの画像に対する平面選択命令に応答して、前記少なくとも１つの平面から前記目標平面を特定するステップと、をさらに含むことを特徴とする
請求項１から３のいずれか１項に記載の方法。
処理対象ビデオを取得するように構成される処理ビデオ取得モジュールであって、前記処理対象ビデオはｍフレームの画像を含み、ｍは２以上の正整数である処理ビデオ取得モジュールと、
前記処理対象ビデオの第１フレームの画像の目標平面に目標三次元モデルを配置するように構成される三次元モデル配置モジュールであって、前記目標三次元モデルの目標面の複数の特徴点は前記目標平面上にある三次元モデル配置モジュールと、
前記目標面の複数の特徴点の、世界座標系における三次元座標及び前記第１フレームの画像における画素座標を特定するように構成される第１座標特定モジュールと、
前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第１フレームの画像における画素座標に基づき、前記世界座標系に対する前記第１フレームの画像のカメラ座標系の位置姿勢を特定するように構成される第１位置姿勢特定モジュールと、
前記目標平面、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第１フレームの画像における画素座標に基づき、前記世界座標系に対する前記処理対象ビデオの第２フレームの画像～第ｍフレームの画像のカメラ座標系の位置姿勢を特定するように構成される第２位置姿勢特定モジュールであって、前記第１フレームの画像における目標平面に対する前記処理対象ビデオの第ｊフレームの画像における目標平面のホモグラフィ行列を、前記第ｊフレームの画像のホモグラフィ行列として特定し、ｊは２以上且つｍ以下の正整数であり、各フレーム毎、１個前のフレームの最適化されたホモグラフィ行列を次フレームのホモグラフィ行列の初期値として使用し、次フレームのホモグラフィ行列を最適化するように構成された、第２位置姿勢特定モジュールと、
前記目標三次元モデルを目標リンク表示モデルに置き換えて前記世界座標系に配置し、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを含む目標ビデオを生成するように構成される目標ビデオ生成モジュールと、を含むことを特徴とする画像処理装置。
１つ又は複数のプロセッサと、
前記１つ又は複数のプロセッサによって実行されると、前記１つ又は複数のプロセッサに請求項１から８のいずれか１項に記載の画像処理方法を実現させる１つ又は複数のプログラムを記憶するように構成される記憶装置と、を含むことを特徴とする電子機器。
プロセッサに、請求項１から８のいずれか１項に記載の画像処理方法を実行させることを特徴とするコンピュータプログラム。