JP7270761B2 - 画像処理方法及び装置、電子機器並びにコンピュータプログラム - Google Patents

画像処理方法及び装置、電子機器並びにコンピュータプログラム Download PDF

Info

Publication number
JP7270761B2
JP7270761B2 JP2021555830A JP2021555830A JP7270761B2 JP 7270761 B2 JP7270761 B2 JP 7270761B2 JP 2021555830 A JP2021555830 A JP 2021555830A JP 2021555830 A JP2021555830 A JP 2021555830A JP 7270761 B2 JP7270761 B2 JP 7270761B2
Authority
JP
Japan
Prior art keywords
target
frame
image
coordinate system
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021555830A
Other languages
English (en)
Other versions
JP2022524891A (ja
Inventor
▲遠▼力 ▲鄭▼
照▲鵬▼ ▲顧▼
年▲華▼ ▲謝▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022524891A publication Critical patent/JP2022524891A/ja
Application granted granted Critical
Publication of JP7270761B2 publication Critical patent/JP7270761B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2004Aligning objects, relative positioning of parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2016Rotation, translation, scaling

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Business, Economics & Management (AREA)
  • Architecture (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Geometry (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Description

本願は、2019年9月10日に提出された出願番号が201910854877.Xであり、発明の名称が「画像処理方法及び装置、電子機器並びにコンピュータ可読記憶媒体」である中国特許出願の優先権を主張する。
本開示は、コンピュータ及び通信の技術分野に関し、具体的には、画像処理方法及び装置、電子機器並びにコンピュータ可読記憶媒体に関する。
ビジョン技術による広告挿入(video-in advertisement)は、作成されたビデオに広告をコンピュータビジョン技術によってインテリジェントに挿入する技術であり、ビデオ前後で広告を挿入したり、販売広告ビデオが浮かび上がるように表示したりする等のような従来のビデオ技術に比べて、ユーザ体験がより良好で、集客量がより多い等の利点を有し、国内外で開発の焦点の技術手段となっている。
説明すべきは、上記の背景技術部分に開示されている情報は、本開示の背景に対して理解を深めるためのものに過ぎないため、当業者の既知の従来技術にならない情報を含み得る。
本開示の実施例は、画像処理方法及び装置、電子機器並びにコンピュータ可読記憶媒体を提供し、ビデオにリンク表示モデルを挿入する効率及び効果を高めることができる。
本開示の他の特性及び利点は以下の詳細な説明から明らかになり、又は部分的に本開示の実践によって習得できる。
本開示の一態様によれば、画像処理方法を提供し、前記方法は、処理対象ビデオを取得するステップであって、前記処理対象ビデオはmフレームの画像を含み、mは2以上の正整数であるステップと、前記処理対象ビデオの第1フレームの画像の目標平面に目標三次元モデルを配置するステップであって、前記目標三次元モデルの目標面の複数の特徴点は前記目標平面上にあるステップと、前記目標面の複数の特徴点の、世界座標系における三次元座標及び前記第1フレームの画像における画素座標を特定するステップと、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第1フレームの画像における画素座標に基づき、前記世界座標系に対する前記第1フレームの画像のカメラ座標系の位置姿勢を特定するステップと、前記目標平面、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第1フレームの画像における画素座標に基づき、前記世界座標系に対する前記処理対象ビデオの第2フレームの画像~第mフレームの画像のカメラ座標系の位置姿勢を特定するステップと、前記目標三次元モデルを目標リンク表示モデルに置き換えて前記世界座標系に配置し、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを含む目標ビデオを生成するステップと、を含む。
本開示の一態様によれば、画像処理装置を提供し、前記装置は、処理対象ビデオを取得するように構成される処理ビデオ取得モジュールであって、前記処理対象ビデオはmフレームの画像を含み、mは2以上の正整数である処理ビデオ取得モジュールと、前記処理対象ビデオの第1フレームの画像の目標平面に目標三次元モデルを配置するように構成される三次元モデル配置モジュールであって、前記目標三次元モデルの目標面の複数の特徴点は前記目標平面上にある三次元モデル配置モジュールと、前記目標面の複数の特徴点の、世界座標系における三次元座標及び前記第1フレームの画像における画素座標を特定するように構成される第1座標特定モジュールと、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第1フレームの画像における画素座標に基づき、前記世界座標系に対する前記第1フレームの画像のカメラ座標系の位置姿勢を特定するように構成される第1位置姿勢特定モジュールと、前記目標平面、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第1フレームの画像における画素座標に基づき、前記世界座標系に対する前記処理対象ビデオの第2フレームの画像~第mフレームの画像のカメラ座標系の位置姿勢を特定するように構成される第2位置姿勢特定モジュールと、前記目標三次元モデルを目標リンク表示モデルに置き換えて前記世界座標系に配置し、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを含む目標ビデオを生成するように構成される目標ビデオ生成モジュールと、を含む。
本開示の実施例の一態様によれば、プロセッサによって実行されると上記実施例に記載の画像処理方法を実現するコンピュータプログラムを記憶したコンピュータ可読記憶媒体を提供する。
本開示の実施例の一態様によれば、1つ又は複数のプロセッサと、前記1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサに上記実施例に記載の画像処理方法を実現させる1つ又は複数のプログラムを記憶するように構成される記憶装置と、を含む電子機器を提供する。
本開示のいくつかの実施例により提供される技術的解決手段において、処理対象ビデオの第1フレームの画像に1つの目標三次元モデルを入れ、該目標三次元モデルを該第1フレームの画像内の1つの目標平面に配置することで、カメラ座標系に対する該第1フレームの画像における目標三次元モデルの位置姿勢を算出し、該目標平面に対する追跡により、カメラ座標系に対する該処理対象ビデオの後の各フレームの画像における目標三次元モデルの位置姿勢を算出することができ、その後、該処理対象ビデオにおける目標三次元モデルを目標リンク表示モデルに置き換えれば、該処理対象ビデオの各フレームの画像に該目標リンク表示モデルを自動的に挿入することができ、もう一方、目標平面を追跡する方式を用いたため、処理対象ビデオにおける画像の特徴点に対する計算に依存せず、視差が大きいビデオを必要とせず、計算量が小さく、速度が速く、操作しやすく、正確性が高く、より多様なビデオに適用でき、ビデオに目標リンク表示モデルを挿入する効率及び効果を高めることができる。
なお、以上の一般説明と以下の詳細説明は解釈するための例示的なものに過ぎず、本開示を制限しないことを理解すべきである。
本開示の実施例の画像処理方法又は画像処理装置を適用できる例示的なシステムアーキテクチャの模式図を示す。 本開示の実施例の実現に適する電子機器のコンピュータシステムの構成図を示す。 本開示の一実施例に係る画像処理方法のフローチャートを模式的に示す。 本開示の別の実施例に係る画像処理方法のフローチャートを模式的に示す。 図3に示すステップS320の一実施例における処理プロセスの模式図を示す。 図3に示すステップS330の一実施例における処理プロセスの模式図を示す。 図6に示すステップS331の一実施例における処理プロセスの模式図を示す。 図3に示すステップS350の一実施例における処理プロセスの模式図を示す。 図3に示すステップS360の一実施例における処理プロセスの模式図を示す。 本開示のさらに別の実施例に係る画像処理方法のフローチャートを模式的に示す。 本開示の一実施例に係る立方体及びその世界座標系の模式図を模式的に示す。 本開示の一実施例に係る立方体の頂点をドラッグすることで立方体の位置姿勢を制御することを示す模式図である。 本開示の一実施例に係る立方体を回転することで立方体の位置姿勢を制御することを示す模式図である。 本開示の一実施例に係る立方体の所在する目標平面を追跡することを示す模式図である。 本開示の一実施例に係る各フレームの画像における立方体を表示することを示す模式図である。 本開示の一実施例に係る各フレームの画像において三次元広告を合成することを示す模式図である。 本開示の一実施例に係る画像処理装置のブロック図を模式的に示す。
ここの図面は、明細書に組み込まれて本明細書の一部を構成し、本開示に合致する実施例を示し、明細書と共に本開示の原理を解釈することに用いられる。当然ながら、上述した図面は本開示の実施例の一部に過ぎず、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面に想到し得る。
次に、図面を参照しながら、例示的実施形態をさらに詳しく説明する。しかし、例示的実施形態は様々な形態で実施することができ、且つ本明細書で説明される例に限定されると解釈されるべきではなく、むしろ、これらの実施形態は、本開示が十分且つ完全になるために、しかも例示的実施形態の思想を当業者に十分に伝えるように、提供される。
また、説明した特徴、構成又は特性は任意の適切な方法により、1つ又は多数の実施例に組み合わせられてもよい。以下の説明において、本開示の実施例を十分に理解できるように、多くの具体的な細部が述べられる。しかし、当業者であれば、1つ又は多数の特定の細部なくても、又は他の方法、要素、装置、ステップ等により、本開示の技術的解決手段を実施できることが認識される。この他、本開示の各態様を紛らわしくさせないために、公知の方法、装置、実施又は操作は詳細に表示又は記載しない。
図面に示すブロック図は機能エンティティに過ぎず、必ずしも物理的に独立したエンティティに対応する必要はない。つまり、ソフトウェアの形式でこれらの機能エンティティを実現してもよく、又は1つ又は複数のハードウェアモジュール又は集積回路においてこれらの機能エンティティを実現してもよく、又は異なるネットワーク及び/又はプロセッサ装置及び/又はマイクロコントローラ装置においてこれらの機能エンティティを実現してもよい。
図面に示すフローチャートは例示的な説明に過ぎず、必ずしも全ての内容及び操作/ステップを含む必要はなく、必ずしも説明された順序で行う必要もない。例えば、一部の操作/ステップが分解してもよく、一部の操作/ステップが統合又は部分的に統合してもよいため、実際の実行順は実際の状況に応じて変更し得る。
人工知能(Artificial Intelligence:AIと略称)は、デジタルコンピュータ又はデジタルコンピュータに制御される機械を用いて人間の知能をシミュレーション、延長及び拡張し、環境を知覚し、知識を取得して使用することで最良の結果を得る理論、方法、技術及び応用システムである。言い換えれば、人工知能はコンピュータ科学の総合技術であり、知能の本質を理解し、人間知能と同様な方式で反応できる新たな知能機械を創出することを意図するものである。つまり、人工知能は様々な知能機械の設計原理と実現方法を研究し、機械に知覚、推論及び意思決定の機能を備えるものである。
人工知能技術は総合学科であり、広範な技術が関連し、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能の基本的技術は一般的にセンサ、特化型人工知能チップ、クラウドコンピューティング、分散記憶、ビッグデータの処理技術、操作/対話システム、電気機械一体化等の技術を含む。人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習等の研究方向がある。
コンピュータビジョン技術(Computer Vision:CVと略称)はどのように機械に「見る」という動作をさせるかについて研究する科学であり、さらに言えば、人の目に代えてカメラ及びコンピュータで目標に対して認識、追跡及び測定する等のマシンビジョン処理を行い、更なる画像処理を行い、コンピュータで、人間の目での観察又は機器への送信検出に適した画像になるように処理することを意味する。科学学科としてコンピュータビジョンでは関連理論及び技術を研究し、画像又は多次元データから情報を取得可能な人工知能システムを確立しようとしている。コンピュータビジョン技術は一般的に画像処理、画像認識、画像意味解析、画像検索、OCR(Optical Character Recognition:光学文字認識)、ビデオ処理、ビデオ意味解析、ビデオ内容/行動認識、三次元物体の再構成、3D(3 dimension:三次元)技術、仮想現実、拡張現実、同期測位及び地図作成等の技術を含み、一般的な顔認識、指紋認識等の生体特徴認識技術も含む。
機械学習(Machine Learning:MLと略称)は複数の分野を横断する総合的な学科であり、確率論、統計学、近似論、凸解析、アルゴリズム複雑度理論等複数の学科に関わっている。コンピュータが新しい知識又はスキルを取得し、既存の知識構成を再構築して自身の性能を向上させるためにどのように人間の学習行動をシミュレート又は実現するかを専門として研究している。機械学習は人工知能の核心であり、コンピュータに知能を持たせる根本的な手段であり、人工知能の各分野にわたって応用されている。機械学習及び深層学習は一般的に人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納学習、教師あり学習等の技術を含む。
ブロックチェーンは分散データ記憶、ピアツーピア伝送、コンセンサスメカニズム、暗号化アルゴリズム等のコンピュータ技術の新規の応用形態である。ブロックチェーン(Blockchain)は、本質的には脱中心化のデータベースであり、暗号化方法で関連付けて生じる一連のデータブロックであり、各データブロックには1バッチのネットワーク取引情報が含まれ、それは情報の有効性検証(偽造防止)及び次のブロックの生成に用いられる。ブロックチェーンはブロックチェーンの下層プラットフォーム、プラットフォーム製品サービス層及びアプリケーションサービス層を含むことができる。
ブロックチェーンの下層プラットフォームはユーザ管理、基本サービス、インテリジェントコントラクト及び運営監視等の処理モジュールを含むことができる。そのうち、ユーザ管理モジュールは、公開鍵及び秘密鍵生成の維持(アカウント管理)、鍵管理及びユーザの真の身元とブロックチェーンアドレスとの対応関係の維持(権限管理)等を含むブロックチェーン参加者の身元情報管理の全てを担当し、そして許可を得た場合、一部の真の身元の取引状況を監督及び監査し、リスク管理のルールを制定する(リスク管理及び監査)。基本サービスモジュールは、全てのブロックチェーンノード機器に配置され、サービスリクエストの有効性を検証し、有効なリクエストへのコンセンサスを達成した後メモリに記憶するように構成され、新しいサービスリクエストについて、基本サービスはまず、インタフェースの適合性解析及び認証処理を行い(インタフェース適合)、次に、コンセンサスアルゴリズムによってサービス情報を暗号化し(コンセンサス管理)、暗号化後、完全一致で共有台帳へ伝送し(ネットワーク通信)、記録記憶する。インテリジェントコントラクトモジュールは、コントラクトの登録と発行、コントラクトトリガ、及びコントラクト実行を担当し、開発者があるプログラミング言語でコントラクト論理を定義し、ブロックチェーンに送信し(コントラクト登録)、コントラクト条項の論理に基づき、鍵又は他のイベントを呼び出して実行をトリガし、コントラクト論理を完了することができるほか、コントラクトのアップグレード及び登録解除の機能も提供する。運営監視モジュールは、主に製品リリース時の手配、構成の修正、コントラクト設定、クラウドアダプテーション、及び製品動作中のリアルタイム状態の視覚的出力、例えば警告、ネットワーク状況監視、ノード機器健全状態監視等を担当する。
プラットフォーム製品サービス層は、典型的なアプリケーションの基本能力及び実現アーキテクチャを提供し、開発者はこれらの基本能力を基礎として、サービス特性を積み重ね、サービス論理のブロックチェーンによる実現を達成することができる。アプリケーションサービス層は、ブロックチェーン方式に基づくアプリケーションサービスをサービス参加者用に提供する。
本願の実施例により提供される解決手段は人工知能におけるコンピュータビジョンや機械学習、及びブロックチェーン等の技術に関し、具体的には以下の実施例により説明する。
図1は、本開示の実施例の画像処理方法又は画像処理装置を適用できる例示的なシステムアーキテクチャ100の模式図を示す。
図1に示すように、システムアーキテクチャ100は、端末機器101、102、103の1つ又は複数と、ネットワーク104と、サーバ105とを含んでもよい。ネットワーク104は、端末機器101、102、103とサーバ105との間で通信リンクの媒体を提供するために用いられる。ネットワーク104は、例えば有線、無線通信リンク又は光ファイバケーブル等、各種接続タイプを含んでもよい。
図1における端末機器、ネットワーク及びサーバの数は、例示的なものに過ぎないと理解されるべきである。実現で、必要に応じて、任意の数の端末機器、ネットワーク及びサーバを有してもよい。例えば、サーバ105は複数のサーバからなるサーバクラスタ等であってもよい。
ユーザは、端末機器101、102、103を使用してネットワーク104を介してサーバ105と対話することで、メッセージ等を送受信することができる。端末機器101、102、103は表示画面を有する様々な電子機器であってもよく、ウェアラブルインテリジェントデバイス、仮想現実機器、インテリジェントホーム、スマートフォン、タブレット、携帯型コンピュータ、デスクトップコンピュータ、ジタルシネマプロジェクタ等を含むがこれらに限定されない。
サーバ105は様々なサービスを提供するサーバであってもよい。例えば、ユーザは端末機器103(端末機器101又は102であってもよい)を用いて処理対象ビデオを開き、前記処理対象ビデオの第1フレームの画像に目標三次元モデルをドラッグインし、前記目標三次元モデルの目標面の複数の特徴点が前記第1フレームの画像の目標平面上にあるように前記目標三次元モデルの位置姿勢を調整し、前記処理対象ビデオはmフレームの画像を含み、mは2以上の正整数である。ユーザは端末機器103を用いてサーバ105にリクエストを送信し、サーバ105は、該リクエストに含まれている関連情報に基づき、前記目標面の複数の特徴点の、世界座標系における三次元座標及び前記第1フレームの画像における画素座標を取得し、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第1フレームの画像における画素座標に基づき、前記世界座標系に対する前記第1フレームの画像のカメラ座標系の位置姿勢を特定し、前記目標平面、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第1フレームの画像における画素座標に基づき、前記世界座標系に対する前記処理対象ビデオの第2フレームの画像~第mフレームの画像のカメラ座標系の位置姿勢を特定し、そして前記目標三次元モデルを目標リンク表示モデルに置き換えて前記世界座標系に配置し、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを含む目標ビデオを生成することができ、サーバ105は、該目標ビデオを端末機器103に返信することができ、これによって、ユーザは端末機器103で、前記目標リンク表示モデルを含む表示された目標ビデオを確認することができる。
別の例として、端末機器103(端末機器101又は102であってもよい)は、インテリジェントテレビ、VR(Virtual Reality:仮想現実)/AR(Augmented Reality:拡張現実)ヘッドマウントディスプレイ、又はインスタントメッセンジャ、ビデオアプリケーション(application:APPと略称)等がインストールされた携帯端末、例えばスマートフォン、タブレットコンピュータ等であってもよく、ユーザは、該インテリジェントテレビ、VR/ARヘッドマウントディスプレイ又は該インスタントメッセンジャ、ビデオAPPによってサーバ105に様々なリクエストを送信することができる。サーバ105は、該リクエストに基づき、前記リクエストに応答するフィードバック情報を取得して該インテリジェントテレビ、VR/ARヘッドマウントディスプレイ又は該インスタントメッセンジャ、ビデオAPPに返信し、さらに該インテリジェントテレビ、VR/ARヘッドマウントディスプレイ又は該インスタントメッセンジャ、ビデオAPPによって返信されたフィードバック情報を表示することができる。
図2は、本開示の実施例の実現に適する電子機器のコンピュータシステムの構成図を示す。
説明すべきは、図2に示す電子機器のコンピュータシステム200は例示的なものに過ぎず、本開示の実施例の機能及び使用範囲を一切限定しない点である。
図2に示すように、コンピュータシステム200は、中央処理ユニット(CPU:Central Processing Unit)201を含み、それは読み取り専用メモリ(ROM:Read-Only Memory)202に記憶されたプログラム又は記憶部208からランダムアクセスメモリ(RAM:Random Access Memory)203にロードされたプログラムによって各種の適切な動作及び処理を実行することができる。RAM 203には、システムの動作に必要な各種のプログラムやデータが記憶されている。CPU 201、ROM 202及びRAM 203は、通信バス204を介して相互に接続される。入力/出力(I/O)インタフェース205も通信バス204に接続される。
キーボード、マウス等を含む入力部206と、陰極線管(CRT:Cathode Ray Tube)、液晶ディスプレイ(LCD:Liquid Crystal Display)等及びスピーカー等を含む出力部207と、ハードディスク等を含む記憶部208と、LAN(Local Area Network:ローカルエリアネットワーク)カード、モデム等のネットワークインタフェースカードを含む通信部209とがI/Oインタフェース205に接続されている。通信部209は例えばインタネットのようなネットワークを介して通信処理を行う。ドライバ210も必要に応じてI/Oインタフェース205に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等のリムーバブル媒体211は、必要に応じてドライバ210上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部208にインストールする。
特に、本開示の実施例によれば、以下フローチャートを参照しながら説明するプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それはコンピュータ可読記憶媒体に搭載されるコンピュータプログラムを含み、該コンピュータプログラムはフローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムは通信部209によってネットワークからダウンロード及びインストールされ、及び/又はリムーバブル媒体211からインストールされ得る。該コンピュータプログラムが中央処理ユニット(CPU)201によって実行されると、本願の方法及び/又は装置で限定される各種の機能を実行する。
なお、本開示に示すコンピュータ可読記憶媒体はコンピュータ可読信号媒体、又はコンピュータ可読記憶媒体、又は上記両方の任意の組み合わせであってよい点である。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線又は半導体のシステム、装置又はデバイス、又はそれらの任意の組み合わせであってよいが、それらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1つ又は複数の導線を有する電気的接続、携帯型コンピュータディスク、ハードディス、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM(Erasable Programmable Read Only Memory:イレーサブル・プログラマブル読み取り専用メモリ)又はフラッシュメモリ)、光ファイバー、コンパクトディスク・リード・オンリー・メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はそれらの任意の適切な組み合わせを含んでもよいが、これらに限定されない。本開示では、コンピュータ可読記憶媒体はプログラムを含むか記憶するいかなる有形媒体であってもよく、該プログラムは命令実行システム、装置又はデバイスに使用されるか、それらと組み合わせて使用されることが可能である。本開示では、コンピュータ可読信号媒体はベースバンド内で又は搬送波の一部として伝播されるデータ信号を含んでよく、その中にコンピュータ可読プログラムコードが搭載される。このように伝播されるデータ信号は多種の形式を採用してよく、電磁信号、光信号又はそれらの任意の適切な組み合わせを含むが、それらに限定されない。コンピュータ可読信号媒体はさらにコンピュータ可読記憶媒体以外の任意のコンピュータ可読記憶媒体であってもよく、該コンピュータ可読記憶媒体は命令実行システム、装置又はデバイスに使用されるかそれらと組み合わせて使用されるプログラムを送信、伝播又は伝送することができる。コンピュータ可読記憶媒体に含まれるプログラムコードは任意の適切な媒体で伝送可能であり、無線、電線、光ケーブル、RF(Radio Frequency、ラジオ周波数)等又はそれらの任意の適切な組み合わせを含むが、それらに限定されない。
図面のうちフローチャート及びブロック図は本開示の種々の実施例の方法、装置及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び動作を示す。この点では、フローチャート又はブロック図における各ブロックは1つのモジュール、プログラムセグメント又はコードの一部を代表することができ、上記モジュール、プログラムセグメント、又はコードの一部は指定された論理機能を実現するための1つ又は複数の実行可能命令を含む。なお、いくつかの置換としての実現形態では、ブロックに表記される機能は図面に付したものと異なる順序で実現してもよい点にも注意すべきである。例えば、2つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、それらは逆な順序で実行してもよい場合がある。なお、ブロック図又はフローチャートにおける各ブロック、及びブロック図又はフローチャートにおけるブロックの組み合わせは、指定される機能又は動作を実行するハードウェアに基づく専用システムによって実現してもよいし、又は専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
本開示に記載の実施例に係るモジュール及び/又はユニット及び/又はサブユニットは、ソフトウェアの方式で実現されてもよく、ハードウェアの方式で実現されてもよく、記載されたモジュール及び/又はユニット及び/又はサブユニットは、プロセッサに設けてもよい。これらのモジュール及び/又はユニット及び/又はサブユニットの名称は、該モジュール及び/又はユニット及び/又はサブユニット自身を限定しない場合がある。
別の態様として、本願はさらにコンピュータ可読記憶媒体を提供し、該コンピュータ可読記憶媒体は、上記実施例に記載の電子機器に含まれるものであってもよく、又は単独で存在し、該電子機器に組み込まれていないものであってもよい。上記コンピュータ可読記憶媒体に1つ又は複数のプログラムが搭載されており、上記1つ又は複数のプログラムが該電子機器に実行されると、該電子機器に下記実施例に記載の方法を実現させる。例えば、前記電子機器は、図3、図4、図5、図6、図7、図8、図9、又は図10に示す各ステップを実現することができる。
関連技術におけるビデオに三次元広告を挿入する方法は、一般的に三次元再構成アルゴリズムSLAM(Simultaneous localization and mapping:同時測位及び地図作成、又は同時構図及び測位)又はSFM(structure from motion:動き再構成)に基づき、ビデオの各フレームの画像の場面全体に対して三次元再構成を行い、三次元空間を得て、各フレームの画像のカメラ位置及び姿勢を算出する。その後、三次元広告モデルを該三次元空間に入れ、各フレームの画像に投影することで、三次元広告の挿入を実現する。
図3は、本開示の一実施例に係る画像処理方法のフローチャートを模式的に示す。本開示の実施例により提供される方法は計算処理能力を有する任意の電子機器、例えば図1の端末機器101、102、103の1つ又は複数及び/又はサーバ105によって実行され得る。
図3に示すように、本開示の実施例により提供される画像処理方法は以下のステップを含んでもよい。
ステップS310では、処理対象ビデオを取得し、前記処理対象ビデオはmフレームの画像を含み、mは2以上の正整数である。
本開示の実施例において、前記処理対象ビデオは、例えば現在、何かしらの広告を挿入しようとするビデオであってよい。処理対象ビデオに対してデフレーミング処理を行うことで、そこに含ませて該広告に挿入しようとするmフレームの画像を抽出することができるが、ここでは、前記処理対象ビデオがこのmフレームの画像のみを含むことを限定しない。
ステップS320では、前記処理対象ビデオの第1フレームの画像の目標平面に目標三次元モデルを配置し、前記目標三次元モデルの目標面の複数の特徴点は前記目標平面上にある。
本開示の実施例において、前記第1フレームの画像は、上記抽出されたmフレームの画像のうち、時間的に最初の1フレーム目の画像であってもよく、それを0又は1で番号付けしてもよい(以下において、1で番号付けすることを例とする)。しかし、本開示はこれに限定されず、他の実施例において、上記抽出されたmフレームの画像のうちの任意の1フレームを該第1フレームの画像としてもよい。
本開示の実施例において、前記第1フレームの画像の目標平面とは、ユーザが該広告を配置しようとするある平面を意味し、例えば、該第1フレームの画像におけるテーブル面、腰掛け面、ピアノ面、机面、地面等のいずれか1つであってよい。
本開示の実施例において、前記目標三次元モデルは、立方体、直方体、ルービックキューブ、四角錐、球体、円柱体等のいずれか1つであってよい、本開示はこれを限定しない。さらに、前記目標三次元モデルとして、挿入対象の広告自体の三次元モデル、例えば下記実施例に記載される赤色のコーラ缶をそのまま該第1フレームの画像に入れてもよい。以下に示す例では、いずれも前記目標三次元モデルが立方体であることを例として説明する。例えば、挿入しようとする広告が赤色のコーラ缶である場合、前記目標三次元モデルとして辺長が0.1メートルの立方体を用いることができるが、本開示はこれに限定されず、入れる目標三次元モデルの寸法が挿入しようとする広告の体積寸法にほぼ適合すればよく、ユーザが挿入しようとする広告の形状及び寸法が変わったら、入れる目標三次元モデルの形状及び寸法を適宜調整することができる。ここで目標三次元モデルとして立方体を用いたのは、立方体の形状で、位置姿勢が正確であるか否かが視覚的に分かりやすく、位置や姿勢がより調整しやすいからである。
立方体を例にすると、該立方体の底面(世界座標系では、x軸、y軸からなる平面)を該立方体の目標面として決定し、且つ該立方体の底面の4つの頂点を4つの特徴点とし、該第1フレームの画像において立方体の位置及び姿勢(位置姿勢と略称)を調整し、該立方体の底面の4つの頂点が該目標平面上にあるようにすることができる。
説明すべきは、他の実施例において、立方体の底面を目標面として用いることに限定されず、立方体の任意の1つの面を目標面とすることができる点である。また、目標面の頂点を特徴点として用いることにも限定されず、目標面における任意の標定しやすいいくつかの特徴点を用いることができる。特徴点の数も前記で挙げた4つに限られず、例えば5つの特徴点又は6つの特徴点等であってもよい。他の三次元モデルを該目標三次元モデルとして使用する場合、その目標面は頂点を有する形状に限定されず、円形/楕円形等のような頂点を有しない形状であってもよく、例えば、円柱体を目標三次元モデルとして用いる場合、その底部の円形を目標面とし、該円形におけるいくつかの特徴点を標定すればよい。決定された目標面が頂点を有する図形である場合においても、目標面が四角形等の図形に限定されず、例えば、三角形である場合、三角形が3つの頂点しか有しないが、3つの頂点及び他の特徴点をその複数の特徴点とすることができる。つまり、取られた少なくとも4つの特徴点の目標三次元モデルの世界座標系における三次元座標を特定することができればよい。別の例として、目標三次元モデルが球体である場合、球体の中心を座標原点とし、中心を通る1つの断面を目標面とし、該断面の球面と交わる円上の点を特徴点とすることができる。
ステップS330では、前記目標面の複数の特徴点の、世界座標系における三次元座標及び前記第1フレームの画像における画素座標を特定する。
ステップS340では、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第1フレームの画像における画素座標に基づき、前記世界座標系に対する前記第1フレームの画像のカメラ座標系の位置姿勢を特定する。
ステップS350では、前記目標平面、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第1フレームの画像における画素座標に基づき、前記世界座標系に対する前記処理対象ビデオの第2フレームの画像~第mフレームの画像のカメラ座標系の位置姿勢を特定する。
ステップS360では、前記目標三次元モデルを目標リンク表示モデルに置き換えて前記世界座標系に配置し、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを含む目標ビデオを生成する。
本開示は選択する目標三次元モデル及び目標リンク表示モデルの形状や構造を限定せず、目標平面及び目標面は三角形、四角形等に限定されず、円形、楕円形等任意の形状であってもよい。
本開示の実施例において、依然としてビデオに広告を挿入する応用場面を例とし、前記目標リンク表示モデルは、例えば目標三次元広告モデルであってもよく、当業者であれば、二次元広告を無限に薄い三次元広告とみなすことができるため、本開示の実施例により提供される解決手段を二次元広告の挿入に用いることもできることが理解される。
本開示の実施形態により提供される画像処理方法は、処理対象ビデオの第1フレームの画像に1つの目標三次元モデルを入れ、該目標三次元モデルを該第1フレームの画像内の1つの目標平面に配置することで、カメラ座標系に対する該第1フレームの画像における目標三次元モデルの位置姿勢を算出し、該目標平面に対する追跡により、カメラ座標系に対する該処理対象ビデオの後の各フレームの画像における目標三次元モデルの位置姿勢を算出することができ、その後、該処理対象ビデオにおける目標三次元モデルを目標リンク表示モデルに置き換えれば、該処理対象ビデオの各フレームの画像に該目標リンク表示モデルを自動的に挿入することができ、一方、目標平面を追跡する方式を用いたため、処理対象ビデオにおける画像の特徴点に対する計算に依存せず、視差が大きいビデオを必要とせず、計算量が小さく、速度が速く、操作しやすく、正確性が高く、より多様なビデオに適用でき、ビデオに目標リンク表示モデルを挿入する効率及び効果を高めることができる。
図4は、本開示の別の実施例に係る画像処理方法のフローチャートを模式的に示す。
図4に示すように、本実施例と上記実施例との相違点は、本開示の実施例により提供される画像処理方法が以下のステップをさらに含んでもよいことである。
ステップS410では、ニューラルネットワークモデルによって前記第1フレームの画像を処理し、前記第1フレームの画像における少なくとも1つの平面を得る。
本開示の実施例において、前記ニューラルネットワークモデルは、インスタンスセグメンテーション(Instance segmentation)を行うことができる任意の深層学習モデル、例えばMask R-CNN(Mask Region- Convolutional Neural Networks:マスク領域畳み込みニューラルネットワーク)であってよい。
例示的実施例において、前記方法は、サンプル画像及びそのラベル付けされた平面位置と平面タイプを含む訓練データセットを取得するステップと、前記訓練データセットを用いて前記ニューラルネットワークモデルを訓練するステップと、をさらに含んでもよい。
本開示の実施例において、まず一群のサンプル画像に平面位置及び平面タイプ、例えばテーブル面、壁面、ピアノ平面、腰掛け面等を事前にラベル付けし、次にこれらのサンプルを用いてニューラルネットワークモデルを訓練する。その後、広告を挿入しようとする処理対象ビデオの第1フレームの画像をこの訓練済みのニューラルネットワークモデルに入力すると、第1フレームの画像における各平面を分割することができる。
ステップS420では、前記第1フレームの画像に対する平面選択命令に応答して、前記少なくとも1つの平面から前記目標平面を特定する。
例えば、赤色のコーラ缶という目標三次元広告を処理対象ビデオの画像におけるピアノ平面に挿入しようとする場合、該第1フレームの画像におけるピアノ平面を前記目標平面とすることができる。
他の実施例において、ユーザが該第1フレームの画像におけるある平面を手動で前記目標平面として選択するようにしてもよく、例えば、ユーザがマウスをドラッグし、該第1フレームの画像のピアノ平面にマークを付けた場合、該ピアノ平面を前記目標平面として利用し、本開示は、目標平面を特定する方式を限定しない。
図5は、図3に示すステップS320の一実施例における処理プロセスの模式図を示す。
図5に示すように、本開示の実施例において、上記ステップS320は以下のステップをさらに含んでもよい。
ステップS321では、前記第1フレームの画像に前記目標三次元モデルを追加する追加命令に応答して、前記目標三次元モデルを前記第1フレームの画像に追加する。
例えば、ユーザは指又はマウスで立方体を押し、前記処理対象ビデオの第1フレームの画像にドラッグインしてもよく、又は追加等の機能ボタンによって、選択された又はデフォルトの目標三次元モデルを第1フレームの画像に追加してもよい。
ステップS322では、前記目標三次元モデルの目標面及びその複数の特徴点を特定する。
例えば、立方体の底面を立方体の目標面とし、立方体の底面的4つの頂点を4つの特徴点とすることができる。
ステップS323では、前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルの位置姿勢を調整する。
例示的実施例において、前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルの位置姿勢を調整するステップは、前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルの複数の特徴点を調整するステップ、又は、前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルを回転するステップを含んでもよい。
例えば、立方体を処理対象ビデオの第1フレームの画像にドラッグインした後、該第1フレームの画像において、立方体の底面の4つの頂点が第1フレームの画像の目標平面上にあるように、ユーザが立方体の複数の頂点を手動で調整し又は該立方体を回転することができる。別の例として、該立方体の底面の4つの頂点が第1フレームの画像の目標平面上にあるように、AIによって該第1フレームの画像における目標平面及び立方体を自動的に認識し、該立方体の位置姿勢を自動的に調整することもできる。その後、立方体の所在する目標平面、及び立方体の目標平面における4つの点(立方体の底面の4つの頂点であってもよいし、底面の他の任意の4つの画素点であってもよく、以下に示す例ではいずれも4つの頂点を例として説明する)を記録することができる。
図6は、図3に示すステップS330の一実施例における処理プロセスの模式図を示す。
図6に示すように、本開示の実施例において、上記ステップS330は以下のステップをさらに含んでもよい。
ステップS331では、前記目標三次元モデルに基づき、前記世界座標系を確立する。
ステップS332では、前記目標面の複数の特徴点の前記世界座標系における三次元座標を特定する。
ステップS333では、前記目標面の複数の特徴点が前記目標平面上にあるとき、前記目標面の複数の特徴点の前記第1フレームの画像における画素座標を記録する。
立方体の底面を目標面とすることを例にすると、その底面のa、b、c、d(図11を参照)という4つの頂点の前記第1フレームの画像における画素座標を
Figure 0007270761000001
と記すことができる。
図7は、図6に示すステップS331の一実施例における処理プロセスの模式図を示す。
図7に示すように、本開示の実施例において、上記ステップS331は以下のステップをさらに含んでもよい。
ステップS3311では、前記立方体の最左上の特徴点を原点とする。
ステップS3312では、前記最左上の特徴点と交わる前記立方体の3つの辺を座標軸とし、前記世界座標系を確立する。
ここで、立方体の底面のa、b、c、dという4つの頂点の前記世界座標系における三次元座標を
Figure 0007270761000002
と記録する。
他の三次元モデル、例えば四角錐を前記目標三次元モデルとして用いる場合、四角錐の底面の最左下の頂点を原点とし、原点から右の頂点までをx軸とし、原点から左上頂点までをy軸とし、この底面に垂直な方向をz軸とし、該四角錐の世界座標系として直交座標系を確立することができる。
図8は、図3に示すステップS350の一実施例における処理プロセスの模式図を示す。
図8に示すように、本開示の実施例において、上記ステップS350は以下のステップをさらに含んでもよい。
ステップS351では、前記第1フレームの画像における目標平面に対する前記処理対象ビデオの第jフレームの画像における目標平面のホモグラフィ行列を特定し、それは前記第jフレームの画像のホモグラフィ行列と呼ばれ、jは2以上且つm以下の正整数である。
ホモグラフィは、射影幾何学における概念であり、射影変換とも呼ばれる。それは1つの射影平面における点(三次元斉次ベクトル)を別の射影平面にマッピングし、直線を直線としてマッピングし、線を確保する性質を有する。一般的に言えば、ホモグラフィは、三次元斉次ベクトルに関する線形変換であり、3×3の非特異行列Hで表すことができる。
本開示の実施例において、ビデオに広告を挿入する応用場面を例にし、処理対象ビデオにおける目標平面Bを追跡し、該目標平面Bの各フレームの画像における領域及び変形を計算し、つまり、別のフレームの画像における該目標平面Bに対する現フレームの画像における目標平面Bのホモグラフィ行列を計算する。その後の各フレームの画像において、平面追跡の方式で目標平面Bを追跡し、ホモグラフィ行列を計算する。
以下において、処理対象ビデオの第1フレーム、第2フレーム及び第3フレームの画像を例として説明する。
まず、処理対象ビデオの第1フレームの画像に広告挿入しようとする目標平面Bを選択し、目標平面B上の全ての画素座標Aを特定する。
Figure 0007270761000003
であり、ここで
Figure 0007270761000004
は目標平面BのAにおけるi番目の画素点を表し、合計でn個の画素点があり、nは1以上の正整数、iは1以上且つn以下の正整数であると仮定する。
該処理対象ビデオの第2フレームの画像のホモグラフィ行列Hの初期値が単位行列
Figure 0007270761000005
であると仮定する。次に、HでAを第2フレームの画像にマッピングし、目標平面B上の全ての画素座標Aを得て、
Figure 0007270761000006
である。例えば、Aにおける1番目の画素点の画素座標は
Figure 0007270761000007
であり、Aにマッピングされる1番目の画素点の画素座標は
Figure 0007270761000008
であり、計算式は以下のとおりである。
Figure 0007270761000009
式中、
Figure 0007270761000010
次に、Aにおける各画素点の画素値と対応するAの各画素点の画素値との残差を計算することで相関度fを計算する。相関度fはAとAの類似度を評価するものであり、その計算方法は、SSD(sum of squared differences:誤差の平方和)であってもよく、ピアソン相関法等であってもよい。相関度fに基づいてホモグラフィ行列Hを最適化する(H2,0と記す)。例えば、相関度fの値が最大となるように、Hに対して調整ΔHを行うことができ、その最適化式は以下のとおりである。
Figure 0007270761000011
上記式中、IとIはそれぞれ処理対象ビデオの第1フレームの画像と第2フレームの画像を表し、最適値
Figure 0007270761000012
の具体的な計算方法として、勾配降下法、ガウスニュートン法及びニュートン法等のいずれか1つを用いることができる。
Figure 0007270761000013
は最適化されたΔHを表す。ΔHの初期値はゼロ行列であるため、ガウスニュートン法等の方法で最適化してから、初めて最適値
Figure 0007270761000014
となる。
最適化されたH2,0を得る。その更新は、下式に示されるとおりである。
Figure 0007270761000015
その後、最適化されたH2,0を処理対象ビデオの第3フレームの画像のホモグラフィ行列Hの仮定初期値とし、HでAを第3フレームの画像にマッピングし、最適化されたH3,0を得る。その後、最適化されたH3,0を処理対象ビデオの第4フレームの画像のホモグラフィ行列Hの仮定初期値とし……このように第mフレームの画像まで繰り返す。
本開示の実施例において、あるフレームの画像における目標平面Bには人、車のような前景遮蔽物が存在する場合、遮蔽された部分の画素については、残差を計算しない。遮蔽された領域を認識する方法は、手動で選択される方法であってもよく、又は何らかの深層学習方法であってもよい。つまり
Figure 0007270761000016
のうち、相関度fの計算に関与する画素は、全て非遮蔽の画素である。
本開示の実施例により提供される解決手段は、特徴点の抽出に依存せず、目標平面の輝度変化が小さく、テクスチャが豊富でない場合でも動作できる。そして目標平面全体の情報を十分に利用することができる。本開示の実施例により提供される平面追跡方法は毎回、1個前のフレームの最適化されたホモグラフィ行列を次フレームのホモグラフィ行列の初期値として使用し、その上で、次フレームのホモグラフィ行列を最適化し、計算速度が速く、処理対象ビデオにおける目標平面を効果的に追跡することができる。また、目標平面が遮蔽された場合、目標平面を観察する角度に制限されずに、第1フレームに対する後の画像の観察角度が大きく変化した場合でも効果的に追跡することができる。
他の実施例において、特徴点法で目標平面を追跡することもできる。それは異なるフレームの画像の特徴点をマッチングすることで、異なるフレームの画像の間のホモグラフィ行列を計算する。
ステップS352では、前記第jフレームの画像のホモグラフィ行列と前記目標面の複数の特徴点の前記第1フレームにおける画素座標とに基づき、前記目標面の複数の特徴点の前記第jフレームの画像における画素座標を特定する。
依然として立方体の底面を目標面とすることを例にし、まず平面追跡の方式で、第1フレームの画像における目標平面に対する第jフレームの画像における目標平面Bのホモグラフィ行列Hj,0を算出する。次に、ホモグラフィ行列Hj,0に基づき、立方体の底面の4つの頂点の第jフレームの画像における画素座標
Figure 0007270761000017
を算出し、計算式は例えば以下のとおりである。
Figure 0007270761000018
説明すべきは、本開示において平面追跡の方法を使用してホモグラフィ行列を計算し、その後ホモグラフィ行列に基づき、立方体の底面の4つの頂点の現フレームの画像における画素座標を計算することが限定されない。他の実施例において、特徴点マッチングの方法を用いて、この4つの頂点の各フレームの画像における画素座標を直接追跡してマッチングすることもできる。
ステップS353では、前記処理対象ビデオのカメラ内部パラメータと、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第jフレームの画像における画素座標とに基づき、前記世界座標系に対する前記処理対象ビデオの第jフレームの画像のカメラ座標系の位置姿勢を特定する。
カメラ内部パラメータKが既知であると仮定し、カメラ内部パラメータKが未知である場合、処理対象ビデオの画像を深層学習モデルに入力し、カメラ内部パラメータKを習得させることができる。ここの深層学習モデルは、例えば深度単一画像カメラキャリブレーションのための知覚測定方法(A Perceptual Measure for Deep Single Image Camera Calibration)のような、「Single Image Camera Calibration(単一画像カメラキャリブレーション)」を実現できる任意の深層学習モデルであってよい。
本開示の実施例において、第1フレームの画像の後の各フレームの画像において、第1フレームの画像に対する目標平面Bのホモグラフィ行列を算出する。ホモグラフィ行列に基づき、第jフレームの画像における立方体の底面の4つの特徴点の画素座標
Figure 0007270761000019
を算出する。その後、この4つの特徴点の画素座標
Figure 0007270761000020
、立方体の底面の4つの特徴点の三次元座標
Figure 0007270761000021
、及びカメラ内部パラメータKに基づき、第jフレームの画像における立方体の位置及び姿勢を算出する。
例えば、立方体の底面の4つの頂点の三次元座標
Figure 0007270761000022
、それらの第jフレームの画像における画素座標
Figure 0007270761000023
、及びカメラ内部パラメータKをPnP(Perspective-n-Point:透視-n-点)アルゴリズムに入力して計算し、世界座標系
Figure 0007270761000024
に対する第jフレームの画像のカメラ座標系の位置t及び姿勢Rを得ることができる。次に、立方体を現フレームの画像に投影して表示することができる。
説明すべきは、本開示においてPnPの方法で立方体の位置姿勢を計算することを限定せず、目標三次元モデルの目標面の複数の特徴点の、世界座標系における三次元座標及び現フレームの画像における画素座標を入力することで、世界座標系に対する現フレームの画像のカメラ座標系の位置t及び姿勢Rを算出可能であるという機能を実現できれば、他の任意の方法であってもよい点である。
図9は、図3に示すステップS360の一実施例における処理プロセスの模式図を示す。
図9に示すように、本開示の実施例において、上記ステップS360は以下のステップをさらに含んでもよい。
ステップS361では、前記世界座標系に対する前記処理対象ビデオの第2フレームの画像~第mフレームの画像のカメラ座標系の位置姿勢に基づき、前記目標三次元モデルを前記処理対象ビデオの第2フレームの画像~第mフレームの画像にそれぞれ投影する。
例えば、世界座標系に対する現フレームの画像のカメラ座標系の位置及び姿勢に基づき、立方体を現フレームの画像の画面に投影する。
ステップS362では、前記目標三次元モデルを前記目標リンク表示モデルに置き換えて、前記処理対象ビデオの各フレームの画像の前記世界座標系に配置する。
ステップS363では、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを前記処理対象ビデオの各フレームの画像に投影する。
ステップS364では、前記処理対象ビデオの各フレームの画像を合成し、前記目標リンク表示モデルを含む目標ビデオを生成する。
例えば、処理対象ビデオの各フレームの画像において、立方体を目標三次元広告モデルに置き換える。目標三次元広告モデルを各フレームの画像に投影し、各フレームの画像を合成して前記目標リンク表示モデルを含む目標ビデオを生成する。
具体的には、前のステップによって、世界座標系に対する処理対象ビデオの全てのフレームの画像のカメラ座標系の位置及び姿勢を算出し、目標三次元広告モデルを世界座標系に配置し、各フレームの画像の位置姿勢に基づき、目標三次元広告モデルを各フレームの画像に投影し、目標三次元広告モデルを含む目標ビデオを合成する。
例えば、立方体の底面上のある頂点を原点とし、三次元直交座標系を前記世界座標系として確立する。赤色のコーラ缶の三次元モデルは、独自の参照座標系を有する。赤色のコーラ缶の参照座標系を立方体の三次元直交座標系として定義することができ、つまり、立方体に対する赤色のコーラ缶の位置及び姿勢(固定で変わらないものである)を得れば、カメラ座標系に対する赤色のコーラ缶の位置及び姿勢を算出し、置き換えを実現することができる。計算過程は以下のとおりである。
Figure 0007270761000025
上記式中、
Figure 0007270761000026
はカメラ座標系に対する赤色のコーラ缶の位置姿勢を表し、
Figure 0007270761000027
はカメラ座標系に対する立方体の位置姿勢を表し、
Figure 0007270761000028
は立方体に対する赤色のコーラ缶の位置姿勢を表す。また、最初からこの赤色のコーラ缶が立方体に入れ、赤色のコーラ缶の底面が立方体の底面と重なると解されてもよい。こうして、カメラ座標系に対する各フレームの画像における目標三次元広告モデルの位置及び姿勢が全て、カメラ座標系に対する立方体の位置及び姿勢から特定できるようになる。最後に立方体を除去し、赤色のコーラ缶を表示させる。
図10は、本開示のさらに別の実施例に係る画像処理方法のフローチャートを模式的に示す。
図10に示すように、本開示の実施例により提供される画像処理方法は以下のステップを含んでもよい。
ステップS1001では、ビデオDを取得する。
ステップS1002では、ビデオDにおける画像のフレーム数mを算出し、j=1とする。
ステップS1003では、立方体AをビデオDの第1フレームの画像にドラッグインする。
ステップS1004では、底面の4つの頂点が第1フレームの画像の目標平面B上にあるように、立方体Aの位置及び姿勢を調整する。
ステップS1005では、目標平面B上にある立方体Aの底面の4つの頂点の第1フレームの画像における画素座標pを記録する。
ステップS1006では、j<=mである場合、ステップS1007に進み、そうでない場合、ステップS1013へジャンプする。
ステップS1007では、ビデオDの第jフレームの画像Mを取得する。
ステップS1008では、目標平面Bを追跡し、第1フレームの画像における目標平面Bに対する第jフレームの画像Mにおける目標平面Bのホモグラフィ行列Hj,0を計算する。
ステップS1009では、ホモグラフィ行列Hj,0に基づき、目標平面B上にある立方体Aの4つの頂点の第jフレームの画像Mにおける画素座標p= Hj,0* pを算出する。
ステップS1010では、pに基づき、第jフレームの画像Mのカメラ座標系の位置t及び姿勢Rを算出する。
ステップS1011では、Mの位置姿勢tとRに基づき、立方体Aを第jフレームの画像M上に投影する。
ステップS1012では、j=j+1とし、ステップS1006に戻り、jがmより大きくなるまで、上記ステップS1007~S1012を実行する。
ステップS1013では、広告Cを取得する。
ステップS1014では、記録された各フレームの画像の位置姿勢Rとtに基づき、広告Cを各フレームの画像に投影し、広告Cを含むビデオD’を合成する。
ステップS1015では、終了する。
本開示の実施例において、関連するオリジナルデータ及び/又は処理済みのデータはいずれもブロックチェーンに記憶してもよい。例えば、三次元広告を挿入していないオリジナルビデオデータをブロックチェーンに記憶し、ブロックチェーンに記憶されているオリジナルビデオデータから処理対象ビデオを抽出することができる。また、広告を前記ブロックチェーンに記憶し、ある広告を前記処理対象ビデオに挿入する必要がある時、前記ブロックチェーンから目標三次元広告を抽出することもできる。上記画像処理方法を実行する主体はブロックチェーンにおけるいずれか1つのノード(サーバ及び/又はユーザ端末機器等であってよい)であってもよい。抽出された処理対象ビデオ及び目標三次元広告に対して上記画像処理方法を実行した後、目標三次元広告を挿入した目標ビデオを得ることができる。
以下において、立方体を目標三次元モデルとし、立方体の底面を目標面とし、処理対象ビデオにおけるピアノ平面を目標平面とすることを例にして説明し、本開示の実施例の解決手段は、立方体を処理対象ビデオの第1フレームの画像にドラッグインするステップと、処理対象ビデオにおけるピアノ平面を追跡するステップと、立方体の位置姿勢を更新するステップと、三次元広告を含む目標ビデオを合成するステップと、を含んでよい。
図11は、本開示の一実施例に係る立方体及びその世界座標系の模式図を模式的に示す。
図11に示すように、立方体の辺長が0.1メートルとすると仮定し、立方体の最左上の頂点を原点とし、3つの辺を座標軸として、世界座標系Oを確立する。立方体の底面上の4つの頂点の三次元座標Pを得ることができる。a頂点の三次元座標は
Figure 0007270761000029
、b頂点の三次元座標は
Figure 0007270761000030
、c頂点の三次元座標は
Figure 0007270761000031
、d頂点の三次元座標は
Figure 0007270761000032
である。
図12は、本開示の一実施例に係る立方体の頂点をドラッグすることで立方体の位置姿勢を制御することを示す模式図である。
図12に示すように、立方体を処理対象ビデオの第1フレームの画像にドラッグインし、次に第1フレームの画像において立方体の各頂点をドラッグすることで、立方体の位置及び姿勢を調整する。図12の左側の図(a)は、立方体を第1フレームの画像にドラッグインしたばかりの各白丸の初期位置を表すものであり、中央の図(b)は、白丸をドラッグし、ユーザ所望の位置に調整することを表すものであり、例えばユーザの想定した、立方体の底面の4つの頂点及び頂面の1つの頂点が位置すべき画素位置に調整し、右側の図(c)は、図(b)の調整された白丸の位置に基づき、立方体の位置姿勢を自動的に調整することを表すものであり、それによって立方体の頂点がこれらの白丸に可能な限り近接し、視覚的には立方体の底面の4つの頂点が目標平面内にあり、且つ立方体の位置及び姿勢も視覚的には正確であるようにさせる。即ち、ユーザはこれらの白丸をドラッグすることで立方体の位置及び姿勢を調整することができる。
説明すべきは、図12には、立方体の5つの頂点を5つの白丸で調整することが示されているが、実操作時、これに限定されず、例えば4つ、6つ、7つさらには8つ又はそれ以上の白丸を用いてそれぞれ対応して立方体の8つの頂点を調整することもできる点である。
図12では、例えば底面の4つの辺を青色で示し、頂面の4つの辺を赤色で示し、側面の4つの辺を緑色で示すように、立方体の異なる辺を色分けして描画することで、異なる面を区別するようにも設定できるが、本開示はこれに限定されない。
図13は、本開示の一実施例に係る立方体を回転することで立方体の位置姿勢を制御することを示す模式図である。
上記図12に示す方法に加えて、図13に示す方法で立方体の位置姿勢を調整することもできる。図13の左側の図(a)は立方体を第1フレームの画像にドラッグインした際の初期位置を表すものであり、中央の図(b)は、ユーザが立方体を回転することを表すものであり、それによって、右側の図(c)に示す最終効果の目的を達成し、即ち、立方体の底面の4つの頂点が目標平面内にあり、且つ立方体の位置姿勢が視覚的には正確である。ユーザは、指又はマウスで第1フレームの画像に表示される矢印を押して立方体をドラッグしてもよく、第1フレームの画像に表示される円弧を押して立方体を回転してもよく、これによって、立方体の位置姿勢を調整することができる。
本開示の実施例において、立方体の位置姿勢をヒューマンインタラクティブの方法によって調整してもよく、AIに基づく方法で第1フレームの画像における目標平面を認識し、立方体の位置及び姿勢を自動的に調整し、立方体を目標平面Bに配置するようにしてもよい。調整は、立方体の底面の4つの頂点a、b、c、dが目標平面B上にあるように、立方体の位置及び姿勢を調整することを目的とする。この時この4つの頂点の第1フレームの画像における画素座標を記録する。立方体の底面の4つの頂点の三次元座標、それらの第1フレームの画像における画素座標、及びカメラ内部パラメータをPnPアルゴリズムに入力し、世界座標系
Figure 0007270761000033
に対する第1フレームの画像のカメラ座標系の位置及び姿勢を算出する。
図14は、本開示の一実施例に係る立方体の所在する目標平面を追跡することを示す模式図である。
目標平面がピアノ平面であると仮定すると、平面追跡の効果は図14に示すとおりである。図14の左側の図(a)は処理対象ビデオの第1フレームの画像に表示される目標平面であると仮定し、中央の図(b)は第2フレームの画像に表示される目標平面であると仮定し、右側の図(c)は第3フレームの画像に表示される目標平面であると仮定する。図14の(a)、(b)、(c)において、目標平面はそれぞれ2つの三角形から構成される四角形で表す。
図15は、本開示の一実施例に係る各フレームの画像における立方体を表示することを示す模式図である。
図15の左側の図(a)は処理対象ビデオの第1フレームの画像に表示される立方体であると仮定し、中央の図(b)は第2フレームの画像に表示される立方体であると仮定し、右側の図(c)は第3フレームの画像に表示される立方体であると仮定する。
図16は、本開示の一実施例に係る各フレームの画像において三次元広告を合成することを示す模式図である。
図16の右側の図(a)は処理対象ビデオの第1フレームの画像に表示される赤色のコーラ缶であると仮定し、中央の図(b)は第2フレームの画像に表示される赤色のコーラ缶であると仮定し、右側の図(c)は第3フレームの画像に表示される赤色のコーラ缶であると仮定する。
図12-16及び本願の他の実施例において、前記ビデオの前記画像処理は例えば画像処理インタフェース又はページにおいて行われる。
図17は、本開示の一実施例に係る画像処理装置のブロック図を模式的に示す。
図17に示すように、本開示の実施形態により提供される画像処理装置1700は、処理ビデオ取得モジュール1710と、三次元モデル配置モジュール1720と、第1座標特定モジュール1730と、第1位置姿勢特定モジュール1740と、第2位置姿勢特定モジュール1750及び目標ビデオ生成モジュール1760とを含んでもよい。
そのうち、処理ビデオ取得モジュール1710は、処理対象ビデオを取得するように構成されてもよく、前記処理対象ビデオはmフレームの画像を含み、mは2以上の正整数である。三次元モデル配置モジュール1720は、前記処理対象ビデオの第1フレームの画像の目標平面に目標三次元モデルを配置するように構成されてもよく、前記目標三次元モデルの目標面の複数の特徴点は前記目標平面上にある。第1座標特定モジュール1730は、前記目標面の複数の特徴点の、世界座標系における三次元座標及び前記第1フレームの画像における画素座標を特定して取得するように構成されてもよい。第1位置姿勢特定モジュール1740は、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第1フレームの画像における画素座標に基づき、前記世界座標系に対する前記第1フレームの画像のカメラ座標系の位置姿勢を特定して得るように構成されてもよい。第2位置姿勢特定モジュール1750は、前記目標平面、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第1フレームの画像における画素座標に基づき、前記世界座標系に対する前記処理対象ビデオの第2フレームの画像~第mフレームの画像のカメラ座標系の位置姿勢を特定して得るように構成されてもよい。目標ビデオ生成モジュール1760は、前記目標三次元モデルを目標リンク表示モデルに置き換えて前記世界座標系に配置し、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを含む目標ビデオを生成するように構成されてもよい。
例示的実施例において、第2位置姿勢特定モジュール1750は、前記第1フレームの画像における目標平面に対する前記処理対象ビデオの第jフレームの画像における目標平面のホモグラフィ行列を、前記第jフレームの画像のホモグラフィ行列として特定するように構成されてもよいホモグラフィ行列特定ユニットであって、jは2以上且つm以下の正整数であるホモグラフィ行列特定ユニットと、前記第jフレームの画像のホモグラフィ行列と前記目標面の複数の特徴点の前記第1フレームにおける画素座標とに基づき、前記目標面の複数の特徴点の前記第jフレームの画像における画素座標を得るように構成されてもよい画素座標特定ユニットと、前記処理対象ビデオのカメラ内部パラメータと、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第jフレームの画像における画素座標とに基づき、前記世界座標系に対する前記処理対象ビデオの第jフレームの画像のカメラ座標系の位置姿勢を特定するように構成されてもよい位置姿勢特定ユニットと、を含んでもよい。
例示的実施例において、目標ビデオ生成モジュール1760は、前記世界座標系に対する前記処理対象ビデオの第2フレームの画像~第mフレームの画像のカメラ座標系の位置姿勢に基づき、前記目標三次元モデルを前記処理対象ビデオの第2フレームの画像~第mフレームの画像にそれぞれ投影するように構成されてもよい三次元モデル投影ユニットと、前記目標三次元モデルを前記目標リンク表示モデルに置き換えて、前記処理対象ビデオの各フレームの画像の前記世界座標系に配置するように構成されてもよい表示モデル切換ユニットと、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを前記処理対象ビデオの各フレームの画像に投影するように構成されてもよい表示モデル投影ユニットと、前記処理対象ビデオの各フレームの画像を合成し、前記目標リンク表示モデルを含む目標ビデオを生成するように構成されてもよい画像合成ユニットと、を含んでもよい。
例示的実施例において、三次元モデル配置モジュール1720は、前記第1フレームの画像に前記目標三次元モデルを追加する追加命令に応答して、前記目標三次元モデルを前記第1フレームの画像に追加するように構成されてもよい三次元モデルドラッグインユニットと、前記目標三次元モデルの目標面及びその複数の特徴点を特定するように構成されてもよい目標面特定ユニットと、前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルの位置姿勢を調整するように構成されてもよい三次元モデル位置姿勢調整ユニットと、を含んでもよい。
例示的実施例において、前記三次元モデル位置姿勢調整ユニットは、特徴点調整サブユニット又は三次元モデル回転サブユニットを含んでもよい。前記特徴点調整サブユニットは、前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルの複数の特徴点を調整するように構成されてもよい。前記三次元モデル回転サブユニットは、前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルを回転するように構成されてもよい。
例示的実施例において、第1座標特定モジュール1730は、前記目標三次元モデルに基づき、前記世界座標系を確立するように構成されてもよい世界座標系確立ユニットと、前記目標面の複数の特徴点の前記世界座標系における三次元座標を特定するように構成されてもよい三次元座標特定ユニットと、前記目標面の複数の特徴点が前記目標平面上にあるとき、前記目標面の複数の特徴点の前記第1フレームの画像における画素座標を記録するように構成されてもよい画素座標記録ユニットと、を含んでもよい。
例示的実施例において、前記目標三次元モデルは、所定の辺長を有する立方体であってもよい。前記世界座標系確立ユニットは、前記立方体の最左上の特徴点を原点とするように構成されてもよい原点特定サブユニットと、前記最左上の特徴点と交わる前記立方体の3つの辺を座標軸とし、前記世界座標系を確立するように構成されてもよい座標軸特定サブユニットと、を含んでもよい。
例示的実施例において、画像処理装置1700は、ニューラルネットワークモデルによって前記第1フレームの画像を処理し、前記第1フレームの画像における少なくとも1つの平面を得るように構成されてもよい平面特定モジュールと、前記第1フレームの画像に対する平面選択命令に応答して、前記少なくとも1つの平面から前記目標平面を特定するように構成されてもよい目標平面特定モジュールと、を含んでもよい。
本開示の実施例により提供される画像処理装置における各モジュール、ユニット及びサブユニットの具体的な実施形態は上記画像処理方法の内容を参照してよく、ここで重複説明は割愛する。
なお、上記の詳細な説明では、動作を実行するための機器の複数のモジュール、ユニット及びサブユニットが記載されているが、これらの区分は強制的なものではない点に注意すべきである。実際、本開示の実施形態によれば、上述した2つ又はそれ以上のモジュール、ユニット及びサブユニットの特徴及び機能は1つのモジュール、ユニット及びサブユニットにおいて具現化することが可能である。逆に、上述した1つのモジュール、ユニット及びサブユニットの特徴及び機能は複数のモジュール、ユニット及びサブユニットにより具現化するようにさらに区分してもよい。
以上の実施形態に対する説明によって、当業者であればここで説明した例示的実施形態はソフトウェアで実現してもよく、ソフトウェアと必要なハードウェアの組み合わせの形で実現してもよいことを容易に理解できるであろう。従って、本開示の実施形態に係る技術的解決手段はソフトウェア製品の形で実施することができ、該コンピュータソフトウェア製品は、非揮発性記憶媒体(CD-ROM、Uディスク、ポータブルハードディスク等であってもよい)又はネットワークに記憶することができ、コンピューティング機器(パーソナルコンピュータ、サーバ、タッチ端末、又はネットワーク機器等であってもよい)に本開示の実施形態に係る方法を実行させる複数の命令を含む。
本開示の他の実施形態は、本明細書の考察と本明細書で開示された発明の実施により、当業者には自明であろう。本開示は本開示のあらゆる変形、用途又は適応的な変化を包含することを意図し、これらの変形、用途又は適応的な変化は、本開示の一般原理に従い本開示に掲示されていない当技術分野での技術常識又は慣用されている技術手段を含む。明細書及び実施例は単に例示的なものとみなされ、本開示の真の範囲及び趣旨は以下の請求項によって示される。
本開示は以上で説明され且つ図面に示された精確な構造に限定されるものでなく、その範囲を逸脱しない限り様々な修正や変更を加えることができるのを理解すべきである。本開示の範囲は追加される請求項のみに限定される。
100 システムアーキテクチャ
101、102、103 端末機器
104 ネットワーク
105 サーバ
200 コンピュータシステム
201 中央処理ユニット(CPU)
202 読み取り専用メモリ(ROM)
203 ランダムアクセスメモリ(RAM)
204 通信バス
205 入力/出力(I/O)インターフェース
207 出力部
208 記憶部
209 通信部
210 ドライバ
211 リムーバブル媒体
1700 画像処理装置
1710 処理ビデオ取得モジュール
1720 三次元モデル配置モジュール
1730 第1座標特定モジュール
1740 第1位置姿勢特定モジュール
1750 第2位置姿勢特定モジュール
1760 目標ビデオ生成モジュール

Claims (11)

  1. 電子機器が実行する、画像処理方法であって、
    処理対象ビデオを取得するステップであって、前記処理対象ビデオはmフレームの画像を含み、mは2以上の正整数であるステップと、
    前記処理対象ビデオの第1フレームの画像の目標平面に目標三次元モデルを配置するステップであって、前記目標三次元モデルの目標面の複数の特徴点は前記目標平面上にあるステップと、
    前記目標面の複数の特徴点の、世界座標系における三次元座標及び前記第1フレームの画像における画素座標を特定するステップと、
    前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第1フレームの画像における画素座標に基づき、前記世界座標系に対する前記第1フレームの画像のカメラ座標系の位置姿勢を特定するステップと、
    前記目標平面、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第1フレームの画像における画素座標に基づき、前記世界座標系に対する前記処理対象ビデオの第2フレームの画像~第mフレームの画像のカメラ座標系の位置姿勢を特定するステップであって、前記第1フレームの画像における目標平面に対する前記処理対象ビデオの第jフレームの画像における目標平面のホモグラフィ行列を、前記第jフレームの画像のホモグラフィ行列として特定するステップであって、jは2以上且つm以下の正整数であるステップを含み、各フレーム毎、1個前のフレームの最適化されたホモグラフィ行列を次フレームのホモグラフィ行列の初期値として使用し、次フレームのホモグラフィ行列を最適化するように構成された、ステップと、
    前記目標三次元モデルを目標リンク表示モデルに置き換えて前記世界座標系に配置し、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを含む目標ビデオを生成するステップと、を含むことを特徴とする画像処理方法。
  2. 前記目標平面、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第1フレームの画像における画素座標に基づき、前記世界座標系に対する前記処理対象ビデオの第2フレームの画像~第mフレームの画像のカメラ座標系の位置姿勢を特定するステップは
    前記第jフレームの画像のホモグラフィ行列と前記目標面の複数の特徴点の前記第1フレームにおける画素座標とに基づき、前記目標面の複数の特徴点の前記第jフレームの画像における画素座標を特定するステップと、
    前記処理対象ビデオのカメラ内部パラメータと、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第jフレームの画像における画素座標とに基づき、前記世界座標系に対する前記処理対象ビデオの第jフレームの画像のカメラ座標系の位置姿勢を特定するステップと、を含むことを特徴とする
    請求項1に記載の方法。
  3. 前記目標三次元モデルを目標リンク表示モデルに置き換えて前記世界座標系に配置し、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを含む目標ビデオを生成するステップは、
    前記世界座標系に対する前記処理対象ビデオの第2フレームの画像~第mフレームの画像のカメラ座標系の位置姿勢に基づき、前記目標三次元モデルを前記処理対象ビデオの第2フレームの画像~第mフレームの画像にそれぞれ投影するステップと、
    前記目標三次元モデルを前記目標リンク表示モデルに置き換えて、前記処理対象ビデオの各フレームの画像の前記世界座標系に配置するステップと、
    前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを前記処理対象ビデオの各フレームの画像に投影するステップと、
    前記処理対象ビデオの各フレームの画像を合成し、前記目標リンク表示モデルを含む目標ビデオを生成するステップと、を含むことを特徴とする
    請求項1に記載の方法。
  4. 前記処理対象ビデオの第1フレームの画像の目標平面に目標三次元モデルを配置するステップであって、前記目標三次元モデルの目標面の複数の特徴点は前記目標平面上にあるステップは、
    前記第1フレームの画像に前記目標三次元モデルを追加する追加命令に応答して、前記目標三次元モデルを前記第1フレームの画像に追加するステップと、
    前記目標三次元モデルの目標面及びその複数の特徴点を特定するステップと、
    前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルの位置姿勢を調整するステップと、を含むことを特徴とする
    請求項1から3のいずれか1項に記載の方法。
  5. 前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルの位置姿勢を調整するステップは、
    前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルの複数の特徴点を調整するステップ、又は
    前記目標面の複数の特徴点が前記目標平面上にあるように、前記目標三次元モデルを回転するステップ、を含むことを特徴とする
    請求項4に記載の方法。
  6. 前記目標面の複数の特徴点の、世界座標系における三次元座標及び前記第1フレームの画像における画素座標を特定するステップは、
    前記目標三次元モデルに基づき、前記世界座標系を確立するステップと、
    前記目標面の複数の特徴点の前記世界座標系における三次元座標を特定するステップと、
    前記目標面の複数の特徴点が前記目標平面上にあるとき、前記目標面の複数の特徴点の前記第1フレームの画像における画素座標を記録するステップと、を含むことを特徴とする
    請求項1から3のいずれか1項に記載の方法。
  7. 前記目標三次元モデルは所定の辺長を有する立方体であり、前記目標三次元モデルに基づき、前記世界座標系を確立するステップは、
    前記立方体の最左上の特徴点を原点とするステップと、
    前記最左上の特徴点と交わる前記立方体の3つの辺を座標軸とし、前記世界座標系を確立するステップと、を含むことを特徴とする
    請求項6に記載の方法。
  8. ニューラルネットワークモデルによって前記第1フレームの画像を処理し、前記第1フレームの画像における少なくとも1つの平面を得るステップと、
    前記第1フレームの画像に対する平面選択命令に応答して、前記少なくとも1つの平面から前記目標平面を特定するステップと、をさらに含むことを特徴とする
    請求項1から3のいずれか1項に記載の方法。
  9. 処理対象ビデオを取得するように構成される処理ビデオ取得モジュールであって、前記処理対象ビデオはmフレームの画像を含み、mは2以上の正整数である処理ビデオ取得モジュールと、
    前記処理対象ビデオの第1フレームの画像の目標平面に目標三次元モデルを配置するように構成される三次元モデル配置モジュールであって、前記目標三次元モデルの目標面の複数の特徴点は前記目標平面上にある三次元モデル配置モジュールと、
    前記目標面の複数の特徴点の、世界座標系における三次元座標及び前記第1フレームの画像における画素座標を特定するように構成される第1座標特定モジュールと、
    前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第1フレームの画像における画素座標に基づき、前記世界座標系に対する前記第1フレームの画像のカメラ座標系の位置姿勢を特定するように構成される第1位置姿勢特定モジュールと、
    前記目標平面、前記目標面の複数の特徴点の、前記世界座標系における三次元座標及び前記第1フレームの画像における画素座標に基づき、前記世界座標系に対する前記処理対象ビデオの第2フレームの画像~第mフレームの画像のカメラ座標系の位置姿勢を特定するように構成される第2位置姿勢特定モジュールであって、前記第1フレームの画像における目標平面に対する前記処理対象ビデオの第jフレームの画像における目標平面のホモグラフィ行列を、前記第jフレームの画像のホモグラフィ行列として特定し、jは2以上且つm以下の正整数であり、各フレーム毎、1個前のフレームの最適化されたホモグラフィ行列を次フレームのホモグラフィ行列の初期値として使用し、次フレームのホモグラフィ行列を最適化するように構成された、第2位置姿勢特定モジュールと、
    前記目標三次元モデルを目標リンク表示モデルに置き換えて前記世界座標系に配置し、前記世界座標系に対する前記処理対象ビデオの各フレームの画像のカメラ座標系の位置姿勢に基づき、前記目標リンク表示モデルを含む目標ビデオを生成するように構成される目標ビデオ生成モジュールと、を含むことを特徴とする画像処理装置。
  10. 1つ又は複数のプロセッサと、
    前記1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサに請求項1から8のいずれか1項に記載の画像処理方法を実現させる1つ又は複数のプログラムを記憶するように構成される記憶装置と、を含むことを特徴とする電子機器。
  11. プロセッサに、請求項1から8のいずれか1項に記載の画像処理方法を実行させることを特徴とするコンピュータプログラム。
JP2021555830A 2019-09-10 2020-08-27 画像処理方法及び装置、電子機器並びにコンピュータプログラム Active JP7270761B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910854877.XA CN110599605B (zh) 2019-09-10 2019-09-10 图像处理方法及装置、电子设备和计算机可读存储介质
CN201910854877.X 2019-09-10
PCT/CN2020/111638 WO2021047396A1 (zh) 2019-09-10 2020-08-27 图像处理方法及装置、电子设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2022524891A JP2022524891A (ja) 2022-05-10
JP7270761B2 true JP7270761B2 (ja) 2023-05-10

Family

ID=68858713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021555830A Active JP7270761B2 (ja) 2019-09-10 2020-08-27 画像処理方法及び装置、電子機器並びにコンピュータプログラム

Country Status (5)

Country Link
US (2) US11538229B2 (ja)
EP (1) EP3923248A4 (ja)
JP (1) JP7270761B2 (ja)
CN (1) CN110599605B (ja)
WO (1) WO2021047396A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538184B2 (en) * 2018-06-01 2022-12-27 Hewlett-Packard Development Company, L.P. Substantially real-time correction of perspective distortion
CN110599605B (zh) * 2019-09-10 2021-07-13 腾讯科技(深圳)有限公司 图像处理方法及装置、电子设备和计算机可读存储介质
CN111242952B (zh) * 2020-01-15 2023-06-30 腾讯科技(深圳)有限公司 图像分割模型训练方法、图像分割方法、装置及计算设备
CN111311654B (zh) * 2020-02-13 2023-11-24 北京百度网讯科技有限公司 一种相机位置的配准方法、装置、电子设备及存储介质
CN111599005B (zh) * 2020-05-19 2024-01-05 湖南飞戈数字科技有限公司 一种三维模型植入方法、装置、电子设备及存储介质
CN111612851B (zh) * 2020-05-20 2023-04-07 阿波罗智联(北京)科技有限公司 用于标定相机的方法、装置、设备以及存储介质
CN111652831B (zh) * 2020-06-28 2022-04-19 腾讯科技(深圳)有限公司 对象融合方法、装置、计算机可读存储介质及电子设备
CN111768454B (zh) * 2020-08-05 2023-12-22 腾讯科技(深圳)有限公司 位姿确定方法、装置、设备及存储介质
CN111986133B (zh) * 2020-08-20 2024-05-03 叠境数字科技(上海)有限公司 一种应用于子弹时间的虚拟广告植入方法
CN112528094B (zh) * 2020-12-04 2022-08-16 国网山东省电力公司信息通信公司 一种基于分层映射的多字段范围tcam编码方法及系统
CN112822418B (zh) * 2020-12-31 2022-12-06 北京字节跳动网络技术有限公司 视频处理方法和装置、存储介质和电子设备
CN112887793B (zh) * 2021-01-25 2023-06-13 脸萌有限公司 视频处理方法、显示设备和存储介质
CN112837424B (zh) * 2021-02-04 2024-02-06 脸萌有限公司 图像处理方法、装置、设备和计算机可读存储介质
CN113819890B (zh) * 2021-06-04 2023-04-14 腾讯科技(深圳)有限公司 测距方法、装置、电子设备及存储介质
CN113345022B (zh) * 2021-07-05 2023-02-17 湖南快乐阳光互动娱乐传媒有限公司 动态三维广告植入方法、装置、电子设备及存储介质
CN113689466B (zh) * 2021-07-30 2022-07-12 稿定(厦门)科技有限公司 一种基于特征点的平面跟踪方法、系统
CN113689467B (zh) * 2021-07-30 2022-07-12 稿定(厦门)科技有限公司 一种适用于平面跟踪的特征点优化方法、系统
CN113689321B (zh) * 2021-08-23 2023-12-22 深圳普汇智为科技有限公司 基于立体投影加密的图像信息传输方法及装置
CN113923493B (zh) * 2021-09-29 2023-06-16 北京奇艺世纪科技有限公司 一种视频处理方法、装置、电子设备以及存储介质
CN114898084B (zh) * 2022-04-18 2023-08-25 荣耀终端有限公司 视觉定位方法、设备和存储介质
CN114963025B (zh) * 2022-04-19 2024-03-26 深圳市城市公共安全技术研究院有限公司 泄漏点定位方法、装置、电子设备及可读存储介质
CN116091711B (zh) * 2023-04-12 2023-09-08 荣耀终端有限公司 一种三维重建方法及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017130889A (ja) 2016-01-22 2017-07-27 Kddi株式会社 カメラのキャリブレーション装置、方法及びプログラム
US20190197709A1 (en) 2017-12-21 2019-06-27 Microsoft Technology Licensing, Llc Graphical coordinate system transform for video frames
JP2019220032A (ja) 2018-06-21 2019-12-26 Kddi株式会社 原画像を目標画像に基づいて変形した表示画像を生成するプログラム、装置及び方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030028432A1 (en) * 2001-08-01 2003-02-06 Vidius Inc. Method for the customization of commercial product placement advertisements in digital media
CN101512553B (zh) * 2006-07-16 2012-06-20 西姆比有限公司 用于虚拟内容安置的系统和方法
CN103024480B (zh) * 2012-12-28 2016-06-01 杭州泰一指尚科技有限公司 一种在视频中嵌入广告的方法
CN103544852B (zh) * 2013-10-18 2015-08-05 中国民用航空总局第二研究所 一种在机场场面监视视频中实现飞机自动挂标牌的方法
US10192133B2 (en) * 2015-06-22 2019-01-29 Seiko Epson Corporation Marker, method of detecting position and pose of marker, and computer program
CN106097457A (zh) 2016-06-12 2016-11-09 上海大学 基于stl缺损模型的切割修整方法
CN107665506B (zh) * 2016-07-29 2021-06-01 成都理想境界科技有限公司 实现增强现实的方法及系统
CN107016704A (zh) * 2017-03-09 2017-08-04 杭州电子科技大学 一种基于增强现实的虚拟现实实现方法
CN108629843B (zh) * 2017-03-24 2021-07-13 成都理想境界科技有限公司 一种实现增强现实的方法及设备
JP6989276B2 (ja) * 2017-04-05 2022-01-05 株式会社Soken 位置計測装置
CN109410680A (zh) * 2018-11-19 2019-03-01 叶哲伟 一种基于混合现实的虚拟手术训练方法及系统
CN110213629B (zh) * 2019-06-27 2022-02-11 腾讯科技(深圳)有限公司 一种信息植入方法、装置、服务器及存储介质
CN110599605B (zh) * 2019-09-10 2021-07-13 腾讯科技(深圳)有限公司 图像处理方法及装置、电子设备和计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017130889A (ja) 2016-01-22 2017-07-27 Kddi株式会社 カメラのキャリブレーション装置、方法及びプログラム
US20190197709A1 (en) 2017-12-21 2019-06-27 Microsoft Technology Licensing, Llc Graphical coordinate system transform for video frames
JP2019220032A (ja) 2018-06-21 2019-12-26 Kddi株式会社 原画像を目標画像に基づいて変形した表示画像を生成するプログラム、装置及び方法

Also Published As

Publication number Publication date
EP3923248A1 (en) 2021-12-15
CN110599605A (zh) 2019-12-20
CN110599605B (zh) 2021-07-13
US20230075270A1 (en) 2023-03-09
EP3923248A4 (en) 2022-06-08
WO2021047396A1 (zh) 2021-03-18
JP2022524891A (ja) 2022-05-10
US11538229B2 (en) 2022-12-27
US20210183165A1 (en) 2021-06-17

Similar Documents

Publication Publication Date Title
JP7270761B2 (ja) 画像処理方法及び装置、電子機器並びにコンピュータプログラム
US11748934B2 (en) Three-dimensional expression base generation method and apparatus, speech interaction method and apparatus, and medium
US11257300B2 (en) Scalable three-dimensional object recognition in a cross reality system
WO2021213067A1 (zh) 物品显示方法、装置、设备及存储介质
US20220343603A1 (en) Three-dimensional reconstruction method, three-dimensional reconstruction apparatus, device and storage medium
US20220358675A1 (en) Method for training model, method for processing video, device and storage medium
CN110458924B (zh) 一种三维脸部模型建立方法、装置和电子设备
Li et al. Animation of virtual medical system under the background of virtual reality technology
CN111754622B (zh) 脸部三维图像生成方法及相关设备
CN110490959A (zh) 三维图像处理方法及装置、虚拟形象生成方法以及电子设备
CN111142967B (zh) 一种增强现实显示的方法、装置、电子设备和存储介质
CN116097316A (zh) 用于非模态中心预测的对象识别神经网络
Michael et al. Model-based generation of personalized full-body 3D avatars from uncalibrated multi-view photographs
Cheng et al. Quad‐fisheye Image Stitching for Monoscopic Panorama Reconstruction
CN111739134B (zh) 虚拟角色的模型处理方法、装置及可读存储介质
KR102176805B1 (ko) 뷰 방향이 표시되는 vr 컨텐츠 제공 시스템 및 방법
CN109816791B (zh) 用于生成信息的方法和装置
US20240062495A1 (en) Deformable neural radiance field for editing facial pose and facial expression in neural 3d scenes
CN113223137B (zh) 透视投影人脸点云图的生成方法、装置及电子设备
CN114998514A (zh) 一种虚拟角色的生成方法及设备
CN116433852B (zh) 数据处理方法、装置、设备及存储介质
Zheng et al. Rendering and Optimization Algorithm of Digital City’s 3D Artistic Landscape Based on Virtual Reality
Jácome et al. Parallax Engine: Head Controlled Motion Parallax Using Notebooks’ RGB Camera
Liu et al. A study of digital exhibition visual design led by digital twin and VR technology
US11983819B2 (en) Methods and systems for deforming a 3D body model based on a 2D image of an adorned subject

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210915

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230417

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230425

R150 Certificate of patent or registration of utility model

Ref document number: 7270761

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150