JP2020513704A

JP2020513704A - ビデオデータ処理方法、装置および機器

Info

Publication number: JP2020513704A
Application number: JP2019528723A
Authority: JP
Inventors: 叶在偉; 曽偉
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2016-11-28
Filing date: 2017-11-22
Publication date: 2020-05-14
Also published as: WO2018095317A1; EP3547672A1; EP3547672A4; CN108377355A

Abstract

第１端末と第２端末とのビデオ通話中に、少なくとも前記第１端末に対応する対象物体の第１左側面図および第１右側面図が含まれる第１ビデオデータと、少なくとも前記第２端末が現在位置している現実のシーンの第２左側面図および第２右側面図が含まれる第２ビデオデータとを取得することと、前記第１左側面図における前記対象物体の第１画像と前記第２左側面図とを合成し、前記第１右側面図における前記対象物体の第２画像と前記第２右側面図とを合成することと、合成後の第２左側面図および合成後の第２右側面図に基づき、３次元ビデオデータを生成することとを含むビデオデータ処理方法。【選択図】図１

Description

本開示は、拡張現実（ＡＲ、ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）技術に関し、例えば、ビデオデータ処理方法、装置および機器に関する。

近年、通信ネットワーク技術の急速な発展に伴い、モバイルインターネット技術が日進月歩であり、従来の音声コミュニケーションは、人々のコミュニケーション需要を対応できなくなっている。ますます多くの人がビデオ通信で相手と交流してコミュニケーションすることを希望するため、多くの端末にビデオ通信の機能が搭載されている。現在、ビデオ通信は、人々の生活および仕事において非常に重要な役割を果たしている。

しかし、ビデオ通話中に、自装置には相手側のカメラによって撮影された２次元映像のみが表示でき、相手側に対応する対象物体を自装置が位置する現実のシーンに組み込むことができず、ユーザは相手の２次元イメージのみが見え、感覚的には、ユーザとビデオ通信する相手は、依然として遠い場所に存在し、自分が位置する現実環境に相手が来ているというような実感が感じられないため、自装置のビデオ通話の視覚情報に現実感がなく、ユーザは、感覚的に、相手が自分と対面して交流およびコミュニケーションを行っているような真実な体験が得られぬず、ユーザ体験が悪い。

これに鑑み、本実施例は、拡張現実した３次元ビデオ通話を実現し、ユーザ体験を向上させるビデオデータ処理方法、装置および機器を提供する。

第１態様において、本実施例は、第１端末と第２端末とのビデオ通話中に、少なくとも前記第１端末に対応する対象物体の第１左側面図および第１右側面図が含まれる第１ビデオデータと、少なくとも前記第２端末が現在位置している現実のシーンの第２左側面図および第２右側面図が含まれる第２ビデオデータとを取得することと、前記第１左側面図における前記対象物体の第１画像と前記第２左側面図とを合成し、前記第１右側面図における前記対象物体の第２画像と前記第２右側面図とを合成することと、合成後の第２左側面図および合成後の第２右側面図に基づき、３次元ビデオデータを生成することとを含む、ビデオデータ処理方法を提供する。

第２態様において、本実施例は、取得モジュール、合成モジュールおよび生成モジュールを備えるビデオデータ処理装置であって、前記取得モジュールは、第１端末と第２端末とのビデオ通話中に、少なくとも前記第１端末に対応する対象物体の第１左側面図および第１右側面図が含まれる第１ビデオデータと、少なくとも前記第２端末が現在位置している現実のシーンの第２左側面図および第２右側面図が含まれる第２ビデオデータとを取得するように構成され、前記合成モジュールは、前記第１左側面図における前記対象物体の第１画像と前記第２左側面図とを合成し、前記第１右側面図における前記対象物体の第２画像と前記第２右側面図とを合成するように構成され、前記生成モジュールは、合成後の第２左側面図および合成後の第２右側面図に基づき、３次元ビデオデータを生成するように構成されるビデオデータ処理装置を提供する。

第３態様において、本実施例は、送受信機およびプロセッサを備えるサーバであって、前記送受信機は、少なくとも前記第１端末に対応する対象物体の第１左側面図および第１右側面図が含まれる第１端末からの第１ビデオデータを受信し、少なくとも前記第２端末が現在位置している現実のシーンの第２左側面図および第２右側面図が含まれる第２端末からの第２ビデオデータを受信するように構成され、更に、前記第２端末に３次元ビデオデータを送信するように構成され、前記プロセッサは、前記第１左側面図における前記対象物体の第１画像と前記第２左側面図とを合成し、前記第１右側面図における前記対象物体の第２画像と前記第２右側面図とを合成し、合成後の第２左側面図および合成後の第２右側面図に基づき、３次元ビデオデータを生成するように構成されるサーバを提供する。

第４態様において、本実施例は、受信機、ステレオカメラ、プロセッサおよびディスプレイを備える端末であって、前記受信機は、少なくとも相手側に対応する対象物体の第１左側面図および第１右側面図が含まれる前記相手側からのビデオデータを受信するように構成され、前記ステレオカメラは、現在位置している現実のシーンの前記第２左側面図および前記第２右側面図を同期して収集するように構成され、前記プロセッサは、前記第１左側面図における前記対象物体の第１画像と前記第２左側面図とを合成し、前記第１右側面図における前記対象物体の第２画像と前記第２右側面図とを合成し、合成後の第２左側面図および合成後の第２右側面図に基づき、３次元ビデオデータを生成するように構成され、前記ディスプレイは、前記３次元ビデオデータを表示するように構成される端末を提供する。

第５態様において、本実施例は、上記いずれか１項に記載の方法を実行するためのコンピュータ実行可能命令が記憶されるコンピュータ可読記憶媒体を更に提供する。本実施例に係るビデオデータ処理方法、装置および機器は、第１端末対象物体の画像データを第２端末の現在の現実のシーンの画像データに組み込み、第２端末のビデオ通話中の現実情報を拡張し、第２端末のユーザに拡張現実した３次元ビデオ通話を提供し、感覚的に、自分が位置している現実環境に対象物体が存在することをユーザに感じさせ、更に、ユーザ体験を向上させることができる。

実施例１におけるビデオデータ処理方法のフローチャートである。実施例２におけるビデオデータ処理方法のフローチャートである。実施例３におけるビデオデータ処理装置の構造模式図である。実施例４におけるサーバの構造模式図である。実施例５における端末の構造模式図である。

以下、本実施例における図面を参照しながら、本実施例における技術案について明確かつ完全に説明する。

実施例１
本実施例は、ビデオデータ処理方法を提供し、実際の応用において、該方法は、様々なビデオ通信トラフィックにおいてビデオデータの処理が必要となる場合に適用でき、端末におけるビデオ通話アプリケーション系製品、社交系製品およびスマートオフィス系製品等であってもよく、ビデオトラフィックサーバにおけるビデオデータの処理であってもよい。例示的には、ユーザは、端末におけるスマートオフィス系製品を用いて他のユーザと拡張現実したビデオ通話を行うことを実現でき、感覚的に、自分が位置している会議室に他のユーザが来たことを感じることができ、自分の通話体験を向上させる。

なお、図１は、実施例１におけるビデオデータ処理方法のフローチャートであり、図１に示すように、該ビデオデータ処理方法はＳ１１０〜Ｓ１３０を含む。

Ｓ１１０において、第１端末と第２端末とのビデオ通話中に、第１ビデオデータおよび第２ビデオデータを取得する。

ここで、第１ビデオデータには、少なくとも第１端末に対応する対象物体の第１左側面図および第１右側面図が含まれ、第２ビデオデータには、少なくとも第２端末が現在位置している現実のシーンの第２左側面図および第２右側面図が含まれる。

ここで、ユーザは、ビデオ通話中に、感覚的に対象物体をユーザの現在位置している現実環境内に現せ、より現実感のあるビデオ通話体験を取得しようとする場合、拡張現実したビデオ通話トラフィックを選択することができる。このようにして、第１端末と第２端末とのビデオ通話中に、少なくとも第１端末に対応する対象物体の第１左側面図および第１右側面図が含まれる第１ビデオデータを取得し、少なくとも第２端末が現在位置している現実のシーンの第２左側面図および第２右側面図が含まれる第２ビデオデータを取得する。これにより、第１端末に対応する対象物体の画像データを第２端末が現在位置している現実のシーンの画像データに組み込み、第２端末側のユーザのビデオ通話体験を向上させることができる。

好ましくは、第１ビデオデータは、対象物体を含む１フレームのデータ、例えば第ｉフレームのデータであってもよい。この時、該第１ビデオデータには、タイミングｉに収集された対象物体の第１左側面図および第１右側面図が含まれる。第１ビデオデータは、対象物体を含む複数フレームのデータ、例えば第ｊフレーム〜第ｊ＋２フレームのデータであってもよい。この時、該第１ビデオデータには、タイミングｊ〜タイミングｊ＋２に収集された対象物体の全ての第１左側面図および第１右側面図が含まれる。同様に、第２ビデオデータは、現実のシーンを含む１フレームのデータであってもよいし、現実のシーンを含む複数フレームのデータであってもよい。更に、第２ビデオデータと第１ビデオデータとが同期して対応しているため、第１ビデオデータに対象物体の第ｉフレームのデータが含まれる場合、第２ビデオデータにも現実のシーンの第ｉフレームのデータが含まれる。第１ビデオデータまたは第２ビデオデータの第ｉフレームのデータは３次元画像であってもよく、該３次元画像から対象物体または現実のシーンの左側面図および右側面図を取得することができ、または、第１ビデオデータまたは第２ビデオデータの第ｉフレームのデータは、２つの２次元画像のままであってもよく、すなわち、対象物体または現実のシーンの左側面図および右側面図のままである。ここで、第１ビデオデータは時間が４秒でフレームレートが２５フレーム／秒のビデオデータであると仮定すると、２５×４、合計１００個の第１左側面図および１００個の第１右側面図が得られる。これにより、第２ビデオデータも対応して時間が４秒でフレームレートが２５フレーム／秒のビデオデータである。更に、タイムスタンプに基づき、各第１左側面図にそれぞれ１つの第２左側面図が対応付けられ、各第１右側面図にそれぞれ１つの第２右側面図が対応付けられる。

実際の応用において、上記第１ビデオデータおよび第２ビデオデータは、それぞれ１つの両眼カメラで収集してもよく、同一平面に位置して同じ焦点距離および収集方向を有する左右２つのカメラにより、対象物体または現実のシーンの視差のある２枚の画像、すなわち、左側面図および右側面図を同じタイミングで取得することができ、この２枚の視差のある画像よって、対象物体または現実のシーンの３次元データを取得することができる。もちろん、他のタイプのステレオカメラ、例えば４眼カメラで対象物体または現実のシーンのビデオデータを収集してもよい。

具体的な実施過程において、第１端末が対象物体の左側面図および右側面図を収集する時、対象物体が位置するシーンは、純粋な白色、純粋な青色または純粋な緑色等のような単純な背景であってもよく、環境が比較的乱雑な道路のような複雑な背景であってもよい。しかし、抽出アルゴリズムの複雑度を低減し、対象物体が含まれる左側面図および右側面図から真の対象物体の画像を容易に抽出できるように、対象物体は、できるだけ比較的単純な背景、例えば、単一色の背景に存在すべきである。好ましくは、対象物体と色が大きく異なる背景を採用し、例えば、青色や緑色が人の肌色と大きく異なるため、対象物体が人体である場合、青色の背景または緑色の背景を選択してもよい。

好ましくは、Ｓ１１０は、第１端末からの第１ビデオデータを受信し、第２端末からの第２ビデオデータを受信し、あるいは、第１端末からの第１ビデオデータを受信し、現在位置している現実のシーンの第２左側面図および第２右側面図を同期して収集することを更に含む。

好ましくは、該方法をサーバに用いると、第１端末からの第１ビデオデータを受信し、第２端末からの第２ビデオデータを受信することで、第１ビデオデータおよび第２ビデオデータを取得することができる。該方法を第２端末に用いると、第１端末からの第１ビデオデータを受信し、現在位置している現実のシーンの第２左側面図および第２右側面図を同期して収集することで、第１ビデオデータおよび第２ビデオデータを取得することができる。

Ｓ１２０において、第１左側面図における対象物体の第１画像と第２左側面図とを合成し、第１右側面図における対象物体の第２画像と第２右側面図とを合成する。

ここで、第２端末のユーザのビデオ通話の現実感を拡張するために、第１端末に対応する対象物体の第１左側面図および第１右側面図を取得し、第２端末が現在位置している現実のシーンの第２左側面図および第２右側面図を取得した後に、第１左側面図における対象物体の第１画像と第２左側面図とを合成し、合成後の第１端末に対応する対象物体および第２端末が現在位置している現実のシーンが同時に含まれた第２左側面図を取得し、第１右側面図における対象物体の第２画像と第２右側面図とを合成し、合成後の第１端末に対応する対象物体および第２端末が現在位置している現実のシーンが同時に含まれた第２右側面図を取得することができる。

例示的には、第１左側面図における対象物体の第１画像が立っている人であり、第２左側面図において１本の木であると仮定すると、合成後の左側面図は１本の木のそばに立っている人を含むことができる。

実際の応用において、第１左側面図における対象物体の第１画像と第２左側面図とを合成し、第１右側面図における対象物体の第２画像と第２右側面図とを合成する時に、画素に基づく画像合成アルゴリズム、ウェーブレット変換に基づく多重解像度画像合成アルゴリズム、ピラミッド画像合成アルゴリズム、およびポアソン法に基づく画像合成アルゴリズム等の通常のマシンビジョンアルゴリズムのうちの少なくとも１種を採用してもよく、当業者が具体的に実施する際に実際の状況に応じて決定してもよい。

好ましくは、Ｓ１２０の前に、所定の規則に従い、第１左側面図から第１画像を抽出し、第１右側面図から第２画像を抽出することを更に含む。

ここで、対象物体の第１画像と第２左側面図とを合成し、対象物体の第２画像と第２右側面図とを合成する前に、所定の規則に従い、第１左側面図から第１画像を抽出し、第１右側面図から第２画像を抽出する必要がある。

具体的な実施過程において、予め記憶された対象物体モデルによって、第１左側面図に対してターゲット識別を行って第１画像を抽出し、第１右側面図に対してターゲット識別を行って第２画像を抽出してもよいし、予め記憶された背景モデルによって、第１左側面図における背景データをフィルタリングして第１画像を取得し、第１右側面図における背景データをフィルタリングして第２画像を取得してもよい。もちろん、局所ポアソンマッティングアルゴリズムおよびベイジアンマッティングアルゴリズム（ＢａｙｅｓｉａｎＭａｔｔｉｎｇＡｌｇｏｒｉｔｈｍ）等のような他の方法を採用して第１画像および第２画像を取得してもよく、当業者は具体的な実施過程で決定する。

実際の応用において、予め記憶された対象物体モデルは、機械学習アルゴリズムによってサンプルをモデリングして予め生成したものであってもよく、ユーザが手動で対象領域を選択し、マシンビジョンアルゴリズムによってリアルタイムに生成したものであってもよい。同様に、予め記憶された背景モデルは、予め設定された背景色情報に基づいて生成したものであってもよく、ユーザが手動で背景領域を標定し、マシンビジョンアルゴリズムによってリアルタイムに生成したものであってもよい。もちろん、予め記憶された対象物体モデルまたは背景モデルは、他の方式で得られてもよい。

例示的には、機械学習アルゴリズムにより、人または自動車等のようなサンプル対象を学習し、対象物体の関連特徴ライブラリーを取得して対象物体の視覚モデルを予め確立しており、第１ビデオデータにおける対象物体を識別してマッチングし、第１左側面図における対象物体の第１画像および第１右側面図における対象物体の第２画像を取得してもよい。あるいは、背景と前景の対象物体とは色が異なる場合、背景情報をフィルタリングし、対象物体の画像データを取得してもよい。あるいは、背景と前景対象物体とは明らかに異なっている場合、背景レイヤフィルタリング法を用いて背景を透明化処理し、対象物体の画像データを取得してもよい。あるいは、背景に１つのガウス背景モデルを確立した後に、背景データをマッチングして識別し、対象物体の画像データを取得してもよい。

また、得られた画像には、常に様々なノイズが存在するため、これらノイズは、外部環境の光線または塵埃等による外部ノイズであってもよく、ビデオ収集モジュールの内部回路またはイメージセンサモジュールの材料等による内部ノイズであってもよく、これらノイズの存在で、画像上の対象物がぼやけてしまい、ひいては識別できず、取得された対象データが不正確になってしまう。

そのため、具体的な実施過程において、第１左側面図から第１画像を正確に抽出し、第１右側面図から第２画像を正確に抽出できることを確保するために、更に、第１左側面図および第１右側面図に対してノイズ除去処理を行い、ひいてはノイズ除去された第１左側面図およびノイズ除去された第１右側面図を使用して第１画像および第２画像を抽出する必要がある。

実際の応用において、ノイズ除去処理を行う際に採用されるノイズ除去方法は、線形フィルタ法、メディアンフィルタ法およびウィナーフィルタ法等の空間領域ノイズ除去方法であってもよく、フーリエ変換およびウェーブレット変換等の周波数領域ノイズ除去方法であってもよく、もちろん、色ヒストグラム均等化等のような他のタイプのノイズ除去方法であってもよい。

Ｓ１３０において、合成後の第２左側面図および合成後の第２右側面図に基づき、対応する３次元ビデオデータを生成する。

ここで、合成後の第２左側面図および合成後の第２右側面図を取得すると、３次元撮像技術で対象物体と現実のシーンとを合成した３次元ビデオデータを生成することができる。

実際の応用において、合成後の第２左側面図および合成後の第２右側面図に基づいて対応する３次元ビデオデータを生成する際に、色分割、光分割および時分割等の通常の３次元撮像技術を採用してもよく、当業者が具体的に実施する際に実際の状況に応じて決定する。

具体的な実施過程において、第２端末のユーザに拡張現実した３次元ビデオデータを感じさせるために、上記方法は、Ｓ１３０の後に、上記３次元ビデオデータを表示させ、または、第２端末に３次元ビデオデータを送信することを更に含む。

好ましくは、該方法を第２端末に用いると、第２端末に上記３次元ビデオデータを直接に表示させることができ、該方法をサーバに用いる場合、サーバから第２端末に上記３次元ビデオデータを送信する必要があり、第２端末は、３次元ビデオデータを取得してから、該３次元ビデオデータを表示させる。

実際の応用において、ユーザは、該３次元ビデオデータを視聴している時に、パッシブ偏光メガネを着用してもよいし、アクティブシャッター３Ｄ（ＴｈｒｅｅＤｉｍｅｎｓｉｏｎｓ、３次元）メガネを着用してもよく、もちろん、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ、仮想現実）メガネのような他の方式を着用してもよい。一般的には、該３次元ビデオデータを生成する方法によっては、該３次元ビデオデータを視聴する方法も対応して異なり、例えば、時分割に基づく３Ｄ技術で３次元ビデオデータが生成された場合、ユーザは、アクティブシャッター３Ｄメガネを用いて視聴することができる。

これで、２ビデオデータに対する処理が完了する。

上記内容から分かるように、本実施例に係る技術案は、まず、第１端末と第２端末とのビデオ通話中に、少なくとも第１端末に対応する対象物体の第１左側面図および第１右側面図が含まれる第１ビデオデータと、少なくとも第２端末が現在位置している現実のシーンの第２左側面図および第２右側面図が含まれる第２ビデオデータとを取得する。その後、第１左側面図における対象物体の第１画像と第２左側面図とを合成し、第１右側面図における対象物体の第２画像と第２右側面図とを合成する。最後に、合成後の第２左側面図および合成後の第２右側面図に基づき、第１端末に対応する対象物体と第２端末ユーザが現在位置している現実のシーンとを合成した３次元ビデオデータを生成する。このようにして、本実施例に係るビデオデータ処理方法により、ビデオ通話中に、第１端末に対応する対象物体を第２端末が位置する現実のシーンに組み込み、第２端末のビデオ通話の現実情報を拡張し、第２端末のユーザに拡張現実した３次元ビデオ通話を提供することができ、これにより、感覚的に、自分が現在位置している現実環境に対象物体が存在することを第２端末に対応するユーザに感じさせ、更に、ユーザに良好なユーザ体験を提供することができる。

実施例２
上記実施例に基づき、本実施例は、端末１および端末２を備えるビデオ通信システムを提供する。本実施例は、該ビデオ通信システムに適用可能なビデオデータ処理方法を提供する。

例示的には、ビデオ会議を実際の応用シーンとし、ユーザＢとユーザＡがプロジェクト計画についてコミュニケーションする必要があるが、二人が同じ都市にいないため、対面の交流が困難であると仮定すれば、ユーザＢは、会議室において該ビデオ通信システムを用いてユーザＡと拡張現実したビデオ通話を行うことができ、着席しているユーザＡをユーザＢが位置する会議室内のユーザＢの向こう側の椅子に組み込むことにより、感覚的に、自分が現在位置している現実環境にユーザＡが存在することをユーザＢに感じさせることができる。

以下、端末２のユーザＢのビデオ通話体験を向上させる過程について詳細に説明する。

なお、図２は、実施例２におけるビデオデータ処理方法のフローチャートであり、図２に示すように、該ビデオデータ処理方法は、Ｓ２０１〜Ｓ２０６を含む。

Ｓ２０１において、端末１は、第１ビデオデータを取得し、第１ビデオデータを端末２に送信する。

ここで、第１ビデオデータには、少なくともユーザＡの第１左側面図および第１右側面図が含まれる。

具体的な実施過程において、端末１は、両眼３ＤカメラによってユーザＡを撮影し、ユーザＡの第１左側面図および第１右側面図を取得することができる。

実際の応用において、引き続いてユーザＡの画像データを抽出しやすくするために、ユーザＡは白色、緑色または青色等のような単一色の背景に位置してもよく、一般的には、収集する必要のある対象が人体である場合、緑色および青色が人の肌色と大きく異なっているため、青色の背景または緑色の背景を選択してもよく、映画撮影中の青色の幕または緑色の幕に類似する役割を果たす。

Ｓ２０２において、端末２は、第１ビデオデータを受信し、第２ビデオデータを取得する。

ここで、第２ビデオデータは、ユーザＢの目線に立って収集した会議室の第２左側面図および第２右側面図である。

実際の応用において、端末２は装着可能なヘルメットであってもよく、ヘルメットの外側に両眼３Ｄカメラが設けられ、ユーザＢは、ユーザＢの目線に立って見た会議室の第２左側面図および第２右側面図を取得することができるように、端末２を頭部に装着してもよい。

Ｓ２０３において、端末２は、第１左側面図から第１画像を抽出し、第１右側面図から第２画像を抽出する。

Ｓ２０４において、端末２は、第１左側面図における対象物体の第１画像と第２左側面図とを合成し、第１右側面図における対象物体の第２画像と第２右側面図とを合成する。

ここで、ユーザＡの第１画像および第２画像を取得した後に、ユーザＡの３次元情報を会議室内のユーザＢの向こう側の座席に組み込んでもよい。

Ｓ２０５において、端末２は、合成後の第２左側面図および合成後の第２右側面図に基づき、対応する３次元ビデオデータを生成する。

ここで、合成後の第２左側面図および合成後の第２右側面図を取得した後に、端末２は、３次元撮像技術により、対応する３次元ビデオデータを生成して表示させ、ユーザＢに見せてもよい。

Ｓ２０６において、端末２は、３次元ビデオデータを表示させる。

ここで、３次元ビデオデータを生成した後に、端末２は、３次元ビデオデータを表示させてユーザＢに見せてもよい。例示的には、ユーザＢは、端末２により、ユーザＡが自分と同じ会議室内に位置し、自分の向こう側の座席に座っていることが見える。

これで、端末２によって取得された第２ビデオデータに対する処理が完了する。

上記内容から分かるように、本実施例に係る方法によれば、ユーザＢは、端末２により、通話しようとするユーザＡの映像を、ユーザＢが位置している現実のシーンの映像に組み込んで３次元撮像技術によって表示させ、拡張現実の効果を達成することができ、これによって、ユーザＢは、感覚的に、自分が位置している現実環境にユーザＡが存在することを感じることができ、ユーザＢのビデオ通話体験を向上させる。

実施例３
本実施例は、ビデオデータ処理装置を提供する。図３は、実施例３におけるビデオデータ処理装置の構造模式図であり、図３に示すように、該ビデオデータ処理装置３０は、取得モジュール３０１、合成モジュール３０２および生成モジュール３０３を備え、取得モジュール３０１は、第１端末と第２端末とのビデオ通話中に、少なくとも第１端末に対応する対象物体の第１左側面図および第１右側面図が含まれる第１ビデオデータと、少なくとも第２端末が現在位置している現実のシーンの第２左側面図および第２右側面図が含まれる第２ビデオデータとを取得するように構成され、合成モジュール３０２は、第１左側面図における対象物体の第１画像と第２左側面図とを合成し、第１右側面図における対象物体の第２画像と第２右側面図とを合成するように構成され、生成モジュール３０３は、合成後の第２左側面図および合成後の第２右側面図に基づき、対応する３次元ビデオデータを生成するように構成される。

好ましくは、該ビデオデータ処理装置は、所定の規則に従い、第１左側面図から第１画像を抽出し、第１右側面図から第２画像を抽出するように構成される抽出モジュールを更に備える。

好ましくは、抽出モジュールは、更に、予め記憶された対象物体モデルによって、第１左側面図に対してターゲット識別を行って第１画像を抽出し、第１右側面図に対してターゲット識別を行って第２画像を抽出するように構成される。

好ましくは、抽出モジュールは、更に、予め記憶された背景モデルによって、第１左側面図における背景データをフィルタリングして第１画像を取得し、第１右側面図における背景データをフィルタリングして第２画像を取得するように構成される。

好ましくは、取得モジュールは、更に、第１端末からの第１ビデオデータを受信し、第２端末からの第２ビデオデータを受信するように構成され、対応的に、該ビデオデータ処理装置は、第２端末に３次元ビデオデータを送信するように構成される送信モジュールを更に備える。

好ましくは、取得モジュールは、更に、第１端末からの第１ビデオデータを受信し、現在位置している現実のシーンの第２左側面図および第２右側面図を同期して収集するように構成され、対応的に、該ビデオデータ処理装置は、３次元ビデオデータを表示させるように構成される表示モジュールを更に備える。

実際の応用において、上記取得モジュール、合成モジュール、生成モジュール、抽出モジュールおよび送信モジュールは、いずれも中央処理装置（ＣＰＵ、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、グラフィックプロセッサ（ＧＰＵ、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、マイクロプロセッサ（ＭＰＵ、ＭｉｃｒｏＰｒｏｃｅｓｓｏｒＵｎｉｔ）、デジタル信号プロセッサ（ＤＳＰ、ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等によって実現できる。

以上の装置の実施例の説明は、上記方法の実施例の説明と類似し、方法の実施例と類似する有益な効果を有するため、説明を省略する。装置の実施例において開示されていない技術の詳細については、方法の実施例の説明を参照して理解し、紙面の都合上、重複する説明を省略する。

実施例４
本実施例は、サーバを提供する。図４は、実施例４におけるサーバの構造模式図であり、図４に示すように、該サーバ４０は、送受信機４０１およびプロセッサ４０２を備え、送受信機４０１は、少なくとも第１端末に対応する対象物体の第１左側面図および第１右側面図が含まれる第１端末からの第１ビデオデータを受信し、少なくとも第２端末が現在位置している現実のシーンの第２左側面図および第２右側面図が含まれる第２端末からの第２ビデオデータを受信するように構成され、更に、第２端末に３次元ビデオデータを送信するように構成される。プロセッサ４０２は、第１左側面図における対象物体の第１画像と第２左側面図とを合成し、第１右側面図における対象物体の第２画像と第２右側面図とを合成し、合成後の第２左側面図および合成後の第２右側面図に基づき、対応する３次元ビデオデータを生成するように構成される。

好ましくは、プロセッサ４０２は、更に、所定の規則に従い、第１左側面図から第１画像を抽出し、第１右側面図から第２画像を抽出するように構成される。

好ましくは、プロセッサ４０２は、更に、予め記憶された対象物体モデルによって、第１左側面図に対してターゲット識別を行って第１画像を抽出し、第１右側面図に対してターゲット識別を行って第２画像を抽出するように構成される。

好ましくは、プロセッサ４０２は、更に、予め記憶された背景モデルによって、第１左側面図における背景データをフィルタリングして第１画像を取得し、第１右側面図における背景データをフィルタリングして第２画像を取得するように構成される。

本実施例は、上記実施例のサーバに配置可能であり、上記いずれかの実施例に係るビデオデータ処理方法を実行するためのコンピュータ実行可能命令が記憶される、コンピュータ可読記憶媒体を更に提供する。

好ましくは、本実施例に係るサーバは、上記背景モデルおよび対象物体モデル等のようなデータおよび論理命令を記憶するためのメモリ４０３を更に備える。プロセッサ４０２は、メモリ４０３内の論理命令を呼び出し、上記実施例のビデオデータ処理方法を実行することができる。

上記メモリ内の論理命令は、ソフトウェア機能ユニットの形式で実現でき、独立した製品として販売または使用される場合、コンピュータ可読記憶媒体に記憶させることができる。前記記憶媒体は、ＵＳＢ、リムーバブルハードディスク、読み出し専用メモリ（ＲＯＭ、Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスクまたは光ディスク等の複数種のプログラムコードを記憶可能な媒体を含む非一時的記憶媒体であってもよく、一時的記憶媒体であってもよい。

以上のサーバの実施例の説明は、上記方法の実施例の説明と類似し、方法の実施例と類似する有益な効果を有するため、説明を省略する。サーバの実施例において開示されていない技術の詳細については、方法の実施例の説明を参照して理解し、紙面の都合上、重複する説明を省略する。

実施例５
本実施例は端末を提供する。図５は、実施例５における端末の構造模式図であり、図５に示すように、該端末５０は、受信機５０１、ステレオカメラ５０２、プロセッサ５０３およびディスプレイ５０４を備える。ここで、受信機５０１は、少なくとも相手側に対応する対象物体の第１左側面図および第１右側面図が含まれる相手側からのビデオデータを受信するように構成され、ステレオカメラ５０２は、現在位置している現実のシーンの第２左側面図および第２右側面図を同期して収集するように構成され、プロセッサ５０３は、第１左側面図における対象物体の第１画像と第２左側面図とを合成し、第１右側面図における対象物体の第２画像と第２右側面図とを合成し、合成後の第２左側面図および合成後の第２右側面図に基づき、対応する３次元ビデオデータを生成するように構成され、ディスプレイ５０４は、３次元ビデオデータを表示するように構成される。

好ましくは、プロセッサ５０３は、更に、所定の規則に従い、第１左側面図から第１画像を抽出し、第１右側面図から第２画像を抽出するように構成される。

好ましくは、プロセッサ５０３は、予め記憶された対象物体モデルによって、第１左側面図に対してターゲット識別を行って第１画像を抽出し、第１右側面図に対してターゲット識別を行って第２画像を抽出するように構成される。

好ましくは、プロセッサ５０３、更に、予め記憶された背景モデルによって、第１左側面図における背景データをフィルタリングして第１画像を取得し、第１右側面図における背景データをフィルタリングして第２画像を取得するように構成される。

本実施例は、上記実施例の端末に配置可能であり、上記いずれかの実施例に係るビデオデータ処理方法を実行するためのコンピュータ実行可能命令が記憶される、コンピュータ可読記憶媒体を更に提供する。

好ましくは、前記端末は、上記背景モデルおよび対象物体モデル等のようなデータおよび論理命令を記憶するためのメモリ５０５を更に備える。プロセッサ５０３は、メモリ５０５内の論理命令を呼び出し、上記実施例のビデオデータ処理方法を実行することができる。

上記メモリ内の論理命令は、ソフトウェア機能ユニットの形式で実現でき、独立した製品として販売または使用される場合、コンピュータ可読記憶媒体に記憶することができる。前記記憶媒体は、ＵＳＢ、リムーバブルハードディスク、読み出し専用メモリ（ＲＯＭ、Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスクまたは光ディスク等の複数種のプログラムコードを記憶可能な媒体を含む非一時的記憶媒体であってもよく、一時的記憶媒体であってもよい。

以上の端末の実施例の説明は、上記方法の実施例の説明と類似し、方法の実施例と類似する有益な効果を有するため、説明を省略する。端末の実施例において開示されていない技術の詳細については、方法の実施例の説明を参照して理解し、紙面の都合上、重複する説明を省略する。

当業者であれば理解するであろう、本実施例は、方法、システムまたはコンピュータプログラム製品として提供され得る。そのため、本実施例は、ハードウェアの実施例、ソフトウェアの実施例、またはソフトウェアおよびハードウェアの態様を組み合わせる実施例の形式を採用することができる。更に、本実施例は、コンピュータ利用可能なプログラムコードを含む１つまたは複数のコンピュータ利用可能な記憶媒体（磁気ディスクメモリおよび光学的メモリ等を含んでもよいが、それらに限定されない）で実施されるコンピュータプログラム製品の形式を採用してもよい。

本実施例は、本実施例による方法、機器（システム）、およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照して説明される。コンピュータプログラム命令により、フローチャートおよび／またはブロック図における各フローおよび／またはブロック、およびフローチャートおよび／またはブロック図におけるフローおよび／またはブロックの組み合わせを実現できることを理解すべきである。これらのコンピュータプログラム命令を、汎用コンピュータ、専用コンピュータ、組込み式処理装置または他のプログラマブルデータ処理機器のプロセッサに提供して１つの機器を生成することができることにより、コンピュータまたは他のプログラマブルデータ処理機器のプロセッサによって実行される命令は、フローチャートの１つのフローまたは複数のフロー、および／またはブロック図の１つのブロックまたは複数のブロックにおいて指定される機能を実現するための装置を生成する。

これらコンピュータプログラム命令は、特定の方式でコンピュータまたは他のプログラマブルデータ処理機器を動作させることができるコンピュータ可読メモリに記憶されてもよく、それにより、該コンピュータ可読メモリに記憶された命令は、フローチャートの１つのフローまたは複数のフロー、および／またはブロック図の１つのブロックまたは複数のブロックにおいて指定される機能を実現する命令装置を含む製造品を生成する。

これらコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理機器にロードされてもよく、コンピュータまたは他のプログラマブル機器で一連の操作ステップを実行し、コンピュータで実現する処理を生成することにより、コンピュータまたは他のプログラマブル機器で実行される命令は、フローチャートの１つのフローまたは複数のフロー、および／またはブロック図の１つのブロックまたは複数のブロックにおいて指定される機能を実現するためのステップを提供する。

本開示に係るビデオデータ処理方法、装置および機器は、第１端末対象物体の画像データを第２端末の現在の現実のシーンの画像データに組み込み、第２端末のビデオ通話中の現実情報を拡張し、第２端末のユーザに拡張現実した３次元ビデオ通話を提供し、感覚的に、自分が現在位置している現実環境に対象物体が存在することをユーザに感じさせ、更に、ユーザ体験を向上させることができる。

Claims

第１端末と第２端末とのビデオ通話中に、少なくとも前記第１端末に対応する対象物体の第１左側面図および第１右側面図が含まれる第１ビデオデータと、少なくとも前記第２端末が現在位置している現実のシーンの第２左側面図および第２右側面図が含まれる第２ビデオデータとを取得することと、
前記第１左側面図における前記対象物体の第１画像と前記第２左側面図とを合成し、前記第１右側面図における前記対象物体の第２画像と前記第２右側面図とを合成することと、
合成後の第２左側面図および合成後の第２右側面図に基づき、３次元ビデオデータを生成することと、を含む、
ビデオデータ処理方法。
第１左側面図における前記対象物体の第１画像と前記第２左側面図とを合成し、前記第１右側面図における前記対象物体の第２画像と前記第２右側面図とを合成する前に、
所定の規則に従い、前記第１左側面図から前記第１画像を抽出し、前記第１右側面図から前記第２画像を抽出することを更に含む、
請求項１に記載の方法。
所定の規則に従い、前記第１左側面図から前記第１画像を抽出し、前記第１右側面図から前記第２画像を抽出することは、
予め記憶された対象物体モデルによって、前記第１左側面図に対してターゲット識別を行って前記第１画像を抽出し、前記第１右側面図に対してターゲット識別を行って前記第２画像を抽出することを含む、
請求項２に記載の方法。
所定の規則に従い、前記第１左側面図から前記第１画像を抽出し、前記第１右側面図から前記第２画像を抽出することは、
予め記憶された背景モデルによって、前記第１左側面図における背景データをフィルタリングして前記第１画像を取得し、前記第１右側面図における背景データをフィルタリングして前記第２画像を取得することを含む、
請求項２に記載の方法。
第１端末と第２端末とのビデオ通話中に、第１ビデオデータおよび第２ビデオデータを取得することは、前記第１端末からの前記第１ビデオデータを受信し、前記第２端末からの前記第２ビデオデータを受信することを含み、
前記３次元ビデオデータを生成した後に、前記第２端末に前記３次元ビデオデータを送信することを更に含む、
請求項１から４のいずれか１項に記載の方法。
第１端末と第２端末とのビデオ通話中に、第１ビデオデータおよび第２ビデオデータを取得することは、前記第１端末からの前記第１ビデオデータを受信し、前記第２端末が現在位置している現実のシーンの前記第２ビデオデータを同期して収集することを含み、
前記３次元ビデオデータを生成した後に、前記３次元ビデオデータを表示することを更に含む、
請求項１から４のいずれか１項に記載の方法。
取得モジュール、合成モジュールおよび生成モジュールを備えるビデオデータ処理装置であって、
前記取得モジュールは、第１端末と第２端末とのビデオ通話中に、少なくとも前記第１端末に対応する対象物体の第１左側面図および第１右側面図が含まれる第１ビデオデータと、少なくとも前記第２端末が現在位置している現実のシーンの第２左側面図および第２右側面図が含まれる第２ビデオデータとを取得するように構成され、
前記合成モジュールは、前記第１左側面図における前記対象物体の第１画像と前記第２左側面図とを合成し、前記第１右側面図における前記対象物体の第２画像と前記第２右側面図とを合成するように構成され、
前記生成モジュールは、合成後の第２左側面図および合成後の第２右側面図に基づき、３次元ビデオデータを生成するように構成される、
ビデオデータ処理装置。
所定の規則に従い、前記第１左側面図から前記第１画像を抽出し、前記第１右側面図から前記第２画像を抽出するように構成される抽出モジュールを更に備える、
請求項７に記載の装置。
前記抽出モジュールは、予め記憶された対象物体モデルによって、前記第１左側面図に対してターゲット識別を行って前記第１画像を抽出し、前記第１右側面図に対してターゲット識別を行って前記第２画像を抽出するように構成される、
請求項８に記載の装置。
前記抽出モジュールは、予め記憶された背景モデルによって、前記第１左側面図における背景データをフィルタリングして前記第１画像を取得し、前記第１右側面図における背景データをフィルタリングして前記第２画像を取得するように構成される、
請求項８に記載の装置。
送受信機およびプロセッサを備えるサーバであって、
前記送受信機は、少なくとも前記第１端末に対応する対象物体の第１左側面図および第１右側面図が含まれる第１端末からの第１ビデオデータを受信し、少なくとも前記第２端末が現在位置している現実のシーンの第２左側面図および第２右側面図が含まれる第２端末からの第２ビデオデータを受信するように構成され、
前記プロセッサは、前記第１左側面図における前記対象物体の第１画像と前記第２左側面図とを合成し、前記第１右側面図における前記対象物体の第２画像と前記第２右側面図とを合成し、且つ、合成後の第２左側面図および合成後の第２右側面図に基づき、３次元ビデオデータを生成するように構成され、
前記送受信機は、更に、前記第２端末に３次元ビデオデータを送信するように構成される、
サーバ。
受信機、ステレオカメラ、プロセッサおよびディスプレイを備える端末であって、
前記受信機は、少なくとも相手側に対応する対象物体の第１左側面図および第１右側面図が含まれる前記相手側からのビデオデータを受信するように構成され、
前記ステレオカメラは、現在位置している現実のシーンの前記第２左側面図および前記第２右側面図を同期して収集するように構成され、
前記プロセッサは、前記第１左側面図における前記対象物体の第１画像と前記第２左側面図とを合成し、前記第１右側面図における前記対象物体の第２画像と前記第２右側面図とを合成し、且つ、合成後の第２左側面図および合成後の第２右側面図に基づき、３次元ビデオデータを生成するように構成され、
前記ディスプレイは、前記３次元ビデオデータを表示させるように構成される、
端末。
請求項１から６のいずれか１項に記載の方法を実行するためのコンピュータ実行可能命令が記憶される、コンピュータ可読記憶媒体。