JP7408792B2

JP7408792B2 - シーンのインタラクション方法及び装置、電子機器並びにコンピュータプログラム

Info

Publication number: JP7408792B2
Application number: JP2022521702A
Authority: JP
Inventors: 宇▲軒▼ 梁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-16
Filing date: 2020-11-10
Publication date: 2024-01-05
Anticipated expiration: 2040-11-10
Also published as: CN111274910A; EP3998550A1; KR20220027187A; CN111274910B; US20220156986A1; JP2022551660A; EP3998550A4; WO2021143315A1

Description

本願は、人工知能の技術分野に関し、シーンのインタラクション方法及び装置、電子機器並びにコンピュータ記憶媒体に関するが、これらに限られない。

関連出願の相互参照
本願は、出願番号が２０２０１００４９１１２．１、出願日が２０２０年０１月１６日である中国特許出願に基づいて出願されたものであり、該中国特許出願に基づく優先権を主張し、その内容を全て参照により本願に組み込むものとする。

インターネットと情報技術の発展に伴い、ますます多くの企業がネットワーク通信技術を利用して各種形態のオンライン及びオフラインのマーケティング活動を開催することができるようになっている。活動現場にいるユーザはオフライン活動に直接参加することができる一方、活動現場にいないユーザも携帯電話やパソコンなどのネットワーク通信デバイスを利用してオンライン活動に参加することができる。

しかしながら、従来の活動の開催形態では、オンライン活動とオフライン活動は互いに分離しており、直接のインタラクションが困難であったり、形が限られた簡単なインタラクションしかできなかったりするのが一般的であった。そのため、どのようにして活動シーンのインタラクション効率及びインタラクション品質を高めるかが、現在の急務となる。

これに鑑みて、本願の実施形態は、インタラクション効率を高めるだけでなく、より豊かで多様なインタラクション効果を得ることができるシーンのインタラクション方法及び装置、電子機器並びにコンピュータ記憶媒体を提供する。

本願の実施形態の技術案は、以下のように実現される。

本願の実施形態は、電子機器が実行する、シーンのインタラクション方法であって、仮想シーンとインタラクションを行う少なくとも１つの実シーンを決定するステップと、各前記実シーンの実シーン情報をリアルタイムで取得するステップと、前記実シーン情報毎に特徴抽出を行うことで、各前記実シーンのシーン特徴をそれぞれに得るステップと、前記仮想シーンと前記実シーンとの対応関係に応じて、前記少なくとも１つの実シーンのシーン特徴を前記仮想シーンにマッピングするステップと、を含むシーンのインタラクション方法を提供する。

本願の実施形態は、仮想シーンとインタラクションを行う少なくとも１つの実シーンを決定するように構成されるシーン決定モジュールと、各前記実シーンの実シーン情報をリアルタイムで取得するように構成される情報取得モジュールと、前記実シーン情報毎に特徴抽出を行うことで、各前記実シーンのシーン特徴をそれぞれに得るように構成される特徴抽出モジュールと、前記仮想シーンと前記実シーンとの対応関係に応じて、前記少なくとも１つの実シーンのシーン特徴を前記仮想シーンにマッピングするように構成される特徴マッピングモジュールと、を備えるシーンのインタラクション装置を提供する。

本願の実施形態は、プロセッサによって実行されると、上述した技術案におけるシーンのインタラクション方法を実現するコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供する。

本願の実施形態は、プロセッサと、前記プロセッサの実行可能命令を記憶するためのメモリと、を備え、前記プロセッサは、前記実行可能命令を実行することによって、上述した技術案におけるシーンのインタラクション方法を実行するように構成される電子機器を提供する。

本願の実施形態による技術案において、実シーン情報の特徴抽出を行うことで、実シーンのシーン特徴を得、実シーンのシーン特徴を仮想シーンにマッピングすることにより、オフラインの人物及びシーンとオンライン仮想シーンとのリアルタイムな融合とインタラクションを実現し、インタラクション効率を高めるだけでなく、より豊かで多様なインタラクション効果を得ることができる。

明細書に組み込まれ、本明細書の一部を構成する図面は、本願に合致した実施形態を示し、明細書と共に本願の実施形態の原理を説明するために使用される。明らかに、以下の説明における図面は、本願の一部の実施形態にすぎず、当業者にとって、創造的な労働無しに、これらの図面に基づいて他の図面を得ることができる。図面において、
本願の実施形態の技術案が適用される例示的なシステムアーキテクチャの概略図を模式的に示している。本願のいくつかの実施形態におけるシーンのインタラクション方法のステップのフローチャートを模式的に示している。本願の実施形態の仮想シーンと実シーンとがインタラクションを行う適用場面の概略図を模式的に示している。本願の実施形態のＷｅｂＳｏｃｋｅｔに基づいて作成されたリアルタイムインタラクションシーン通信モデルの概略図を模式的に示している。本願の実施形態のＷｅｂＳｏｃｋｅｔプロトコルに基づく通信タイミングチャートを模式的に示している。本願のいくつかの実施形態における画像情報の特徴抽出を行うステップのフローチャートを模式的に示している。本願の実施形態のＣＮＮモデルを用いた画像特徴抽出の概略原理図を模式的に示している。本願の実施形態におけるＴｅｎｓｏｒＦｌｏｗのシステムレイアウトの概略図を模式的に示している。本願のいくつかの実施形態におけるシーン特徴の特徴マッピングを行うステップのフローチャートを模式的に示している。本願の実施形態によるシーンのインタラクション方法の１つの適用場面におけるステップのフローチャートを模式的に示している。本発明の実施形態におけるキャプチャされた立体空間画像情報のディスプレイ状態の概略図を模式的に示している。本発明の実施形態における実シーンのコンテンツを融合した仮想シーンのディスプレイ状態の概略図を模式的に示している。本発明の実施形態における音声波形グラフのマッチング関係の概略図を模式的に示している。本願の実施形態におけるシーンのインタラクションのための変更コントローラを模式的に示している。本願のいくつかの実施形態におけるシーンのインタラクション装置の構成ブロック図を模式的に示している。本願の実施形態の電子機器を実現するために適したコンピュータシステムの概略構成図を示している。

以下、図面を参照しながら例示した実施形態をより全面的に説明する。しかしながら、例示した実施形態は、様々な形態で実施されることができ、ここで説明する例に限定されると理解されるべきではない。逆に、これらの実施形態は、本願の実施形態をより全面的且つ完全に開示し、例示した実施形態の構想を当業者に全面的に伝えるために提供されたものである。

また、説明する特徴、構造又は特性は、任意の適切な形態で１つ又はより多くの実施形態と組み合わせることができる。以下の説明において、本願の実施形態を充分に理解させるためにたくさんの具体的な詳細を提供する。しかしながら、詳細の１つ又は複数を特定することなく本願の実施形態の技術案を実施することができる、或いは、他の方法、素子、装置、及びステップ等を用いることができることは、当業者が認識するであろう。他の場合、本願の実施形態の各側面が不明確になることを回避するために、公知されている方法、装置、実現、又は操作についての詳細な図示又は説明は省略する。

図面に示されるブロック図は機能エンティティに過ぎず、必ずしも物理的に独立したエンティティに対応する必要はない。即ち、これらの機能エンティティは、ソフトウェア形態で実現されたり、１つ又は複数のハードウェアモジュール又は集積回路で実現されたり、異なるネットワーク及び／又はプロセッサ装置及び／又はマイクロコントローラ装置で実現されたりすることができる。

図面に示されるフローチャートは、例示的な説明に過ぎず、必ずしもすべての内容及び操作／ステップを含む必要はなく、また、必ずしも説明する順序で実行される必要もない。例えば、一部の操作／ステップを分解したり、一部の操作／ステップを併合又は部分的に併合したりすることができるので、実際に実行する順序は、実際の状況に応じて変更される可能性がある。

本願の関連技術では、単なるオンライン活動又はオフライン活動は、いずれも今日の多様化するライフスタイルを満足することができないとともに、ますます好奇心に満ち、面白さに関心を持つ新世代の若年ユーザ層を満足させることができない。

したがって、関連技術に存在する問題に鑑みて、本願の実施形態は、コンピュータビジョン、音声技術、及び機械学習等の人工知能技術に基づいて、シーンのインタラクション方法及び装置、電子機器並びにコンピュータ記憶媒体を提供する。このシーンのインタラクション方法は、人工知能分野に適用されることができ、人工知能技術を利用してオフラインの人物及びシーンとオンライン仮想シーンとのリアルタイムな融合とインタラクションを実現する。

以下、人工知能技術について説明する。人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）は、デジタルコンピュータ又はデジタルコンピュータによって制御されるマシンを利用して、人間の知能をシミュレート、延伸、及び拡張し、環境を感知し、知識を獲得し、その知識を使って最良の結果を得るための理論、方法、技術及び応用システムである。人工知能技術は、ハードウェア面とソフトウェア面の両方で、幅広い分野をカバーする総合的な学問である。本願の実施形態は、主に人工知能技術のうちコンピュータビジョン技術及び音声処理技術等の技術に関する。

なお、コンピュータビジョン技術（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、ＣＶ）について、コンピュータビジョンは、マシンが「見える」ようにする方法を研究する科学であり、さらに、人間の目の代わりにカメラ及びコンピュータを使って対象物に対して認識、追跡及び測定等のマシンビジョンを行い、さらに、コンピュータ処理によって人間の目で観察したり、機器で検査するために伝送したりするのに適した画像になるようにグラフィックス処理を行う科学である。科学の１つであるコンピュータビジョンは、画像又は多次元データから情報を取得可能な人工知能システムを構築するために、関連する理論および技術を研究するものである。コンピュータビジョン技術は、一般的には、画像処理、画像認識、画像意味理解、画像検索、ＯＣＲ、ビデオ処理、ビデオ意味理解、ビデオコンテンツ／行動認識、３次元物体再構築、３Ｄ技術、バーチャルリアリティ、拡張現実、位置特定と地図作成の同時実行などの技術を含み、さらに、顔認識や指紋認識などの一般的なバイオメトリック技術を含む。音声技術（ＳｐｅｅｃｈＴｅｃｈｎｏｌｏｇｙ、ＳＴ）のキーテクノロジーには、自動音声認識技術（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ、ＡＳＲ）、音声合成技術（ＴｅｘｔＴｏＳｐｅｅｃｈ、ＴＴＳ）及び声紋認識技術がある。コンピュータが聞いたり、見たり、話したり、感じたりできるようにすることは、未来のマンマシンインタラクションの発展方向であり、中でも音声は未来で最も期待されるマンマシンインタラクション方式の一つとなっている。

図１は、本願の実施形態の技術案が適用される例示的なシステムアーキテクチャの概略図を模式的に示している。

図１に示すように、システムアーキテクチャ１００は、クライアント側１１０と、ネットワーク１２０と、サーバ側１３０とを含み得る。クライアント側１１０は、スマートフォン、タブレット、ノートパソコン、デスクトップパソコン等の様々な端末装置を含み得る。サーバ側１３０は、ネットワークサーバ、アプリケーションサーバ、データベースサーバなどの様々なサーバ装置を含み得る。ネットワーク１２０は、クライアント側１１０とサーバ側１３０との間で通信リンクを提供可能な各種接続タイプの通信媒体とすることができ、例えば、有線通信リンク、無線通信リンクなどとすることができる。

実現上の必要に応じて、本願の実施形態におけるシステムアーキテクチャは、任意数のクライアント側、ネットワーク、及びサーバ側を有し得る。例えば、サーバ側１３０は、複数のサーバ装置からなるサーバ群であってもよく、クライアント側１１０は、同一のオフライン活動シーンに分布するか、又は複数の異なるオフライン活動シーンに分布する複数の端末装置からなる端末装置クラスタであってもよい。また、本願の実施形態におけるシーンのインタラクション方法は、クライアント側１１０に適用されてもよいし、サーバ側１３０に適用されてもよく、或いは、クライアント側１１０とサーバ側１３０との両方によって実行されてもよいが、本願の実施形態では特に限定されるものではない。

図１を参照しながら、本願の実施形態によるシーンのインタラクション方法の適用場面を説明する。

企業のマーケティング活動を例に説明すると、企業がオンラインとオフラインの同時マーケティング活動を開催する場合、マーケティング活動を同期させるためのアプリケーションを使用して実現することができ、このアプリケーションは、マーチャント向けとユーザ向けを含み得、企業は、アプリケーションのマーチャント向けクライアント側を端末上で実行しログインすることにより、活動の開始を可能にし、オンラインユーザは、アプリケーションのユーザ向けクライアント側を端末上で実行しログインすることにより、オンライン同期を可能にする。本願の実施形態では、サーバ側１３０は、アプリケーションに対応するサーバ側であり、クライアント側１１０は、マーチャント用のクライアント側とオンラインユーザ用のクライアント側とを含み、マーチャントは、クライアント側１１０を介して仮想シーンを形成し、各ユーザは、クライアント側１１０を介して、ユーザが現在所在している環境の実シーンに対応するデータをアップロードし、クライアント側１１０は、実シーンに対応するデータを、ネットワーク１２０を介してサーバ側１３０に伝送し、これにより、サーバ側１３０は、実シーンの実シーン情報をリアルタイムで取得し、実シーン情報毎に特徴抽出を行うことで、各実シーンのシーン特徴をそれぞれに得ることができる。最後に仮想シーンと実シーンとの対応関係に応じて、少なくとも１つの実シーンのシーン特徴を仮想シーンにマッピングし、このようにしてオフラインの人物及びシーンとオンラインの仮想シーンとのリアルタイムな融合とインタラクションを実現し、インタラクション効率を高めるだけでなく、より豊かで多様なインタラクション効果を得ることができる。

以下、本願の実施形態によるシーンのインタラクション方法及び装置、電子機器並びにコンピュータ記憶媒体について、具体的な実施形態を参照しながら詳細に説明する。

図２は、本願のいくつかの実施形態におけるシーンのインタラクション方法のステップのフローチャートを模式的に示している。この方法は、仮想シーンをディスプレイするクライアント側、例えば、オンラインライブでオンライン活動シーンをディスプレイする携帯電話又はコンピュータ等の端末装置に適用可能である。また、この方法は、オンライン及びオフラインの活動シーンのコンテンツ融合を行うサーバ側、例えば、オンラインライブプラットフォームにライブコンテンツ及び技術支援を提供するサーバ装置にも適用可能である。図２に示すように、この方法は、主に以下のステップを含み得る。

ステップＳ２１０では、仮想シーンとインタラクションを行う少なくとも１つの実シーンを決定する。

仮想シーンは、携帯電話、コンピュータ等のディスプレイインタフェースを有する端末装置を介してユーザに見せ、ネットワーク通信によってオンラインユーザとインタラクションを行うオンライン活動シーンであり、一方、実シーンは、対応するオンライン活動シーンとインタラクションを行うオフライン活動シーンである。いくつかの代替的な実施形態では、１つの仮想シーンは、１つの実シーンと単独でインタラクションを行うことができれば、２つ以上の実シーンと同時にインタラクションを行うこともできる。

図３は、本願の実施形態の仮想シーンと実シーンとがインタラクションを行う適用場面の概略図を模式的に示している。図３に示すように、仮想シーン３１０は、ネットワーク通信によって少なくとも１つの実シーン３２０に接続することで、少なくとも１つの実シーン３２０と同時にインタラクションを行うことができる。図中に示される仮想シーン３１０は、仮想宝くじの適用場面であり、仮想シーン３１０は、さらに、仮想ターンテーブル、仮想泡吹き、仮想自動車運転、仮想投票等の様々な適用場面であってもよい。

ステップＳ２２０では、各実シーンの実シーン情報をリアルタイムで取得する。

仮想シーンと実シーンとの間のネットワーク通信接続を利用することで、実シーンの実シーン情報をリアルタイムで取得することができる。例えば、実シーンにおいて、カメラ、マイク等の情報キャプチャ装置により、活動現場の情報キャプチャをリアルタイムで行い、そして、キャプチャした情報を、ネットワーク通信接続を通じて、仮想シーンが存在するサーバ側又はクライアント側に伝送することができる。いくつかの代替的な実施形態において、本ステップでは、伝送制御プロトコル（ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ、ＴＣＰ）に基づく全二重通信プロトコル（ＷｅｂＳｏｃｋｅｔ）に従うリアルタイム通信リンクを仮想シーンと実シーンとの間で確立し、このリアルタイム通信リンクを利用して実シーンの実シーン情報を取得することができる。

図４は、本願の実施形態のＷｅｂＳｏｃｋｅｔに基づいて作成されたリアルタイムインタラクションシーン通信モデルの概略図を模式的に示している。ＷｅｂＳｏｃｋｅｔプロトコルは、ＴＣＰに基づく新しいネットワークプロトコルであり、ｈｔｔｐプロトコルと同様にアプリケーション層のプロトコルであり、ブラウザとサーバ間の全二重（ｆｕｌｌ－ｄｕｐｌｅｘ）通信を実現し、つまり、サーバがクライアント側に情報を自発的に送信することを可能にする。図４に示すように、この通信モデルは、アプリケーション層４１０と、Ｓｏｃｋｅｔ抽象化層４２０と、トランスポート層４３０と、ネットワーク層４４０と、リンク層４５０とを含み得る。アプリケーション層４１０は、主にユーザインタフェース及びサービスサポートを提供する役割を担う複数のユーザプロセスを含む。Ｓｏｃｋｅｔ抽象化層４２０は、ＴＣＰ／ＩＰ層の複雑な操作を、アプリケーション層４１０が呼び出すためのいくつかの簡単なインタフェースに抽象化することで、ネットワークにおけるプロセスの通信を実現する。トランスポート層４３０は、コネクション指向ＴＣＰプロトコルとコネクションレス型ＵＤＰプロトコルとを含み、主にプロセスからプロセスへのメッセージ全体の伝送を担当する。ユーザデータグラムプロトコル（ＵｓｅｒＤａｔａｇｒａｍＰｒｏｔｏｃｏｌ）であるＵＤＰプロトコルは、接続を確立することなくカプセル化されたＩＰデータグラムを送信可能な方法をアプリケーションプログラムに提供することができ、ＵＤＰプロトコル及びＴＣＰプロトコルは、トランスポート層４３０における２つの主要な相互補完プロトコルである。ネットワーク層４４０は、ＩＣＭＰプロトコル、ＩＰプロトコル、及びＩＧＭＰプロトコルを含み、主にホスト間又はルータ、スイッチとの間のパケットデータのルーティングと伝達を担当する。Ｉｎｔｅｒｎｅｔ制御メッセージプロトコル（ＩｎｔｅｒｎｅｔＣｏｎｔｒｏｌＭｅｓｓａｇｅＰｒｏｔｏｃｏｌ）であるＩＣＭＰプロトコルは、主にホストとルータとの間で、エラーの報告、限定的な制御とステータス情報の交換などを含む制御情報の伝達に使用される。インターネットプロトコル（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）であるＩＰプロトコルは、主にデータのルーティングと伝送を担当し、コンピュータ間でデータグラムを送受信できることを保証する。Ｉｎｔｅｒｎｅｔグループ管理プロトコル（ＩｎｔｅｒｎｅｔＧｒｏｕｐＭａｎａｇｅｍｅｎｔＰｒｏｔｏｃｏｌ）であるＩＧＭＰプロトコルは、ホストとマルチキャストルータとの間で動作するものであり、マルチキャストグループメンバーの加入と離脱を管理し、マルチキャストグループメンバーの情報をメンテナンスする。リンク層４５０は、ＡＲＰプロトコル、ハードウェアインタフェース、及びＲＡＲＰプロトコルを含み、誤りのある物理チャネルを誤りのない、データフレームを確実に送信できるデータリンクに変更するために、主にノード間のリンクの確立と管理を担当する。アドレス解決プロトコル（ＡｄｄｒｅｓｓＲｅｓｏｌｕｔｉｏｎＰｒｏｔｏｃｏｌ）であるＡＲＰプロトコルは、ターゲットハードウェアデバイス４６０の物理アドレス（ＭＡＣアドレス）を、ターゲットハードウェアデバイス４６０のＩＰアドレスによって解析するためのものであり、ＲＡＲＰプロトコルは、物理アドレスをＩＰアドレスに変換するためのものである。

図５は、本願の実施形態のＷｅｂＳｏｃｋｅｔプロトコルに基づく通信タイミングチャートを模式的に示している。図５に示すように、ＷｅｂＳｏｃｋｅｔクライアント側５１０は、まず、接続要求５１（ｃｏｎｎｅｃｔｉｎｇ）をＴＣＰクライアント側５２０へ送信し、この接続要求５１に基づいて、ＴＣＰクライアント側５２０は、同期シーケンス番号メッセージ５２（ＳｙｎｃｈｒｏｎｉｚｅＳｅｑｕｅｎｃｅＮｕｍｂｅｒｓ、ＳＹＮ）をＴＣＰサーバ側５３０へ送信し、ＴＣＰサーバ側５３０は、同期シーケンス番号メッセージと肯定応答文字（Ａｃｋｎｏｗｌｅｄｇｅｃｈａｒａｃｔｅｒ、ＡＣＫ）とからなるＳＹＮ＋ＡＣＫパケット５３でＴＣＰクライアント側５２０に応答する。ＴＣＰクライアント側５２０は、ＳＹＮ＋ＡＣＫパケット５３を受信すると、ＡＣＫパケット（図示せず）をＴＣＰサーバ側５３０へ送信するとともに、接続確認メッセージ５４（ｃｏｎｎｅｃｔｅｄ）をＷｅｂＳｏｃｋｅｔクライアント側５１０に返信する。接続確立後、ＷｅｂＳｏｃｋｅｔクライアント側５１０は、ＴＣＰクライアント側５２０とのハンドシェイク５５（ｈａｎｄｓｈａｋｅ）を完了し、ＴＣＰクライアント側５２０を介してＴＣＰサーバ側５３０とメッセージ送信５６（ｓｅｎｄ）及びメッセージ受信５７（ｒｅｃｅｉｖｅ）を行い、ＴＣＰサーバ側５３０はＷｅｂＳｏｃｋｅｔサーバ側５４０と通信インタラクションを行う。

ステップＳ２３０では、実シーン情報毎に特徴抽出を行うことで、各実シーンのシーン特徴をそれぞれに得る。

このステップで特徴抽出によって得られたシーン特徴は、画像特徴及びオーディオ特徴のうちの少なくとも１つを含み得る。ステップＳ２２０においてリアルタイムで取得された各実シーンの実シーン情報について、本ステップでは、まず、実シーン情報における画像情報及びオーディオ情報を取得し、その後、画像情報の特徴抽出を行うことで実シーンの画像特徴を得るとともに、オーディオ情報の特徴抽出を行うことで実シーンのオーディオ特徴を得ることができる。

例を挙げて説明すると、画像情報の特徴抽出を行う際に、画像情報に対してシーン認識を行うことで実シーンのシーン画像特徴を得、画像情報に対して顔認識を行うことで実シーンの人物画像特徴を得、画像情報に対して人物動作認識を行うことで実シーンの動作画像特徴を得ることができる。シーン画像特徴は、実シーンの活動会場及び活動背景などの情報に関わっており、例えば、実シーンが屋内シーン又は屋外シーン、あるいは具体的なショッピングモール又は露天広場などであることを反映するために用いることができる。人物画像特徴は、実シーンにおいてオフライン活動に参加する人に関わっており、例えば、顔認識に基づいて、実シーンにおける司会者、ゲスト又は視聴者などの活動参加者を追跡することができる。動作画像特徴は、活動現場の人物の体の動きに関わっており、例えば、特定のポーズ又はジェスチャーは、指定された活動命令を表すことができる。

オーディオ情報の特徴抽出を行う際に、オーディオ情報に対して音声認識を行うことで実シーンのテキストオーディオ特徴を得、オーディオ情報に対して波形検出を行うことで実シーンの波形オーディオ特徴を得ることができる。テキストオーディオ特徴は、実シーンにおける活動参加者の会話などの音声コンテンツに関わっており、例えば、関連する音声コンテンツに対して音声認識を行うことで得られたテキスト文字又は特定の文字コードであってもよい。波形オーディオ特徴は、実シーンにおける背景音楽、効果音及びライブ活動の雰囲気等のコンテンツに関わっており、例えば、実シーンの騒がしい状態又は静かな状態を反映することができる。

ステップＳ２４０では、仮想シーンと実シーンとの対応関係に応じて、少なくとも１つの実シーンのシーン特徴を仮想シーンにマッピングする。

ステップＳ２３０で抽出された各種シーン特徴は、仮想シーンと実シーンとの対応関係に応じて、指定された特徴マッピング方式により仮想シーンにマッピングされてもよく、例えば、画像特徴は、仮想シーンにおいて、仮想背景、仮想人物等の対応する仮想画像としてマッピングされることができ、オーディオ特徴は、仮想シーンにおいて、仮想シーンの背景音楽、効果音又は音声命令等のコンテンツとしてマッピングされることができ、これにより、実シーンと仮想シーンとのシーンコンテンツ上のインタラクションを実現する。

本願の実施形態によるシーンのインタラクション方法において、実シーンの画像及びオーディオなどの情報を認識し、変換し、オンラインサーバに通信して端末画面にディスプレイさせることによって、オフラインの人物及びシーンをオンライン仮想シーンと結びつけてリアルタイムな融合とインタラクションを行うことで、インタラクション効率を高めるだけでなく、より豊かで多様なインタラクション効果を得ることができる。

いくつかの実施形態では、オフライン認識の伝導とオンライン仮想シーンの統合及びビデオ技術、音声技術、実体リモートセンシング技術の組み合わせにより、活動の面白さを高め、活動のインタラクティブ性を向上させることもでき、このようにして、異なる地域の活動参加者はすべて１つの仮想シーンに融合して遠隔対話を行うことができ、活動がブランドマーケティングにもたらす影響力を強め、ユーザの活動参加度、活動の面白さ及びコントロール性を高め、活動の価値を向上させ、極めて幅広い適用場面を持つ。

実シーン情報の特徴抽出に基づいて、実シーンのシーンコア特徴を仮想シーンに表示し、インタラクションを実現することができる。実シーン情報から取得される画像情報は、一般に、ビデオカメラ等の画像キャプチャ装置によってキャプチャされた動画映像であり得、そして、同一の実シーンは、複数のビデオカメラによって異なる位置で画像キャプチャを行うことができる。そのうえ、画像特徴抽出の処理効率を向上させるために、動画映像を予めつなぎ合わせて変換することで静止画像を形成しておくことができる。図６は、本願のいくつかの実施形態における画像情報の特徴抽出を行うステップのフローチャートを模式的に示している。図６に示すように、以上の各実施形態に踏まえて、画像情報の特徴抽出を行うステップは、以下のステップを含み得る。

ステップＳ６１０では、画像情報から、異なる画像キャプチャパラメータに対応する実シーンの局所画像を取得する。

画像キャプチャパラメータは、画像キャプチャ角度及び画像キャプチャ範囲のうちの少なくとも１つを含み得、例えば、同一の実シーンにおいて、異なる撮像角度及び撮像範囲を有する複数のビデオカメラを同時に撮影させるように配置してもよく、各ビデオカメラがキャプチャした映像は、いずれも実シーンの局所画像である。

ステップＳ６２０では、同一時間区間に属する前記局所画像をつなぎ合わせることで、前記実シーンの融合画像を得る。

キャプチャされた実シーンの連続した局所画像は、予め設定された時間長に従って分割することで、異なる時間区間に対応する局所画像を得ることができる。その後、同一時間区間に属する、異なる画像キャプチャパラメータに対応する実シーンの局所画像をつなぎ合わせることで、実シーンの融合画像を得る。

ステップＳ６３０では、融合画像の特徴抽出を行うことで、実シーンの画像特徴を得る。

画像繋ぎ合わせ（スプライミング）処理によって、異なる時間区間に対応する静的な融合画像を得ることができ、各融合画像は特徴抽出されることで対応する実シーンの画像特徴を得ることができる。いくつかの代替的な実施形態において、本ステップでは、まず融合画像のエッジ検出を行うことで融合画像における特徴領域を得、その後、特徴領域の特徴抽出を行うことで実シーンの画像特徴を得ることができる。エッジ検出により、特徴抽出範囲を狭め、特徴抽出速度及び特徴抽出精度を向上させることができる。

実シーン情報における画像情報の特徴抽出は、予めトレーニングされた機械学習モデルによって実現されることができ、例えば、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）を用いて入力画像を畳み込み、プーリング処理し、最終的に画像特徴を出力することができる。図７は、本願の実施形態のＣＮＮモデルを用いた画像特徴抽出の概略原理図を模式的に示している。図７に示すように、ＣＮＮモデルの入力画像は、画像繋ぎ合わせ後の１つの時間区間内の融合画像７１０である。実シーンの、同一時間区間及び異なる画像キャプチャパラメータに対応する複数グループの局所画像を、水平方向に沿って時間順に並べながら、鉛直方向に沿って異なる画像キャプチャパラメータに従って並べることで、動的に変化する画像を、１枚の静的な融合画像７１０となるようにつなぎ合わせる。ＣＮＮモデルには、少なくとも、１つ又は複数の畳み込み層７２０が含まれ、さらに、１つ又は複数のプーリング層７３０及び１つ又は複数の他のネットワーク構造７４０が含まれていてもよい（例えば、いくつかの実施形態では、他のネットワーク構造７４０は全結合層であってもよい）。複数のネットワーク層は層ごとに特徴抽出及び特徴マッピングが行われた後、最終的に融合画像７１０に対応する画像特徴が得られ、出力される。

本願の実施形態では、ＴｅｎｓｏｒＦｌｏｗを用いてニューラルネットワークのトレーニングを行うことができ、図８は、本願の実施形態におけるＴｅｎｓｏｒＦｌｏｗのシステムレイアウトの概略図を模式的に示している。

図８に示すように、１つのＴｅｎｓｏｒＦｌｏｗクラスタ８１０（ＴＦＣｌｕｓｔｅｒ）には、複数のＴｅｎｓｏｒＦｌｏｗサーバ側８１１（ＴＦＳｅｒｖｅｒ）が含まれており、これらのＴｅｎｓｏｒＦｌｏｗサーバ側８１１は、一連のタスクＴａｓｋｓの処理を担当する一連のバッチ処理されるジョブグループｊｏｂに分割される。１つのＴｅｎｓｏｒＦｌｏｗクラスタ８１０は、一般的に、１つのニューラルネットワークを複数のマシンで並行してトレーニングするなど、比較的高いレベルの１目標に焦点を当てる。

１つのｊｏｂには、ある同一の目標に取り組む一連のタスクＴａｓｋｓが含まれる。例えば、パラメータサーバ８１２（ＰａｒａｍｅｔｅｒＳｅｒｖｅｒ）に対応するｊｏｂｎは、ネットワークパラメータの更新・格納に関する作業を処理するために使用される。一方、各計算サーバ８１３（ｗｏｒｋｅｒｓ）に対応するｊｏｂ０・・・ｊｏｂｎ－１は、計算集約型のステートレスノードをベアリングするために使用される。通常、１つのｊｏｂ内のＴａｓｋｓは、異なるマシンで実行される。

１つのＴａｓｋは通常、ある単一のＴｅｎｓｏｒＦｌｏｗサーバ側の処理プロセスに関連付けられ、特定のｊｏｂに属し、このｊｏｂのジョブリスト内に一意のインデックスがある。

ＴｅｎｓｏｒＦｌｏｗサーバ側は、ｇｒｐｃ＿ｔｅｎｓｏｒｆｌｏｗ＿ｓｅｒｖｅｒの処理プロセスを実行するために使用され、クラスタの一員であり、１つのＭａｓｔｅｒＳｅｒｖｉｃｅと１つのＷｏｒｋｅｒＳｅｒｖｉｃｅを外部へ公開する。

ＭａｓｔｅｒＳｅｒｖｉｃｅは、遠隔地にある一連の分散デバイスとインタラクションを行うための遠隔手続き呼出しプロトコル（ＲｅｍｏｔｅＰｒｏｃｅｄｕｒｅＣａｌｌ、ＲＰＣ）サービスである。ＭａｓｔｅｒＳｅｒｖｉｃｅは、セッション（Ｓｅｓｓｉｏｎ）を行うためのセッションインタフェースであるｔｅｎｓｏｒｆｌｏｗ：：Ｓｅｓｓｉｏｎインタフェースを実現し、複数のＷｏｒｋｅｒｓｅｒｖｉｃｅを連携させるために使用される。

Ｗｏｒｋｅｒｓｅｒｖｉｃｅは、ＴｅｎｓｏｒＦｌｏｗの計算グラフ（ＴＦｇｒａｐｈ）の一部を実行する遠隔手続き呼出しサービスである。

ＴｅｎｓｏｒＦｌｏｗクライアント側８２０（Ｃｌｉｅｎｔ）は通常、ＴｅｎｓｏｒＦｌｏｗの計算グラフを構築し、ｔｅｎｓｏｒＦｌｏｗ：：Ｓｅｓｓｉｏｎインタフェースを使用してＴｅｎｓｏｒＦｌｏｗクラスタとのインタラクションを完了する。ＴｅｎｓｏｒＦｌｏｗクライアント側は通常、Ｐｙｔｈｏｎ又はＣ＋＋で記述される。１つのＴｅｎｓｏｒＦｌｏｗクライアント側は複数のＴｅｎｓｏｒＦｌｏｗサーバ側と同時にインタラクションを行うことができれば、１つのＴｅｎｓｏｒＦｌｏｗサーバ側は複数のＴｅｎｓｏｒＦｌｏｗクライアント側に対して同時にサービスを提供することもできるのが一般的である。

ＴｅｎｓｏｒＦｌｏｗに基づいてニューラルネットワークを構築した後、サンプルデータを用いてニューラルネットワークをトレーニングすることができる。オフライン活動に対応する実シーンの場合、シミュレーションの方式で大量のオフライン活動シーンのビデオを記録し、入力することができる。

ＴｅｎｓｏｒＦｌｏｗにおけるｔｆ．ｎｎ．ｃｏｎｖ２ｄアルゴリズムを用いて呼び出すことにより、トレーニングのために大量のビデオと写真画像を取り出すことができる。ＯＰＥＮＣＶを用いて画像エッジ認識を行うことができ、認識されたブロックには一定の形状データがあり、形状データ及びトレーニング画像データに基づく統計的準備、比較により、どのような特徴に属するかを認識することができる。サンプルデータを用いた反復トレーニングにより、ニューラルネットワークにおけるネットワークパラメータを絶えずに更新し最適化することを実現することができる。例えば、あるネットワーク層には、演算式ａ＊０．５＋ｂが含まれており、この式の反復更新プロセスは次のようになる。

５．４＊５．０＋１．８８＝２８．８８
９．３５８０５＊５．０＋２．６７１６１＝４９．４６１９
９．４５８９＊５．０＋２．６９１７８＝４９．９８６３
９．４６１４７＊５．０＋２．６９２２９＝４９．９９９６
９．４６１５４＊５．０＋２．６９２３１＝５０．０

この更新プロセスに基づき、パラメータａの値は５．４から９．４５８９、さらに９．４６１５４へと漸増し、パラメータｂの値は１．８８から２．６７１６１、さらに２．６９２３１へと漸増することが分かる。

いくつかの代替的な実施形態では、サポートベクターマシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ、ＳＶＭ）に基づく分類器を例にとると、以下の損失関数を使用することができる。

Ｌ（ｙ）＝ｍａｘ（０，１－ｔｙ）

ここで、ｙは－１～＋１となる予測値であり、ｔは目標値（－１又は＋１）である。ｙの値は－１～＋１でよいが、｜ｙ｜＞１は推奨されず、すなわち、分類器が自信過剰になることは推奨されず、ある正しく分類されたサンプルが分割線から１よりも大きく離れることには何の報酬も与えない。

また、本願のいくつかの代替的な実施形態では、Ｔｅｎｓｏｒｆｌｏｗにおいて勾配降下アルゴリズムを実現する最適化器として、ｔｆ．ｔｒａｉｎ．ＧｒａｄｉｅｎｔＤｅｓｃｅｎｔＯｐｔｉｍｉｚｅｒを使用することができる。勾配降下アルゴリズムとしては、標準的な勾配降下ＧＤ、バッチ勾配降下ＢＧＤ及び確率的勾配降下ＳＧＤのうちの任意の１種を選択することができる。

標準的な勾配降下を例にとると、学習トレーニング用のネットワークパラメータをＷ、損失関数をＪ（Ｗ）とすると、損失関数のネットワークパラメータに関する偏導関数である相関勾配をｄＪ（Ｗ）、学習率をηとした場合、勾配降下法によるネットワークパラメータの更新式は次のようになる。

Ｗ_ｓ＋１＝Ｗ_ｓ－ηΔＪ（Ｗ_ｓ）

ネットワークパラメータの調整は、勾配方向が常に減少する方向に沿って損失関数を最小化する。限られた視野内で最速の下山ルートを探し、一歩踏み出すごとに現在位置の最急な勾配方向を参考にして次のステップを決定することが基本的な戦略である。

ＴｅｎｓｏｒＦｌｏｗに基づいてトレーニングして得られたニューラルネットワークは、実シーンの実シーン情報に対する特徴抽出に適用されることができ、抽出されたシーン特徴は、対応する仮想シーンにマッピングされる。図９は、本願のいくつかの実施形態におけるシーン特徴の特徴マッピングを行うステップのフローチャートを模式的に示しており、図９に示すように、上記の各実施形態に踏まえて、ステップＳ２４０において、仮想シーンと実シーンとの対応関係に応じて、少なくとも１つの実シーンのシーン特徴を仮想シーンにマッピングするステップは、以下のステップを含み得る。

ステップＳ９１０では、仮想シーンと実シーンとの対応関係に応じて、仮想シーンにおいて各実シーンに対応する特徴マッピング領域を決定する。

仮想シーンにおいて、指定された一部のシーン表示領域を、実シーンに対応する特徴マッピング領域として決定することができる。１つの仮想シーンが複数の実シーンと同時にインタラクションを行う場合、実シーン毎に、仮想シーンにおいて１つの特徴マッピング領域を決定することができ、これらの特徴マッピング領域は、互いに離間した表示領域であってもよいし、部分的又は完全に重なる表示領域であってもよい。

ステップＳ９２０では、特徴マッピング領域において、対応する実シーンのシーン特徴とマッピング関係を持つシーンコンテンツを表示する。

ここで、特徴マッピング領域は、第１の特徴マッピング領域と第２の特徴マッピング領域とを含み、第１の特徴マッピング領域と第２の特徴マッピング領域とは、完全に重なる表示領域であっても、部分的に重なる表示領域であってもよく、また、全く重ならず、互いに離間した表示領域であってもよい。

実シーンのシーン特徴が画像特徴である場合、画像特徴とマッピング関係を持つ画像応答コンテンツを第１の特徴マッピング領域に表示することができる。シーン特徴がオーディオ特徴である場合に、オーディオ特徴とマッピング関係を持つオーディオ応答コンテンツを第２の特徴マッピング領域に表示することができる。

いくつかの代替的な実施形態では、画像特徴に基づいて画像応答コンテンツを表示する際に、画像特徴からシーン画像特徴、人物画像特徴及び動作画像特徴のうちの少なくとも１つを取得し、そして、シーン画像特徴とマッピング関係を持つ仮想背景画像を第１の特徴マッピング領域に表示し、人物画像特徴とマッピング関係を持つ仮想人物画像を第１の特徴マッピング領域に表示し、動作画像特徴とマッピング関係を持つ動作応答コンテンツを第１の特徴マッピング領域に表示することができる。なお、画像特徴にシーン画像特徴、人物画像特徴、及び動作画像特徴のうちの複数が含まれる場合、複数の画像特徴を、同一の第１の特徴マッピング領域に同時に表示してもよいし、複数の画像特徴を、それぞれ、異なる第１の特徴マッピング領域に表示してもよい。仮想宝くじを例にとると、認識された動作画像特徴が、ルーレットを回転させるユーザの動作に対応している場合、仮想シーンにおける仮想宝くじルーレットを回転し始めるように制御することができる。

いくつかの代替的な実施形態では、オーディオ特徴に基づいてオーディオ応答コンテンツを表示する場合、オーディオ特徴からテキストオーディオ特徴及び波形オーディオ特徴を取得し、そして、テキストオーディオ特徴とマッピング関係を持つテキスト応答コンテンツを第２の特徴マッピング領域に表示し、波形オーディオ特徴とマッピング関係を持つオーディオ動的効果を第２の特徴マッピング領域に表示することができる。

図１０は、本願の実施形態によるシーンのインタラクション方法の１つの適用場面におけるステップのフローチャートを模式的に示している。この方法は、主に、仮想シーンを動的に制御するサーバ装置に適用されることができる。図１０に示すように、この適用場面においてシーンのインタラクションを行う方法は、主に以下のステップを含む。

ステップＳ１０１０では、オフラインシーンにおいて、複数のカメラ及び複数のマイクをオンにする。複数のカメラを介してユーザの動作等の活動コンテンツに関する立体空間画像情報をキャプチャし、複数のマイクを介してユーザの音声等の活動コンテンツに関する立体音響情報をキャプチャする。

図１１Ａは、本願の実施形態におけるキャプチャされた立体空間画像情報のディスプレイ状態の概略図を模式的に示している。図１１Ａに示すように、複数のカメラを介してキャプチャされた立体空間画像情報には、人物だけでなく、その人物が所在しているシーンも含まれており、もちろん、人物の動作や表情などのより詳細な情報も含まれていてもよい。

ステップＳ１０２０では、ＷｅｂＳｏｃｋｅｔにより画像情報及び音声情報をリアルタイムで受信する。

ステップＳ１０３０では、画像情報に対して人物認識、動作認識及びシーン認識を行う。

ステップＳ１０４０では、インデックストラバースにより、仮想シーンの局所領域を動的に変更する。例えば、リアルタイムで取得した画像特徴に基づいて特徴領域をマッティング（ｍａｔｔｉｎｇ）し、マッティング後、各クライアント側でマッティングした画像特徴を活動の別の仮想シーンに一律にスケジューリングし、計算により、各実際のシーンの人物及び人物の動作を、仮想シーンが実際の活動タイプに合致するように仮想シーンに配置することができる。図１１Ｂは、本発明の実施形態における実シーンのコンテンツを融合した仮想シーンのディスプレイ状態の概略図を模式的に示している。図１１Ｂに示すように、オフライン活動シーンにおける実際のシーンの人物は、実シーンオブジェクト１１１０として仮想シーンに配置され、仮想シーン内で生成された仮想シーンオブジェクト１１２０とともにユーザに表示される。実シーンオブジェクト１１１０の人物の動作及び姿勢は、実際のシーンの人物に追従してリアルタイムで変化し、一方、仮想シーンオブジェクト１１２０は、実際の活動タイプに応じて配置及び調整され得る。

ステップＳ１０５０では、音声情報を認識して文字に変換し、音声波形グラフを得る。文字部分は、例えば「宝くじ抽せん開始」、「投票開始」などのような音声命令を形成するために使用されることができる。音声波形グラフは、それに適した背景音楽にマッチングするために使用されることができ、図１２は、音声波形グラフと背景音楽との間のマッチング関係の概略図を模式的に示している。図１２に示すように、音声情報から得られた音声波形グラフ１２１から、これに似たマッチング波形グラフ１２２を得ることができ、このマッチング波形グラフに基づいて対応する背景音楽を決定することができる。

ステップＳ１０６０では、インデックストラバースにより、仮想シーンの音楽動的効果を動的に変更する。仮想シーンの背景音楽は、その場の音声波形グラフに基づいてマッチングすることが可能であり、例えば、オフライン活動現場が静かであれば、マッチング結果に応じて緩やかな背景音楽に変更することが可能である。

いくつかの代替的な実施形態では、さらに、リアルタイムで取得した画像特徴に基づいて、特徴マッピング領域をマッティングし、マッティング後、各クライアント側でマッティングした画像特徴を現在の活動に対応する仮想シーンに一律にスケジューリングし、計算により、各実シーンの人物などの動作を、仮想シーンが実際の活動タイプに合致するようにその仮想シーンに配置することができ、同時に、活動の背景音楽は、実シーンでキャプチャされた音声情報に基づいてマッチングすることもできる。

いくつかの代替的な実施形態では、実シーンのシーン特徴を仮想シーンにマッピングすることに加えて、仮想シーンに基づいてインタラクションコンテンツを実シーンにフィードバックすることができる。図１３は、本願の実施形態におけるシーンのインタラクションのための変更コントローラを模式的に示している。図１３に示すように、マイクロコントローラユニット（ＭｉｃｒｏｃｏｎｔｒｏｌｌｅｒＵｎｉｔ、ＭＣＵ）に基づくＭＣＵコントローラ１３１０は、モノのインターネットの形でのハードウェアデバイスを利用して、活動現場の実体的なシーンをインタラクティブに制御することができる。ブルートゥース（登録商標）通信モジュール１３２０又は他のタイプの短距離通信デバイスを介して活動現場でのデータ通信を行うことができ、センサ１３３０を介して活動現場のインタラクティブな体験情報を検出及びキャプチャすることができ、振動モジュール１３４０を介して活動現場で物理的振動効果を提供することができ、ライトモジュール１３５０を介して活動現場でライトビジョン効果を提供することができ、スピーカ１３６０を介して活動現場で音楽効果を提供することができる。

本願の実施形態によるシーンのインタラクション方法によれば、ＴｅｎｓｏｒＦｌｏｗを用いてオフラインのシーン及び人物を物理的に認識し、変換し、オンラインサーバに通信して端末画面にディスプレイさせることで、オフラインの人物及びシーンをオンライン仮想シーンと結びつけて融合とインタラクションを行い、仮想宝くじ、仮想ターンテーブル、仮想泡吹き、仮想自転車運転及び投票などの適用場面を含み、オフライン認識の伝導とオンライン仮想シーンの統合及びビデオ技術、音声技術、実体リモートセンシング技術の組み合わせにより、活動の面白さを高め、活動のインタラクティブ性を向上させ、また、異なる地域の活動参加者はすべて１つの仮想シーンに融合して遠隔対話を行うようにし、活動がブランドマーケティングにもたらす影響力を強め、ユーザの活動参加度、活動の面白さ及びコントロール性を高め、活動価値を向上させ、極めて幅広い適用場面を持つ。

本願の実施形態における方法の各ステップは、図面において特定の順序で説明されているが、これは、所望の結果を達成するために、これらのステップが該特定の順序で実行されなければならないこと、又は示されているすべてのステップが実行されなければならないことを要求又は暗示しているわけではないことに留意されたい。追加的又は代替的に、いくつかのステップを省略すること、複数のステップを１つのステップに統合して実行すること、及び／又は１つのステップを複数のステップに分解して実行することなどが可能である。

以下、本願の実施形態の装置実施形態について説明するが、本願の上述した実施形態におけるシーンのインタラクション方法を実行するために使用されることができる。本願の装置実施形態に開示されていない詳細については、本願の上述したシーンのインタラクション方法の実施形態を参照するとよい。

図１４は、本願のいくつかの実施形態におけるシーンのインタラクション装置の構成ブロック図を模式的に示している。図１４に示すように、シーンのインタラクション装置１４００は、主に次のものを含み得る。

シーン決定モジュール１４１０は、仮想シーンとインタラクションを行う少なくとも１つの実シーンを決定するように構成される。

情報取得モジュール１４２０は、各前記実シーンの実シーン情報をリアルタイムで取得するように構成される。

特徴抽出モジュール１４３０は、前記実シーン情報毎に特徴抽出を行うことで、各前記実シーンのシーン特徴をそれぞれに得るように構成される。

特徴マッピングモジュール１４４０は、前記仮想シーンと前記実シーンとの対応関係に応じて、前記少なくとも１つの実シーンのシーン特徴を前記仮想シーンにマッピングするように構成される。

いくつかの実施形態では、シーン特徴は、画像特徴及びオーディオ特徴のうちの少なくとも１つを含む。

いくつかの実施形態では、特徴抽出モジュール１４３０は、各実シーン情報における画像情報及びオーディオ情報を取得するように構成される情報抽出ユニットと、画像情報の特徴抽出を行うことで実シーンの画像特徴を得るように構成される画像特徴抽出ユニットと、オーディオ情報の特徴抽出を行うことで実シーンのオーディオ特徴を得るように構成されるオーディオ特徴抽出ユニットと、を含む。

いくつかの実施形態では、画像特徴抽出ユニットは、画像情報に対してシーン認識を行うことで実シーンのシーン画像特徴を得るように構成されるシーン認識サブユニットと、画像情報に対して顔認識を行うことで実シーンの人物画像特徴を得るように構成される顔認識サブユニットと、画像情報に対して人物動作認識を行うことで実シーンの動作画像特徴を得るように構成される人物動作認識サブユニットと、シーン画像特徴、人物画像特徴及び動作画像特徴を実シーンの画像特徴として決定するように構成される第１の決定サブユニットと、を含む。

いくつかの実施形態では、画像特徴抽出ユニットは、画像情報から、異なる画像キャプチャパラメータに対応する実シーンの局所画像を取得するように構成される局所画像取得サブユニットと、同一時間区間に属する局所画像をつなぎ合わせることで、実シーンの融合画像を得るように構成される画像スプライミングサブユニットと、融合画像の特徴抽出を行うことで実シーンの画像特徴を得るように構成される画像特徴抽出サブユニットと、を含む。

いくつかの実施形態では、画像キャプチャパラメータは、画像キャプチャ角度及び画像キャプチャ範囲のうちの少なくとも１つを含む。

いくつかの実施形態では、画像特徴抽出サブユニットは、融合画像のエッジ検出を行うことで融合画像における特徴領域を得るように構成されるエッジ検出サブユニットと、特徴領域の特徴抽出を行うことで実シーンの画像特徴を得るように構成される特徴抽出サブユニットと、を含む。

いくつかの実施形態では、オーディオ特徴抽出ユニットは、オーディオ情報に対して音声認識を行うことで実シーンのテキストオーディオ特徴を得るように構成される音声認識サブユニットと、オーディオ情報に対して波形検出を行うことで実シーンの波形オーディオ特徴を得るように構成される波形検出サブユニットと、テキストオーディオ特徴及び波形オーディオ特徴を実シーンのオーディオ特徴として決定するように構成される第２の決定サブユニットと、を含む。

いくつかの実施形態では、特徴マッピングモジュール１４４０は、仮想シーンと実シーンとの対応関係に応じて、仮想シーンにおいて各実シーンに対応する特徴マッピング領域を決定するように構成される領域決定ユニットと、特徴マッピング領域において、対応する実シーンのシーン特徴とマッピング関係を持つシーンコンテンツを表示するように構成されるコンテンツ表示ユニットと、を含む。

いくつかの実施形態では、前記特徴マッピング領域は、第１の特徴マッピング領域と第２の特徴マッピング領域とを含み、コンテンツ表示ユニットは、シーン特徴が画像特徴である場合、画像特徴とマッピング関係を持つ画像応答コンテンツを第１の特徴マッピング領域に表示するように構成される画像応答コンテンツ表示サブユニットと、シーン特徴がオーディオ特徴である場合、オーディオ特徴とマッピング関係を持つオーディオ応答コンテンツを第２の特徴マッピング領域に表示するように構成されるオーディオ応答コンテンツ表示サブユニットと、を含む。

いくつかの実施形態では、画像応答コンテンツ表示サブユニットは、画像特徴からシーン画像特徴、人物画像特徴及び動作画像特徴のうちの少なくとも１つを取得するように構成される画像特徴取得サブユニットと、シーン画像特徴とマッピング関係を持つ仮想背景画像を特徴マッピング領域に表示するように構成される仮想背景画像表示サブユニットと、人物画像特徴とマッピング関係を持つ仮想人物画像を特徴マッピング領域に表示するように構成される仮想人物画像表示サブユニットと、動作画像特徴とマッピング関係を持つ動作応答コンテンツを第１の特徴マッピング領域に表示するように構成される動作応答コンテンツ表示サブユニットと、を含む。

いくつかの実施形態では、オーディオ応答コンテンツ表示サブユニットは、オーディオ特徴からテキストオーディオ特徴及び波形オーディオ特徴を取得するように構成されるオーディオ特徴取得サブユニットと、テキストオーディオ特徴とマッピング関係を持つテキスト応答コンテンツを第２の特徴マッピング領域に表示するように構成されるテキスト応答コンテンツ表示サブユニットと、波形オーディオ特徴とマッピング関係を持つオーディオ動的効果を第２の特徴マッピング領域に表示するように構成されるオーディオ動的効果表示サブユニットと、を含む。いくつかの実施形態では、情報取得モジュール１４２０は、伝送制御プロトコルの全二重通信プロトコルに従ってリアルタイム通信を行うリアルタイム通信リンクを前記仮想シーンと前記実シーンとの間で確立するように構成されるリンク確立ユニットと、リアルタイム通信リンクを利用して実シーンの実シーン情報を取得するように構成されるリンク通信ユニットと、を含む。

本願の各実施形態によるシーンのインタラクション装置の詳細については、対応する方法実施形態で詳細に説明されているので、ここではその詳細を繰り返さない。

図１５は、本願の実施形態の電子機器を実現するために適したコンピュータシステムの概略構成図を示している。

なお、図１５に示された電子機器のコンピュータシステム１５００は一例にすぎず、本願の実施形態の機能及び使用範囲を何ら制限するものではない。

図１５に示すように、コンピュータシステム１５００は、リードオンリーメモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）１５０２に記憶されたプログラム、又は記憶部１５０８からランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）１５０３にロードされたプログラムに応じて、様々な適切な動作及び処理を実行することができる中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）１５０１を備える。ＲＡＭ１５０３には、システムの操作に必要な各種プログラム及びデータも記憶されている。ＣＰＵ１５０１、ＲＯＭ１５０２、及びＲＡＭ１５０３は、バス１５０４を介して互いに接続されている。バス１５０４には、入力／出力（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、ＩＯ）インタフェース１５０５も接続されている。

Ｉ／Ｏインタフェース１５０５には、キーボード、マウス等を含む入力部１５０６と、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ、ＣＲＴ）、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）等及びスピーカ等を含む出力部１５０７と、ハードディスク等を含む記憶部１５０８と、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ：ローカルエリアネットワーク）カード、モデム等のネットワークインタフェースカードを含む通信部１５０９と、が接続されている。通信部１５０９は、インターネット等のネットワークを介して通信処理を行う。ドライブ１５１０も、必要に応じてＩ／Ｏインタフェース１５０５に接続されている。ドライブ１５１０には、必要に応じて磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア１５１１がインストールされることで、そこから読み出されたコンピュータプログラムが必要に応じて記憶部１５０８にインストールされることが容易になる。

特に、本願の実施形態によれば、各方法フローチャートに記載されたプロセスは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本願の実施形態は、コンピュータ読み取り可能な媒体上に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含み、該コンピュータプログラムは、フローチャートに示された方法を実行するためのプログラムコードを含む。このような実施形態では、該コンピュータプログラムは、通信部１５０９を介してネットワークからダウンロードされインストールされること、及び／又は、リムーバブルメディア１５１１からインストールされることができる。このコンピュータプログラムが中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）１５０１によって実行されると、本願のシステムに限定された種々の機能が実行される。

なお、本願の実施形態に示されたコンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、コンピュータ読み取り可能な記憶媒体、又は両方の任意の組み合わせであってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気、磁気、光学、電磁気、赤外線、又は半導体のシステム、装置、又はデバイス、又は以上の任意の組み合わせとすることができるが、これらに限られない。コンピュータ読み取り可能な記憶媒体は、１つ又は複数の導線を有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、リードオンリーメモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＥＰＲＯＭ）、フラッシュメモリ、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含み得るが、これらに限られない。本願の実施形態では、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置、又はデバイスによって、又はそれらと組み合わせて使用されることができるプログラムを含む又は記憶する任意の有形媒体とすることができる。一方、本願の実施形態では、コンピュータ読み取り可能な信号媒体は、ベースバンド中又は搬送波の一部として伝播され、読み取り可能なプログラムコードが付加されたデータ信号を含み得る。このように伝播されるデータ信号は、様々な形態をとることができ、電磁信号、光信号、又は上記の任意の適切な組み合わせを含むが、これらに限られない。コンピュータ読み取り可能な信号媒体は、命令実行システム、装置、又はデバイスによって、又はそれらと組み合わせて使用されるプログラムを送信、伝播、又は伝送することができるコンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよい。コンピュータ読み取り可能な媒体に含まれるプログラムコードは、無線、有線など、又は上記の任意の適切な組み合わせを含むが、これらに限られない任意の適切な媒体で伝送されることができる。

図面のフローチャート及びブロック図は、本願の様々な実施形態に従ったシステム、方法、及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能、及び操作を示している。この点において、フローチャート又はブロック図の各ブロックは、所定の論理機能を実現するための１つ又は複数の実行可能命令を含むモジュール、セグメント、又はコードの一部を表すことができる。代替手段である実現には、ブロックに示された機能が、図面に示された順序とは異なる順序で発生し得るものがあるにも留意されたい。例えば、２つの連続して表現されたブロックは、実際には、実質的に並列に実行されてもよく、関連する機能に応じて、時には逆の順序で実行されてもよい。ブロック図又はフローチャートの各ブロック、及びブロック図又はフローチャートのブロックの組み合わせは、所定の機能又は操作を実行する専用のハードウェアベースのシステム、又は専用のハードウェアとコンピュータ命令との組み合わせで実現されてもよいことにも留意されたい。

以上の詳細な説明では、動作を実行するための装置のいくつかのモジュール又はユニットが言及されているが、このような区分は必須ではないことに留意されたい。実際に、本願の実施形態の実施形態によれば、以上で説明した２つ以上のモジュール又はユニットの特徴及び機能は、１つのモジュール又はユニット内で具体化されることができる。逆に、以上で説明した１つのモジュール又はユニットの特徴及び機能は、さらに複数のモジュール又はユニットに分割されて具体化されてもよい。

以上の実施形態の説明により、ここに説明された例示的な実施形態は、ソフトウェアによって実現されてもよいし、ソフトウェアと必要なハードウェアとの組み合わせによって実現されてもよいことが当業者には容易に理解される。したがって、本願の実施形態による技術案は、ソフトウェア製品の形で具現化されることができ、このソフトウェア製品は、不揮発性記憶媒体（リードオンリー光ディスク（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＣＤ－ＲＯＭ）、ＵＳＢフラッシュディスク、携帯型ハードディスクなどであってもよい）又はネットワークに記憶されることができ、計算機器（パーソナルコンピュータ、サーバ、タッチ端末、又はネットワークデバイスなどであってもよい）に本願の実施形態による方法を実行させるためのいくつかの命令を含む。

当業者は、明細書を検討し、ここに開示された発明を実施した後に、本願の他の実施形態を容易に想到するであろう。本願は、本願の一般的原理に従うとともに、本願に開示されていない本分野における公知常識又は一般的な技術的手段を含む、如何なる変形、用途又は適応的な変更をカバーすることを意図している。

本願は、以上で説明され、図面に示された正確な構造に限定されるものではなく、その範囲から逸脱することなく、様々な修正及び変更が可能であることが理解されるであろう。本願の範囲は、添付のクレームのみによって制限される。

本願の実施形態では、オンライン活動とオフライン活動を同期させる必要がある場合、実シーン情報の特徴抽出を行うことで、実シーンのシーン特徴を取得し、実シーンのシーン特徴を仮想シーンにマッピングすることができ、これにより、オフラインの人物及びシーンとオンライン仮想シーンとのリアルタイムな融合とインタラクションを実現し、インタラクション効率を高めるだけでなく、より豊かで多様なインタラクション効果を得ることができ、しかもこのような方式ではオンラインユーザの活動参加度を高め、活動の価値を向上させることができ、産業上の利用可能性が極めて大きい。

１００システムアーキテクチャ
１１０クライアント側
１２０ネットワーク
１３０サーバ側
３１０仮想シーン
３２０実シーン
４１０アプリケーション層
４２０抽象化層
４３０トランスポート層
４４０ネットワーク層
４５０リンク層
４６０ターゲットハードウェアデバイス
５１０クライアント側
５２０クライアント側
５３０サーバ側
５４０サーバ側
７１０融合画像
７２０畳み込み層
７３０プーリング層
７４０他のネットワーク構造
８１０クラスタ
８１１サーバ側
８１２パラメータサーバ
８１３計算サーバ
８２０クライアント側
１１１０実シーンオブジェクト
１１２０仮想シーンオブジェクト
１３１０コントローラ
１３２０ブルートゥース（登録商標）通信モジュール
１３３０センサ
１３４０振動モジュール
１３５０ライトモジュール
１３６０スピーカ
１４００シーンのインタラクション装置
１４１０シーン決定モジュール
１４２０情報取得モジュール
１４３０特徴抽出モジュール
１４４０特徴マッピングモジュール
１５００コンピュータシステム
１５０１中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）
１５０２リードオンリーメモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）
１５０３からランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）
１５０４バス
１５０５インタフェース
１５０６マウス等を含む入力部
１５０７液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）等及びスピーカ等を含む出力部
１５０８記憶部
１５０９通信部
１５１０ドライブ
１５１１リムーバブルメディア

Claims

電子機器が実行する、シーンのインタラクション方法であって、
少なくとも１つの実シーンを決定するステップであって、各前記実シーンは、仮想シーンとの確立されたリアルタイム通信リンクを有するステップと、
各前記実シーンの実シーン情報をリアルタイムで取得するステップであって、前記実シーン情報は画像情報及びオーディオ情報を含む、ステップと、
前記画像情報及び前記オーディオ情報に特徴抽出をそれぞれ行うことで、各前記実シーンの画像特徴及びオーディオ特徴を得るステップと、
前記仮想シーンと前記少なくとも1つの実シーンとの前記リアルタイム通信リンクに基づいて、各前記実シーンと前記仮想シーンとの間の対応関係を決定するステップと、
前記対応関係に応じて、前記少なくとも１つの実シーンの前記画像特徴及び前記オーディオ特徴を前記仮想シーンの画像応答コンテンツとオーディオ応答コンテンツとにマッピングするステップと、を含み、
前記マッピングするステップは、
前記仮想シーンにおけるテキスト応答コンテンツに、前記オーディオ特徴におけるテキストオーディオ特徴をマッピングするステップと、
前記仮想シーンにおけるオーディオ動的効果に、前記オーディオ特徴における波形オーディオ特徴をマッピングするステップと、
をさらに含む、シーンのインタラクション方法。
前記画像情報及び前記オーディオ情報に特徴抽出をそれぞれ行うことで、各前記実シーンの前記画像特徴及び前記オーディオ特徴を得る前記ステップは、
前記画像情報の特徴抽出を行うことで前記実シーンの前記画像特徴を得るステップと、
前記オーディオ情報の特徴抽出を行うことで前記実シーンの前記オーディオ特徴を得るステップと、
を含む請求項１に記載のシーンのインタラクション方法。
前記画像情報の特徴抽出を行うことで前記実シーンの画像特徴を得る前記ステップは、
前記画像情報に対してシーン認識を行うことで前記実シーンのシーン画像特徴を得るステップと、
前記画像情報に対して顔認識を行うことで前記実シーンの人物画像特徴を得るステップと、
前記画像情報に対して人物動作認識を行うことで前記実シーンの動作画像特徴を得るステップと、
前記シーン画像特徴、前記人物画像特徴及び前記動作画像特徴を、前記実シーンの画像特徴として決定するステップと、
を含む請求項２に記載のシーンのインタラクション方法。
前記画像情報の特徴抽出を行うことで前記実シーンの画像特徴を得る前記ステップは、
前記画像情報から、異なる画像キャプチャパラメータに対応する前記実シーンの局所画像を取得するステップと、
同一時間区間に属する前記局所画像をつなぎ合わせることで、前記実シーンの融合画像を得るステップと、
前記融合画像の特徴抽出を行うことで前記実シーンの画像特徴を得るステップと、
を含む請求項２に記載のシーンのインタラクション方法。
前記画像キャプチャパラメータは、画像キャプチャ角度及び画像キャプチャ範囲のうちの少なくとも１つを含む、請求項４に記載のシーンのインタラクション方法。
前記融合画像の特徴抽出を行うことで前記実シーンの画像特徴を得る前記ステップは、
前記融合画像のエッジ検出を行うことで前記融合画像における特徴領域を得るステップと、
前記特徴領域の特徴抽出を行うことで前記実シーンの画像特徴を得るステップと、
を含む請求項４に記載のシーンのインタラクション方法。
前記オーディオ情報の特徴抽出を行うことで前記実シーンの前記オーディオ特徴を得る前記ステップは、
前記オーディオ情報に対して音声認識を行うことで前記実シーンのテキストオーディオ特徴を得るステップと、
前記オーディオ情報に対して波形検出を行うことで前記実シーンの波形オーディオ特徴を得るステップと、
前記テキストオーディオ特徴及び前記波形オーディオ特徴を、前記実シーンのオーディオ特徴として決定するステップと、
を含む請求項２に記載のシーンのインタラクション方法。
前記対応関係に応じて、前記画像特徴及び前記オーディオ特徴を前記仮想シーンの前記画像応答コンテンツと前記オーディオ応答コンテンツとにマッピングする前記ステップは、
前記対応関係に応じて、前記仮想シーンにおいて各前記実シーンに対応する特徴マッピング領域を決定するステップと、
前記特徴マッピング領域において、対応する前記実シーンのシーン特徴とマッピング関係を持つシーンコンテンツを表示するステップと、
を含む請求項１に記載のシーンのインタラクション方法。
前記特徴マッピング領域は、第１の特徴マッピング領域と第２の特徴マッピング領域とを含み、
前記特徴マッピング領域において、対応する前記実シーンのシーン特徴とマッピング関係を持つシーンコンテンツを表示する前記ステップは、
前記シーン特徴が画像特徴である場合、前記画像特徴とマッピング関係を持つ画像応答コンテンツを前記第１の特徴マッピング領域に表示するステップと、
前記シーン特徴がオーディオ特徴である場合、前記オーディオ特徴とマッピング関係を持つオーディオ応答コンテンツを前記第２の特徴マッピング領域に表示するステップと、
を含む請求項８に記載のシーンのインタラクション方法。
前記画像特徴とマッピング関係を持つ画像応答コンテンツを前記第１の特徴マッピング領域に表示する前記ステップは、
前記画像特徴からシーン画像特徴、人物画像特徴及び動作画像特徴のうちの少なくとも１つを取得するステップと、
前記シーン画像特徴とマッピング関係を持つ仮想背景画像を前記第１の特徴マッピング領域に表示するステップと、
前記人物画像特徴とマッピング関係を持つ仮想人物画像を前記第１の特徴マッピング領域に表示するステップと、
前記動作画像特徴とマッピング関係を持つ動作応答コンテンツを前記第１の特徴マッピング領域に表示するステップと、
を含む請求項９に記載のシーンのインタラクション方法。
前記オーディオ特徴とマッピング関係を持つオーディオ応答コンテンツを前記第２の特徴マッピング領域に表示する前記ステップは、
前記オーディオ特徴からテキストオーディオ特徴及び波形オーディオ特徴を取得するステップと、
前記テキスト応答コンテンツ及び前記オーディオ動的効果を前記第２の特徴マッピング領域に表示するステップと、
を含む請求項９に記載のシーンのインタラクション方法。
前記実シーンの実シーン情報をリアルタイムで取得する前記ステップは、
伝送制御プロトコルの全二重通信プロトコルに従ってリアルタイム通信を行うリアルタイム通信リンクを前記仮想シーンと前記実シーンとの間で確立するステップと、
前記リアルタイム通信リンクを利用して前記実シーンの実シーン情報を取得するステップと、
を含む請求項１に記載のシーンのインタラクション方法。
少なくとも１つの実シーンを決定するように構成されるシーン決定モジュールであって、各前記実シーンは、仮想シーンとの確立されたリアルタイム通信リンクを有する、シーン決定モジュールと、
各前記実シーンの実シーン情報をリアルタイムで取得するように構成される情報取得モジュールであって、前記実シーン情報は画像情報及びオーディオ情報を含む、情報取得モジュールと、
前記画像情報及び前記オーディオ情報に特徴抽出をそれぞれ行うことで、各前記実シーンの画像特徴及びオーディオ特徴を得るように構成される特徴抽出モジュールと、
前記仮想シーンと前記少なくとも1つの実シーンとの前記リアルタイム通信リンクに基づいて、各前記実シーンと前記仮想シーンとの間の対応関係を決定し、
前記対応関係に応じて、前記少なくとも１つの実シーンの前記画像特徴及び前記オーディオ特徴を前記仮想シーンの画像応答コンテンツとオーディオ応答コンテンツとにマッピングする
ように構成される特徴マッピングモジュールと、を備え、
前記特徴マッピングモジュールは、
前記仮想シーンにおけるテキスト応答コンテンツに、前記オーディオ特徴におけるテキストオーディオ特徴をマッピングし、
前記仮想シーンにおけるオーディオ動的効果に、前記オーディオ特徴における波形オーディオ特徴をマッピングする
ようにさらに構成される
シーンのインタラクション装置。
プロセッサと、
前記プロセッサの実行可能命令を記憶するためのメモリと、を備え、
前記プロセッサは、前記実行可能命令を実行することによって、請求項１ないし１２のうちのいずれか１項に記載のシーンのインタラクション方法を実行するように構成される電子機器。
コンピュータに、請求項１乃至１２のうちのいずれか１項に記載のシーンのインタラクション方法を実行させるように構成されるコンピュータプログラム。