JP7408792B2 - シーンのインタラクション方法及び装置、電子機器並びにコンピュータプログラム - Google Patents

シーンのインタラクション方法及び装置、電子機器並びにコンピュータプログラム Download PDF

Info

Publication number
JP7408792B2
JP7408792B2 JP2022521702A JP2022521702A JP7408792B2 JP 7408792 B2 JP7408792 B2 JP 7408792B2 JP 2022521702 A JP2022521702 A JP 2022521702A JP 2022521702 A JP2022521702 A JP 2022521702A JP 7408792 B2 JP7408792 B2 JP 7408792B2
Authority
JP
Japan
Prior art keywords
scene
image
real
features
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022521702A
Other languages
English (en)
Other versions
JP2022551660A (ja
Inventor
宇▲軒▼ 梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022551660A publication Critical patent/JP2022551660A/ja
Application granted granted Critical
Publication of JP7408792B2 publication Critical patent/JP7408792B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/61Scene description
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/024Multi-user, collaborative environment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]

Description

本願は、人工知能の技術分野に関し、シーンのインタラクション方法及び装置、電子機器並びにコンピュータ記憶媒体に関するが、これらに限られない。
関連出願の相互参照
本願は、出願番号が202010049112.1、出願日が2020年01月16日である中国特許出願に基づいて出願されたものであり、該中国特許出願に基づく優先権を主張し、その内容を全て参照により本願に組み込むものとする。
インターネットと情報技術の発展に伴い、ますます多くの企業がネットワーク通信技術を利用して各種形態のオンライン及びオフラインのマーケティング活動を開催することができるようになっている。活動現場にいるユーザはオフライン活動に直接参加することができる一方、活動現場にいないユーザも携帯電話やパソコンなどのネットワーク通信デバイスを利用してオンライン活動に参加することができる。
しかしながら、従来の活動の開催形態では、オンライン活動とオフライン活動は互いに分離しており、直接のインタラクションが困難であったり、形が限られた簡単なインタラクションしかできなかったりするのが一般的であった。そのため、どのようにして活動シーンのインタラクション効率及びインタラクション品質を高めるかが、現在の急務となる。
これに鑑みて、本願の実施形態は、インタラクション効率を高めるだけでなく、より豊かで多様なインタラクション効果を得ることができるシーンのインタラクション方法及び装置、電子機器並びにコンピュータ記憶媒体を提供する。
本願の実施形態の技術案は、以下のように実現される。
本願の実施形態は、電子機器が実行する、シーンのインタラクション方法であって、仮想シーンとインタラクションを行う少なくとも1つの実シーンを決定するステップと、各前記実シーンの実シーン情報をリアルタイムで取得するステップと、前記実シーン情報毎に特徴抽出を行うことで、各前記実シーンのシーン特徴をそれぞれに得るステップと、前記仮想シーンと前記実シーンとの対応関係に応じて、前記少なくとも1つの実シーンのシーン特徴を前記仮想シーンにマッピングするステップと、を含むシーンのインタラクション方法を提供する。
本願の実施形態は、仮想シーンとインタラクションを行う少なくとも1つの実シーンを決定するように構成されるシーン決定モジュールと、各前記実シーンの実シーン情報をリアルタイムで取得するように構成される情報取得モジュールと、前記実シーン情報毎に特徴抽出を行うことで、各前記実シーンのシーン特徴をそれぞれに得るように構成される特徴抽出モジュールと、前記仮想シーンと前記実シーンとの対応関係に応じて、前記少なくとも1つの実シーンのシーン特徴を前記仮想シーンにマッピングするように構成される特徴マッピングモジュールと、を備えるシーンのインタラクション装置を提供する。
本願の実施形態は、プロセッサによって実行されると、上述した技術案におけるシーンのインタラクション方法を実現するコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供する。
本願の実施形態は、プロセッサと、前記プロセッサの実行可能命令を記憶するためのメモリと、を備え、前記プロセッサは、前記実行可能命令を実行することによって、上述した技術案におけるシーンのインタラクション方法を実行するように構成される電子機器を提供する。
本願の実施形態による技術案において、実シーン情報の特徴抽出を行うことで、実シーンのシーン特徴を得、実シーンのシーン特徴を仮想シーンにマッピングすることにより、オフラインの人物及びシーンとオンライン仮想シーンとのリアルタイムな融合とインタラクションを実現し、インタラクション効率を高めるだけでなく、より豊かで多様なインタラクション効果を得ることができる。
明細書に組み込まれ、本明細書の一部を構成する図面は、本願に合致した実施形態を示し、明細書と共に本願の実施形態の原理を説明するために使用される。明らかに、以下の説明における図面は、本願の一部の実施形態にすぎず、当業者にとって、創造的な労働無しに、これらの図面に基づいて他の図面を得ることができる。図面において、
本願の実施形態の技術案が適用される例示的なシステムアーキテクチャの概略図を模式的に示している。 本願のいくつかの実施形態におけるシーンのインタラクション方法のステップのフローチャートを模式的に示している。 本願の実施形態の仮想シーンと実シーンとがインタラクションを行う適用場面の概略図を模式的に示している。 本願の実施形態のWebSocketに基づいて作成されたリアルタイムインタラクションシーン通信モデルの概略図を模式的に示している。 本願の実施形態のWebSocketプロトコルに基づく通信タイミングチャートを模式的に示している。 本願のいくつかの実施形態における画像情報の特徴抽出を行うステップのフローチャートを模式的に示している。 本願の実施形態のCNNモデルを用いた画像特徴抽出の概略原理図を模式的に示している。 本願の実施形態におけるTensorFlowのシステムレイアウトの概略図を模式的に示している。 本願のいくつかの実施形態におけるシーン特徴の特徴マッピングを行うステップのフローチャートを模式的に示している。 本願の実施形態によるシーンのインタラクション方法の1つの適用場面におけるステップのフローチャートを模式的に示している。 本発明の実施形態におけるキャプチャされた立体空間画像情報のディスプレイ状態の概略図を模式的に示している。 本発明の実施形態における実シーンのコンテンツを融合した仮想シーンのディスプレイ状態の概略図を模式的に示している。 本発明の実施形態における音声波形グラフのマッチング関係の概略図を模式的に示している。 本願の実施形態におけるシーンのインタラクションのための変更コントローラを模式的に示している。 本願のいくつかの実施形態におけるシーンのインタラクション装置の構成ブロック図を模式的に示している。 本願の実施形態の電子機器を実現するために適したコンピュータシステムの概略構成図を示している。
以下、図面を参照しながら例示した実施形態をより全面的に説明する。しかしながら、例示した実施形態は、様々な形態で実施されることができ、ここで説明する例に限定されると理解されるべきではない。逆に、これらの実施形態は、本願の実施形態をより全面的且つ完全に開示し、例示した実施形態の構想を当業者に全面的に伝えるために提供されたものである。
また、説明する特徴、構造又は特性は、任意の適切な形態で1つ又はより多くの実施形態と組み合わせることができる。以下の説明において、本願の実施形態を充分に理解させるためにたくさんの具体的な詳細を提供する。しかしながら、詳細の1つ又は複数を特定することなく本願の実施形態の技術案を実施することができる、或いは、他の方法、素子、装置、及びステップ等を用いることができることは、当業者が認識するであろう。他の場合、本願の実施形態の各側面が不明確になることを回避するために、公知されている方法、装置、実現、又は操作についての詳細な図示又は説明は省略する。
図面に示されるブロック図は機能エンティティに過ぎず、必ずしも物理的に独立したエンティティに対応する必要はない。即ち、これらの機能エンティティは、ソフトウェア形態で実現されたり、1つ又は複数のハードウェアモジュール又は集積回路で実現されたり、異なるネットワーク及び/又はプロセッサ装置及び/又はマイクロコントローラ装置で実現されたりすることができる。
図面に示されるフローチャートは、例示的な説明に過ぎず、必ずしもすべての内容及び操作/ステップを含む必要はなく、また、必ずしも説明する順序で実行される必要もない。例えば、一部の操作/ステップを分解したり、一部の操作/ステップを併合又は部分的に併合したりすることができるので、実際に実行する順序は、実際の状況に応じて変更される可能性がある。
本願の関連技術では、単なるオンライン活動又はオフライン活動は、いずれも今日の多様化するライフスタイルを満足することができないとともに、ますます好奇心に満ち、面白さに関心を持つ新世代の若年ユーザ層を満足させることができない。
したがって、関連技術に存在する問題に鑑みて、本願の実施形態は、コンピュータビジョン、音声技術、及び機械学習等の人工知能技術に基づいて、シーンのインタラクション方法及び装置、電子機器並びにコンピュータ記憶媒体を提供する。このシーンのインタラクション方法は、人工知能分野に適用されることができ、人工知能技術を利用してオフラインの人物及びシーンとオンライン仮想シーンとのリアルタイムな融合とインタラクションを実現する。
以下、人工知能技術について説明する。人工知能(Artificial Intelligence、AI)は、デジタルコンピュータ又はデジタルコンピュータによって制御されるマシンを利用して、人間の知能をシミュレート、延伸、及び拡張し、環境を感知し、知識を獲得し、その知識を使って最良の結果を得るための理論、方法、技術及び応用システムである。人工知能技術は、ハードウェア面とソフトウェア面の両方で、幅広い分野をカバーする総合的な学問である。本願の実施形態は、主に人工知能技術のうちコンピュータビジョン技術及び音声処理技術等の技術に関する。
なお、コンピュータビジョン技術(Computer Vision、CV)について、コンピュータビジョンは、マシンが「見える」ようにする方法を研究する科学であり、さらに、人間の目の代わりにカメラ及びコンピュータを使って対象物に対して認識、追跡及び測定等のマシンビジョンを行い、さらに、コンピュータ処理によって人間の目で観察したり、機器で検査するために伝送したりするのに適した画像になるようにグラフィックス処理を行う科学である。科学の1つであるコンピュータビジョンは、画像又は多次元データから情報を取得可能な人工知能システムを構築するために、関連する理論および技術を研究するものである。コンピュータビジョン技術は、一般的には、画像処理、画像認識、画像意味理解、画像検索、OCR、ビデオ処理、ビデオ意味理解、ビデオコンテンツ/行動認識、3次元物体再構築、3D技術、バーチャルリアリティ、拡張現実、位置特定と地図作成の同時実行などの技術を含み、さらに、顔認識や指紋認識などの一般的なバイオメトリック技術を含む。音声技術(Speech Technology、ST)のキーテクノロジーには、自動音声認識技術(Automatic Speech Recognition、ASR)、音声合成技術(Text To Speech、TTS)及び声紋認識技術がある。コンピュータが聞いたり、見たり、話したり、感じたりできるようにすることは、未来のマンマシンインタラクションの発展方向であり、中でも音声は未来で最も期待されるマンマシンインタラクション方式の一つとなっている。
図1は、本願の実施形態の技術案が適用される例示的なシステムアーキテクチャの概略図を模式的に示している。
図1に示すように、システムアーキテクチャ100は、クライアント側110と、ネットワーク120と、サーバ側130とを含み得る。クライアント側110は、スマートフォン、タブレット、ノートパソコン、デスクトップパソコン等の様々な端末装置を含み得る。サーバ側130は、ネットワークサーバ、アプリケーションサーバ、データベースサーバなどの様々なサーバ装置を含み得る。ネットワーク120は、クライアント側110とサーバ側130との間で通信リンクを提供可能な各種接続タイプの通信媒体とすることができ、例えば、有線通信リンク、無線通信リンクなどとすることができる。
実現上の必要に応じて、本願の実施形態におけるシステムアーキテクチャは、任意数のクライアント側、ネットワーク、及びサーバ側を有し得る。例えば、サーバ側130は、複数のサーバ装置からなるサーバ群であってもよく、クライアント側110は、同一のオフライン活動シーンに分布するか、又は複数の異なるオフライン活動シーンに分布する複数の端末装置からなる端末装置クラスタであってもよい。また、本願の実施形態におけるシーンのインタラクション方法は、クライアント側110に適用されてもよいし、サーバ側130に適用されてもよく、或いは、クライアント側110とサーバ側130との両方によって実行されてもよいが、本願の実施形態では特に限定されるものではない。
図1を参照しながら、本願の実施形態によるシーンのインタラクション方法の適用場面を説明する。
企業のマーケティング活動を例に説明すると、企業がオンラインとオフラインの同時マーケティング活動を開催する場合、マーケティング活動を同期させるためのアプリケーションを使用して実現することができ、このアプリケーションは、マーチャント向けとユーザ向けを含み得、企業は、アプリケーションのマーチャント向けクライアント側を端末上で実行しログインすることにより、活動の開始を可能にし、オンラインユーザは、アプリケーションのユーザ向けクライアント側を端末上で実行しログインすることにより、オンライン同期を可能にする。本願の実施形態では、サーバ側130は、アプリケーションに対応するサーバ側であり、クライアント側110は、マーチャント用のクライアント側とオンラインユーザ用のクライアント側とを含み、マーチャントは、クライアント側110を介して仮想シーンを形成し、各ユーザは、クライアント側110を介して、ユーザが現在所在している環境の実シーンに対応するデータをアップロードし、クライアント側110は、実シーンに対応するデータを、ネットワーク120を介してサーバ側130に伝送し、これにより、サーバ側130は、実シーンの実シーン情報をリアルタイムで取得し、実シーン情報毎に特徴抽出を行うことで、各実シーンのシーン特徴をそれぞれに得ることができる。最後に仮想シーンと実シーンとの対応関係に応じて、少なくとも1つの実シーンのシーン特徴を仮想シーンにマッピングし、このようにしてオフラインの人物及びシーンとオンラインの仮想シーンとのリアルタイムな融合とインタラクションを実現し、インタラクション効率を高めるだけでなく、より豊かで多様なインタラクション効果を得ることができる。
以下、本願の実施形態によるシーンのインタラクション方法及び装置、電子機器並びにコンピュータ記憶媒体について、具体的な実施形態を参照しながら詳細に説明する。
図2は、本願のいくつかの実施形態におけるシーンのインタラクション方法のステップのフローチャートを模式的に示している。この方法は、仮想シーンをディスプレイするクライアント側、例えば、オンラインライブでオンライン活動シーンをディスプレイする携帯電話又はコンピュータ等の端末装置に適用可能である。また、この方法は、オンライン及びオフラインの活動シーンのコンテンツ融合を行うサーバ側、例えば、オンラインライブプラットフォームにライブコンテンツ及び技術支援を提供するサーバ装置にも適用可能である。図2に示すように、この方法は、主に以下のステップを含み得る。
ステップS210では、仮想シーンとインタラクションを行う少なくとも1つの実シーンを決定する。
仮想シーンは、携帯電話、コンピュータ等のディスプレイインタフェースを有する端末装置を介してユーザに見せ、ネットワーク通信によってオンラインユーザとインタラクションを行うオンライン活動シーンであり、一方、実シーンは、対応するオンライン活動シーンとインタラクションを行うオフライン活動シーンである。いくつかの代替的な実施形態では、1つの仮想シーンは、1つの実シーンと単独でインタラクションを行うことができれば、2つ以上の実シーンと同時にインタラクションを行うこともできる。
図3は、本願の実施形態の仮想シーンと実シーンとがインタラクションを行う適用場面の概略図を模式的に示している。図3に示すように、仮想シーン310は、ネットワーク通信によって少なくとも1つの実シーン320に接続することで、少なくとも1つの実シーン320と同時にインタラクションを行うことができる。図中に示される仮想シーン310は、仮想宝くじの適用場面であり、仮想シーン310は、さらに、仮想ターンテーブル、仮想泡吹き、仮想自動車運転、仮想投票等の様々な適用場面であってもよい。
ステップS220では、各実シーンの実シーン情報をリアルタイムで取得する。
仮想シーンと実シーンとの間のネットワーク通信接続を利用することで、実シーンの実シーン情報をリアルタイムで取得することができる。例えば、実シーンにおいて、カメラ、マイク等の情報キャプチャ装置により、活動現場の情報キャプチャをリアルタイムで行い、そして、キャプチャした情報を、ネットワーク通信接続を通じて、仮想シーンが存在するサーバ側又はクライアント側に伝送することができる。いくつかの代替的な実施形態において、本ステップでは、伝送制御プロトコル(Transmission Control Protocol、TCP)に基づく全二重通信プロトコル(WebSocket)に従うリアルタイム通信リンクを仮想シーンと実シーンとの間で確立し、このリアルタイム通信リンクを利用して実シーンの実シーン情報を取得することができる。
図4は、本願の実施形態のWebSocketに基づいて作成されたリアルタイムインタラクションシーン通信モデルの概略図を模式的に示している。WebSocketプロトコルは、TCPに基づく新しいネットワークプロトコルであり、httpプロトコルと同様にアプリケーション層のプロトコルであり、ブラウザとサーバ間の全二重(full-duplex)通信を実現し、つまり、サーバがクライアント側に情報を自発的に送信することを可能にする。図4に示すように、この通信モデルは、アプリケーション層410と、Socket抽象化層420と、トランスポート層430と、ネットワーク層440と、リンク層450とを含み得る。アプリケーション層410は、主にユーザインタフェース及びサービスサポートを提供する役割を担う複数のユーザプロセスを含む。Socket抽象化層420は、TCP/IP層の複雑な操作を、アプリケーション層410が呼び出すためのいくつかの簡単なインタフェースに抽象化することで、ネットワークにおけるプロセスの通信を実現する。トランスポート層430は、コネクション指向TCPプロトコルとコネクションレス型UDPプロトコルとを含み、主にプロセスからプロセスへのメッセージ全体の伝送を担当する。ユーザデータグラムプロトコル(User Datagram Protocol)であるUDPプロトコルは、接続を確立することなくカプセル化されたIPデータグラムを送信可能な方法をアプリケーションプログラムに提供することができ、UDPプロトコル及びTCPプロトコルは、トランスポート層430における2つの主要な相互補完プロトコルである。ネットワーク層440は、ICMPプロトコル、IPプロトコル、及びIGMPプロトコルを含み、主にホスト間又はルータ、スイッチとの間のパケットデータのルーティングと伝達を担当する。Internet制御メッセージプロトコル(Internet Control Message Protocol)であるICMPプロトコルは、主にホストとルータとの間で、エラーの報告、限定的な制御とステータス情報の交換などを含む制御情報の伝達に使用される。インターネットプロトコル(Internet Protocol)であるIPプロトコルは、主にデータのルーティングと伝送を担当し、コンピュータ間でデータグラムを送受信できることを保証する。Internetグループ管理プロトコル(Internet Group Management Protocol)であるIGMPプロトコルは、ホストとマルチキャストルータとの間で動作するものであり、マルチキャストグループメンバーの加入と離脱を管理し、マルチキャストグループメンバーの情報をメンテナンスする。リンク層450は、ARPプロトコル、ハードウェアインタフェース、及びRARPプロトコルを含み、誤りのある物理チャネルを誤りのない、データフレームを確実に送信できるデータリンクに変更するために、主にノード間のリンクの確立と管理を担当する。アドレス解決プロトコル(Address Resolution Protocol)であるARPプロトコルは、ターゲットハードウェアデバイス460の物理アドレス(MACアドレス)を、ターゲットハードウェアデバイス460のIPアドレスによって解析するためのものであり、RARPプロトコルは、物理アドレスをIPアドレスに変換するためのものである。
図5は、本願の実施形態のWebSocketプロトコルに基づく通信タイミングチャートを模式的に示している。図5に示すように、WebSocketクライアント側510は、まず、接続要求51(connecting)をTCPクライアント側520へ送信し、この接続要求51に基づいて、TCPクライアント側520は、同期シーケンス番号メッセージ52(Synchronize Sequence Numbers、SYN)をTCPサーバ側530へ送信し、TCPサーバ側530は、同期シーケンス番号メッセージと肯定応答文字(Acknowledge character、ACK)とからなるSYN+ACKパケット53でTCPクライアント側520に応答する。TCPクライアント側520は、SYN+ACKパケット53を受信すると、ACKパケット(図示せず)をTCPサーバ側530へ送信するとともに、接続確認メッセージ54(connected)をWebSocketクライアント側510に返信する。接続確立後、WebSocketクライアント側510は、TCPクライアント側520とのハンドシェイク55(handshake)を完了し、TCPクライアント側520を介してTCPサーバ側530とメッセージ送信56(send)及びメッセージ受信57(receive)を行い、TCPサーバ側530はWebSocketサーバ側540と通信インタラクションを行う。
ステップS230では、実シーン情報毎に特徴抽出を行うことで、各実シーンのシーン特徴をそれぞれに得る。
このステップで特徴抽出によって得られたシーン特徴は、画像特徴及びオーディオ特徴のうちの少なくとも1つを含み得る。ステップS220においてリアルタイムで取得された各実シーンの実シーン情報について、本ステップでは、まず、実シーン情報における画像情報及びオーディオ情報を取得し、その後、画像情報の特徴抽出を行うことで実シーンの画像特徴を得るとともに、オーディオ情報の特徴抽出を行うことで実シーンのオーディオ特徴を得ることができる。
例を挙げて説明すると、画像情報の特徴抽出を行う際に、画像情報に対してシーン認識を行うことで実シーンのシーン画像特徴を得、画像情報に対して顔認識を行うことで実シーンの人物画像特徴を得、画像情報に対して人物動作認識を行うことで実シーンの動作画像特徴を得ることができる。シーン画像特徴は、実シーンの活動会場及び活動背景などの情報に関わっており、例えば、実シーンが屋内シーン又は屋外シーン、あるいは具体的なショッピングモール又は露天広場などであることを反映するために用いることができる。人物画像特徴は、実シーンにおいてオフライン活動に参加する人に関わっており、例えば、顔認識に基づいて、実シーンにおける司会者、ゲスト又は視聴者などの活動参加者を追跡することができる。動作画像特徴は、活動現場の人物の体の動きに関わっており、例えば、特定のポーズ又はジェスチャーは、指定された活動命令を表すことができる。
オーディオ情報の特徴抽出を行う際に、オーディオ情報に対して音声認識を行うことで実シーンのテキストオーディオ特徴を得、オーディオ情報に対して波形検出を行うことで実シーンの波形オーディオ特徴を得ることができる。テキストオーディオ特徴は、実シーンにおける活動参加者の会話などの音声コンテンツに関わっており、例えば、関連する音声コンテンツに対して音声認識を行うことで得られたテキスト文字又は特定の文字コードであってもよい。波形オーディオ特徴は、実シーンにおける背景音楽、効果音及びライブ活動の雰囲気等のコンテンツに関わっており、例えば、実シーンの騒がしい状態又は静かな状態を反映することができる。
ステップS240では、仮想シーンと実シーンとの対応関係に応じて、少なくとも1つの実シーンのシーン特徴を仮想シーンにマッピングする。
ステップS230で抽出された各種シーン特徴は、仮想シーンと実シーンとの対応関係に応じて、指定された特徴マッピング方式により仮想シーンにマッピングされてもよく、例えば、画像特徴は、仮想シーンにおいて、仮想背景、仮想人物等の対応する仮想画像としてマッピングされることができ、オーディオ特徴は、仮想シーンにおいて、仮想シーンの背景音楽、効果音又は音声命令等のコンテンツとしてマッピングされることができ、これにより、実シーンと仮想シーンとのシーンコンテンツ上のインタラクションを実現する。
本願の実施形態によるシーンのインタラクション方法において、実シーンの画像及びオーディオなどの情報を認識し、変換し、オンラインサーバに通信して端末画面にディスプレイさせることによって、オフラインの人物及びシーンをオンライン仮想シーンと結びつけてリアルタイムな融合とインタラクションを行うことで、インタラクション効率を高めるだけでなく、より豊かで多様なインタラクション効果を得ることができる。
いくつかの実施形態では、オフライン認識の伝導とオンライン仮想シーンの統合及びビデオ技術、音声技術、実体リモートセンシング技術の組み合わせにより、活動の面白さを高め、活動のインタラクティブ性を向上させることもでき、このようにして、異なる地域の活動参加者はすべて1つの仮想シーンに融合して遠隔対話を行うことができ、活動がブランドマーケティングにもたらす影響力を強め、ユーザの活動参加度、活動の面白さ及びコントロール性を高め、活動の価値を向上させ、極めて幅広い適用場面を持つ。
実シーン情報の特徴抽出に基づいて、実シーンのシーンコア特徴を仮想シーンに表示し、インタラクションを実現することができる。実シーン情報から取得される画像情報は、一般に、ビデオカメラ等の画像キャプチャ装置によってキャプチャされた動画映像であり得、そして、同一の実シーンは、複数のビデオカメラによって異なる位置で画像キャプチャを行うことができる。そのうえ、画像特徴抽出の処理効率を向上させるために、動画映像を予めつなぎ合わせて変換することで静止画像を形成しておくことができる。図6は、本願のいくつかの実施形態における画像情報の特徴抽出を行うステップのフローチャートを模式的に示している。図6に示すように、以上の各実施形態に踏まえて、画像情報の特徴抽出を行うステップは、以下のステップを含み得る。
ステップS610では、画像情報から、異なる画像キャプチャパラメータに対応する実シーンの局所画像を取得する。
画像キャプチャパラメータは、画像キャプチャ角度及び画像キャプチャ範囲のうちの少なくとも1つを含み得、例えば、同一の実シーンにおいて、異なる撮像角度及び撮像範囲を有する複数のビデオカメラを同時に撮影させるように配置してもよく、各ビデオカメラがキャプチャした映像は、いずれも実シーンの局所画像である。
ステップS620では、同一時間区間に属する前記局所画像をつなぎ合わせることで、前記実シーンの融合画像を得る。
キャプチャされた実シーンの連続した局所画像は、予め設定された時間長に従って分割することで、異なる時間区間に対応する局所画像を得ることができる。その後、同一時間区間に属する、異なる画像キャプチャパラメータに対応する実シーンの局所画像をつなぎ合わせることで、実シーンの融合画像を得る。
ステップS630では、融合画像の特徴抽出を行うことで、実シーンの画像特徴を得る。
画像繋ぎ合わせ(スプライミング)処理によって、異なる時間区間に対応する静的な融合画像を得ることができ、各融合画像は特徴抽出されることで対応する実シーンの画像特徴を得ることができる。いくつかの代替的な実施形態において、本ステップでは、まず融合画像のエッジ検出を行うことで融合画像における特徴領域を得、その後、特徴領域の特徴抽出を行うことで実シーンの画像特徴を得ることができる。エッジ検出により、特徴抽出範囲を狭め、特徴抽出速度及び特徴抽出精度を向上させることができる。
実シーン情報における画像情報の特徴抽出は、予めトレーニングされた機械学習モデルによって実現されることができ、例えば、畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)を用いて入力画像を畳み込み、プーリング処理し、最終的に画像特徴を出力することができる。図7は、本願の実施形態のCNNモデルを用いた画像特徴抽出の概略原理図を模式的に示している。図7に示すように、CNNモデルの入力画像は、画像繋ぎ合わせ後の1つの時間区間内の融合画像710である。実シーンの、同一時間区間及び異なる画像キャプチャパラメータに対応する複数グループの局所画像を、水平方向に沿って時間順に並べながら、鉛直方向に沿って異なる画像キャプチャパラメータに従って並べることで、動的に変化する画像を、1枚の静的な融合画像710となるようにつなぎ合わせる。CNNモデルには、少なくとも、1つ又は複数の畳み込み層720が含まれ、さらに、1つ又は複数のプーリング層730及び1つ又は複数の他のネットワーク構造740が含まれていてもよい(例えば、いくつかの実施形態では、他のネットワーク構造740は全結合層であってもよい)。複数のネットワーク層は層ごとに特徴抽出及び特徴マッピングが行われた後、最終的に融合画像710に対応する画像特徴が得られ、出力される。
本願の実施形態では、TensorFlowを用いてニューラルネットワークのトレーニングを行うことができ、図8は、本願の実施形態におけるTensorFlowのシステムレイアウトの概略図を模式的に示している。
図8に示すように、1つのTensorFlowクラスタ810(TF Cluster)には、複数のTensorFlowサーバ側811(TF Server)が含まれており、これらのTensorFlowサーバ側811は、一連のタスクTasksの処理を担当する一連のバッチ処理されるジョブグループjobに分割される。1つのTensorFlowクラスタ810は、一般的に、1つのニューラルネットワークを複数のマシンで並行してトレーニングするなど、比較的高いレベルの1目標に焦点を当てる。
1つのjobには、ある同一の目標に取り組む一連のタスクTasksが含まれる。例えば、パラメータサーバ812(Parameter Server)に対応するjob nは、ネットワークパラメータの更新・格納に関する作業を処理するために使用される。一方、各計算サーバ813(workers)に対応するjob0・・・job n-1は、計算集約型のステートレスノードをベアリングするために使用される。通常、1つのjob内のTasksは、異なるマシンで実行される。
1つのTaskは通常、ある単一のTensorFlowサーバ側の処理プロセスに関連付けられ、特定のjobに属し、このjobのジョブリスト内に一意のインデックスがある。
TensorFlowサーバ側は、grpc_tensorflow_serverの処理プロセスを実行するために使用され、クラスタの一員であり、1つのMaster Serviceと1つのWorker Serviceを外部へ公開する。
Master Serviceは、遠隔地にある一連の分散デバイスとインタラクションを行うための遠隔手続き呼出しプロトコル(Remote Procedure Call、RPC)サービスである。Master Serviceは、セッション(Session)を行うためのセッションインタフェースであるtensorflow::Sessionインタフェースを実現し、複数のWorker serviceを連携させるために使用される。
Worker serviceは、TensorFlowの計算グラフ(TF graph)の一部を実行する遠隔手続き呼出しサービスである。
TensorFlowクライアント側820(Client)は通常、TensorFlowの計算グラフを構築し、tensorFlow::Sessionインタフェースを使用してTensorFlowクラスタとのインタラクションを完了する。TensorFlowクライアント側は通常、Python又はC++で記述される。1つのTensorFlowクライアント側は複数のTensorFlowサーバ側と同時にインタラクションを行うことができれば、1つのTensorFlowサーバ側は複数のTensorFlowクライアント側に対して同時にサービスを提供することもできるのが一般的である。
TensorFlowに基づいてニューラルネットワークを構築した後、サンプルデータを用いてニューラルネットワークをトレーニングすることができる。オフライン活動に対応する実シーンの場合、シミュレーションの方式で大量のオフライン活動シーンのビデオを記録し、入力することができる。
TensorFlowにおけるtf.nn.conv2dアルゴリズムを用いて呼び出すことにより、トレーニングのために大量のビデオと写真画像を取り出すことができる。OPEN CVを用いて画像エッジ認識を行うことができ、認識されたブロックには一定の形状データがあり、形状データ及びトレーニング画像データに基づく統計的準備、比較により、どのような特徴に属するかを認識することができる。サンプルデータを用いた反復トレーニングにより、ニューラルネットワークにおけるネットワークパラメータを絶えずに更新し最適化することを実現することができる。例えば、あるネットワーク層には、演算式a*0.5+bが含まれており、この式の反復更新プロセスは次のようになる。
5.4*5.0+1.88=28.88
9.35805*5.0+2.67161=49.4619
9.4589*5.0+2.69178=49.9863
9.46147*5.0+2.69229=49.9996
9.46154*5.0+2.69231=50.0
この更新プロセスに基づき、パラメータaの値は5.4から9.4589、さらに9.46154へと漸増し、パラメータbの値は1.88から2.67161、さらに2.69231へと漸増することが分かる。
いくつかの代替的な実施形態では、サポートベクターマシン(SupportVectorMachine、SVM)に基づく分類器を例にとると、以下の損失関数を使用することができる。
L(y)=max(0,1-ty)
ここで、yは-1~+1となる予測値であり、tは目標値(-1又は+1)である。yの値は-1~+1でよいが、|y|>1は推奨されず、すなわち、分類器が自信過剰になることは推奨されず、ある正しく分類されたサンプルが分割線から1よりも大きく離れることには何の報酬も与えない。
また、本願のいくつかの代替的な実施形態では、Tensorflowにおいて勾配降下アルゴリズムを実現する最適化器として、tf.train.GradientDescentOptimizerを使用することができる。勾配降下アルゴリズムとしては、標準的な勾配降下GD、バッチ勾配降下BGD及び確率的勾配降下SGDのうちの任意の1種を選択することができる。
標準的な勾配降下を例にとると、学習トレーニング用のネットワークパラメータをW、損失関数をJ(W)とすると、損失関数のネットワークパラメータに関する偏導関数である相関勾配をdJ(W)、学習率をηとした場合、勾配降下法によるネットワークパラメータの更新式は次のようになる。
s+1=W-ηΔJ(W
ネットワークパラメータの調整は、勾配方向が常に減少する方向に沿って損失関数を最小化する。限られた視野内で最速の下山ルートを探し、一歩踏み出すごとに現在位置の最急な勾配方向を参考にして次のステップを決定することが基本的な戦略である。
TensorFlowに基づいてトレーニングして得られたニューラルネットワークは、実シーンの実シーン情報に対する特徴抽出に適用されることができ、抽出されたシーン特徴は、対応する仮想シーンにマッピングされる。図9は、本願のいくつかの実施形態におけるシーン特徴の特徴マッピングを行うステップのフローチャートを模式的に示しており、図9に示すように、上記の各実施形態に踏まえて、ステップS240において、仮想シーンと実シーンとの対応関係に応じて、少なくとも1つの実シーンのシーン特徴を仮想シーンにマッピングするステップは、以下のステップを含み得る。
ステップS910では、仮想シーンと実シーンとの対応関係に応じて、仮想シーンにおいて各実シーンに対応する特徴マッピング領域を決定する。
仮想シーンにおいて、指定された一部のシーン表示領域を、実シーンに対応する特徴マッピング領域として決定することができる。1つの仮想シーンが複数の実シーンと同時にインタラクションを行う場合、実シーン毎に、仮想シーンにおいて1つの特徴マッピング領域を決定することができ、これらの特徴マッピング領域は、互いに離間した表示領域であってもよいし、部分的又は完全に重なる表示領域であってもよい。
ステップS920では、特徴マッピング領域において、対応する実シーンのシーン特徴とマッピング関係を持つシーンコンテンツを表示する。
ここで、特徴マッピング領域は、第1の特徴マッピング領域と第2の特徴マッピング領域とを含み、第1の特徴マッピング領域と第2の特徴マッピング領域とは、完全に重なる表示領域であっても、部分的に重なる表示領域であってもよく、また、全く重ならず、互いに離間した表示領域であってもよい。
実シーンのシーン特徴が画像特徴である場合、画像特徴とマッピング関係を持つ画像応答コンテンツを第1の特徴マッピング領域に表示することができる。シーン特徴がオーディオ特徴である場合に、オーディオ特徴とマッピング関係を持つオーディオ応答コンテンツを第2の特徴マッピング領域に表示することができる。
いくつかの代替的な実施形態では、画像特徴に基づいて画像応答コンテンツを表示する際に、画像特徴からシーン画像特徴、人物画像特徴及び動作画像特徴のうちの少なくとも1つを取得し、そして、シーン画像特徴とマッピング関係を持つ仮想背景画像を第1の特徴マッピング領域に表示し、人物画像特徴とマッピング関係を持つ仮想人物画像を第1の特徴マッピング領域に表示し、動作画像特徴とマッピング関係を持つ動作応答コンテンツを第1の特徴マッピング領域に表示することができる。なお、画像特徴にシーン画像特徴、人物画像特徴、及び動作画像特徴のうちの複数が含まれる場合、複数の画像特徴を、同一の第1の特徴マッピング領域に同時に表示してもよいし、複数の画像特徴を、それぞれ、異なる第1の特徴マッピング領域に表示してもよい。仮想宝くじを例にとると、認識された動作画像特徴が、ルーレットを回転させるユーザの動作に対応している場合、仮想シーンにおける仮想宝くじルーレットを回転し始めるように制御することができる。
いくつかの代替的な実施形態では、オーディオ特徴に基づいてオーディオ応答コンテンツを表示する場合、オーディオ特徴からテキストオーディオ特徴及び波形オーディオ特徴を取得し、そして、テキストオーディオ特徴とマッピング関係を持つテキスト応答コンテンツを第2の特徴マッピング領域に表示し、波形オーディオ特徴とマッピング関係を持つオーディオ動的効果を第2の特徴マッピング領域に表示することができる。
図10は、本願の実施形態によるシーンのインタラクション方法の1つの適用場面におけるステップのフローチャートを模式的に示している。この方法は、主に、仮想シーンを動的に制御するサーバ装置に適用されることができる。図10に示すように、この適用場面においてシーンのインタラクションを行う方法は、主に以下のステップを含む。
ステップS1010では、オフラインシーンにおいて、複数のカメラ及び複数のマイクをオンにする。複数のカメラを介してユーザの動作等の活動コンテンツに関する立体空間画像情報をキャプチャし、複数のマイクを介してユーザの音声等の活動コンテンツに関する立体音響情報をキャプチャする。
図11Aは、本願の実施形態におけるキャプチャされた立体空間画像情報のディスプレイ状態の概略図を模式的に示している。図11Aに示すように、複数のカメラを介してキャプチャされた立体空間画像情報には、人物だけでなく、その人物が所在しているシーンも含まれており、もちろん、人物の動作や表情などのより詳細な情報も含まれていてもよい。
ステップS1020では、WebSocketにより画像情報及び音声情報をリアルタイムで受信する。
ステップS1030では、画像情報に対して人物認識、動作認識及びシーン認識を行う。
ステップS1040では、インデックストラバースにより、仮想シーンの局所領域を動的に変更する。例えば、リアルタイムで取得した画像特徴に基づいて特徴領域をマッティング(matting)し、マッティング後、各クライアント側でマッティングした画像特徴を活動の別の仮想シーンに一律にスケジューリングし、計算により、各実際のシーンの人物及び人物の動作を、仮想シーンが実際の活動タイプに合致するように仮想シーンに配置することができる。図11Bは、本発明の実施形態における実シーンのコンテンツを融合した仮想シーンのディスプレイ状態の概略図を模式的に示している。図11Bに示すように、オフライン活動シーンにおける実際のシーンの人物は、実シーンオブジェクト1110として仮想シーンに配置され、仮想シーン内で生成された仮想シーンオブジェクト1120とともにユーザに表示される。実シーンオブジェクト1110の人物の動作及び姿勢は、実際のシーンの人物に追従してリアルタイムで変化し、一方、仮想シーンオブジェクト1120は、実際の活動タイプに応じて配置及び調整され得る。
ステップS1050では、音声情報を認識して文字に変換し、音声波形グラフを得る。文字部分は、例えば「宝くじ抽せん開始」、「投票開始」などのような音声命令を形成するために使用されることができる。音声波形グラフは、それに適した背景音楽にマッチングするために使用されることができ、図12は、音声波形グラフと背景音楽との間のマッチング関係の概略図を模式的に示している。図12に示すように、音声情報から得られた音声波形グラフ121から、これに似たマッチング波形グラフ122を得ることができ、このマッチング波形グラフに基づいて対応する背景音楽を決定することができる。
ステップS1060では、インデックストラバースにより、仮想シーンの音楽動的効果を動的に変更する。仮想シーンの背景音楽は、その場の音声波形グラフに基づいてマッチングすることが可能であり、例えば、オフライン活動現場が静かであれば、マッチング結果に応じて緩やかな背景音楽に変更することが可能である。
いくつかの代替的な実施形態では、さらに、リアルタイムで取得した画像特徴に基づいて、特徴マッピング領域をマッティングし、マッティング後、各クライアント側でマッティングした画像特徴を現在の活動に対応する仮想シーンに一律にスケジューリングし、計算により、各実シーンの人物などの動作を、仮想シーンが実際の活動タイプに合致するようにその仮想シーンに配置することができ、同時に、活動の背景音楽は、実シーンでキャプチャされた音声情報に基づいてマッチングすることもできる。
いくつかの代替的な実施形態では、実シーンのシーン特徴を仮想シーンにマッピングすることに加えて、仮想シーンに基づいてインタラクションコンテンツを実シーンにフィードバックすることができる。図13は、本願の実施形態におけるシーンのインタラクションのための変更コントローラを模式的に示している。図13に示すように、マイクロコントローラユニット(Microcontroller Unit、MCU)に基づくMCUコントローラ1310は、モノのインターネットの形でのハードウェアデバイスを利用して、活動現場の実体的なシーンをインタラクティブに制御することができる。ブルートゥース(登録商標)通信モジュール1320又は他のタイプの短距離通信デバイスを介して活動現場でのデータ通信を行うことができ、センサ1330を介して活動現場のインタラクティブな体験情報を検出及びキャプチャすることができ、振動モジュール1340を介して活動現場で物理的振動効果を提供することができ、ライトモジュール1350を介して活動現場でライトビジョン効果を提供することができ、スピーカ1360を介して活動現場で音楽効果を提供することができる。
本願の実施形態によるシーンのインタラクション方法によれば、TensorFlowを用いてオフラインのシーン及び人物を物理的に認識し、変換し、オンラインサーバに通信して端末画面にディスプレイさせることで、オフラインの人物及びシーンをオンライン仮想シーンと結びつけて融合とインタラクションを行い、仮想宝くじ、仮想ターンテーブル、仮想泡吹き、仮想自転車運転及び投票などの適用場面を含み、オフライン認識の伝導とオンライン仮想シーンの統合及びビデオ技術、音声技術、実体リモートセンシング技術の組み合わせにより、活動の面白さを高め、活動のインタラクティブ性を向上させ、また、異なる地域の活動参加者はすべて1つの仮想シーンに融合して遠隔対話を行うようにし、活動がブランドマーケティングにもたらす影響力を強め、ユーザの活動参加度、活動の面白さ及びコントロール性を高め、活動価値を向上させ、極めて幅広い適用場面を持つ。
本願の実施形態における方法の各ステップは、図面において特定の順序で説明されているが、これは、所望の結果を達成するために、これらのステップが該特定の順序で実行されなければならないこと、又は示されているすべてのステップが実行されなければならないことを要求又は暗示しているわけではないことに留意されたい。追加的又は代替的に、いくつかのステップを省略すること、複数のステップを1つのステップに統合して実行すること、及び/又は1つのステップを複数のステップに分解して実行することなどが可能である。
以下、本願の実施形態の装置実施形態について説明するが、本願の上述した実施形態におけるシーンのインタラクション方法を実行するために使用されることができる。本願の装置実施形態に開示されていない詳細については、本願の上述したシーンのインタラクション方法の実施形態を参照するとよい。
図14は、本願のいくつかの実施形態におけるシーンのインタラクション装置の構成ブロック図を模式的に示している。図14に示すように、シーンのインタラクション装置1400は、主に次のものを含み得る。
シーン決定モジュール1410は、仮想シーンとインタラクションを行う少なくとも1つの実シーンを決定するように構成される。
情報取得モジュール1420は、各前記実シーンの実シーン情報をリアルタイムで取得するように構成される。
特徴抽出モジュール1430は、前記実シーン情報毎に特徴抽出を行うことで、各前記実シーンのシーン特徴をそれぞれに得るように構成される。
特徴マッピングモジュール1440は、前記仮想シーンと前記実シーンとの対応関係に応じて、前記少なくとも1つの実シーンのシーン特徴を前記仮想シーンにマッピングするように構成される。
いくつかの実施形態では、シーン特徴は、画像特徴及びオーディオ特徴のうちの少なくとも1つを含む。
いくつかの実施形態では、特徴抽出モジュール1430は、各実シーン情報における画像情報及びオーディオ情報を取得するように構成される情報抽出ユニットと、画像情報の特徴抽出を行うことで実シーンの画像特徴を得るように構成される画像特徴抽出ユニットと、オーディオ情報の特徴抽出を行うことで実シーンのオーディオ特徴を得るように構成されるオーディオ特徴抽出ユニットと、を含む。
いくつかの実施形態では、画像特徴抽出ユニットは、画像情報に対してシーン認識を行うことで実シーンのシーン画像特徴を得るように構成されるシーン認識サブユニットと、画像情報に対して顔認識を行うことで実シーンの人物画像特徴を得るように構成される顔認識サブユニットと、画像情報に対して人物動作認識を行うことで実シーンの動作画像特徴を得るように構成される人物動作認識サブユニットと、シーン画像特徴、人物画像特徴及び動作画像特徴を実シーンの画像特徴として決定するように構成される第1の決定サブユニットと、を含む。
いくつかの実施形態では、画像特徴抽出ユニットは、画像情報から、異なる画像キャプチャパラメータに対応する実シーンの局所画像を取得するように構成される局所画像取得サブユニットと、同一時間区間に属する局所画像をつなぎ合わせることで、実シーンの融合画像を得るように構成される画像スプライミングサブユニットと、融合画像の特徴抽出を行うことで実シーンの画像特徴を得るように構成される画像特徴抽出サブユニットと、を含む。
いくつかの実施形態では、画像キャプチャパラメータは、画像キャプチャ角度及び画像キャプチャ範囲のうちの少なくとも1つを含む。
いくつかの実施形態では、画像特徴抽出サブユニットは、融合画像のエッジ検出を行うことで融合画像における特徴領域を得るように構成されるエッジ検出サブユニットと、特徴領域の特徴抽出を行うことで実シーンの画像特徴を得るように構成される特徴抽出サブユニットと、を含む。
いくつかの実施形態では、オーディオ特徴抽出ユニットは、オーディオ情報に対して音声認識を行うことで実シーンのテキストオーディオ特徴を得るように構成される音声認識サブユニットと、オーディオ情報に対して波形検出を行うことで実シーンの波形オーディオ特徴を得るように構成される波形検出サブユニットと、テキストオーディオ特徴及び波形オーディオ特徴を実シーンのオーディオ特徴として決定するように構成される第2の決定サブユニットと、を含む。
いくつかの実施形態では、特徴マッピングモジュール1440は、仮想シーンと実シーンとの対応関係に応じて、仮想シーンにおいて各実シーンに対応する特徴マッピング領域を決定するように構成される領域決定ユニットと、特徴マッピング領域において、対応する実シーンのシーン特徴とマッピング関係を持つシーンコンテンツを表示するように構成されるコンテンツ表示ユニットと、を含む。
いくつかの実施形態では、前記特徴マッピング領域は、第1の特徴マッピング領域と第2の特徴マッピング領域とを含み、コンテンツ表示ユニットは、シーン特徴が画像特徴である場合、画像特徴とマッピング関係を持つ画像応答コンテンツを第1の特徴マッピング領域に表示するように構成される画像応答コンテンツ表示サブユニットと、シーン特徴がオーディオ特徴である場合、オーディオ特徴とマッピング関係を持つオーディオ応答コンテンツを第2の特徴マッピング領域に表示するように構成されるオーディオ応答コンテンツ表示サブユニットと、を含む。
いくつかの実施形態では、画像応答コンテンツ表示サブユニットは、画像特徴からシーン画像特徴、人物画像特徴及び動作画像特徴のうちの少なくとも1つを取得するように構成される画像特徴取得サブユニットと、シーン画像特徴とマッピング関係を持つ仮想背景画像を特徴マッピング領域に表示するように構成される仮想背景画像表示サブユニットと、人物画像特徴とマッピング関係を持つ仮想人物画像を特徴マッピング領域に表示するように構成される仮想人物画像表示サブユニットと、動作画像特徴とマッピング関係を持つ動作応答コンテンツを第1の特徴マッピング領域に表示するように構成される動作応答コンテンツ表示サブユニットと、を含む。
いくつかの実施形態では、オーディオ応答コンテンツ表示サブユニットは、オーディオ特徴からテキストオーディオ特徴及び波形オーディオ特徴を取得するように構成されるオーディオ特徴取得サブユニットと、テキストオーディオ特徴とマッピング関係を持つテキスト応答コンテンツを第2の特徴マッピング領域に表示するように構成されるテキスト応答コンテンツ表示サブユニットと、波形オーディオ特徴とマッピング関係を持つオーディオ動的効果を第2の特徴マッピング領域に表示するように構成されるオーディオ動的効果表示サブユニットと、を含む。いくつかの実施形態では、情報取得モジュール1420は、伝送制御プロトコルの全二重通信プロトコルに従ってリアルタイム通信を行うリアルタイム通信リンクを前記仮想シーンと前記実シーンとの間で確立するように構成されるリンク確立ユニットと、リアルタイム通信リンクを利用して実シーンの実シーン情報を取得するように構成されるリンク通信ユニットと、を含む。
本願の各実施形態によるシーンのインタラクション装置の詳細については、対応する方法実施形態で詳細に説明されているので、ここではその詳細を繰り返さない。
図15は、本願の実施形態の電子機器を実現するために適したコンピュータシステムの概略構成図を示している。
なお、図15に示された電子機器のコンピュータシステム1500は一例にすぎず、本願の実施形態の機能及び使用範囲を何ら制限するものではない。
図15に示すように、コンピュータシステム1500は、リードオンリーメモリ(Read-Only Memory、ROM)1502に記憶されたプログラム、又は記憶部1508からランダムアクセスメモリ(Random Access Memory、RAM)1503にロードされたプログラムに応じて、様々な適切な動作及び処理を実行することができる中央処理装置(Central Processing Unit、CPU)1501を備える。RAM1503には、システムの操作に必要な各種プログラム及びデータも記憶されている。CPU1501、ROM1502、及びRAM1503は、バス1504を介して互いに接続されている。バス1504には、入力/出力(Input/Output、IO)インタフェース1505も接続されている。
I/Oインタフェース1505には、キーボード、マウス等を含む入力部1506と、陰極線管(Cathode Ray Tube、CRT)、液晶ディスプレイ(Liquid Crystal Display、LCD)等及びスピーカ等を含む出力部1507と、ハードディスク等を含む記憶部1508と、LAN(Local Area Network:ローカルエリアネットワーク)カード、モデム等のネットワークインタフェースカードを含む通信部1509と、が接続されている。通信部1509は、インターネット等のネットワークを介して通信処理を行う。ドライブ1510も、必要に応じてI/Oインタフェース1505に接続されている。ドライブ1510には、必要に応じて磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア1511がインストールされることで、そこから読み出されたコンピュータプログラムが必要に応じて記憶部1508にインストールされることが容易になる。
特に、本願の実施形態によれば、各方法フローチャートに記載されたプロセスは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本願の実施形態は、コンピュータ読み取り可能な媒体上に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含み、該コンピュータプログラムは、フローチャートに示された方法を実行するためのプログラムコードを含む。このような実施形態では、該コンピュータプログラムは、通信部1509を介してネットワークからダウンロードされインストールされること、及び/又は、リムーバブルメディア1511からインストールされることができる。このコンピュータプログラムが中央処理装置(Central Processing Unit、CPU)1501によって実行されると、本願のシステムに限定された種々の機能が実行される。
なお、本願の実施形態に示されたコンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、コンピュータ読み取り可能な記憶媒体、又は両方の任意の組み合わせであってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気、磁気、光学、電磁気、赤外線、又は半導体のシステム、装置、又はデバイス、又は以上の任意の組み合わせとすることができるが、これらに限られない。コンピュータ読み取り可能な記憶媒体は、1つ又は複数の導線を有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(Random Access Memory、RAM)、リードオンリーメモリ(Read-Only Memory、ROM)、消去可能プログラマブルリードオンリーメモリ(Erasable Programmable Read Only Memory、EPROM)、フラッシュメモリ、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(Compact Disc Read-Only Memory、CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含み得るが、これらに限られない。本願の実施形態では、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置、又はデバイスによって、又はそれらと組み合わせて使用されることができるプログラムを含む又は記憶する任意の有形媒体とすることができる。一方、本願の実施形態では、コンピュータ読み取り可能な信号媒体は、ベースバンド中又は搬送波の一部として伝播され、読み取り可能なプログラムコードが付加されたデータ信号を含み得る。このように伝播されるデータ信号は、様々な形態をとることができ、電磁信号、光信号、又は上記の任意の適切な組み合わせを含むが、これらに限られない。コンピュータ読み取り可能な信号媒体は、命令実行システム、装置、又はデバイスによって、又はそれらと組み合わせて使用されるプログラムを送信、伝播、又は伝送することができるコンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよい。コンピュータ読み取り可能な媒体に含まれるプログラムコードは、無線、有線など、又は上記の任意の適切な組み合わせを含むが、これらに限られない任意の適切な媒体で伝送されることができる。
図面のフローチャート及びブロック図は、本願の様々な実施形態に従ったシステム、方法、及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能、及び操作を示している。この点において、フローチャート又はブロック図の各ブロックは、所定の論理機能を実現するための1つ又は複数の実行可能命令を含むモジュール、セグメント、又はコードの一部を表すことができる。代替手段である実現には、ブロックに示された機能が、図面に示された順序とは異なる順序で発生し得るものがあるにも留意されたい。例えば、2つの連続して表現されたブロックは、実際には、実質的に並列に実行されてもよく、関連する機能に応じて、時には逆の順序で実行されてもよい。ブロック図又はフローチャートの各ブロック、及びブロック図又はフローチャートのブロックの組み合わせは、所定の機能又は操作を実行する専用のハードウェアベースのシステム、又は専用のハードウェアとコンピュータ命令との組み合わせで実現されてもよいことにも留意されたい。
以上の詳細な説明では、動作を実行するための装置のいくつかのモジュール又はユニットが言及されているが、このような区分は必須ではないことに留意されたい。実際に、本願の実施形態の実施形態によれば、以上で説明した2つ以上のモジュール又はユニットの特徴及び機能は、1つのモジュール又はユニット内で具体化されることができる。逆に、以上で説明した1つのモジュール又はユニットの特徴及び機能は、さらに複数のモジュール又はユニットに分割されて具体化されてもよい。
以上の実施形態の説明により、ここに説明された例示的な実施形態は、ソフトウェアによって実現されてもよいし、ソフトウェアと必要なハードウェアとの組み合わせによって実現されてもよいことが当業者には容易に理解される。したがって、本願の実施形態による技術案は、ソフトウェア製品の形で具現化されることができ、このソフトウェア製品は、不揮発性記憶媒体(リードオンリー光ディスク(Compact Disc Read-Only Memory、CD-ROM)、USBフラッシュディスク、携帯型ハードディスクなどであってもよい)又はネットワークに記憶されることができ、計算機器(パーソナルコンピュータ、サーバ、タッチ端末、又はネットワークデバイスなどであってもよい)に本願の実施形態による方法を実行させるためのいくつかの命令を含む。
当業者は、明細書を検討し、ここに開示された発明を実施した後に、本願の他の実施形態を容易に想到するであろう。本願は、本願の一般的原理に従うとともに、本願に開示されていない本分野における公知常識又は一般的な技術的手段を含む、如何なる変形、用途又は適応的な変更をカバーすることを意図している。
本願は、以上で説明され、図面に示された正確な構造に限定されるものではなく、その範囲から逸脱することなく、様々な修正及び変更が可能であることが理解されるであろう。本願の範囲は、添付のクレームのみによって制限される。
本願の実施形態では、オンライン活動とオフライン活動を同期させる必要がある場合、実シーン情報の特徴抽出を行うことで、実シーンのシーン特徴を取得し、実シーンのシーン特徴を仮想シーンにマッピングすることができ、これにより、オフラインの人物及びシーンとオンライン仮想シーンとのリアルタイムな融合とインタラクションを実現し、インタラクション効率を高めるだけでなく、より豊かで多様なインタラクション効果を得ることができ、しかもこのような方式ではオンラインユーザの活動参加度を高め、活動の価値を向上させることができ、産業上の利用可能性が極めて大きい。
100 システムアーキテクチャ
110 クライアント側
120 ネットワーク
130 サーバ側
310 仮想シーン
320 実シーン
410 アプリケーション層
420 抽象化層
430 トランスポート層
440 ネットワーク層
450 リンク層
460 ターゲットハードウェアデバイス
510 クライアント側
520 クライアント側
530 サーバ側
540 サーバ側
710 融合画像
720 畳み込み層
730 プーリング層
740 他のネットワーク構造
810 クラスタ
811 サーバ側
812 パラメータサーバ
813 計算サーバ
820 クライアント側
1110 実シーンオブジェクト
1120 仮想シーンオブジェクト
1310 コントローラ
1320 ブルートゥース(登録商標)通信モジュール
1330 センサ
1340 振動モジュール
1350 ライトモジュール
1360 スピーカ
1400 シーンのインタラクション装置
1410 シーン決定モジュール
1420 情報取得モジュール
1430 特徴抽出モジュール
1440 特徴マッピングモジュール
1500 コンピュータシステム
1501 中央処理装置(Central Processing Unit、CPU)
1502 リードオンリーメモリ(Read-Only Memory、ROM)
1503 からランダムアクセスメモリ(Random Access Memory、RAM)
1504 バス
1505 インタフェース
1506 マウス等を含む入力部
1507 液晶ディスプレイ(Liquid Crystal Display、LCD)等及びスピーカ等を含む出力部
1508 記憶部
1509 通信部
1510 ドライブ
1511 リムーバブルメディア

Claims (15)

  1. 電子機器が実行する、シーンのインタラクション方法であって、
    なくとも1つの実シーンを決定するステップであって、各前記実シーンは、仮想シーンとの確立されたリアルタイム通信リンクを有するステップと、
    各前記実シーンの実シーン情報をリアルタイムで取得するステップであって、前記実シーン情報は画像情報及びオーディオ情報を含む、ステップと、
    記画像情報及び前記オーディオ情報に特徴抽出をそれぞれ行うことで、各前記実シーンの画像特徴及びオーディオ特徴を得るステップと、
    前記仮想シーンと前記少なくとも1つの実シーンとの前記リアルタイム通信リンクに基づいて、各前記実シーンと前記仮想シーンとの間の対応関係を決定するステップと、
    記対応関係に応じて、前記少なくとも1つの実シーンの前記画像特徴及び前記オーディオ特徴を前記仮想シーンの画像応答コンテンツとオーディオ応答コンテンツとにマッピングするステップと、を含み、
    前記マッピングするステップは、
    前記仮想シーンにおけるテキスト応答コンテンツに、前記オーディオ特徴におけるテキストオーディオ特徴をマッピングするステップと、
    前記仮想シーンにおけるオーディオ動的効果に、前記オーディオ特徴における波形オーディオ特徴をマッピングするステップと、
    をさらに含む、シーンのインタラクション方法。
  2. 記画像情報及び前記オーディオ情報に特徴抽出をそれぞれ行うことで、各前記実シーンの前記画像特徴及び前記オーディオ特徴を得る前記ステップは、
    前記画像情報の特徴抽出を行うことで前記実シーンの前記画像特徴を得るステップと、
    前記オーディオ情報の特徴抽出を行うことで前記実シーンの前記オーディオ特徴を得るステップと、
    を含む請求項1に記載のシーンのインタラクション方法。
  3. 前記画像情報の特徴抽出を行うことで前記実シーンの画像特徴を得る前記ステップは、
    前記画像情報に対してシーン認識を行うことで前記実シーンのシーン画像特徴を得るステップと、
    前記画像情報に対して顔認識を行うことで前記実シーンの人物画像特徴を得るステップと、
    前記画像情報に対して人物動作認識を行うことで前記実シーンの動作画像特徴を得るステップと、
    前記シーン画像特徴、前記人物画像特徴及び前記動作画像特徴を、前記実シーンの画像特徴として決定するステップと、
    を含む請求項2に記載のシーンのインタラクション方法。
  4. 前記画像情報の特徴抽出を行うことで前記実シーンの画像特徴を得る前記ステップは、
    前記画像情報から、異なる画像キャプチャパラメータに対応する前記実シーンの局所画像を取得するステップと、
    同一時間区間に属する前記局所画像をつなぎ合わせることで、前記実シーンの融合画像を得るステップと、
    前記融合画像の特徴抽出を行うことで前記実シーンの画像特徴を得るステップと、
    を含む請求項2に記載のシーンのインタラクション方法。
  5. 前記画像キャプチャパラメータは、画像キャプチャ角度及び画像キャプチャ範囲のうちの少なくとも1つを含む、請求項4に記載のシーンのインタラクション方法。
  6. 前記融合画像の特徴抽出を行うことで前記実シーンの画像特徴を得る前記ステップは、
    前記融合画像のエッジ検出を行うことで前記融合画像における特徴領域を得るステップと、
    前記特徴領域の特徴抽出を行うことで前記実シーンの画像特徴を得るステップと、
    を含む請求項4に記載のシーンのインタラクション方法。
  7. 前記オーディオ情報の特徴抽出を行うことで前記実シーンの前記オーディオ特徴を得る前記ステップは、
    前記オーディオ情報に対して音声認識を行うことで前記実シーンのテキストオーディオ特徴を得るステップと、
    前記オーディオ情報に対して波形検出を行うことで前記実シーンの波形オーディオ特徴を得るステップと、
    前記テキストオーディオ特徴及び前記波形オーディオ特徴を、前記実シーンのオーディオ特徴として決定するステップと、
    を含む請求項2に記載のシーンのインタラクション方法。
  8. 記対応関係に応じて、前記画像特徴及び前記オーディオ特徴を前記仮想シーンの前記画像応答コンテンツと前記オーディオ応答コンテンツとにマッピングする前記ステップは、
    記対応関係に応じて、前記仮想シーンにおいて各前記実シーンに対応する特徴マッピング領域を決定するステップと、
    前記特徴マッピング領域において、対応する前記実シーンのシーン特徴とマッピング関係を持つシーンコンテンツを表示するステップと、
    を含む請求項1に記載のシーンのインタラクション方法。
  9. 前記特徴マッピング領域は、第1の特徴マッピング領域と第2の特徴マッピング領域とを含み、
    前記特徴マッピング領域において、対応する前記実シーンのシーン特徴とマッピング関係を持つシーンコンテンツを表示する前記ステップは、
    前記シーン特徴が画像特徴である場合、前記画像特徴とマッピング関係を持つ画像応答コンテンツを前記第1の特徴マッピング領域に表示するステップと、
    前記シーン特徴がオーディオ特徴である場合、前記オーディオ特徴とマッピング関係を持つオーディオ応答コンテンツを前記第2の特徴マッピング領域に表示するステップと、
    を含む請求項8に記載のシーンのインタラクション方法。
  10. 前記画像特徴とマッピング関係を持つ画像応答コンテンツを前記第1の特徴マッピング領域に表示する前記ステップは、
    前記画像特徴からシーン画像特徴、人物画像特徴及び動作画像特徴のうちの少なくとも1つを取得するステップと、
    前記シーン画像特徴とマッピング関係を持つ仮想背景画像を前記第1の特徴マッピング領域に表示するステップと、
    前記人物画像特徴とマッピング関係を持つ仮想人物画像を前記第1の特徴マッピング領域に表示するステップと、
    前記動作画像特徴とマッピング関係を持つ動作応答コンテンツを前記第1の特徴マッピング領域に表示するステップと、
    を含む請求項9に記載のシーンのインタラクション方法。
  11. 前記オーディオ特徴とマッピング関係を持つオーディオ応答コンテンツを前記第2の特徴マッピング領域に表示する前記ステップは、
    前記オーディオ特徴からテキストオーディオ特徴及び波形オーディオ特徴を取得するステップと、
    記テキスト応答コンテンツ及び前記オーディオ動的効果を前記第2の特徴マッピング領域に表示するステップと
    を含む請求項9に記載のシーンのインタラクション方法。
  12. 前記実シーンの実シーン情報をリアルタイムで取得する前記ステップは、
    伝送制御プロトコルの全二重通信プロトコルに従ってリアルタイム通信を行うリアルタイム通信リンクを前記仮想シーンと前記実シーンとの間で確立するステップと、
    前記リアルタイム通信リンクを利用して前記実シーンの実シーン情報を取得するステップと、
    を含む請求項1に記載のシーンのインタラクション方法。
  13. なくとも1つの実シーンを決定するように構成されるシーン決定モジュールであって、各前記実シーンは、仮想シーンとの確立されたリアルタイム通信リンクを有する、シーン決定モジュールと、
    各前記実シーンの実シーン情報をリアルタイムで取得するように構成される情報取得モジュールであって、前記実シーン情報は画像情報及びオーディオ情報を含む、情報取得モジュールと、
    記画像情報及び前記オーディオ情報に特徴抽出をそれぞれ行うことで、各前記実シーンの画像特徴及びオーディオ特徴を得るように構成される特徴抽出モジュールと、
    前記仮想シーンと前記少なくとも1つの実シーンとの前記リアルタイム通信リンクに基づいて、各前記実シーンと前記仮想シーンとの間の対応関係を決定し、
    記対応関係に応じて、前記少なくとも1つの実シーンの前記画像特徴及び前記オーディオ特徴を前記仮想シーンの画像応答コンテンツとオーディオ応答コンテンツとにマッピングする
    ように構成される特徴マッピングモジュールと、を備え、
    前記特徴マッピングモジュールは、
    前記仮想シーンにおけるテキスト応答コンテンツに、前記オーディオ特徴におけるテキストオーディオ特徴をマッピングし、
    前記仮想シーンにおけるオーディオ動的効果に、前記オーディオ特徴における波形オーディオ特徴をマッピングする
    ようにさらに構成される
    ーンのインタラクション装置。
  14. プロセッサと、
    前記プロセッサの実行可能命令を記憶するためのメモリと、を備え、
    前記プロセッサは、前記実行可能命令を実行することによって、請求項1ないし12のうちのいずれか1項に記載のシーンのインタラクション方法を実行するように構成される電子機器。
  15. コンピュータに、請求項1乃至12のうちのいずれか1項に記載のシーンのインタラクション方法を実行させるように構成されるコンピュータプログラム。
JP2022521702A 2020-01-16 2020-11-10 シーンのインタラクション方法及び装置、電子機器並びにコンピュータプログラム Active JP7408792B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010049112.1A CN111274910B (zh) 2020-01-16 2020-01-16 场景互动方法、装置及电子设备
CN202010049112.1 2020-01-16
PCT/CN2020/127750 WO2021143315A1 (zh) 2020-01-16 2020-11-10 场景互动方法、装置、电子设备及计算机存储介质

Publications (2)

Publication Number Publication Date
JP2022551660A JP2022551660A (ja) 2022-12-12
JP7408792B2 true JP7408792B2 (ja) 2024-01-05

Family

ID=71001711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022521702A Active JP7408792B2 (ja) 2020-01-16 2020-11-10 シーンのインタラクション方法及び装置、電子機器並びにコンピュータプログラム

Country Status (6)

Country Link
US (1) US20220156986A1 (ja)
EP (1) EP3998550A4 (ja)
JP (1) JP7408792B2 (ja)
KR (1) KR20220027187A (ja)
CN (1) CN111274910B (ja)
WO (1) WO2021143315A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274910B (zh) * 2020-01-16 2024-01-30 腾讯科技(深圳)有限公司 场景互动方法、装置及电子设备
CN111986700A (zh) * 2020-08-28 2020-11-24 广州繁星互娱信息科技有限公司 无接触式操作触发的方法、装置、设备及存储介质
CN112053450A (zh) 2020-09-10 2020-12-08 脸萌有限公司 文字的显示方法、装置、电子设备及存储介质
CN112381564A (zh) * 2020-11-09 2021-02-19 北京雅邦网络技术发展有限公司 汽车销售数字电商
CN112995132B (zh) * 2021-02-01 2023-05-02 百度在线网络技术(北京)有限公司 在线学习的交互方法、装置、电子设备和存储介质
CN113377205B (zh) * 2021-07-06 2022-11-11 浙江商汤科技开发有限公司 场景显示方法及装置、设备、车辆、计算机可读存储介质
CN113923463B (zh) * 2021-09-16 2022-07-29 南京安汇科技发展有限公司 一种直播场景的实时抠像与场景合成系统及实现方法
CN114189743B (zh) * 2021-12-15 2023-12-12 广州博冠信息科技有限公司 数据传输方法、装置、电子设备和存储介质
KR20230158283A (ko) * 2022-05-11 2023-11-20 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN115113737B (zh) * 2022-08-30 2023-04-18 四川中绳矩阵技术发展有限公司 一种虚拟对象声音和图像的重现方法、系统、设备及介质
CN116709501A (zh) * 2022-10-26 2023-09-05 荣耀终端有限公司 业务场景识别方法、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002169901A (ja) 2000-12-01 2002-06-14 I Academy:Kk インターネットを利用した集合参加型教育システム
JP2007266713A (ja) 2006-03-27 2007-10-11 Fujifilm Corp 監視システム、監視方法、及びプログラム
JP2015126524A (ja) 2013-12-27 2015-07-06 ブラザー工業株式会社 遠隔会議プログラム、端末装置および遠隔会議方法
WO2017155126A1 (ja) 2016-03-08 2017-09-14 一般社団法人 日本画像認識協会 情報伝送システム、情報送信装置、情報受信装置、およびコンピュータプログラム
WO2018087084A1 (de) 2016-11-08 2018-05-17 3Dqr Gmbh Verfahren und vorrichtung zum überlagern eines abbilds einer realen szenerie mit virtuellen bild- und audiodaten und ein mobiles gerät
WO2018089691A1 (en) 2016-11-11 2018-05-17 Magic Leap, Inc. Periocular and audio synthesis of a full face image
US20180329512A1 (en) 2016-01-25 2018-11-15 Hiscene Information Technology Co., Ltd Multimodal input-based interaction method and device
JP2019049601A (ja) 2017-09-08 2019-03-28 Kddi株式会社 音波信号から音波種別を判定するプログラム、システム、装置及び方法
JP2019185185A (ja) 2018-04-03 2019-10-24 東京瓦斯株式会社 画像処理システム及びプログラム

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101023469B (zh) * 2004-07-28 2011-08-31 日本福年株式会社 数字滤波方法和装置
KR101558553B1 (ko) * 2009-02-18 2015-10-08 삼성전자 주식회사 아바타 얼굴 표정 제어장치
GB2491819A (en) * 2011-06-08 2012-12-19 Cubicspace Ltd Server for remote viewing and interaction with a virtual 3-D scene
US20130222371A1 (en) * 2011-08-26 2013-08-29 Reincloud Corporation Enhancing a sensory perception in a field of view of a real-time source within a display screen through augmented reality
JP2013161205A (ja) * 2012-02-03 2013-08-19 Sony Corp 情報処理装置、情報処理方法、及びプログラム
US9292085B2 (en) * 2012-06-29 2016-03-22 Microsoft Technology Licensing, Llc Configuring an interaction zone within an augmented reality environment
US20140278403A1 (en) * 2013-03-14 2014-09-18 Toytalk, Inc. Systems and methods for interactive synthetic character dialogue
CN103617432B (zh) * 2013-11-12 2017-10-03 华为技术有限公司 一种场景识别方法及装置
CN103810353A (zh) * 2014-03-09 2014-05-21 杨智 一种虚拟现实中的现实场景映射系统和方法
CN104536579B (zh) * 2015-01-20 2018-07-27 深圳威阿科技有限公司 交互式三维实景与数字图像高速融合处理系统及处理方法
US10356393B1 (en) * 2015-02-16 2019-07-16 Amazon Technologies, Inc. High resolution 3D content
CN105608746B (zh) * 2016-03-16 2019-10-11 成都电锯互动科技有限公司 一种将现实进行虚拟实现的方法
CN106355153B (zh) * 2016-08-31 2019-10-18 上海星视度科技有限公司 一种基于增强现实的虚拟对象显示方法、装置以及系统
CN106492461A (zh) * 2016-09-13 2017-03-15 广东小天才科技有限公司 一种增强现实ar游戏的实现方法及装置、用户终端
CN106485782A (zh) * 2016-09-30 2017-03-08 珠海市魅族科技有限公司 一种现实场景在虚拟场景中展示的方法以及装置
CN108881784B (zh) * 2017-05-12 2020-07-03 腾讯科技(深圳)有限公司 虚拟场景实现方法、装置、终端及服务器
US20190129607A1 (en) * 2017-11-02 2019-05-02 Samsung Electronics Co., Ltd. Method and device for performing remote control
CN108305308A (zh) * 2018-01-12 2018-07-20 北京蜜枝科技有限公司 虚拟形象的线下展演系统及方法
CN108269307B (zh) * 2018-01-15 2023-04-07 歌尔科技有限公司 一种增强现实交互方法及设备
CN108985176B (zh) * 2018-06-20 2022-02-25 阿里巴巴(中国)有限公司 图像生成方法及装置
CN109903129A (zh) * 2019-02-18 2019-06-18 北京三快在线科技有限公司 增强现实显示方法与装置、电子设备、存储介质
CN110113298B (zh) * 2019-03-19 2021-09-28 视联动力信息技术股份有限公司 数据传输方法、装置、信令服务器和计算机可读介质
CN110084228A (zh) * 2019-06-25 2019-08-02 江苏德劭信息科技有限公司 一种基于双流卷积神经网络的危险行为自动识别方法
CN110365666B (zh) * 2019-07-01 2021-09-14 中国电子科技集团公司第十五研究所 军事领域基于增强现实的多端融合协同指挥系统
US11232601B1 (en) * 2019-12-30 2022-01-25 Snap Inc. Audio-triggered augmented reality eyewear device
CN111274910B (zh) * 2020-01-16 2024-01-30 腾讯科技(深圳)有限公司 场景互动方法、装置及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002169901A (ja) 2000-12-01 2002-06-14 I Academy:Kk インターネットを利用した集合参加型教育システム
JP2007266713A (ja) 2006-03-27 2007-10-11 Fujifilm Corp 監視システム、監視方法、及びプログラム
JP2015126524A (ja) 2013-12-27 2015-07-06 ブラザー工業株式会社 遠隔会議プログラム、端末装置および遠隔会議方法
US20180329512A1 (en) 2016-01-25 2018-11-15 Hiscene Information Technology Co., Ltd Multimodal input-based interaction method and device
WO2017155126A1 (ja) 2016-03-08 2017-09-14 一般社団法人 日本画像認識協会 情報伝送システム、情報送信装置、情報受信装置、およびコンピュータプログラム
WO2018087084A1 (de) 2016-11-08 2018-05-17 3Dqr Gmbh Verfahren und vorrichtung zum überlagern eines abbilds einer realen szenerie mit virtuellen bild- und audiodaten und ein mobiles gerät
WO2018089691A1 (en) 2016-11-11 2018-05-17 Magic Leap, Inc. Periocular and audio synthesis of a full face image
JP2019049601A (ja) 2017-09-08 2019-03-28 Kddi株式会社 音波信号から音波種別を判定するプログラム、システム、装置及び方法
JP2019185185A (ja) 2018-04-03 2019-10-24 東京瓦斯株式会社 画像処理システム及びプログラム

Also Published As

Publication number Publication date
CN111274910A (zh) 2020-06-12
EP3998550A1 (en) 2022-05-18
KR20220027187A (ko) 2022-03-07
CN111274910B (zh) 2024-01-30
US20220156986A1 (en) 2022-05-19
JP2022551660A (ja) 2022-12-12
EP3998550A4 (en) 2022-11-16
WO2021143315A1 (zh) 2021-07-22

Similar Documents

Publication Publication Date Title
JP7408792B2 (ja) シーンのインタラクション方法及び装置、電子機器並びにコンピュータプログラム
US11670015B2 (en) Method and apparatus for generating video
KR20220029451A (ko) 가상 환경에서 상호작용을 가능하게 하는 시스템 및 방법
US10354256B1 (en) Avatar based customer service interface with human support agent
CN107683166A (zh) 用于限制头戴式显示器上的视觉活动的过滤和父母控制方法
CN106547884A (zh) 一种替身机器人的行为模式学习系统
CN106774894A (zh) 基于手势的交互式教学方法及交互系统
WO2019119314A1 (zh) 一种仿真沙盘系统
CN112839196B (zh) 一种实现在线会议的方法、装置以及存储介质
KR20220030177A (ko) 가상 환경에서의 애플리케이션의 전달 시스템 및 방법
US20200351384A1 (en) System and method for managing virtual reality session technical field
CN109213304A (zh) 用于直播教学的手势互动方法和系统
KR20220029471A (ko) 공간 비디오 기반 존재
KR20220029453A (ko) 사용자 그래픽 표현 기반 사용자 인증 시스템 및 방법
KR20220029454A (ko) 가상 환경에서 가상으로 방송하기 위한 시스템 및 방법
CN114463470A (zh) 虚拟空间浏览方法、装置、电子设备和可读存储介质
CN113220130A (zh) 一种用于党建的vr体验系统及其设备
KR20220029467A (ko) 접근하는 사용자 표현 간의 애드혹 가상통신
KR20220030178A (ko) 가상 환경에서 클라우드 컴퓨팅 기반 가상 컴퓨팅 리소스를 프로비저닝하는 시스템 및 방법
KR102212035B1 (ko) 제스처 인식 기반 원격 교육서비스 시스템 및 방법
CN115086594A (zh) 虚拟会议处理方法、装置、设备和存储介质
JP2023527624A (ja) コンピュータプログラムおよびアバター表現方法
Sanyal et al. Study of holoportation: using network errors for improving accuracy and efficiency
WO2024051467A1 (zh) 图像处理方法、装置、电子设备及存储介质
WO2023226851A1 (zh) 三维效果形象的生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220411

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220411

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231220

R150 Certificate of patent or registration of utility model

Ref document number: 7408792

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150