JP6948420B2

JP6948420B2 - インタラクション方法、機器、システム、電子機器及び記憶媒体

Info

Publication number: JP6948420B2
Application number: JP2020019202A
Authority: JP
Inventors: ヤンリュウ
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド; シャンハイシャオドゥテクノロジーカンパニーリミテッド
Priority date: 2019-09-11
Filing date: 2020-02-06
Publication date: 2021-10-13
Anticipated expiration: 2040-02-06
Also published as: US20210072818A1; JP2021043936A; CN110568931A

Description

本開示は、マルチメディア技術に関し、特に、インタラクション方法、機器、システム、電子機器、及び記憶媒体に関する。

知能化の発展に伴い、ユーザとインタラクションを行うことができる知能製品が人々の生活に使用されている。

既存の知能型インタラクション製品のインタラクション方式は、一般的に、ユーザジェスチャ又は音声に基づいて実現される。インタラクション製品は、ユーザのジェスチャ又は音声を収集し、ジェスチャ又は音声に対して対応する処理を行うことによって、ユーザにインタラクション情報の提示を提供する。例えば、スクリーン付きスピーカーは、ユーザが音声で開始した命令に応答して、そのスクリーン上に相応情報を提示し、別の例では、スマートテレビは、ユーザのジェスチャをキャプチャし、ユーザのジェスチャに基づいて対応する番組を決定して、そのスクリーンに提示することができる。

しかしながら、インタラクション製品は、位置が固定された提示スクリーン又はスピーカー機器を通じてインタラクション情報を提示することにより、ユーザとのインタラクションを完了するだけである。このようなインタラクション方式の情報提示は指向性が強く、柔軟性が低く、ユーザ位置が変わるとインタラクション製品はユーザにインタラクション情報を提示することができない。

上記の技術的課題に対して、本開示は、インタラクション方法、機器、システム、電子機器、及び記憶媒体を開示する。

第１の態様では、本開示はインタラクション方法を提供し、当該インタラクション方法は、
ユーザの環境におけるユーザ位置とユーザ行為を含むユーザ情報を収集することと、
前記ユーザ位置に基づいて、予め設定された環境モデリングにおいてユーザが位置するユーザモデリング位置を決定することと、
前記ユーザ行為に基づいて、前記環境モデリングにおけるオーディオとビデオの提示機器の提示モデリング位置を決定することと、
前記提示モデリング位置に従って、前記オーディオとビデオの提示機器が環境において行うインタラクション情報の提示を制御することとを含む。

第２の態様では、本開示はインタラクション機器を提供し、当該インタラクション機器は、
ユーザの環境におけるユーザ位置とユーザ行為を含むユーザ情報を収集することに用いられる収集モジュールと、
前記ユーザ位置に基づいて、予め設定された環境モデリングにおいてユーザが位置するユーザモデリング位置を決定し、前記ユーザ行為に基づいて、前記環境モデリングにおけるオーディオとビデオの提示機器の提示モデリング位置を決定する処理モジュールと、
前記提示モデリング位置に従って、前記オーディオとビデオの提示機器が環境において行うインタラクション情報の提示を制御することに用いられる制御モジュールとを備える。

第３の態様では、本開示はインタラクションシステムを提供し、当該インタラクションシステムは、
インタラクション機器及びオーディオとビデオの提示機器を含み、
前記インタラクション機器は、前記方法を実行することに用いられ、それにより前記オーディオとビデオの提示機器が前記インタラクション機器の制御にしたがって環境においてインタラクション情報の提示を行う。

第４の態様では、本開示は電子機器を提供し、当該電子機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されたメモリと、を備え、
前記メモリは、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサが前記方法を実行できる。

第５の態様では、本開示はコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供し、
前記コンピュータ命令は、前記コンピュータに前記方法を実行させるために用いられる。

本開示によるインタラクション方法、機器、システム、電子機器、及び記憶媒体は、ユーザの環境におけるユーザ位置とユーザ行為を含むユーザ情報を収集し、前記ユーザ位置に基づいて、予め設定された環境モデリングにおいてユーザが位置するユーザモデリング位置を決定し、前記ユーザ行為に基づいて、前記環境モデリングにおけるオーディオとビデオの提示機器の提示モデリング位置を決定し、前記提示モデリング位置に基づいてオーディオとビデオの提示機器の環境でのインタラクション情報の提示を制御し、当該インタラクション方法によりインタラクション情報を提示する方式が、インタラクション機器に固定されたスクリーン又はスピーカーに限られず、ユーザのユーザ行為及びユーザ位置に基づいてインタラクション情報の提示モデリング位置を決定できるため、環境におけるオーディオとビデオの提示機器を用いてインタラクション情報を提示し、ユーザとのインタラクション効果がよりよいし、インターラクティビティがより強い。

以下、具体的な実施例を合わせて、上記のような形態による他の効果について説明する。

図面は、本解決手段を充分に理解させるためのものであり、本開示を限定しない。
本開示によって提供される一インタラクションシステムの構造を示す概略図である。本開示によって提供される一インタラクション方法を示すフローチャートである。本開示によって提供される一インタラクション方法のインタラクション情報の第１の提示効果図である。本開示によって提供される一インタラクション方法のインタラクション情報の第２の提示効果図である。本開示によって提供される一インタラクション方法のインタラクション情報の第３の提示効果図である。本開示によって提供される他のインタラクション方法のフローチャートである。本開示によって提供される一インタラクション機器の構造模式図である。本開示によって提供される一インタラクションシステムの構造模式図である。本開示によって提供される本開示の実施形態による一インタラクション方法を実施するための電子機器のブロック図である。

以下、図面を参照して本開示の例示的な実施例を説明し、充分に理解させるため、その中には本開示の実施例の様々な具体的な内容を含み、これらは単に例示的なものであると理解すべきである。したがって、本開示の範囲及び精神から逸脱することなく、本明細書に記載された実施例に様々な変更及び修正を加えることができることを当業者は理解できる。また、説明の明確化及び簡略化のため、以下の記載では、周知の機能及び構成についての記載は省略する。

製品の知的化程度の発展にしたがって、スマート製品は、ユーザの様々な形態の情報を収集して処理し、処理された情報をユーザに提示することによって、ユーザとのインタラクションを完了する。現在、スマートインタラクション機器の形態に基づいて、そのインタラクション方式は音声又はジェスチャに基づいて実現され、インタラクション情報の提示方式は、スマートインタラクション機器自体のスクリーン又はスピーカーを介した情報を出力するによって実現される。

従来技術では、インタラクション機器の形態が異なり、インタラクション機器の形態の違いに基づいて、そのインタラクション方式は、以下のようなものを含み、インタラクション機器がスクリーン付きスピーカーである場合、スピーカー自体がスクリーンを有するため、当該スクリーン付きスピーカーは、ユーザの音声情報を収集し、オーディオ及ビデオの方式によってインタラクション情報をユーザにフィードバックし得る。インタラクション機器がテレビ（スマートスクリーン）である場合、当該機器は、ユーザのジェスチャをキャプチャし、ジェスチャに基づいてスクリーン上で視覚的情報のインタラクションを行うことに使用され得る。また、インタラクション機器が携帯電話、ＡＲ／ＶＲである場合、ハンドヘルド及びウェアラブル製品によって、ユーザジェスチャ命令に対する取得を実現し、携帯電話、ＡＲ／ＶＲ自体によって提供されるスクリーン上でユーザ情報とのインタラクションを実現する。

しかしながら、上述した各形態のインタラクション機器では、情報を視覚的及び聴覚的に表示或いは提示する方式が固定されており、それは一般的に、製品自体に携帯されたスクリーンやスピーカー機器に基づいて固定位置からの投影や固定サウンド発生方向の再生方式を使用だけであり、このようなインタラクション方式は、柔軟性に欠け、ユーザに与えるインタラクション体験が悪い。

上記の問題に対し、本開示で開示されるインタラクション方法、機器、システム、電子機器及び記憶媒体では、当該インタラクション方法によりインタラクション情報を提示する方式が、インタラクション機器に固定されたスクリーン又はスピーカーに限られず、ユーザのユーザ行為及びユーザ位置に基づいてインタラクション情報の提示モデリング位置を決定できるため、環境におけるオーディオとビデオの提示機器を用いてインタラクション情報を提示し、ユーザとのインタラクション効果がよりよいし、インターラクティビティがより強い。

図１は、本開示によって提供されるインタラクションシステムの構造の概略図であり、図１に示されるように、本開示によって提供されるインタラクションシステムは、様々な環境に適用でき、具体的に、屋内環境に適用される。ここで、室内環境には、インタラクション機器２及びオーディオとビデオの提示機器１が設けられ、当該インタラクション機器２は、下記に示すいずれかのインタラクション方法を実行して、オーディオとビデオの提示機器１の当該環境でのインタラクション情報の提示を制御することができる。

ただし、当該オーディオとビデオの提示機器１の個数は少なくとも１つであり、その種類は少なくとも１つであり、且つ各オーディオとビデオの提示機器１の位置は限定されない。図１に示すように、当該オーディオとビデオの提示機器１は、スマートスピーカー、スマートテレビ、投影機器を含み、さらに、デスクトップ型コンピュータ（図示せず）などを含んでもよい。一般的に、当該各オーディオとビデオの提示機器の環境における位置及び提示範囲は相対的に固定されており、例えば、ある部屋に設置されたスマートテレビの画像又はビデオの提示範囲はその光の出射方向に沿った所定範囲であり、例えば、ある部屋に設置されたスピーカーのオーディオの提示範囲は、当該部屋範囲である。

ここで、前記インタラクション機器２は、各オーディオとビデオの提示機器１がインタラクション機器２の制御に従って、環境においてインタラクション情報を提示するように、以下のインタラクション方法を実行することに用いられる。具体的に、当該インタラクション機器２は、オーディオとビデオの提示機能を兼ね備えてもよいし、即ち、当該インタラクション機器は、オーディオとビデオの提示機器１に一体化されてもよく、独立的に存在してもよく、単に制御端として使用されてもよい。環境における有線ネットワーク及び無線ネットワークを通じて、インタラクション機器２は、各オーディオとビデオの提示機器１と情報又はデータのインタラクションを行い、相応する機能を実現することができる。

なお、図１に示す方式は、本開示で提供される一種の構造アーキテクチャ方式に過ぎず、そのアーキテクチャは、異なる機器種類、及び異なる環境レイアウトに基づいて、相応する変更が存在することに留意されたい。

第１の態様では、本開示は一インタラクション方法を提供し、図２は、本開示によって提供されるインタラクション方法のフローチャートである。

ステップ１０１、ユーザの環境におけるユーザ位置とユーザ行為を含むユーザ情報収集する。

本開示の例によって提供されるインタラクション方法の実行主体はインタラクション機器であり、ここで、当該インタラクション機器は、具体的に、例えばプロセッサ、通信器、情報収集器、センサなどの様々な種類のハードウェアデバイスから構成されてよい。異なるハードウェアデバイスは、インタラクション方法の実施プロセスにおいて、それぞれの機能を果たして、本開示によって提供されるインタラクション方法を実現する。

具体的に、インタラクション機器には様々な情報収集器が設置されてよいし、オーディオ収集器及び視覚収集器を含むが、これらに限定されない。インタラクション方法では、まず、情報収集器を通じてユーザ位置とユーザ行為を含むユーザの環境におけるユーザ情報を収集してよい。ここで、情報収集器は、オーディオとビデオの提示機器に設けてもよく、独立的に設けられてもよく、以下の例では、情報収集器がオーディオとビデオの提示機器に一体化された場合を例として説明する。

ユーザ位置とは、環境におけるユーザ位置情報を意味し、具体的には、環境におけるユーザ位置座標を意味し、ここで、位置座標の表現形式は、直交座標を採用してよいし、極座標、世界座標のいずれを採用してもよく、本開示は、これに対して限定しない。

本開示の例示では、インタラクション機器が基づく収集技法の違いに基づいて、ユーザ情報を異なる方式で決定することができ、具体的には、インタラクション機器が、視覚収集器を用いてユーザ位置の収集を行う場合、視覚画像収集技術を通じて位置画像を取得し、画像位置分析又は画像座標分析の方式を用いて画像位置を分析することにより、ユーザの環境におけるユーザ位置を決定する。

インタラクション機器が、オーディオとビデオの提示機器に集積されたオーディオ収集器を用いてユーザ位置の収集を行う場合、ユーザの音声オーディオデータを収集し、当該オーディオデータの強度及び当該オーディオデータを収集したオーディオとビデオの提示機器のオーディオとビデオの提示機器位置を決定する。サウンドが環境で伝播する過程に損失が発生することを用いて当該位置及び強度を分析し、それにより当該音声データを開始したユーザ位置を決定する。ここで、当該オーディオデータは、複数のオーディオとビデオの提示機器によって収集されてよく、即ち、ユーザが開始したある一回の音声情報は、複数のオーディオとビデオの提示機器によって収集されたオーディオデータ、オーディオデータの強度、及び相応する機器位置を含み、複数のオーディオデータを分析することによってユーザ位置を取得する。

また、上記のユーザ行為とは、例えば、ユーザが歩く、座る、じっと立つ、あるポーズを取る、ある表情をするなど、ユーザの肢体の行為表現を意味する。一般的に、ユーザの行為は、視覚収集器によってユーザの現在の全ての肢体の形態又は一部の肢体の形態又は顔の形態に対してデータ収集及び分析を行うことによって取得できる。一般的には、ユーザ形態データを収集した後、認識モデルに基づいてユーザ形態データを分析して得ることができる。ここで、認識モデルとしては、例えば、骨認識モデル、ジェスチャ認識モデル、面部認識モデル、肢体言語認識モデルなどが挙げられるが、これらに限られない。

ステップ１０２、前記ユーザ位置に基づいて、予め設定された環境モデリングにおいてユーザが位置するユーザモデリング位置を決定する。

ステップ１０３、前記ユーザ行為に基づいて、前記環境モデリングにおけるオーディオとビデオの提示機器の提示モデリング位置を決定する。

ステップ１０２とステップ１０３において、インタラクション機器は、それぞれユーザ位置とユーザ行為に基づいて、オーディオとビデオの提示機器がユーザにインタラクション情報を提示する提示位置を決定する。

具体的には、当該提示位置を決定するために、環境に関する情報を予め収集してからモデルし、環境モデルとして記憶しておく。当該環境モデリングには、環境における各物体の物体位置と物体輪郭などの物体情報が含まれ、そのうちの物体位置と物体情報の表示は似ており、それは具体的に物体座標であり、物体輪郭は物体の外部輪郭線を意味し、物体情報に加え壁などの建築物自体の建築情報と合わせて環境モデリングを形成することができる。

環境モデリングの形成過程において、なお、上記の物体は、非オーディオとビデオの提示機器及びオーディオとビデオの提示機器を含み、ここで、物体がオーディオとビデオの提示機器である場合、環境モデリングには、例えば、上記したある部屋内のスマートテレビの画像又はビデオの提示範囲が、その光の出射方向に沿った所定範囲であり、また例えば、ある部屋に設置されたスピーカーのオーディオの提示範囲は、当該部屋範囲である、オーディオとビデオの提示機器の提示範囲がさらに記憶されていてもよく、それにより、後でユーザにインタラクション情報を提供する際に、提示範囲に基づいて、インタラクション情報を提供するオーディオとビデオの提示機器を決定できる。

その後、上記ステップ１０１で収集されたユーザ位置を用いて、当該環境モデリングにおけるユーザのユーザモデリング位置を決定できる。即ち、本例示では、提示位置の決定を容易にするため、位置変換方式を採用して実環境におけるユーザのユーザ位置を環境モデリングにおけるユーザのユーザモデリング位置に変換する必要があり、その変換方式は、座標変換などを用いて実現してもよく、本開示はこれに対して限定しない。

その後、インタラクション機器は、さらに、上記で取得されたユーザ行為に加えユーザモデリング位置を合わせて、前記環境モデリングにおけるオーディオとビデオの提示機器の提示モデリング位置を決定する。ここで、当該提示モデリング位置とは、ユーザにインタラクション情報提示を提供するターゲットオーディオとビデオの提示機器がユーザにインタラクション情報提示を提供する際の、オーディオとビデオの提示機器の提示面の環境モデリングにおける位置座標を意味し、提示面とは、オーディオとビデオの提示機器が出力するオーディオとビデオ情報が位置するディスプレイ面を意味する。ここで、オーディオとビデオの提示機器から出力されるインタラクション情報が画像又はビデオである時、その提示面は、画像又はビデオをディスプレイする投影面であり（図３に示すように）、オーディオとビデオの提示機器から出力されるインタラクション情報がオーディオである場合、その提示面は、ユーザ位置をカバーするオーディオ受信面である。

さらに、提示モデリング位置を決定することは、ユーザ行為に基づいてユーザの顔の向きを決定してから、ユーザの顔の向き及び前記ユーザモデリング位置に基づいて、前記環境モデリングにおけるオーディオとビデオの提示機器の提示モデリング位置を決定することを採用してよい。

具体的には、前述したように、ユーザの行為はユーザの肢体の行為表現であり、当該行為表現を分析することにより当該顔の向き、即ち面部の向きを取得することができる。ユーザモデリング位置に基づいて、インタラクション情報を提示するためのターゲットオーディオとビデオの提示機器を決定でき、当該顔の向きとユーザモデリング位置とに基づいて、当該ターゲットオーディオとビデオの提示機器の提示面の提示モデリング位置を決定し、具体的に、モデリングの際に、各オーディオとビデオの提示機器の提示範囲を記憶し、本ステップにおけるターゲットオーディオとビデオの提示機器の決定に使用され得る。

上記の提示モデリング位置は、具体的には、提示面座標及び提示属性を含み、相応する提示モデリング位置を決定することは、ユーザの顔の向き、及び/又は、前記ユーザモデリング位置に基づいて、オーディオとビデオの提示機器の提示面座標を決定することにより決定でき、上述のように、異なる種類のオーディオとビデオの提示機器にしたがって、その提示面に差異が存在する。例えば、オーディオ提示機器の提示面座標は、ユーザ座標を含む必要があるが、ビデオ提示機器の提示面座標は、ユーザの顔の向き及びユーザモデリング位置に基づいて決定できる（図４に示されるようである）。

そして、ユーザとターゲットオーディオとビデオの提示機器との距離に基づいて、オーディオとビデオの提示機器が提示面に提示する際の提示属性を決定する。具体的には、異なる種類のオーディオとビデオの提示機器の提示属性は違いがあり、例えば、オーディオ提示機器の提示属性は、オーディオ出力強度に具現化され、一方、ビデオ提示機器の提示属性は、オーディオとビデオの提示大きさに具現化される（図５に示されるようである）。即ち、ユーザと各ターゲットオーディオとビデオの提示機器との間の距離を分析して、各オーディオ提示機器から出力されるオーディオの強度、ビデオ提示機器から提示されるオーディオとビデオの提示大きさ又はオーディオとビデオの提示サイズを決定する。

ここで、上述した提示属性と提示面座標は、いずれも環境モデリング座標で具現化され得る。

ステップ１０４、前記提示モデリング位置に従って、前記オーディオとビデオの提示機器の環境において行うインタラクション情報の提示を制御する。

決定された、提示属性及び提示面座標を含む提示モデリング位置に基づいて、各オーディオとビデオの提示機器が環境において行うインタラクション情報の提示を制御する。

図３は、本開示によって提供される一インタラクション方法のインタラクション情報の第１の提示効果図である。図３に示すように、インタラクション機器は、ユーザが右側のソファーに座っている行為と位置、及び顔が左側を向っている情報を収集し、投影機器をオーディオとビデオの提示機器として決定し、提示モデリング位置を得ることができる。そして、当該提示モデリング位置に基づいて（左側のソファー）、ソファーの上で仮想人像（左側の子供）に対してオーディオとビデオを投影するように投影機器を制御し、図３に示すような効果を得る。

インタラクション過程において、ユーザ位置とユーザ行為は変化する可能性があり、インタラクション機器は、ユーザ情報をリアルタイムで取得し、オーディオとビデオの提示機器をリアルタイムで制御することができる。図４は、本開示によって提供される一インタラクション方法のインタラクション情報の第２の提示効果図であり、図５は、本開示によって提供される一インタラクション方法のインタラクション情報の第３の提示効果図である。

図４では、ユーザのユーザ位置が、環境の右側から環境の左側に変わり、且つその顔の向きが左向きから右向きに変わる。この時、インタラクション機器は、ユーザのユーザ情報の変化にしたがって、図４に示された投影機器をリアルタイムに制御してその投影面（提示面）を変更させ、常にユーザの顔の向きと一致するようにして、ユーザがインタラクション情報を取得しやすくすることができる。

図５では、ユーザのユーザ位置は、環境の右側から環境の左側に変わり、且つ顔の向きは変わらなかった。この時、ユーザと投影機器が投影する投影面との距離が近いことを考慮して、投影される仮想人物（左側の子供）の画像が大きすぎると、ユーザの画角が制限されているため、見にくくなり、この時、インタラクション機器は、投影機器を制御して、その提示属性における提示面の大きさをユーザの画角に合わせるように縮小させる。

図３〜図５に示す効果図において、投影機器の投影面の変化は、それに搭載されたパンチルトに基づいて実現でき、即ち、パンチルトの回転を制御して投影面を変化させる。

もちろん、他の例示では、ユーザ位置に基づいて相応位置のオーディオ提示機器を決定し、それによりユーザにマルチー方位のオーディオ提示効果を提供することもできる。

上述した提示効果は単に例示であり、本開示の範囲内で、さらに異なるユーザ行為又は異なるユーザ位置に基づいて、ユーザの現在の状態に相応する提示方式を決定し、提示機器が相応提示を行うように制御する。

当該インタラクション方法は、遠隔ビデオ又は遠隔会議、仮想キャラクタインタラクション、仮想ゲームなどのような、オーディオビデオ提示が存在する様々な場面で利用され得る。

本開示によるインタラクション方法は、ユーザの環境におけるユーザ位置とユーザ行為を含むユーザ情報を収集し、前記ユーザ位置に基づいて、予め設定された環境モデリングにおいてユーザが位置するユーザモデリング位置を決定し、前記ユーザ行為に基づいて、前記環境モデリングにおけるオーディオとビデオの提示機器の提示モデリング位置を決定し、前記提示モデリング位置に基づいてオーディオとビデオの提示機器の環境でのインタラクション情報の提示を制御し、当該インタラクション方法によりインタラクション情報を提示する方式が、インタラクション機器に固定されたスクリーン又はスピーカーに限られず、ユーザのユーザ行為及びユーザ位置に基づいてインタラクション情報の提示モデリング位置を決定できるため、環境におけるオーディオとビデオの提示機器を用いてインタラクション情報を提示し、ユーザとのインタラクション効果がよりよいし、インターラクティビティがより強い。

上記の例示の上で、図６は、本開示によって提供される他のインタラクション方法のフローチャートである。

ステップ２０１、休止状態に置き、リアルタイムで所定範囲内の人体信号を検出し、人体信号が検出されると、動作状態に置いてからステップ２０２を実行する。

ステップ２０２、ユーザの環境におけるユーザ位置とユーザ行為を含むユーザ情報を収集し、
ステップ２０３、前記ユーザ位置に基づいて、予め設定された環境モデリングにおいてユーザが位置するユーザモデリング位置を決定し、
ステップ２０４、前記ユーザ行為に基づいて、前記環境モデリングにおけるオーディオとビデオの提示機器の提示モデリング位置を決定し、
ステップ２０５、前記提示モデリング位置に従って、前記オーディオとビデオの提示機器の環境において行うインタラクション情報の提示を制御する。

前述の例示とは異なり、本開示によって提供されるインタラクション方法では、インタラクション機器は、初期段階では休止状態に置かれ、当該状態では、環境におけるユーザ位置及びユーザ行為などのユーザ情報を収集しない。インタラクション機器は、休止状態にある場合、同時に、所定範囲内の人体情報を検出する。具体的には、インタラクション機器に、赤外線センサ、温度センサなどの人体情報を検出する人体センサが設けられて、人体センサを利用することにより、当該環境内にユーザがいるか否かを判断することができる。当該環境内にユーザがいると判断されると、インタラクション機器は、能動的に起動し、前述の各実施形態に基づくインタラクションを開始し、即ち、人体信号が検出されると、インタラクション機器は動作状態になり、ユーザの環境におけるユーザ情報の収集を始める。インタラクティブ方法に関わる機器の個数が多いため、このような方式により、インタラクティブ方法に関わる各機器の消費エネルギーを効果的に低減することができ、また、インタラクティブ機器が、ユーザが環境にいない場合にもユーザ情報収集を行うことによる機器損失を避け、処理資源やネットワーク資源の有効利用率を向上させることができる。

第２の態様では、本開示はインタラクション機器を提供し、図７は、本開示によって提供される一インタラクション機器の構造模式図である。

図７に示すように、当該インタラクション機器は、
ユーザの環境におけるユーザ位置とユーザ行為を含むユーザ情報を収集することに用いられる収集モジュール１０と、
前記ユーザ位置に基づいて、予め設定された環境モデリングにおいてユーザが位置するユーザモデリング位置を決定し、前記ユーザ行為に基づいて、前記環境モデリングにおけるオーディオとビデオの提示機器の提示モデリング位置を決定することに用いられる処理モジュール２０と、
前記提示モデリング位置に従って、前記オーディオとビデオの提示機器が環境において行うインタラクション情報の提示を制御することに用いられる制御モジュール３０とを備える。

１つの例示では、前記収集モジュール１０は、さらにユーザの環境におけるユーザ位置とユーザ行為を含むユーザ情報を収集する前に、環境における物体のそれぞれの物体の物体情報を収集することに用いられ、前記物体情報は、環境における物体の物体位置と物体輪郭を含み、前記物体は、少なくとも１つの前記オーディオとビデオの提示機器を含み、前記オーディオとビデオの提示機器のオーディオとビデオの提示機器情報は、オーディオとビデオの提示機器提示範囲をさらに含み、
前記処理モジュール２０は、さらに前記各物体の物体情報に基づいて環境モデリングを構築することにも用いられる。

１つの例示では、前記収集モジュール１０は、具体的に、画像収集技術によってユーザの環境におけるユーザ座標を収集することに用いられ、
相応的に、前記処理モジュール２０は、具体的に、ユーザの環境におけるユーザ座標に基づいて、環境モデリングにおける前記ユーザのユーザモデリング位置を決定ことに用いられる。

１つの例示では、前記収集モジュール１０は、具体的に、音声収集技術によって、ユーザの環境における音声情報を収集することに用いられ、前記音声情報は、前記音声情報の強度と、前記音声情報を収集した音声収集オーディオとビデオの提示機器のオーディオとビデオの提示機器位置とを含み、
相応的に、前記処理モジュール２０は、具体的に、ユーザの環境における音声情報の強度と、前記音声情報を収集した音声収集オーディオとビデオの提示機器のオーディオとビデオの提示機器位置とに基づいて、環境モデリングにおける前記ユーザのユーザモデリング位置を決定することに用いられる。

１つの例示では、前記収集モジュール１０は、具体的に、前記処理モジュール２０が肢体の動作に基づいてユーザの顔の向きを決定するように、ユーザの肢体の動作を収集することに用いられる。

前記処理モジュール２０は、さらにユーザの顔の向きと前記ユーザモデリング位置に基づいて、前記環境モデリングにおけるオーディオとビデオの提示機器の提示モデリング位置を決定することに用いられる。

１つの例示では、前記提示モデリング位置は、提示面座標及び提示属性を含み、
前記処理モジュール２０は、具体的に、前記ユーザの顔の向き、及び/又は、前記ユーザモデリング位置に基づいて、オーディオとビデオの提示機器の提示面座標を決定し、前記ユーザと前記オーディオとビデオの提示機器との距離に基づいて、オーディオとビデオの提示機器が提示面において提示する際の提示属性を決定することに用いられる。

１つの例示では、アクティブモジュールをさらに備え、
前記アクティブモジュールは、収集モジュール１０がユーザの環境におけるユーザ位置とユーザ行為を含むユーザ情報を収集する前に、インタラクティブ機器を休止状態に設定し、所定の範囲内の人体信号をリアルタイムで検出することに用いられ、前記人体信号が検出された場合に、前記アクティブモジュールが、さらに前記インタラクション機器を動作状態に置き、ユーザの環境におけるユーザ情報を収集するステップを実行することに用いられる。

本開示によるインタラクション機器は、ユーザの環境におけるユーザ位置とユーザ行為を含むユーザ情報を収集し、前記ユーザ位置に基づいて、予め設定された環境モデリングにおいてユーザが位置するユーザモデリング位置を決定し、前記ユーザ行為に基づいて、前記環境モデリングにおけるオーディオとビデオの提示機器の提示モデリング位置を決定し、前記提示モデリング位置に基づいてオーディオとビデオの提示機器の環境でのインタラクション情報の提示を制御し、当該インタラクション方法によりインタラクション情報を提示する方式が、インタラクション機器に固定されたスクリーン又はスピーカーに限られず、ユーザのユーザ行為及びユーザ位置に基づいてインタラクション情報の提示モデリング位置を決定できるため、環境におけるオーディオとビデオの提示機器を用いてインタラクション情報を提示し、ユーザとのインタラクション効果がよりよいし、インターラクティビティがより強い。

第３の態様では、本開示はインタラクションシステムを提供し、図８は、本開示によって提供される一インタラクションシステムの構造模式図である。図８に示すように、当該インタラクションシステムは、インタラクション機器及びオーディオとビデオの提示機器を含み、前記オーディオとビデオの提示機器１がインタラクション機器２の制御にしたがって環境においてインタラクション情報の提示を行うように、インタラクション機器２は、前述のいずれかのインタラクション方法を実行することに用いられる。

本開示の実施例では、本開示は、電子機器と可読記憶媒体をさらに提供する。

図９は、本開示の実施例によるインタラクション方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表す。電子機器はまた、パーソナルデジタルプロセシング、携帯電話、スマートフォン、ウェアラブル危機、及び他の同様のコンピューティング機器など、様々な形態のモバイル機器を表す。本明細書に示される構成要素、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書に記載及び/又は請求する本開示の実現を限定するためのものでない。

図９に示すように、当該電子機器は、１つ又は複数のプロセッサ９０１と、メモリ９０２と、各構成要素を接続するための高速インターフェースと低速インターフェースとを含むインターフェースとを備える。各構成要素は、異なるバスで接続され、共通のメインボード上に実装されてもよいし、必要に応じて他の位置に実装されてもよい。プロセッサは、電子機器内で実行される命令を処理でき、メモリ内又はメモリ上に記憶されて外部入力／出力装置（インターフェースに結合されたディスプレイ機器など）上にグラフィカルユーザインターフェース（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ、ＧＵＩ）のグラフィック情報を表示するための命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスが、複数のメモリとともに使用され得る。また、複数の電子機器が接続され、各機器が必要な一部の動作を提供するようにしてもよい（例えば、サーバアレイ、ブレードサーバグループ、又はマルチプロセッサシステムとして）。図９では、１つのプロセッサ９０１を例に挙げている。

メモリ９０２は、本開示で提供される非一時的コンピュータ可読記憶媒体である。前記メモリは、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、それにより前記少なくとも１つのプロセッサが本開示によって提供されるインタラクション方法を実行する。本開示の非一時的コンピュータ可読記憶媒体は、本開示によって提供されるインタラクション方法をコンピュータに実行させるためのコンピュータ命令を記憶する。

メモリ９０２は、非一時的コンピュータ可読記憶媒体として、本開示の実施例におけるインタラクション方法に対応するプログラム命令/モジュール（例えば、図７に示される収集モジュール１０、処理モジュール２０、及び制御モジュール３０）のような、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、及びモジュールを記憶することに使用され得る。プロセッサ９０１は、メモリ９０２に記憶された非一時的ソフトウェアプログラム、命令、及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上述した方法実施例におけるインタラクション方法を実現する方法を実現する。

メモリ９０２は、プログラム記憶領域とデータ記憶領域とを含むことができ、プログラム記憶領域はオペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶することができ、データ記憶領域は、インタラクション方法による電子機器の使用によって生成されたデータなどを保存することができる。さらに、メモリ９０２は、高速ランダムアクセスメモリを含んでもよく、また、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリデバイス、又は他の非一時的ソリッドステートメモリデバイスなどの、非一時的メモリを含んでもよい。いくつかの実施例において、メモリ９０２は、プロセッサ９０１に対して遠隔に設定されたメモリを含んでもよく、これらの遠隔メモリは、ネットワークを介して電子機器に接続され得る。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワークに限定されなく、メモリ９０２、入力装置９０３、及び出力装置９０４はバス又は他の方式により接続されてもよく、図９ではバスにより接続させる例を挙げる。

入力装置９０３は、入力された数字又は文字情報を受信し、インタラクション方法のための電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、たとえば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置９０４は、表示機器、補助照明装置（例えば、発光ダイオード（ｌｉｇｈｔｅｍｉｔｔｉｎｇｄｉｏｄｅ、ＬＥＤ））、及び触覚フィードバック装置（例えば、振動モータ）等を含んでもよい。当該表示機器は、液晶ディスプレイ（ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ、ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施形態では、表示機器はタッチスクリーンであってもよい。

本明細書で説明するシステム及び技術の様々な実施形態は、デジタル電子回路、集積回路、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現できる。これらの様々な実施形態は、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈可能な１つ以上のコンピュータプログラムを実施することを含んでよく、当該プログラマブルプロセッサは、データ及び命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に送信することができる、専用又は汎用のプログラマブルプロセッサであり得る。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラム可能なプロセッサの機械命令を含み、これらのコンピュータプログラムは、高レベル過程及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械語で実現され得る。本明細書で使用される用語「機械可読媒体」及び「コンピュータ可読媒体」は、プログラム可能なプロセッサに機械命令及び/又はデータを提供するための任意のコンピュータプログラム製品、機器、及び/又は装置（例えば、磁気ディスク、光学ディスク、メモリ、プログラム可能論理装置（ＰＬＤ））を意味し、機械可読信号としての機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意の信号を意味する。

ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、コンピュータに提供するユーザの入力のためのキーボード及びポインティング装置（例えば、マウス又はトラックボール）とを有するコンピュータ上で実施することができる。他の種類の装置を使用して、ユーザとのインタラクションを提供することもでき、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、ユーザからの入力は、（サウンド入力、音声入力、又は触覚入力を含む）任意の形態で受信され得る。

本明細書に記載のシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェース又は当該ウェブブラウザを有するユーザコンピュータであり、ユーザは当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここに記載のシステム及び技術の実施形態とインタラクションできる）、又はそのようなバックエンド構成要素、ミドルウェア構成要素、又はフロントエンド構成要素の任意の組み合わせを含むコンピューティングシステムにおいて実施され得る。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって互いに接続され得る。通信ネットワークとしては、例えば、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット等が挙げられる。

コンピュータシステムは、クライアント及びサーバを含み得る。クライアント及びサーバは、一般的に、互いに離れており、通常、通信ネットワークを介してインタラクションする。相応するコンピュータ上で、互いにクライアント-サーバ関係を有するコンピュータプログラムを実行することによって、クライアントとサーバの関係が生成される。

理解すべきなのは、上記に示された様々な形態のフローが、ステップの順序変更、追加、又は削除に使用され得る。例えば、本開示に記載された各ステップは、並列に実行されても、順次実行されても、異なる順序で実行されてもよく、本開示の技術的思想で望む結果を実現できる限り、ここで限定しない。

上記の詳細な説明は、本開示の保護範囲を制限するものではない。本開示の属する技術の分野における通常の知識を有する者であれば、設計要求と他の要素に従って様々な変更、組み合わせ、サブ組み合わせと置換を行うことができる。本開示の思想及び原理に含まれるあらゆる変更、均等物及び改良等は、すべて本開示の保護範囲に含まれる。

Claims

インタラクション方法であって、
ユーザの実環境におけるユーザ位置とユーザ行為を含むユーザ情報を収集することと、
前記ユーザの実環境におけるユーザ位置に基づいて、座標変換によって、予め設定された環境モデリングにおいて前記ユーザが位置するユーザモデリング位置を決定することと、
前記ユーザ行為に基づいて、前記環境モデリングにおけるオーディオとビデオの提示機器の提示モデリング位置を決定することと、
前記提示モデリング位置に従って、前記オーディオとビデオの提示機器が前記実環境において行うインタラクション情報の提示を制御することとを含み、
ここで、前記ユーザの実環境におけるユーザ情報を収集することの前に、
前記実環境における各物体の環境における物体位置及び物体輪郭を含む物体情報を収集することと、
前記各物体の物体情報に基づいて前記環境モデリングを構築することとをさらに含み、
ここで、前記環境モデリングを構築する際に、各オーディオとビデオの提示機器の提示範囲を記憶する、ことを特徴とするインタラクション方法。
前記ユーザの実環境におけるユーザ情報を収集することは、
画像収集技術によって前記ユーザの前記実環境における位置画像を収集し、前記位置画像に対して画像解析を行って前記ユーザ位置を取得することを含む、ことを特徴とする請求項１に記載のインタラクション方法。
前記ユーザの実環境におけるユーザ情報を収集することは、
音声収集技術によって、前記ユーザの前記実環境における音声情報を収集し、前記音声情報は、前記音声情報の強度と、前記音声情報を収集した音声収集オーディオとビデオの提示機器のオーディオとビデオの提示機器位置とを含むことと、
前記ユーザの前記実環境における音声情報の強度と、前記音声情報を収集した音声収集オーディオとビデオの提示機器のオーディオとビデオの提示機器位置に基づいて、前記ユーザ位置を決定することとを含む、ことを特徴とする請求項１に記載のインタラクション方法。
前記ユーザ行為に基づいて、前記環境モデリングにおけるオーディオとビデオの提示機器の提示モデリング位置を決定することは、
前記ユーザ行為に基づいて、前記ユーザの顔の向きを決定することと、
前記ユーザの顔の向きと前記ユーザモデリング位置とに基づいて、前記環境モデリングにおける前記オーディオとビデオの提示機器の前記提示モデリング位置を決定することとを含む、ことを特徴とする請求項１に記載のインタラクション方法。
前記提示モデリング位置は、提示面座標及び提示属性を含み、
前記ユーザの顔の向きと前記ユーザモデリング位置とに基づいて、前記環境モデリングにおける前記オーディオとビデオの提示機器の前記提示モデリング位置を決定することは、
前記ユーザの顔の向き、及び/又は、前記ユーザモデリング位置に基づいて、前記オーディオとビデオの提示機器の提示面座標を決定することと、
前記ユーザと前記オーディオとビデオの提示機器との距離に基づいて、前記オーディオとビデオの提示機器が提示面において提示する際の提示属性を決定することとを含む、ことを特徴とする請求項４に記載のインタラクション方法。
前記ユーザの実環境におけるユーザ情報を収集することの前に、
休止状態に設定し、リアルタイムで所定範囲内にユーザがいるかどうかを検出することと、
前記ユーザが検出されると、動作状態に設定してから、前記ユーザの実環境におけるユーザ情報を収集することとをさらに含み、
ここで、前記休止状態では、前記ユーザ情報を収集せず、前記動作状態では、前記ユーザ情報を収集する、ことを特徴とする請求項１に記載のインタラクション方法。
インタラクション機器であって、
ユーザの実環境におけるユーザ位置とユーザ行為を含むユーザ情報を収集することに用いられる収集モジュールと、
前記ユーザの実環境におけるユーザ位置に基づいて、座標変換によって、予め設定された環境モデリングにおいて前記ユーザが位置するユーザモデリング位置を決定し、前記ユーザ行為に基づいて、前記環境モデリングにおけるオーディオとビデオの提示機器の提示モデリング位置を決定する処理モジュールと、
前記提示モデリング位置に従って、前記オーディオとビデオの提示機器が前記実環境において行うインタラクション情報の提示を制御することに用いられる制御モジュールとを備え、
ここで、前記収集モジュールは、さらに前記ユーザの実環境におけるユーザ情報を収集することの前に、
前記実環境における各物体の前記実環境における物体位置及び物体輪郭を含む物体情報を収集し、前記物体は、少なくとも１つの前記オーディオとビデオの提示機器を含み、前記オーディオとビデオの提示機器のオーディオとビデオの提示機器情報は、オーディオとビデオの提示機器提示範囲を含むことに用いられ、
前記処理モジュールは、さらに前記各物体の物体情報に基づいて前記環境モデリングを構築することに用いられることを特徴とするインタラクション機器。
前記収集モジュールは、画像収集技術によって、前記ユーザの前記実環境におけるユーザ座標を収集することに用いられ、
前記処理モジュールは、前記ユーザの前記実環境におけるユーザ座標に基づいて、前記環境モデリングにおける前記ユーザのユーザモデリング位置を決定ことに用いられる、ことを特徴とする請求項７に記載のインタラクション機器。
前記収集モジュールは、音声収集技術によって、前記ユーザの前記実環境における音声情報を収集することに用いられ、前記音声情報は、前記音声情報の強度と、前記音声情報を収集した音声収集オーディオとビデオの提示機器のオーディオとビデオの提示機器位置とを含み、
前記処理モジュールは、前記ユーザの前記実環境における音声情報の強度と、前記音声情報を収集した音声収集オーディオとビデオの提示機器のオーディオとビデオの提示機器位置とに基づいて、前記環境モデリングにおける前記ユーザのユーザモデリング位置を決定することに用いられる、ことを特徴とする請求項７に記載のインタラクション機器。
前記収集モジュールは、前記処理モジュールが肢体の動作に基づいてユーザの顔の向きを決定するように、前記ユーザの肢体の動作を収集することに用いられ、
前記処理モジュールは、さらに前記ユーザの顔の向きと前記ユーザモデリング位置に基づいて、前記環境モデリングにおける前記オーディオとビデオの提示機器の前記提示モデリング位置を決定することに用いられる、ことを特徴とする請求項７に記載のインタラクション機器。
前記提示モデリング位置は、提示面座標及び提示属性を含み、
前記処理モジュールは、前記ユーザの顔の向き、及び/又は、前記ユーザモデリング位置に基づいて、前記オーディオとビデオの提示機器の提示面座標を決定し、前記ユーザと前記オーディオとビデオの提示機器との距離に基づいて、前記オーディオとビデオの提示機器が提示面において提示する際の提示属性を決定することに用いられる、ことを特徴とする請求項１０に記載のインタラクション機器。
アクティブモジュールをさらに備え、
前記アクティブモジュールは、前記収集モジュールがユーザの実環境におけるユーザ情報を収集する前に、前記インタラクション機器を休止状態に設定し、所定の範囲内にユーザがいるかどうかをリアルタイムで検出することに用いられ、前記ユーザが検出された場合に、前記アクティブモジュールが、前記インタラクション機器を動作状態に設定し、ユーザの実環境におけるユーザ情報を収集するステップを実行することに用いられ、
ここで、前記休止状態では、前記ユーザ情報を収集せず、前記動作状態では、前記ユーザ情報を収集する、ことを特徴とする請求項７に記載のインタラクション機器。
インタラクションシステムであって、
インタラクション機器及びオーディオとビデオの提示機器を含み、
前記インタラクション機器は、前記オーディオとビデオの提示機器が前記インタラクション機器の制御にしたがって環境においてインタラクション情報の提示を行うように、請求項１〜６のいずれか１項に記載のインタラクション方法を実行することに用いられることを特徴とするインタラクションシステム。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されたメモリと、を備え、
前記メモリは、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサが請求項１〜６のいずれか１項に記載のインタラクション方法を実行できる、ことを特徴とする電子機器。
コンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１〜６のいずれか１項に記載のインタラクション方法を実行させるために用いられる、ことを特徴とする非一時的コンピュータ可読記憶媒体。