JP2023531849A

JP2023531849A - オーディオ認識を行う拡張現実デバイスおよびその制御方法

Info

Publication number: JP2023531849A
Application number: JP2022554571A
Authority: JP
Inventors: ジョン、イルヨン; イム、ヒョンギ; ハン、ユンチャン; イ、スビン; パク、ジョンス; イ、ドンムン
Original assignee: Cochl Inc
Current assignee: Cochl Inc
Priority date: 2020-03-20
Filing date: 2021-02-26
Publication date: 2023-07-26
Also published as: KR102334091B1; EP4124073A1; EP4124073A4; KR20210117654A; WO2021187771A1; CN115336291A; US20230145966A1

Abstract

本発明は、オーディオ識別を行い得る拡張現実デバイスおよびその制御方法に関するものであって、ユーザーの目が貫通して見られるように形成されて仮想オブジェクトを出力するシースルー（Ｓｅｅ－Ｔｈｒｏｕｇｈ）ディスプレイ部と、ディスプレイ部から予め設定された距離以内で発生したオーディオ信号の入力を受けるオーディオ入力部と、オーディオ信号に対応するイベント情報を識別し、識別されたイベント情報に対応する仮想オブジェクトの映像情報が出力されるように、前記シースルーディスプレイ部の動作を制御する制御部と、を含むことを特徴とする。

Description

本発明は、拡張現実デバイスに関する。具体的に、本発明は、オーディオ識別を行い得る拡張現実デバイスおよびその制御方法に関する。

現実のイメージや背景に３次元の仮想イメージをオーバーラップして１つの映像で見せる技術を拡張現実（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ、ＡＲ）という。すなわち、ユーザーが透明なガラスを介して現実のイメージが提供された状態で、ガラスに仮想オブジェクトに対応する映像情報を出力することによって、ユーザーの感覚と認識を拡張することを拡張現実と定義する。

最近、カメラやＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）などの様々なセンサを内蔵したモバイル端末とスマートフォンの普及が広がり、高速のモバイルインターネットを用いた様々な融合サービスが披露され、モバイル機器を活用した拡張現実サービスが急速に広がっている。

一方、オーディオ情報を処理するために、ディープラーニングなどの人工知能技術が適用されている。オーディオに関連する処理技術の１つであるオーディオ識別技術は、オーディオ入力がどの主体から発生したのか、その主体のどの状況で発生されるのかを検出するための目的で開発される。

人工知能の発達によりオーディオ識別の正確度が増加し、デバイスの演算能力が向上するにつれてオーディオ識別にかかる時間が減少し、ユーザーは、リアルタイムで入力されたオーディオ情報についてオーディオ識別を行い得る。

ここに、拡張現実デバイスにオーディオ識別技術を融合してユーザーの感覚領域を拡張させるための様々な研究が進められている。

本発明の技術的課題は、オーディオ識別技術を用いて周辺で発生したイベントをユーザーに直観的に知らせられる拡張現実デバイスおよびその制御方法を提供するものである。

また、本発明の技術的課題は、ユーザーが可視領域外で発生したオーディオを認知できるように、周辺で発生したオーディオ情報を識別できる拡張現実デバイスおよびその制御方法を提供するものである。

また、本発明の技術的課題は、リアルタイムで周辺で発生される音のラベル（Ｌａｂｅｌ）と発源地点を検出し、これによって仮想オブジェクトを出力する拡張現実デバイスおよびその制御方法を提供するものである。

また、本発明の技術的課題は、オーディオ情報と映像情報を連動してユーザーの認知領域が拡大されるように仮想オブジェクトを提供する拡張現実デバイスおよびその制御方法を提供するものである。

また、本発明の技術的課題は、周辺で発生されるオーディオ情報の属性に基づいて動作する拡張現実デバイスを提供するものである。

本発明に係る拡張現実デバイスは、ユーザーの目が貫通して見られるように形成されて仮想オブジェクトを出力するシースルー（Ｓｅｅ－ｔｈｒｏｕｇｈ）ディスプレイ部と、ディスプレイ部から予め設定された距離以内で発生したオーディオ信号の入力を受けるオーディオ入力部と、オーディオ信号に対応するイベント情報を識別し、識別されたイベント情報に対応する仮想オブジェクトの映像情報が出力されるように前記シースルーディスプレイ部の動作を制御する制御部と、を含むことを特徴とする。

また、本発明に係る拡張現実デバイスの他の実施形態によると、映像情報は、オーディオ信号に関連するテキスト、イメージ、および位置情報のうち、少なくとも１つを含むことを特徴とし、制御部は、オーディオ信号が発生した地点の位置を検出し、映像情報が検出された位置に関連する情報を含むように、シースルーディスプレイ部の動作を制御することを特徴とする。

本発明に係ると、ユーザーが見られない領域で発生される音を視覚情報に変換して出力することによって、ユーザーが周辺で発生される音を正確に認知できる長所がある。

また、本発明に係ると、聴覚能力が喪失されたユーザーも、周辺で発生される様々な音に関連した情報を目で見るような効果が発生し得る。

また、本発明に係ると、周辺で発生されるオーディオ信号と拡張現実によって発生される仮想オブジェクトを組み合わせることによって、ユーザーの感覚領域を極大化できる効果が導き出されることができる。

拡張現実デバイスを含むシステムを示す概念図である。拡張現実デバイスの斜視図である。拡張現実デバイスの構成要素を示すブロック図である。本発明に係る拡張現実デバイスの制御方法を示すフローチャートである。本発明に係る拡張現実デバイスの実施形態を示す図である。本発明に係る拡張現実デバイスの実施形態を示す図である。本発明に係る拡張現実デバイスの実施形態を示す図である。本発明に係る拡張現実デバイスの実施形態を示す図である。

発明の実施のための最良の形態

ユーザーの目が貫通して見られるように形成され、仮想オブジェクトの映像情報を出力するシースルー（Ｓｅｅ－ｔｈｒｏｕｇｈ）ディスプレイ部と、ディスプレイ部から予め設定された距離以内で発生したオーディオ信号の入力を受けるオーディオ入力部と、オーディオ信号に対応するイベント情報を識別し、識別されたイベント情報に対応する仮想オブジェクトの映像情報が出力されるように、シースルーディスプレイ部の動作を制御する制御部と、を含むことを特徴とする拡張現実デバイス。

以下、添付の図面を参照して本明細書に開示された実施形態を詳細に説明するが、本明細書で使用される技術用語は、単に特定の実施形態を説明するために使用されたものであって、本明細書に開示される技術の思想を限定しようとする意図ではないことに留意するべきである。

前述したように、拡張現実デバイスのユーザーは、拡張現実デバイス上の相互作用要素の機能に関する情報を取得しようとする。したがって、本明細書に記載の実施形態は、シースルーディスプレイ装置を介してこのような情報を提供することに関連する。例えば、以下に具体的に説明されるように、シースルーディスプレイ装置は、拡張現実デバイスの双方向要素の機能についての情報を拡張現実デバイスのユーザーの視野上にディスプレイされる拡張現実イメージとして提供するように構成される。

図１は、拡張現実デバイスを含むシステムを示す概念図である。図１を参照して本発明の一実施形態を説明すると、入力部１００を介してオーディオ信号を入力し、制御部２００で入力されたオーディオ信号に対応するイベント情報を識別し、識別されたイベント情報に対応する仮想オブジェクトの映像情報がシースルーディスプレイ部３００を介して出力するように制御できる。具体的に、オーディオ信号が入力され、当該オーディオ信号は、人工神経網によって検出、識別、および映像情報とマッチングされ、ディスプレイ部３００を介してユーザーに視覚的に伝達し得る。ここで、ディスプレイ部３００は、後述のようにスマートガラスの形態で提供され得る。スマートガラスは、従来技術に基づくものであって、ガラス形態を支持するフレーム部と、ユーザーにスマートガラスを固定させる固定部と、フレーム上に取り付けられてユーザーが貫通して可視領域を眺めるとともに拡張現実映像情報を確認できるレンズ部と、を含み得る。これは、カメラおよび様々なセンサをさらに含み得、オーディオ信号を検出できるマイクをさらに含み得る。一実施形態によると、拡張現実デバイスは、ユーザーが直観的な方法でオーディオ信号を映像情報に相互作用できるようにする拡張現実ディスプレイとして構成され得る。ここで、拡張現実ディスプレイは、前述したディスプレイ部３００と、ＡＲ眼鏡またはヘッドマウントディスプレイのうちの１つであり得る。ここで、レンズ部は、ユーザーがディスプレイ部３００を着用する場合、実際の場面を明確に観察できるようにするために、ガラスまたはプラスチックなどの透明または透視型材料で形成し得る。また、レンズ部を介してデジタルＡＲ映像情報などのコンテンツを投影するように構成され得る。したがって、ユーザはディスプレイ部３００を着用したまま現実世界の場面と投影されたデジタル映像情報を同時に観察できる。

図２は、拡張現実デバイスの斜視図であり、拡張現実デバイスを含む物理的空間の例示的な実施形態を示す。ユーザーは、拡張現実デバイスにおいてシースルーディスプレイ部３００を介して可視領域ＶＡを見られ、このような実施形態は、図２によって確認できる。図示されるシースルーディスプレイ部３００は、ユーザーの両手が自由にゴーグル、眼鏡などの形式で備えられ得る。シースルーディスプレイ部３００は、ユーザーに物理的空間の外観の視覚的な情報拡張ができるように構成されるＡＲ出力部３１０と、オーディオ信号の方向、位置などを案内する情報表示部３２０と、を含む。ＡＲ出力部３１０を介して物理的空間から出た光がシースルーディスプレイ部３００を通過するようにし、ユーザーが実際の物理的空間を直接見ながら同時に実際の物理的空間にオーバーレイされた１つ以上の仮想オブジェクトを見られるようにする。一実施形態によると、ユーザーの視線がＡＲ出力部３１０を介して可視領域ＶＡをまっすぐ向かうとき、シースルーディスプレイ部３００は、拡張現実デバイスの１つ以上の機能についての情報の形式で１つ以上の仮想オブジェクトをディスプレイする。ここでディスプレイされた情報は、適切な方法で取得される。例えば、ディスプレイされた情報は、コンピューティング装置からネットワークを介してリモートコンピューティング装置から、または拡張現実デバイスなどから受信され得る。

本発明に係るシースルーディスプレイ部３００は、図２のようなゴーグル形で具現できるが、その具現方式を限定するものではなく、他の任意の適切な形式でも具現できる。図２を参照して一実施形態を簡単に説明すると、シースルーディスプレイ部３００を介してユーザーは、可視領域ＶＡをリアルタイムで視覚的に確認でき、可視領域ＶＡ内でオーディオ信号が発生される場合、オーディオ信号が発生した地点の位置を検出して情報表示部３２０のうち、当該位置の方向に位置情報を表示することができ、オーディオ信号が発生した位置に仮想オブジェクトの映像情報１０がオーバーラップされるように投影させることができる。具体的には、オーディオ信号の情報、すなわちオーディオ信号の種類および音を視覚的に投影して聴覚的に確認できないユーザーも、視覚的にオーディオ信号を確認できるようにする。

以下、図３を参照して本発明の拡張現実デバイスを具体的に説明する。図３は、拡張現実デバイスの構成要素を示すブロック図である。

図３の一実施形態によると、本発明の拡張現実デバイスは、ユーザーの目が貫通して見られるように形成され、仮想オブジェクトの映像情報１０を出力するシースルー（Ｓｅｅ－ｔｈｒｏｕｇｈ）ディスプレイ部３００と、ディスプレイ部３００から予め設定された距離以内で発生したオーディオ信号を入力するオーディオ入力部１００と、オーディオ信号に対応するイベント情報を識別し、識別されたイベント情報に対応する仮想オブジェクトの映像情報１０が出力されるように、シースルーディスプレイ部３００の動作を制御する制御部２００と、を含み得る。

具体的に、入力部１００は、オーディオ信号、映像信号の入力を受けて制御部２００に送信する構成であって、マイク１１０、カメラ１２０、および送信部１３０を含み得る。マイク１１０は、ディスプレイ部３００から予め設定された所定の距離以内で発生したオーディオ信号の入力を受ける構成であって、ユーザーがディスプレイ部３００を着用した状態で所定の距離以内にオーディオ信号が発生される場合、マイク１１０を介して当該オーディオ信号が入力され、送信部１３０を介して制御部２００に送信され得る。このとき、入力部１００は、シースルーディスプレイ部３００の一部分に設けられ、一方向を撮影するカメラ１２０をさらに含み、カメラ１２０によってユーザーが着用したディスプレイ部３００の正面方向の画面が撮影されることができる。具体的に、ディスプレイ部３００を通過して見えるユーザーの可視領域ＶＡがカメラ１２０によって撮影され、映像信号が送信部１３０によって制御部２００に一緒に送信され得る。

制御部２００は、入力部１００から入力されて送信されたオーディオ信号および映像信号に基づいて情報を検出し、提供されたイベント情報を識別してマッチングさせる検出部２１０と、識別部２２０およびマッチング部２３０を含む。検出部２１０は、入力部１００から送信されたオーディオ信号の種類および当該オーディオ信号が発生した地点の位置を検出して映像情報１０に関連する情報を含むように、シースルーディスプレイ部３００の動作を制御できる。具体的に、入力部１００からオーディオ信号および映像信号が制御部２００に送信され得るが、ここで、検出部２１０は、オーディオ信号の種類または状況などを検出し、映像信号からオーディオ信号に対応する映像信号を検出できる。一実施形態によると、図２に示すように、入力部１００のマイク１１０を介して赤ちゃんの泣き声（ＢａｂｙＣｒｙ）がオーディオ信号に入力され、カメラ１２０を介して泣いている赤ちゃんが映像信号に入力されて制御部２００に送信された場合、検出部２１０は、送信されたオーディオ信号の発生した地点までの距離、オーディオ信号の大きさなどを複数のオーディオセンサにより検出し、当該オーディオ信号が発生した地点の位置を検出できる。すなわち、赤ちゃんの泣き声がオーディオ信号に入力されると、当該泣き音が発生した方向および位置を把握して検出部２１０を介して検出できる。これと同時に、入力された映像信号に基づいて泣き音が発生した方向および位置の映像信号を検出してより具体的に分析できる。検出部２１０を介して検出されたオーディオ信号の方向、位置および映像信号は、識別部２２０を介して具体的に識別できる。具体的に、識別部２２０は、予め搭載された人工神経網によってオーディオ信号の種類または状況を識別し、映像信号から当該オーディオ信号の種類または状況に該当する映像情報１０を識別して抽出できる。具体的に、図２によると、オーディオ信号の波長、波形、周波数などを分析し、人工神経網によって当該オーディオ信号が赤ちゃんの泣き声であると識別できる。また、オーディオ信号を識別するとともに、識別されたオーディオ情報に対応する映像信号を識別できる。すなわち、オーディオ信号が赤ちゃんの泣き声であると識別されると、入力された映像信号から赤ちゃんを見つけて識別できる。その後、オーディオ信号および映像信号がそれぞれ識別されると、２つの情報をマッチングさせ、シースルーディスプレイ部３００の画面のうち、前記オーディオ信号が発生した位置の映像信号に仮想オブジェクトの映像情報１０がオーバーラップされるように、シースルーディスプレイ部の動作を制御できる。すなわち、オーディオ信号として赤ちゃんの泣き声が入力され、映像信号にも赤ちゃんが見つかった場合、赤ちゃんと赤ちゃんの泣き声をマッチングして赤ちゃんの周辺に赤ちゃんの泣き声情報が拡張現実を介してオーバーラップされるように制御できる。ここで、オーバーラップされる映像情報１０は、識別されたオーディオ信号に関連するテキスト、イメージおよび位置情報のうち、少なくとも１つを含み得る。テキストは、文字で表記されることができ、人、事物、動物などのオーディオ信号が発生した主体をイメージとして表示することができる。また、オーディオ信号が発生した地点の位置情報をテキスト、イメージまたは方向、地点表示などで提供し得る。制御部２００で識別してマッチングされたオーディオ信号についての映像情報１０は、ディスプレイ部３００を介して出力されることができる。具体的に、ディスプレイ部３００は、ＡＲ出力部３１０および情報表示部３２０を含む。ＡＲ出力部３１０は、ディスプレイ部３００を着用したユーザーの可視領域に拡張現実を介して映像情報１０をオーバーラップ出力する構成であり、情報表示部３２０は、ディスプレイ部３００の周り方向に沿ってオーディオ信号が発生した地点の位置または方向情報を表示するように備えられ得る。

以下、図４を参照して本発明に係る拡張現実デバイスの制御方法を詳細に説明する。図４は、本発明に係る拡張現実デバイスの制御方法を示すフローチャートである。

図４を参照して説明すると、ユーザーは、シースルーディスプレイ部３００を着用した後、ＡＲ出力部３１０を貫通して可視領域ＶＡを確認できる。このとき、ディスプレイ部３００から予め設定された所定の距離以内でオーディオ信号が発生した場合、入力部１００を介して当該オーディオ信号の入力を受けることができる。オーディオ信号が入力されると、当該オーディオ信号に対応するイベント情報を識別し、識別されたイベント情報に対応する仮想オブジェクトの映像情報１０がＡＲ出力部３１０および情報表示部３２０を介して可視領域ＶＡに出力されることができる。ただし、イベント情報を識別した後、オーディオ信号発生位置が可視領域であるかどうかを先に判断した後に、可視領域内であれば映像情報１０を投影することができ、可視領域外である場合には、位置情報を出力してユーザーが当該オーディオ信号発生位置を可視領域内に移動させるようにすることができる。具体的には、制御部２００によってユーザーが着用したシースルーディスプレイ部３００の一部分が指向する方向を基準に、オーディオ信号が入力された方向が検出され、映像情報１０が検出された方向に関連する情報を含むようにシースルーディスプレイ部３００の動作を制御できる。ここで、映像情報１０は、検出された方向に関連する情報は、情報表示部３２０を介したオーディオ信号検出方向および位置を表示することもあり、オーディオ信号検出地点に映像情報１０を拡張現実にオーバーラップすることもある。具体的に、制御部２００は、オーディオ信号が発生した地点の位置がシースルーディスプレイ部３００を介してユーザーに見える可視領域外である場合、位置に関連する映像情報１０が出力されるように、シースルーディスプレイ部３００の動作を制御できる。また、オーディオ信号が発生した地点の位置が可視領域内である場合、シースルーディスプレイ部の画面のうち、オーディオ信号が発生した位置が投影される一部分に仮想オブジェクトの映像情報１０がオーバーラップされるように、シースルーディスプレイ部３００の動作を制御できる。

以下、図５～図８を参照して実施形態をより詳細に説明する。図５～図８は、本発明に係る拡張現実デバイスの実施形態を示す図である。

まず、図５を参照すると、オーディオ信号がシースルーディスプレイ部３００を介してユーザーに見える可視領域ＶＡ外で発生した場合、すなわち、図５においてＡＲ出力部３１０を介してユーザーに見えない左側面のドアからノック音が発生した場合、当該オーディオ信号が発生した地点の位置に関連する映像情報１０がＡＲ出力部３１０を介して出力されることができる。具体的に、図５を参照すると、ノック音がユーザーの可視領域ＶＡ内で発生しない場合、オーディオ信号が発生した位置にユーザーの可視領域ＶＡを切り替えることができるように、オーディオ信号の発生された地点の位置または方向を表示することができる。すなわち、左側面のドアから音が発生した場合、音の種類であるノックＫｎｏｃｋを表示し、方向表示および矢印などを活用して位置に関連する映像情報１０を出力することができる。より具体的に、オーディオ信号が発生した対象を一緒に表記して出力することもできる。これと同時に、ディスプレイ部３００の外郭に沿って複数個備えられた情報表示部３２０に当該方向に情報を表示することによって、ユーザーに直ちに当該方向からオーディオ信号が発生したことを知らせることができる。このとき、情報表示部３２０は、ＬＥＤ通知、または振動通知などを通じてユーザーに方向情報を案内することができる。

図６は、図５の可視領域ＶＡでユーザーが方向または位置に関連する映像情報１０を確認した後に、左に首を回して可視領域ＶＡ内にオーディオ信号が発生した地点の位置が入ってくるように切り替えた画面である。図６のように、図５の画面において可視領域ＶＡ内にオーディオ信号が発生した位置が含まれない場合、位置および方向の案内を受け、ユーザーは、オーディオ信号が発生した位置に向かって可視領域ＶＡを切り替えることができる。したがって、図６のように、オーディオ信号が発生した地点の位置が可視領域内に属する場合、シースルーディスプレイ部３００の画面のうち、オーディオ信号の発生位置が投影されるＡＲ出力部３１０の一部分に仮想オブジェクトの映像情報１０がオーバーラップされるように、シースルーディスプレイ部３００の動作が制御できる。すなわち、ドアからノック音が発生してドア方向にユーザーが可視領域ＶＡを切り替え、ドアが可視領域ＶＡ内に属するようになった場合、オーディオ信号が発生したドアにノック音が発生したことを案内するように、オーディオ信号の種類および音をイメージまたは文字などでオーバーラップして表記することができる。このとき、オーバーラップされる映像情報１０は、オーディオ信号の種類および対象などによって異なって表示されることができる。具体的に、事物、人、動物などの対象に応じてアイコンを表示したり、吹き出しの形、色などの違いにより、ユーザーが直観的に音の対象を確認できるようにする。具体的に、図６～図８を比較して説明する。

図６は、ドアからノック音が発生したオーディオ信号であって、図６のようにオーディオ信号が発生される事物に指示線が表示された丸い四角形のボックス内に音の種類および音が文字で表記されることができる。また、図７は、人が会話をしているオーディオ信号に関するものであって、会話をしている人が可視領域ＶＡ内に入ってきた場合、オーディオ信号についての映像情報１０がオーバーラップされて表示され得るが、このとき、人の会話は、吹き出しを通じて当該人にマッチングするようにオーバーラップされることができる。したがって、ユーザーが聞くことなく人とコミュニケーションができる。図８は、動物の音がオーディオ信号に入力された場合の実施形態であって、愛犬が吠える音がオーディオ信号に入力された場合、当該愛犬の周囲に曲線の指示線がマッチングされて映像情報１０として提供され得、このとき、映像情報１０に愛犬を示すアイコンが表示されることによって、直観的に愛犬が発生させたオーディオ信号であることを確認できる。

このように前述の実施形態によると、本発明においては、オーディオ信号の入力を受けた後に、ディスプレイ部３００の映像信号とマッチングして該当種類のオーディオ信号と映像情報１０がマッチングされることによって、ユーザーにオーディオ信号を視覚的な情報として提供し得る。このとき、オーディオ信号の識別、映像信号のうち、当該オーディオ信号の種類に該当する映像信号を抽出、およびオーディオ信号と映像信号をマッチングして映像情報１０に表出する過程は、制御部２００に予め搭載されている人工神経網によって行われ得、人工神経網は、ユーザーの反復的な本発明の拡張現実デバイスの使用によって学習され、より正確かつ拡張された情報を提供し得る。

本明細書においては、シースルーディスプレイ部３００をスマートガラス形の実施形態として説明したが、これは実施形態の１つに過ぎず、携帯電話、ノートパソコン、ウェアラブルデバイスなどの映像処理装置およびオーディオ分析装置などを介して行われ得る。

前述した本発明は、一実施形態に関するものであって、これは単に実施形態に過ぎず、本技術分野における通常の知識を有する者は、これから様々な変形および均等な他の実施形態も可能であろう。したがって、本発明の権利の範囲は、前述の実施形態および添付の図面によって限定されるものではない。

産業上利用可能性

Claims

ユーザーの目が貫通して見られるように形成され、仮想オブジェクトの映像情報を出力するシースルーディスプレイ部と、
前記ディスプレイ部から予め設定された距離以内で発生したオーディオ信号の入力を受けるオーディオ入力部と、
前記オーディオ信号に対応するイベント情報を識別し、識別されたイベント情報に対応する仮想オブジェクトの映像情報が出力されるように、前記シースルーディスプレイ部の動作を制御する制御部と、を含むことを特徴とする拡張現実デバイス。
前記映像情報は、
前記オーディオ信号に関連するテキスト、イメージ、および位置情報のうち、少なくとも１つを含むことを特徴とする請求項１に記載の拡張現実デバイス。
前記制御部は、
前記オーディオ信号が発生した地点の位置を検出し、前記映像情報が検出された位置に関連する情報を含むように、前記シースルーディスプレイ部の動作を制御することを特徴とする請求項１に記載の拡張現実デバイス。
前記制御部は、
前記シースルーディスプレイ部の一部分が指向する方向に基づいて、前記オーディオ信号が入力された方向を検出し、前記映像情報が検出された方向に関連する情報を含むように、前記シースルーディスプレイ部の動作を制御することを特徴とする請求項３に記載の拡張現実デバイス。
前記制御部は、
前記オーディオ信号が発生した地点の位置が前記シースルーディスプレイ部を介してユーザーに見える可視領域外である場合、前記位置に関連する映像情報が出力されるように、前記シースルーディスプレイ部の動作を制御することを特徴とする請求項１に記載の拡張現実デバイス。
前記制御部は、
前記オーディオ信号が発生した地点の位置が前記可視領域内である場合、前記シースルーディスプレイ部の画面のうち、前記位置が投影される一部分に前記仮想オブジェクトの映像情報がオーバーラップされるように、前記シースルーディスプレイ部の動作を制御することを特徴とする請求項５に記載の拡張現実デバイス。
前記入力部は、
前記シースルーディスプレイ部の一部分に設けられ、一方向を撮影するカメラを含み、前記制御部は、前記カメラによって撮影された映像情報に含まれる少なくとも１つのオブジェクトを識別し、識別された少なくとも１つのオブジェクトと前記オーディオ信号のイベント情報をマッチングさせることを特徴とする請求項１に記載の拡張現実デバイス。