JP2023531849A - オーディオ認識を行う拡張現実デバイスおよびその制御方法 - Google Patents

オーディオ認識を行う拡張現実デバイスおよびその制御方法 Download PDF

Info

Publication number
JP2023531849A
JP2023531849A JP2022554571A JP2022554571A JP2023531849A JP 2023531849 A JP2023531849 A JP 2023531849A JP 2022554571 A JP2022554571 A JP 2022554571A JP 2022554571 A JP2022554571 A JP 2022554571A JP 2023531849 A JP2023531849 A JP 2023531849A
Authority
JP
Japan
Prior art keywords
audio signal
display unit
see
augmented reality
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022554571A
Other languages
English (en)
Inventor
ジョン、イルヨン
イム、ヒョンギ
ハン、ユンチャン
イ、スビン
パク、ジョンス
イ、ドンムン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cochl Inc
Original Assignee
Cochl Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cochl Inc filed Critical Cochl Inc
Publication of JP2023531849A publication Critical patent/JP2023531849A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2215/00Indexing scheme for image rendering
    • G06T2215/16Using real world measurements to influence rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本発明は、オーディオ識別を行い得る拡張現実デバイスおよびその制御方法に関するものであって、ユーザーの目が貫通して見られるように形成されて仮想オブジェクトを出力するシースルー(See-Through)ディスプレイ部と、ディスプレイ部から予め設定された距離以内で発生したオーディオ信号の入力を受けるオーディオ入力部と、オーディオ信号に対応するイベント情報を識別し、識別されたイベント情報に対応する仮想オブジェクトの映像情報が出力されるように、前記シースルーディスプレイ部の動作を制御する制御部と、を含むことを特徴とする。

Description

本発明は、拡張現実デバイスに関する。具体的に、本発明は、オーディオ識別を行い得る拡張現実デバイスおよびその制御方法に関する。
現実のイメージや背景に3次元の仮想イメージをオーバーラップして1つの映像で見せる技術を拡張現実(Augmented Reality、AR)という。すなわち、ユーザーが透明なガラスを介して現実のイメージが提供された状態で、ガラスに仮想オブジェクトに対応する映像情報を出力することによって、ユーザーの感覚と認識を拡張することを拡張現実と定義する。
最近、カメラやGPS(Global Positioning System)などの様々なセンサを内蔵したモバイル端末とスマートフォンの普及が広がり、高速のモバイルインターネットを用いた様々な融合サービスが披露され、モバイル機器を活用した拡張現実サービスが急速に広がっている。
一方、オーディオ情報を処理するために、ディープラーニングなどの人工知能技術が適用されている。オーディオに関連する処理技術の1つであるオーディオ識別技術は、オーディオ入力がどの主体から発生したのか、その主体のどの状況で発生されるのかを検出するための目的で開発される。
人工知能の発達によりオーディオ識別の正確度が増加し、デバイスの演算能力が向上するにつれてオーディオ識別にかかる時間が減少し、ユーザーは、リアルタイムで入力されたオーディオ情報についてオーディオ識別を行い得る。
ここに、拡張現実デバイスにオーディオ識別技術を融合してユーザーの感覚領域を拡張させるための様々な研究が進められている。
本発明の技術的課題は、オーディオ識別技術を用いて周辺で発生したイベントをユーザーに直観的に知らせられる拡張現実デバイスおよびその制御方法を提供するものである。
また、本発明の技術的課題は、ユーザーが可視領域外で発生したオーディオを認知できるように、周辺で発生したオーディオ情報を識別できる拡張現実デバイスおよびその制御方法を提供するものである。
また、本発明の技術的課題は、リアルタイムで周辺で発生される音のラベル(Label)と発源地点を検出し、これによって仮想オブジェクトを出力する拡張現実デバイスおよびその制御方法を提供するものである。
また、本発明の技術的課題は、オーディオ情報と映像情報を連動してユーザーの認知領域が拡大されるように仮想オブジェクトを提供する拡張現実デバイスおよびその制御方法を提供するものである。
また、本発明の技術的課題は、周辺で発生されるオーディオ情報の属性に基づいて動作する拡張現実デバイスを提供するものである。
本発明に係る拡張現実デバイスは、ユーザーの目が貫通して見られるように形成されて仮想オブジェクトを出力するシースルー(See-through)ディスプレイ部と、ディスプレイ部から予め設定された距離以内で発生したオーディオ信号の入力を受けるオーディオ入力部と、オーディオ信号に対応するイベント情報を識別し、識別されたイベント情報に対応する仮想オブジェクトの映像情報が出力されるように前記シースルーディスプレイ部の動作を制御する制御部と、を含むことを特徴とする。
また、本発明に係る拡張現実デバイスの他の実施形態によると、映像情報は、オーディオ信号に関連するテキスト、イメージ、および位置情報のうち、少なくとも1つを含むことを特徴とし、制御部は、オーディオ信号が発生した地点の位置を検出し、映像情報が検出された位置に関連する情報を含むように、シースルーディスプレイ部の動作を制御することを特徴とする。
本発明に係ると、ユーザーが見られない領域で発生される音を視覚情報に変換して出力することによって、ユーザーが周辺で発生される音を正確に認知できる長所がある。
また、本発明に係ると、聴覚能力が喪失されたユーザーも、周辺で発生される様々な音に関連した情報を目で見るような効果が発生し得る。
また、本発明に係ると、周辺で発生されるオーディオ信号と拡張現実によって発生される仮想オブジェクトを組み合わせることによって、ユーザーの感覚領域を極大化できる効果が導き出されることができる。
拡張現実デバイスを含むシステムを示す概念図である。 拡張現実デバイスの斜視図である。 拡張現実デバイスの構成要素を示すブロック図である。 本発明に係る拡張現実デバイスの制御方法を示すフローチャートである。 本発明に係る拡張現実デバイスの実施形態を示す図である。 本発明に係る拡張現実デバイスの実施形態を示す図である。 本発明に係る拡張現実デバイスの実施形態を示す図である。 本発明に係る拡張現実デバイスの実施形態を示す図である。
発明の実施のための最良の形態
ユーザーの目が貫通して見られるように形成され、仮想オブジェクトの映像情報を出力するシースルー(See-through)ディスプレイ部と、ディスプレイ部から予め設定された距離以内で発生したオーディオ信号の入力を受けるオーディオ入力部と、オーディオ信号に対応するイベント情報を識別し、識別されたイベント情報に対応する仮想オブジェクトの映像情報が出力されるように、シースルーディスプレイ部の動作を制御する制御部と、を含むことを特徴とする拡張現実デバイス。
以下、添付の図面を参照して本明細書に開示された実施形態を詳細に説明するが、本明細書で使用される技術用語は、単に特定の実施形態を説明するために使用されたものであって、本明細書に開示される技術の思想を限定しようとする意図ではないことに留意するべきである。
前述したように、拡張現実デバイスのユーザーは、拡張現実デバイス上の相互作用要素の機能に関する情報を取得しようとする。したがって、本明細書に記載の実施形態は、シースルーディスプレイ装置を介してこのような情報を提供することに関連する。例えば、以下に具体的に説明されるように、シースルーディスプレイ装置は、拡張現実デバイスの双方向要素の機能についての情報を拡張現実デバイスのユーザーの視野上にディスプレイされる拡張現実イメージとして提供するように構成される。
図1は、拡張現実デバイスを含むシステムを示す概念図である。図1を参照して本発明の一実施形態を説明すると、入力部100を介してオーディオ信号を入力し、制御部200で入力されたオーディオ信号に対応するイベント情報を識別し、識別されたイベント情報に対応する仮想オブジェクトの映像情報がシースルーディスプレイ部300を介して出力するように制御できる。具体的に、オーディオ信号が入力され、当該オーディオ信号は、人工神経網によって検出、識別、および映像情報とマッチングされ、ディスプレイ部300を介してユーザーに視覚的に伝達し得る。ここで、ディスプレイ部300は、後述のようにスマートガラスの形態で提供され得る。スマートガラスは、従来技術に基づくものであって、ガラス形態を支持するフレーム部と、ユーザーにスマートガラスを固定させる固定部と、フレーム上に取り付けられてユーザーが貫通して可視領域を眺めるとともに拡張現実映像情報を確認できるレンズ部と、を含み得る。これは、カメラおよび様々なセンサをさらに含み得、オーディオ信号を検出できるマイクをさらに含み得る。一実施形態によると、拡張現実デバイスは、ユーザーが直観的な方法でオーディオ信号を映像情報に相互作用できるようにする拡張現実ディスプレイとして構成され得る。ここで、拡張現実ディスプレイは、前述したディスプレイ部300と、AR眼鏡またはヘッドマウントディスプレイのうちの1つであり得る。ここで、レンズ部は、ユーザーがディスプレイ部300を着用する場合、実際の場面を明確に観察できるようにするために、ガラスまたはプラスチックなどの透明または透視型材料で形成し得る。また、レンズ部を介してデジタルAR映像情報などのコンテンツを投影するように構成され得る。したがって、ユーザはディスプレイ部300を着用したまま現実世界の場面と投影されたデジタル映像情報を同時に観察できる。
図2は、拡張現実デバイスの斜視図であり、拡張現実デバイスを含む物理的空間の例示的な実施形態を示す。ユーザーは、拡張現実デバイスにおいてシースルーディスプレイ部300を介して可視領域VAを見られ、このような実施形態は、図2によって確認できる。図示されるシースルーディスプレイ部300は、ユーザーの両手が自由にゴーグル、眼鏡などの形式で備えられ得る。シースルーディスプレイ部300は、ユーザーに物理的空間の外観の視覚的な情報拡張ができるように構成されるAR出力部310と、オーディオ信号の方向、位置などを案内する情報表示部320と、を含む。AR出力部310を介して物理的空間から出た光がシースルーディスプレイ部300を通過するようにし、ユーザーが実際の物理的空間を直接見ながら同時に実際の物理的空間にオーバーレイされた1つ以上の仮想オブジェクトを見られるようにする。一実施形態によると、ユーザーの視線がAR出力部310を介して可視領域VAをまっすぐ向かうとき、シースルーディスプレイ部300は、拡張現実デバイスの1つ以上の機能についての情報の形式で1つ以上の仮想オブジェクトをディスプレイする。ここでディスプレイされた情報は、適切な方法で取得される。例えば、ディスプレイされた情報は、コンピューティング装置からネットワークを介してリモートコンピューティング装置から、または拡張現実デバイスなどから受信され得る。
本発明に係るシースルーディスプレイ部300は、図2のようなゴーグル形で具現できるが、その具現方式を限定するものではなく、他の任意の適切な形式でも具現できる。図2を参照して一実施形態を簡単に説明すると、シースルーディスプレイ部300を介してユーザーは、可視領域VAをリアルタイムで視覚的に確認でき、可視領域VA内でオーディオ信号が発生される場合、オーディオ信号が発生した地点の位置を検出して情報表示部320のうち、当該位置の方向に位置情報を表示することができ、オーディオ信号が発生した位置に仮想オブジェクトの映像情報10がオーバーラップされるように投影させることができる。具体的には、オーディオ信号の情報、すなわちオーディオ信号の種類および音を視覚的に投影して聴覚的に確認できないユーザーも、視覚的にオーディオ信号を確認できるようにする。
以下、図3を参照して本発明の拡張現実デバイスを具体的に説明する。図3は、拡張現実デバイスの構成要素を示すブロック図である。
図3の一実施形態によると、本発明の拡張現実デバイスは、ユーザーの目が貫通して見られるように形成され、仮想オブジェクトの映像情報10を出力するシースルー(See-through)ディスプレイ部300と、ディスプレイ部300から予め設定された距離以内で発生したオーディオ信号を入力するオーディオ入力部100と、オーディオ信号に対応するイベント情報を識別し、識別されたイベント情報に対応する仮想オブジェクトの映像情報10が出力されるように、シースルーディスプレイ部300の動作を制御する制御部200と、を含み得る。
具体的に、入力部100は、オーディオ信号、映像信号の入力を受けて制御部200に送信する構成であって、マイク110、カメラ120、および送信部130を含み得る。マイク110は、ディスプレイ部300から予め設定された所定の距離以内で発生したオーディオ信号の入力を受ける構成であって、ユーザーがディスプレイ部300を着用した状態で所定の距離以内にオーディオ信号が発生される場合、マイク110を介して当該オーディオ信号が入力され、送信部130を介して制御部200に送信され得る。このとき、入力部100は、シースルーディスプレイ部300の一部分に設けられ、一方向を撮影するカメラ120をさらに含み、カメラ120によってユーザーが着用したディスプレイ部300の正面方向の画面が撮影されることができる。具体的に、ディスプレイ部300を通過して見えるユーザーの可視領域VAがカメラ120によって撮影され、映像信号が送信部130によって制御部200に一緒に送信され得る。
制御部200は、入力部100から入力されて送信されたオーディオ信号および映像信号に基づいて情報を検出し、提供されたイベント情報を識別してマッチングさせる検出部210と、識別部220およびマッチング部230を含む。検出部210は、入力部100から送信されたオーディオ信号の種類および当該オーディオ信号が発生した地点の位置を検出して映像情報10に関連する情報を含むように、シースルーディスプレイ部300の動作を制御できる。具体的に、入力部100からオーディオ信号および映像信号が制御部200に送信され得るが、ここで、検出部210は、オーディオ信号の種類または状況などを検出し、映像信号からオーディオ信号に対応する映像信号を検出できる。一実施形態によると、図2に示すように、入力部100のマイク110を介して赤ちゃんの泣き声(Baby Cry)がオーディオ信号に入力され、カメラ120を介して泣いている赤ちゃんが映像信号に入力されて制御部200に送信された場合、検出部210は、送信されたオーディオ信号の発生した地点までの距離、オーディオ信号の大きさなどを複数のオーディオセンサにより検出し、当該オーディオ信号が発生した地点の位置を検出できる。すなわち、赤ちゃんの泣き声がオーディオ信号に入力されると、当該泣き音が発生した方向および位置を把握して検出部210を介して検出できる。これと同時に、入力された映像信号に基づいて泣き音が発生した方向および位置の映像信号を検出してより具体的に分析できる。検出部210を介して検出されたオーディオ信号の方向、位置および映像信号は、識別部220を介して具体的に識別できる。具体的に、識別部220は、予め搭載された人工神経網によってオーディオ信号の種類または状況を識別し、映像信号から当該オーディオ信号の種類または状況に該当する映像情報10を識別して抽出できる。具体的に、図2によると、オーディオ信号の波長、波形、周波数などを分析し、人工神経網によって当該オーディオ信号が赤ちゃんの泣き声であると識別できる。また、オーディオ信号を識別するとともに、識別されたオーディオ情報に対応する映像信号を識別できる。すなわち、オーディオ信号が赤ちゃんの泣き声であると識別されると、入力された映像信号から赤ちゃんを見つけて識別できる。その後、オーディオ信号および映像信号がそれぞれ識別されると、2つの情報をマッチングさせ、シースルーディスプレイ部300の画面のうち、前記オーディオ信号が発生した位置の映像信号に仮想オブジェクトの映像情報10がオーバーラップされるように、シースルーディスプレイ部の動作を制御できる。すなわち、オーディオ信号として赤ちゃんの泣き声が入力され、映像信号にも赤ちゃんが見つかった場合、赤ちゃんと赤ちゃんの泣き声をマッチングして赤ちゃんの周辺に赤ちゃんの泣き声情報が拡張現実を介してオーバーラップされるように制御できる。ここで、オーバーラップされる映像情報10は、識別されたオーディオ信号に関連するテキスト、イメージおよび位置情報のうち、少なくとも1つを含み得る。テキストは、文字で表記されることができ、人、事物、動物などのオーディオ信号が発生した主体をイメージとして表示することができる。また、オーディオ信号が発生した地点の位置情報をテキスト、イメージまたは方向、地点表示などで提供し得る。制御部200で識別してマッチングされたオーディオ信号についての映像情報10は、ディスプレイ部300を介して出力されることができる。具体的に、ディスプレイ部300は、AR出力部310および情報表示部320を含む。AR出力部310は、ディスプレイ部300を着用したユーザーの可視領域に拡張現実を介して映像情報10をオーバーラップ出力する構成であり、情報表示部320は、ディスプレイ部300の周り方向に沿ってオーディオ信号が発生した地点の位置または方向情報を表示するように備えられ得る。
以下、図4を参照して本発明に係る拡張現実デバイスの制御方法を詳細に説明する。図4は、本発明に係る拡張現実デバイスの制御方法を示すフローチャートである。
図4を参照して説明すると、ユーザーは、シースルーディスプレイ部300を着用した後、AR出力部310を貫通して可視領域VAを確認できる。このとき、ディスプレイ部300から予め設定された所定の距離以内でオーディオ信号が発生した場合、入力部100を介して当該オーディオ信号の入力を受けることができる。オーディオ信号が入力されると、当該オーディオ信号に対応するイベント情報を識別し、識別されたイベント情報に対応する仮想オブジェクトの映像情報10がAR出力部310および情報表示部320を介して可視領域VAに出力されることができる。ただし、イベント情報を識別した後、オーディオ信号発生位置が可視領域であるかどうかを先に判断した後に、可視領域内であれば映像情報10を投影することができ、可視領域外である場合には、位置情報を出力してユーザーが当該オーディオ信号発生位置を可視領域内に移動させるようにすることができる。具体的には、制御部200によってユーザーが着用したシースルーディスプレイ部300の一部分が指向する方向を基準に、オーディオ信号が入力された方向が検出され、映像情報10が検出された方向に関連する情報を含むようにシースルーディスプレイ部300の動作を制御できる。ここで、映像情報10は、検出された方向に関連する情報は、情報表示部320を介したオーディオ信号検出方向および位置を表示することもあり、オーディオ信号検出地点に映像情報10を拡張現実にオーバーラップすることもある。具体的に、制御部200は、オーディオ信号が発生した地点の位置がシースルーディスプレイ部300を介してユーザーに見える可視領域外である場合、位置に関連する映像情報10が出力されるように、シースルーディスプレイ部300の動作を制御できる。また、オーディオ信号が発生した地点の位置が可視領域内である場合、シースルーディスプレイ部の画面のうち、オーディオ信号が発生した位置が投影される一部分に仮想オブジェクトの映像情報10がオーバーラップされるように、シースルーディスプレイ部300の動作を制御できる。
以下、図5~図8を参照して実施形態をより詳細に説明する。図5~図8は、本発明に係る拡張現実デバイスの実施形態を示す図である。
まず、図5を参照すると、オーディオ信号がシースルーディスプレイ部300を介してユーザーに見える可視領域VA外で発生した場合、すなわち、図5においてAR出力部310を介してユーザーに見えない左側面のドアからノック音が発生した場合、当該オーディオ信号が発生した地点の位置に関連する映像情報10がAR出力部310を介して出力されることができる。具体的に、図5を参照すると、ノック音がユーザーの可視領域VA内で発生しない場合、オーディオ信号が発生した位置にユーザーの可視領域VAを切り替えることができるように、オーディオ信号の発生された地点の位置または方向を表示することができる。すなわち、左側面のドアから音が発生した場合、音の種類であるノックKnockを表示し、方向表示および矢印などを活用して位置に関連する映像情報10を出力することができる。より具体的に、オーディオ信号が発生した対象を一緒に表記して出力することもできる。これと同時に、ディスプレイ部300の外郭に沿って複数個備えられた情報表示部320に当該方向に情報を表示することによって、ユーザーに直ちに当該方向からオーディオ信号が発生したことを知らせることができる。このとき、情報表示部320は、LED通知、または振動通知などを通じてユーザーに方向情報を案内することができる。
図6は、図5の可視領域VAでユーザーが方向または位置に関連する映像情報10を確認した後に、左に首を回して可視領域VA内にオーディオ信号が発生した地点の位置が入ってくるように切り替えた画面である。図6のように、図5の画面において可視領域VA内にオーディオ信号が発生した位置が含まれない場合、位置および方向の案内を受け、ユーザーは、オーディオ信号が発生した位置に向かって可視領域VAを切り替えることができる。したがって、図6のように、オーディオ信号が発生した地点の位置が可視領域内に属する場合、シースルーディスプレイ部300の画面のうち、オーディオ信号の発生位置が投影されるAR出力部310の一部分に仮想オブジェクトの映像情報10がオーバーラップされるように、シースルーディスプレイ部300の動作が制御できる。すなわち、ドアからノック音が発生してドア方向にユーザーが可視領域VAを切り替え、ドアが可視領域VA内に属するようになった場合、オーディオ信号が発生したドアにノック音が発生したことを案内するように、オーディオ信号の種類および音をイメージまたは文字などでオーバーラップして表記することができる。このとき、オーバーラップされる映像情報10は、オーディオ信号の種類および対象などによって異なって表示されることができる。具体的に、事物、人、動物などの対象に応じてアイコンを表示したり、吹き出しの形、色などの違いにより、ユーザーが直観的に音の対象を確認できるようにする。具体的に、図6~図8を比較して説明する。
図6は、ドアからノック音が発生したオーディオ信号であって、図6のようにオーディオ信号が発生される事物に指示線が表示された丸い四角形のボックス内に音の種類および音が文字で表記されることができる。また、図7は、人が会話をしているオーディオ信号に関するものであって、会話をしている人が可視領域VA内に入ってきた場合、オーディオ信号についての映像情報10がオーバーラップされて表示され得るが、このとき、人の会話は、吹き出しを通じて当該人にマッチングするようにオーバーラップされることができる。したがって、ユーザーが聞くことなく人とコミュニケーションができる。図8は、動物の音がオーディオ信号に入力された場合の実施形態であって、愛犬が吠える音がオーディオ信号に入力された場合、当該愛犬の周囲に曲線の指示線がマッチングされて映像情報10として提供され得、このとき、映像情報10に愛犬を示すアイコンが表示されることによって、直観的に愛犬が発生させたオーディオ信号であることを確認できる。
このように前述の実施形態によると、本発明においては、オーディオ信号の入力を受けた後に、ディスプレイ部300の映像信号とマッチングして該当種類のオーディオ信号と映像情報10がマッチングされることによって、ユーザーにオーディオ信号を視覚的な情報として提供し得る。このとき、オーディオ信号の識別、映像信号のうち、当該オーディオ信号の種類に該当する映像信号を抽出、およびオーディオ信号と映像信号をマッチングして映像情報10に表出する過程は、制御部200に予め搭載されている人工神経網によって行われ得、人工神経網は、ユーザーの反復的な本発明の拡張現実デバイスの使用によって学習され、より正確かつ拡張された情報を提供し得る。
本明細書においては、シースルーディスプレイ部300をスマートガラス形の実施形態として説明したが、これは実施形態の1つに過ぎず、携帯電話、ノートパソコン、ウェアラブルデバイスなどの映像処理装置およびオーディオ分析装置などを介して行われ得る。
前述した本発明は、一実施形態に関するものであって、これは単に実施形態に過ぎず、本技術分野における通常の知識を有する者は、これから様々な変形および均等な他の実施形態も可能であろう。したがって、本発明の権利の範囲は、前述の実施形態および添付の図面によって限定されるものではない。
産業上利用可能性
本発明に係ると、ユーザーが見られない領域で発生される音を視覚情報に変換して出力することによって、ユーザーが周辺で発生される音を正確に認知できる長所がある。
また、本発明に係ると、聴覚能力が喪失されたユーザーも、周辺で発生される様々な音に関連した情報を目で見るような効果が発生し得る。
また、本発明に係ると、周辺で発生されるオーディオ信号と拡張現実によって発生される仮想オブジェクトを組み合わせることによって、ユーザーの感覚領域を極大化できる効果が導き出されることができる。

Claims (7)

  1. ユーザーの目が貫通して見られるように形成され、仮想オブジェクトの映像情報を出力するシースルーディスプレイ部と、
    前記ディスプレイ部から予め設定された距離以内で発生したオーディオ信号の入力を受けるオーディオ入力部と、
    前記オーディオ信号に対応するイベント情報を識別し、識別されたイベント情報に対応する仮想オブジェクトの映像情報が出力されるように、前記シースルーディスプレイ部の動作を制御する制御部と、を含むことを特徴とする拡張現実デバイス。
  2. 前記映像情報は、
    前記オーディオ信号に関連するテキスト、イメージ、および位置情報のうち、少なくとも1つを含むことを特徴とする請求項1に記載の拡張現実デバイス。
  3. 前記制御部は、
    前記オーディオ信号が発生した地点の位置を検出し、前記映像情報が検出された位置に関連する情報を含むように、前記シースルーディスプレイ部の動作を制御することを特徴とする請求項1に記載の拡張現実デバイス。
  4. 前記制御部は、
    前記シースルーディスプレイ部の一部分が指向する方向に基づいて、前記オーディオ信号が入力された方向を検出し、前記映像情報が検出された方向に関連する情報を含むように、前記シースルーディスプレイ部の動作を制御することを特徴とする請求項3に記載の拡張現実デバイス。
  5. 前記制御部は、
    前記オーディオ信号が発生した地点の位置が前記シースルーディスプレイ部を介してユーザーに見える可視領域外である場合、前記位置に関連する映像情報が出力されるように、前記シースルーディスプレイ部の動作を制御することを特徴とする請求項1に記載の拡張現実デバイス。
  6. 前記制御部は、
    前記オーディオ信号が発生した地点の位置が前記可視領域内である場合、前記シースルーディスプレイ部の画面のうち、前記位置が投影される一部分に前記仮想オブジェクトの映像情報がオーバーラップされるように、前記シースルーディスプレイ部の動作を制御することを特徴とする請求項5に記載の拡張現実デバイス。
  7. 前記入力部は、
    前記シースルーディスプレイ部の一部分に設けられ、一方向を撮影するカメラを含み、前記制御部は、前記カメラによって撮影された映像情報に含まれる少なくとも1つのオブジェクトを識別し、識別された少なくとも1つのオブジェクトと前記 オーディオ信号のイベント情報をマッチングさせることを特徴とする請求項1に記載の拡張現実デバイス。
JP2022554571A 2020-03-20 2021-02-26 オーディオ認識を行う拡張現実デバイスおよびその制御方法 Pending JP2023531849A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020200034136A KR102334091B1 (ko) 2020-03-20 2020-03-20 오디오 인식을 수행하는 증강현실 디바이스 및 그의 제어방법
KR10-2020-0034136 2020-03-20
PCT/KR2021/002497 WO2021187771A1 (ko) 2020-03-20 2021-02-26 오디오 인식을 수행하는 증강현실 디바이스 및 그의 제어방법

Publications (1)

Publication Number Publication Date
JP2023531849A true JP2023531849A (ja) 2023-07-26

Family

ID=77771708

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022554571A Pending JP2023531849A (ja) 2020-03-20 2021-02-26 オーディオ認識を行う拡張現実デバイスおよびその制御方法

Country Status (6)

Country Link
US (1) US20230145966A1 (ja)
EP (1) EP4124073A4 (ja)
JP (1) JP2023531849A (ja)
KR (1) KR102334091B1 (ja)
CN (1) CN115336291A (ja)
WO (1) WO2021187771A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7476128B2 (ja) 2021-03-11 2024-04-30 株式会社日立製作所 表示システムおよび表示装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6829018B2 (en) * 2001-09-17 2004-12-07 Koninklijke Philips Electronics N.V. Three-dimensional sound creation assisted by visual information
US8183997B1 (en) * 2011-11-14 2012-05-22 Google Inc. Displaying sound indications on a wearable computing system
KR20130097855A (ko) * 2012-02-27 2013-09-04 한국전자통신연구원 증강 오디오 서비스 시스템 및 방법
US9129430B2 (en) * 2013-06-25 2015-09-08 Microsoft Technology Licensing, Llc Indicating out-of-view augmented reality images
US20170277257A1 (en) * 2016-03-23 2017-09-28 Jeffrey Ota Gaze-based sound selection
US9906885B2 (en) * 2016-07-15 2018-02-27 Qualcomm Incorporated Methods and systems for inserting virtual sounds into an environment
CN117198277A (zh) * 2016-08-12 2023-12-08 奇跃公司 单词流注释
US10531220B2 (en) * 2016-12-05 2020-01-07 Magic Leap, Inc. Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems

Also Published As

Publication number Publication date
KR102334091B1 (ko) 2021-12-02
EP4124073A1 (en) 2023-01-25
EP4124073A4 (en) 2024-04-10
KR20210117654A (ko) 2021-09-29
WO2021187771A1 (ko) 2021-09-23
CN115336291A (zh) 2022-11-11
US20230145966A1 (en) 2023-05-11

Similar Documents

Publication Publication Date Title
CN110647237B (zh) 在人工现实环境中基于手势的内容共享
US10395116B2 (en) Dynamically created and updated indoor positioning map
CN110018736B (zh) 人工现实中的经由近眼显示器界面的对象增强
CN111630477A (zh) 提供增强现实服务的设备及其操作方法
KR20150135847A (ko) 글래스 타입 단말기 및 이의 제어방법
US20200202161A1 (en) Information processing apparatus, information processing method, and program
KR20160001178A (ko) 글래스 타입 단말기 및 이의 제어방법
US11869156B2 (en) Augmented reality eyewear with speech bubbles and translation
US11887261B2 (en) Simulation object identity recognition method, related apparatus, and system
KR102110208B1 (ko) 안경형 단말기 및 이의 제어방법
CN104281266A (zh) 头戴式显示设备
US20210217247A1 (en) Body pose message system
WO2020012955A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US20230362573A1 (en) Audio enhanced augmented reality
JP2016033611A (ja) 情報提供システム、表示装置、および、表示装置の制御方法
WO2020129029A2 (en) A system for generating an extended reality environment
US11605396B2 (en) Image processing system and method
CN111415421B (zh) 虚拟物体控制方法、装置、存储介质及增强现实设备
JP2023531849A (ja) オーディオ認識を行う拡張現実デバイスおよびその制御方法
KR20190018906A (ko) 증강현실이나 가상현실에 기초하여 가상의 인체 장기를 렌더링하는 이동 단말기 및 이를 이용하는 시스템
KR20160001229A (ko) 이동단말기 및 그 제어방법
KR20210150881A (ko) 전자 장치 및 그 동작 방법
US20230168522A1 (en) Eyewear with direction of sound arrival detection
KR20160027813A (ko) 글래스형 단말기
KR20170111010A (ko) 가상 이미지를 이용한 영상 통화 시스템 및 방법과 이를 수행하기 위한 영상 통화 중계 서버

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230912

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20231120

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240514