JP2024504379A - マイクロホンビームステアリングを用いる頭部装着型コンピューティングデバイス - Google Patents

マイクロホンビームステアリングを用いる頭部装着型コンピューティングデバイス Download PDF

Info

Publication number
JP2024504379A
JP2024504379A JP2023544348A JP2023544348A JP2024504379A JP 2024504379 A JP2024504379 A JP 2024504379A JP 2023544348 A JP2023544348 A JP 2023544348A JP 2023544348 A JP2023544348 A JP 2023544348A JP 2024504379 A JP2024504379 A JP 2024504379A
Authority
JP
Japan
Prior art keywords
head
computing device
mounted computing
microphone array
beamformed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023544348A
Other languages
English (en)
Inventor
ゴールドバーグ,スティーブン・ベンジャミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2024504379A publication Critical patent/JP2024504379A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/105Earpiece supports, e.g. ear hooks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/407Circuits for combining signals of a plurality of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurosurgery (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)

Abstract

開示されるデバイスおよび方法は、ユーザの頭部位置/配向の変化に適応できる頭部装着型マイクロホンアレイのためのビームフォーミングを提供する。マイクロホンアレイは、頭部装着型コンピューティングデバイスの一部であってもよく、それは、参加者との会話のコンピュータ支援認識に基づいて、ビームフォーミングのための方向を自動的に検出するように構成され得る。参加者が識別された後で、ビームフォーミングは、ユーザの動きを抑制することなく、取り込まれた音声の品質を向上させるために、ユーザの頭の位置にかかわらず、マイクロホンアレイの感度を自動的に参加者へステアリングすることができる。向上した音声は、ユーザが会話を聞くことを支援し、会話に対応する拡張現実アプリケーションを支援し、および/または、感度を会話の参加者に制限することによってある程度のプライバシーを提供するために使用され得る。

Description

開示の分野
本開示は音響ビームステアリングに関し、具体的には、頭部装着型コンピューティングデバイスのマイクロホンアレイのビームをステアリングすることに関する。
背景
頭部装着型コンピューティングデバイスは、環境から、およびユーザから情報を取り込むように構成され得る。取り込まれた情報は、仮想局面が生成され表示されるように、環境における物体およびユーザの相対的な配向および位置を判定するために処理され得る。その結果、ユーザは、ユーザが環境と対話するにつれて、または環境内で動くにつれて変化する現実局面および仮想局面の双方を環境が含むことに気づくことができる。したがって、頭部装着型コンピューティングデバイスは、感覚情報(たとえば聴覚、視覚)を取り込んで表示するための、ならびに、配向および位置(たとえば頭部姿勢)を判定するための、無数のサブシステムを含み得る。したがって、頭部装着型コンピューティングデバイスが会話についてユーザを支援する機会が存在し得る。しかしながら、この支援は、他人のプライバシーを侵害する機会を提供し得る。
概要
少なくとも1つの局面において、本開示は一般に、頭部装着型コンピューティングデバイスを記載する。頭部装着型コンピューティングデバイスは、複数のマイクロホンを含むマイクロホンアレイを含む。マイクロホンアレイは、複数のマイクロホンによって受信された音に基づいて、マイクロホンアレイのビームフォーミングされた感度に従って、ビームフォーミングされた音声信号を生成するように構成される。頭部装着型コンピューティングデバイスはさらに、音を送信するように構成された複数のラウドスピーカを含む。頭部装着型コンピューティングデバイスはさらに、固定された基準系に対する頭部装着型コンピューティングデバイスの配向を測定するように構成された複数のセンサを含む。頭部装着型コンピューティングデバイスはさらに、複数のマイクロホン、複数のラウドスピーカ、および複数のセンサに結合されたプロセッサを含む。頭部装着型コンピューティングデバイスのプロセッサは、方法を行なうよう指示するソフトウェア命令によって構成される。方法は、頭部装着型コンピューティングデバイスの配向に基づいて、マイクロホンアレイの基準系の配向を識別するステップを含む。方法はさらに、基準系の配向に対するターゲット方向を計算するステップを含む。方法はさらに、マイクロホンアレイのビームフォーミングされた感度をターゲット方向に向けるステップを含む。方法はさらに、頭部装着型コンピューティングデバイスの配向の変化を検出すると、頭部装着型コンピューティングデバイスの配向の検出された変化に基づいて、マイクロホンアレイの基準系に対する更新されたターゲット方向を取得するために、基準系の配向の変化を検出するステップを含む。方法はさらに、マイクロホンアレイのビームフォーミングされた感度を更新されたターゲット方向に向け直すステップを含む。
頭部装着型コンピューティングデバイスの可能な実現化例によれば、頭部装着型コンピューティングデバイスは、以下の特徴のうちの1つ以上(たとえばすべて)(またはそれらの任意の組合せ)を含み得る。
頭部装着型コンピューティングデバイスの可能な一実現化例では、マイクロホンアレイのビームフォーミングされた感度を更新されたターゲット方向に向け直すことは、ターゲット方向以外の方向においてマイクロホンアレイの感度を減少させることを含む。
頭部装着型コンピューティングデバイスの可能な一実現化例では、プロセッサはさらに、マイクロホンアレイのビームフォーミングされた感度を向けて向け直すために、マイクロホンアレイからの音声のチャンネルを互いに対して遅らせるように構成される。
頭部装着型コンピューティングデバイスの別の可能な実現化例では、複数のマイクロホンは無指向性マイクロホンを含み、無指向性マイクロホンは、無指向性マイクロホンの等方性感度に従って受信された音に基づいて、フォーカスされていない音声を生成するように構成される。この可能な実現化例では、プロセッサはさらに、無指向性マイクロホンによって受信された音に基づいて話者を検出し、マイクロホンアレイのビームフォーミングされた感度を話者の方へ向け直すように構成され得る。
頭部装着型コンピューティングデバイスの別の可能な実現化例では、複数のセンサは、頭部装着型コンピューティングデバイスを装着しているユーザの視点から映像を取り込むように構成されたカメラを含み、プロセッサはさらに、ユーザと参加者との会話を識別し、ターゲット方向を参加者に向かうものとして計算するように構成される。
頭部装着型コンピューティングデバイスの別の可能な実現化例では、複数のセンサは、頭部装着型コンピューティングデバイスの配向を測定するように構成された慣性測定ユニット(inertial measurement unit:IMU)を含む。慣性測定ユニットは、マイクロホンアレイの配向の変化を追跡するように構成され得る。プロセッサは、追跡された変化に基づいて、基準系の配向の変化を検出し、更新されたターゲット方向を取得するように構成され得る。
別の可能な実現化例では、頭部装着型コンピューティングデバイスは、マイクロホンアレイのビームフォーミングされた感度に基づいて、ビームフォーミングされた音声を生成し、ビームフォーミングされた音声を、頭部装着型コンピューティングデバイス上で実行されている拡張現実アプリケーションに送信するように構成される。
頭部装着型コンピューティングデバイスの別の可能な実現化例では、プロセッサは、マイクロホンアレイのビームフォーミングされた感度に基づいて、ビームフォーミングされた音声を生成し、ビームフォーミングされた音声を複数のラウドスピーカに送信するように構成される。この可能な実現化例では、複数のラウドスピーカは、ユーザの片耳または両耳に装着されるように構成された1つ以上のヒアリング機器を含む。たとえば、ユーザの片耳または両耳に装着されるように構成された1つ以上のヒアリング機器は、プロセッサと無線で通信するように構成され得る。
別の局面において、本開示は一般に、会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法を記載する。方法は、ユーザと参加者との会話を、ユーザが装着した頭部装着型コンピューティングデバイスのカメラによって取り込まれた画像または映像に基づいて検出するステップを含む。方法はさらに、ユーザが装着した頭部装着型コンピューティングデバイスのセンサによって取り込まれた測定値に基づいて、ユーザの頭部姿勢を判定するステップを含む。方法はさらに、参加者および頭部姿勢の相対位置に基づいて、会話レイアウトを計算するステップを含む。方法はさらに、頭部装着型コンピューティングデバイスのマイクロホンアレイから音声のチャンネルを受信するステップと、会話レイアウトに基づいてビームフォーミングされた音声を生成するように音声のチャンネルを処理するステップとを含む。それに代えて、またはそれに加えて、会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法は、頭部装着型コンピューティングデバイスの配向に基づいて、マイクロホンアレイの基準系の配向を識別するステップと、基準系の配向に対するターゲット方向を計算するステップと、マイクロホンアレイのビームフォーミングされた感度をターゲット方向に向けるステップと、頭部装着型コンピューティングデバイスの配向の変化を検出すると、更新されたターゲット方向を取得するために、基準系を更新するステップと、マイクロホンアレイのビームフォーミングされた感度を更新されたターゲット方向に向け直すステップとを備え得る。
方法の可能な実現化例によれば、方法は、以下の特徴のうちの1つ以上(たとえばすべて)(またはそれらの任意の組合せ)を含み得る。
方法の可能な一実現化例では、ビームフォーミングされた音声は、参加者に向けられたビームフォーミングされた感度に従って受信された音に対応する。この実現化例では、方法はさらに、慣性測定ユニットを使用して頭部装着型コンピューティングデバイスの配向の変化を検出すると、更新された会話レイアウトを取得するステップと、ビームフォーミングされた感度を、更新された会話レイアウトにおける参加者に向け直すように、音声のチャンネルを処理するステップとを含み得る。
方法の別の可能な実現化例では、方法はさらに、ビームフォーミングされた音声をユーザに提示するステップを含む。
方法の別の可能な実現化例では、方法はさらに、居合わせた人(bystander)に向かう方向においてビームフォーミングされた音声の感度を減少させるステップを含む。
方法の別の可能な実現化例では、方法はさらに、頭部装着型コンピューティングデバイスのディスプレイ上に拡張現実ビジュアルを提示するステップを含み、拡張現実ビジュアルは、ビームフォーミングされた音声に対応する。たとえば、拡張現実ビジュアルは、会話の字幕であり得る。
別の局面において、本開示は一般に、非一時的コンピュータ読取可能媒体上で有形に具現化され、実行されると頭部装着型コンピューティングデバイスの少なくとも1つのプロセッサに方法を行なわせるように構成された命令を備える、コンピュータプログラム製品を記載する。方法は、頭部装着型コンピューティングデバイスの配向に基づいて、マイクロホンアレイの基準系を識別するステップを含む。方法はさらに、基準系に対するターゲット方向を計算するステップを含む。方法はさらに、マイクロホンアレイのビームフォーミングされた感度を、ターゲット方向に向かう方向に向けるステップを含む。方法はさらに、頭部装着型コンピューティングデバイスの配向の変化を検出すると、更新されたターゲット方向を取得するために、基準系を更新するステップを含む。方法はさらに、居合わせた人のプライバシーを提供するために、マイクロホンアレイのビームフォーミングされた感度を更新されたターゲット方向の方へ向け直すステップを含む。
この開示の前述の例証的な概要、他の例示的な目的および/または利点、ならびに、それらが達成される態様が、以下の詳細な説明およびその添付図面においてさらに説明される。
音響環境における無指向性マイクロホンの感度の例示的な極図表である。 図1Aの音響環境における音源へステアリングされるビームを有するマイクロホンアレイの感度の例示的な極図表である。 本開示の可能な一実現化例に従った、ビームフォーミングされた音声を生成するように構成された頭部装着型コンピューティングデバイスの斜視図である。 ユーザの頭が第1の位置にある場合に第1の方向にステアリングされるビームを有する頭部装着型マイクロホンアレイの感度の可能な極図表である。 ユーザの頭が第2の位置にある場合に第2の方向にステアリングされるビームを有する頭部装着型マイクロホンアレイの感度の可能な極図表である。 新たな話者が周囲マイクロホンによって検出された場合に第3の方向にステアリングされるビームを有する頭部装着型マイクロホンアレイの感度の可能な極図表である。 図2の頭部装着型コンピューティングデバイスのマイクロホンアレイをターゲット上にフォーカスするための可能な方法のフローチャートである。 本開示の可能な一実現化例に従った、会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法のフローチャートである。 本開示の可能な一実現化例に従った、会話レイアウトに基づいてビームフォーミングされた音声を生成するために構成された頭部装着型コンピューティングデバイスのブロック図である。
図面における構成要素は、互いに対して必ずしも縮尺通りではない。いくつかの図面全体を通し、同じ参照番号は、対応する部分を指す。
詳細な説明
ビームフォーミングとは、ある特定の方向(複数可)におけるマイクロホンアレイの受信感度を、他の方向と比較して高めるための手法である。ビームフォーミングは、音源からの音声の品質を向上させるために、頭部装着型マイクロホンアレイの感度を音源に向かってステアリングするために使用され得る。しかしながら、頭部装着型マイクロホンアレイを装着しているユーザの頭部位置/配向(すなわち頭部姿勢)が変更されると、ステアリングされた感度の不整合という問題が生じるおそれがある。したがって、開示されるデバイスおよび方法は、ユーザの頭部位置/配向の変化に適応できる(すなわち、寛容である)頭部装着型マイクロホンアレイのための適応ビームフォーミング手法を提供する。開示される解決策は、ユーザにより多くの動く自由を提供しつつ、頭部装着型マイクロホンアレイによって取り込まれた音声の品質を向上させる技術的効果を有し得る。適応ビームフォーミングはまた、プライバシーの層を提供する技術的効果も有し得る。たとえば、ビームフォーミングは、ユーザと会話中の特定の人に対するマイクロホンアレイのフォーカスを維持し、居合わせた人から受信された音声の増幅を防止することができる。適応ビームフォーミングに関連する問題は、その処理要件である。開示されるデバイスおよび方法は、適応ビームフォーミングの処理要件を減少させるための手段を提供する。
図1Aは、音響環境における無指向性マイクロホン100の感度の例示的な極図表である。無指向性マイクロホン100は、角度とともに変化しない(すなわち、等方性である)感度パターン(すなわち、感度101)を有する。したがって、無指向性マイクロホン100は、発話源103(たとえば人)からの発話音声104を発話方向105に沿って、無指向性マイクロホン100が雑音源108(たとえば機械類)からの雑音音声109を雑音方向110に沿って受信する感度101と略一致する感度101で受信するであろう。いくつかの用途(たとえば、ヘッドホン、イヤホン、または補聴器などのヒアリング機器)では、マイクロホンのユーザには発話音声104が雑音音声109よりも優先的に増幅され得るように、雑音方向110におけるマイクロホンの感度を減少させること、および/または、発話方向105におけるマイクロホンの感度を高めることが望ましいかもしれない。
ビームフォーミング(すなわち、ビームステアリング)とは、異なる方向からの音声が増大または減少され得るビームフォーミングされた音声信号を生成するために、音声の複数のチャンネルが処理(たとえば、フィルタリング、遅延、位相シフト)され得る信号処理である。たとえば、第1のマイクロホンと第2のマイクロホンとは、アレイ方向に沿ってある距離だけ空間的に分離され得る。この空間的分離距離と(アレイ方向に対する)音の方向とは、第1のマイクロホンでの第1の音声ストリームと第2のマイクロホンでの第2の音声ストリームとの間に両耳間遅延を招くおそれがある。ビームフォーミングは、音声ストリームのうちの1つをビームフォーミング遅延によってさらに遅らせることを含み得る。そのため、ビームフォーミング後、第1の音声ストリームおよび第2の音声ストリームは、両耳間遅延およびビームフォーミング遅延によって位相シフトされる。位相シフトされた音声ストリームは次に、ビームフォーミングされた音声を生成するために組合される(たとえば、合計される)。両耳間遅延に関してビームフォーミング遅延を調節することにより、ある特定の方向からの音声は、合計プロセスによって調節(たとえば、キャンセル、減衰、増大)され得る。たとえば、第1のマイクロホンおよび第2のマイクロホンによって受信された純正弦波は、両耳間遅延およびビームフォーミング遅延後の結合器での正弦波のバージョン同士の位相ずれが180度である場合には、ある特定の方向について完全にキャンセルされ得る。それに代えて、両耳間遅延およびビームフォーミング遅延後の結合器での正弦波のバージョン同士が同相(すなわち、位相ずれが0度)である場合には、結合器での正弦波のバージョン同士を増大することができる。
音声の複数のチャンネルは、マイクロホンのアレイ(すなわち、マイクロホンアレイ)によって取り込まれ得る(すなわち、収集され得る)。マイクロホンアレイにおける各マイクロホンは同じタイプのものであってもよく、または、アレイにおける異なるマイクロホンのタイプは異なっていてもよい。マイクロホンアレイは、1次元、2次元、または3次元に間隔を置かれた(たとえば等間隔の)複数のマイクロホンを含み得る。たとえば、マイクロホンアレイにおける各マイクロホンは無指向性であり得る。しかしながら、ビームフォーミングに起因して、マイクロホンアレイは、指向性である(すなわち、受信のためのビームを有する)ビームフォーミングされた感度を有し得る。したがって、ビームフォーミングされた感度をステアリングすることは、マイクロホンアレイの優先感度のビームをステアリングする(すなわち、位置付け直す)こととして理解され得る。
図1Bは、マイクロホンアレイ120のビームフォーミングされた感度の例示的な極図表である。特に、マイクロホンアレイ120における各マイクロホンは、音声チャンネルを生成し得る。等方性でないビームフォーミングされた感度を有するビームフォーミングされた音声チャンネルを生成するために、異なる音声チャンネルが処理され得る(たとえば、互いに対して位相シフトされ、合計され得る)。言い換えれば、マイクロホンアレイ120は、ビームフォーミング処理によって発話方向105と整列するようにステアリングされ得るビーム方向122にビーム121をフォーカスし得る。マイクロホンアレイ120におけるマイクロホンの数および間隔は、ビーム121の指向性(すなわち、フォーカス、角度範囲)に対応し得る。図1Bに示すように、マイクロホンアレイによって作成された、増加した指向性は、雑音音声109よりも高い振幅を有する発話音声104を含む、ビームフォーミングされた音声をもたらし得る。したがって、ビームフォーミングは、ユーザが(たとえば雑音の多い環境において)発話音声104を識別することを助け得る。それに加えて(またはそれに代えて)、ビームフォーミングは、他のコンピュータ支援発話アプリケーション(たとえば、音声認識、音声テキスト変換(voice-to-text:VTT)、言語翻訳など)の精度を向上させ得る。加えて、ビームフォーミングはプライバシーを強化し得る。なぜなら、発話方向以外の方向から受信された他の音声133(たとえば、居合わせた人の会話)が、発話音声104よりもはるかに少ししか増幅できないためである。
頭部装着型コンピューティングデバイスは、さまざまな技術を可能にするためのさまざまな感知および計算資源を含み得る。たとえば、頭部装着型コンピューティングデバイスは、拡張現実(augmented-reality:AR)を提供するように構成され得る。ARでは、頭部装着型コンピューティングデバイスにおけるセンサは、環境から、および頭部装着型コンピューティングデバイスを装着しているユーザから、感覚データを取り込むように構成され得る。この感覚データに基づいて、仮想要素が、ユーザの知覚体験を強化(すなわち、拡張)するために生成され得る。たとえば、仮想要素が現実環境と融合される(たとえば、重ね合わされる)場合、音(たとえばトーン、音楽、発話など)の生成、および/または、ビジュアル(たとえばグラフィック、テキスト、色など)の表示は、ユーザが知覚した環境に情報を追加することができる。
本開示は、ユーザの現実環境の自然な知覚を強化するように構成された頭部装着型コンピューティングデバイスを記載する。この強化は、ARの仮想局面を含んでいても、含んでいなくてもよい。たとえば、頭部装着型コンピューティングデバイスは、会話に関連付けられた方向においてユーザが聞くことを支援するために、または、会話に関連付けられた方向からの音を録音するために、取り込まれた音声をビームフォーミングするように構成され得る。それに加えて(またはそれに代えて)、頭部装着型コンピューティングデバイスはさらに、会話にリアルタイムで字幕をつけることなどのARアプリケーションを支援する(たとえば、その精度を向上させる)ために、取り込まれた音声をビームフォーミングするように構成され得る。
頭部装着型コンピューティングデバイスはさらに、ユーザが会話に関連付けられた方向以外の方向において会話を盗み聞きする(たとえば、耳を傾ける、録音する)ことを防止するのを助けるために、取り込まれた音声をビームフォーミングするように構成され得る。このプライバシーを達成するために、頭部装着型コンピューティングデバイスは、ユーザと会話中の参加者(複数可)を判定するために会話を検出するように構成され得る。この検出は、たとえば、頭部装着型コンピューティングデバイスのカメラ(複数可)から取り込まれた画像上でコンピュータビジョンアルゴリズムを実行することを含む、計算コストが高いプロセスを必要とし得る。この計算コストが高いプロセスは、それらがユーザの頭の動きに応答するのに十分な速度で連続的に実行される場合、頭部装着型コンピューティングデバイスの処理および/または電力予算を上回り得る。したがって、開示されるデバイスおよび方法は、会話(複数可)が判定された後で、計算コストがそれほど高くないプロセスにビームステアリングを手渡すことができる。計算コストがそれほど高くないプロセスは、位置/配向センサ(複数可)を使用して初期位置からの頭の動きの変化を判定し、次に、頭の動きの変化に対する参加者の位置を更新することを含み得る。ビームフォーミングは次に、参加者(複数可)に対するフォーカスを維持するために、頭の動きに応答してビームステアリングを調節し得る。このアプローチは、必要な処理および/または電力がより少ないため、それは、ユーザの頭の動きに応答するのに十分高速で実行され得る。
図2は、本開示の可能な一実現化例に従った、ビームフォーミングされた音声を生成するように構成された頭部装着型コンピューティングデバイスの斜視図である。図示されるように、頭部装着型コンピューティングデバイスは、スマート眼鏡として実現され得る。本明細書では、「スマート眼鏡」は、この開示を説明する目的のために、「頭部装着型コンピューティングデバイス」という用語と同じ意味で説明され、言及されるであろう。しかしながら、本明細書で提示される手法は、より一般的には、(たとえば、頭部装着型コンピューティングデバイスの機能へのいくつかの変更を可能にするために)頭の動きに従ってフォーカス(すなわち、ステアリング)され得るマイクロホンアレイ(複数可)を含む、あらゆる頭部装着型コンピューティングデバイスに適用され得る。たとえば、この開示は、仮想現実(virtual-reality:VR)ヘッドセットまたはスマートイヤーバッドとして実現され得るということが考えられる。
図2に示す頭部装着型コンピューティングデバイス200は、ユーザの頭/顔に装着されるように構成される。頭部装着型コンピューティングデバイス200は、さまざまなセンサおよびさまざまなインターフェイスを有して構成され得る。加えて、頭部装着型コンピューティングデバイスは、ポータブルな動作を可能にするための電源(たとえばバッテリ)と、データおよびコンピュータ読取可能命令を格納するためのメモリと、映像/画像/深度情報を取り込むための1つ以上のカメラ201(たとえばカメラ)と、レンズ(複数可)のディスプレイエリア220においてビジュアルをユーザに提示するためのプロジュクタ/ディスプレイとを含み得る。したがって、頭部装着型コンピューティングデバイス200は、前述されたようにARのために構成可能であり、ディスプレイエリア220において拡張現実ビジュアルをユーザに提示可能である。一実現化例では、拡張現実ビジュアルは、会話の字幕を含み得る。加えて、頭部装着型コンピューティングデバイス200は、頭の動きとともに(たとえば自動的に)変化し得るある方向(複数可)からの音声を優先的に取り込むことができるサブシステムおよび回路を含み得る。取り込み方向(複数可)におけるこの優先性は、ユーザが聞くことを改良し、アプリケーションの機能を向上させ、および/または、ユーザと会話していない居合わせた人のためのプライバシーの層を提供することを助け得る。
頭部装着型コンピューティングデバイス200はさらに、マイクロホンアレイ210としてともに動作され得る複数のマイクロホン211A~Fを含み得る。マイクロホンアレイ210におけるマイクロホンは、ユーザの環境から音声を取り込むように構成され得る。たとえば、ユーザが頭部装着型コンピューティングデバイスを装着している場合、マイクロホンは、ユーザの視界に向けられ得る。マイクロホンアレイ210におけるマイクロホンは、さまざまに間隔を置かれ得る。可能な一実現化例では、1つ以上のマイクロホン(211A、211B)が右チャンネルを形成し、一方、1つ以上のマイクロホン(211C、211D)が左チャンネルを形成し得る。右チャンネルにおけるマイクロホンと、左チャンネルにおけるマイクロホンとは、自然な両耳間隔をシミュレートするように間隔を置かれ得る。たとえば、左チャンネルのマイクロホン(211C、211D)は、頭部装着型コンピューティングデバイスの左レンズ242の近傍に位置付けられ、一方、右チャンネルのマイクロホン(211A、211B)は、頭部装着型コンピューティングデバイスの右レンズ241の近傍に位置付けられ得る。別の可能な実現化例では、マイクロホンのレイアウトは、頭部装着型コンピューティングデバイス200の基準系250のある方向(たとえば基本方向)にビームフォーミングすることを助け得る。頭部装着型コンピューティングデバイス200の基準系250は空間で固定されていないが、むしろ、頭部装着型コンピューティングデバイス200が空間で動くにつれて頭部装着型コンピューティングデバイス200の配向を追跡する配向を有する。基準系250は、たとえばデバイスの水平方向と平行であり得る第1の軸251と、たとえばデバイスの垂直方向と平行であり得る第2の軸252と、第1および第2の軸に直交する第3の軸253という3つの直交軸によって規定され得る。図2に示すように、マイクロホンの第1のアレイ(211A、211B、211C、211D)は、頭部装着型コンピューティングデバイス200の基準系250の第1の軸251と平行に整列され得る。マイクロホンの第1のアレイに適用されるビームフォーミングアルゴリズムは、ユーザの頭の左/右(すなわち、ヨー(yaw))の動きに応答してビームをステアリングし得る。マイクロホンの第2のアレイ(211E、211F)は、頭部装着型コンピューティングデバイス200の基準系250の第2の軸252と平行に整列され得る。マイクロホンの第2のアレイに適用されるビームフォーミングアルゴリズムは、ユーザの頭の上/下(すなわち、ピッチ)の動きに応答してビームをステアリングし得る。一般に、任意の数の方向と整列されたマイクロホンのアレイがあり得る。ビームフォーミングは、複数の方向においてビームステアリングに対処するために、異なるマイクロホンアレイを組合せることを含み得る。
図3Aおよび図3Bは、上述されたようなビームフォーミングを示す。図3Aでは、ユーザ301の頭に装着された頭部装着型コンピューティングデバイスのマイクロホンアレイは、(たとえばユーザ301と会話中の)第1の話者302に向かってビームフォーミング(すなわち、フォーカス)され得る。ここで、ユーザの頭は第1の位置にあり、頭部装着型コンピューティングデバイスのマイクロホンアレイのビーム320は、ユーザの視線方向310と整列される。図3Bでは、ユーザの頭は、第1の位置から角度330だけ回転される。頭部装着型コンピューティングデバイスのマイクロホンアレイは、ユーザの頭の動き(すなわち、ヨー)にもかかわらず、第1の話者302に対してフォーカスされたままであるように、ビームフォーミングを調節するように構成される。言い換えれば、ユーザの頭が第1の方向に(たとえば右に)角度330だけ回転される場合、頭部装着型コンピューティングデバイスは、ビーム320を第1の方向とは反対の第2の方向に(たとえば左に)角度330だけ回転させるように、ビームフォーミングを調節するようにトリガされ得る。
頭部装着型コンピューティングデバイス200はさらに、マイクロホンアレイ210によって除外され得るさまざまな音を取り込むように構成された周囲マイクロホン212を含み得る。たとえば、周囲マイクロホン212の指向性感度は、図1Aに示す感度に似ていてもよく、一方、マイクロホンアレイ210の感度は、図1Bに示す感度に似ていてもよい。周囲マイクロホン212は、頭の動きではなく音に応答してビームフォーミングすることにとって有用であり得る。たとえば、ビームフォーミングは、会話での話者の変化に応答して適用され得る。たとえば、第1の時間に、周囲マイクロホン212からの音声に基づいて、第1の話者が話していると認識され得る。したがって、マイクロホンアレイ210は、第1の話者に向かってフォーカス(すなわち、ビームフォーミング)され得る。次に、第2の時間に、周囲マイクロホン212からの音声に基づいて、第2の話者が話していると認識され得る。第2の話者は、第2の話者からの音の品質(たとえばトーン、ピッチ)に基づいて認識され得る。この認識のために、この品質は、会話の参加者に関連付けられた参加者リストに格納された品質と比較され得る。第2の話者が認識された後で、マイクロホンアレイ210は、第2の話者に向かってフォーカス(すなわち、ビームフォーミング)され得る。フォーカスすることは、会話レイアウトに格納された第2の話者の方向に向かってフォーカスすることを含み得る。それに代わって、フォーカスすることは、第2の話者と一致する品質を有する受信音が最大化されるまで、マイクロホンアレイのビームをスキャンするように、マイクロホンアレイにおけるマイクロホンの相対位相を調節することを含み得る。このため、ビームフォーミングは、頭の動きなしで適用され得る。
図3Aおよび図3Cは、上述されたようなビームフォーミングを示す。図3Aでは、装着された頭部装着型コンピューティングデバイスのマイクロホンアレイは、(たとえばユーザ301と会話中の)第1の話者の音声304を高い指向性感度で取り込むために、第1の話者302に向かってビームフォーミング(すなわち、フォーカス)され得る。図3Cに示すように、頭部装着型コンピューティングデバイスの周囲マイクロホンは、等方性感度340を有する。周囲マイクロホン212が第2の話者303からの第2の話者の音声305を取り込む場合、頭部装着型コンピューティングデバイスは、第2の話者音声305を高感度で取り込むために、上述のように、マイクロホンアレイのビーム320を第2の話者303に向かって回転させる(すなわち、フォーカスする)ように、ビームフォーミングを調節するようにトリガされ得る。一般に、ビームの方向は、無指向性マイクロホンによって受信された音(たとえば発話)に基づいてターゲットの変化(たとえば話者の変化)を検出すると、更新され得る。たとえば、会話中の話者は各々、会話レイアウトに格納された対応する方向を有し得る。話している話者を判定するために、無指向性マイクロホンからの音声(すなわち、フォーカスされていない音声)が(たとえば音声認識を使用して)処理され得る。会話レイアウトは次に、マイクロホンアレイのビームをフォーカスするための方向を判定するために、話している話者について対処され得る。図3A~3Cに示す例は限定的ではない。たとえば、話者の数は2人に限定されず、また、いくつかの実現化例では、マイクロホンアレイは、複数のビームを複数の話者にフォーカスするように構成されてもよい。
頭部装着型コンピューティングデバイス200はさらに、複数のラウドスピーカを含み得る。可能な一実現化例では、複数のラウドスピーカは、ユーザの左耳へ音声を送信するように構成された左ラウドスピーカ(複数可)と、ユーザの右耳へ音声を送信するように構成された右ラウドスピーカ(複数可)とを含む。これらのラウドスピーカは、頭部装着型コンピューティングデバイス200のフレーム内に一体化され得る。たとえば、左ラウドスピーカ231は、頭部装着型コンピューティングデバイスの左アームに一体化され、右ラウドスピーカ230は、頭部装着型コンピューティングデバイスの右アームに一体化され得る。可能な実現化例では、頭部装着型コンピューティングデバイスは、左イヤーバッド234と右イヤーバッド233とを含み得る。左イヤーバッド234および右イヤーバッド233は、有線または無線通信リンク232(たとえば、ブルートゥース(登録商標)、WiFiなど)を介して、頭部装着型コンピューティングデバイスにおける処理へ通信可能に結合され得る。イヤーバッドは、ユーザのそれぞれの耳に装着され得る。イヤーバッドは、マイクロホンアレイ210によって受信された音声を再生するように構成され得る。イヤーバッドによって再生された音声は、図1Bに関連して説明されたようなビームフォーミング(すなわち、ビームステアリング、フォーカシング)プロセスに起因する、ビームフォーミングされた音声であり得る。
マイクロホンアレイ210の感度は、第1の方向において、ターゲット(たとえば人)に向かってフォーカスされ得る。マイクロホンアレイ(すなわち、頭部装着型コンピューティングデバイス200)の配向が変化する場合、マイクロホンアレイ210の感度は、マイクロホンアレイの配向とともに変化する頭部装着型ディスプレイの基準系に対する第2の方向において、ターゲットに向かってフォーカスされ得る。第2の方向は、配向の変化に対応する。言い換えれば、ユーザが頭部装着型コンピューティングデバイスを装着している場合、ユーザの頭が動いても、マイクロホンアレイのフォーカスはターゲット上で維持され得る。この動きは、ユーザの頭の配向の変化および/または位置の並進を含み得る。
第1の方向および第2の方向は、頭部装着型コンピューティングデバイス上のさまざまなセンサを使用して判定され得る。第1の方向は第1のセンサを使用して確立され、一方、第2の方向は第2のセンサを使用して判定され得る。たとえば、カメラが、ターゲット(たとえば人)とターゲットに向かう第1の方向とを判定するために分析される画像/映像を取り込み得る。第1の方向が確立された後で、第2の方向が、第1の方向からの変化として判定され得る。第1の方向からのこの変化を計算することは、減少した処理要件でセンサを使用して達成され得る。たとえば、頭部装着コンピューティングデバイスは、第1の方向に対する第2の方向を判定するために配向の変化を測定するためのIMUを含み得る。IMUは、コンピュータビジョン手法を行なうために必要とされる処理要件がより少ない状態で変化に迅速に応答可能であり得るため、それは、より速い追跡速度を提供でき、それは、いくつかのビームフォーミングアプリケーション(たとえば、居合わせた人のプライバシー)にとって有用であり得る。より遅い追跡速度を必要とするアプリケーションについては、位置の変化はまた、頭部装着型コンピューティングデバイスにおけるセンサによって取り込まれた画像、深度データ、および/または位置データ(たとえばGPSデータ)を使用して取得され得る。
IMUは、マイクロホンアレイ210の配向を判定(および追跡)するように構成され得る。たとえば、カメラおよび/またはIMUからのデータは、空間で固定された基準枠に対する頭部装着型コンピューティングデバイス200の基準系250の初期配向を規定することを助け得る。その後、IMUからのデータは、初期配向からの頭部装着型コンピューティングデバイス200の基準系250の配向の変化を検出し、変化または配向を数値化することを助け得る。言い換えれば、IMUは、頭部装着型コンピューティングデバイス200を装着している頭の動きを検出し、頭の動きを数値化し、動きの後の新たな頭の配向を確立することを助け得る。
頭部装着型コンピューティングデバイス200のIMUは、多軸加速度計、ジャイロスコープ、および/または磁力計を含み得る。IMUは、高い追跡速度および/またはより低い処理要件を必要とするアプリケーションにとって好ましいかもしれない。たとえば、バッテリを介して動作する頭部装着型コンピューティングデバイスは、制限された電力資源を有し得る。IMUは、大量の動力を消費することなく、配向を連続的に測定し得る。加えて、IMUからデータを読取ることは、比較的単純なコントローラを使用して達成され得る。したがって、IMUは、頭部装着型コンピューティングデバイスの制限された処理/電力資源を酷使することなく、マイクロホンアレイ210の配向を非常に高速で連続的に追跡するのを助けることが可能であり得る。この電力/処理効率のよい連続的な追跡は、頭の動きに迅速に応答するのに有用であり得る。
配向の判定は、頭部装着型コンピューティングデバイス200の代替または追加センサを使用し得る。たとえば、頭部装着型コンピューティングデバイスは、マイクロホンアレイ210の動きに対応する、頭部装着型コンピューティングデバイス200の動きを光学的に感知するための(たとえば構造化された光、ライダー(LIDAR)を使用する)深度カメラを含み得る。
図4は、本開示の可能な一実現化例に従った、頭部装着型コンピューティングデバイスのマイクロホンアレイをターゲット上にフォーカスするための方法のフローチャートである。方法400は、ユーザの頭に装着されたマイクロホンアレイのための基準系の配向を判定するステップ405を含む。マイクロホンアレイは、図2に示すように頭部装着型コンピューティングデバイスの一部として含まれていてもよいが、それはまた、システムの一部であってもよい。たとえば、マイクロホンアレイは、マイクロホンアレイをフォーカスするためのコンポーネント同士が物理的には別々であるものの(たとえば無線で)通信可能に結合されているシステムの一部であってもよい。マイクロホンアレイの基準系の配向は、IMUなどの1つ以上のセンサによって判定され得る。マイクロホンアレイの基準系は、ユーザの視点と整列されていても、整列されていなくてもよい。
方法400はさらに、ターゲットを識別するステップ410を含む。ターゲットは、人または物体(たとえば、テレビ、ラジオ、スピーカなど)などの音源であり得る。ターゲットを識別するステップは、基準系に対するターゲットの位置または方向を指すステップを含み得る。識別するステップは、自動的であってもよく、または手動であってもよい。可能な一実現化例では、ターゲットを識別(たとえば取得)するために、ユーザの視点はターゲット上に位置付けられ得る。たとえば、ユーザは、ユーザの視界内にターゲットを位置付け、次に、ユーザによって話され、頭部装着型コンピューティングデバイスによって認識されるキーワード(たとえば、「話者をロックオン(連続追跡)する」、「話者を切り替える」)を使用して、ターゲットを識別するように頭部装着型コンピューティングデバイスをトリガし得る。それに代えて、ユーザは、ユーザの視界内にターゲットを位置付け、次に、頭部装着型コンピューティングデバイスと物理的に対話すること(たとえばボタンを押すこと、デバイスをタップすることなど)によって、ターゲットを識別するように頭部装着型コンピューティングデバイスをトリガし得る。自動ターゲット認識では、頭部装着型コンピューティングデバイスのマイクロホンからの音、および/または、頭部装着型コンピューティングデバイスのカメラからの画像が、ターゲットを識別するために監視され得る。たとえば、これらの音および画像は、ターゲットとの会話を示す発話パターン(休止、話者の変化など)および視覚的合図(たとえばアイコンタクト)を識別するために、コンピュータ認識アルゴリズムを使用して処理され得る。別の可能な実現化例では、特定の音が、ターゲットを識別するために認識され得る。
ターゲットがいったん識別されると、方法は、基準系に対するターゲット方向を判定するステップ415を含み得る。可能な一実現化例では、ターゲット方向は、光を使用して判定され得る。たとえば、撮像感知およびコンピュータビジョンアルゴリズムが、頭部装着型コンピューティングデバイスの1つ以上のカメラ201によって取り込まれた静止画および/または動画に基づいて(たとえば、ユーザの視点に対する)ターゲットの方向を判定するように構成され得る。別の可能な実現化例では、ターゲット方向は、音を使用して判定され得る。たとえば、音感知およびコンピューティングヒアリングアルゴリズムが、上述のように、ターゲットによって放出された音に基づいてターゲットの方向を判定するように構成され得る。
頭部装着型コンピューティングデバイス200の初期基準系とターゲットとがいったん取得され、空間的に判定されると、方法は、マイクロホンアレイをターゲット方向に(たとえばターゲット上に)フォーカスするステップ420を含み得る。フォーカスするステップは、マイクロホンアレイの感度が、頭部装着型コンピューティングデバイス200の基準系のターゲット方向において、他の方向よりも高くなる(たとえば最も高くなる)ように、マイクロホンアレイにおける各マイクロホンによって受信された音声信号を処理することによって行なわれ得る。言い換えれば、フォーカスするステップは、システムへの物理的変化ではなく、信号処理に起因し得る。
マイクロホンアレイは、マイクロホンアレイの動きが(たとえばIMUを使用して)検出されるまで、ターゲット方向にフォーカスされたままであり得る。マイクロホンアレイの動きが検出される(425)と、方法は、空間における固定された基準枠に対する、および/または、頭部装着型コンピューティングデバイスの初期基準系に対する、基準系の配向への変化を判定するステップ430を含み得る。たとえば、基準系の最初に判定された配向に対する、基準系の新たな配向の角度(複数可)が判定され得る。基準系の配向への変化は、ターゲット方向を更新する(440)ために使用され得る。ターゲット方向が更新された後で、マイクロホンアレイのビームフォーミングされた感度は、更新されたターゲット方向に向け直されてもよく、それは、別の動きが検出されるまでそこにとどまる。マイクロホンアレイのビームフォーミングされた感度を更新されたターゲット方向に向け直すことは、更新されたターゲット方向以外の方向においてマイクロホンアレイの感度を減少させることを含み得る。このプロセスは、ターゲットに対する頭部装着型コンピューティングデバイスのマイクロホンアレイのフォーカスを維持するために繰り返され得る。基準系の変化を判定するステップ430、および、ターゲット方向を更新するステップ440は、ユーザの動きが抑制されないように、ユーザの頭の自然な動きに対応するのに十分速い第1の速度で繰り返され得る。ターゲットを識別するステップ410、および、ターゲット方向を計算するステップ415も、第1の速度よりも遅くなり得る第2の速度で繰り返され得る。なぜなら、ターゲットは、頭の動きに比べて長い時間尺度で追加または除去され得るためである。したがって、ターゲットに対する初期基準系配向を判定し、次に、初期配向からの配向の変化を追跡するアプローチは、ターゲットを連続的に識別してターゲットの方向を計算するアプローチよりも、使用する資源がより少なく、バッテリ駆動式の頭部装着型コンピューティングデバイスなどの処理/電力が制限された用途において都合良く使用され得る。たとえば、プロセッサは、初めにターゲットを検出するためにコンピュータビジョンアルゴリズムを行ない、基準系の初期配向に対してターゲット方向がいったん判定されると、次に基準系への変化に基づいてターゲット方向を連続的に更新するように構成され得る。図4に示す方法は、さまざまな頭部装着型マイクロホンアレイ、さまざまなターゲット、および、ターゲットを識別するためのさまざまな手段に適用され得る。より特定的な一実現化例を図5に示す。
図5は、会話に基づいてビームフォーミングされた音声を生成するための方法についてのフローチャートである。方法は、居合わせた人のセキュリティのレベルを、頭部装着型コンピューティングデバイスによって提供されるあらゆる会話強化に提供するために実現され得る。たとえば、ビームフォーミングは、ユーザが居合わせた人の話を盗み聞きすること、および/またはうっかり聞いてしまうことを防止し得る。方法はまた、ユーザが会話を理解するのを支援するために実現され得る。方法はまた、会話内の単語を正確に認識するように(たとえば、頭部装着型コンピューティングデバイス上で実行される)アプリケーションを支援するために使用され得る。したがって、ビームフォーミングされた音声はまた、ARのために構成され得る図2の頭部装着型コンピューティングデバイス(たとえばスマート眼鏡)上で実行されるARアプリケーションで使用され得る。図5の方法は、この文脈において説明される。
方法500は、ユーザについて頭部装着型センサを監視するステップを含む。特に、頭部装着型コンピューティングデバイス200におけるIMUが監視され(525)、頭部装着型コンピューティングデバイス200を装着しているユーザの頭の配向/位置(すなわち、頭部姿勢535)を判定する(530)ために使用され得る。たとえば、ユーザの頭部姿勢535は、マイクロホンアレイ210と整列された基準系250を含み得る。ユーザが頭部装着型コンピューティングデバイス200を装着している際、頭部姿勢535は、頭部姿勢の変化がビームフォーミングの変化をトリガし得るように、繰り返し更新され得る。
方法500はまた、会話について頭部装着型センサを監視するステップを含む。たとえば、会話参加者(すなわち、参加者)とユーザとの会話に関連付けられた視覚特徴(たとえばアイコンタクト、唇の動きなど)に基づいて会話を検出するように構成されたコンピュータビジョンアルゴリズムに適用され得る映像/画像を、1つ以上のカメラ201が監視し(すなわち、取り込み)得る(505)。同様に、参加者とユーザとの会話に関連付けられた音声特徴(たとえば、音声テキスト変換、休止、文字起こしなど)に基づいて会話を認識するように構成された音声/発話認識アルゴリズムに適用され得る音声を、周囲マイクロホン212が監視し(すなわち、取り込み)得る(505)。可能な一実現化例では、会話を検出するために、視覚特徴および音声特徴の双方が監視され得る(505)。会話が検出された後で、頭部装着型センサは、参加者とユーザとの会話のステータス(すなわち、活発、不活発)を判定する(510)ために監視され得る。たとえば、音声または視覚特徴がある期間にわたって検出されない場合、会話は不活発である(すなわち、終わっている、終了している)と判定され得る。
会話は、2人以上の参加者を含んでいてもよい。したがって、方法500はさらに、検出された会話に対応する参加者リスト520を追加、除外、または他の態様で更新するステップ(515)を含み得る。たとえば、第1の時間に、ユーザと第1の参加者との間で会話が検出され得る。第1の時間では、参加者リストは、1つの会話(すなわち、第1の参加者)を含む。第2の時間に、第2の参加者が会話に参加するかまたは新たな会話を始め得る。第2の時間では、参加者リストが第1の参加者と第2の参加者とを含むように、第2の参加者が参加者リストに追加され得る。第2の参加者による会話がある期間不活発になった後の第3の時間に、第1の参加者だけが残るように第2の参加者が参加者リスト520から除外される(すなわち、除去、削除される)。第1の参加者による会話がある期間不活発になった後の第4の時間に、参加者リストが空になるように第1の参加者がリストから除外され得る。参加者リストは、ユーザと人々との対話に基づいて自動的に変化し得る。参加者リストは、ある参加者に関連付けられたさまざまな情報を含み得る。たとえば、その参加者の識別子、および、その参加者とユーザとの会話のステータスが、参加者リスト520に含まれ得る。加えて、参加者リスト520は、各参加者の(たとえば、視覚、聴覚)特徴を含み得る。このように、以前の参加者が再び現われる場合、会話はより容易に認識され得る。
参加者リストに基づいて、方法はさらに、ユーザの頭部姿勢535に対する、参加者リスト520上の各参加者の位置を判定するために、頭部装着型コンピューティングデバイス200の頭部装着型センサ(たとえばカメラ、マイクロホン)を監視するステップ540を含む。ユーザおよび参加者の相対位置に基づいて、会話レイアウト560が計算(または更新)され得る(545)。会話レイアウト560は、図3Cに示すような、参加者と、ユーザに対する方向とを含み得る。頭部装着型コンピューティングデバイス200のマイクロホンアレイ210は次に、ビームフォーミングされた音声575を生成するために、マイクロホンアレイ210からの音声を監視し(すなわち、取り込み)(555)、ビームフォーミングアルゴリズムに従って処理し得る。たとえば、取り込まれた音声は、マイクロホンアレイを各参加者に同時にまたは順次ビームフォーミングする(570)ために、会話レイアウトに従って処理(フィルタリング、遅延、位相シフト)され得る。
参加者リスト520とユーザの頭部姿勢535とに基づく会話レイアウト560が変化するにつれて、ビームフォーミングされた音声575は自動的にリアルタイムで更新され得る。会話レイアウト(たとえば頭部姿勢)がどのように変化するかにかかわらず、ユーザが会話中の参加者から音声を聞くのを助けるために、ビームフォーミングされた音声575は、(たとえばユーザの耳の中の)ラウドスピーカを介してユーザ585に提供され得る。ビームフォーミングされた音声575はまた、ARアプリケーション580に提供され得る。ARアプリケーションは、ビームフォーミングされた音声575を、ユーザによって経験され得る出力に修正または変換し得る。たとえば、ARアプリケーションは、ディスプレイエリア220においてユーザに表示され得る字幕(たとえば、テキスト音声変換、翻訳)を生成するために、ビームフォーミングされた音声を処理し得る。ビームフォーミングされた音声は、ユーザが検出された会話に居合わせた人から音声を受信するのを防止または妨害することによってプライバシーを提供する技術的効果を有し得る。
図6は、本開示の可能な一実現化例に従った、会話レイアウトに基づいてビームフォーミングされた音声を生成するために構成された頭部装着型コンピューティングデバイスのブロック図である。頭部装着型コンピューティングデバイス600は、複数のセンサ610を含み得る。センサ610は、視界の画像/映像を取り込むように構成された1つ以上の画像センサ611(たとえばカメラ)を含み得る。センサ610はまた、頭部装着型コンピューティングデバイスの配向および/または動きを測定するように構成されたIMU612を含む。センサ610はさらにマイクロホンアレイ615を含み、それは、複数のマイクロホン613A、613B、613Cを含み得る。
頭部装着型コンピューティングデバイス600はさらに、複数のインターフェイス640を含み得る。インターフェイス640は、頭部装着型コンピューティングデバイス600との間でデータを送信/受信するように構成された通信インターフェイス641を含み得る。たとえば、通信インターフェイス641は、短距離無線通信トランシーバ(たとえばブルートゥース)を含み得る。可能な一実現化例では、通信インターフェイス641は、ユーザが装着しているヒアリング機器(たとえば、補聴器、イヤーバッドなど)に結合される。インターフェイス640は、画像、グラフィックス、および/またはテキストをユーザに提示するように構成されたディスプレイ642を含み得る。インターフェイスはさらに、1つ以上のラウドスピーカ643A、643B、643Cを含み得る。1つ以上のラウドスピーカは、左ラウドスピーカと右ラウドスピーカとを含み得る。可能な一実現化例では、ラウドスピーカは、ラウドスピーカアレイ645に含まれ得る。
頭部装着型コンピューティングデバイス600はさらに、非一時的コンピュータ読取可能媒体(すなわちメモリ630)を含み得る。メモリ630は、データおよび/またはコンピュータプログラムを格納し得る。これらのコンピュータプログラム(モジュール、プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている)は、プログラマブルプロセッサのためのマシン命令を含んでいてもよく、高レベルの手続き型および/またはオブジェクト指向プログラミング言語で、ならびに/もしくは、アセンブリ/マシン語で実現され得る。たとえば、メモリは、非一時的コンピュータ読取可能媒体上で有形に具現化されたコンピュータプログラム製品を含み得る。コンピュータプログラム製品は、実行されると、少なくとも1つのプロセッサ620に、図5に示すような、会話に基づいてビームフォーミングされた音声を生成するための方法を行なわせる、コンピュータ実行可能命令(すなわち、ソフトウェア命令)を含み得る。したがって、メモリ630はさらに、(最新の)参加者リスト520、頭部姿勢535、および会話レイアウト560を格納するように構成され得る。
頭部装着型コンピューティングデバイス600はさらに、少なくとも1つのプロセッサ620を含み得る。少なくとも1つのプロセッサ620は、ビームフォーミングされた音声を生成するための方法のさまざまな局面を行なうために、1つ以上のモジュールを実行し得る。1つ以上のモジュールは、センサ610から測定値を受信し、当該測定値に基づいてユーザと参加者との会話を検出するように構成された会話検出器621を含み得る。会話検出器の結果は、メモリ630内の参加者リスト520に格納され得る。1つ以上のモジュールはさらに、センサ610から測定値を受信し、当該測定値に基づいてユーザの頭の配向(すなわち、マイクロホンアレイ615の配向)を計算するように構成された頭部姿勢計算器622を含み得る。頭部姿勢計算器622の結果は、頭部姿勢535としてメモリ630に格納され得る。1つ以上のモジュールはさらに、参加者リスト520と頭部姿勢535とに基づいて会話のレイアウト(すなわち、マップ)を生成するように構成された会話レイアウト生成器623を含み得る。頭部姿勢計算器622の結果は、会話レイアウト560としてメモリ630に格納され得る。1つ以上のモジュールはさらに、マイクロホンアレイ615における各マイクロホン(またはマイクロホンの一部)から音声信号(すなわち、チャンネル)を受信し、ビームフォーミングされた音声(たとえばビームフォーミングされた音声信号)を生成するように音声信号を処理するように構成されたビームフォーマ624を含み得る。ビームフォーミングされた音声は、インターフェイス640へ通信されてもよく、または、いくつかの実現化例では、ユーザへ通信され得る。
明細書および/または図面において、典型的な実施形態が開示されてきた。本開示は、そのような例示的な実施形態に限定されない。「および/または」という用語の使用は、関連する列挙された項目のうちの1つ以上の項目のありとあらゆる組合せを含む。図面は概略表現であり、そのため、必ずしも縮尺通りに描かれてはいない。特断の記載がない限り、特定の用語は、限定のためではなく、包括的および記述的な意味で使用されてきた。
特に断りのない限り、本明細書で使用されるすべての技術用語および科学用語は、当業者によって通常理解されるものと同じ意味を有する。本明細書で説明されたものと同様または同等である方法および材料が、本開示の実践または検査で使用され得る。明細書で、および添付された請求項で使用されるように、文脈が明白に他の意味を指す場合を除き、単数形は複数の指示対象を含む。本明細書で使用されるような「備える」という用語およびその変形は、「含む」という用語およびその変形と同義に使用され、制限のない非限定的な用語である。本明細書で使用される「オプションの」または「オプションで」という用語は、その次に説明される特徴、事象または状況が生じるかどうか分からないことを意味し、また、説明が、前記特徴、事象または状況が生じる事例と、それが生じない事例とを含むことを意味する。本明細書では、範囲は、「約(ある特定値)」から、および/または、「約(別の特定値)」までとして表現され得る。そのような範囲が表現される場合、局面は、当該特定値から、および/または、当該別の特定値までを含む。同様に、値が、先行する「約」の使用により、近似値として表現される場合、当該特定値が別の局面を形成するということが理解されるであろう。さらに、範囲の各々の端点が、他方の端点に関して、および、他方の端点から独立して、重要であるということが理解されるであろう。
説明された実現化例のある特徴が、本明細書で説明されるように示されてきたが、多くの修正、置換、変更、および均等物が現在、当業者の脳裏に浮かぶであろう。したがって、添付された請求項が、実現化例の範囲内に該当するような修正および変更をすべて網羅するよう意図されるということが理解されるべきである。それらは限定ではなく例としてのみ提示されてきたこと、ならびに、形態および詳細のさまざまな変更が行なわれてもよいことが理解されるべきである。本明細書で説明される装置および/または方法のどの部分も、互いに矛盾する組合せ以外は、任意の組合せで組合されてもよい。本明細書で説明される実現化例は、説明される異なる実現化例の機能、構成要素、および/または特徴のさまざまな組合せおよび/または部分的組合せを含み得る。
前述の説明では、ある要素が別の要素に載っているか、接続されるか、電気的に接続されるか、結合されるか、または電気的に結合されるとして言及される場合、それは別の要素に直接載っているか、接続されるか、または結合されてもよく、もしくは、1つ以上の介在要素が存在していてもよいということが理解されるであろう。対照的に、ある要素が別の要素に直接載っているか、直接接続されるか、または直接結合されるとして言及される場合、存在する介在要素はない。「直接載っている」、「直接接続される」、または「直接結合される」という用語は詳細な説明全体にわたって使用されていないかもしれないが、直接載っているか、直接接続されるか、または直接結合されるとして示される要素は、そういうものとして言及され得る。本願の請求項は、必要であれば、明細書で説明されたか図面に示された例示的な関係を記載するために補正されてもよい。
本明細書で使用されるように、単数形は、文脈の観点から見て特定の場合を明確に示す場合を除き、複数形を含む。空間的に相対的な用語(たとえば、「の上に」、「より上に」、「上方」、「の下で」、「の下に」、「より下に」、「下方」など)は、図面に表わされた配向に加えて、使用または動作中のデバイスの異なる配向を包含するよう意図される。いくつかの実現化例では、「より上に」および「より下に」という相対的な用語は、それぞれ、「垂直上方」および「垂直下方」を含み得る。いくつかの実現化例では、「隣接して」という用語は、「横に隣接して」、または「水平に隣接して」を含み得る。

Claims (20)

  1. 頭部装着型コンピューティングデバイスであって、
    複数のマイクロホンを含むマイクロホンアレイを備え、前記マイクロホンアレイは、前記複数のマイクロホンによって受信された音に基づいて、前記マイクロホンアレイのビームフォーミングされた感度に従って、ビームフォーミングされた音声信号を生成するように構成され、前記頭部装着型コンピューティングデバイスはさらに、
    音を送信するように構成された複数のラウドスピーカと、
    固定された基準系に対する前記頭部装着型コンピューティングデバイスの配向を測定するように構成された複数のセンサと、
    前記複数のマイクロホン、前記複数のラウドスピーカ、および前記複数のセンサに結合されたプロセッサとを備え、前記プロセッサは、
    前記頭部装着型コンピューティングデバイスの配向に基づいて、前記マイクロホンアレイの基準系の配向を識別し、
    前記基準系の前記配向に対するターゲット方向を計算し、
    前記マイクロホンアレイの前記ビームフォーミングされた感度を前記ターゲット方向に向け、
    前記頭部装着型コンピューティングデバイスの前記配向の変化を検出すると、前記基準系の前記配向の変化を検出し、
    前記頭部装着型コンピューティングデバイスの前記配向の検出された前記変化に基づいて、前記マイクロホンアレイの前記基準系に対する更新されたターゲット方向を取得し、
    前記マイクロホンアレイの前記ビームフォーミングされた感度を前記更新されたターゲット方向に向け直す、
    よう指示するソフトウェア命令によって構成される、頭部装着型コンピューティングデバイス。
  2. 前記マイクロホンアレイの前記ビームフォーミングされた感度を前記更新されたターゲット方向に向け直すことは、前記ターゲット方向以外の方向において前記マイクロホンアレイの感度を減少させることを含む、請求項1に記載の頭部装着型コンピューティングデバイス。
  3. 前記プロセッサはさらに、前記マイクロホンアレイの前記ビームフォーミングされた感度を向けて向け直すために、前記マイクロホンアレイからの音声のチャンネルを互いに対して遅らせるように構成される、請求項1または2に記載の頭部装着型コンピューティングデバイス。
  4. 前記複数のマイクロホンは無指向性マイクロホンを含み、前記無指向性マイクロホンは、前記無指向性マイクロホンの等方性感度に従って受信された音に基づいて、フォーカスされていない音声を生成するように構成される、請求項1~3のいずれか1項に記載の頭部装着型コンピューティングデバイス。
  5. 前記プロセッサはさらに、
    前記無指向性マイクロホンによって受信された音に基づいて話者を検出し、
    前記マイクロホンアレイの前記ビームフォーミングされた感度を前記話者の方へ向け直す、
    ように構成される、請求項4に記載の頭部装着型コンピューティングデバイス。
  6. 前記複数のセンサは、前記頭部装着型コンピューティングデバイスを装着しているユーザの視点から映像を取り込むように構成されたカメラを含み、前記プロセッサはさらに、前記ユーザと参加者との会話を識別し、前記ターゲット方向を前記参加者に向かうものとして計算するように構成される、請求項1~5のいずれか1項に記載の頭部装着型コンピューティングデバイス。
  7. 前記複数のセンサは、前記頭部装着型コンピューティングデバイスの前記配向を測定するように構成された慣性測定ユニットを含む、請求項1~6のいずれか1項に記載の頭部装着型コンピューティングデバイス。
  8. 前記慣性測定ユニットは、前記マイクロホンアレイの配向の変化を追跡するように構成され、前記プロセッサは、追跡された前記変化に基づいて、前記基準系の前記配向の変化を検出し、更新されたターゲット方向を取得するように構成される、請求項7に記載の頭部装着型コンピューティングデバイス。
  9. 前記プロセッサはさらに、前記マイクロホンアレイの前記ビームフォーミングされた感度に基づいて、ビームフォーミングされた音声を生成し、前記ビームフォーミングされた音声を、前記頭部装着型コンピューティングデバイス上で実行されている拡張現実アプリケーションに送信するように構成される、請求項1~8のいずれか1項に記載の頭部装着型コンピューティングデバイス。
  10. 前記プロセッサは、前記マイクロホンアレイの前記ビームフォーミングされた感度に基づいて、ビームフォーミングされた音声を生成し、前記ビームフォーミングされた音声を前記複数のラウドスピーカに送信するように構成される、請求項1~9のいずれか1項に記載の頭部装着型コンピューティングデバイス。
  11. 前記複数のラウドスピーカは、ユーザの片耳または両耳に装着されるように構成された1つ以上のヒアリング機器を含む、請求項10に記載の頭部装着型コンピューティングデバイス。
  12. 前記1つ以上のヒアリング機器は、前記プロセッサと無線で通信するように構成される、請求項11に記載の頭部装着型コンピューティングデバイス。
  13. 会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法であって、
    ユーザと参加者との会話を、前記ユーザが装着した頭部装着型コンピューティングデバイスのカメラによって取り込まれた画像または映像に基づいて検出するステップと、
    前記ユーザが装着した前記頭部装着型コンピューティングデバイスのセンサによって取り込まれた測定値に基づいて、前記ユーザの頭部姿勢を判定するステップと、
    前記参加者および前記頭部姿勢の相対位置に基づいて、会話レイアウトを計算するステップと、
    前記頭部装着型コンピューティングデバイスのマイクロホンアレイから音声のチャンネルを受信するステップと、
    前記会話レイアウトに基づいてビームフォーミングされた音声を生成するように音声の前記チャンネルを処理するステップとを備える、会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法。
  14. 前記ビームフォーミングされた音声は、前記参加者に向けられたビームフォーミングされた感度に従って受信された音に対応する、請求項13に記載の会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法。
  15. 慣性測定ユニットを使用して前記頭部装着型コンピューティングデバイスの配向の変化を検出すると、更新された会話レイアウトを取得するステップと、
    前記ビームフォーミングされた感度を、前記更新された会話レイアウトにおける前記参加者に向け直すように、音声の前記チャンネルを処理するステップとをさらに含む、請求項14に記載の会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法。
  16. 前記ビームフォーミングされた音声をユーザに提示するステップをさらに含む、請求項13~15のいずれか1項に記載の会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法。
  17. 居合わせた人に向かう方向において前記ビームフォーミングされた音声の感度を減少させるステップをさらに含む、請求項13~16のいずれか1項に記載の会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法。
  18. 前記頭部装着型コンピューティングデバイスのディスプレイ上に拡張現実ビジュアルを提示するステップをさらに含み、前記拡張現実ビジュアルは、前記ビームフォーミングされた音声に対応する、請求項17に記載の会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法。
  19. 前記拡張現実ビジュアルは、前記会話の字幕である、請求項18に記載の会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法。
  20. 非一時的コンピュータ読取可能媒体上で有形に具現化され、実行されると頭部装着型コンピューティングデバイスの少なくとも1つのプロセッサに方法を行なわせるように構成された命令を備える、コンピュータプログラム製品であって、前記方法は、
    前記頭部装着型コンピューティングデバイスの配向に基づいて、マイクロホンアレイの基準系を識別するステップと、
    前記基準系に対するターゲット方向を計算するステップと、
    前記マイクロホンアレイのビームフォーミングされた感度を、前記ターゲット方向に向かう方向に向けるステップと、
    前記頭部装着型コンピューティングデバイスの前記配向の変化を検出すると、更新されたターゲット方向を取得するために、前記基準系を更新するステップと、
    居合わせた人のプライバシーを提供するために、前記マイクロホンアレイの前記ビームフォーミングされた感度を前記更新されたターゲット方向の方へ向け直すステップとを含む、コンピュータプログラム製品。
JP2023544348A 2021-01-28 2021-01-28 マイクロホンビームステアリングを用いる頭部装着型コンピューティングデバイス Pending JP2024504379A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2021/070088 WO2022164572A1 (en) 2021-01-28 2021-01-28 Head-worn computing device with microphone beam steering

Publications (1)

Publication Number Publication Date
JP2024504379A true JP2024504379A (ja) 2024-01-31

Family

ID=74673460

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023544348A Pending JP2024504379A (ja) 2021-01-28 2021-01-28 マイクロホンビームステアリングを用いる頭部装着型コンピューティングデバイス

Country Status (6)

Country Link
US (1) US20240098409A1 (ja)
EP (1) EP4285606A1 (ja)
JP (1) JP2024504379A (ja)
KR (1) KR20230112688A (ja)
CN (1) CN116636237A (ja)
WO (1) WO2022164572A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NO20230010A1 (en) * 2023-01-06 2024-07-08 TK&H Holding AS Audio system comprising a head wearable carrier element configured with a beam forming loudspeaker system

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2949929A1 (en) * 2014-05-26 2015-12-03 Vladimir Sherman Methods circuits devices systems and associated computer executable code for acquiring acoustic signals
US20190028817A1 (en) * 2017-07-20 2019-01-24 Wizedsp Ltd. System and method for a directional speaker selection
CN113196803A (zh) * 2018-10-15 2021-07-30 奥康科技有限公司 助听器系统和方法
US11089402B2 (en) * 2018-10-19 2021-08-10 Bose Corporation Conversation assistance audio device control

Also Published As

Publication number Publication date
CN116636237A (zh) 2023-08-22
WO2022164572A1 (en) 2022-08-04
US20240098409A1 (en) 2024-03-21
EP4285606A1 (en) 2023-12-06
KR20230112688A (ko) 2023-07-27

Similar Documents

Publication Publication Date Title
US10959037B1 (en) Gaze-directed audio enhancement
US11869475B1 (en) Adaptive ANC based on environmental triggers
JP6747538B2 (ja) 情報処理装置
JP6904963B2 (ja) 拡張現実システムにおいてオーディオを指向させるための技法
EP3440538B1 (en) Spatialized audio output based on predicted position data
US10257637B2 (en) Shoulder-mounted robotic speakers
EP3342187B1 (en) Suppressing ambient sounds
CN109691141B (zh) 空间化音频系统以及渲染空间化音频的方法
JP2009514312A (ja) 音響追跡手段を備える補聴器
US11902735B2 (en) Artificial-reality devices with display-mounted transducers for audio playback
US10979838B2 (en) Power reduction via smart microphone selection using environmental intelligence
CN116134838A (zh) 使用个性化声音简档的音频系统
JP2023514462A (ja) 眼鏡フレーム内に一体化可能な補聴システム
WO2023049051A1 (en) Audio system for spatializing virtual sound sources
JP2024504379A (ja) マイクロホンビームステアリングを用いる頭部装着型コンピューティングデバイス
US11967335B2 (en) Foveated beamforming for augmented reality devices and wearables
TW202249502A (zh) 在兩個音頻通道上之聲源的離散雙耳空間化
US12039991B1 (en) Distributed speech enhancement using generalized eigenvalue decomposition
EP4429272A1 (en) Spatial audio capture using pairs of symmetrically positioned acoustic sensors on a headset frame
EP4446869A1 (en) Visualization and customization of sound space
JP2024056580A (ja) 情報処理装置及びその制御方法及びプログラム
CN118785080A (zh) 声音空间的可视化和定制化
KR20240090752A (ko) 시선-기반 오디오 빔포밍

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230807

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240927