JP2024504379A

JP2024504379A - マイクロホンビームステアリングを用いる頭部装着型コンピューティングデバイス

Info

Publication number: JP2024504379A
Application number: JP2023544348A
Authority: JP
Inventors: ゴールドバーグ，スティーブン・ベンジャミン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2024-01-31
Also published as: CN116636237A; WO2022164572A1; US20240098409A1; EP4285606A1; KR20230112688A

Abstract

開示されるデバイスおよび方法は、ユーザの頭部位置／配向の変化に適応できる頭部装着型マイクロホンアレイのためのビームフォーミングを提供する。マイクロホンアレイは、頭部装着型コンピューティングデバイスの一部であってもよく、それは、参加者との会話のコンピュータ支援認識に基づいて、ビームフォーミングのための方向を自動的に検出するように構成され得る。参加者が識別された後で、ビームフォーミングは、ユーザの動きを抑制することなく、取り込まれた音声の品質を向上させるために、ユーザの頭の位置にかかわらず、マイクロホンアレイの感度を自動的に参加者へステアリングすることができる。向上した音声は、ユーザが会話を聞くことを支援し、会話に対応する拡張現実アプリケーションを支援し、および／または、感度を会話の参加者に制限することによってある程度のプライバシーを提供するために使用され得る。

Description

開示の分野
本開示は音響ビームステアリングに関し、具体的には、頭部装着型コンピューティングデバイスのマイクロホンアレイのビームをステアリングすることに関する。

背景
頭部装着型コンピューティングデバイスは、環境から、およびユーザから情報を取り込むように構成され得る。取り込まれた情報は、仮想局面が生成され表示されるように、環境における物体およびユーザの相対的な配向および位置を判定するために処理され得る。その結果、ユーザは、ユーザが環境と対話するにつれて、または環境内で動くにつれて変化する現実局面および仮想局面の双方を環境が含むことに気づくことができる。したがって、頭部装着型コンピューティングデバイスは、感覚情報（たとえば聴覚、視覚）を取り込んで表示するための、ならびに、配向および位置（たとえば頭部姿勢）を判定するための、無数のサブシステムを含み得る。したがって、頭部装着型コンピューティングデバイスが会話についてユーザを支援する機会が存在し得る。しかしながら、この支援は、他人のプライバシーを侵害する機会を提供し得る。

概要
少なくとも１つの局面において、本開示は一般に、頭部装着型コンピューティングデバイスを記載する。頭部装着型コンピューティングデバイスは、複数のマイクロホンを含むマイクロホンアレイを含む。マイクロホンアレイは、複数のマイクロホンによって受信された音に基づいて、マイクロホンアレイのビームフォーミングされた感度に従って、ビームフォーミングされた音声信号を生成するように構成される。頭部装着型コンピューティングデバイスはさらに、音を送信するように構成された複数のラウドスピーカを含む。頭部装着型コンピューティングデバイスはさらに、固定された基準系に対する頭部装着型コンピューティングデバイスの配向を測定するように構成された複数のセンサを含む。頭部装着型コンピューティングデバイスはさらに、複数のマイクロホン、複数のラウドスピーカ、および複数のセンサに結合されたプロセッサを含む。頭部装着型コンピューティングデバイスのプロセッサは、方法を行なうよう指示するソフトウェア命令によって構成される。方法は、頭部装着型コンピューティングデバイスの配向に基づいて、マイクロホンアレイの基準系の配向を識別するステップを含む。方法はさらに、基準系の配向に対するターゲット方向を計算するステップを含む。方法はさらに、マイクロホンアレイのビームフォーミングされた感度をターゲット方向に向けるステップを含む。方法はさらに、頭部装着型コンピューティングデバイスの配向の変化を検出すると、頭部装着型コンピューティングデバイスの配向の検出された変化に基づいて、マイクロホンアレイの基準系に対する更新されたターゲット方向を取得するために、基準系の配向の変化を検出するステップを含む。方法はさらに、マイクロホンアレイのビームフォーミングされた感度を更新されたターゲット方向に向け直すステップを含む。

頭部装着型コンピューティングデバイスの可能な実現化例によれば、頭部装着型コンピューティングデバイスは、以下の特徴のうちの１つ以上（たとえばすべて）（またはそれらの任意の組合せ）を含み得る。

頭部装着型コンピューティングデバイスの可能な一実現化例では、マイクロホンアレイのビームフォーミングされた感度を更新されたターゲット方向に向け直すことは、ターゲット方向以外の方向においてマイクロホンアレイの感度を減少させることを含む。

頭部装着型コンピューティングデバイスの可能な一実現化例では、プロセッサはさらに、マイクロホンアレイのビームフォーミングされた感度を向けて向け直すために、マイクロホンアレイからの音声のチャンネルを互いに対して遅らせるように構成される。

頭部装着型コンピューティングデバイスの別の可能な実現化例では、複数のマイクロホンは無指向性マイクロホンを含み、無指向性マイクロホンは、無指向性マイクロホンの等方性感度に従って受信された音に基づいて、フォーカスされていない音声を生成するように構成される。この可能な実現化例では、プロセッサはさらに、無指向性マイクロホンによって受信された音に基づいて話者を検出し、マイクロホンアレイのビームフォーミングされた感度を話者の方へ向け直すように構成され得る。

頭部装着型コンピューティングデバイスの別の可能な実現化例では、複数のセンサは、頭部装着型コンピューティングデバイスを装着しているユーザの視点から映像を取り込むように構成されたカメラを含み、プロセッサはさらに、ユーザと参加者との会話を識別し、ターゲット方向を参加者に向かうものとして計算するように構成される。

頭部装着型コンピューティングデバイスの別の可能な実現化例では、複数のセンサは、頭部装着型コンピューティングデバイスの配向を測定するように構成された慣性測定ユニット（inertial measurement unit：ＩＭＵ）を含む。慣性測定ユニットは、マイクロホンアレイの配向の変化を追跡するように構成され得る。プロセッサは、追跡された変化に基づいて、基準系の配向の変化を検出し、更新されたターゲット方向を取得するように構成され得る。

別の可能な実現化例では、頭部装着型コンピューティングデバイスは、マイクロホンアレイのビームフォーミングされた感度に基づいて、ビームフォーミングされた音声を生成し、ビームフォーミングされた音声を、頭部装着型コンピューティングデバイス上で実行されている拡張現実アプリケーションに送信するように構成される。

頭部装着型コンピューティングデバイスの別の可能な実現化例では、プロセッサは、マイクロホンアレイのビームフォーミングされた感度に基づいて、ビームフォーミングされた音声を生成し、ビームフォーミングされた音声を複数のラウドスピーカに送信するように構成される。この可能な実現化例では、複数のラウドスピーカは、ユーザの片耳または両耳に装着されるように構成された１つ以上のヒアリング機器を含む。たとえば、ユーザの片耳または両耳に装着されるように構成された１つ以上のヒアリング機器は、プロセッサと無線で通信するように構成され得る。

別の局面において、本開示は一般に、会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法を記載する。方法は、ユーザと参加者との会話を、ユーザが装着した頭部装着型コンピューティングデバイスのカメラによって取り込まれた画像または映像に基づいて検出するステップを含む。方法はさらに、ユーザが装着した頭部装着型コンピューティングデバイスのセンサによって取り込まれた測定値に基づいて、ユーザの頭部姿勢を判定するステップを含む。方法はさらに、参加者および頭部姿勢の相対位置に基づいて、会話レイアウトを計算するステップを含む。方法はさらに、頭部装着型コンピューティングデバイスのマイクロホンアレイから音声のチャンネルを受信するステップと、会話レイアウトに基づいてビームフォーミングされた音声を生成するように音声のチャンネルを処理するステップとを含む。それに代えて、またはそれに加えて、会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法は、頭部装着型コンピューティングデバイスの配向に基づいて、マイクロホンアレイの基準系の配向を識別するステップと、基準系の配向に対するターゲット方向を計算するステップと、マイクロホンアレイのビームフォーミングされた感度をターゲット方向に向けるステップと、頭部装着型コンピューティングデバイスの配向の変化を検出すると、更新されたターゲット方向を取得するために、基準系を更新するステップと、マイクロホンアレイのビームフォーミングされた感度を更新されたターゲット方向に向け直すステップとを備え得る。

方法の可能な実現化例によれば、方法は、以下の特徴のうちの１つ以上（たとえばすべて）（またはそれらの任意の組合せ）を含み得る。

方法の可能な一実現化例では、ビームフォーミングされた音声は、参加者に向けられたビームフォーミングされた感度に従って受信された音に対応する。この実現化例では、方法はさらに、慣性測定ユニットを使用して頭部装着型コンピューティングデバイスの配向の変化を検出すると、更新された会話レイアウトを取得するステップと、ビームフォーミングされた感度を、更新された会話レイアウトにおける参加者に向け直すように、音声のチャンネルを処理するステップとを含み得る。

方法の別の可能な実現化例では、方法はさらに、ビームフォーミングされた音声をユーザに提示するステップを含む。

方法の別の可能な実現化例では、方法はさらに、居合わせた人（bystander）に向かう方向においてビームフォーミングされた音声の感度を減少させるステップを含む。

方法の別の可能な実現化例では、方法はさらに、頭部装着型コンピューティングデバイスのディスプレイ上に拡張現実ビジュアルを提示するステップを含み、拡張現実ビジュアルは、ビームフォーミングされた音声に対応する。たとえば、拡張現実ビジュアルは、会話の字幕であり得る。

別の局面において、本開示は一般に、非一時的コンピュータ読取可能媒体上で有形に具現化され、実行されると頭部装着型コンピューティングデバイスの少なくとも１つのプロセッサに方法を行なわせるように構成された命令を備える、コンピュータプログラム製品を記載する。方法は、頭部装着型コンピューティングデバイスの配向に基づいて、マイクロホンアレイの基準系を識別するステップを含む。方法はさらに、基準系に対するターゲット方向を計算するステップを含む。方法はさらに、マイクロホンアレイのビームフォーミングされた感度を、ターゲット方向に向かう方向に向けるステップを含む。方法はさらに、頭部装着型コンピューティングデバイスの配向の変化を検出すると、更新されたターゲット方向を取得するために、基準系を更新するステップを含む。方法はさらに、居合わせた人のプライバシーを提供するために、マイクロホンアレイのビームフォーミングされた感度を更新されたターゲット方向の方へ向け直すステップを含む。

この開示の前述の例証的な概要、他の例示的な目的および／または利点、ならびに、それらが達成される態様が、以下の詳細な説明およびその添付図面においてさらに説明される。

音響環境における無指向性マイクロホンの感度の例示的な極図表である。図１Ａの音響環境における音源へステアリングされるビームを有するマイクロホンアレイの感度の例示的な極図表である。本開示の可能な一実現化例に従った、ビームフォーミングされた音声を生成するように構成された頭部装着型コンピューティングデバイスの斜視図である。ユーザの頭が第１の位置にある場合に第１の方向にステアリングされるビームを有する頭部装着型マイクロホンアレイの感度の可能な極図表である。ユーザの頭が第２の位置にある場合に第２の方向にステアリングされるビームを有する頭部装着型マイクロホンアレイの感度の可能な極図表である。新たな話者が周囲マイクロホンによって検出された場合に第３の方向にステアリングされるビームを有する頭部装着型マイクロホンアレイの感度の可能な極図表である。図２の頭部装着型コンピューティングデバイスのマイクロホンアレイをターゲット上にフォーカスするための可能な方法のフローチャートである。本開示の可能な一実現化例に従った、会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法のフローチャートである。本開示の可能な一実現化例に従った、会話レイアウトに基づいてビームフォーミングされた音声を生成するために構成された頭部装着型コンピューティングデバイスのブロック図である。

図面における構成要素は、互いに対して必ずしも縮尺通りではない。いくつかの図面全体を通し、同じ参照番号は、対応する部分を指す。

詳細な説明
ビームフォーミングとは、ある特定の方向（複数可）におけるマイクロホンアレイの受信感度を、他の方向と比較して高めるための手法である。ビームフォーミングは、音源からの音声の品質を向上させるために、頭部装着型マイクロホンアレイの感度を音源に向かってステアリングするために使用され得る。しかしながら、頭部装着型マイクロホンアレイを装着しているユーザの頭部位置／配向（すなわち頭部姿勢）が変更されると、ステアリングされた感度の不整合という問題が生じるおそれがある。したがって、開示されるデバイスおよび方法は、ユーザの頭部位置／配向の変化に適応できる（すなわち、寛容である）頭部装着型マイクロホンアレイのための適応ビームフォーミング手法を提供する。開示される解決策は、ユーザにより多くの動く自由を提供しつつ、頭部装着型マイクロホンアレイによって取り込まれた音声の品質を向上させる技術的効果を有し得る。適応ビームフォーミングはまた、プライバシーの層を提供する技術的効果も有し得る。たとえば、ビームフォーミングは、ユーザと会話中の特定の人に対するマイクロホンアレイのフォーカスを維持し、居合わせた人から受信された音声の増幅を防止することができる。適応ビームフォーミングに関連する問題は、その処理要件である。開示されるデバイスおよび方法は、適応ビームフォーミングの処理要件を減少させるための手段を提供する。

図１Ａは、音響環境における無指向性マイクロホン１００の感度の例示的な極図表である。無指向性マイクロホン１００は、角度とともに変化しない（すなわち、等方性である）感度パターン（すなわち、感度１０１）を有する。したがって、無指向性マイクロホン１００は、発話源１０３（たとえば人）からの発話音声１０４を発話方向１０５に沿って、無指向性マイクロホン１００が雑音源１０８（たとえば機械類）からの雑音音声１０９を雑音方向１１０に沿って受信する感度１０１と略一致する感度１０１で受信するであろう。いくつかの用途（たとえば、ヘッドホン、イヤホン、または補聴器などのヒアリング機器）では、マイクロホンのユーザには発話音声１０４が雑音音声１０９よりも優先的に増幅され得るように、雑音方向１１０におけるマイクロホンの感度を減少させること、および／または、発話方向１０５におけるマイクロホンの感度を高めることが望ましいかもしれない。

ビームフォーミング（すなわち、ビームステアリング）とは、異なる方向からの音声が増大または減少され得るビームフォーミングされた音声信号を生成するために、音声の複数のチャンネルが処理（たとえば、フィルタリング、遅延、位相シフト）され得る信号処理である。たとえば、第１のマイクロホンと第２のマイクロホンとは、アレイ方向に沿ってある距離だけ空間的に分離され得る。この空間的分離距離と（アレイ方向に対する）音の方向とは、第１のマイクロホンでの第１の音声ストリームと第２のマイクロホンでの第２の音声ストリームとの間に両耳間遅延を招くおそれがある。ビームフォーミングは、音声ストリームのうちの１つをビームフォーミング遅延によってさらに遅らせることを含み得る。そのため、ビームフォーミング後、第１の音声ストリームおよび第２の音声ストリームは、両耳間遅延およびビームフォーミング遅延によって位相シフトされる。位相シフトされた音声ストリームは次に、ビームフォーミングされた音声を生成するために組合される（たとえば、合計される）。両耳間遅延に関してビームフォーミング遅延を調節することにより、ある特定の方向からの音声は、合計プロセスによって調節（たとえば、キャンセル、減衰、増大）され得る。たとえば、第１のマイクロホンおよび第２のマイクロホンによって受信された純正弦波は、両耳間遅延およびビームフォーミング遅延後の結合器での正弦波のバージョン同士の位相ずれが１８０度である場合には、ある特定の方向について完全にキャンセルされ得る。それに代えて、両耳間遅延およびビームフォーミング遅延後の結合器での正弦波のバージョン同士が同相（すなわち、位相ずれが０度）である場合には、結合器での正弦波のバージョン同士を増大することができる。

音声の複数のチャンネルは、マイクロホンのアレイ（すなわち、マイクロホンアレイ）によって取り込まれ得る（すなわち、収集され得る）。マイクロホンアレイにおける各マイクロホンは同じタイプのものであってもよく、または、アレイにおける異なるマイクロホンのタイプは異なっていてもよい。マイクロホンアレイは、１次元、２次元、または３次元に間隔を置かれた（たとえば等間隔の）複数のマイクロホンを含み得る。たとえば、マイクロホンアレイにおける各マイクロホンは無指向性であり得る。しかしながら、ビームフォーミングに起因して、マイクロホンアレイは、指向性である（すなわち、受信のためのビームを有する）ビームフォーミングされた感度を有し得る。したがって、ビームフォーミングされた感度をステアリングすることは、マイクロホンアレイの優先感度のビームをステアリングする（すなわち、位置付け直す）こととして理解され得る。

図１Ｂは、マイクロホンアレイ１２０のビームフォーミングされた感度の例示的な極図表である。特に、マイクロホンアレイ１２０における各マイクロホンは、音声チャンネルを生成し得る。等方性でないビームフォーミングされた感度を有するビームフォーミングされた音声チャンネルを生成するために、異なる音声チャンネルが処理され得る（たとえば、互いに対して位相シフトされ、合計され得る）。言い換えれば、マイクロホンアレイ１２０は、ビームフォーミング処理によって発話方向１０５と整列するようにステアリングされ得るビーム方向１２２にビーム１２１をフォーカスし得る。マイクロホンアレイ１２０におけるマイクロホンの数および間隔は、ビーム１２１の指向性（すなわち、フォーカス、角度範囲）に対応し得る。図１Ｂに示すように、マイクロホンアレイによって作成された、増加した指向性は、雑音音声１０９よりも高い振幅を有する発話音声１０４を含む、ビームフォーミングされた音声をもたらし得る。したがって、ビームフォーミングは、ユーザが（たとえば雑音の多い環境において）発話音声１０４を識別することを助け得る。それに加えて（またはそれに代えて）、ビームフォーミングは、他のコンピュータ支援発話アプリケーション（たとえば、音声認識、音声テキスト変換（voice-to-text：ＶＴＴ）、言語翻訳など）の精度を向上させ得る。加えて、ビームフォーミングはプライバシーを強化し得る。なぜなら、発話方向以外の方向から受信された他の音声１３３（たとえば、居合わせた人の会話）が、発話音声１０４よりもはるかに少ししか増幅できないためである。

頭部装着型コンピューティングデバイスは、さまざまな技術を可能にするためのさまざまな感知および計算資源を含み得る。たとえば、頭部装着型コンピューティングデバイスは、拡張現実（augmented-reality：ＡＲ）を提供するように構成され得る。ＡＲでは、頭部装着型コンピューティングデバイスにおけるセンサは、環境から、および頭部装着型コンピューティングデバイスを装着しているユーザから、感覚データを取り込むように構成され得る。この感覚データに基づいて、仮想要素が、ユーザの知覚体験を強化（すなわち、拡張）するために生成され得る。たとえば、仮想要素が現実環境と融合される（たとえば、重ね合わされる）場合、音（たとえばトーン、音楽、発話など）の生成、および／または、ビジュアル（たとえばグラフィック、テキスト、色など）の表示は、ユーザが知覚した環境に情報を追加することができる。

本開示は、ユーザの現実環境の自然な知覚を強化するように構成された頭部装着型コンピューティングデバイスを記載する。この強化は、ＡＲの仮想局面を含んでいても、含んでいなくてもよい。たとえば、頭部装着型コンピューティングデバイスは、会話に関連付けられた方向においてユーザが聞くことを支援するために、または、会話に関連付けられた方向からの音を録音するために、取り込まれた音声をビームフォーミングするように構成され得る。それに加えて（またはそれに代えて）、頭部装着型コンピューティングデバイスはさらに、会話にリアルタイムで字幕をつけることなどのＡＲアプリケーションを支援する（たとえば、その精度を向上させる）ために、取り込まれた音声をビームフォーミングするように構成され得る。

頭部装着型コンピューティングデバイスはさらに、ユーザが会話に関連付けられた方向以外の方向において会話を盗み聞きする（たとえば、耳を傾ける、録音する）ことを防止するのを助けるために、取り込まれた音声をビームフォーミングするように構成され得る。このプライバシーを達成するために、頭部装着型コンピューティングデバイスは、ユーザと会話中の参加者（複数可）を判定するために会話を検出するように構成され得る。この検出は、たとえば、頭部装着型コンピューティングデバイスのカメラ（複数可）から取り込まれた画像上でコンピュータビジョンアルゴリズムを実行することを含む、計算コストが高いプロセスを必要とし得る。この計算コストが高いプロセスは、それらがユーザの頭の動きに応答するのに十分な速度で連続的に実行される場合、頭部装着型コンピューティングデバイスの処理および／または電力予算を上回り得る。したがって、開示されるデバイスおよび方法は、会話（複数可）が判定された後で、計算コストがそれほど高くないプロセスにビームステアリングを手渡すことができる。計算コストがそれほど高くないプロセスは、位置／配向センサ（複数可）を使用して初期位置からの頭の動きの変化を判定し、次に、頭の動きの変化に対する参加者の位置を更新することを含み得る。ビームフォーミングは次に、参加者（複数可）に対するフォーカスを維持するために、頭の動きに応答してビームステアリングを調節し得る。このアプローチは、必要な処理および／または電力がより少ないため、それは、ユーザの頭の動きに応答するのに十分高速で実行され得る。

図２は、本開示の可能な一実現化例に従った、ビームフォーミングされた音声を生成するように構成された頭部装着型コンピューティングデバイスの斜視図である。図示されるように、頭部装着型コンピューティングデバイスは、スマート眼鏡として実現され得る。本明細書では、「スマート眼鏡」は、この開示を説明する目的のために、「頭部装着型コンピューティングデバイス」という用語と同じ意味で説明され、言及されるであろう。しかしながら、本明細書で提示される手法は、より一般的には、（たとえば、頭部装着型コンピューティングデバイスの機能へのいくつかの変更を可能にするために）頭の動きに従ってフォーカス（すなわち、ステアリング）され得るマイクロホンアレイ（複数可）を含む、あらゆる頭部装着型コンピューティングデバイスに適用され得る。たとえば、この開示は、仮想現実（virtual-reality：ＶＲ）ヘッドセットまたはスマートイヤーバッドとして実現され得るということが考えられる。

図２に示す頭部装着型コンピューティングデバイス２００は、ユーザの頭／顔に装着されるように構成される。頭部装着型コンピューティングデバイス２００は、さまざまなセンサおよびさまざまなインターフェイスを有して構成され得る。加えて、頭部装着型コンピューティングデバイスは、ポータブルな動作を可能にするための電源（たとえばバッテリ）と、データおよびコンピュータ読取可能命令を格納するためのメモリと、映像／画像／深度情報を取り込むための１つ以上のカメラ２０１（たとえばカメラ）と、レンズ（複数可）のディスプレイエリア２２０においてビジュアルをユーザに提示するためのプロジュクタ／ディスプレイとを含み得る。したがって、頭部装着型コンピューティングデバイス２００は、前述されたようにＡＲのために構成可能であり、ディスプレイエリア２２０において拡張現実ビジュアルをユーザに提示可能である。一実現化例では、拡張現実ビジュアルは、会話の字幕を含み得る。加えて、頭部装着型コンピューティングデバイス２００は、頭の動きとともに（たとえば自動的に）変化し得るある方向（複数可）からの音声を優先的に取り込むことができるサブシステムおよび回路を含み得る。取り込み方向（複数可）におけるこの優先性は、ユーザが聞くことを改良し、アプリケーションの機能を向上させ、および／または、ユーザと会話していない居合わせた人のためのプライバシーの層を提供することを助け得る。

頭部装着型コンピューティングデバイス２００はさらに、マイクロホンアレイ２１０としてともに動作され得る複数のマイクロホン２１１Ａ～Ｆを含み得る。マイクロホンアレイ２１０におけるマイクロホンは、ユーザの環境から音声を取り込むように構成され得る。たとえば、ユーザが頭部装着型コンピューティングデバイスを装着している場合、マイクロホンは、ユーザの視界に向けられ得る。マイクロホンアレイ２１０におけるマイクロホンは、さまざまに間隔を置かれ得る。可能な一実現化例では、１つ以上のマイクロホン（２１１Ａ、２１１Ｂ）が右チャンネルを形成し、一方、１つ以上のマイクロホン（２１１Ｃ、２１１Ｄ）が左チャンネルを形成し得る。右チャンネルにおけるマイクロホンと、左チャンネルにおけるマイクロホンとは、自然な両耳間隔をシミュレートするように間隔を置かれ得る。たとえば、左チャンネルのマイクロホン（２１１Ｃ、２１１Ｄ）は、頭部装着型コンピューティングデバイスの左レンズ２４２の近傍に位置付けられ、一方、右チャンネルのマイクロホン（２１１Ａ、２１１Ｂ）は、頭部装着型コンピューティングデバイスの右レンズ２４１の近傍に位置付けられ得る。別の可能な実現化例では、マイクロホンのレイアウトは、頭部装着型コンピューティングデバイス２００の基準系２５０のある方向（たとえば基本方向）にビームフォーミングすることを助け得る。頭部装着型コンピューティングデバイス２００の基準系２５０は空間で固定されていないが、むしろ、頭部装着型コンピューティングデバイス２００が空間で動くにつれて頭部装着型コンピューティングデバイス２００の配向を追跡する配向を有する。基準系２５０は、たとえばデバイスの水平方向と平行であり得る第１の軸２５１と、たとえばデバイスの垂直方向と平行であり得る第２の軸２５２と、第１および第２の軸に直交する第３の軸２５３という３つの直交軸によって規定され得る。図２に示すように、マイクロホンの第１のアレイ（２１１Ａ、２１１Ｂ、２１１Ｃ、２１１Ｄ）は、頭部装着型コンピューティングデバイス２００の基準系２５０の第１の軸２５１と平行に整列され得る。マイクロホンの第１のアレイに適用されるビームフォーミングアルゴリズムは、ユーザの頭の左／右（すなわち、ヨー（yaw））の動きに応答してビームをステアリングし得る。マイクロホンの第２のアレイ（２１１Ｅ、２１１Ｆ）は、頭部装着型コンピューティングデバイス２００の基準系２５０の第２の軸２５２と平行に整列され得る。マイクロホンの第２のアレイに適用されるビームフォーミングアルゴリズムは、ユーザの頭の上／下（すなわち、ピッチ）の動きに応答してビームをステアリングし得る。一般に、任意の数の方向と整列されたマイクロホンのアレイがあり得る。ビームフォーミングは、複数の方向においてビームステアリングに対処するために、異なるマイクロホンアレイを組合せることを含み得る。

図３Ａおよび図３Ｂは、上述されたようなビームフォーミングを示す。図３Ａでは、ユーザ３０１の頭に装着された頭部装着型コンピューティングデバイスのマイクロホンアレイは、（たとえばユーザ３０１と会話中の）第１の話者３０２に向かってビームフォーミング（すなわち、フォーカス）され得る。ここで、ユーザの頭は第１の位置にあり、頭部装着型コンピューティングデバイスのマイクロホンアレイのビーム３２０は、ユーザの視線方向３１０と整列される。図３Ｂでは、ユーザの頭は、第１の位置から角度３３０だけ回転される。頭部装着型コンピューティングデバイスのマイクロホンアレイは、ユーザの頭の動き（すなわち、ヨー）にもかかわらず、第１の話者３０２に対してフォーカスされたままであるように、ビームフォーミングを調節するように構成される。言い換えれば、ユーザの頭が第１の方向に（たとえば右に）角度３３０だけ回転される場合、頭部装着型コンピューティングデバイスは、ビーム３２０を第１の方向とは反対の第２の方向に（たとえば左に）角度３３０だけ回転させるように、ビームフォーミングを調節するようにトリガされ得る。

頭部装着型コンピューティングデバイス２００はさらに、マイクロホンアレイ２１０によって除外され得るさまざまな音を取り込むように構成された周囲マイクロホン２１２を含み得る。たとえば、周囲マイクロホン２１２の指向性感度は、図１Ａに示す感度に似ていてもよく、一方、マイクロホンアレイ２１０の感度は、図１Ｂに示す感度に似ていてもよい。周囲マイクロホン２１２は、頭の動きではなく音に応答してビームフォーミングすることにとって有用であり得る。たとえば、ビームフォーミングは、会話での話者の変化に応答して適用され得る。たとえば、第１の時間に、周囲マイクロホン２１２からの音声に基づいて、第１の話者が話していると認識され得る。したがって、マイクロホンアレイ２１０は、第１の話者に向かってフォーカス（すなわち、ビームフォーミング）され得る。次に、第２の時間に、周囲マイクロホン２１２からの音声に基づいて、第２の話者が話していると認識され得る。第２の話者は、第２の話者からの音の品質（たとえばトーン、ピッチ）に基づいて認識され得る。この認識のために、この品質は、会話の参加者に関連付けられた参加者リストに格納された品質と比較され得る。第２の話者が認識された後で、マイクロホンアレイ２１０は、第２の話者に向かってフォーカス（すなわち、ビームフォーミング）され得る。フォーカスすることは、会話レイアウトに格納された第２の話者の方向に向かってフォーカスすることを含み得る。それに代わって、フォーカスすることは、第２の話者と一致する品質を有する受信音が最大化されるまで、マイクロホンアレイのビームをスキャンするように、マイクロホンアレイにおけるマイクロホンの相対位相を調節することを含み得る。このため、ビームフォーミングは、頭の動きなしで適用され得る。

図３Ａおよび図３Ｃは、上述されたようなビームフォーミングを示す。図３Ａでは、装着された頭部装着型コンピューティングデバイスのマイクロホンアレイは、（たとえばユーザ３０１と会話中の）第１の話者の音声３０４を高い指向性感度で取り込むために、第１の話者３０２に向かってビームフォーミング（すなわち、フォーカス）され得る。図３Ｃに示すように、頭部装着型コンピューティングデバイスの周囲マイクロホンは、等方性感度３４０を有する。周囲マイクロホン２１２が第２の話者３０３からの第２の話者の音声３０５を取り込む場合、頭部装着型コンピューティングデバイスは、第２の話者音声３０５を高感度で取り込むために、上述のように、マイクロホンアレイのビーム３２０を第２の話者３０３に向かって回転させる（すなわち、フォーカスする）ように、ビームフォーミングを調節するようにトリガされ得る。一般に、ビームの方向は、無指向性マイクロホンによって受信された音（たとえば発話）に基づいてターゲットの変化（たとえば話者の変化）を検出すると、更新され得る。たとえば、会話中の話者は各々、会話レイアウトに格納された対応する方向を有し得る。話している話者を判定するために、無指向性マイクロホンからの音声（すなわち、フォーカスされていない音声）が（たとえば音声認識を使用して）処理され得る。会話レイアウトは次に、マイクロホンアレイのビームをフォーカスするための方向を判定するために、話している話者について対処され得る。図３Ａ～３Ｃに示す例は限定的ではない。たとえば、話者の数は２人に限定されず、また、いくつかの実現化例では、マイクロホンアレイは、複数のビームを複数の話者にフォーカスするように構成されてもよい。

頭部装着型コンピューティングデバイス２００はさらに、複数のラウドスピーカを含み得る。可能な一実現化例では、複数のラウドスピーカは、ユーザの左耳へ音声を送信するように構成された左ラウドスピーカ（複数可）と、ユーザの右耳へ音声を送信するように構成された右ラウドスピーカ（複数可）とを含む。これらのラウドスピーカは、頭部装着型コンピューティングデバイス２００のフレーム内に一体化され得る。たとえば、左ラウドスピーカ２３１は、頭部装着型コンピューティングデバイスの左アームに一体化され、右ラウドスピーカ２３０は、頭部装着型コンピューティングデバイスの右アームに一体化され得る。可能な実現化例では、頭部装着型コンピューティングデバイスは、左イヤーバッド２３４と右イヤーバッド２３３とを含み得る。左イヤーバッド２３４および右イヤーバッド２３３は、有線または無線通信リンク２３２（たとえば、ブルートゥース（登録商標）、ＷｉＦｉなど）を介して、頭部装着型コンピューティングデバイスにおける処理へ通信可能に結合され得る。イヤーバッドは、ユーザのそれぞれの耳に装着され得る。イヤーバッドは、マイクロホンアレイ２１０によって受信された音声を再生するように構成され得る。イヤーバッドによって再生された音声は、図１Ｂに関連して説明されたようなビームフォーミング（すなわち、ビームステアリング、フォーカシング）プロセスに起因する、ビームフォーミングされた音声であり得る。

マイクロホンアレイ２１０の感度は、第１の方向において、ターゲット（たとえば人）に向かってフォーカスされ得る。マイクロホンアレイ（すなわち、頭部装着型コンピューティングデバイス２００）の配向が変化する場合、マイクロホンアレイ２１０の感度は、マイクロホンアレイの配向とともに変化する頭部装着型ディスプレイの基準系に対する第２の方向において、ターゲットに向かってフォーカスされ得る。第２の方向は、配向の変化に対応する。言い換えれば、ユーザが頭部装着型コンピューティングデバイスを装着している場合、ユーザの頭が動いても、マイクロホンアレイのフォーカスはターゲット上で維持され得る。この動きは、ユーザの頭の配向の変化および／または位置の並進を含み得る。

第１の方向および第２の方向は、頭部装着型コンピューティングデバイス上のさまざまなセンサを使用して判定され得る。第１の方向は第１のセンサを使用して確立され、一方、第２の方向は第２のセンサを使用して判定され得る。たとえば、カメラが、ターゲット（たとえば人）とターゲットに向かう第１の方向とを判定するために分析される画像／映像を取り込み得る。第１の方向が確立された後で、第２の方向が、第１の方向からの変化として判定され得る。第１の方向からのこの変化を計算することは、減少した処理要件でセンサを使用して達成され得る。たとえば、頭部装着コンピューティングデバイスは、第１の方向に対する第２の方向を判定するために配向の変化を測定するためのＩＭＵを含み得る。ＩＭＵは、コンピュータビジョン手法を行なうために必要とされる処理要件がより少ない状態で変化に迅速に応答可能であり得るため、それは、より速い追跡速度を提供でき、それは、いくつかのビームフォーミングアプリケーション（たとえば、居合わせた人のプライバシー）にとって有用であり得る。より遅い追跡速度を必要とするアプリケーションについては、位置の変化はまた、頭部装着型コンピューティングデバイスにおけるセンサによって取り込まれた画像、深度データ、および／または位置データ（たとえばＧＰＳデータ）を使用して取得され得る。

ＩＭＵは、マイクロホンアレイ２１０の配向を判定（および追跡）するように構成され得る。たとえば、カメラおよび／またはＩＭＵからのデータは、空間で固定された基準枠に対する頭部装着型コンピューティングデバイス２００の基準系２５０の初期配向を規定することを助け得る。その後、ＩＭＵからのデータは、初期配向からの頭部装着型コンピューティングデバイス２００の基準系２５０の配向の変化を検出し、変化または配向を数値化することを助け得る。言い換えれば、ＩＭＵは、頭部装着型コンピューティングデバイス２００を装着している頭の動きを検出し、頭の動きを数値化し、動きの後の新たな頭の配向を確立することを助け得る。

頭部装着型コンピューティングデバイス２００のＩＭＵは、多軸加速度計、ジャイロスコープ、および／または磁力計を含み得る。ＩＭＵは、高い追跡速度および／またはより低い処理要件を必要とするアプリケーションにとって好ましいかもしれない。たとえば、バッテリを介して動作する頭部装着型コンピューティングデバイスは、制限された電力資源を有し得る。ＩＭＵは、大量の動力を消費することなく、配向を連続的に測定し得る。加えて、ＩＭＵからデータを読取ることは、比較的単純なコントローラを使用して達成され得る。したがって、ＩＭＵは、頭部装着型コンピューティングデバイスの制限された処理／電力資源を酷使することなく、マイクロホンアレイ２１０の配向を非常に高速で連続的に追跡するのを助けることが可能であり得る。この電力／処理効率のよい連続的な追跡は、頭の動きに迅速に応答するのに有用であり得る。

配向の判定は、頭部装着型コンピューティングデバイス２００の代替または追加センサを使用し得る。たとえば、頭部装着型コンピューティングデバイスは、マイクロホンアレイ２１０の動きに対応する、頭部装着型コンピューティングデバイス２００の動きを光学的に感知するための（たとえば構造化された光、ライダー（ＬＩＤＡＲ）を使用する）深度カメラを含み得る。

図４は、本開示の可能な一実現化例に従った、頭部装着型コンピューティングデバイスのマイクロホンアレイをターゲット上にフォーカスするための方法のフローチャートである。方法４００は、ユーザの頭に装着されたマイクロホンアレイのための基準系の配向を判定するステップ４０５を含む。マイクロホンアレイは、図２に示すように頭部装着型コンピューティングデバイスの一部として含まれていてもよいが、それはまた、システムの一部であってもよい。たとえば、マイクロホンアレイは、マイクロホンアレイをフォーカスするためのコンポーネント同士が物理的には別々であるものの（たとえば無線で）通信可能に結合されているシステムの一部であってもよい。マイクロホンアレイの基準系の配向は、ＩＭＵなどの１つ以上のセンサによって判定され得る。マイクロホンアレイの基準系は、ユーザの視点と整列されていても、整列されていなくてもよい。

方法４００はさらに、ターゲットを識別するステップ４１０を含む。ターゲットは、人または物体（たとえば、テレビ、ラジオ、スピーカなど）などの音源であり得る。ターゲットを識別するステップは、基準系に対するターゲットの位置または方向を指すステップを含み得る。識別するステップは、自動的であってもよく、または手動であってもよい。可能な一実現化例では、ターゲットを識別（たとえば取得）するために、ユーザの視点はターゲット上に位置付けられ得る。たとえば、ユーザは、ユーザの視界内にターゲットを位置付け、次に、ユーザによって話され、頭部装着型コンピューティングデバイスによって認識されるキーワード（たとえば、「話者をロックオン（連続追跡）する」、「話者を切り替える」）を使用して、ターゲットを識別するように頭部装着型コンピューティングデバイスをトリガし得る。それに代えて、ユーザは、ユーザの視界内にターゲットを位置付け、次に、頭部装着型コンピューティングデバイスと物理的に対話すること（たとえばボタンを押すこと、デバイスをタップすることなど）によって、ターゲットを識別するように頭部装着型コンピューティングデバイスをトリガし得る。自動ターゲット認識では、頭部装着型コンピューティングデバイスのマイクロホンからの音、および／または、頭部装着型コンピューティングデバイスのカメラからの画像が、ターゲットを識別するために監視され得る。たとえば、これらの音および画像は、ターゲットとの会話を示す発話パターン（休止、話者の変化など）および視覚的合図（たとえばアイコンタクト）を識別するために、コンピュータ認識アルゴリズムを使用して処理され得る。別の可能な実現化例では、特定の音が、ターゲットを識別するために認識され得る。

ターゲットがいったん識別されると、方法は、基準系に対するターゲット方向を判定するステップ４１５を含み得る。可能な一実現化例では、ターゲット方向は、光を使用して判定され得る。たとえば、撮像感知およびコンピュータビジョンアルゴリズムが、頭部装着型コンピューティングデバイスの１つ以上のカメラ２０１によって取り込まれた静止画および／または動画に基づいて（たとえば、ユーザの視点に対する）ターゲットの方向を判定するように構成され得る。別の可能な実現化例では、ターゲット方向は、音を使用して判定され得る。たとえば、音感知およびコンピューティングヒアリングアルゴリズムが、上述のように、ターゲットによって放出された音に基づいてターゲットの方向を判定するように構成され得る。

頭部装着型コンピューティングデバイス２００の初期基準系とターゲットとがいったん取得され、空間的に判定されると、方法は、マイクロホンアレイをターゲット方向に（たとえばターゲット上に）フォーカスするステップ４２０を含み得る。フォーカスするステップは、マイクロホンアレイの感度が、頭部装着型コンピューティングデバイス２００の基準系のターゲット方向において、他の方向よりも高くなる（たとえば最も高くなる）ように、マイクロホンアレイにおける各マイクロホンによって受信された音声信号を処理することによって行なわれ得る。言い換えれば、フォーカスするステップは、システムへの物理的変化ではなく、信号処理に起因し得る。

マイクロホンアレイは、マイクロホンアレイの動きが（たとえばＩＭＵを使用して）検出されるまで、ターゲット方向にフォーカスされたままであり得る。マイクロホンアレイの動きが検出される（４２５）と、方法は、空間における固定された基準枠に対する、および／または、頭部装着型コンピューティングデバイスの初期基準系に対する、基準系の配向への変化を判定するステップ４３０を含み得る。たとえば、基準系の最初に判定された配向に対する、基準系の新たな配向の角度（複数可）が判定され得る。基準系の配向への変化は、ターゲット方向を更新する（４４０）ために使用され得る。ターゲット方向が更新された後で、マイクロホンアレイのビームフォーミングされた感度は、更新されたターゲット方向に向け直されてもよく、それは、別の動きが検出されるまでそこにとどまる。マイクロホンアレイのビームフォーミングされた感度を更新されたターゲット方向に向け直すことは、更新されたターゲット方向以外の方向においてマイクロホンアレイの感度を減少させることを含み得る。このプロセスは、ターゲットに対する頭部装着型コンピューティングデバイスのマイクロホンアレイのフォーカスを維持するために繰り返され得る。基準系の変化を判定するステップ４３０、および、ターゲット方向を更新するステップ４４０は、ユーザの動きが抑制されないように、ユーザの頭の自然な動きに対応するのに十分速い第１の速度で繰り返され得る。ターゲットを識別するステップ４１０、および、ターゲット方向を計算するステップ４１５も、第１の速度よりも遅くなり得る第２の速度で繰り返され得る。なぜなら、ターゲットは、頭の動きに比べて長い時間尺度で追加または除去され得るためである。したがって、ターゲットに対する初期基準系配向を判定し、次に、初期配向からの配向の変化を追跡するアプローチは、ターゲットを連続的に識別してターゲットの方向を計算するアプローチよりも、使用する資源がより少なく、バッテリ駆動式の頭部装着型コンピューティングデバイスなどの処理／電力が制限された用途において都合良く使用され得る。たとえば、プロセッサは、初めにターゲットを検出するためにコンピュータビジョンアルゴリズムを行ない、基準系の初期配向に対してターゲット方向がいったん判定されると、次に基準系への変化に基づいてターゲット方向を連続的に更新するように構成され得る。図４に示す方法は、さまざまな頭部装着型マイクロホンアレイ、さまざまなターゲット、および、ターゲットを識別するためのさまざまな手段に適用され得る。より特定的な一実現化例を図５に示す。

図５は、会話に基づいてビームフォーミングされた音声を生成するための方法についてのフローチャートである。方法は、居合わせた人のセキュリティのレベルを、頭部装着型コンピューティングデバイスによって提供されるあらゆる会話強化に提供するために実現され得る。たとえば、ビームフォーミングは、ユーザが居合わせた人の話を盗み聞きすること、および／またはうっかり聞いてしまうことを防止し得る。方法はまた、ユーザが会話を理解するのを支援するために実現され得る。方法はまた、会話内の単語を正確に認識するように（たとえば、頭部装着型コンピューティングデバイス上で実行される）アプリケーションを支援するために使用され得る。したがって、ビームフォーミングされた音声はまた、ＡＲのために構成され得る図２の頭部装着型コンピューティングデバイス（たとえばスマート眼鏡）上で実行されるＡＲアプリケーションで使用され得る。図５の方法は、この文脈において説明される。

方法５００は、ユーザについて頭部装着型センサを監視するステップを含む。特に、頭部装着型コンピューティングデバイス２００におけるＩＭＵが監視され（５２５）、頭部装着型コンピューティングデバイス２００を装着しているユーザの頭の配向／位置（すなわち、頭部姿勢５３５）を判定する（５３０）ために使用され得る。たとえば、ユーザの頭部姿勢５３５は、マイクロホンアレイ２１０と整列された基準系２５０を含み得る。ユーザが頭部装着型コンピューティングデバイス２００を装着している際、頭部姿勢５３５は、頭部姿勢の変化がビームフォーミングの変化をトリガし得るように、繰り返し更新され得る。

方法５００はまた、会話について頭部装着型センサを監視するステップを含む。たとえば、会話参加者（すなわち、参加者）とユーザとの会話に関連付けられた視覚特徴（たとえばアイコンタクト、唇の動きなど）に基づいて会話を検出するように構成されたコンピュータビジョンアルゴリズムに適用され得る映像／画像を、１つ以上のカメラ２０１が監視し（すなわち、取り込み）得る（５０５）。同様に、参加者とユーザとの会話に関連付けられた音声特徴（たとえば、音声テキスト変換、休止、文字起こしなど）に基づいて会話を認識するように構成された音声／発話認識アルゴリズムに適用され得る音声を、周囲マイクロホン２１２が監視し（すなわち、取り込み）得る（５０５）。可能な一実現化例では、会話を検出するために、視覚特徴および音声特徴の双方が監視され得る（５０５）。会話が検出された後で、頭部装着型センサは、参加者とユーザとの会話のステータス（すなわち、活発、不活発）を判定する（５１０）ために監視され得る。たとえば、音声または視覚特徴がある期間にわたって検出されない場合、会話は不活発である（すなわち、終わっている、終了している）と判定され得る。

会話は、２人以上の参加者を含んでいてもよい。したがって、方法５００はさらに、検出された会話に対応する参加者リスト５２０を追加、除外、または他の態様で更新するステップ（５１５）を含み得る。たとえば、第１の時間に、ユーザと第１の参加者との間で会話が検出され得る。第１の時間では、参加者リストは、１つの会話（すなわち、第１の参加者）を含む。第２の時間に、第２の参加者が会話に参加するかまたは新たな会話を始め得る。第２の時間では、参加者リストが第１の参加者と第２の参加者とを含むように、第２の参加者が参加者リストに追加され得る。第２の参加者による会話がある期間不活発になった後の第３の時間に、第１の参加者だけが残るように第２の参加者が参加者リスト５２０から除外される（すなわち、除去、削除される）。第１の参加者による会話がある期間不活発になった後の第４の時間に、参加者リストが空になるように第１の参加者がリストから除外され得る。参加者リストは、ユーザと人々との対話に基づいて自動的に変化し得る。参加者リストは、ある参加者に関連付けられたさまざまな情報を含み得る。たとえば、その参加者の識別子、および、その参加者とユーザとの会話のステータスが、参加者リスト５２０に含まれ得る。加えて、参加者リスト５２０は、各参加者の（たとえば、視覚、聴覚）特徴を含み得る。このように、以前の参加者が再び現われる場合、会話はより容易に認識され得る。

参加者リストに基づいて、方法はさらに、ユーザの頭部姿勢５３５に対する、参加者リスト５２０上の各参加者の位置を判定するために、頭部装着型コンピューティングデバイス２００の頭部装着型センサ（たとえばカメラ、マイクロホン）を監視するステップ５４０を含む。ユーザおよび参加者の相対位置に基づいて、会話レイアウト５６０が計算（または更新）され得る（５４５）。会話レイアウト５６０は、図３Ｃに示すような、参加者と、ユーザに対する方向とを含み得る。頭部装着型コンピューティングデバイス２００のマイクロホンアレイ２１０は次に、ビームフォーミングされた音声５７５を生成するために、マイクロホンアレイ２１０からの音声を監視し（すなわち、取り込み）（５５５）、ビームフォーミングアルゴリズムに従って処理し得る。たとえば、取り込まれた音声は、マイクロホンアレイを各参加者に同時にまたは順次ビームフォーミングする（５７０）ために、会話レイアウトに従って処理（フィルタリング、遅延、位相シフト）され得る。

参加者リスト５２０とユーザの頭部姿勢５３５とに基づく会話レイアウト５６０が変化するにつれて、ビームフォーミングされた音声５７５は自動的にリアルタイムで更新され得る。会話レイアウト（たとえば頭部姿勢）がどのように変化するかにかかわらず、ユーザが会話中の参加者から音声を聞くのを助けるために、ビームフォーミングされた音声５７５は、（たとえばユーザの耳の中の）ラウドスピーカを介してユーザ５８５に提供され得る。ビームフォーミングされた音声５７５はまた、ＡＲアプリケーション５８０に提供され得る。ＡＲアプリケーションは、ビームフォーミングされた音声５７５を、ユーザによって経験され得る出力に修正または変換し得る。たとえば、ＡＲアプリケーションは、ディスプレイエリア２２０においてユーザに表示され得る字幕（たとえば、テキスト音声変換、翻訳）を生成するために、ビームフォーミングされた音声を処理し得る。ビームフォーミングされた音声は、ユーザが検出された会話に居合わせた人から音声を受信するのを防止または妨害することによってプライバシーを提供する技術的効果を有し得る。

図６は、本開示の可能な一実現化例に従った、会話レイアウトに基づいてビームフォーミングされた音声を生成するために構成された頭部装着型コンピューティングデバイスのブロック図である。頭部装着型コンピューティングデバイス６００は、複数のセンサ６１０を含み得る。センサ６１０は、視界の画像／映像を取り込むように構成された１つ以上の画像センサ６１１（たとえばカメラ）を含み得る。センサ６１０はまた、頭部装着型コンピューティングデバイスの配向および／または動きを測定するように構成されたＩＭＵ６１２を含む。センサ６１０はさらにマイクロホンアレイ６１５を含み、それは、複数のマイクロホン６１３Ａ、６１３Ｂ、６１３Ｃを含み得る。

頭部装着型コンピューティングデバイス６００はさらに、複数のインターフェイス６４０を含み得る。インターフェイス６４０は、頭部装着型コンピューティングデバイス６００との間でデータを送信／受信するように構成された通信インターフェイス６４１を含み得る。たとえば、通信インターフェイス６４１は、短距離無線通信トランシーバ（たとえばブルートゥース）を含み得る。可能な一実現化例では、通信インターフェイス６４１は、ユーザが装着しているヒアリング機器（たとえば、補聴器、イヤーバッドなど）に結合される。インターフェイス６４０は、画像、グラフィックス、および／またはテキストをユーザに提示するように構成されたディスプレイ６４２を含み得る。インターフェイスはさらに、１つ以上のラウドスピーカ６４３Ａ、６４３Ｂ、６４３Ｃを含み得る。１つ以上のラウドスピーカは、左ラウドスピーカと右ラウドスピーカとを含み得る。可能な一実現化例では、ラウドスピーカは、ラウドスピーカアレイ６４５に含まれ得る。

頭部装着型コンピューティングデバイス６００はさらに、非一時的コンピュータ読取可能媒体（すなわちメモリ６３０）を含み得る。メモリ６３０は、データおよび／またはコンピュータプログラムを格納し得る。これらのコンピュータプログラム（モジュール、プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている）は、プログラマブルプロセッサのためのマシン命令を含んでいてもよく、高レベルの手続き型および／またはオブジェクト指向プログラミング言語で、ならびに／もしくは、アセンブリ／マシン語で実現され得る。たとえば、メモリは、非一時的コンピュータ読取可能媒体上で有形に具現化されたコンピュータプログラム製品を含み得る。コンピュータプログラム製品は、実行されると、少なくとも１つのプロセッサ６２０に、図５に示すような、会話に基づいてビームフォーミングされた音声を生成するための方法を行なわせる、コンピュータ実行可能命令（すなわち、ソフトウェア命令）を含み得る。したがって、メモリ６３０はさらに、（最新の）参加者リスト５２０、頭部姿勢５３５、および会話レイアウト５６０を格納するように構成され得る。

頭部装着型コンピューティングデバイス６００はさらに、少なくとも１つのプロセッサ６２０を含み得る。少なくとも１つのプロセッサ６２０は、ビームフォーミングされた音声を生成するための方法のさまざまな局面を行なうために、１つ以上のモジュールを実行し得る。１つ以上のモジュールは、センサ６１０から測定値を受信し、当該測定値に基づいてユーザと参加者との会話を検出するように構成された会話検出器６２１を含み得る。会話検出器の結果は、メモリ６３０内の参加者リスト５２０に格納され得る。１つ以上のモジュールはさらに、センサ６１０から測定値を受信し、当該測定値に基づいてユーザの頭の配向（すなわち、マイクロホンアレイ６１５の配向）を計算するように構成された頭部姿勢計算器６２２を含み得る。頭部姿勢計算器６２２の結果は、頭部姿勢５３５としてメモリ６３０に格納され得る。１つ以上のモジュールはさらに、参加者リスト５２０と頭部姿勢５３５とに基づいて会話のレイアウト（すなわち、マップ）を生成するように構成された会話レイアウト生成器６２３を含み得る。頭部姿勢計算器６２２の結果は、会話レイアウト５６０としてメモリ６３０に格納され得る。１つ以上のモジュールはさらに、マイクロホンアレイ６１５における各マイクロホン（またはマイクロホンの一部）から音声信号（すなわち、チャンネル）を受信し、ビームフォーミングされた音声（たとえばビームフォーミングされた音声信号）を生成するように音声信号を処理するように構成されたビームフォーマ６２４を含み得る。ビームフォーミングされた音声は、インターフェイス６４０へ通信されてもよく、または、いくつかの実現化例では、ユーザへ通信され得る。

明細書および／または図面において、典型的な実施形態が開示されてきた。本開示は、そのような例示的な実施形態に限定されない。「および／または」という用語の使用は、関連する列挙された項目のうちの１つ以上の項目のありとあらゆる組合せを含む。図面は概略表現であり、そのため、必ずしも縮尺通りに描かれてはいない。特断の記載がない限り、特定の用語は、限定のためではなく、包括的および記述的な意味で使用されてきた。

特に断りのない限り、本明細書で使用されるすべての技術用語および科学用語は、当業者によって通常理解されるものと同じ意味を有する。本明細書で説明されたものと同様または同等である方法および材料が、本開示の実践または検査で使用され得る。明細書で、および添付された請求項で使用されるように、文脈が明白に他の意味を指す場合を除き、単数形は複数の指示対象を含む。本明細書で使用されるような「備える」という用語およびその変形は、「含む」という用語およびその変形と同義に使用され、制限のない非限定的な用語である。本明細書で使用される「オプションの」または「オプションで」という用語は、その次に説明される特徴、事象または状況が生じるかどうか分からないことを意味し、また、説明が、前記特徴、事象または状況が生じる事例と、それが生じない事例とを含むことを意味する。本明細書では、範囲は、「約（ある特定値）」から、および／または、「約（別の特定値）」までとして表現され得る。そのような範囲が表現される場合、局面は、当該特定値から、および／または、当該別の特定値までを含む。同様に、値が、先行する「約」の使用により、近似値として表現される場合、当該特定値が別の局面を形成するということが理解されるであろう。さらに、範囲の各々の端点が、他方の端点に関して、および、他方の端点から独立して、重要であるということが理解されるであろう。

説明された実現化例のある特徴が、本明細書で説明されるように示されてきたが、多くの修正、置換、変更、および均等物が現在、当業者の脳裏に浮かぶであろう。したがって、添付された請求項が、実現化例の範囲内に該当するような修正および変更をすべて網羅するよう意図されるということが理解されるべきである。それらは限定ではなく例としてのみ提示されてきたこと、ならびに、形態および詳細のさまざまな変更が行なわれてもよいことが理解されるべきである。本明細書で説明される装置および／または方法のどの部分も、互いに矛盾する組合せ以外は、任意の組合せで組合されてもよい。本明細書で説明される実現化例は、説明される異なる実現化例の機能、構成要素、および／または特徴のさまざまな組合せおよび／または部分的組合せを含み得る。

前述の説明では、ある要素が別の要素に載っているか、接続されるか、電気的に接続されるか、結合されるか、または電気的に結合されるとして言及される場合、それは別の要素に直接載っているか、接続されるか、または結合されてもよく、もしくは、１つ以上の介在要素が存在していてもよいということが理解されるであろう。対照的に、ある要素が別の要素に直接載っているか、直接接続されるか、または直接結合されるとして言及される場合、存在する介在要素はない。「直接載っている」、「直接接続される」、または「直接結合される」という用語は詳細な説明全体にわたって使用されていないかもしれないが、直接載っているか、直接接続されるか、または直接結合されるとして示される要素は、そういうものとして言及され得る。本願の請求項は、必要であれば、明細書で説明されたか図面に示された例示的な関係を記載するために補正されてもよい。

本明細書で使用されるように、単数形は、文脈の観点から見て特定の場合を明確に示す場合を除き、複数形を含む。空間的に相対的な用語（たとえば、「の上に」、「より上に」、「上方」、「の下で」、「の下に」、「より下に」、「下方」など）は、図面に表わされた配向に加えて、使用または動作中のデバイスの異なる配向を包含するよう意図される。いくつかの実現化例では、「より上に」および「より下に」という相対的な用語は、それぞれ、「垂直上方」および「垂直下方」を含み得る。いくつかの実現化例では、「隣接して」という用語は、「横に隣接して」、または「水平に隣接して」を含み得る。

Claims

頭部装着型コンピューティングデバイスであって、
複数のマイクロホンを含むマイクロホンアレイを備え、前記マイクロホンアレイは、前記複数のマイクロホンによって受信された音に基づいて、前記マイクロホンアレイのビームフォーミングされた感度に従って、ビームフォーミングされた音声信号を生成するように構成され、前記頭部装着型コンピューティングデバイスはさらに、
音を送信するように構成された複数のラウドスピーカと、
固定された基準系に対する前記頭部装着型コンピューティングデバイスの配向を測定するように構成された複数のセンサと、
前記複数のマイクロホン、前記複数のラウドスピーカ、および前記複数のセンサに結合されたプロセッサとを備え、前記プロセッサは、
前記頭部装着型コンピューティングデバイスの配向に基づいて、前記マイクロホンアレイの基準系の配向を識別し、
前記基準系の前記配向に対するターゲット方向を計算し、
前記マイクロホンアレイの前記ビームフォーミングされた感度を前記ターゲット方向に向け、
前記頭部装着型コンピューティングデバイスの前記配向の変化を検出すると、前記基準系の前記配向の変化を検出し、
前記頭部装着型コンピューティングデバイスの前記配向の検出された前記変化に基づいて、前記マイクロホンアレイの前記基準系に対する更新されたターゲット方向を取得し、
前記マイクロホンアレイの前記ビームフォーミングされた感度を前記更新されたターゲット方向に向け直す、
よう指示するソフトウェア命令によって構成される、頭部装着型コンピューティングデバイス。
前記マイクロホンアレイの前記ビームフォーミングされた感度を前記更新されたターゲット方向に向け直すことは、前記ターゲット方向以外の方向において前記マイクロホンアレイの感度を減少させることを含む、請求項１に記載の頭部装着型コンピューティングデバイス。
前記プロセッサはさらに、前記マイクロホンアレイの前記ビームフォーミングされた感度を向けて向け直すために、前記マイクロホンアレイからの音声のチャンネルを互いに対して遅らせるように構成される、請求項１または２に記載の頭部装着型コンピューティングデバイス。
前記複数のマイクロホンは無指向性マイクロホンを含み、前記無指向性マイクロホンは、前記無指向性マイクロホンの等方性感度に従って受信された音に基づいて、フォーカスされていない音声を生成するように構成される、請求項１～３のいずれか１項に記載の頭部装着型コンピューティングデバイス。
前記プロセッサはさらに、
前記無指向性マイクロホンによって受信された音に基づいて話者を検出し、
前記マイクロホンアレイの前記ビームフォーミングされた感度を前記話者の方へ向け直す、
ように構成される、請求項４に記載の頭部装着型コンピューティングデバイス。
前記複数のセンサは、前記頭部装着型コンピューティングデバイスを装着しているユーザの視点から映像を取り込むように構成されたカメラを含み、前記プロセッサはさらに、前記ユーザと参加者との会話を識別し、前記ターゲット方向を前記参加者に向かうものとして計算するように構成される、請求項１～５のいずれか１項に記載の頭部装着型コンピューティングデバイス。
前記複数のセンサは、前記頭部装着型コンピューティングデバイスの前記配向を測定するように構成された慣性測定ユニットを含む、請求項１～６のいずれか１項に記載の頭部装着型コンピューティングデバイス。
前記慣性測定ユニットは、前記マイクロホンアレイの配向の変化を追跡するように構成され、前記プロセッサは、追跡された前記変化に基づいて、前記基準系の前記配向の変化を検出し、更新されたターゲット方向を取得するように構成される、請求項７に記載の頭部装着型コンピューティングデバイス。
前記プロセッサはさらに、前記マイクロホンアレイの前記ビームフォーミングされた感度に基づいて、ビームフォーミングされた音声を生成し、前記ビームフォーミングされた音声を、前記頭部装着型コンピューティングデバイス上で実行されている拡張現実アプリケーションに送信するように構成される、請求項１～８のいずれか１項に記載の頭部装着型コンピューティングデバイス。
前記プロセッサは、前記マイクロホンアレイの前記ビームフォーミングされた感度に基づいて、ビームフォーミングされた音声を生成し、前記ビームフォーミングされた音声を前記複数のラウドスピーカに送信するように構成される、請求項１～９のいずれか１項に記載の頭部装着型コンピューティングデバイス。
前記複数のラウドスピーカは、ユーザの片耳または両耳に装着されるように構成された１つ以上のヒアリング機器を含む、請求項１０に記載の頭部装着型コンピューティングデバイス。
前記１つ以上のヒアリング機器は、前記プロセッサと無線で通信するように構成される、請求項１１に記載の頭部装着型コンピューティングデバイス。
会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法であって、
ユーザと参加者との会話を、前記ユーザが装着した頭部装着型コンピューティングデバイスのカメラによって取り込まれた画像または映像に基づいて検出するステップと、
前記ユーザが装着した前記頭部装着型コンピューティングデバイスのセンサによって取り込まれた測定値に基づいて、前記ユーザの頭部姿勢を判定するステップと、
前記参加者および前記頭部姿勢の相対位置に基づいて、会話レイアウトを計算するステップと、
前記頭部装着型コンピューティングデバイスのマイクロホンアレイから音声のチャンネルを受信するステップと、
前記会話レイアウトに基づいてビームフォーミングされた音声を生成するように音声の前記チャンネルを処理するステップとを備える、会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法。
前記ビームフォーミングされた音声は、前記参加者に向けられたビームフォーミングされた感度に従って受信された音に対応する、請求項１３に記載の会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法。
慣性測定ユニットを使用して前記頭部装着型コンピューティングデバイスの配向の変化を検出すると、更新された会話レイアウトを取得するステップと、
前記ビームフォーミングされた感度を、前記更新された会話レイアウトにおける前記参加者に向け直すように、音声の前記チャンネルを処理するステップとをさらに含む、請求項１４に記載の会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法。
前記ビームフォーミングされた音声をユーザに提示するステップをさらに含む、請求項１３～１５のいずれか１項に記載の会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法。
居合わせた人に向かう方向において前記ビームフォーミングされた音声の感度を減少させるステップをさらに含む、請求項１３～１６のいずれか１項に記載の会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法。
前記頭部装着型コンピューティングデバイスのディスプレイ上に拡張現実ビジュアルを提示するステップをさらに含み、前記拡張現実ビジュアルは、前記ビームフォーミングされた音声に対応する、請求項１７に記載の会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法。
前記拡張現実ビジュアルは、前記会話の字幕である、請求項１８に記載の会話レイアウトに基づいてビームフォーミングされた音声を生成するための方法。
非一時的コンピュータ読取可能媒体上で有形に具現化され、実行されると頭部装着型コンピューティングデバイスの少なくとも１つのプロセッサに方法を行なわせるように構成された命令を備える、コンピュータプログラム製品であって、前記方法は、
前記頭部装着型コンピューティングデバイスの配向に基づいて、マイクロホンアレイの基準系を識別するステップと、
前記基準系に対するターゲット方向を計算するステップと、
前記マイクロホンアレイのビームフォーミングされた感度を、前記ターゲット方向に向かう方向に向けるステップと、
前記頭部装着型コンピューティングデバイスの前記配向の変化を検出すると、更新されたターゲット方向を取得するために、前記基準系を更新するステップと、
居合わせた人のプライバシーを提供するために、前記マイクロホンアレイの前記ビームフォーミングされた感度を前記更新されたターゲット方向の方へ向け直すステップとを含む、コンピュータプログラム製品。