JP2017516196A

JP2017516196A - 会話検出

Info

Publication number: JP2017516196A
Application number: JP2016559444A
Authority: JP
Inventors: チャールズトムリン，アーサー; パウロヴィッチ，ジョナサン; マイケルキーブラー，エヴァン; スコット，ジェイソン; ブラウン，キャメロン; ウィリアムプラム，ジョナサン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2014-04-17
Filing date: 2015-04-07
Publication date: 2017-06-15
Anticipated expiration: 2035-04-07
Also published as: AU2015248061A1; US20150302867A1; KR102357633B1; RU2016140453A; EP3132444A1; CN106233384A; CN106233384B; US10529359B2; CA2943446C; MX366249B; CA2943446A1; EP3132444B1; KR20160145719A; MX2016013630A; RU2685970C2; WO2015160561A1; JP6612250B2; BR112016023776A2; RU2016140453A3; AU2015248061B2

Abstract

【課題】コンピューティングデバイス上のコンテンツの提示の間に会話を検出すること、および、１つまたは複数のアクションを、会話を検出することに応じてとることに関係する様々な実施形態を開示する。【解決手段】１つの例では、オーディオデータストリームが、１つまたは複数のセンサから受信され、第１のユーザと第２のユーザとの間の会話が、オーディオデータストリームに基づいて検出され、デジタルコンテンツアイテムの提示が、会話を検出することに応じて、コンピューティングデバイスにより変更される。【選択図】図１

Description

[0001] コンピューティングデバイス上のコンテンツの提示の間に会話を検出すること、および、１つまたは複数のアクションを、会話を検出することに応じてとることに関係する様々な実施形態が開示される。１つの例では、オーディオデータストリームが、１つまたは複数のセンサから受信され、第１のユーザと第２のユーザとの間の会話が、オーディオデータストリームに基づいて検出され、デジタルコンテンツアイテムの提示が、会話を検出することに応じて、コンピューティングデバイスにより変更される。

[0002] 本概要は、下記の詳細な説明でさらに説明する、単純化した形式での概念の選択物を紹介するために提供されるものである。本概要は、請求する主題の主要な特徴または本質的な特徴を識別することは意図されず、本概要は、請求する主題の範囲を限定するために使用されることもまた意図されない。さらに、請求する主題は、本開示の任意の部分に記す、いずれかまたはすべての欠点を解決する実装形態に限定されない。

[0003]ヘッドマウントディスプレイ（HMD）デバイスによるデジタルコンテンツアイテムの提示の例を示す図である。 [0004]別の人物と会話する、図１のＨＭＤデバイスの着用者を示す図である。 [0005]着用者とその別の人物との間の会話を検出することに応じて、図１のデジタルコンテンツ提示に対してなされ得る例の変更を示す図である。着用者とその別の人物との間の会話を検出することに応じて、図１のデジタルコンテンツ提示に対してなされ得る例の変更を示す図である。着用者とその別の人物との間の会話を検出することに応じて、図１のデジタルコンテンツ提示に対してなされ得る例の変更を示す図である。 [0006]デジタルコンテンツアイテムの別の例の提示を示す図である。 [0007]別の人物と会話する、図６のユーザを示す図である。 [0008]ユーザとその別の人物との間の会話を検出することに応じて、図６のデジタルコンテンツ提示に対してなされ得る例の変更を示す図である。 [0009]会話検出処理パイプラインの例を示す図である。 [0010]会話を検出するための方法の例を図示するフロー線図を示す図である。 [0011]例のＨＭＤデバイスを示す図である。 [0012]例のコンピューティングシステムを示す図である。

[0013] コンピューティングデバイスは、デジタルコンテンツを様々な形式で提示するために使用され得る。一部の事例ではコンピューティングデバイスは、３次元（3D）画像および／またはホログラフィック画像を表示することによってなどで、没入型の、および、心を奪うような方式でコンテンツを提供し得る。その上そのような視覚コンテンツは、さらに没入型の体験を提供するために、オーディオコンテンツの提示と組み合わされ得る。

[0014] デジタルコンテンツ提示は、コンピューティングデバイスがより可搬型になるため、従前のエンターテイメント状況以外の状況で消費される場合がある。したがって時には、そのようなコンピューティングデバイスのユーザは、コンテンツ提示の間に他者との会話に没頭する場合がある。提示の性質次第では、提示は、会話に対して気を散らすものであり得る。

[0015] したがって、ユーザ間の会話を自動的に検出すること、および、会話が行われている間にデジタルコンテンツの提示を変動させて、例えば、会話の間に提示が目立つことを低減することを関係付ける実施形態を、本明細書で開示する。人間の音声（voice）が単に存在することに対立するものとして、会話を検出することにより、そのようなコンピューティングデバイスは、別の人間との会話に没頭するために、表示されているコンテンツから少なくとも部分的に解放状態になろうとする、コンピューティングデバイスのユーザの意思がありそうだということを決定することが可能である。さらに、コンテンツの提示に対する適した変更が、コンテンツからのユーザの解放を容易にするために履行され得る。

[0016] 会話は、任意の適した様式で検出され得る。例えばユーザ間の会話は、第１のユーザが人間の発話（speech）のセグメント（例えば、少なくとも数個の単語）を話し、それに続いて、第２のユーザが人間の発話のセグメントを話し、それに続いて、第１のユーザが人間の発話のセグメントを話すことを検出することにより検出され得る。換言すれば会話は、異なる発生源場所間で交互に起こる、人間の発話の一連のセグメントとして検出され得る。

[0017] 図１〜５は、着用者１０２が、ヘッドマウントディスプレイ（HMD）デバイス１０４の形式でのコンピューティングデバイスとインタラクトしている、物理環境１００の例のシナリオを示す。ＨＭＤデバイス１０４は、１つまたは複数のデジタルコンテンツアイテムを着用者に提示するように、および、着用者と別の人物との間の会話を検出することに応じて提示を変更するように構成され得る。ＨＭＤデバイス１０４は、例えば、下記でさらに詳細に論考するように、１つまたは複数のセンサから受信される、オーディオおよび／またはビデオデータを使用して会話を検出し得る。

[0018] 図１では、ホログラフィックオブジェクト１０６の形式での複数のデジタルコンテンツアイテムが、着用者１０２の観点からは、ＨＭＤデバイス１０４のシースルーディスプレイ１０８上に表示されているように図示される。複数のホログラフィックオブジェクト１０６は、物理環境１００内に浮かぶかのように着用者１０２を包囲する仮想オブジェクトとして見え得る。別の例では、ホログラフィックオブジェクトはさらには、物理環境内の、壁、または、他の表面に関連している他のものにかかっているかのように見え得る。

[0019] 図示される実施形態では、ホログラフィックオブジェクトは、様々なコンテンツを表示するために使用され得る「スレート」として表示される。そのようなスレートは、任意の適したビデオ、結像、または他の視覚コンテンツを含み得る。１つの例では、第１のスレートは電子メールポータルを提示する場合があり、第２のスレートはソーシャルネットワークポータルを提示する場合があり、第３のスレートはニュースフィードを提示する場合がある。別の例では、異なるスレートは、異なるスポーツ種目などの異なるテレビジョンチャネルを提示する場合がある。さらに別の例では、１つのスレートはビデオゲームを提示する場合があり、他のスレートは、チャットルーム、ソーシャルネットワーキングアプリケーション、ゲーム統計および達成追跡アプリケーション、または別の適したアプリケーションなどの、ビデオゲームに対するコンパニオンアプリケーションを提示する場合がある。一部の事例では、単一のデジタルコンテンツアイテムが、シースルーディスプレイによって表示され得る。図１のスレートは例の目的で図示されるということ、および、ホログラフィックコンテンツは、任意の他の適した形式で表示され得るということが理解されよう。

[0020] ＨＭＤデバイス１０４はさらには、オーディオコンテンツを、単独で、またはビデオコンテンツと組み合わせて、着用者１０２に出力するように構成され得る。例えばＨＭＤデバイス１０４は、オーディオコンテンツをプレイするためのビルトインスピーカまたはヘッドホンを含み得る。

[0021] ＨＭＤデバイスは、任意の適したタイプの、および数のデジタルコンテンツアイテムを着用者に提示するように構成され得るということが理解されよう。提示され得るデジタルコンテンツの非限定的な例は、映画、テレビジョン番組、ビデオゲーム、アプリケーション、歌、ラジオ放送、ポッドキャスト、ウェブサイト、テキストドキュメント、画像、写真、その他を含む。

[0022] 図２では、着用者１０２が、シースルーディスプレイ１０８によって表示される複数のホログラフィックオブジェクト１０６に没頭する一方で、別の人物１１０が物理環境１００に入る。その別の人物１１０を目視すると、着用者１０２は、その別の人物との会話１１２を始める。会話は、着用者およびその別の人物の各々が、互いに人間の発話のセグメントを話すことを含む。したがってＨＭＤデバイスは、その別の人物が話す前および後の両方で、着用者が話すことを検出することにより会話を検出するように構成され得る。同様にＨＭＤデバイスは、ＨＭＤデバイスの着用者が話す前および後の両方で、その別の人物が話すことを検出することにより会話を検出するように構成され得る。

[0023] 図３〜５は、どのようにＨＭＤデバイスが、表示されるホログラフィックオブジェクトの提示を、着用者とその別の人物との間の会話を検出することに応じて変更し得るかの非限定的な例を示す。最初に図３を参照すると、会話を検出することに応じて、ＨＭＤデバイス１０４は、複数のオブジェクトを、シースルーディスプレイ１０８上の視界から隠すように構成され得る。一部の実装形態では、シースルーディスプレイは、任意の仮想オブジェクトまたはオーバーレイを完全に排除され得る。同じように一部の実装形態では、オブジェクトは隠される場合があり、仮想境界、オーバーレイ、またはダッシュボードは、シースルーディスプレイ上に表示されたままである場合がある。オブジェクトがビデオおよび／またはオーディオコンテンツを提示するシナリオでは、そのようなコンテンツは、スレートが視界から隠されていることに応じて一時停止される場合がある。このようにすると着用者は、会話が終了したときに、コンテンツが一時停止される時点で、コンテンツの消費を再開することが可能である。

[0024] 図４で示される別の例では、会話を検出することに応じて、ＨＭＤデバイス１０４は、複数のオブジェクトの１つまたは複数を、着用者の中央の視界から外れている、およびしたがって、その別の人物の着用者の視界をブロックする公算がより少ないものであり得る、シースルーディスプレイ上の異なる位置に移動させるように構成され得る。さらに一部の実装形態では、ＨＭＤデバイスは、着用者に対するその別の人物の位置を決定し、複数のオブジェクトを、その別の人物の方向をブロックしない、シースルーディスプレイ上の位置に移動させるように構成され得る。例えば、その別の人物の方向は、オーディオデータ（例えば、マイクロホンアレイからの方向性オーディオデータ）、ビデオデータ（カラー、赤外線、深度、その他）、それらの組み合わせ、または、任意の他の適したデータを使用して決定され得る。

[0025] 図５で示される別の例では、会話を検出することに応じて、ＨＭＤデバイス１０４は、表示されるオブジェクトのサイズを変化させ、複数のオブジェクトを、シースルーディスプレイ上の異なる位置に移動させるように構成され得る。１つの非限定的な例として、複数のオブジェクトの各々のサイズは減少される場合があり、複数のオブジェクトは、シースルーディスプレイの隅に移動させられる場合がある。複数のオブジェクトは、着用者が会話に没頭することに先行して消費していたコンテンツの備忘として役立ち得る、隅でのタブとして見えるように変更される場合があり、または、任意の他の適した外観を有する場合がある。その上のさらなる例として、複数のオブジェクトの提示を変更することは、表示されるオブジェクトの透光性（translucency）を増大して、着用者がその別の人物を、シースルーディスプレイを通して目視することを可能とすることを含み得る。

[0026] 上記の説明したシナリオでは、シースルーディスプレイによって提示される仮想オブジェクトは、ＨＭＤデバイスの着用者に対して身体固定（body-locked）である。換言すれば、仮想オブジェクトの位置は、ＨＭＤデバイスの着用者の位置に対して不変である、または固定されるように見える。したがって、身体固定仮想オブジェクトは、着用者が物理環境の内部で移動する際にも、着用者の観点からは、シースルーディスプレイ上の同じ位置にとどまるように見え得る。

[0027] 一部の実装形態では、シースルーディスプレイによって提示される仮想オブジェクトは、着用者に世界固定（world-locked）であるように見え得る。換言すれば、仮想オブジェクトの位置は、物理環境内の現実世界位置に対して不変であるように見える。例えばホログラフィックスレートは、物理環境内の壁にかかっているかのように見え得る。一部の事例では、世界固定仮想オブジェクトの位置が、会話を妨げる場合がある。したがって一部の実装形態では、仮想オブジェクトの提示を、会話を検出することに応じて変更することは、世界固定仮想オブジェクトの現実世界位置を変化させることを含み得る。例えば、ＨＭＤデバイスの着用者と別のユーザとの中間の現実世界位置に配置される仮想オブジェクトは、着用者とユーザとの間ではない、異なる現実世界位置に移動させられ得る。１つの例では場所は、ユーザの方向以外の方向であり得る。

[0028] 一部の実装形態ではＨＭＤデバイスは、会話の終了を検出するようにさらに構成され得る。会話の終了を検出することに応じてＨＭＤデバイスは、シースルーディスプレイ上のオブジェクトの視覚状態を、会話が検出された前に存したそれらのオブジェクトの状態（例えば、隠されない、より透明でない、視界内で、より中央に置かれる、その他）に戻すように構成され得る。他の実装形態では着用者は、手動の指令（例えば、ボタン押下、音声指令、ジェスチャ、その他）を提供して、シースルーディスプレイ上の複数のオブジェクトのディスプレイを再び始める場合がある。

[0029] 上記で説明したような会話検出は、図１〜５のＨＭＤを含む、ただしそれに限定されない、任意の適したコンピューティングデバイスによって利用され得る。図６〜８は、物理環境６００内の第１のユーザ６０２が、大規模ディスプレイ６０４とインタラクトしている、別の例のシナリオを示す。ディスプレイデバイス６０４は、エンターテイメントコンピューティングデバイス６０６との通信状態にあり得る。さらにコンピューティングデバイス６０６は、センサデバイス６０８との通信状態にあり得るものであり、そのセンサデバイス６０８は、物理環境６００に関するデータを捕捉するように構成される１つまたは複数のセンサを含む。センサデバイスは、オーディオデータストリームを捕捉するための１つまたは複数のオーディオセンサを含み得る。一部の実装形態ではセンサデバイスは、ビデオデータストリームを捕捉するための１つまたは複数の画像センサ（例えば、深度画像センサ、赤外線画像センサ、可視光画像センサ、その他）を含み得る。

[0030] エンターテイメントコンピューティングデバイス６０６は、ディスプレイ６０４による、その別の人物への１つまたは複数のデジタルコンテンツアイテムの提示を制御するように構成され得る。さらにエンターテイメントコンピューティングデバイス６０６は、ユーザ間の会話を、センサデバイス６０８から受信されるオーディオおよび／またはビデオデータに基づいて検出するように、ならびに、複数のデジタルコンテンツアイテムの１つまたは複数の提示を、会話を検出することに応じて変更するように構成され得る。センサデバイス、大規模ディスプレイ、およびエンターテイメントコンピューティングデバイスは別々の構成要素として示されるが、一部の実装形態では、センサデバイス、大規模ディスプレイ、およびエンターテイメントコンピューティングデバイスは、単一のハウジング内に組み合わされ得る。

[0031] 図６では第１のユーザ６０２は、エンターテイメントコンピューティングデバイス６０６により実行されるビデオゲームをプレイしている。第１のユーザがビデオゲームをプレイしている一方で、センサデバイス６０８は、物理環境６００内の音を表すオーディオデータを捕捉している。図７では、第１のユーザ６０２が、大規模ディスプレイ６０４上に表示されるビデオゲームをプレイすることに没頭する一方で、第２のユーザ６１０が物理環境６００に入る。第２のユーザ６１０を目視すると、第１のユーザ６０２は、第２のユーザとの会話６１２を始める。会話は、第１のユーザおよび第２のユーザの各々が、互いに人間の発話のセグメントを話すことを含む。１つの例として会話は、第２のユーザが話す前および後に第１のユーザが話すことにより、または、第１のユーザが話す前および後に第２のユーザが話すことにより検出され得る。

[0032] 第１のユーザと第２のユーザとの間の会話は、センサデバイス６０８により受信され、オーディオデータストリームとして出力され得るものであり、エンターテイメントコンピューティングデバイス６０６は、オーディオデータストリームをセンサデバイス６０８から受信し得る。エンターテイメントコンピューティングデバイス６０６は、第１のユーザ６０２と第２のユーザ６１０との間の会話を、オーディオデータストリームに基づいて検出し、会話の間にビデオゲームが目立つことを少なくするために、ビデオゲームの提示を、会話を検出することに応じて変更するように構成され得る。

[0033] エンターテイメントコンピューティングデバイス６０６は、任意の適したアクションを、会話を検出することに応じてとり得る。１つの例では、図８で示されるように、エンターテイメントコンピューティングデバイス６０６は、ビデオゲームの提示を、ビデオゲームを一時停止することにより変更する場合がある。さらに一部の実装形態では、視覚インジケータ６１４が、ビデオゲームの提示が変更されたということを指示するために表示され得るものであり、視覚インジケータは、エンターテイメントコンピューティングデバイスが会話の検出に反応しているということの、ユーザに対する巧妙な指示を提供し得る。別の例として、会話を検出することに応じて、エンターテイメントコンピューティングデバイスは、ビデオゲームを一時停止することなく、ビデオゲームの音量をミュートする、または低下させる場合がある。

[0034] 一部の実装形態では、会話を検出することに応じて、デジタルコンテンツアイテムの提示が、１つまたは複数の要因に基づいて異なって変更され得る。１つの例では、デジタルコンテンツアイテムの提示は、デジタルコンテンツアイテムのコンテンツタイプに基づいて異なって変更され得る。例えば、ビデオゲームは一時停止される場合があり、生のテレビジョン番組は縮小される場合があり、音量は減少される場合がある。別の例では、デジタルコンテンツアイテムの提示は、デジタルコンテンツアイテムに関する関与（involvement）または没頭（engagement）のレベルに基づいて異なって変更され得る。例えば、「関与メータ」などの、様々なセンサ指示に基づいて関与のレベルを推定するための機構が実装され得る。１つの例では、ユーザが、高いレベルの関与を有すると決定されるならば、デジタルコンテンツアイテムの提示は、単に音量レベルを下げることにより変更され得る。他方でユーザが、より低いレベルの関与を有すると決定されるならば、デジタルコンテンツアイテムの提示は、デジタルコンテンツアイテムを隠し、ミュートすることにより変更され得る。どのようにデジタルコンテンツアイテムの提示が変更されるかを決定するために使用され得る他の非限定的な要因は、時刻、地理的場所、および物理的状況（例えば、仕事、家庭、コーヒーショップ、その他）を含み得る。

[0035] 会話の生起は、様々な様式で決定され得る。例えば会話は、オーディオデータ、ビデオデータ、またはそれらの組み合わせに基づいて検出され得る。図９は、会話を検出するために１つまたは複数のコンピューティングデバイスで実装され得る、会話処理パイプライン９００の例を示す。会話処理パイプライン９００は、物理環境に関する情報を捕捉する複数の異なるセンサ９０２から受信されるデータストリームを処理するように構成され得る。

[0036] 図示される実施形態では、オーディオデータストリーム９０４が、マイクロホンアレイ９０４から受信され得るものであり、画像データストリーム９２４が、画像センサ９０６から受信され得る。オーディオデータストリーム９０８は、オーディオデータストリームが人間の音声を表すか、それとも他の背景雑音を表すかを決定するように構成される、音声活動検出（VAD:voice activity detection）段階９１０を通過させられ得る。音声活動９１２を含むように指示されるオーディオデータが、ＶＡＤ段階９１０から出力され、発話の部分を音声活動から検出するように構成される発話認識段階９１４に給送され得る。発話認識段階９１４は、人間の発話セグメント９１６を出力し得る。例えば人間の発話セグメントは、単語の部分、および／または、完全形の単語を含み得る。

[0037] 一部の実装形態では発話認識段階は、人間の発話セグメントに関連する確信度レベルを出力し得る。会話処理パイプラインは、確信度しきい値（例えば、発話セグメントが単語であるということを５０％確信する）をセットするように構成され得るものであり、確信度しきい値未満である確信度レベルを有する人間の発話セグメントを棄却することが可能である。

[0038] 一部の実装形態では発話認識段階は、コンピューティングデバイス上でローカルに実装され得る。他の実装形態では発話認識段階は、リモートコンピューティングデバイス上に配置されるサービスとして実装され（例えば、コンピューティングクラウドネットワーク内で実装され）、または、ローカルデバイスとリモートデバイスとの間で分散され得る。

[0039] 発話認識段階９１４から出力される人間の発話セグメント９１６は、人間の発話セグメントの発生源場所を決定するように構成される発話発生源ロケータ段階９１８に給送され得る。一部の実装形態では発生源場所は、マイクロホンアレイ９０４内のマイクロホンのトランスデューサ音量および／または位相を比較することにより推定され得る。例えばアレイ内の各々のマイクロホンは、アレイ内の他のマイクロホンに対する、音量トランスデューサレベルおよび／または位相を報告するように較正され得る。デジタル信号処理を使用して、各々のマイクロホントランスデューサからの二乗平均平方根の知覚されるラウドネスが、（例えば、２０ミリ秒ごとに、または別の適した間隔で）算出され得るものであり、そのことは、どのマイクロホンが、よりラウドなオーディオ音量を報告しているか、およびどれだけ多くであるかを指示する重み付き関数を提供するためのものである。アレイ内のマイクロホンの各々のトランスデューサ音量レベルの比較は、捕捉されるオーディオデータの発生源場所を推定するために使用され得る。

[0040] 一部の実装形態ではビームフォーミング空間フィルタが、捕捉されるオーディオデータの発生源場所を推定するために、マイクロホンアレイの複数のオーディオサンプルに適用され得る。ＨＭＤデバイスの事例では、ビームフォーミングされるオーディオストリームは、着用者の口と合わせるために、ＨＭＤデバイスから直に前方に照準され得る。したがって、着用者、および、直に着用者の前部にいる誰かからのオーディオは、距離があっても明瞭であり得る。一部の実装形態では、トランスデューサ音量レベルの比較、およびビームフォーミング空間フィルタが、捕捉されるオーディオデータの発生源場所を推定するために、組み合わせて使用され得る。

[0041] 発話発生源ロケータ段階９１８は、人間の発話セグメントの発生源場所９２０を会話検出器段階９２２に給送し得るものであり、その会話検出器段階９２２は、人間の発話のセグメントが、異なる発生源場所間で交互に起こると決定することに基づいて会話を検出するように構成される。交互に起こるパターンは、異なるユーザが、会話で互いにやり取りして話しているということを指示し得る。

[0042] 一部の実装形態では会話検出器段階９２２は、人間の発話のセグメントが、異なる発生源場所間で、時間のしきい値期間の内部で交互に起こる、または、人間の発話のセグメントが、指定された韻律レンジ（cadence range）の内部で生起するならば、会話を検出するように構成され得る。時間のしきい値期間、および韻律は、任意の適した様式でセットされ得る。しきい値期間によって、人間の発話の交互に起こるセグメントは、会話であり、無関係の発話セグメントではないということであるのに十分に、時間的に近接して生起するということが確実になり得る。

[0043] 一部の実装形態では会話処理パイプライン９００は、人間の発話の１つまたは複数のセグメントが、ディスプレイ上に提示されている映画またはテレビジョン番組からなど、電子オーディオデバイスから発出するかどうかを決定することに対して、オーディオデータストリーム９０８を分析するように構成され得る。１つの例では決定は、電子オーディオデバイスのオーディオまたは音量の識別特性を識別することに基づいて遂行され得る。別の例では決定は、電子オーディオデバイスの既知の発生源場所に基づいて遂行され得る。さらに会話処理パイプライン９００は、人間の発話のセグメントが、異なる発生源場所間で交互に起こると決定するときに、電子オーディオデバイスにより提供される人間の発話のそれらの１つまたは複数のセグメントを能動的に無視するように構成され得る。このようにすると例えば、映画内のキャラクタ間で行われる会話が、現実の人間のユーザ間の会話として間違えられる可能性がない。

[0044] 一部の実装形態では、オーディオデータストリームの分析は、画像センサ９０６から受信される画像データストリーム９２４の分析により向上させられ得る。例えば画像データストリームは、可能性として会話に没頭する１人または両方の話者の画像（例えば、HMDデバイスの着用者の観点からのユーザの画像、または、センサデバイスの観点からの両方のユーザの画像）を含み得る。画像データストリーム９２４は、特徴認識段階９２６に給送され得る。特徴認識段階９２６は例えば、画像を分析して、ユーザの口が動いているかどうかを決定するように構成され得る。特徴認識段階９２６は、識別される特徴、および／または、ユーザが話しているという確信度のレベルを指し示す確信度レベル９３０を出力し得る。確信度レベル９３０は、会話検出器段階９２２により、会話を検出するためのオーディオデータストリームの分析と組み合わせて使用され得る。

[0045] 画像データストリーム９２４はさらには、ユーザ識別段階９２８に給送され得る。ユーザ識別段階９２８は、画像を分析して、話しているユーザを認識するように構成され得る。例えば顔または身体の構造が、ユーザを識別するためにユーザプロファイルと比較され得る。ユーザは、任意の適した視覚分析に基づいて識別され得るということが理解されよう。ユーザ識別段階９２８は、話者の識別情報９３２を、会話検出器段階９２２に、決定での確信度を反映する確信度レベルと同様に出力し得る。会話検出器段階９２２は、話者識別情報９３２を使用して、人間の発話のセグメントを、個別の識別されるユーザにより話されていると分類し得る。このようにすると、会話検出の確信度が増大され得る。図示される会話処理パイプラインは単に、オーディオデータストリームが、会話を検出するために分析される様式の１つの例であり、任意の適した手法が、本開示の範囲から逸脱することなく、会話を検出するために実装され得るということが理解されよう。

[0046] 図１０は、会話の間にコンテンツ提示が目立つことを低減する一助となるために、コンピューティングデバイスによって会話を検出するための例の方法１０００を図示するフロー線図を示す。方法１０００は例えば、図１で示されるＨＭＤデバイス１０４、図６で示されるエンターテイメントコンピューティングデバイス６０６により、または、任意の他の適したコンピューティングデバイスにより遂行され得る。

[0047] １００２で方法１０００は、１つまたは複数のデジタルコンテンツアイテムを提示するステップを含む。例えば提示するステップは、ビデオコンテンツアイテムをディスプレイ上に表示するステップを含み得る。別の例では提示するステップは、オーディオコンテンツアイテムをプレイするステップを含み得る。さらに１００４で方法１０００は、オーディオデータストリームを１つまたは複数のセンサから受信するステップを含む。１つの例ではオーディオデータストリームは、マイクロホンアレイから受信され得る。

[0048] １００６で方法１０００は、オーディオデータストリームを音声活動に対して分析するステップを含み、１００８で、オーディオデータストリームが音声活動を含むかどうかを決定するステップを含む。オーディオデータストリームが音声活動を含むならば、方法１０００は１０１０に進む。そうでなければ、方法１０００は他の動作に戻る。

[0049] １０１０で方法１０００は、音声活動を人間の発話セグメントに対して分析するステップを含み、１０１２で、音声活動が人間の発話セグメントを含むかどうかを決定するステップを含む。音声活動が人間の発話セグメントを含むならば、方法１０００は１０１４に進む。そうでなければ、方法１０００は他の動作に戻る。

[0050] １０１４で方法１０００は、何らかの人間の発話セグメントが電子オーディオデバイスにより提供されるかどうかを決定するステップを含む。人間の発話セグメントの何らかのものが電子オーディオデバイスにより提供されるならば、方法１０００は１０１６に進む。そうでなければ、方法１０００は１０１８に進む。１０１６で方法１０００は、電子オーディオデバイスにより提供されるそれらの人間の発話セグメントを能動的に無視するステップを含む。換言すればそれらの人間の発話セグメントは、会話検出のいかなる考慮からも除外され得る。１０１８で方法１０００は、オーディオデータストリームの各々の人間の発話セグメントの発生源場所を決定するステップを含む。さらに１０２０で方法１０００は、人間の発話セグメントが、異なる発生源場所間で交互に起こるかどうかを決定するステップを含む。１つの例では会話は、第１のユーザにより話される人間の発話セグメントが、第２のユーザにより話される人間の発話セグメントの前および後で生起するときに検出され得る。別の例では会話は、第２のユーザにより話される人間の発話セグメントが、第１のユーザにより話される人間の発話セグメントの前および後で生起するときに検出され得る。一部の実装形態ではこのことは、交互に起こる人間の発話セグメントが、指定された時間期間の内部であるかどうかを決定することを含み得る。さらに一部の実装形態ではこのことは、交互に起こる人間の発話セグメントが、指定された韻律レンジの内部で生起するかどうかを決定することを含み得る。人間の発話セグメントが、異なる発生源場所間で交互に起こる（および、指定された時間期間の内部であり、指定された韻律レンジの内部で生起する）ならば、会話は検出され、方法１０００は１０２２に進む。そうでなければ、方法１０００は他の動作に戻る。

[0051] 会話が検出されるならば、１０２２で方法１０００は、会話を検出することに応じて、１つまたは複数のデジタルコンテンツアイテムの提示を変更するステップを含む。例えば、提示が一時停止される場合があり、オーディオコンテンツアイテムの音量が低下させられる場合があり、１つもしくは複数の視覚コンテンツアイテムが、ディスプレイ上の視界から隠される場合があり、１つもしくは複数の視覚コンテンツアイテムが、ディスプレイ上の異なる位置に移動させられる場合があり、および／または、ディスプレイ上の１つもしくは複数の視覚コンテンツアイテムのサイズが変更される場合がある。

[0052] デジタルコンテンツアイテムの提示を、ユーザ間の会話を検出することに応じて変更することにより、デジタルコンテンツアイテムの提示は、会話の間に、より目立たなくされ得る。その上このようにすると、ユーザは、会話が始められるときに、手動で、コンテンツの再生を一時停止する、音量を低減する、その他など、デジタルコンテンツアイテムの提示を手動で変更する必要がない。

[0053] 本明細書で説明する会話検出実装形態は、任意の適したコンピューティングデバイスによって使用され得る。例えば一部の実施形態では、開示する実装形態は、ＨＭＤデバイスを使用して実装され得る。図１１は、透明ディスプレイ１１０２を伴う１対のウェアラブルグラスの形式でのＨＭＤデバイス１１００の非限定的な例を示す。ＨＭＤデバイスは、透明、半透明、および／または非透明のディスプレイが、観視者の目、または複数の目の前部で支持される、任意の他の適した形式をとり得るということが察知されよう。

[0054] ＨＭＤデバイス１１００は、シースルーディスプレイ１１０２の動作を制御するように構成されるコントローラ１１０４を含む。シースルーディスプレイ１１０２は、ホログラフィックオブジェクトなどの画像が、ＨＭＤデバイス１１００の着用者の目に届けられることを可能にし得る。シースルーディスプレイ１１０２は、現実世界の物理環境の外観を、透明ディスプレイを通して物理環境を観視する着用者に対して、視覚的に強化するように構成され得る。例えば物理環境の外観は、複合現実環境を創出するために透明ディスプレイ１１０２によって提示されるグラフィカルコンテンツにより強化され得る。１つの例ではディスプレイは、１つまたは複数の視覚デジタルコンテンツアイテムを表示するように構成され得る。一部の事例ではデジタルコンテンツアイテムは、現実世界環境の前部にオーバーレイされる仮想オブジェクトであり得る。同じように、一部の事例ではデジタルコンテンツアイテムは、透明ディスプレイ１１０２を通して目視される、現実世界環境の現実世界オブジェクトの要素を組み込む場合がある。

[0055] 任意の適した機構が、画像を透明ディスプレイ１１０２によって表示するために使用され得る。例えば透明ディスプレイ１１０２は、レンズ１１０６の内部に配置される画像生成要素を含み得る（例えば、シースルー有機発光ダイオード（OLED）ディスプレイなど）。別の例として透明ディスプレイ１１０２は、ＨＭＤデバイス１１００のフレームの内部に配置される光変調器を含み得る。この例ではレンズ１１０６は、光変調器からの光を着用者の目に届けるための光ガイドとして役立ち得る。そのような光ガイドは、着用者が、着用者が観視している物理環境の内部に配置される３Ｄホログラフィック画像を知覚することを可能にし、一方でさらには、着用者が、物理環境内の物理オブジェクトを観視することを可能とし、したがって複合現実環境を創出し得る。

[0056] ＨＭＤデバイス１１００はさらには、情報をコントローラ１１０４に提供するための、様々なセンサ、および関係するシステムを含み得る。そのようなセンサは、マイクロホンアレイ、１つまたは複数の外向き画像センサ１１０８、および慣性測定ユニット（IMU）１１１０を含み得るが、それらに限定されない。

[0057] 非限定的な例としてマイクロホンアレイは、ＨＭＤデバイス１１００の異なる小部分上に配置される６つのマイクロホンを含み得る。一部の実装形態ではマイクロホン１１１２および１１１４は、レンズ１１０６の上部の小部分上に位置決めされ得るものであり、一般的には前向きであり得る。マイクロホン１１１２および１１１４は、ＨＭＤデバイス１１００の前方の方向に対して角度４５度に照準され得る。マイクロホン１１１２および１１１４は、ＨＭＤデバイス１１００の平坦な水平面でさらに照準され得る。マイクロホン１１１２および１１１４は、ＨＭＤデバイス１１００の前部の全体的なエリア／方向での音を捕捉するように構成される無指向性マイクロホンであり得るものであり、または、任意の他の適した形式をとり得る。

[0058] マイクロホン１１１６および１１１８は、レンズ１１０６の下部の小部分上に位置決めされ得る。１つの非限定的な例としてマイクロホン１１１６および１１１８は、前向きであり、着用者の口から発せられる音を捕捉するために下方に照準され得る。一部の実装形態ではマイクロホン１１１６および１１１８は、指向性マイクロホンであり得る。一部の実装形態ではマイクロホン１１１２、１１１４、１１１６、および１１１８は、レンズ１１０６を包囲するフレーム内に位置決めされ得る。

[0059] マイクロホン１１２０および１１２２は各々、ＨＭＤデバイス１１００の側部フレーム上に位置決めされ得る。マイクロホン１１２０および１１２２は、ＨＭＤデバイス１１００の前方の方向に対して角度９０度に照準され得る。マイクロホン１１２０および１１２２は、ＨＭＤデバイス１１００の平坦な水平面でさらに照準され得る。マイクロホン１１２０および１１２２は、ＨＭＤデバイス１１００の各々の側部上の全体的なエリア／方向での音を捕捉するように構成される無指向性マイクロホンであり得る。上記で説明したもの以外の任意の他の適したマイクロホンアレイが使用され得るということが理解されよう。

[0060] 上記で論考したように、マイクロホンアレイは、ＨＭＤデバイスの着用者と別の人物との間の会話を検出するためにコントローラ１１０４により分析され得るオーディオデータストリームを生成し得る。１つの非限定的な例では、デジタル信号処理を使用して、各々のマイクロホントランスデューサからの二乗平均平方根の知覚されるラウドネスが算出され得るものであり、重み付き関数が、よりラウドな音を報告しているのが左の方のマイクロホンであるか、それとも右の方のマイクロホンであるか、およびどれだけ多くであるかを報告し得る。同様に値が、「口に向かって」および「口から離れて」、ならびに「前部対側部」に関して報告され得る。このデータは、人間の発話セグメントの発生源場所を決定するために使用され得る。さらにコントローラ１１０４は、人間の発話セグメントが、異なる発生源場所間で交互に起こると決定することにより、会話を検出するように構成され得る。

[0061] 図示されるマイクロホンアレイは単に、適したマイクロホンアレイの１つの非限定的な例であり、任意の適した構成での任意の適した数のマイクロホンが、本開示の範囲から逸脱することなく実装され得るということが理解されよう。

[0062] １つまたは複数の外向き画像センサ１１０８は、視覚データを、ＨＭＤデバイス１１００が配置される物理環境から捕捉するように構成され得る。例えば外向きセンサ１１０８は、ディスプレイ１１０２の視野の内部の運動、例えるなら、着用者により、または、その視野の内部の人物もしくは物理オブジェクトにより遂行される運動などを検出するように構成され得る。１つの例では外向きセンサ１１０８は、ＨＭＤデバイスの着用者に話すユーザを検出し得る。外向きセンサはさらには、２Ｄ画像情報および深度情報を、物理環境、および、環境の内部の物理オブジェクトから捕捉し得る。上記で論考したように、そのような画像データは、ユーザが着用者に話しているということを視覚的に認識するために使用され得る。そのような分析は、会話検出の確信度を増大するために、オーディオデータストリームの分析と組み合わされ得る。

[0063] ＩＭＵ１１１０は、ＨＭＤデバイス１１００の位置および／または方位データをコントローラ１１０４に提供するように構成され得る。１つの実施形態ではＩＭＵ１１１０は、３軸または３自由度位置センサシステムとして構成され得る。この例の位置センサシステムは、例えば、３つの直交軸（例えば、x、y、z）に関する３Ｄ空間の内部のＨＭＤデバイス１１００の方位の変化（例えば、ロール、ピッチ、ヨー）を指示または測定するための３つのジャイロスコープを含み得る。ＩＭＵのセンサ信号から導出される方位は、ＨＭＤデバイスの着用者を会話に没頭させたユーザの方向を決定するために使用され得る。

[0064] 別の例ではＩＭＵ１１１０は、６軸または６自由度位置センサシステムとして構成され得る。そのような構成は、３つの直交軸に沿ったＨＭＤデバイス１１００の場所の変化、および、３つの直交軸に関するデバイス方位の変化を指示または測定するための、３つの加速度計および３つのジャイロスコープを含み得る。一部の実施形態では、画像センサ１１０８およびＩＭＵ１１１０からの、位置および方位データは、ＨＭＤデバイス１００の位置および方位を決定するために連関して使用され得る。

[0065] ＨＭＤデバイス１１００は、ＨＭＤデバイスの着用者に音を出力するように構成されるスピーカ１１２４および１１２６をさらに含み得る。スピーカ１１２４および１１２６は、着用者の耳に近接して、ＨＭＤデバイスの各々の側部フレーム小部分上に位置決めされ得る。例えばスピーカ１１２４および１１２６は、音楽などのオーディオコンテンツ、または、シースルーディスプレイ１１０２によって表示される視覚コンテンツに対するサウンドトラックをプレイし得る。一部の事例ではスピーカの音量は、着用者と、検出されている別の人物との間の会話に応じて、低下させられる、またはミュートされる場合がある。

[0066] コントローラ１１０４は、ＨＭＤデバイス１１００の様々なセンサおよびディスプレイとの通信状態にあり得る、図１２に関して下記でより詳細に論考するような、論理マシンおよび記憶マシンを含み得る。１つの例では記憶マシンは、オーディオデータストリームを、マイクロホンアレイなどの１つまたは複数のセンサから受信することと、着用者とユーザとの間の会話を、オーディオデータストリームに基づいて検出することと、デジタルコンテンツアイテムの提示を、会話を検出することに応じて変更することとを行うために、論理マシンにより実行可能である命令を含み得る。

[0067] 一部の実施形態では、本明細書で説明する方法およびプロセスは、１つまたは複数のコンピューティングデバイスのコンピューティングシステムに結び付けられ得る。特にそのような方法およびプロセスは、コンピュータアプリケーションプログラムもしくはサービス、アプリケーションプログラミングインターフェイス（API）、ライブラリ、および／または、他のコンピュータプログラム製品として実装され得る。

[0068] 図１２は、上記で説明した方法およびプロセスの１つまたは複数を再現し得る、コンピューティングシステム１２００の非限定的な実施形態を概略的に示す。コンピューティングシステム１２００は、単純化した形式で示される。コンピューティングシステム１２００は、１つまたは複数の、パーソナルコンピュータ、サーバコンピュータ、タブレットコンピュータ、ホームエンターテイメントコンピュータ、ネットワークコンピューティングデバイス、ゲーミングデバイス、モバイルコンピューティングデバイス、モバイル通信デバイス（例えば、スマートフォン）、および／または、他のコンピューティングデバイスの形式をとり得る。例えばコンピューティングシステムは、図１で示されるＨＭＤデバイス１０４、図６で示されるエンターテイメントコンピューティングデバイス６０６、または、別の適したコンピューティングデバイスの形式をとり得る。

[0069] コンピューティングシステム１２００は、論理マシン１２０２および記憶マシン１２０４を含む。コンピューティングシステム１２００は、任意選択により、ディスプレイサブシステム１０６、入力サブシステム１２０８、通信サブシステム１２１０、および／または、図１２で示されない他の構成要素を含み得る。

[0070] 論理マシン１２０２は、命令を実行するように構成される１つまたは複数の物理デバイスを含む。例えば論理マシンは、１つまたは複数の、アプリケーション、サービス、プログラム、ルーチン、ライブラリ、オブジェクト、コンポーネント、データ構造、または、他の論理構築物の部分である命令を実行するように構成され得る。そのような命令は、タスクを遂行する、データタイプを実装する、１つもしくは複数のコンポーネントの状態を変換する、技術的効果を達成する、または他の形で、所望の結果に行き着くように実装され得る。

[0071] 論理マシンは、ソフトウェア命令を実行するように構成される１つまたは複数のプロセッサを含み得る。追加的または代替的に論理マシンは、ハードウェアまたはファームウェアの命令を実行するように構成される、１つまたは複数のハードウェアまたはファームウェアの論理マシンを含み得る。論理マシンのプロセッサは、シングルコアまたはマルチコアであり得るものであり、それらのプロセッサ上で実行される命令は、順次、並列、および／または分散の処理に対して構成され得る。論理マシンの個々の構成要素は、任意選択により、２つ以上の別々のデバイスの間で分散され得るものであり、それらのデバイスは、リモートに配置され、および／または、協調処理に対して構成され得る。論理マシンの態様は、クラウドコンピューティング構成で構成される、リモートアクセス可能な、ネットワーク化されたコンピューティングデバイスにより仮想化および実行され得る。

[0072] 記憶マシン１２０４は、本明細書で説明する方法およびプロセスを実装するために、論理マシンにより実行可能な命令を保持するように構成される、１つまたは複数の物理デバイスを含む。そのような方法およびプロセスが実装されるとき、記憶マシン１２０４の状態は、例えば、異なるデータを保持するように変換され得る。

[0073] 記憶マシン１２０４は、リムーバブルおよび／またはビルトインデバイスを含み得る。記憶マシン１２０４は、中でも、光学メモリ（例えば、CD、DVD、HD-DVD、Blu-Ray Disc、その他）、半導体メモリ（例えば、RAM、EPROM、EEPROM、その他）、および／または、磁気メモリ（例えば、ハードディスクドライブ、フロッピーディスクドライブ、テープドライブ、MRAM、その他）を含み得る。記憶マシン１２０４は、揮発性、不揮発性、ダイナミック、スタティック、読み出し／書き込み、読み出し専用、ランダムアクセス、順次アクセス、ロケーションアドレス可能、ファイルアドレス可能、および／または、コンテンツアドレス可能のデバイスを含み得る。

[0074] 記憶マシン１２０４が、１つまたは複数の物理デバイスを含むということが察知されよう。しかしながら、本明細書で説明する命令の態様は、代替的に、有限の継続期間の間物理デバイスにより保持されない、通信媒体（例えば、電磁信号、光学信号、その他）により伝搬される場合がある。

[0075] 論理マシン１２０２および記憶マシン１２０４の態様は、１つまたは複数のハードウェア論理構成要素内に一体に集積され得る。そのようなハードウェア論理構成要素は、例えば、フィールドプログラマブルゲートアレイ（FPGA）、特定プログラムおよび用途向け集積回路（program- and application-specific integrated circuit）（PASIC/ASIC）、特定プログラムおよび用途向け標準製品（program- and application-specific standard product）（PSSP/ASSP）、システムオンチップ（SOC）、ならびに、コンプレックスプログラマブル論理デバイス（CPLD）を含み得る。

[0076] 「サービス」は、本明細書では、多重のユーザセッションにわたって実行可能なアプリケーションプログラムであるということが察知されよう。サービスは、１つまたは複数の、システム構成要素、プログラム、および／または、他のサービスに対して利用可能であり得る。一部の実装形態ではサービスは、１つまたは複数のサーバコンピューティングデバイス上で走る場合がある。

[0077] 含まれるとき、ディスプレイサブシステム１２０６は、記憶マシン１２０４により保持されるデータの視覚表現を提示するために使用され得る。この視覚表現は、グラフィカルユーザインターフェイス（GUI）の形式をとり得る。本明細書で説明する方法およびプロセスが、記憶マシンにより保持されるデータを変化させ、したがって、記憶マシンの状態を変換する際に、ディスプレイサブシステム１２０６の状態が、同じように、基になるデータの変化を視覚的に表すように変換され得る。ディスプレイサブシステム１２０６は、実質的に任意のタイプの技術を利用する１つまたは複数のディスプレイデバイスを含み得る。そのようなディスプレイデバイスは、共同の筐体内で論理マシン１２０２および／もしくは記憶マシン１２０４と組み合わされる場合があり、または、そのようなディスプレイデバイスは、周辺機器のディスプレイデバイスであり得る。

[0078] 含まれるとき、入力サブシステム１２０８は、キーボード、マウス、タッチスクリーン、もしくはゲームコントローラなどの、１つもしくは複数のユーザ入力デバイスを備え、または、それらのデバイスとインターフェイス接続し得る。一部の実施形態では入力サブシステムは、選択されたナチュラルユーザ入力（NUI:natural user input）構成部分を備え、または、その構成部分とインターフェイス接続し得る。そのような構成部分は、集積され得る、または、周辺機器であり得るものであり、入力アクションの転換および／または処理は、オンボードまたはオフボードで対処され得る。例のＮＵＩ構成部分は、発話および／または音声認識用のマイクロホン；マシンビジョンおよび／またはジェスチャ認識用の、赤外線、カラー、ステレオスコピック、および／または深度のカメラ；動き検出および／または意図認識用の、ヘッドトラッカ、アイトラッカ、加速度計、および／またはジャイロスコープ；ならびに、脳活動を評価するための電場感知構成部分を含み得る。例えば入力サブシステム１２０８は、センサデータストリームを、図６で示されるセンサデバイス６０８から受信するように構成され得る。

[0079] 含まれるとき、通信サブシステム１２１０は、コンピューティングシステム１２００を、１つまたは複数の他のコンピューティングデバイスと通信可能に結合するように構成され得る。通信サブシステム１２１０は、１つまたは複数の異なる通信プロトコルとの適合性がある、ワイヤードおよび／またはワイヤレスの通信デバイスを含み得る。非限定的な例として通信サブシステムは、ワイヤレス電話ネットワーク、または、ワイヤードもしくはワイヤレスのローカルエリアネットワークもしくはワイドエリアネットワークを介した通信に対して構成され得る。一部の実施形態では通信サブシステムは、コンピューティングシステム１２００が、インターネットなどのネットワークを介して、他のデバイスに、および／または、他のデバイスから、メッセージを送信および／または受信することを可能とし得る。

[0080] 本明細書で説明した構成および／または手法は、事実上例示的であるということ、ならびに、これらの特定の実施形態または例は、数多くの変形形態が可能であるので、限定的な意味で考慮すべきではないということが理解されよう。本明細書で説明した特定のルーチンまたは方法は、任意の数の処理戦略の１つまたは複数を表し得る。したがって、例解および／または説明した様々な行為は、例解および／もしくは説明したシーケンスで、他のシーケンスで、並列で遂行され、または、省略される場合がある。同じように、上記で説明したプロセスの順序は変化させられる場合がある。

[0081] 本開示の主題は、本明細書で開示した、様々なプロセス、システム、および構成、ならびに、他の特徴、機能、行為、および／または特質の、すべての新規の、および自明でない、組み合わせおよび部分的組み合わせを、それらのいずれかおよびすべての等価物と同様に含む。

Claims

コンピューティングデバイス上で、ユーザ間の会話を検出するための方法であって、
オーディオデータストリームを、１つまたは複数のセンサから受信するステップと、
第１のユーザと第２のユーザとの間の会話を、前記オーディオデータストリームに基づいて検出するステップと、
デジタルコンテンツアイテムの提示を、前記会話を検出することに応じて変更するステップと
を含む、方法。
前記第１のユーザと前記第２のユーザとの間の前記会話を検出するステップは、
前記オーディオデータストリーム内の音声活動を検出し、前記音声活動が人間の発話のセグメントを含むと決定するステップと、
人間の発話の前記セグメントが、異なる発生源場所間で交互に起こると決定するステップと
を含む、請求項１に記載の方法。
前記１つまたは複数のセンサは、複数のマイクロホンを備えるマイクロホンアレイを含み、人間の発話のセグメントの発生源場所を決定するステップは、前記異なる発生源場所を推定するために、ビームフォーミング空間フィルタを、前記マイクロホンアレイの複数のオーディオサンプルに適用するステップを含む、請求項２に記載の方法。
前記第１のユーザと前記第２のユーザとの間の前記会話を検出するステップは、人間の発話の前記セグメントが、指定された韻律レンジの内部で生起すると決定するステップをさらに含む、請求項２に記載の方法。
前記第１のユーザと前記第２のユーザとの間の前記会話を検出するステップは、人間の発話の前記セグメントが、異なる発生源場所間で、時間のしきい値期間の内部で交互に起こると決定するステップをさらに含む、請求項２に記載の方法。
人間の発話の１つまたは複数のセグメントが、電子オーディオデバイスにより提供されると決定するステップと、
人間の発話の前記セグメントが、異なる発生源場所間で交互に起こると決定するときに、前記電子オーディオデバイスにより提供される人間の発話の前記１つまたは複数のセグメントを無視するステップと
をさらに含む、請求項２に記載の方法。
前記デジタルコンテンツアイテムは、オーディオコンテンツアイテムおよびビデオコンテンツアイテムの１つまたは複数を含み、前記デジタルコンテンツアイテムの提示を変更するステップは、前記オーディオコンテンツアイテムまたは前記ビデオコンテンツアイテムの提示を一時停止するステップを含む、請求項１に記載の方法。
前記デジタルコンテンツアイテムは、オーディオコンテンツアイテムを含み、前記デジタルコンテンツアイテムの提示を変更するステップは、前記オーディオコンテンツアイテムの音量を低下させるステップを含む、請求項１に記載の方法。
前記デジタルコンテンツアイテムは、１つまたは複数の視覚コンテンツアイテムを含み、前記デジタルコンテンツアイテムの提示を変更するステップは、前記１つまたは複数の視覚コンテンツアイテムを、ディスプレイ上の視界から隠すステップ、前記１つまたは複数の視覚コンテンツアイテムを、前記ディスプレイ上の異なる位置に移動させるステップ、前記１つまたは複数の視覚コンテンツアイテムの透光性を変化させるステップ、および、前記ディスプレイ上の前記１つまたは複数の視覚コンテンツアイテムのサイズを変化させるステップの、１つまたは複数を含む、請求項１に記載の方法。
ヘッドマウントディスプレイデバイスであって、
オーディオデータストリームを捕捉するように構成される１つまたは複数のオーディオセンサと、
シーンの画像を捕捉するように構成される光学センサと、
デジタルコンテンツアイテムを表示するように構成されるシースルーディスプレイと、
論理マシンと、
記憶マシンであって、
前記デジタルコンテンツアイテムが前記シースルーディスプレイによって表示されている一方で、オーディオデータの前記ストリームを、前記１つまたは複数のオーディオセンサから受信することと、
前記ヘッドマウントディスプレイデバイスの着用者と別の人物との間で交互に起こる人間の発話セグメントを、前記オーディオデータストリームに基づいて検出することと、
前記別の人物を含む前記シーンの前記画像を前記光学センサから受信することと、
前記別の人物が前記着用者に話しているということを、前記画像に基づいて確認することと、
前記着用者と前記別の人物との間の会話を、前記オーディオデータストリームおよび前記画像に基づいて検出することと、
前記デジタルコンテンツアイテムの提示を、前記会話を検出することに応じて、前記シースルーディスプレイによって変更することと
を行うために、前記論理マシンにより実行可能な命令を保持する、記憶マシンと
を備える、ヘッドマウントディスプレイデバイス。