JP6612250B2 - 会話検出 - Google Patents

会話検出 Download PDF

Info

Publication number
JP6612250B2
JP6612250B2 JP2016559444A JP2016559444A JP6612250B2 JP 6612250 B2 JP6612250 B2 JP 6612250B2 JP 2016559444 A JP2016559444 A JP 2016559444A JP 2016559444 A JP2016559444 A JP 2016559444A JP 6612250 B2 JP6612250 B2 JP 6612250B2
Authority
JP
Japan
Prior art keywords
conversation
user
content item
audio
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016559444A
Other languages
English (en)
Other versions
JP2017516196A (ja
Inventor
チャールズ トムリン,アーサー
パウロヴィッチ,ジョナサン
マイケル キーブラー,エヴァン
スコット,ジェイソン
ブラウン,キャメロン
ウィリアム プラム,ジョナサン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2017516196A publication Critical patent/JP2017516196A/ja
Application granted granted Critical
Publication of JP6612250B2 publication Critical patent/JP6612250B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Optics & Photonics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

[0001] コンピューティングデバイス上のコンテンツの提示の間に会話を検出すること、および、1つまたは複数のアクションを、会話を検出することに応じてとることに関係する様々な実施形態が開示される。1つの例では、オーディオデータストリームが、1つまたは複数のセンサから受信され、第1のユーザと第2のユーザとの間の会話が、オーディオデータストリームに基づいて検出され、デジタルコンテンツアイテムの提示が、会話を検出することに応じて、コンピューティングデバイスにより変更される。
[0002] 本概要は、下記の詳細な説明でさらに説明する、単純化した形式での概念の選択物を紹介するために提供されるものである。本概要は、請求する主題の主要な特徴または本質的な特徴を識別することは意図されず、本概要は、請求する主題の範囲を限定するために使用されることもまた意図されない。さらに、請求する主題は、本開示の任意の部分に記す、いずれかまたはすべての欠点を解決する実装形態に限定されない。
[0003]ヘッドマウントディスプレイ(HMD)デバイスによるデジタルコンテンツアイテムの提示の例を示す図である。 [0004]別の人物と会話する、図1のHMDデバイスの着用者を示す図である。 [0005]着用者とその別の人物との間の会話を検出することに応じて、図1のデジタルコンテンツ提示に対してなされ得る例の変更を示す図である。 着用者とその別の人物との間の会話を検出することに応じて、図1のデジタルコンテンツ提示に対してなされ得る例の変更を示す図である。 着用者とその別の人物との間の会話を検出することに応じて、図1のデジタルコンテンツ提示に対してなされ得る例の変更を示す図である。 [0006]デジタルコンテンツアイテムの別の例の提示を示す図である。 [0007]別の人物と会話する、図6のユーザを示す図である。 [0008]ユーザとその別の人物との間の会話を検出することに応じて、図6のデジタルコンテンツ提示に対してなされ得る例の変更を示す図である。 [0009]会話検出処理パイプラインの例を示す図である。 [0010]会話を検出するための方法の例を図示するフロー線図を示す図である。 [0011]例のHMDデバイスを示す図である。 [0012]例のコンピューティングシステムを示す図である。
[0013] コンピューティングデバイスは、デジタルコンテンツを様々な形式で提示するために使用され得る。一部の事例ではコンピューティングデバイスは、3次元(3D)画像および/またはホログラフィック画像を表示することによってなどで、没入型の、および、心を奪うような方式でコンテンツを提供し得る。その上そのような視覚コンテンツは、さらに没入型の体験を提供するために、オーディオコンテンツの提示と組み合わされ得る。
[0014] デジタルコンテンツ提示は、コンピューティングデバイスがより可搬型になるため、従前のエンターテイメント状況以外の状況で消費される場合がある。したがって時には、そのようなコンピューティングデバイスのユーザは、コンテンツ提示の間に他者との会話に没頭する場合がある。提示の性質次第では、提示は、会話に対して気を散らすものであり得る。
[0015] したがって、ユーザ間の会話を自動的に検出すること、および、会話が行われている間にデジタルコンテンツの提示を変動させて、例えば、会話の間に提示が目立つことを低減することを関係付ける実施形態を、本明細書で開示する。人間の音声(voice)が単に存在することに対立するものとして、会話を検出することにより、そのようなコンピューティングデバイスは、別の人間との会話に没頭するために、表示されているコンテンツから少なくとも部分的に解放状態になろうとする、コンピューティングデバイスのユーザの意思がありそうだということを決定することが可能である。さらに、コンテンツの提示に対する適した変更が、コンテンツからのユーザの解放を容易にするために履行され得る。
[0016] 会話は、任意の適した様式で検出され得る。例えばユーザ間の会話は、第1のユーザが人間の発話(speech)のセグメント(例えば、少なくとも数個の単語)を話し、それに続いて、第2のユーザが人間の発話のセグメントを話し、それに続いて、第1のユーザが人間の発話のセグメントを話すことを検出することにより検出され得る。換言すれば会話は、異なる発生源場所間で交互に起こる、人間の発話の一連のセグメントとして検出され得る。
[0017] 図1〜5は、着用者102が、ヘッドマウントディスプレイ(HMD)デバイス104の形式でのコンピューティングデバイスとインタラクトしている、物理環境100の例のシナリオを示す。HMDデバイス104は、1つまたは複数のデジタルコンテンツアイテムを着用者に提示するように、および、着用者と別の人物との間の会話を検出することに応じて提示を変更するように構成され得る。HMDデバイス104は、例えば、下記でさらに詳細に論考するように、1つまたは複数のセンサから受信される、オーディオおよび/またはビデオデータを使用して会話を検出し得る。
[0018] 図1では、ホログラフィックオブジェクト106の形式での複数のデジタルコンテンツアイテムが、着用者102の観点からは、HMDデバイス104のシースルーディスプレイ108上に表示されているように図示される。複数のホログラフィックオブジェクト106は、物理環境100内に浮かぶかのように着用者102を包囲する仮想オブジェクトとして見え得る。別の例では、ホログラフィックオブジェクトはさらには、物理環境内の、壁、または、他の表面に関連している他のものにかかっているかのように見え得る。
[0019] 図示される実施形態では、ホログラフィックオブジェクトは、様々なコンテンツを表示するために使用され得る「スレート」として表示される。そのようなスレートは、任意の適したビデオ、結像、または他の視覚コンテンツを含み得る。1つの例では、第1のスレートは電子メールポータルを提示する場合があり、第2のスレートはソーシャルネットワークポータルを提示する場合があり、第3のスレートはニュースフィードを提示する場合がある。別の例では、異なるスレートは、異なるスポーツ種目などの異なるテレビジョンチャネルを提示する場合がある。さらに別の例では、1つのスレートはビデオゲームを提示する場合があり、他のスレートは、チャットルーム、ソーシャルネットワーキングアプリケーション、ゲーム統計および達成追跡アプリケーション、または別の適したアプリケーションなどの、ビデオゲームに対するコンパニオンアプリケーションを提示する場合がある。一部の事例では、単一のデジタルコンテンツアイテムが、シースルーディスプレイによって表示され得る。図1のスレートは例の目的で図示されるということ、および、ホログラフィックコンテンツは、任意の他の適した形式で表示され得るということが理解されよう。
[0020] HMDデバイス104はさらには、オーディオコンテンツを、単独で、またはビデオコンテンツと組み合わせて、着用者102に出力するように構成され得る。例えばHMDデバイス104は、オーディオコンテンツをプレイするためのビルトインスピーカまたはヘッドホンを含み得る。
[0021] HMDデバイスは、任意の適したタイプの、および数のデジタルコンテンツアイテムを着用者に提示するように構成され得るということが理解されよう。提示され得るデジタルコンテンツの非限定的な例は、映画、テレビジョン番組、ビデオゲーム、アプリケーション、歌、ラジオ放送、ポッドキャスト、ウェブサイト、テキストドキュメント、画像、写真、その他を含む。
[0022] 図2では、着用者102が、シースルーディスプレイ108によって表示される複数のホログラフィックオブジェクト106に没頭する一方で、別の人物110が物理環境100に入る。その別の人物110を目視すると、着用者102は、その別の人物との会話112を始める。会話は、着用者およびその別の人物の各々が、互いに人間の発話のセグメントを話すことを含む。したがってHMDデバイスは、その別の人物が話す前および後の両方で、着用者が話すことを検出することにより会話を検出するように構成され得る。同様にHMDデバイスは、HMDデバイスの着用者が話す前および後の両方で、その別の人物が話すことを検出することにより会話を検出するように構成され得る。
[0023] 図3〜5は、どのようにHMDデバイスが、表示されるホログラフィックオブジェクトの提示を、着用者とその別の人物との間の会話を検出することに応じて変更し得るかの非限定的な例を示す。最初に図3を参照すると、会話を検出することに応じて、HMDデバイス104は、複数のオブジェクトを、シースルーディスプレイ108上の視界から隠すように構成され得る。一部の実装形態では、シースルーディスプレイは、任意の仮想オブジェクトまたはオーバーレイを完全に排除され得る。同じように一部の実装形態では、オブジェクトは隠される場合があり、仮想境界、オーバーレイ、またはダッシュボードは、シースルーディスプレイ上に表示されたままである場合がある。オブジェクトがビデオおよび/またはオーディオコンテンツを提示するシナリオでは、そのようなコンテンツは、スレートが視界から隠されていることに応じて一時停止される場合がある。このようにすると着用者は、会話が終了したときに、コンテンツが一時停止される時点で、コンテンツの消費を再開することが可能である。
[0024] 図4で示される別の例では、会話を検出することに応じて、HMDデバイス104は、複数のオブジェクトの1つまたは複数を、着用者の中央の視界から外れている、およびしたがって、その別の人物の着用者の視界をブロックする公算がより少ないものであり得る、シースルーディスプレイ上の異なる位置に移動させるように構成され得る。さらに一部の実装形態では、HMDデバイスは、着用者に対するその別の人物の位置を決定し、複数のオブジェクトを、その別の人物の方向をブロックしない、シースルーディスプレイ上の位置に移動させるように構成され得る。例えば、その別の人物の方向は、オーディオデータ(例えば、マイクロホンアレイからの方向性オーディオデータ)、ビデオデータ(カラー、赤外線、深度、その他)、それらの組み合わせ、または、任意の他の適したデータを使用して決定され得る。
[0025] 図5で示される別の例では、会話を検出することに応じて、HMDデバイス104は、表示されるオブジェクトのサイズを変化させ、複数のオブジェクトを、シースルーディスプレイ上の異なる位置に移動させるように構成され得る。1つの非限定的な例として、複数のオブジェクトの各々のサイズは減少される場合があり、複数のオブジェクトは、シースルーディスプレイの隅に移動させられる場合がある。複数のオブジェクトは、着用者が会話に没頭することに先行して消費していたコンテンツの備忘として役立ち得る、隅でのタブとして見えるように変更される場合があり、または、任意の他の適した外観を有する場合がある。その上のさらなる例として、複数のオブジェクトの提示を変更することは、表示されるオブジェクトの透光性(translucency)を増大して、着用者がその別の人物を、シースルーディスプレイを通して目視することを可能とすることを含み得る。
[0026] 上記の説明したシナリオでは、シースルーディスプレイによって提示される仮想オブジェクトは、HMDデバイスの着用者に対して身体固定(body-locked)である。換言すれば、仮想オブジェクトの位置は、HMDデバイスの着用者の位置に対して不変である、または固定されるように見える。したがって、身体固定仮想オブジェクトは、着用者が物理環境の内部で移動する際にも、着用者の観点からは、シースルーディスプレイ上の同じ位置にとどまるように見え得る。
[0027] 一部の実装形態では、シースルーディスプレイによって提示される仮想オブジェクトは、着用者に世界固定(world-locked)であるように見え得る。換言すれば、仮想オブジェクトの位置は、物理環境内の現実世界位置に対して不変であるように見える。例えばホログラフィックスレートは、物理環境内の壁にかかっているかのように見え得る。一部の事例では、世界固定仮想オブジェクトの位置が、会話を妨げる場合がある。したがって一部の実装形態では、仮想オブジェクトの提示を、会話を検出することに応じて変更することは、世界固定仮想オブジェクトの現実世界位置を変化させることを含み得る。例えば、HMDデバイスの着用者と別のユーザとの中間の現実世界位置に配置される仮想オブジェクトは、着用者とユーザとの間ではない、異なる現実世界位置に移動させられ得る。1つの例では場所は、ユーザの方向以外の方向であり得る。
[0028] 一部の実装形態ではHMDデバイスは、会話の終了を検出するようにさらに構成され得る。会話の終了を検出することに応じてHMDデバイスは、シースルーディスプレイ上のオブジェクトの視覚状態を、会話が検出された前に存したそれらのオブジェクトの状態(例えば、隠されない、より透明でない、視界内で、より中央に置かれる、その他)に戻すように構成され得る。他の実装形態では着用者は、手動の指令(例えば、ボタン押下、音声指令、ジェスチャ、その他)を提供して、シースルーディスプレイ上の複数のオブジェクトのディスプレイを再び始める場合がある。
[0029] 上記で説明したような会話検出は、図1〜5のHMDを含む、ただしそれに限定されない、任意の適したコンピューティングデバイスによって利用され得る。図6〜8は、物理環境600内の第1のユーザ602が、大規模ディスプレイ604とインタラクトしている、別の例のシナリオを示す。ディスプレイデバイス604は、エンターテイメントコンピューティングデバイス606との通信状態にあり得る。さらにコンピューティングデバイス606は、センサデバイス608との通信状態にあり得るものであり、そのセンサデバイス608は、物理環境600に関するデータを捕捉するように構成される1つまたは複数のセンサを含む。センサデバイスは、オーディオデータストリームを捕捉するための1つまたは複数のオーディオセンサを含み得る。一部の実装形態ではセンサデバイスは、ビデオデータストリームを捕捉するための1つまたは複数の画像センサ(例えば、深度画像センサ、赤外線画像センサ、可視光画像センサ、その他)を含み得る。
[0030] エンターテイメントコンピューティングデバイス606は、ディスプレイ604による、その別の人物への1つまたは複数のデジタルコンテンツアイテムの提示を制御するように構成され得る。さらにエンターテイメントコンピューティングデバイス606は、ユーザ間の会話を、センサデバイス608から受信されるオーディオおよび/またはビデオデータに基づいて検出するように、ならびに、複数のデジタルコンテンツアイテムの1つまたは複数の提示を、会話を検出することに応じて変更するように構成され得る。センサデバイス、大規模ディスプレイ、およびエンターテイメントコンピューティングデバイスは別々の構成要素として示されるが、一部の実装形態では、センサデバイス、大規模ディスプレイ、およびエンターテイメントコンピューティングデバイスは、単一のハウジング内に組み合わされ得る。
[0031] 図6では第1のユーザ602は、エンターテイメントコンピューティングデバイス606により実行されるビデオゲームをプレイしている。第1のユーザがビデオゲームをプレイしている一方で、センサデバイス608は、物理環境600内の音を表すオーディオデータを捕捉している。図7では、第1のユーザ602が、大規模ディスプレイ604上に表示されるビデオゲームをプレイすることに没頭する一方で、第2のユーザ610が物理環境600に入る。第2のユーザ610を目視すると、第1のユーザ602は、第2のユーザとの会話612を始める。会話は、第1のユーザおよび第2のユーザの各々が、互いに人間の発話のセグメントを話すことを含む。1つの例として会話は、第2のユーザが話す前および後に第1のユーザが話すことにより、または、第1のユーザが話す前および後に第2のユーザが話すことにより検出され得る。
[0032] 第1のユーザと第2のユーザとの間の会話は、センサデバイス608により受信され、オーディオデータストリームとして出力され得るものであり、エンターテイメントコンピューティングデバイス606は、オーディオデータストリームをセンサデバイス608から受信し得る。エンターテイメントコンピューティングデバイス606は、第1のユーザ602と第2のユーザ610との間の会話を、オーディオデータストリームに基づいて検出し、会話の間にビデオゲームが目立つことを少なくするために、ビデオゲームの提示を、会話を検出することに応じて変更するように構成され得る。
[0033] エンターテイメントコンピューティングデバイス606は、任意の適したアクションを、会話を検出することに応じてとり得る。1つの例では、図8で示されるように、エンターテイメントコンピューティングデバイス606は、ビデオゲームの提示を、ビデオゲームを一時停止することにより変更する場合がある。さらに一部の実装形態では、視覚インジケータ614が、ビデオゲームの提示が変更されたということを指示するために表示され得るものであり、視覚インジケータは、エンターテイメントコンピューティングデバイスが会話の検出に反応しているということの、ユーザに対する巧妙な指示を提供し得る。別の例として、会話を検出することに応じて、エンターテイメントコンピューティングデバイスは、ビデオゲームを一時停止することなく、ビデオゲームの音量をミュートする、または低下させる場合がある。
[0034] 一部の実装形態では、会話を検出することに応じて、デジタルコンテンツアイテムの提示が、1つまたは複数の要因に基づいて異なって変更され得る。1つの例では、デジタルコンテンツアイテムの提示は、デジタルコンテンツアイテムのコンテンツタイプに基づいて異なって変更され得る。例えば、ビデオゲームは一時停止される場合があり、生のテレビジョン番組は縮小される場合があり、音量は減少される場合がある。別の例では、デジタルコンテンツアイテムの提示は、デジタルコンテンツアイテムに関する関与(involvement)または没頭(engagement)のレベルに基づいて異なって変更され得る。例えば、「関与メータ」などの、様々なセンサ指示に基づいて関与のレベルを推定するための機構が実装され得る。1つの例では、ユーザが、高いレベルの関与を有すると決定されるならば、デジタルコンテンツアイテムの提示は、単に音量レベルを下げることにより変更され得る。他方でユーザが、より低いレベルの関与を有すると決定されるならば、デジタルコンテンツアイテムの提示は、デジタルコンテンツアイテムを隠し、ミュートすることにより変更され得る。どのようにデジタルコンテンツアイテムの提示が変更されるかを決定するために使用され得る他の非限定的な要因は、時刻、地理的場所、および物理的状況(例えば、仕事、家庭、コーヒーショップ、その他)を含み得る。
[0035] 会話の生起は、様々な様式で決定され得る。例えば会話は、オーディオデータ、ビデオデータ、またはそれらの組み合わせに基づいて検出され得る。図9は、会話を検出するために1つまたは複数のコンピューティングデバイスで実装され得る、会話処理パイプライン900の例を示す。会話処理パイプライン900は、物理環境に関する情報を捕捉する複数の異なるセンサ902から受信されるデータストリームを処理するように構成され得る。
[0036] 図示される実施形態では、オーディオデータストリーム904が、マイクロホンアレイ904から受信され得るものであり、画像データストリーム924が、画像センサ906から受信され得る。オーディオデータストリーム908は、オーディオデータストリームが人間の音声を表すか、それとも他の背景雑音を表すかを決定するように構成される、音声活動検出(VAD:voice activity detection)段階910を通過させられ得る。音声活動912を含むように指示されるオーディオデータが、VAD段階910から出力され、発話の部分を音声活動から検出するように構成される発話認識段階914に給送され得る。発話認識段階914は、人間の発話セグメント916を出力し得る。例えば人間の発話セグメントは、単語の部分、および/または、完全形の単語を含み得る。
[0037] 一部の実装形態では発話認識段階は、人間の発話セグメントに関連する確信度レベルを出力し得る。会話処理パイプラインは、確信度しきい値(例えば、発話セグメントが単語であるということを50%確信する)をセットするように構成され得るものであり、確信度しきい値未満である確信度レベルを有する人間の発話セグメントを棄却することが可能である。
[0038] 一部の実装形態では発話認識段階は、コンピューティングデバイス上でローカルに実装され得る。他の実装形態では発話認識段階は、リモートコンピューティングデバイス上に配置されるサービスとして実装され(例えば、コンピューティングクラウドネットワーク内で実装され)、または、ローカルデバイスとリモートデバイスとの間で分散され得る。
[0039] 発話認識段階914から出力される人間の発話セグメント916は、人間の発話セグメントの発生源場所を決定するように構成される発話発生源ロケータ段階918に給送され得る。一部の実装形態では発生源場所は、マイクロホンアレイ904内のマイクロホンのトランスデューサ音量および/または位相を比較することにより推定され得る。例えばアレイ内の各々のマイクロホンは、アレイ内の他のマイクロホンに対する、音量トランスデューサレベルおよび/または位相を報告するように較正され得る。デジタル信号処理を使用して、各々のマイクロホントランスデューサからの二乗平均平方根の知覚されるラウドネスが、(例えば、20ミリ秒ごとに、または別の適した間隔で)算出され得るものであり、そのことは、どのマイクロホンが、よりラウドなオーディオ音量を報告しているか、およびどれだけ多くであるかを指示する重み付き関数を提供するためのものである。アレイ内のマイクロホンの各々のトランスデューサ音量レベルの比較は、捕捉されるオーディオデータの発生源場所を推定するために使用され得る。
[0040] 一部の実装形態ではビームフォーミング空間フィルタが、捕捉されるオーディオデータの発生源場所を推定するために、マイクロホンアレイの複数のオーディオサンプルに適用され得る。HMDデバイスの事例では、ビームフォーミングされるオーディオストリームは、着用者の口と合わせるために、HMDデバイスから直に前方に照準され得る。したがって、着用者、および、直に着用者の前部にいる誰かからのオーディオは、距離があっても明瞭であり得る。一部の実装形態では、トランスデューサ音量レベルの比較、およびビームフォーミング空間フィルタが、捕捉されるオーディオデータの発生源場所を推定するために、組み合わせて使用され得る。
[0041] 発話発生源ロケータ段階918は、人間の発話セグメントの発生源場所920を会話検出器段階922に給送し得るものであり、その会話検出器段階922は、人間の発話のセグメントが、異なる発生源場所間で交互に起こると決定することに基づいて会話を検出するように構成される。交互に起こるパターンは、異なるユーザが、会話で互いにやり取りして話しているということを指示し得る。
[0042] 一部の実装形態では会話検出器段階922は、人間の発話のセグメントが、異なる発生源場所間で、時間のしきい値期間の内部で交互に起こる、または、人間の発話のセグメントが、指定された韻律レンジ(cadence range)の内部で生起するならば、会話を検出するように構成され得る。時間のしきい値期間、および韻律は、任意の適した様式でセットされ得る。しきい値期間によって、人間の発話の交互に起こるセグメントは、会話であり、無関係の発話セグメントではないということであるのに十分に、時間的に近接して生起するということが確実になり得る。
[0043] 一部の実装形態では会話処理パイプライン900は、人間の発話の1つまたは複数のセグメントが、ディスプレイ上に提示されている映画またはテレビジョン番組からなど、電子オーディオデバイスから発出するかどうかを決定することに対して、オーディオデータストリーム908を分析するように構成され得る。1つの例では決定は、電子オーディオデバイスのオーディオまたは音量の識別特性を識別することに基づいて遂行され得る。別の例では決定は、電子オーディオデバイスの既知の発生源場所に基づいて遂行され得る。さらに会話処理パイプライン900は、人間の発話のセグメントが、異なる発生源場所間で交互に起こると決定するときに、電子オーディオデバイスにより提供される人間の発話のそれらの1つまたは複数のセグメントを能動的に無視するように構成され得る。このようにすると例えば、映画内のキャラクタ間で行われる会話が、現実の人間のユーザ間の会話として間違えられる可能性がない。
[0044] 一部の実装形態では、オーディオデータストリームの分析は、画像センサ906から受信される画像データストリーム924の分析により向上させられ得る。例えば画像データストリームは、可能性として会話に没頭する1人または両方の話者の画像(例えば、HMDデバイスの着用者の観点からのユーザの画像、または、センサデバイスの観点からの両方のユーザの画像)を含み得る。画像データストリーム924は、特徴認識段階926に給送され得る。特徴認識段階926は例えば、画像を分析して、ユーザの口が動いているかどうかを決定するように構成され得る。特徴認識段階926は、識別される特徴、および/または、ユーザが話しているという確信度のレベルを指し示す確信度レベル930を出力し得る。確信度レベル930は、会話検出器段階922により、会話を検出するためのオーディオデータストリームの分析と組み合わせて使用され得る。
[0045] 画像データストリーム924はさらには、ユーザ識別段階928に給送され得る。ユーザ識別段階928は、画像を分析して、話しているユーザを認識するように構成され得る。例えば顔または身体の構造が、ユーザを識別するためにユーザプロファイルと比較され得る。ユーザは、任意の適した視覚分析に基づいて識別され得るということが理解されよう。ユーザ識別段階928は、話者の識別情報932を、会話検出器段階922に、決定での確信度を反映する確信度レベルと同様に出力し得る。会話検出器段階922は、話者識別情報932を使用して、人間の発話のセグメントを、個別の識別されるユーザにより話されていると分類し得る。このようにすると、会話検出の確信度が増大され得る。図示される会話処理パイプラインは単に、オーディオデータストリームが、会話を検出するために分析される様式の1つの例であり、任意の適した手法が、本開示の範囲から逸脱することなく、会話を検出するために実装され得るということが理解されよう。
[0046] 図10は、会話の間にコンテンツ提示が目立つことを低減する一助となるために、コンピューティングデバイスによって会話を検出するための例の方法1000を図示するフロー線図を示す。方法1000は例えば、図1で示されるHMDデバイス104、図6で示されるエンターテイメントコンピューティングデバイス606により、または、任意の他の適したコンピューティングデバイスにより遂行され得る。
[0047] 1002で方法1000は、1つまたは複数のデジタルコンテンツアイテムを提示するステップを含む。例えば提示するステップは、ビデオコンテンツアイテムをディスプレイ上に表示するステップを含み得る。別の例では提示するステップは、オーディオコンテンツアイテムをプレイするステップを含み得る。さらに1004で方法1000は、オーディオデータストリームを1つまたは複数のセンサから受信するステップを含む。1つの例ではオーディオデータストリームは、マイクロホンアレイから受信され得る。
[0048] 1006で方法1000は、オーディオデータストリームを音声活動に対して分析するステップを含み、1008で、オーディオデータストリームが音声活動を含むかどうかを決定するステップを含む。オーディオデータストリームが音声活動を含むならば、方法1000は1010に進む。そうでなければ、方法1000は他の動作に戻る。
[0049] 1010で方法1000は、音声活動を人間の発話セグメントに対して分析するステップを含み、1012で、音声活動が人間の発話セグメントを含むかどうかを決定するステップを含む。音声活動が人間の発話セグメントを含むならば、方法1000は1014に進む。そうでなければ、方法1000は他の動作に戻る。
[0050] 1014で方法1000は、何らかの人間の発話セグメントが電子オーディオデバイスにより提供されるかどうかを決定するステップを含む。人間の発話セグメントの何らかのものが電子オーディオデバイスにより提供されるならば、方法1000は1016に進む。そうでなければ、方法1000は1018に進む。1016で方法1000は、電子オーディオデバイスにより提供されるそれらの人間の発話セグメントを能動的に無視するステップを含む。換言すればそれらの人間の発話セグメントは、会話検出のいかなる考慮からも除外され得る。1018で方法1000は、オーディオデータストリームの各々の人間の発話セグメントの発生源場所を決定するステップを含む。さらに1020で方法1000は、人間の発話セグメントが、異なる発生源場所間で交互に起こるかどうかを決定するステップを含む。1つの例では会話は、第1のユーザにより話される人間の発話セグメントが、第2のユーザにより話される人間の発話セグメントの前および後で生起するときに検出され得る。別の例では会話は、第2のユーザにより話される人間の発話セグメントが、第1のユーザにより話される人間の発話セグメントの前および後で生起するときに検出され得る。一部の実装形態ではこのことは、交互に起こる人間の発話セグメントが、指定された時間期間の内部であるかどうかを決定することを含み得る。さらに一部の実装形態ではこのことは、交互に起こる人間の発話セグメントが、指定された韻律レンジの内部で生起するかどうかを決定することを含み得る。人間の発話セグメントが、異なる発生源場所間で交互に起こる(および、指定された時間期間の内部であり、指定された韻律レンジの内部で生起する)ならば、会話は検出され、方法1000は1022に進む。そうでなければ、方法1000は他の動作に戻る。
[0051] 会話が検出されるならば、1022で方法1000は、会話を検出することに応じて、1つまたは複数のデジタルコンテンツアイテムの提示を変更するステップを含む。例えば、提示が一時停止される場合があり、オーディオコンテンツアイテムの音量が低下させられる場合があり、1つもしくは複数の視覚コンテンツアイテムが、ディスプレイ上の視界から隠される場合があり、1つもしくは複数の視覚コンテンツアイテムが、ディスプレイ上の異なる位置に移動させられる場合があり、および/または、ディスプレイ上の1つもしくは複数の視覚コンテンツアイテムのサイズが変更される場合がある。
[0052] デジタルコンテンツアイテムの提示を、ユーザ間の会話を検出することに応じて変更することにより、デジタルコンテンツアイテムの提示は、会話の間に、より目立たなくされ得る。その上このようにすると、ユーザは、会話が始められるときに、手動で、コンテンツの再生を一時停止する、音量を低減する、その他など、デジタルコンテンツアイテムの提示を手動で変更する必要がない。
[0053] 本明細書で説明する会話検出実装形態は、任意の適したコンピューティングデバイスによって使用され得る。例えば一部の実施形態では、開示する実装形態は、HMDデバイスを使用して実装され得る。図11は、透明ディスプレイ1102を伴う1対のウェアラブルグラスの形式でのHMDデバイス1100の非限定的な例を示す。HMDデバイスは、透明、半透明、および/または非透明のディスプレイが、観視者の目、または複数の目の前部で支持される、任意の他の適した形式をとり得るということが察知されよう。
[0054] HMDデバイス1100は、シースルーディスプレイ1102の動作を制御するように構成されるコントローラ1104を含む。シースルーディスプレイ1102は、ホログラフィックオブジェクトなどの画像が、HMDデバイス1100の着用者の目に届けられることを可能にし得る。シースルーディスプレイ1102は、現実世界の物理環境の外観を、透明ディスプレイを通して物理環境を観視する着用者に対して、視覚的に強化するように構成され得る。例えば物理環境の外観は、複合現実環境を創出するために透明ディスプレイ1102によって提示されるグラフィカルコンテンツにより強化され得る。1つの例ではディスプレイは、1つまたは複数の視覚デジタルコンテンツアイテムを表示するように構成され得る。一部の事例ではデジタルコンテンツアイテムは、現実世界環境の前部にオーバーレイされる仮想オブジェクトであり得る。同じように、一部の事例ではデジタルコンテンツアイテムは、透明ディスプレイ1102を通して目視される、現実世界環境の現実世界オブジェクトの要素を組み込む場合がある。
[0055] 任意の適した機構が、画像を透明ディスプレイ1102によって表示するために使用され得る。例えば透明ディスプレイ1102は、レンズ1106の内部に配置される画像生成要素を含み得る(例えば、シースルー有機発光ダイオード(OLED)ディスプレイなど)。別の例として透明ディスプレイ1102は、HMDデバイス1100のフレームの内部に配置される光変調器を含み得る。この例ではレンズ1106は、光変調器からの光を着用者の目に届けるための光ガイドとして役立ち得る。そのような光ガイドは、着用者が、着用者が観視している物理環境の内部に配置される3Dホログラフィック画像を知覚することを可能にし、一方でさらには、着用者が、物理環境内の物理オブジェクトを観視することを可能とし、したがって複合現実環境を創出し得る。
[0056] HMDデバイス1100はさらには、情報をコントローラ1104に提供するための、様々なセンサ、および関係するシステムを含み得る。そのようなセンサは、マイクロホンアレイ、1つまたは複数の外向き画像センサ1108、および慣性測定ユニット(IMU)1110を含み得るが、それらに限定されない。
[0057] 非限定的な例としてマイクロホンアレイは、HMDデバイス1100の異なる小部分上に配置される6つのマイクロホンを含み得る。一部の実装形態ではマイクロホン1112および1114は、レンズ1106の上部の小部分上に位置決めされ得るものであり、一般的には前向きであり得る。マイクロホン1112および1114は、HMDデバイス1100の前方の方向に対して角度45度に照準され得る。マイクロホン1112および1114は、HMDデバイス1100の平坦な水平面でさらに照準され得る。マイクロホン1112および1114は、HMDデバイス1100の前部の全体的なエリア/方向での音を捕捉するように構成される無指向性マイクロホンであり得るものであり、または、任意の他の適した形式をとり得る。
[0058] マイクロホン1116および1118は、レンズ1106の下部の小部分上に位置決めされ得る。1つの非限定的な例としてマイクロホン1116および1118は、前向きであり、着用者の口から発せられる音を捕捉するために下方に照準され得る。一部の実装形態ではマイクロホン1116および1118は、指向性マイクロホンであり得る。一部の実装形態ではマイクロホン1112、1114、1116、および1118は、レンズ1106を包囲するフレーム内に位置決めされ得る。
[0059] マイクロホン1120および1122は各々、HMDデバイス1100の側部フレーム上に位置決めされ得る。マイクロホン1120および1122は、HMDデバイス1100の前方の方向に対して角度90度に照準され得る。マイクロホン1120および1122は、HMDデバイス1100の平坦な水平面でさらに照準され得る。マイクロホン1120および1122は、HMDデバイス1100の各々の側部上の全体的なエリア/方向での音を捕捉するように構成される無指向性マイクロホンであり得る。上記で説明したもの以外の任意の他の適したマイクロホンアレイが使用され得るということが理解されよう。
[0060] 上記で論考したように、マイクロホンアレイは、HMDデバイスの着用者と別の人物との間の会話を検出するためにコントローラ1104により分析され得るオーディオデータストリームを生成し得る。1つの非限定的な例では、デジタル信号処理を使用して、各々のマイクロホントランスデューサからの二乗平均平方根の知覚されるラウドネスが算出され得るものであり、重み付き関数が、よりラウドな音を報告しているのが左の方のマイクロホンであるか、それとも右の方のマイクロホンであるか、およびどれだけ多くであるかを報告し得る。同様に値が、「口に向かって」および「口から離れて」、ならびに「前部対側部」に関して報告され得る。このデータは、人間の発話セグメントの発生源場所を決定するために使用され得る。さらにコントローラ1104は、人間の発話セグメントが、異なる発生源場所間で交互に起こると決定することにより、会話を検出するように構成され得る。
[0061] 図示されるマイクロホンアレイは単に、適したマイクロホンアレイの1つの非限定的な例であり、任意の適した構成での任意の適した数のマイクロホンが、本開示の範囲から逸脱することなく実装され得るということが理解されよう。
[0062] 1つまたは複数の外向き画像センサ1108は、視覚データを、HMDデバイス1100が配置される物理環境から捕捉するように構成され得る。例えば外向きセンサ1108は、ディスプレイ1102の視野の内部の運動、例えるなら、着用者により、または、その視野の内部の人物もしくは物理オブジェクトにより遂行される運動などを検出するように構成され得る。1つの例では外向きセンサ1108は、HMDデバイスの着用者に話すユーザを検出し得る。外向きセンサはさらには、2D画像情報および深度情報を、物理環境、および、環境の内部の物理オブジェクトから捕捉し得る。上記で論考したように、そのような画像データは、ユーザが着用者に話しているということを視覚的に認識するために使用され得る。そのような分析は、会話検出の確信度を増大するために、オーディオデータストリームの分析と組み合わされ得る。
[0063] IMU1110は、HMDデバイス1100の位置および/または方位データをコントローラ1104に提供するように構成され得る。1つの実施形態ではIMU1110は、3軸または3自由度位置センサシステムとして構成され得る。この例の位置センサシステムは、例えば、3つの直交軸(例えば、x、y、z)に関する3D空間の内部のHMDデバイス1100の方位の変化(例えば、ロール、ピッチ、ヨー)を指示または測定するための3つのジャイロスコープを含み得る。IMUのセンサ信号から導出される方位は、HMDデバイスの着用者を会話に没頭させたユーザの方向を決定するために使用され得る。
[0064] 別の例ではIMU1110は、6軸または6自由度位置センサシステムとして構成され得る。そのような構成は、3つの直交軸に沿ったHMDデバイス1100の場所の変化、および、3つの直交軸に関するデバイス方位の変化を指示または測定するための、3つの加速度計および3つのジャイロスコープを含み得る。一部の実施形態では、画像センサ1108およびIMU1110からの、位置および方位データは、HMDデバイス100の位置および方位を決定するために連関して使用され得る。
[0065] HMDデバイス1100は、HMDデバイスの着用者に音を出力するように構成されるスピーカ1124および1126をさらに含み得る。スピーカ1124および1126は、着用者の耳に近接して、HMDデバイスの各々の側部フレーム小部分上に位置決めされ得る。例えばスピーカ1124および1126は、音楽などのオーディオコンテンツ、または、シースルーディスプレイ1102によって表示される視覚コンテンツに対するサウンドトラックをプレイし得る。一部の事例ではスピーカの音量は、着用者と、検出されている別の人物との間の会話に応じて、低下させられる、またはミュートされる場合がある。
[0066] コントローラ1104は、HMDデバイス1100の様々なセンサおよびディスプレイとの通信状態にあり得る、図12に関して下記でより詳細に論考するような、論理マシンおよび記憶マシンを含み得る。1つの例では記憶マシンは、オーディオデータストリームを、マイクロホンアレイなどの1つまたは複数のセンサから受信することと、着用者とユーザとの間の会話を、オーディオデータストリームに基づいて検出することと、デジタルコンテンツアイテムの提示を、会話を検出することに応じて変更することとを行うために、論理マシンにより実行可能である命令を含み得る。
[0067] 一部の実施形態では、本明細書で説明する方法およびプロセスは、1つまたは複数のコンピューティングデバイスのコンピューティングシステムに結び付けられ得る。特にそのような方法およびプロセスは、コンピュータアプリケーションプログラムもしくはサービス、アプリケーションプログラミングインターフェイス(API)、ライブラリ、および/または、他のコンピュータプログラム製品として実装され得る。
[0068] 図12は、上記で説明した方法およびプロセスの1つまたは複数を再現し得る、コンピューティングシステム1200の非限定的な実施形態を概略的に示す。コンピューティングシステム1200は、単純化した形式で示される。コンピューティングシステム1200は、1つまたは複数の、パーソナルコンピュータ、サーバコンピュータ、タブレットコンピュータ、ホームエンターテイメントコンピュータ、ネットワークコンピューティングデバイス、ゲーミングデバイス、モバイルコンピューティングデバイス、モバイル通信デバイス(例えば、スマートフォン)、および/または、他のコンピューティングデバイスの形式をとり得る。例えばコンピューティングシステムは、図1で示されるHMDデバイス104、図6で示されるエンターテイメントコンピューティングデバイス606、または、別の適したコンピューティングデバイスの形式をとり得る。
[0069] コンピューティングシステム1200は、論理マシン1202および記憶マシン1204を含む。コンピューティングシステム1200は、任意選択により、ディスプレイサブシステム106、入力サブシステム1208、通信サブシステム1210、および/または、図12で示されない他の構成要素を含み得る。
[0070] 論理マシン1202は、命令を実行するように構成される1つまたは複数の物理デバイスを含む。例えば論理マシンは、1つまたは複数の、アプリケーション、サービス、プログラム、ルーチン、ライブラリ、オブジェクト、コンポーネント、データ構造、または、他の論理構築物の部分である命令を実行するように構成され得る。そのような命令は、タスクを遂行する、データタイプを実装する、1つもしくは複数のコンポーネントの状態を変換する、技術的効果を達成する、または他の形で、所望の結果に行き着くように実装され得る。
[0071] 論理マシンは、ソフトウェア命令を実行するように構成される1つまたは複数のプロセッサを含み得る。追加的または代替的に論理マシンは、ハードウェアまたはファームウェアの命令を実行するように構成される、1つまたは複数のハードウェアまたはファームウェアの論理マシンを含み得る。論理マシンのプロセッサは、シングルコアまたはマルチコアであり得るものであり、それらのプロセッサ上で実行される命令は、順次、並列、および/または分散の処理に対して構成され得る。論理マシンの個々の構成要素は、任意選択により、2つ以上の別々のデバイスの間で分散され得るものであり、それらのデバイスは、リモートに配置され、および/または、協調処理に対して構成され得る。論理マシンの態様は、クラウドコンピューティング構成で構成される、リモートアクセス可能な、ネットワーク化されたコンピューティングデバイスにより仮想化および実行され得る。
[0072] 記憶マシン1204は、本明細書で説明する方法およびプロセスを実装するために、論理マシンにより実行可能な命令を保持するように構成される、1つまたは複数の物理デバイスを含む。そのような方法およびプロセスが実装されるとき、記憶マシン1204の状態は、例えば、異なるデータを保持するように変換され得る。
[0073] 記憶マシン1204は、リムーバブルおよび/またはビルトインデバイスを含み得る。記憶マシン1204は、中でも、光学メモリ(例えば、CD、DVD、HD-DVD、Blu-Ray Disc、その他)、半導体メモリ(例えば、RAM、EPROM、EEPROM、その他)、および/または、磁気メモリ(例えば、ハードディスクドライブ、フロッピーディスクドライブ、テープドライブ、MRAM、その他)を含み得る。記憶マシン1204は、揮発性、不揮発性、ダイナミック、スタティック、読み出し/書き込み、読み出し専用、ランダムアクセス、順次アクセス、ロケーションアドレス可能、ファイルアドレス可能、および/または、コンテンツアドレス可能のデバイスを含み得る。
[0074] 記憶マシン1204が、1つまたは複数の物理デバイスを含むということが察知されよう。しかしながら、本明細書で説明する命令の態様は、代替的に、有限の継続期間の間物理デバイスにより保持されない、通信媒体(例えば、電磁信号、光学信号、その他)により伝搬される場合がある。
[0075] 論理マシン1202および記憶マシン1204の態様は、1つまたは複数のハードウェア論理構成要素内に一体に集積され得る。そのようなハードウェア論理構成要素は、例えば、フィールドプログラマブルゲートアレイ(FPGA)、特定プログラムおよび用途向け集積回路(program- and application-specific integrated circuit)(PASIC/ASIC)、特定プログラムおよび用途向け標準製品(program- and application-specific standard product)(PSSP/ASSP)、システムオンチップ(SOC)、ならびに、コンプレックスプログラマブル論理デバイス(CPLD)を含み得る。
[0076] 「サービス」は、本明細書では、多重のユーザセッションにわたって実行可能なアプリケーションプログラムであるということが察知されよう。サービスは、1つまたは複数の、システム構成要素、プログラム、および/または、他のサービスに対して利用可能であり得る。一部の実装形態ではサービスは、1つまたは複数のサーバコンピューティングデバイス上で走る場合がある。
[0077] 含まれるとき、ディスプレイサブシステム1206は、記憶マシン1204により保持されるデータの視覚表現を提示するために使用され得る。この視覚表現は、グラフィカルユーザインターフェイス(GUI)の形式をとり得る。本明細書で説明する方法およびプロセスが、記憶マシンにより保持されるデータを変化させ、したがって、記憶マシンの状態を変換する際に、ディスプレイサブシステム1206の状態が、同じように、基になるデータの変化を視覚的に表すように変換され得る。ディスプレイサブシステム1206は、実質的に任意のタイプの技術を利用する1つまたは複数のディスプレイデバイスを含み得る。そのようなディスプレイデバイスは、共同の筐体内で論理マシン1202および/もしくは記憶マシン1204と組み合わされる場合があり、または、そのようなディスプレイデバイスは、周辺機器のディスプレイデバイスであり得る。
[0078] 含まれるとき、入力サブシステム1208は、キーボード、マウス、タッチスクリーン、もしくはゲームコントローラなどの、1つもしくは複数のユーザ入力デバイスを備え、または、それらのデバイスとインターフェイス接続し得る。一部の実施形態では入力サブシステムは、選択されたナチュラルユーザ入力(NUI:natural user input)構成部分を備え、または、その構成部分とインターフェイス接続し得る。そのような構成部分は、集積され得る、または、周辺機器であり得るものであり、入力アクションの転換および/または処理は、オンボードまたはオフボードで対処され得る。例のNUI構成部分は、発話および/または音声認識用のマイクロホン;マシンビジョンおよび/またはジェスチャ認識用の、赤外線、カラー、ステレオスコピック、および/または深度のカメラ;動き検出および/または意図認識用の、ヘッドトラッカ、アイトラッカ、加速度計、および/またはジャイロスコープ;ならびに、脳活動を評価するための電場感知構成部分を含み得る。例えば入力サブシステム1208は、センサデータストリームを、図6で示されるセンサデバイス608から受信するように構成され得る。
[0079] 含まれるとき、通信サブシステム1210は、コンピューティングシステム1200を、1つまたは複数の他のコンピューティングデバイスと通信可能に結合するように構成され得る。通信サブシステム1210は、1つまたは複数の異なる通信プロトコルとの適合性がある、ワイヤードおよび/またはワイヤレスの通信デバイスを含み得る。非限定的な例として通信サブシステムは、ワイヤレス電話ネットワーク、または、ワイヤードもしくはワイヤレスのローカルエリアネットワークもしくはワイドエリアネットワークを介した通信に対して構成され得る。一部の実施形態では通信サブシステムは、コンピューティングシステム1200が、インターネットなどのネットワークを介して、他のデバイスに、および/または、他のデバイスから、メッセージを送信および/または受信することを可能とし得る。
[0080] 本明細書で説明した構成および/または手法は、事実上例示的であるということ、ならびに、これらの特定の実施形態または例は、数多くの変形形態が可能であるので、限定的な意味で考慮すべきではないということが理解されよう。本明細書で説明した特定のルーチンまたは方法は、任意の数の処理戦略の1つまたは複数を表し得る。したがって、例解および/または説明した様々な行為は、例解および/もしくは説明したシーケンスで、他のシーケンスで、並列で遂行され、または、省略される場合がある。同じように、上記で説明したプロセスの順序は変化させられる場合がある。
[0081] 本開示の主題は、本明細書で開示した、様々なプロセス、システム、および構成、ならびに、他の特徴、機能、行為、および/または特質の、すべての新規の、および自明でない、組み合わせおよび部分的組み合わせを、それらのいずれかおよびすべての等価物と同様に含む。

Claims (8)

  1. コンピュータによって実施される、ユーザ間の会話を検出するための方法であって、
    オーディオデータストリームを、1つまたは複数のセンサから受信するステップと、
    第1のユーザと第2のユーザとの間の会話を、前記オーディオデータストリームに基づいて検出するステップと、
    デジタルコンテンツアイテムの提示を、前記会話を検出することに応じて変更するステップと
    を含み、
    前記デジタルコンテンツアイテムは、1つまたは複数の視覚コンテンツアイテムを含み、前記デジタルコンテンツアイテムの提示を変更するステップは、前記1つまたは複数の視覚コンテンツアイテムを、ディスプレイ上の視界から隠すステップ、前記1つまたは複数の視覚コンテンツアイテムを、前記ディスプレイ上の異なる位置に移動させるステップ、前記1つまたは複数の視覚コンテンツアイテムの透光性を変化させるステップ、および、前記ディスプレイ上の前記1つまたは複数の視覚コンテンツアイテムのサイズを変化させるステップの、1つまたは複数を含み、
    前記第1のユーザと前記第2のユーザとの間の前記会話を検出するステップは、
    前記オーディオデータストリーム内の音声活動を検出し、前記音声活動が人間の発話のセグメントを含むと決定するステップと、
    人間の発話の前記セグメントが、異なる発生源場所間で交互に起こると決定するステップとを含み、
    人間の発話の1つまたは複数のセグメントが、電子オーディオデバイスから発出するかどうかを決定するステップと、
    人間の発話の前記セグメントが、異なる発生源場所間で交互に起こると決定するときに、前記電子オーディオデバイスにより提供される人間の発話の前記1つまたは複数のセグメントを無視するステップと
    ヘッドマウントディスプレイデバイスの着用者と別の人物とを含む、前記第1のユーザと第2のユーザとの間で交互に起こる人間の発話セグメントを、前記オーディオデータストリームに基づいて検出するステップと、
    前記別の人物を含むシーンの画像を、前記ヘッドマウントディスプレイデバイスの光学センサから受信するステップと、
    前記画像の分析に基づき、前記別の人物の口が動いているかどうかを決定した後、前記別の人物が前記着用者に話しているか否かを判断するステップと
    をさらに含む
    をさらに含む、方法。
  2. 前記1つまたは複数のセンサは、複数のマイクロホンを備えるマイクロホンアレイを含み、人間の発話のセグメントの発生源場所を決定するステップは、前記異なる発生源場所を推定するために、ビームフォーミング空間フィルタを、前記マイクロホンアレイの複数のオーディオサンプルに適用するステップを含む、請求項1に記載の方法。
  3. 前記第1のユーザと前記第2のユーザとの間の前記会話を検出するステップは、人間の発話の前記セグメントが、指定された韻律レンジの内部で生起すると決定するステップをさらに含む、請求項1に記載の方法。
  4. 前記第1のユーザと前記第2のユーザとの間の前記会話を検出するステップは、人間の発話の前記セグメントが、異なる発生源場所間で、時間のしきい値期間の内部で交互に起こると決定するステップをさらに含む、請求項1に記載の方法。
  5. 前記デジタルコンテンツアイテムは、オーディオコンテンツアイテムおよびビデオコンテンツアイテムの1つまたは複数を含み、前記デジタルコンテンツアイテムの提示を変更するステップは、前記オーディオコンテンツアイテムまたは前記ビデオコンテンツアイテムの提示を一時停止するステップを含む、請求項1に記載の方法。
  6. 前記デジタルコンテンツアイテムは、オーディオコンテンツアイテムを含み、前記デジタルコンテンツアイテムの提示を変更するステップは、前記オーディオコンテンツアイテムの音量を低下させるステップを含む、請求項1に記載の方法。
  7. 請求項1からまでのいずれかに記載の方法を遂行するために、コンピューティングシステムの論理マシンにより実行可能な命令を保持する記憶マシン。
  8. オーディオデータストリームを捕捉するように構成される1つまたは複数のオーディオセンサと、
    シーンの画像を捕捉するように構成される光学センサと、
    デジタルコンテンツアイテムを表示するように構成されるシースルーディスプレイと、
    論理マシンと、
    請求項に記載の記憶マシンと
    を備える、ヘッドマウントディスプレイデバイス。

JP2016559444A 2014-04-17 2015-04-07 会話検出 Active JP6612250B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/255,804 US10529359B2 (en) 2014-04-17 2014-04-17 Conversation detection
US14/255,804 2014-04-17
PCT/US2015/024592 WO2015160561A1 (en) 2014-04-17 2015-04-07 Conversation detection

Publications (2)

Publication Number Publication Date
JP2017516196A JP2017516196A (ja) 2017-06-15
JP6612250B2 true JP6612250B2 (ja) 2019-11-27

Family

ID=52992001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016559444A Active JP6612250B2 (ja) 2014-04-17 2015-04-07 会話検出

Country Status (11)

Country Link
US (1) US10529359B2 (ja)
EP (1) EP3132444B1 (ja)
JP (1) JP6612250B2 (ja)
KR (1) KR102357633B1 (ja)
CN (1) CN106233384B (ja)
AU (1) AU2015248061B2 (ja)
BR (1) BR112016023776A2 (ja)
CA (1) CA2943446C (ja)
MX (1) MX366249B (ja)
RU (1) RU2685970C2 (ja)
WO (1) WO2015160561A1 (ja)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9922667B2 (en) 2014-04-17 2018-03-20 Microsoft Technology Licensing, Llc Conversation, presence and context detection for hologram suppression
CA2891742C (en) * 2014-05-15 2023-11-28 Tyco Safety Products Canada Ltd. System and method for processing control commands in a voice interactive system
US9459454B1 (en) 2014-05-23 2016-10-04 Google Inc. Interactive social games on head-mountable devices
KR20160015972A (ko) * 2014-08-01 2016-02-15 엘지전자 주식회사 웨어러블 디바이스 및 그 제어 방법
US9767606B2 (en) * 2016-01-12 2017-09-19 Lenovo (Singapore) Pte. Ltd. Automatic modification of augmented reality objects
US9922655B2 (en) 2016-05-31 2018-03-20 International Business Machines Corporation System, method, and recording medium for controlling dialogue interruptions by a speech output device
US10089071B2 (en) * 2016-06-02 2018-10-02 Microsoft Technology Licensing, Llc Automatic audio attenuation on immersive display devices
US10433052B2 (en) * 2016-07-16 2019-10-01 Ron Zass System and method for identifying speech prosody
US11195542B2 (en) 2019-10-31 2021-12-07 Ron Zass Detecting repetitions in audio data
CN107643509B (zh) * 2016-07-22 2019-01-11 腾讯科技(深圳)有限公司 定位方法、定位系统及终端设备
WO2018088450A1 (ja) * 2016-11-08 2018-05-17 ヤマハ株式会社 音声提供装置、音声再生装置、音声提供方法及び音声再生方法
US10146300B2 (en) 2017-01-25 2018-12-04 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Emitting a visual indicator from the position of an object in a simulated reality emulation
US11178280B2 (en) * 2017-06-20 2021-11-16 Lenovo (Singapore) Pte. Ltd. Input during conversational session
US20190037363A1 (en) * 2017-07-31 2019-01-31 GM Global Technology Operations LLC Vehicle based acoustic zoning system for smartphones
US10983663B2 (en) * 2017-09-29 2021-04-20 Apple Inc. Displaying applications
KR102348124B1 (ko) * 2017-11-07 2022-01-07 현대자동차주식회사 차량의 기능 추천 장치 및 방법
EP3495942B1 (en) * 2017-12-07 2023-05-24 Panasonic Intellectual Property Management Co., Ltd. Head-mounted display and control method thereof
JP7065353B2 (ja) * 2017-12-07 2022-05-12 パナソニックIpマネジメント株式会社 ヘッドマウントディスプレイ及びその制御方法
US10848846B2 (en) 2018-06-14 2020-11-24 Apple Inc. Display system having an audio output device
CN110634189B (zh) 2018-06-25 2023-11-07 苹果公司 用于在沉浸式混合现实体验期间用户警报的系统和方法
US11366514B2 (en) 2018-09-28 2022-06-21 Apple Inc. Application placement based on head position
US11527265B2 (en) * 2018-11-02 2022-12-13 BriefCam Ltd. Method and system for automatic object-aware video or audio redaction
EP3716038A1 (en) * 2019-03-25 2020-09-30 Nokia Technologies Oy An apparatus, method, computer program or system for indicating audibility of audio content rendered in a virtual space
US12118987B2 (en) 2019-04-18 2024-10-15 Dolby Laboratories Licensing Corporation Dialog detector
CN113875227A (zh) * 2019-05-17 2021-12-31 索尼集团公司 信息处理设备、信息处理方法和程序
WO2021061351A1 (en) 2019-09-26 2021-04-01 Apple Inc. Wearable electronic device presenting a computer-generated reality environment
CN116360601A (zh) 2019-09-27 2023-06-30 苹果公司 用于提供扩展现实环境的电子设备、存储介质和方法
US11172294B2 (en) * 2019-12-27 2021-11-09 Bose Corporation Audio device with speech-based audio signal processing
CN111326175A (zh) * 2020-02-18 2020-06-23 维沃移动通信有限公司 一种对话者的提示方法及穿戴设备
US11822367B2 (en) * 2020-06-22 2023-11-21 Apple Inc. Method and system for adjusting sound playback to account for speech detection
CN111932619A (zh) * 2020-07-23 2020-11-13 安徽声讯信息技术有限公司 结合图像识别和语音定位的麦克风跟踪系统及方法
JP2022113031A (ja) * 2021-01-22 2022-08-03 ソフトバンク株式会社 制御装置、プログラム、システム及び制御方法
EP4295314A1 (en) 2021-02-08 2023-12-27 Sightful Computers Ltd Content sharing in extended reality
JP2024506630A (ja) 2021-02-08 2024-02-14 サイトフル コンピューターズ リミテッド 生産性のためのエクステンデッド・リアリティ
EP4288950A1 (en) 2021-02-08 2023-12-13 Sightful Computers Ltd User interactions in extended reality
WO2022202065A1 (ja) 2021-03-22 2022-09-29 株式会社Nttドコモ 表示制御装置
RU2756097C1 (ru) * 2021-03-24 2021-09-28 Денис Андреевич Рублев Цифровой детектор микронаушников
US11949948B2 (en) 2021-05-11 2024-04-02 Sony Group Corporation Playback control based on image capture
GB2607569A (en) * 2021-05-21 2022-12-14 Everseen Ltd A user interface system and method
US11848019B2 (en) * 2021-06-16 2023-12-19 Hewlett-Packard Development Company, L.P. Private speech filterings
WO2023009580A2 (en) 2021-07-28 2023-02-02 Multinarity Ltd Using an extended reality appliance for productivity
KR102631227B1 (ko) * 2021-09-28 2024-01-31 주식회사 피앤씨솔루션 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법
US20230123723A1 (en) * 2021-10-15 2023-04-20 Hyundai Mobis Co., Ltd. System for controlling vehicle display based on occupant's gaze departure
US11783449B2 (en) * 2021-12-09 2023-10-10 Htc Corporation Method for adjusting displayed content based on host posture, host, and computer readable storage medium
US20230334795A1 (en) 2022-01-25 2023-10-19 Multinarity Ltd Dual mode presentation of user interface elements
US11948263B1 (en) 2023-03-14 2024-04-02 Sightful Computers Ltd Recording the complete physical and extended reality environments of a user
US12099696B2 (en) 2022-09-30 2024-09-24 Sightful Computers Ltd Displaying virtual content on moving vehicles

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6370504B1 (en) 1997-05-29 2002-04-09 University Of Washington Speech recognition on MPEG/Audio encoded files
US6289140B1 (en) 1998-02-19 2001-09-11 Hewlett-Packard Company Voice control input for portable capture devices
AU2001260162A1 (en) * 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Pitch estimation in a speech signal
AU2001296459A1 (en) 2000-10-02 2002-04-15 Clarity, L.L.C. Audio visual speech processing
US20020154214A1 (en) 2000-11-02 2002-10-24 Laurent Scallie Virtual reality game system using pseudo 3D display driver
JP2002171587A (ja) 2000-11-30 2002-06-14 Auto Network Gijutsu Kenkyusho:Kk 車載音響装置の音量調節装置およびそれを用いた音声認識装置
US20050039131A1 (en) * 2001-01-16 2005-02-17 Chris Paul Presentation management system and method
US6931596B2 (en) 2001-03-05 2005-08-16 Koninklijke Philips Electronics N.V. Automatic positioning of display depending upon the viewer's location
US20030037243A1 (en) 2001-08-14 2003-02-20 International Business Machines Corporation Method and system for managing the presentation of information
US20030055644A1 (en) 2001-08-17 2003-03-20 At&T Corp. Systems and methods for aggregating related inputs using finite-state devices and extracting meaning from multimodal inputs using aggregation
JP2004133403A (ja) 2002-09-20 2004-04-30 Kobe Steel Ltd 音声信号処理装置
US7617094B2 (en) * 2003-02-28 2009-11-10 Palo Alto Research Center Incorporated Methods, apparatus, and products for identifying a conversation
JP2005250233A (ja) 2004-03-05 2005-09-15 Sanyo Electric Co Ltd ロボット装置
US8315865B2 (en) 2004-05-04 2012-11-20 Hewlett-Packard Development Company, L.P. Method and apparatus for adaptive conversation detection employing minimal computation
JP2006178842A (ja) 2004-12-24 2006-07-06 Matsushita Electric Ind Co Ltd 情報提示装置
US7518631B2 (en) 2005-06-28 2009-04-14 Microsoft Corporation Audio-visual control system
US8645985B2 (en) 2005-09-15 2014-02-04 Sony Computer Entertainment Inc. System and method for detecting user attention
JPWO2007080886A1 (ja) 2006-01-11 2009-06-11 日本電気株式会社 音声認識装置、音声認識方法、および音声認識プログラム、ならびに妨害軽減装置、妨害軽減方法、および妨害軽減プログラム
WO2007138503A1 (en) 2006-05-31 2007-12-06 Philips Intellectual Property & Standards Gmbh Method of driving a speech recognition system
JP2008028492A (ja) 2006-07-19 2008-02-07 Sharp Corp 液晶テレビ
JP5228305B2 (ja) 2006-09-08 2013-07-03 ソニー株式会社 表示装置、表示方法
US20090055178A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method of controlling personalized settings in a vehicle
US7995732B2 (en) * 2007-10-04 2011-08-09 At&T Intellectual Property I, Lp Managing audio in a multi-source audio environment
US8259992B2 (en) * 2008-06-13 2012-09-04 International Business Machines Corporation Multiple audio/video data stream simulation method and system
CN102160359B (zh) * 2008-09-18 2015-07-08 皇家飞利浦电子股份有限公司 控制系统的方法和信号处理系统
JP2010156738A (ja) 2008-12-26 2010-07-15 Pioneer Electronic Corp 音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体
JP5481890B2 (ja) 2009-03-12 2014-04-23 ブラザー工業株式会社 ヘッドマウントディスプレイ装置、画像制御方法および画像制御プログラム
US20120212484A1 (en) 2010-02-28 2012-08-23 Osterhout Group, Inc. System and method for display content placement using distance and location information
US9285589B2 (en) 2010-02-28 2016-03-15 Microsoft Technology Licensing, Llc AR glasses with event and sensor triggered control of AR eyepiece applications
US9341843B2 (en) * 2010-02-28 2016-05-17 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a small scale image source
KR20130000401A (ko) * 2010-02-28 2013-01-02 오스터하우트 그룹 인코포레이티드 대화형 머리­장착식 아이피스 상의 지역 광고 컨텐츠
US9598070B2 (en) 2010-03-02 2017-03-21 GM Global Technology Operations LLC Infotainment system control
US8595014B2 (en) 2010-04-19 2013-11-26 Qualcomm Incorporated Providing audible navigation system direction updates during predetermined time windows so as to minimize impact on conversations
WO2012001928A1 (ja) 2010-06-30 2012-01-05 パナソニック株式会社 会話検出装置、補聴器及び会話検出方法
US9111498B2 (en) 2010-08-25 2015-08-18 Eastman Kodak Company Head-mounted display with environmental state detection
US8949871B2 (en) * 2010-09-08 2015-02-03 Opentv, Inc. Smart media selection based on viewer user presence
KR101591579B1 (ko) 2011-03-29 2016-02-18 퀄컴 인코포레이티드 증강 현실 시스템들에서 실세계 표면들에의 가상 이미지들의 앵커링
JP5708155B2 (ja) * 2011-03-31 2015-04-30 富士通株式会社 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム
GB201116994D0 (en) 2011-10-03 2011-11-16 The Technology Partnership Plc Assistive device
US9081177B2 (en) 2011-10-07 2015-07-14 Google Inc. Wearable computer with nearby object response
JP2013142843A (ja) * 2012-01-12 2013-07-22 Fuji Xerox Co Ltd 動作解析装置、音声取得装置、および、動作解析システム
US8894484B2 (en) 2012-01-30 2014-11-25 Microsoft Corporation Multiplayer game invitation system
NZ700887A (en) 2012-04-05 2016-11-25 Magic Leap Inc Wide-field of view (fov) imaging devices with active foveation capability
CN103472909B (zh) 2012-04-10 2017-04-12 微软技术许可有限责任公司 用于头戴式、增强现实显示器的逼真遮挡
US9423870B2 (en) * 2012-05-08 2016-08-23 Google Inc. Input determination method
US9746916B2 (en) * 2012-05-11 2017-08-29 Qualcomm Incorporated Audio user interaction recognition and application interface
US9219901B2 (en) 2012-06-19 2015-12-22 Qualcomm Incorporated Reactive user interface for head-mounted display
US9767720B2 (en) 2012-06-25 2017-09-19 Microsoft Technology Licensing, Llc Object-centric mixed reality space
JP2014030945A (ja) 2012-08-02 2014-02-20 Toshiba Tec Corp プリンタ、情報処理装置、およびプログラム
US9966075B2 (en) 2012-09-18 2018-05-08 Qualcomm Incorporated Leveraging head mounted displays to enable person-to-person interactions
US9020825B1 (en) * 2012-09-25 2015-04-28 Rawles Llc Voice gestures
CN103871408B (zh) * 2012-12-14 2017-05-24 联想(北京)有限公司 一种语音识别方法及装置、电子设备
US20140288939A1 (en) * 2013-03-20 2014-09-25 Navteq B.V. Method and apparatus for optimizing timing of audio commands based on recognized audio patterns
US9087521B2 (en) * 2013-07-02 2015-07-21 Family Systems, Ltd. Systems and methods for improving audio conferencing services
US20150154960A1 (en) * 2013-12-02 2015-06-04 Cisco Technology, Inc. System and associated methodology for selecting meeting users based on speech
JP6743691B2 (ja) 2014-02-20 2020-08-19 ソニー株式会社 表示制御装置、表示制御方法およびコンピュータプログラム
US9922667B2 (en) 2014-04-17 2018-03-20 Microsoft Technology Licensing, Llc Conversation, presence and context detection for hologram suppression

Also Published As

Publication number Publication date
CA2943446A1 (en) 2015-10-22
KR20160145719A (ko) 2016-12-20
US10529359B2 (en) 2020-01-07
AU2015248061A1 (en) 2016-10-06
AU2015248061B2 (en) 2019-11-21
MX2016013630A (es) 2017-02-28
BR112016023776A2 (pt) 2017-08-15
RU2016140453A (ru) 2018-04-16
EP3132444B1 (en) 2019-08-21
KR102357633B1 (ko) 2022-01-28
US20150302867A1 (en) 2015-10-22
CA2943446C (en) 2021-11-09
JP2017516196A (ja) 2017-06-15
CN106233384B (zh) 2019-11-26
EP3132444A1 (en) 2017-02-22
WO2015160561A1 (en) 2015-10-22
RU2685970C2 (ru) 2019-04-23
CN106233384A (zh) 2016-12-14
RU2016140453A3 (ja) 2018-10-05
MX366249B (es) 2019-07-03

Similar Documents

Publication Publication Date Title
JP6612250B2 (ja) 会話検出
US10679648B2 (en) Conversation, presence and context detection for hologram suppression
JP6546603B2 (ja) 注視トラッキングの方法およびデバイスにおける視覚的な変更の非視覚的なフィードバック
US10705602B2 (en) Context-aware augmented reality object commands
US9584915B2 (en) Spatial audio with remote speakers
EP2994912B1 (en) Speech to text conversion
US20140207452A1 (en) Visual feedback for speech recognition system

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20161110

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180301

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190917

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191030

R150 Certificate of patent or registration of utility model

Ref document number: 6612250

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250