JP2023542968A - 定位されたフィードバックによる聴力増強及びウェアラブルシステム - Google Patents

定位されたフィードバックによる聴力増強及びウェアラブルシステム Download PDF

Info

Publication number
JP2023542968A
JP2023542968A JP2023518509A JP2023518509A JP2023542968A JP 2023542968 A JP2023542968 A JP 2023542968A JP 2023518509 A JP2023518509 A JP 2023518509A JP 2023518509 A JP2023518509 A JP 2023518509A JP 2023542968 A JP2023542968 A JP 2023542968A
Authority
JP
Japan
Prior art keywords
event
wearable device
user
ambient sound
location
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023518509A
Other languages
English (en)
Inventor
ジェレミー・ケメラー
エリオ・ダンテ・クエルゼ・ザ・サード
シュオ・ジャン
クリストファー・アレクシス・コテリー
ジュンヤン・ジアン
チュアン-チェ・フアン
ローレン・ウェステンドルフ
トッド・レイリー
トレヴァー・カルドウェル
ヤン・リウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bose Corp
Original Assignee
Bose Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bose Corp filed Critical Bose Corp
Publication of JP2023542968A publication Critical patent/JP2023542968A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/016Input arrangements with force or tactile feedback as computer generated output to the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1783Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions
    • G10K11/17837Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions by retaining part of the ambient acoustic environment, e.g. speech or alarm signals that the user needs to hear
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17879General system configurations using both a reference signal and an error signal
    • G10K11/17881General system configurations using both a reference signal and an error signal the reference signal being an acoustic signal, e.g. recorded with a microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/80Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • G10K2210/1081Earphones, e.g. for telephones, ear protectors or headsets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/111Directivity control or beam pattern
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3023Estimation of noise, e.g. on error signals
    • G10K2210/30231Sources, e.g. identifying noisy processes or components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Stereophonic System (AREA)
  • Headphones And Earphones (AREA)

Abstract

本開示の態様は、ユーザがウェアラブルデバイスを着用しているときに事象のフィードバックをユーザに提供するための、技法を実装するデバイス及びシステムを含む技法を提供する。例えば、ウェアラブルデバイスは、高品質の雑音消去オーディオ再生をユーザに提供し、ユーザの状況認識を低下させる場合がある。本技法は、ウェアラブルデバイス上の2つ以上のマイクロフォンを使用して周囲音を測定することを含む。測定された周囲音は、ユーザに中継する価値のある関連事象を判定するために使用される。位置属性及び音特性に基づいて、事象の性質及び/又はクラスを、ユーザ閾値設定によるパターン識別アルゴリズムを使用して確認することができる。ユーザが無視することを好む重要でない事象は、アルゴリズムによって除外される。ユーザの注意に値する事象を判定すると、ウェアラブルデバイスは、事象の性質及び位置を指示するフィードバックをユーザに提供する。

Description

(関連出願の相互参照)
本出願は、2020年9月22日に出願された米国特許出願第17/027,919号の利益及び優先権を主張し、これは、本明細書の譲受人に譲渡され、以下に完全に記述されているかのように、かつ全ての適用可能な目的のために、その全体が参照により本明細書に組み込まれる。
(発明の分野)
本開示の態様は、概して、無線通信に関し、より具体的には、コンピューティングデバイスと無線通信するウェアラブルデバイスを伴うオーディオ信号処理に関する。
ウェアラブルデバイスは、周囲雑音をマスキングするか、それに対して防止するか、又は消去することによって、所望の送信又は再現されたオーディオ体験をユーザに提供することができる。ウェアラブルデバイスによって生成される高音量出力又は白色雑音は、周囲雑音をマスキングすることができる。防音は、音エネルギーを反射又は吸収することによって音圧を低減する。雑音消去、又は能動雑音制御/低減は、周囲雑音を消去する第2の音の追加によって周囲雑音を低減する。これらの場合には、ユーザは、環境における警報、警鐘音、又は言語コミュニケーションなどの注意を必要とする事象に注意を払い損ねる場合がある。更に、ユーザが目前の仕事に集中している場合、ユーザは、そうでなければそのような事象に関してユーザに報知するために利用可能である他の感覚(例えば、視覚)を欠いている場合がある。
したがって、ある特定の背景事象に関する適切及び非介入的な(例えば、所望のオーディオ体験を保護する)通知をユーザに提供するための方法、並びにこれらの方法を実装するように構成された装置及びシステムが望まれる。
本明細書で言及される全ての例及び特徴は、任意の技術的に可能な方式で組み合わせることができる。
本開示の態様は、ウェアラブルデバイスのユーザにフィードバックを提供するための方法を提供する。本方法は、ウェアラブルデバイス上の2つ以上のマイクロフォンを使用して周囲音を測定することと、測定された周囲音に基づいて事象を判定することと、ウェアラブルデバイスに対する事象の位置属性を判定することと、事象及び位置属性に基づいてユーザにフィードバックを提供することと、を含む。
態様では、事象及び位置属性に基づいてユーザにフィードバックを提供することは、オーディオコンテンツに加えて、空間化されたオーディオキューを再生することを含む。
態様では、測定された周囲音に基づいて事象を判定することは、事象の音レベルの大きさを測定することと、事象と関連付けられたオーディオ信号を使用してウェアラブルデバイスに対する事象の位置を判定することと、を含み、事象の位置は、オーディオ信号から処理された方向及び距離に基づいて判定され、事象の位置属性は、方向又は距離のうちの少なくとも1つを含む。場合によっては、周囲音に基づいて事象を判定することは、ウェアラブルデバイスに対する事象の位置、事象と関連付けられたオーディオ信号における繰り返しパターン、又は、事象と関連付けられたオーディオ信号の属性のうちの少なくとも1つに基づく事象のインシデントを除外することを更に含む。
態様では、測定された周囲音に基づいて事象を判定することは、事象の音レベルの大きさがウェアラブルデバイスに対する事象の位置に対応する閾値を超えていると判定することを含む。場合によっては、閾値は、ウェアラブルデバイスに対する事象の位置に基づいて変動し、閾値は、事象の位置がユーザに近づくにつれて増加する。
態様では、周囲音に基づいて事象を判定することは、i)ウェアラブルデバイスに対する事象の位置、ii)事象と関連付けられたオーディオ信号における繰り返しパターン、及びiii)事象と関連付けられたオーディオ信号の属性を相関させることに少なくとも部分的に基づく。場合によっては、事象を判定することは、ウェアラブルデバイスに対する事象の位置、事象と関連付けられたオーディオ信号における繰り返しパターン、及び事象と関連付けられたオーディオ信号の属性のデータを使用して人工知能によって実施される深層学習分析に少なくとも部分的に基づく。
態様では、事象に基づいてユーザにフィードバックを提供することは、ウェアラブルデバイスの少なくとも1つのスピーカを使用して、空間化された音を再生することと、ウェアラブルデバイスを使用して方向指示触覚通知を提供すること、又はウェアラブルデバイスに接続された1つ以上のデバイス上に通知を表示することのうちの1つ以上を含む。
場合によっては、空間化された音は、ユーザに対する判定された事象の位置を表し、表された位置は、少なくとも位置属性に基づく。
態様では、本方法は、ウェアラブルデバイスによって測定された運動信号のパターンに基づいて、ユーザが集中状態にあると判定することを更に含み、事象及び位置属性に基づいてユーザにフィードバックを提供することが、判定された集中状態に基づく。場合によっては、ユーザが集中状態にあると判定することは、ウェアラブルデバイス上に配置された1つ以上の慣性計測ユニット(inertia measurement units、IMU)によって測定された運動信号のパターンを処理することを含む。
態様では、ウェアラブルデバイス上の2つ以上のマイクロフォンは、ユーザを取り囲む周囲音を測定するように位置決めされた少なくとも3つのマイクロフォンを含む。
態様では、ウェアラブルデバイスは、ユーザの頭部又は頸部のうちの少なくとも1つの上に着用されるオーディオデバイスである。
態様では、ウェアラブルデバイスは、オーバーイヤーヘッドフォン、オンイヤーヘッドフォン、インイヤーヘッドフォン、イヤフォン、完全無線イヤフォン、眼鏡、ヘッドバンド、ネックバンド、イヤーフック、イヤークリップ、頭部着用オーディオデバイス、又は頸部着用オーディオデバイスのうちの少なくとも1つを含む。
態様では、ウェアラブルデバイスは、雑音消去オーディオデバイスである。
本開示の態様は、ユーザ空間化フィードバックを提供するためのシステムを提供する。このシステムは、周囲音を測定するように構成された2つ以上のマイクロフォンを有するウェアラブルデバイス、及びウェアラブルデバイスと接続されたコンピューティングデバイスを含む。コンピューティングデバイスは、測定された周囲音に基づいて事象を判定し、ウェアラブルデバイスに対する事象の位置属性を判定し、かつ事象及び位置属性に基づいてフィードバックがユーザに提供されるように構成されている。
態様では、ウェアラブルデバイスは、測定された周囲音を消去するオーディオコンテンツを再生し、オーディオコンテンツに加えて空間化されたオーディオキューを再生することによって、判定された事象をユーザに警告するように構成された2つ以上のスピーカを更に含む。
態様では、ウェアラブルデバイスは、コンピューティングデバイスが事象に基づいてユーザにフィードバックを提供することに応答して、触覚フィードバックを提供するためのアクチュエータを更に含む。
態様では、コンピューティングは、ウェアラブルデバイスに対する事象の位置、事象と関連付けられたオーディオ信号における繰り返しパターン、又は、事象と関連付けられたオーディオ信号の属性のうちの少なくとも1つに基づく事象のインシデントを除外するように更に構成される。
本開示の態様は、ウェアラブルデバイスのユーザにフィードバックを提供するための方法であって、ウェアラブルデバイス上の2つ以上のマイクロフォンを使用して周囲音を測定することと、2つ以上の異なる状況基準に対応する2つ以上の異なる構成事象において変動する閾値を超える測定された周囲音に基づいて事象を判定することと、判定された事象に基づいてユーザにフィードバックを提供することと、を含む、方法、を提供する。
態様では、2つ以上の異なる状況基準の各々は、判定された事象と関連付けられた閾値、ウェアラブルデバイスに対する事象の位置属性、又は、判定された事象に基づくユーザへのフィードバックのうちの少なくとも1つに関するカスタマイズ構成を含む。
態様では、カスタマイズ構成は、ユーザによって入力される。
態様では、方法は、カスタマイズ構成と、ウェアラブルデバイスに対する判定された事象の位置属性とを関連付けることと、ユーザによる入力及び関連付けに基づいて、位置属性に基づく構成の一般規則を判定するためのパターンを識別することと、を更に含む。
態様では、カスタマイズ構成は、デフォルト工場構成を含む。
態様では、2つ以上の異なる状況基準の各々は、ウェアラブルデバイスに対する位置属性を含み、位置属性は、ウェアラブルデバイスの2つ以上のマイクロフォンを使用して測定された周囲音に基づいて判定される。
態様では、閾値は、2つ以上の異なる状況基準のうちの1つに対応する最小又は最大距離を含む。
態様では、閾値は、2つ以上の異なる状況基準のうちの1つに対応する方向を含む。
態様では、2つ以上の異なる状況基準の各々は、ウェアラブルデバイスの物理的位置に対応する。
態様では、2つ以上の異なる状況基準の各々は、発話、背景音、又は音楽シーケンスのうちの少なくとも1つを含む音クラスを含む。
態様では、背景音は、警報、足音、交通雑音、又は音のパターンを含む。
態様では、閾値は、2つ以上の異なる状況基準のうちの1つに対応する最小音レベルを含む。
態様では、閾値は、2つ以上の異なる状況基準のうちの1つの感度に対応する。
態様では、フィードバックを提供することは、ユーザに対して周囲音の記録されたコピーを再生することを含む。
態様では、記録されたコピーを再生することは、ウェアラブルデバイス内のフィードバックマイクロフォンによって収集されたデータに基づいて、周囲音の記録されたコピーを増幅又は減衰させることを含む。
態様では、周囲音の記録されたコピーを増幅又は減衰することは、ウェアラブルデバイスの移動によって起動される。
態様では、記録されたコピーを再生することは、ウェアラブルデバイスの移動に基づいて、記録されたコピーを再生することを遅延させることを含む。
態様では、本方法は、ある期間にわたって、周囲音と位置属性とを相関させることと、異なる位置で上記期間にわたる周囲音の変動をマッピングする顕著性マップを生成することと、この期間にわたるウェアラブルデバイスの移動記録を測定することと、移動記録と顕著性マップとの間の関係に基づいてユーザの応答を判定することと、を更に含む。
態様では、事象を判定することは、測定された周囲音を、処理するために第2のデバイスに送信ことと、第2のデバイスから、判定された事象、及びユーザに提供するための対応するフィードバックを受信することと、を更に含み、第2のデバイスは、ウェアラブルデバイスよりも大きい処理能力を有する。
本概要の項に記載される特徴を含む、本開示に記載される2つ以上の特徴は、本明細書に具体的に記載されていない実装形態を形成するために組み合わされ得る。
1つ以上の実装形態の詳細が、添付図面及び以下の説明において記載される。他の特徴、目的、及び利点は、本説明及び図面から、並びに「特許請求の範囲」から明らかになるであろう。
本開示の態様が実装され得るシステムの例を示す。 本開示のある特定の態様による、例示的な無線オーディオデバイスを示す。 本開示のある特定の態様による、例示的なコンピューティングデバイスを示す。 本開示のある特定の態様による、判定された事象及び位置属性のフィードバックをユーザに提供するための動作の例を示す。 本開示のある特定の態様による、事象の位置属性を抽出するためのデータ処理の例を示す。 本開示のある特定の態様による、判定された事象及び関連する位置属性の視覚提示の例を示す。 本開示のある特定の態様による、ユーザの注意を必要とする事象を判定するためのプロセスの例を示す。 本開示のある特定の態様による、ユーザの注意を必要とする事象を判定するための深層学習プロセスの例を示す。 本開示のある特定の態様による、事象を判定するための深層学習プロセスの例を示す。 本開示のある特定の態様による、音エネルギーに基づいて事象を判定するためのプロセスの例を示す。 本開示のある特定の態様による、ユーザの状態を判定するために使用される移動データを示す。 本開示のある特定の態様による、判定された事象及び位置属性のフィードバックをユーザに提供するための動作の例を示す。 本開示のある特定の態様による、状況基準のカスタマイズ構成を調節するためのインターフェースの例を示す。 本開示のある特定の態様による、状況基準のカスタマイズ構成を調節するためのインターフェースの例を示す。
同様の番号は、同様の要素を指す。
本開示は、ユーザがウェアラブルオーディオ出力デバイスを着用しているときに、事象(例えば、割り込み事象、又はユーザの注意を必要とする事象、及びユーザが無視する事象ではないもの)のフィードバックをユーザに提供するためのプロセス、方法、システム、及びデバイスを提供する。例えば、ユーザは、フィードバックがないと、例えば、ウェアラブルデバイスが周囲雑音を消去して、ユーザがオーディオ体験に完全に没入することを可能にするときなどの、ウェアラブルデバイスによって提供されるオーディオ体験を楽しむことに起因して、事象に注意を払わない場合がある。本開示によれば、ウェアラブルデバイスは、ユーザに対する音位置、音クラス(例えば、発話、警報などの検出された音の性質)、環境(例えば、自宅、オフィス、又は特定の部屋、公衆など)、及びカスタマイズされたパラメータによって定義される他の条件などの、ある特定の条件に基づいて事象を判定することができる。
態様では、本方法は、ウェアラブルデバイス上の2つ以上のマイクロフォンを使用して周囲音(すなわち、オーディオ経験の一部ではない音)を測定することを含む。事象は、測定された周囲音に基づいて判定される。事象の位置属性が判定される(これは、「定位」と称され得る)。次いで、判定された事象及び位置属性のフィードバックがユーザに提供される。場合によっては、測定された周囲音に基づいて事象を判定することは、ユーザの注意を必要としない周辺環境における出来事を識別及び除去する深層学習に基づくアルゴリズムを用いる。アルゴリズムは、ラウドネス、位置、及び周囲音における音の様々な特性を使用して、事象を判定し得る。判定された事象のフィードバックは、ユーザに提示されてもよく、フィードバックは、例えば、位置属性を含み、及び/又は注意が向けられるべき場所をユーザに知らせる。
態様では、事象は、閾値を超える測定された周囲音に基づいて判定される。閾値は、2つ以上の異なる状況基準に対応する2つ以上の異なる構成事象ごとに変動し得る。2つ以上の異なる状況基準は、判定された事象と関連付けられた閾値、ウェアラブルデバイスに対する事象の位置属性、又は判定された事象に基づくユーザへのフィードバックのうちの少なくとも1つを含み得る。例えば、発話を含む事象及びドアノックを含む事象は、検出のための異なる閾値で構成され得る。同様に、5メートル離れた事象及び10メートル離れた事象はまた、検出のための異なる閾値で構成され得る。閾値レベルはまた、ウェアラブルデバイスに対する事象の位置(例えば、相対的な距離及び方向)に基づいてカスタマイズすることができる。ユーザはまた、視覚、聴覚、それらの組み合わせ、及び他の形態などの、フィードバックの形態並びに特性(例えば、輝度、音量、及び/又は大きさ)をカスタマイズすることができる。
ユーザは、多くの場合、ウェアラブルオーディオデバイスを使用するとき、特に周囲音を除去するように意図される能動雑音消去ヘッドフォンを使用するとき、少なくともいくらかの状況認識を失う。別の例では、周囲の音をマスキングする過度なレベルのオーディオの音量、又は良好な防音効果を有する(例えば、パッシブ遮音)とき、状況認識が低下する。状況認識の別の例は、ウェアラブルオーディオデバイスの助けを借りて(例えば、周囲音を消去又は減衰させて)、勤務、勉強、又は読書しているときなどの、ユーザが集中状態にあるときに減少する。低減された状況認識は、事象が適時の応答に値するときなどの、代償の大きい又は厄介な結果をもたらし得る。本開示は、ユーザに楽しめるオーディオ体験を提供しながら、注意に値し得る事象の空間化されたフィードバックをユーザに提供するための技法を提供する。
態様では、開示される技法は、音事象検出、及び検出された音事象を表すオーディオキューを使用して、ユーザの認識を増強させることができる。勤務環境又は在宅勤務環境では、ユーザは、集中状態にあり、ユーザの周辺環境をあまり認識していない場合がある。雑音を消去するウェアラブルデバイスは、ユーザの認識を更に低減し得る。ユーザは、到達する言語コミュニケーション、呼び鈴、又はウェアラブルデバイスによって効果的に消去され得る他の警報若しくは音通知に注意を払うことを望むか、あるいはそれを必要とする場合がある。このように、開示される技法は、ユーザが、状況認識を失うことなく雑音を消去するウェアラブルデバイスに集中し、そこから利益を得ることを可能にする。場合によっては、オーディオキューは、有益で、最小限の混乱であるように設計される。これにより、ユーザは、事象について学習した後に、事象を無視するオプションを維持しながら、事象にいつ及びどのように反応するべきかを判定することが可能になる。態様では、追加の視覚化又は通知戦略は、ユーザが事象を解釈するのを助けるためにオーディオキューと一緒に使用される。
開示される技法は、マイクロフォンと慣性測定ユニット(IMU)との組み合わせを使用して実装される。例えば、本技法は、最初にラウドネス閾値を設定して、ベースレベル雑音とは異なる割り込み事象を検出する。このステップは、「事象検出」と称され得る。次いで、この技法は、事象の方向及び距離を識別することなどの、割り込み事象の1つ以上の位置属性を判定する。次いで、本技法は、IMUからの入力を使用して、ユーザが検出された事象を引き起こしている場合があるか、又は検出された事象をすでに認識しているかどうかを判定する。事象がユーザの注意に値すると判定された場合、この技法は、空間化されたオーディオフィードバックをユーザに提供し、事象の位置をユーザに報知することを更に含む。
態様では、割り込み事象の位置属性に加えて、異なる閾値が異なる構成事象ごとに定義又は構成され得る。構成事象は、デシベルレベル(例えば、事象閾値)、周囲音の特性(例えば、発話、警報、メロディなどの音クラス又はタイプ)、ユーザに対する位置(例えば、距離及び方向)などの対応する状況基準によって定義され得る。状況基準は、ユーザによって提供され得るか、あるいはデフォルト工場若しくは生産プロファイル又は構成を使用して構成され得る。例えば、ユーザは、ウェアラブルデバイス上又はウェアラブルデバイスと通信するコンピュータデバイス上のグラフィカルインターフェースを介して、カスタマイズ構成をカスタマイズするための入力を提供し得る。例は、図9~図10に関連して更に考察される。
態様では、ウェアラブルデバイス上で定位及び事象検出を実施して、待ち時間を最小限に抑え、ウェアラブルデバイス上のマイクロフォンのフルアレイへのアクセスを提供する。ユーザは、以下の動作の例が実施されるとき、事象の方向(例えば、左又は右、上方又は下方)に空間化されたオーディオキューで促され得る。第1に、区間検出アルゴリズムが、ウェアラブルデバイス上のマイクロフォンを使用して実行され、プロセッサ(ウェアラブルデバイス上又は外部コンピューティングデバイス上のいずれか)によって接続/制御される。言及されたように、区間検出アルゴリズムは、送信待ち時間を最小限に抑えるためにウェアラブルデバイスにおいて実行され得る。場合によっては、区間検出アルゴリズムは、コンピューティングデバイス内のより強力なプロセッサを使用するために、ウェアラブルデバイスと無線通信するコンピューティングデバイスにおいて実行され得る。区間検出アルゴリズムは、音エネルギーの突然の変化(例えば、突然のデシベルレベルの増加)を検出して、周囲音とは別個の事象を識別する。区間検出アルゴリズムは、発話又は音声区間などの音の特性を検出して、周囲音とは別個の事象を識別する。
第2に、事象の位置属性が判定され、データ処理の第2の層が事象の性質を確認する。例えば、事象の距離を判定することによって、区間検出アルゴリズムは、ユーザによって生み出された音(例えば、ユーザ自身の発話)を、遠距離場における事象の音(例えば、部屋全体にわたるドアノック音)とは更に区別し得る。場合によっては、ユーザに面している(すなわち、ある特定の距離内のユーザの前にある)と判定される事象は、そのような事象がユーザによって視覚的に取得され得るため、無視される。位置属性は、距離、方向、又はその両方を含み得る。距離及び方向は、ウェアラブルデバイス内に隔置された2つ以上のマイクロフォンによって取り込まれたオーディオデータを使用して計算され得る。
事象の性質を確認することはまた、音を処理して、音クラス及び/又は音特性を判定することを含み得る。例えば、異なる構成事象は、発話、警報、又は音が大きい背景事象(例えば、ノッキング、泣き声など)などの、異なる音クラスに対応し得る。特定の性質の各事象についての閾値は、異なる感度設定を使用して調節又は個人化されてもよく、したがって、ユーザの環境及び選好に依存してもよい。
第3に、ユーザが事象に関して通知される必要があるかどうかを判定するために、移動測定値が事象と相関される。例えば、運動センサによって測定された移動の欠如は、ユーザが集中状態にあることを指示し得る。ユーザは、集中状態にある間、事象のフィードバックを望む可能性がより高い場合がある。加えて、移動測定値は、ユーザ自身の移動によって引き起こされる相対的な位置変動を考慮して、区間検出アルゴリズムが位置属性を正しく識別するのを助けることができる。
場合によっては、移動測定値は、判定された事象のカスタマイズ構成及び位置属性と関連付けられたパターンを形成することができる。例えば、ユーザは、ある方向に向くことによって事象に一貫して/習慣的に応答することができる。次いで、そのような移動のパターンは、事象と相関される。事象は、音が来る場所と関連付けられた音クラスに基づいて閾値を指定することによってなどの、カスタマイズ構成とウェアラブルデバイスに対する位置属性とを関連付けることによって検出され得る。一例では、ユーザが一定の方向に向かって面する一定の位置でウェアラブルデバイスを着用しているとき、窓を通して来るサイレン音は、雑音消去され、無視され得る(すなわち、フィードバックのための事象として分類されない)。そのような場合には、ランダムな移動は、サイレンが測定されたときに記録され得る。ランダムな移動に基づいて、同じ方向から来るそのようなサイレン音を無視するための一般規則が判定され得る。比較すると、ドアを通り抜けるノック音により、ユーザがある特定の方向に向くことは頻繁に起こり得る。そのような応答のパターンは、識別されたパターンに適合する事象が検出されたときにフィードバック(例えば、ノック音が雑音消去されている間のウェアラブルデバイスにおけるオーディオ通知)を提供するためなどの、構成の一般規則を判定するために記録及び識別され得る。
態様では、区間検出アルゴリズムは、ウェアラブルデバイスに埋め込まれたプロセッサ上で実行される軽量の閾値ベースのデジタル信号処理(digital signal processing、DSP)アルゴリズムを含み得る。ウェアラブルデバイスは、検出感度を調節する閾値を制御するために、感度スライダなどのユーザインターフェースを提供し得る。例えば、より感度が高い設定は、より少ない精査で事象を報告することにつながり、誤判定検出の増加をもたらし得る。空間化されたオーディオキューをユーザに提供することに加えて、ウェアラブルデバイスは、外部コンピューティングデバイスに情報を更に提供することができる。外部コンピューティングデバイスは、事象及びその位置属性をユーザインターフェース上に表示し得る。一例では、ユーザインターフェースは、事象の性質(例えば、発話、ノック音、警報などの事象のタイプ)及びユーザに対する事象の位置についてユーザに報知する「レーダ」表示を示す。
場合によっては、区間検出アルゴリズムは、外部コンピューティングデバイス上で実行される事象分析アルゴリズムを含むか、又はそれと同時に処理する。事象分析アルゴリズムは、ユーザの特定の選好に関して訓練される様々な層の処理を実施する深層学習アルゴリズムを含み得る。例えば、ユーザは、事象分析アルゴリズムにおいてフィードバック又は指示を提供して、ウェアラブルデバイスによって検出された事象の性質及び優先度について事象分析アルゴリズムに教示することができる。一例では、事象分析アルゴリズムは、(例えば、ある特定の人物、ある特定のカテゴリなどの)ある特定の発話データを識別し、識別すると、発話データをテキストに文字化するように訓練される。事象分析アルゴリズムは、識別に基づいて事象を異なる優先度レベルに分類することができ、例えば、火災警報は、呼び鈴よりも高い優先度を有し得る。態様では、コンピューティングデバイス上の事象分析アルゴリズムは、近距離通信(例えば、Bluetooth)を使用するなどの、無線接続を介してウェアラブルデバイスの2つ以上のマイクロフォンにアクセスすることができる。態様では、事象分析アルゴリズムは、ウェアラブルデバイス上で実行する区間検出アルゴリズムと組み合わされるか、又はそれと同時に働き得る。場合によっては、事象分析アルゴリズム及び区間検出アルゴリズムは、総称して事象判定アルゴリズムと称され得る。
図1は、本開示の態様が実践されるシステム100の例を示す。示されるように、システム100は、コンピューティングデバイス120と通信可能に結合されたウェアラブルデバイス110を含む。ウェアラブルデバイス110は、2つ以上のスピーカ及び2つ以上のマイクロフォンを含むヘッドセットとして示される。コンピューティングデバイス120は、ウェアラブルデバイス110と無線でペアリングされたスマートフォン又はタブレットコンピュータとして示される。高いレベルでは、ウェアラブルデバイス110は、コンピューティングデバイス120から送信されたオーディオコンテンツを再生することができる。ユーザは、コンピューティングデバイス120上のグラフィカルユーザインターフェース(graphical user interface、GUI)を使用して、オーディオコンテンツを選択し、かつ/又はウェアラブルデバイス110の設定を調節することができる。ウェアラブルデバイス110は、コンピューティングデバイス120から送信されたオーディオコンテンツを再生するために、防音、能動雑音消去、及び/又は他のオーディオ拡張特徴を提供する。本開示の態様によれば、ユーザの注意を必要とする事象を判定すると、ウェアラブルデバイス110及び/又はコンピューティングデバイス120は、事象及びその位置属性に関する非介入的な空間化された通知又はフィードバックをユーザに提供することができる。
一態様では、ウェアラブルデバイス110は、周囲音を取り込むために少なくとも2つのマイクロフォン111及び112を含む。取り込まれた音は、能動雑音消去及び/又は事象検出のために使用され得る。例えば、マイクロフォン111及び112は、ウェアラブルデバイス110の反対側に位置決めされる。マイクロフォン111及び112によって取り込まれたオーディオ信号は、検出された事象の位置属性を判定するために、相関及び/又は三角測量され得る。態様では、ウェアラブルデバイス110の異なる位置に位置決めされた追加のマイクロフォンが、位置判定の精度を高めるために使用され得る。
一態様では、ヘッドフォン110は、ヘッドフォン110のマイクロフォン111、112によって受信された音信号中の発話信号(例えば、ヒトの発話信号)の存在を検出することが可能な音声区間検出(voice activity detection、VAD)回路を含む。例えば、ヘッドフォン110のマイクロフォン111、112は、ユーザが発した発話を含む、ヘッドフォン110付近の周囲外部音を受信することができる。マイクロフォン111、112によって受信された音信号は、ヘッドフォン110付近の他の音と混合された発話信号を有し得る。VADを使用して、ヘッドフォン110は、受信された音信号から発話信号を検出及び抽出することができる。一態様では、音声通話、ユーザと別の人物との間の音声チャット、又はクラウドベースの仮想パーソナルアシスタント(virtual personal assistant、VPA)などのVPAのための音声コマンドを容易にするために、VAD回路は、ユーザが発した発話を検出及び抽出するために使用することができる。他の例では、検出又は起動は、とりわけ、自己VAD(エリア内の他の人が話しているかどうかにかかわらず、ユーザが話しているときのみ開始する)、能動輸送(輸送システムから取り込まれた音)、頭部ジェスチャ、ボタン、コンピューティングデバイスベースの起動(例えば、電話からの一時停止/一時停止解除)、入力オーディオレベルによる変化、環境における可聴変化を含み得る。音声区間検出回路は、本明細書で開示された区間検出アルゴリズムを実行するか、又は実行することを補助することができる。
ウェアラブルデバイス110は、雑音消去回路(図示せず)及び/又は雑音マスキング回路(図示せず)、身体移動検出デバイス/センサ及び回路(例えば、1つ以上の加速度計、1つ以上のジャイロスコープ、1つ以上の磁力計など)、地理位置回路、並びに他の音処理回路が挙げられるが、これらに限定されない、1つ以上の音管理能力又は他の能力を実装するように構成されたプロセッサ/処理システム及びメモリを含むハードウェア並びに回路を更に含む。
一態様では、ウェアラブルデバイス110は、Bluetooth、Wi-Fi、Bluetooth低エネルギー(Bluetooth Low Energy、BLE)、他のRFベースの技法などが挙げられるが、これらに限定されない、1つ以上の無線通信方法を使用してコンピューティングデバイス120に無線で接続される。一態様では、ウェアラブルデバイス110は、オーディオデータ及び他の情報をコンピューティングデバイス120と交換するために、1つ以上のアンテナを介してデータを送信及び受信するトランシーバを含む。
一態様では、ウェアラブルデバイス110は、コンピューティングデバイス120からオーディオデータ及び他の情報を送信及び受信することが可能な通信回路を含む。ウェアラブルデバイス110はまた、コンピューティングデバイス120からのあらゆる欠損又は欠落したデータパケットの再送信のための時間を可能にするために、到達するオーディオ信号(例えば、オーディオパケット)の少なくとも一部分をバッファリングする、レンダーバッファなどの到達するオーディオバッファを含む。例えば、ウェアラブルデバイス110がコンピューティングデバイス120からBluetooth送信を受信するとき、通信回路は、典型的には、オーディオが実際にレンダリングされ、ウェアラブルデバイス110のトランスデューサ(例えば、オーディオスピーカ)のうちの少なくとも1つにオーディオとして出力される前に、到達するオーディオデータの少なくとも一部分をレンダーバッファにバッファリングする。これは、送信中にオーディオパケットを失わせるRF衝突がある場合でも、失われたオーディオパケットが、ウェアラブルデバイス110の1つ以上の音響トランスデューサによる出力のためにウェアラブルデバイス110によってレンダリングされる必要がある前に、コンピューティングデバイス120によって再送信される時間があることを確実にするために行われる。
オーディオ出力デバイス110は、オーバーヘッドヘッドフォンとして示される。しかしながら、本明細書で説明される技法は、耳の周り、耳の上、耳の中、若しくは耳の近く(ユーザの頭部又は肩部上に着用されるオープンイヤーオーディオデバイスを含む)、又は頭部若しくは頸部などのユーザの他の身体の一部に適合する任意のオーディオ出力デバイスを含む、ウェアラブルオーディオデバイスなどの他のウェアラブルデバイスに適用する。ウェアラブルデバイス110は、独立型のデバイス(自動車スピーカシステムを含む)、定置デバイス(バッテリ動力ポータブルスピーカなどのポータブルデバイスを含む)、ヘッドフォン、イヤフォン、イヤピース、ヘッドセット、ゴーグル、ヘッドバンド、イヤフォン、アームバンド、スポーツヘッドフォン、ネックバンド、若しくは眼鏡を含む、ウェアラブルな又はその他の任意の形態を取り得る。
一態様では、ウェアラブルデバイス110は、対応する無線接続の有無にかかわらず、有線接続を使用してコンピューティングデバイス120に接続される。コンピューティングデバイス120は、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、デジタルカメラ、又はウェアラブルデバイス110と接続する他のコンピューティングデバイスであり得る。示されるように、コンピューティングデバイス120は、ネットワーク130(例えば、インターネット)に接続することができ、ネットワーク上の1つ以上のサービスにアクセスすることができる。示されるように、これらのサービスは、1つ以上のクラウドサービス140を含み得る。
一態様では、コンピューティングデバイス120は、モバイルウェブブラウザ、又はコンピューティングデバイス120上で実行されるローカルソフトウェアアプリケーション若しくは「アプリ」を使用して、ネットワーク130上のクラウド140内のクラウドサーバにアクセスすることができる。一態様では、ソフトウェアアプリケーション又は「アプリ」は、コンピューティングデバイス120上で局所的にインストール及び実行されるローカルアプリケーションである。一態様では、クラウド140上でアクセス可能なクラウドサーバは、クラウドサーバ上で実行される1つ以上のクラウドアプリケーションを含む。クラウドアプリケーションは、コンピューティングデバイス120によってアクセスされ、実行され得る。例えば、クラウドアプリケーションは、コンピューティングデバイス120上のモバイルウェブブラウザによってレンダリングされるウェブページを生成することができる。一態様では、コンピューティングデバイス120上にインストールされたモバイルソフトウェアアプリケーション、又はクラウドサーバ上にインストールされたクラウドアプリケーションは、個々に又は組み合わせて、本開示の態様によるコンピューティングデバイス120とウェアラブルデバイス110との間の少ない待ち時間のBluetooth通信のための技法を実装するために使用され得る。一態様では、ローカルソフトウェアアプリケーション及びクラウドアプリケーションの例は、ゲームアプリケーション、オーディオARアプリケーション、及び/又はオーディオAR能力を有するゲームアプリケーションを含む。コンピューティングデバイス120は、ウェアラブルデバイス110から信号(例えば、データ及び制御)を受信し、ウェアラブルデバイス110に信号を送ることができる。
図2Aは、例示的なウェアラブルデバイス110及びその構成要素のいくつかを示す。他の構成要素は、ウェアラブルデバイス110に固有であり得、図2Aには示されていない。例えば、ウェアラブルデバイス110は、現在再生している(「現在再生中」)音楽に関する情報をユーザに提供することができる任意選択のグラフィカルインターフェース(例えば、OLEDディスプレイ)を収容する筐体を含み得る。
ウェアラブルデバイス110は、オーディオを出力するための1つ以上の電気音響トランスデューサ(又はスピーカ)214を含む。ウェアラブルデバイス110はまた、ユーザ入力インターフェース217を含む。ユーザ入力インターフェース217は、複数のプリセットインジケータを含むことができ、これはハードウェアボタンであり得る。プリセットインジケータは、それらのボタンに割り当てられたエンティティへの容易な1回の押下アクセスをユーザに提供することができる。割り当てられたエンティティは、単一のウェアラブルデバイス110が様々な異なるデジタルオーディオソースへの単一の押下アクセスを提供することができるように、デジタルオーディオソースのうちの異なる1つと関連付けることができる。
センサ111及び112は、周囲音を取り込むための2つ以上のマイクロフォンを含み、事象の位置属性を判定するためのオーディオ信号を提供することができる。例えば、センサ111及び112は、位置属性を確認するために、ウェアラブルデバイス110における音到来差を判定するための機構を提供し得る。場合によっては、センサ111及び112は、送信遅延を捕捉することができ、これは、後続の計算における誤差を低減するために使用することができる。センサ111及び112は、各々、オーディオ信号の2つ以上のチャネルを提供し得る。オーディオ信号は、隔置され、異なる指向性応答を有し得るマイクロフォンによって取り込まれる。オーディオ信号の2つ以上のチャネルは、対象の事象の指向性属性を算出するために使用され得る。
図2Aに示されるように、ウェアラブルデバイス110は、オーディオハードウェア223を通してオーディオ信号を音響エネルギーに変換するための音響ドライバ又はスピーカ214を含む。ウェアラブルデバイス110はまた、ネットワークインターフェース219、少なくとも1つのプロセッサ221、オーディオハードウェア223、ウェアラブルデバイス110の様々な構成要素に電力を供給するための電源225、及びメモリ227を含む。一態様では、プロセッサ221、ネットワークインターフェース219、オーディオハードウェア223、電源225、及びメモリ227は、様々なバス235を使用して相互接続され、構成要素のうちのいくつかは、共通のマザーボード上に取り付けられてもよく、又は必要に応じて他の方式で取り付けられてもよい。
ネットワークインターフェース219は、1つ以上の通信プロトコルを介して、ウェアラブルデバイス110と他の電子コンピューティングデバイスとの間の通信を提供する。ネットワークインターフェース219は、無線ネットワークインターフェース229及び有線インターフェース231(任意選択)のいずれか又はその両方を提供する。無線インターフェース229は、IEEE802.11などの無線通信プロトコルに従って、ウェアラブルデバイス110が他のデバイスと無線で通信することを可能にする。有線インターフェース231は、例えば、ウェアラブルデバイス110がユーザによって着用されていないときに使用される、信頼性及び高速転送速度のために、有線(例えば、イーサネット)接続を介してネットワークインターフェース機能を提供する。示されているが、有線インターフェース231は、任意選択である。
ある特定の態様では、ネットワークインターフェース219は、Apple AirPlay(登録商標)及び/又はApple Airplay(登録商標)2をサポートするためのネットワークメディアプロセッサ233を含む。例えば、ユーザが、iPhone(登録商標)若しくはiPad(登録商標)デバイスなどのAirPlay(登録商標)又はApple Airplay(登録商標)2対応のデバイスをネットワークに接続した場合、このときユーザは、Apple AirPlay(登録商標)又はApple Airplay(登録商標)2を介してネットワーク接続されたオーディオ再生デバイスに音楽をストリーミングすることができる。注目すべきは、オーディオ再生デバイスは、AirPlay(登録商標)、Apple Airplay(登録商標)2、及び/又はDLNA(登録商標)のUPnPプロトコルを介したオーディオストリーミングをサポートすることができ、全ては1つのデバイスの中に統合されている。
ネットワークパケットの一部として受信された全ての他のデジタルオーディオは、ネットワークメディアプロセッサ233からUSBブリッジ(図示せず)を通してプロセッサ221にまっすぐ渡され、復号器、DSPに達し、最終的には電気音響トランスデューサ214を介して再生(レンダリング)され得る。
ネットワークインターフェース219は、Bluetoothアプリケーション(例えば、スマートフォン又はタブレットなどのBluetooth対応のオーディオソースとの無線通信のための)用のBluetooth回路237、又は他のBluetooth対応のスピーカパッケージを更に含み得る。いくつかの態様では、Bluetooth回路237は、エネルギー制約に起因して、一次ネットワークインターフェース219であり得る。例えば、ネットワークインターフェース219は、ウェアラブルデバイス110が任意のウェアラブルな形態を採用するとき、モバイルアプリケーションのためだけにBluetooth回路237を使用し得る。例えば、BLE技術をウェアラブルデバイス110に使用して、バッテリ寿命を延ばし、パッケージ重量を低減し、他のバックアップ又は代替的なネットワークインターフェースなしで高品質性能を提供することができる。
一態様では、ネットワークインターフェース219は、一度に同時に複数の通信プロトコルを使用して他のデバイスとの通信をサポートする。例えば、ウェアラブルデバイス110は、Wi-Fi/Bluetooth共存をサポートすることができ、一度にWi-Fi及びBluetoothプロトコルの両方を使用して同時通信をサポートすることができる。例えば、ウェアラブルデバイス110は、Bluetoothを使用してスマートフォンからオーディオストリームを受信することができ、Wi-Fi上で1つ以上の他のデバイスにオーディオストリームを更に同時に再配信することができる。一態様では、ネットワークインターフェース219は、一度に通信方法(例えば、Wi-Fi又はBluetooth)を1つだけ使用して通信することが可能なRFチェーンを1つだけ含み得る。本文脈中、ネットワークインターフェース219は、例えば、時分割多重化(time division multiplexing、TDM)パターンに従って、Wi-FiとBluetoothとの間で単一のRFチェーンを時分割することによって、Wi-Fi通信及びBluetooth通信を同時にサポートすることができる。
ストリーミングされたデータは、ネットワークインターフェース219からプロセッサ221に渡され得る。プロセッサ221は、メモリ227に記憶されている命令を含む、命令(例えば、とりわけ、デジタル信号処理、復号、及び等化機能を実施するための)を実行することができる。プロセッサ221は、別個の複数のアナログ及びデジタルプロセッサを含むチップのチップセットとして実装されてもよい。プロセッサ221は、例えば、ユーザインターフェースの制御などの、オーディオウェアラブルデバイス110の他の構成要素の調整を提供することができる。
ある特定の態様では、メモリ227に記憶されたプロトコルは、例えば、Bluetoothコア仕様バージョン5.2(BT5.2)に従うBLEを含み得る。ウェアラブルデバイス110及びその中の様々な構成要素は、プロトコル及び関連付けられた仕様の態様に十分に準拠するか又はそれらを実施するために本明細書において提供される。例えば、BT5.2は、同時トランザクションをサポートする拡張属性プロトコル(enhanced attribute protocol、EATT)を含む。EATTをサポートするために、新しいL2CAPモードが定義される。このように、ウェアラブルデバイス110は、本開示において明示的に示されるか、又は考察されていない場合でも、BT5.2の仕様及び動作モードをサポートするのに十分なハードウェア並びにソフトウェア構成要素を含む。例えば、ウェアラブルデバイス110は、BT5.2において指定されるLEアイソクロナスチャネルを利用し得る。
プロセッサ221は、デジタルオーディオ信号をアナログオーディオ信号に転換するための1つ以上のデジタル/アナログ(digital-to-analog、D/A)変換器を含むオーディオハードウェア223に対して、処理されたデジタルオーディオ信号を提供する。オーディオハードウェア223はまた、音出力のために、増幅されたアナログオーディオ信号を電気音響トランスデューサ214に提供する1つ以上の増幅器を含む。加えて、オーディオハードウェア223は、アナログ入力信号を処理して、他のデバイス、例えば、デジタルオーディオの同期出力のための他のスピーカパッケージと共有するためのデジタルオーディオ信号を提供するための回路を含むことができる。
メモリ227は、例えば、フラッシュメモリ及び/又は不揮発性ランダムアクセスメモリ(non-volatile random access memory、NVRAM)を含むことができる。いくつかの態様では、命令(例えば、ソフトウェア)は、情報担体に記憶されている。命令は、1つ以上の処理デバイス(例えば、プロセッサ221)によって実行されるとき、本明細書の他の場所で説明されたものなどの1つ以上のプロセスを実施する。命令はまた、1つ以上のコンピュータ可読媒体又は機械可読媒体(例えば、メモリ227、又はプロセッサ上のメモリ)などの1つ以上の記憶デバイスによって記憶され得る。命令は、復号を実施するための命令を含むことができ(すなわち、ソフトウェアモジュールがデジタルオーディオストリームを復号するためのオーディオコーデックを含む)、並びにデジタル信号処理及び等化を含むことができる。ある特定の態様では、メモリ227及びプロセッサ221は、データ取得及びリアルタイム処理において、フィードバックマイクロフォン111及びフィードフォワードマイクロフォン112と協働し得る。
図2Bは、本開示のある特定の態様による、スマートフォン又はモバイルコンピューティングデバイスなどの例示的なコンピューティングデバイス120を示す。コンピューティングデバイス120のいくつかの構成要素は、固有であり得、図2Bに示されていない。例えば、コンピューティングデバイス120は、筐体を含み得る。筐体は、示されるように、任意選択のグラフィカルインターフェース212(例えば、OLEDディスプレイ)を収容することができる。グラフィカルインターフェース212は、現在再生している(「現在再生中」)音楽又は映像に関する情報をユーザに提供する。コンピューティングデバイス120は、オーディオを出力するための1つ以上の電気音響トランスデューサ215を含む。コンピューティングデバイス120はまた、ユーザ入力を可能にするユーザ入力インターフェース216を含み得る。
コンピューティングデバイス120はまた、ネットワークインターフェース220、少なくとも1つのプロセッサ222、オーディオハードウェア224、コンピューティングデバイス120の様々な構成要素に電力を供給するための電源226、及びメモリ228を含む。態様では、プロセッサ222、グラフィカルインターフェース212、ネットワークインターフェース220、オーディオハードウェア224、電源226及びメモリ228は、様々なバス236を使用して相互に接続され、構成要素のうちのいくつかは、共通のマザーボード上に、又は必要に応じて他の方式で取り付けられてもよい。いくつかの態様では、コンピューティングデバイス120のプロセッサ222は、ウェアラブルデバイス110のプロセッサ221よりも計算能力の点で強力である。そのような差は、重量、電源、及び他の要件の制約に起因し得る。同様に、コンピューティングデバイス120の電源226は、ウェアラブルデバイス110の電源225よりも容量が大きく重いものであり得る。
ネットワークインターフェース220は、1つ以上の通信プロトコルを介して、コンピューティングデバイス120とウェアラブルデバイス110との間、並びに他のオーディオソースと、1つ以上のネットワーク化された無線スピーカパッケージ及び他のオーディオ再生デバイスを含む他の無線スピーカパッケージとの間の通信を提供する。ネットワークインターフェース220は、無線インターフェース230及び有線インターフェース232(任意選択)のいずれか、又はその両方を提供し得る。無線インターフェース230は、IEEE802.11などの無線通信プロトコルに従って、コンピューティングデバイス120が他のデバイスと無線で通信することを可能にする。有線インターフェース232は、有線(例えば、イーサネット)接続を介して、ネットワークインターフェース機能を提供する。
ある特定の態様では、ネットワークインターフェース220はまた、図2Aにおけるウェアラブルデバイス110内のネットワークメディアプロセッサ233及びBluetooth回路237と同様に、ネットワークメディアプロセッサ234及びBluetooth回路238を含み得る。更に、態様では、ネットワークインターフェース220は、図2Aにおいてネットワークインターフェース219に関して説明されるように、複数の通信プロトコルを一度に同時に使用する他のデバイスとの通信をサポートする。
ネットワークパケットの一部として受信された全ての他のデジタルオーディオは、ネットワークメディアプロセッサ234からUSBブリッジ236を介してプロセッサ222にまっすぐ到来し、復号器、DSPに達し、最終的には電気音響トランスデューサ215を介して再生(レンダリング)される。
コンピューティングデバイス120はまた、画像又は映像データを取り込むための画像又は映像取得ユニット280を含み得る。例えば、画像又は映像取得ユニット280は、1つ以上のカメラ282に接続され、静止画像又は動画像を取り込むことができる。画像又は映像取得ユニット280は、ユーザ選択に従って様々な解像度又はフレームレートで動作し得る。例えば、画像又は映像取得ユニット280は、1つ以上のカメラ282のハードウェア能力及びユーザ入力に依存して、毎秒30フレームでの1つ以上のカメラ282による4K映像(例えば、3840×2160ピクセルの解像度)、毎秒60フレームでのFHD映像(例えば、1920×1080ピクセルの解像度)、又はより低い解像度でのスローモーション映像を取り込むことができる。1つ以上のカメラ282は、異なる視野をもたらす焦点距離などの異なる特性のそれぞれのレンズを有する2つ以上の個々のカメラユニットを含み得る。画像又は映像取得ユニット280は、連続的な記録中にカメラ282の2つ以上の個々のカメラユニット間で切り替えることができる。
ウェアラブルデバイス110において取り込まれた音声記録などの取り込まれたオーディオ又はオーディオ記録は、ネットワークインターフェース220からプロセッサ222に渡され得る。プロセッサ222は、メモリ228に記憶されている命令を含む、無線スピーカパッケージ内の命令(例えば、とりわけ、デジタル信号処理、復号、及び等化機能を実施するための)を実行する。プロセッサ222は、別個の複数のアナログ及びデジタルプロセッサを含むチップのチップセットとして実装されてもよい。プロセッサ222は、例えば、ユーザインターフェース及びアプリケーションの制御などの、オーディオコンピューティングデバイス120の他の構成要素の調整を提供することができる。プロセッサ222は、図2Aで説明されるプロセッサ221によるそれぞれの動作と同様に、処理されたデジタルオーディオ信号をオーディオハードウェア224に提供する。
メモリ228は、例えば、フラッシュメモリ及び/又は不揮発性ランダムアクセスメモリ(NVRAM)を含むことができる。態様では、命令(例えば、ソフトウェア)は、情報担体に記憶されている。命令は、1つ以上の処理デバイス(例えば、プロセッサ222)によって実行されるとき、本明細書で説明されるものなどの1つ以上のプロセスを実施する。命令はまた、1つ以上のコンピュータ可読媒体又は機械可読媒体(例えば、メモリ228、又はプロセッサ222上のメモリ)などの1つ以上の記憶デバイスによって記憶することができる。命令は、復号を実施するための命令を含むことができ(すなわち、ソフトウェアモジュールがデジタルオーディオストリームを復号するためのオーディオコーデックを含む)、並びにデジタル信号処理及び等化を含むことができる。
定位されたフィードバックによる聴力増強及びウェアラブルシステムの例
本開示の態様は、ユーザがウェアラブルデバイスを着用しているときに、事象のフィードバックをユーザに提供するための、技法を実装するデバイス及びシステムを含む技法を提供する。例えば、ウェアラブルデバイスは、高品質の雑音消去オーディオ再生をユーザに提供し、ユーザの状況認識を低下させることができる。フィードバックは、空間化されたオーディオキューを通して、雑音消去された再生体験への最小限の介入で、注意に値する事象に関してユーザに通知することができる。本技法は、ウェアラブルデバイス上の2つ以上のマイクロフォンを使用して周囲音を測定することを含む。場合によっては、少なくとも3つのマイクロフォンが、ユーザを取り囲む周囲音を測定するように位置決めされる。事象は、測定された周囲音に基づいて判定され、事象の位置属性が判定される。深層学習アルゴリズムは、事象の性質及び/又は分類を識別し、ユーザが無視することを好む事象を除外するために使用され得る。ユーザの注意を必要とする事象を判定すると、ユーザは、判定された事象及び位置属性のフィードバックを提供され、フィードバックは、事象の性質及び位置を指示する。
態様では、ウェアラブルデバイスは、その上の2つ以上のスピーカを介して、測定された周囲音を消去するオーディオコンテンツを再生し得る。例えば、2つ以上のスピーカは、周囲音と同じ振幅を有し、周囲音に対して反転した位相を有するオーディオコンテンツを再生し得る。したがって、雑音消去オーディオコンテンツによって引き起こされた干渉は、周囲音を消去する。態様では、事象及び位置属性に基づいてユーザにフィードバックを提供することは、雑音消去オーディオコンテンツに加えて空間化されたオーディオキューを再生することを含む。このように、ユーザは、周囲音から逃れながら状況認識を維持することができる。
一例として、測定された周囲音に基づいて事象を判定することは、事象の音レベルの大きさを測定することと、事象と関連付けられたオーディオ信号を使用してウェアラブルデバイスに対する事象の位置を判定することと、を含み得る。事象の位置は、オーディオ信号から処理された方向及び距離に基づいて判定され得る。事象の位置属性は、方向又は距離のうちの少なくとも1つを含み得る。例えば、ユーザは、ユーザ自身の発話に関して通知されたくない場合がある。ある特定の閾値内の距離に関連する事象は、ユーザ自身の発話として判定されてもよく、したがって無視される。同様に、ユーザは、雑音消去体験に没入することができるが、視覚的に識別可能である事象を依然として認識することができる。例えば、ユーザの同僚がユーザの前で話している場合、同僚の唇の動きがユーザに十分な視覚的通知を提供することができるため、ユーザは、発話を聞いて、発話を認識する必要はない。このように、位置属性は、ユーザの注意を必要とし、又は必要としない場合がある事象を判定する重要な側面である。
図3は、本開示のある特定の態様による、判定された事象及び位置属性のフィードバックをユーザに提供するための動作300の例を示す。動作300は、302において、2つ以上のマイクロフォンを使用して周囲音を測定することによって始まる。場合によっては、少なくとも3つのマイクロフォンが、ユーザを取り囲む周囲音を測定するように位置決めされる。例えば、ブロック302は、図1に示されるように、ウェアラブルデバイス110、並びにマイクロフォン111及び112によって実施され得る。追加の例が図4に示され、ここで、マイクロフォン413、415、及び425が測定された周囲音に使用される。測定された周囲音は、以下で更に説明されるように、雑音消去コンテンツを生成するために使用され、ユーザの注意を必要とする事象について監視され得る。
304において、事象判定アルゴリズムは、測定された周囲音に基づいて事象を判定することができる。例えば、事象判定アルゴリズムは、事象の音レベルの大きさを測定し、事象と関連付けられたオーディオ信号を使用してウェアラブルデバイスに対する事象の位置を判定することができる。事象判定アルゴリズムは、事象の音レベルの大きさがウェアラブルデバイスに対する事象の位置に対応する閾値を超えていることを判定し得る(例えば、異なる相対位置は異なる閾値を有し得る)。例えば、閾値は、ウェアラブルデバイスに対する事象の位置に基づいて変動し得る。閾値は、事象の位置がユーザに近づくにつれて増加してもよく、その結果、ユーザによって生み出された音が排除されてもよい。
場合によっては、事象判定アルゴリズムは、背景雑音の平均振幅(すなわち、デシベルレベル)を監視及び算出し、平均デシベルレベルを超える着信音を事象候補としてみなし得る。場合によっては、事象判定アルゴリズムは、事象候補を判定する際にデシベルレベルについてのユーザ入力閾値を使用し得る。場合によっては、事象判定アルゴリズムは、異常に大きい音を識別するための基準として、周囲音の履歴又はパターンを使用し得る。戦略の例のうちの2つ以上の組み合わせが実装され得る。
306において、事象判定アルゴリズムは、事象の位置属性を判定する。事象の位置属性は、ユーザ/ウェアラブルデバイスに対する方向、及び事象とユーザ/ウェアラブルデバイスとの間の距離のうちの少なくとも1つを含み得る。場合によっては、事象の位置は、オーディオ信号から処理された方向及び距離に基づいて判定され得る。例えば、2つ以上のマイクロフォンは、事象判定アルゴリズムが、位置を判定するために同様の特性の音を相関させ、及び/又は三角測量することを可能にする。例えば、異なる進行距離に起因して、同じ音が異なる時間に2つ以上のマイクロフォンの各々に到着し、2つ以上のマイクロフォンに対する相対位置の判定を可能にする。したがって、方向及び距離をオーディオ信号から処理して、事象の位置を判定することができる。図4に示されるように、同じ音信号の異なる量の遅延(例えば、それぞれ413と415、及び415と425のペアについて、グラフ410及び420にプロットされた測定値)は、副次的な図430に示されるように、事象判定アルゴリズムが音信号の遠距離場定位を実施することを可能にする。
場合によっては、事象判定アルゴリズムは、ウェアラブルデバイスに対する事象の位置に基づいて事象のインシデントを除外することによって、周囲音に基づいて事象を判定し得る。例えば、事象判定アルゴリズムは、ウェアラブルデバイスまでのある特定の距離内にあるインシデント(例えば、ユーザ自身の発話などのユーザによって引き起こされたインシデントを分類すること)、ウェアラブルデバイスの視野内又は方向(正面などの)にあるインシデント(例えば、ユーザの正面のスピーカからのコンピュータ通知音、ユーザの前で話している誰かなどの、ユーザによって視覚的に目立つインシデントを分類すること)、又はユーザの注意を必要とするには遠すぎる場合があるインシデント(例えば、住居周辺の外側の交通雑音のインシデントなど)を除外することができる。いくつかの例が図5に更に示され、以下で考察される。
場合によっては、事象判定アルゴリズムは、事象と関連付けられたオーディオ信号における繰り返しパターンに基づいて事象のインシデントを除外することによって、周囲音に基づいて事象を判定することができる。例えば、事象判定アルゴリズムは、記録された周囲音の履歴を分析して、ユーザによって無視されていた周囲音のパターンを識別し、検出された事象がこのパターンに適合し、無視されるべきかどうかを判定することができる。
場合によっては、事象判定アルゴリズムは、事象と関連付けられたオーディオ信号の属性に基づいて事象のインシデントを除外することによって、周囲音に基づいて事象を判定することができる。例えば、オーディオ信号の属性は、オーディオ信号にどこと、何と、又は誰と関連付けられているかを指示し得る。事象判定アルゴリズムは、内側の火災警報を外側のサイレンと区別するか、又は(例えば、以前に記録された事象に基づく)知人からの発話を見知らぬ人からの発話と区別することができる。
場合によっては、事象判定アルゴリズムは、ウェアラブルデバイスに対する事象の位置と、事象と関連付けられたオーディオ信号における繰り返しパターンと、事象と関連付けられたオーディオ信号の属性とを相関させることに基づいて事象を判定してもよい。例えば、事象判定アルゴリズムは、事象のオーディオ信号の性質又は意味を識別するために深層学習を使用することができる。深層学習、又はより一般の状況における機械学習は、人工知能によって実施された表現/特徴学習とともに人工ニューラルネットワークを使用し得る。以下で図6~図7に関して更に考察されるように、事象判定アルゴリズムは、人工知能を用いて、ウェアラブルデバイスに対する事象の位置、事象と関連付けられたオーディオ信号内の繰り返しパターン、及び事象と関連付けられたオーディオ信号の属性のデータ上で深層学習を実施することができる。深層学習は、どの事象がユーザの注意に値するかを正確に判定し、誤判定事象を無視することができる。
308において、判定された事象及び位置属性のフィードバックがユーザに提供される。例えば、フィードバックは、ウェアラブルデバイス内の2つ以上のスピーカによって空間化された音を再生すること、ウェアラブルデバイスを使用して方向指示触覚通知を提供すること、ウェアラブルデバイスに接続された1つ以上のデバイス上に通知を表示すること、又はそれらの組み合わせを含み得る。空間化された音は、ウェアラブルデバイスの2つ以上のスピーカ(例えば、サラウンド音を生み出すことが可能なスピーカ)を使用して生み出され得る。空間化された音は、ユーザに対する判定された事象の位置(例えば、位置属性)を表し得る。ウェアラブルデバイスは、指向性入力(例えば、左/右、上/下など)を提供するための2つ以上の触覚フィードバック機構を含み得る。図5は、記録されたインシデントの視覚提示500の形態で通知を表示する一例を示す。
図5に示されるように、視覚表現500は、x軸における左から右への(left-to-right、L-R)遅延(すなわち、ウェアラブルデバイスまでの相対距離を指示する時間遅延)にわたって、及びy軸における前から後への(front-to-back、F-B)遅延にわたって、検出されたインシデントをプロットする。円形範囲540は、遠距離場音源と一致する遅延ペアの範囲を指示する。視覚表現500は、ユーザの視野520及び関連する前方方向530を含む。ユーザの視野520内で検出されたインシデントは、無視可能であると推測され得る。ウェアラブルデバイスと位置合わせされ、(例えば、ユーザが移動するにつれて)変化を受ける前方方向530は、視野520内のインシデントの適用範囲を更新するために使用され得る。例えば、前方方向530は、ウェアラブルデバイスが初期化されるときに定義されてもよく、加速度計、ジャイロスコープ、又は慣性測定ユニット(IMU)などの1つ以上の運動センサからの入力を使用して更新されてもよい。
数多くのインシデント510、512、及び514の例が図5に示される。インシデント510は、閾値音レベルを超え、視野520内に収まっている事象を表す。結果として、インシデント510は、ユーザに報告されない。インシデント512は、閾値音レベルを超え、視野520から外れている事象を表す。更に、インシデント512は、ユーザの非集中状態と関連付けられており、ユーザに報告されない。インシデント514は、閾値音レベルを超え、視野520から外れており、かつユーザの集中状態と関連付けられた事象を表す。インシデント514は、関連付けられた位置属性とともにユーザに報告され、これは、空間化されたオーディオキューとして、及び視覚表現500によって提示され得る。
例えば、事象判定アルゴリズムは、ウェアラブルデバイスによって測定された運動信号のパターンに基づいて、ユーザが集中状態にあると判定することができる。運動信号のパターンは、ウェアラブルデバイス上に配置された1つ以上のIMUによって測定され得る。ユーザが座って静止して読書をしているか、又は見ているときなどの、ユーザの状況認識が集中状態において減少するにつれて、検出されたインシデントに関するフィードバックは、そのような集中状態においてより価値がある。運動信号の測定の例800が図8に示される。
図8を簡単に参照すると、x軸802は、時間を表し、y軸804は、一般にジャイロスコープ又は運動センサによって測定されたエネルギーを表す。示されるように、低エネルギーレベルパターン816は、ユーザの集中状態を表し、一方で、高エネルギーレベルパターン818は、移動状態を表す。ユーザが集中状態にないとき、音信号はユーザ自身の移動に起因して生み出された雑音を含み得るため、インシデント512は無視される。場合によっては、ユーザが集中状態にあることを判定することは、運動信号のパターンを処理することを含み得る。運動信号のパターンは、ユーザが座っているか又は静止して立っていることを指示する必要はなく、むしろ、行き来すること又は前後の揺れなどの反復パターンを指示する。
本開示の1つの重要な態様は、オーディオ属性、位置属性、及びユーザのステータスを含む、データの様々な層に基づく深層学習を使用して事象(インシデント514などの)を判定することに関する。高いレベルでは、深層学習態様は、オーディオ信号の様々な属性を分析する(例えば、音信号のソース及び性質を区別する)ことによって、複数のクラス又はカテゴリに基づいて事象を検出する。第2に、深層学習態様は、各検出された事象(例えば、音声、警報、ノックなど)のクラス又はカテゴリ、及び関連付けられた優先度レベルを判定することができる。深層学習は、教師あり(例えば、常にユーザフィードバックを受信する)、半教師あり(例えば、時々ユーザフィードバックを受信する)、及び教師なし(例えば、ユーザフィードバックを受信しない)であり得る。
図6Aは、本開示のある特定の態様による、ユーザの注意を必要とする事象を判定するためのプロセスの例を示す。示されるように、2つ以上の特徴抽出モジュールは、1つ以上のチャネルにおいてオーディオ時系列を受信し得る。次いで、特徴が抽出され、クラスごとのエネルギー予測ネットワーク(例えば、機械学習ネットワーク又はニューラルネットワーク)、及び抽出された特徴の位置属性を判定するための音定位処理ネットワークに提供される。場合によっては、特徴抽出は、決定論的処理である。場合によっては、特徴抽出は、「メルスペクトログラム」画像を生み出す。複数のチャネルにおけるオーディオ時系列では、特徴抽出プロセスに続いて、周囲音の指向性出力を処理する音定位ネットワークにおいて処理することができる。
次いで、2つのネットワークは、事象閾値及び決定論理のモジュールに基づいて事象閾値及び決定論理を適用することによって、どのフィードバックがユーザに提供され得るかを判定することができ、次いで、事象閾値及び決定論理のモジュールは、音クラスごとに決定を出力する。場合によっては、図6Aの例は、対応する検出シーケンスを判定するために、各音クラス(例えば、0~1に限定されない)についてのrms推定を閾値化することを使用する。場合によっては、検出閾値処理プロセスは、クラスごとの閾値又はカスタム閾値を事象検出に適用することができる。図6Aにおける出力信号(「クラスN決定」)は、ユーザがフィードバックで通知されることを定義することができる。
ユーザの注意を必要とする事象を判定するための深層学習プロセス600の第2の例が図6Bに示される。深層学習プロセス600は、図6Aに示される例の代替として(例えば、それとは別個に)実装され得るか、又は以下の図6Cに示される別の例と同様に、図6Aに示される例と一緒に実装され得る。示されるように、深層学習プロセス600は、610において、入力オーディオを受信することによって始まる。シングルチャネルオーディオストリームとして示されているが、入力オーディオは、多くの場合、(例えば、定位分析のための)少なくとも2つの録音チャネルを含む。入力オーディオの2つ以上のチャネルは、並行して分析され得る。620において、入力オーディオにおける特徴が抽出される。特徴は、大きさ、周波数、パターン、又はそれらの組み合わせに基づいて識別され得る。
630において、フィルタは、抽出された特徴に適用され、入力オーディオの特徴と関連付けられた事象を更に分類する。例えば、特徴抽出プロセスは、入力オーディオ信号に関するフィルタリング及び転換(例えば、周波領域「メルスペクトログラム」に変換すること)を含み得る。場合によっては、630におけるプロセスを実装する「クラスごとの」エネルギー予測ネットワークは、抽出された特徴に基づいてクラスごとのrmsエネルギーを予測するニューラルネットワークを含み得る。場合によっては、図6Bにおける特徴抽出プロセスは、図6Aの「特徴抽出」において実施されるプロセスとは異なり得る。
640において、入力オーディオの2つ以上のチャネルに基づく定位の分析が実施され、2つの識別出力650及び654をもたらす。出力650は、発話641、車のクラクションと関連付けられた音642、イヌの鳴き声643、又はサイレン(図示せず)などの、検出された事象の性質を指示し得る、マルチラベル分類による音事象検出を含む。検出された音は、タイムラインTに沿って記録され、各フレームはtの期間を有する。出力654は、発話641、車のクラクションと関連付けられた音642、イヌの鳴き声643などの検出された事象の方向、及びが各事象の起点のX-Y-Z座標を判定することによって判定され得るように、到来方向推定を提供する。
場合によっては、650につながる「シグモイド」層は、確率ベースの検出手法を実装することができ、ここで、0~1の確率(これは、シグモイドブロックが生み出すものである)を閾値化して、650におけるように各クラスについての検出シーケンスを判定する。場合によっては、630におけるプロセスは、非繰り返しネットワークを使用して実施され得る。640におけるプロセスは、繰り返しネットワークを使用して実施され得る。
図6Cは、フィードバックがユーザに提供され得るかどうか、及びどのように提供され得るかを判定するためにニューラルネットワークを使用する別の例を示す。示されるように、図6Cは、別個である閾値化及び決定ステップを示す。
図7は、例示的な深層学習モデルの出力を示す。出力は、クラスごとのエネルギー時系列予測である。検出決定は、予測に閾値を適用することによって生み出され得る。図7に示されるように、プロット705は、音エネルギー(y軸)を使用して、時間(x軸におけるフレーム)に沿って測定及び予測された事象を判定することを示す。例えば、3つのエネルギープロファイルの例710、712、及び714が示される。プロファイル710は、右のグラフ725のオーディオ信号723に対応し得る音声及び他の音信号を含み得る。プロファイル712は、存在する音声信号のエネルギー量を表す。事象判定アルゴリズムは、プロファイル714に示されるように、音声のみの活動の予想されるエネルギー変動を予測し、非発話事象のエネルギーを無視するように訓練され得る。例えば、グラフ725では、事象731又は721は、記録信号723の音声のみのエネルギー部分を表す。信号722は、ノック音732の間の高エネルギーを示し、一方、この時間中の音声エネルギー部分は小さいままである。
いくつかの態様では、本明細書で様々に説明される技法は、ウェアラブルデバイス及び/又はウェアラブルデバイスのユーザについてのコンテキスト情報を判定するために使用され得る。例えば、本技法は、ユーザの環境(例えば、騒々しい場所、静かな場所、屋内、屋外、飛行機上、車内など)及び/又は活動(例えば、通勤、歩行、走行、着座、運転、飛行など)の側面を判定することを助けるために使用され得る。いくつかのそのような態様では、ウェアラブルデバイスから受信されたオーディオデータは、そのようなコンテキスト情報を判定し、新しい又は拡張された体験をユーザに提供するために、コンピューティングデバイスにおいて処理され得る。例えば、これは、数例を挙げると、プレイリスト若しくはオーディオコンテンツのカスタマイズ、雑音消去調節、及び/又は他の設定調節(例えば、オーディオ等化器設定、音量設定、通知設定など)を可能にすることができる。
ウェアラブルデバイス(例えば、ヘッドフォン又はイヤフォン)は、典型的には、限定されたリソース(例えば、メモリ及び/又は処理リソース)を有するため、コンピューティングデバイスにおいてオーディオデータを同期させるためのシステムを有しながら、ウェアラブルデバイスのセンサからコンピューティングデバイスにデータの処理をオフロードするために本明細書で説明される技法を使用することは、多様なアプリケーションを提供する。いくつかの態様では、本明細書で開示される技法は、以下で考察されるように、コンピューティングデバイスが、同期されたオーディオキャプチャ動作のための最適化された若しくは最も好ましい構成又は設定を自動的に識別することを可能にする。
異なる閾値のカスタマイズされた構成に基づくフィードバックの例
本開示の態様は、異なる状況基準に対応する異なる構成事象において変動するカスタマイズされた閾値によって定義された事象のフィードバックをユーザに提供するための、技法を実装するデバイス及びシステムを含む技法を更に提供する。例えば、ウェアラブルデバイスは、異なる状況において異なる閾値を使用して事象を判定することができる。異なる閾値は、ユーザによって構成されるか、デフォルトによって設定されるか、サービスによって更新されるか、又は新しいデータ(例えば、機械学習)に基づいて更新され得る。態様では、閾値は、構成事象として特徴付けられた状況に対応する構成可能なデシベル又は音量レベルである。各構成事象は、音クラス(例えば、発話、メロディ、警報、鳴き声などの)、位置属性(例えば、前述のように、ウェアラブルデバイスからの距離及び方向)、時間、日付、ウェアラブルデバイスの位置(例えば、自宅、オフィスなど)、及び他のパラメータなどの、1つ以上のパラメータによって定義され得る。例えば、ユーザは、減衰された特定の音(例えば、呼び鈴)がそれでもなおユーザへのフィードバックを引き起こし得るように、自宅の異なる部屋における同じ音クラスについて異なる閾値を設定することができる。パラメータは、概して、様々なタイプのデータを含むために状況基準と称される。
態様では、2つ以上の異なる状況基準の各々は、判定された事象と関連付けられた閾値、事象の位置属性、又はユーザへのフィードバックのうちの少なくとも1つのカスタマイズ構成を含み得る。場合によっては、状況基準は、ウェアラブルデバイスの2つ以上のマイクロフォンを使用して測定された周囲音に基づいて判定された、ウェアラブルデバイスに対する位置属性を更に含む。例えば、ユーザによって構成可能な閾値は、1つの特定の状況基準に対応する最小又は最大距離を含み得る。閾値はまた、1つの特定の状況基準に対応する方向を含んでもよい。状況基準は、ウェアラブルデバイスの特定の物理的位置に対応し得る。例えば、自宅位置についての音の距離及び方向の状況基準は、オフィス位置についての音の距離及び方向の状況基準とは異なるであろう。ユーザは、自宅にいるとき、第1の方向における第1の距離からの、第1の閾値を超えるある特定の音がユーザに提供されるフィードバックをもたらし得、一方、オフィスでは、第2の方向における第2の距離からの、第2の閾値を超えるある特定の音が別のフィードバックをもたらし得るように、状況基準を構成することができる。
図9は、本開示のある特定の態様による、判定された事象のフィードバックをユーザに提供するための動作900の例を示す。動作900は、図1のウェアラブルデバイス110などのウェアラブルデバイスによって少なくとも部分的に実施され得る。動作900は、動作900が、異なるパラメータ又は状況基準によって特徴付けられる異なる状況において変化する状況固有の閾値を適用することによって事象を判定し得るという点で、図3の動作300とは異なる。例えば、動作300において考察された位置属性を使用することに加えて、動作900はまた、以下で考察されるように、カスタマイズされた感度又は閾値、音特性(例えば、音のタイプ又はクラス)、並びにカスタマイズされたフィードバックを考慮する。
動作900は、902において、2つ以上のマイクロフォンを使用して周囲音を測定することによって始まる。これは、動作300と同様である。2つ以上のマイクロフォンは、図1に示されるようなウェアラブルデバイス110並びにマイクロフォン111及び112などのウェアラブルデバイスに対する周囲音位置を検出することを可能にする。例えば、複数のマイクロフォンは、マイクロフォンの異なるペア間の時間遅延を推定することによって、到来方向の推定を可能にし得る。距離は、音強度、残響、及びいくつかの他の量から間接的に判定され得る。他の位置判定技法が同様に適用され得る。追加の例が図4に示され、ここで、マイクロフォン415及び425が測定された周囲音に使用される。測定された周囲音は、雑音消去コンテンツを生成するために使用され、ユーザの注意を必要とする事象について監視され得る。
904において、事象は、閾値を超える測定された周囲音に基づいて判定され得る。閾値は、2つ以上の異なる状況基準に対応する2つ以上の異なる構成事象ごとに変動し得る。例えば、閾値は、ユーザによってカスタマイズされ得るか、又は異なる音特性に依存してデフォルトによって変動する。このように、ウェアラブルデバイスは、会議設定における通話中、オーディオ再生シナリオにおいて、又は全ての周辺環境雑音を消去する集中モードにおいてなどの、異なる状況において異なって挙動し得る。
906において、判定された事象に基づいて、対応するフィードバックがユーザに提供される。例えば、フィードバックは、上で考察されたように、ウェアラブルデバイス内の2つ以上のスピーカによって空間化された音を再生すること、ウェアラブルデバイスを使用して方向指示触覚通知を提供すること、ウェアラブルデバイスに接続された1つ以上のデバイス上に通知を表示すること、又はそれらの組み合わせを含み得る。
態様では、2つ以上の異なる状況基準の各々は、判定された事象と関連付けられた閾値、ウェアラブルデバイスに対する事象の位置属性、又は判定された事象に基づくユーザへのフィードバック、のうちの少なくとも1つのカスタマイズ構成を含む。カスタマイズ構成は、ユーザによって入力され得る。カスタマイズ構成は、デフォルト工場構成を含み得る。例えば、図10及び図11は、本開示のある特定の態様による、状況基準のカスタマイズ構成を調節するためのインターフェースの例を示す。
図10に示されるように、ユーザは、オーディオ警告、デスクトップ通知、又はその両方などの通知タイプのうちの1つ以上を選択することによって通知を管理することができる。通知タイプに加えて、図10に示されるカスタマイズ構成はまた、示されるような発話、警報/タイマー、及び音が大きい事象などの異なる音クラスのための事象感度定義を含み得る。事象感度は、音波の最小の大きさ(例えば、谷)又は検出可能な周波数の範囲を指示し得る。場合によっては、感度は、「同じ部屋での発話」及び「隣の部屋での発話」のフィードバックを提供することなどによって、ユーザにとって説明的及び直感的であり得る。アルゴリズムの一部は、特定のシナリオに依存して、測定された音レベルをこれらの説明に一致させることができる。選択された事象感度は、事象閾値を定義するデシベルレベルと関連付けられ得る。閾値は、ユーザへのフィードバックを起動するために超えなければならない最小音レベルを指示する。言い換えれば、ウェアラブルデバイス又はウェアラブルデバイスと接続された処理デバイスは、最初に周囲音の適切な音クラスを識別し、そのような周囲音が定義された閾値をいつ超えるかを監視することができる。
場合によっては、音クラスは、発話、背景音(例えば、図10に示される音が大きい事象)、又は音楽シーケンス(すなわち、識別可能なパターンを有する音の変動)のうちの少なくとも1つを含み得る。いくつかの例では、背景音はまた、警報、足音、交通雑音、又は一般の音のパターンを含み得る。場合によっては、図10は、グラフィカルユーザインターフェース(GUI)を表し得る。GUIは、ウェアラブルデバイス上、ウェアラブルデバイスに接続されたコンピュータデバイス上、又はその両方にあり得る。コンピュータデバイスは、図1のコンピューティングデバイス120などのウェアラブルデバイスと通信する任意のコンピューティングデバイスであり得る。
図10は、音クラスの例についての事象感度設定が、個別の任意選択のレベル:オフ、低、中、及び高(又はユーザが理解しやすい対応する説明)を含むことを示しているが、スライドバーの形態などの連続的な感度レベル構成が提供されてもよい。場合によっては、複雑な閾値プロファイル(周波数の範囲における大きさのプロファイルなどの)が構成にロードされ得る。更に、場合によっては、閾値構成は、周囲音へのユーザの反応に基づいて、ウェアラブルデバイスによって(例えば、機械学習によって)訓練、取得、又は識別され得る。例えば、ユーザの反応は、音声応答に加えて、様々な運動センサを使用して測定され得る。
図11に示されるように、音クラス選択、検出感度、及びフィードバック又は通知モードは、ユーザによって構成され得る。図11は、図10の様々な態様を実装するグラフィカルインターフェースの例とみなされ得る。
態様では、ユーザに提供されたフィードバックは、ユーザに対して周囲音の記録されたコピーを再生することを更に含む。例えば、勤務設定における同僚からの発話などの、ある特定の状況基準を満たす事象を判定すると、周囲音(すなわち、発話)は、記録され、ウェアラブルデバイスにおいてユーザに再生され、ウェアラブルデバイスは、最初に(すなわち、環境音を処理し、周囲音が発話状況基準に合うことを識別する前に)発話を雑音消去し得る。周囲音の記録は、周囲音の空間特性を保護して、本明細書における様々な態様で考察されるような位置属性を提供するための、少なくとも2つのチャネル(例えば、バイノーラル)を含む。記録された音コピーを再生することは、以下で説明される1つ以上の動作(例えば、自動外音取り込み、事象リプレイなど)と称され得る。このように、ウェアラブルデバイスが最初に周囲雑音を完全に消去し得るとしても、重要な事象又は音声情報は保存され、ユーザに利用可能である。
態様では、通知又はフィードバックは、1:空間化されたトーン又はキュー、2:自動外音取り込み(すなわち、ヘッドフォンを外音取り込み雑音消去状態に自動的に変更すること)、及び3:「パススルー」とも称される事象リプレイ、に基づき得る。場合によっては、記録された事象を再生することは、プロセッサが検出決定を行うか、又は音事象を処理/拡張するための時間を必要とし得るため、ユーザが実生活で聞くものに対していくらかの遅延を有し得る。場合によっては、雑音消去状態が変更されないとき、内蔵の「巻き戻し」が行われ得る。
例えば、自動外音取り込みは、ウェアラブルデバイスを、それが好むものを最良にシミュレートしようとする方式で、デバイスが外の世界のオーディオをリアルタイムで通過させるモードにすることができる。事象リプレイは、音事象を記録し、次いで、ユーザが事象を聞きたいという入力(例えば、頭部を振る、ボタンを押下するなど)を提供することなどに応答して、将来のある時間にその音事象を再生することができる。
別の実施例では、自動外音取り込みは、例えば、ユーザの周りの一般音が、ある特定のデシベルレベルを超える場合、ユーザがエリア内で何が起こっているかを把握することを可能にすることなどを起動することができる。しかしながら、事象リプレイは、例えば、ユーザの小個室の開放に基づいて事前定義されるウィンドウ内で発話が検出された場合に起動し得、ここで、発話が記録され、次いでユーザに再生される(これにより、ウェアラブルなものが自動外音取り込みモードに入り、ユーザが会話に参加することが可能になり得る)。
態様では、(例えば、既知の音声区間検出(VAD)技法を使用して検出された)自身の声は、本出願のアルゴリズムが(自動外音取り込みを使用して)ヘッドフォンを外音取り込み状態に入らせた後、ウェアラブルなものを外音取り込み状態に保つために使用され得る。自身の声をアクティブ化する任意選択の特徴は、デフォルト又はユーザカスタマイズ可能なものによって設定され得る。
態様では、自動外音取り込みモードからいつ復帰する(例えば、自動外音取り込みが起動される前に設定された雑音消去レベルに戻る)べきかを判定するために(デフォルト時間及び/又はユーザカスタマイズ可能に設定され得る)タイマーが任意選択で使用され得る。代替的に、自動外音取り込みモードからの復帰は、ユーザ入力(例えば、ボタン押下、頭部回転)に応答してなどの、別の方式で生じてもよい。
態様では、(例えば、フィードバックマイクロフォンによって検出された音レベルに基づいて)ウェアラブルデバイスの存在にかかわらずユーザが発話を明確に聞くことができるとき、ウェアラブルデバイスは、ユーザにウェアラブルデバイス上で更に操作させることなく、又はウェアラブルデバイスを取り外させることなく、自動的にオーディオを鳴らし、状態を外音取り込みに変更することができる。言い換えれば、ウェアラブルデバイスは、外側の会話が検出されたとき、自動的に外音取り込みモードに入る。
場合によっては、ウェアラブルデバイスは、内部マイクロフォン(例えば、ウェアラブルデバイスのスピーカの近くのフィードバックマイクロフォン)を使用して、例えば、ウェアラブルデバイスが周囲音を完全に打ち消さない場合に、検出された事象が最初にユーザに聞こえるかどうかを判定し得る。周囲音が実際にユーザに聞こえる場合、ウェアラブルデバイスは、記録された事象を直ちに再生しなくてもよく、記録の利用可能性の通知をユーザに提供してもよい。場合によっては、ウェアラブルデバイスは、内部マイクロフォンによって収集されたデータに基づいて、周囲音の記録されたコピーを増幅又は減衰させてもよい。例えば、ウェアラブルデバイスは、ユーザが記録を快適に聴くことができるように、既存のオーディオ出力と実質的に同様になるように再生の音量を調節することができる。場合によっては、周囲音の録音されたコピーの増幅又は減衰は、周囲音のある特定の特定帯域幅又はコンテンツに適用され得る。例えば、周囲音の背景雑音は減衰され得る一方、発話が増幅され得るか、又はその逆であり得る。他のデジタル処理を使用して、ユーザにとって関心のあるデータを抽出することもできる。
場合によっては、周囲音の記録されたコピーを増幅又は減衰させることは、ウェアラブルデバイスの移動によって起動することができる。例えば、音源に向かって回転若しくは移動するウェアラブルデバイスの検出又は測定は、記録されたコピーのリプレイ(直ちに、又は移動に応答して事前構成された遅延で)、並びに周囲音の記録されたコピーの少なくとも一部分を増幅又は減衰させることを含む、記録されたコピーを修正するためのアクションを起動し得る。移動データは、以下で考察されるように、応答パターン(又は運動パターン若しくは移動パターン)を分析するために、ユーザから集められた他の反応データと組み合わされ得る。
場合によっては、内部マイクロフォンは、増幅又は減衰がある特定のユーザ選好又はプロファイルに準拠し得るように、記録再生にわたってフィードバック制御を提供するために使用され得る。例えば、周囲音が、背景の歌を通しての発話及び火災警報などの、異なる音クラスの音の混合を含むとき、内部マイクロフォンは、ユーザがすでに火災警報を聞いた(すなわち、ウェアラブルデバイスが警報音を完全に消去していない)と判定することができ、記録された周囲音の再生は、火災警報成分を含む必要はない。同様に、発話成分は、ウェアラブルデバイスのマイクロフォンによって拾われているだけであり得、内部マイクロフォンは、ユーザが他の音上の発話成分を知覚することができなかったことを検出し、その結果、ウェアラブルデバイスは、背景の歌よりも大きいスケールで発話成分を増幅し得る。
場合によっては、記録された周囲雑音の再生は、遅延され、延期され、又は別の時間にオフセットされ得る。これは巻き戻し動作と称され得る。巻き戻し動作は、より多くの処理時間が必要とされるとき記録された周囲音が複雑な信号を含むとき、又はユーザが、ある特定の音クラス若しくはある特定の位置属性の音がそのような巻き戻し動作を起動することができるように、ある特定の規則をカスタマイズ若しくは提供するときに、実装され得る。
場合によっては、巻き戻し動作及び他の音リプレイ動作(例えば、増幅及び減衰を含む)は、ユーザの運動パターンと相関され得る。例えば、上で考察されたように、構成の一般規則は、ユーザによる入力に基づいて識別され得る。入力は、加速度計、慣性測定ユニット(IMU)、振動運動センサ、又は他の運動センサなどの、ウェアラブルデバイス内の1つ以上の運動センサによって記録された運動応答であり得る。反復頭部回転応答、歩行応答、又は他の移動応答などの移動パターンは、音事象、及び巻き戻し又はリプレイ動作と相関され得る。このように、音事象及び運動応答の両方が検出されたとき、ウェアラブルデバイスは、ユーザからの更なる入力なしに自動的に巻き戻し又はリプレイ動作を実施することができる。
態様では、ウェアラブルデバイスは、ある期間にわたって、周囲音と周囲音の位置属性とを相関させることができ、すなわち、周囲音の運動を追跡する。追跡された運動は、顕著性マップを生成するために使用することができ、顕著性マップは、異なる位置におけるある期間にわたる周囲音の変動をマッピングする。ウェアラブルデバイスはまた、同じ期間にわたるそれ自体の移動記録を測定することができる。顕著性マップ及びウェアラブルデバイスの移動記録に基づいて、ユーザの応答は、相関関係に基づいて判定され得る。例えば、接近する発話が音方向に向かうユーザの傾向を誘起することができ、次いで巻き戻し又はリプレイ動作を実施することができるなどの、ユーザの応答は、周囲音の移動を条件とすることができる。
態様では、電力消費又は処理能力に対する懸念のために、ウェアラブルデバイスは、データ処理作業負荷を共有するように他の接続されたデバイスに要求する場合がある。例えば、多段階処理アーキテクチャは、ウェアラブルデバイスにおける帯域幅又は処理能力を節約するために実装され得る。一例では、ウェアラブルデバイスは、部分的若しくは完全な計算又は処理のために、測定された周囲音を図1のコンピューティングデバイス120などの第2のデバイスに(部分的又は完全に)送信することができる。場合によっては、第2のデバイス又は追加のデバイスは、全体的な処理時間を低減するために、ウェアラブルデバイスよりも大きい処理能力を有し得る。処理後、ウェアラブルデバイスは、判定された事象及び対応するフィードバックを受信して、ユーザに提供することができる。
いくつかの態様では、本明細書で様々に説明される技法は、多数のオーディオ/映像アプリケーションのために使用され得る。加えて、本明細書で説明される技法は、ユーザの音楽又はオーディオ再生を中断することなく、オーディオ又は映像メッセージのための無線で取り込まれたオーディオを可能にすることができる。したがって、本明細書で説明される技法は、無線構成を使用して映像のための没入型及び/又は無雑音オーディオを生み出す能力を可能にする。更に、本開示に基づいて理解され得るように、説明される技法は、以前は有線構成を使用してのみ達成可能であったスキームを可能にし、そのため、説明される技法は、1つ以上のワイヤによってつながれる望ましくないかつ不快な経験からユーザを解放する。
本開示の態様の説明は、例示の目的で上に提示されているが、本開示の態様は、開示された態様のいずれにも限定されることを意図していないことに留意され得る。説明された態様の範囲及び趣旨から逸脱することなく、多くの修正形態及び変形形態が当業者には明らかであろう。
上記では、本開示において提示される態様が参照される。しかしながら、本開示の範囲は、特定の説明された態様に限定されない。本開示の態様は、完全にハードウェア態様、完全にソフトウェア態様(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、又は本明細書では全て、概して「構成要素」、「回路」、「モジュール」、若しくは「システム」と称され得るソフトウェア態様とハードウェア態様とを組み合わせる態様の形態を取ることができる。更に、本開示の態様は、その上に具現化されたコンピュータ可読プログラムコードを有する1つ以上のコンピュータ可読媒体において具現化されたコンピュータプログラム製品の形態を取ることができる。
1つ以上のコンピュータ可読媒体の任意の組み合わせを利用することができる。コンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体であり得る。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、若しくは半導体のシステム、装置、若しくはデバイス、又は前述のものの任意の好適な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例としては、1つ以上のワイヤを有する電気接続、ハードディスク、ランダムアクセスメモリ(random access memory、RAM)、読み取り専用メモリ(read-only memory、ROM)、消去可能プログラマブル読み取り専用メモリ(erasable programmable read-only memory、EPROM、又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(portable compact disc read-only memory、CD-ROM)、光学記憶デバイス、磁気記憶デバイス、又は前述のものの任意の好適な組み合わせが挙げられる。現在の文脈では、コンピュータ可読記憶媒体は、プログラムを含むか、又は記憶することができる任意の有形媒体であり得る。
図中のフローチャート及びブロック図は、様々な態様によるシステム、方法、及びコンピュータプログラム製品について想定される実装のアーキテクチャ、機能、並びに動作を例解する。これに関して、フローチャート又はブロック図の各ブロックは、指定された論理機能を実装するための1つ以上の実行可能命令を含む、命令のモジュール、セグメント、又は部分に相当し得る。いくつかの代替的な実装形態では、ブロックで説明されている機能は、図に記載された順序から生じ得る。例えば、連続して示される2つのブロックは、実際には実質的に同時に実行され得るか、又は、場合によっては、ブロックは、関与する機能に依存して、逆の順序で実行され得る。ブロック図、及び/又はフローチャート例解図の各ブロック、並びに、ブロック図、及び/又はフローチャート例解図におけるブロックの組み合わせは、特定機能を実施するか、又は専用ハードウェアとコンピュータ命令との組み合わせを動作させる専用ハードウェアベースのシステムで実装することができることにも留意されたい。

Claims (51)

  1. ウェアラブルデバイスのユーザにフィードバックを提供するための方法であって、
    前記ウェアラブルデバイス上の2つ以上のマイクロフォンを使用して周囲音を測定することと、
    測定された前記周囲音に基づいて事象を判定することと、
    前記ウェアラブルデバイスに対する前記事象の位置属性を判定することと、
    前記事象及び前記位置属性に基づいて前記ユーザにフィードバックを提供することと、を含む、方法。
  2. 前記事象及び前記位置属性に基づいて前記ユーザにフィードバックを提供することが、前記周囲音を消去するオーディオコンテンツに加えて、空間化されたオーディオキューを再生することを含む、請求項1に記載の方法。
  3. 測定された前記周囲音に基づいて前記事象を判定することが、
    前記事象の音レベルの大きさを測定することと、
    前記事象と関連付けられたオーディオ信号を使用して前記ウェアラブルデバイスに対する前記事象の位置を判定することと、を含み、前記事象の前記位置が、前記オーディオ信号から処理された方向及び距離に基づいて判定され、前記事象の前記位置属性が、前記方向又は前記距離のうちの少なくとも1つを含む、請求項1に記載の方法。
  4. 前記周囲音に基づいて前記事象を判定することが、
    前記ウェアラブルデバイスに対する前記事象の前記位置、
    前記事象と関連付けられた前記オーディオ信号における繰り返しパターン、又は
    前記事象と関連付けられた前記オーディオ信号の属性のうちの少なくとも1つに基づく事象のインシデントを除外することを更に含む、請求項3に記載の方法。
  5. 測定された前記周囲音に基づいて前記事象を判定することは、
    前記事象の前記音レベルの前記大きさが前記ウェアラブルデバイスに対する前記事象の前記位置に対応する閾値を超えていると判定することを含む、請求項3に記載の方法。
  6. 前記閾値が、前記ウェアラブルデバイスに対する前記事象の前記位置に基づいて変動し、前記閾値は、前記事象の前記位置が前記ユーザに近づくにつれて増加する、請求項5に記載の方法。
  7. 前記周囲音に基づいて前記事象を判定することが、i)前記ウェアラブルデバイスに対する前記事象の前記位置、ii)前記事象と関連付けられた前記オーディオ信号における前記繰り返しパターン、及びiii)前記事象と関連付けられた前記オーディオ信号の前記属性を相関させることに少なくとも部分的に基づく、請求項4に記載の方法。
  8. 前記事象を判定することが、前記ウェアラブルデバイスに対する前記事象の前記位置、前記事象と関連付けられた前記オーディオ信号における前記繰り返しパターン、及び前記事象と関連付けられた前記オーディオ信号の前記属性のデータを使用して人工知能によって実施された深層学習分析に少なくとも部分的に基づく、請求項7に記載の方法。
  9. 前記事象に基づいて前記ユーザにフィードバックを提供することが、
    前記ウェアラブルデバイスの少なくとも1つのスピーカを使用して、空間化された音を再生すること、
    前記ウェアラブルデバイスを使用して方向指示触覚通知を提供すること、又は
    前記ウェアラブルデバイスに接続された1つ以上のデバイス上に通知を表示することのうちの1つ以上を含む、請求項1に記載の方法。
  10. 前記空間化された音が、前記ユーザに対する判定された前記事象の位置を表し、前記表された位置が、少なくとも前記位置属性に基づく、請求項9に記載の方法。
  11. 前記ウェアラブルデバイスによって測定された運動信号のパターンに基づいて、前記ユーザが集中状態にあると判定することを更に含み、前記事象及び前記位置属性に基づいて前記ユーザにフィードバックを提供することが、判定された前記集中状態に基づく、請求項1に記載の方法。
  12. 前記ユーザが前記集中状態にあると判定することが、前記ウェアラブルデバイス上に配置された1つ以上の慣性計測ユニット(IMU)によって測定された前記運動信号のパターンを処理することを含む、請求項11に記載の方法。
  13. 前記ウェアラブルデバイス上の前記2つ以上のマイクロフォンが、前記ユーザを取り囲む前記周囲音を測定するように位置決めされた少なくとも3つのマイクロフォンを含む、請求項1に記載の方法。
  14. 前記ウェアラブルデバイスが、前記ユーザの頭部又は頸部のうちの少なくとも1つの上に着用されるオーディオデバイスである、請求項1に記載の方法。
  15. 前記ウェアラブルデバイスが、オーバーイヤーヘッドフォン、オンイヤーヘッドフォン、インイヤーヘッドフォン、イヤフォン、完全無線イヤフォン、眼鏡、ヘッドバンド、ネックバンド、イヤーフック、イヤークリップ、頭部着用オーディオデバイス、又は頸部着用オーディオデバイスのうちの少なくとも1つを含む、請求項1に記載の方法。
  16. 前記ウェアラブルデバイスが、雑音消去オーディオデバイスである、請求項1に記載の方法。
  17. システムであって、
    周囲音を測定するように構成された2つ以上のマイクロフォンを有するウェアラブルデバイスと、
    前記ウェアラブルデバイスと接続されたコンピューティングデバイスと、を備え、前記コンピューティングデバイスが、
    測定された前記周囲音に基づいて事象を判定し、
    前記ウェアラブルデバイスに対する前記事象の位置属性を判定し、かつ
    前記事象及び前記位置属性に基づいてフィードバックがユーザに提供されるように構成されている、システム。
  18. 前記ウェアラブルデバイスが、2つ以上のスピーカを更に備え、前記2つ以上のスピーカが、
    測定された前記周囲音を消去するオーディオコンテンツを再生し、かつ
    前記オーディオコンテンツに加えて、空間化されたオーディオキューを再生することによって、判定された前記事象を前記ユーザに警告するように構成されている、請求項17に記載のシステム。
  19. 前記ウェアラブルデバイスは、前記コンピューティングデバイスが前記事象に基づいて前記ユーザにフィードバックを提供することに応答して、触覚フィードバックを提供するためのアクチュエータを更に備える、請求項17に記載のシステム。
  20. 前記コンピューティングが、
    前記ウェアラブルデバイスに対する前記事象の前記位置、
    前記事象と関連付けられたオーディオ信号における繰り返しパターン、又は
    前記事象と関連付けられた前記オーディオ信号の属性のうちの少なくとも1つに基づく事象のインシデントを除外するように更に構成されている、請求項17に記載のシステム。
  21. ユーザにフィードバックを提供するためのコンピュータ実装方法であって、
    ウェアラブルデバイスの2つ以上のマイクロフォンを使用して測定される周囲音測定値を受信することと、
    測定された前記周囲音に基づいて、事象を判定することと、
    前記ウェアラブルデバイスに対する前記事象の位置属性を判定することと、
    前記事象及び前記位置属性に基づいてフィードバックが前記ユーザに提供されることと、を含む、コンピュータ実装方法。
  22. 前記フィードバックが、前記周囲音を消去するオーディオコンテンツに加えて、空間化されたオーディオキューを再生することを含む、請求項21に記載のコンピュータ実装方法。
  23. 測定された前記周囲音に基づいて前記事象を判定することが、
    前記事象の音レベルの大きさを測定することと、
    前記事象と関連付けられたオーディオ信号を使用して前記ウェアラブルデバイスに対する前記事象の位置を判定することと、を含み、前記事象の前記位置が、前記オーディオ信号から処理された方向及び距離に基づいて判定され、前記事象の前記位置属性が、前記方向又は前記距離のうちの少なくとも1つを含む、請求項21に記載のコンピュータ実装方法。
  24. 前記周囲音に基づいて前記事象を判定することが、
    前記ウェアラブルデバイスに対する前記事象の前記位置、
    前記事象と関連付けられた前記オーディオ信号における繰り返しパターン、又は
    前記事象と関連付けられた前記オーディオ信号の属性のうちの少なくとも1つに基づく事象のインシデントを除外することを更に含む、請求項23に記載のコンピュータ実装方法。
  25. 測定された前記周囲音に基づいて前記事象を判定することは、
    前記事象の前記音レベルの前記大きさが前記ウェアラブルデバイスに対する前記事象の前記位置に対応する閾値を超えていると判定することを含む、請求項23に記載のコンピュータ実装方法。
  26. 前記閾値が、前記ウェアラブルデバイスに対する前記事象の前記位置に基づいて変動し、前記閾値は、前記事象の前記位置が前記ユーザに近づくにつれて増加する、請求項25に記載の方法。
  27. ウェアラブルデバイスのユーザにフィードバックを提供するための方法であって、
    前記ウェアラブルデバイス上の2つ以上のマイクロフォンを使用して周囲音を測定することと、
    2つ以上の異なる状況基準に対応する2つ以上の異なる構成事象において変動する閾値を超える測定された前記周囲音に基づいて事象を判定することと、
    判定された前記事象に基づいて前記ユーザにフィードバックを提供することと、を含む、方法。
  28. 前記2つ以上の異なる状況基準の各々が、
    判定された前記事象と関連付けられた前記閾値、
    前記ウェアラブルデバイスに対する前記事象の位置属性、又は
    判定された前記事象に基づく前記ユーザへの前記フィードバックのうちの少なくとも1つに関するカスタマイズ構成を含む、請求項27に記載の方法。
  29. 前記カスタマイズ構成が、前記ユーザによって入力される、請求項28に記載の方法。
  30. 前記カスタマイズ構成と、前記ウェアラブルデバイスに対する判定された前記事象の前記位置属性とを関連付けることと、
    前記ユーザによる前記入力及び前記関連付けに基づいて、前記位置属性に基づく構成の一般規則を判定するためのパターンを識別することと、を更に含む、請求項29に記載の方法。
  31. 前記カスタマイズ構成が、デフォルト工場構成を含む、請求項28に記載の方法。
  32. 前記2つ以上の異なる状況基準の各々が、前記ウェアラブルデバイスに対する位置属性を含み、前記周囲音に基づいて判定された前記位置属性が、前記ウェアラブルデバイスの前記2つ以上のマイクロフォンを使用して測定される、請求項27に記載の方法。
  33. 前記閾値が、前記2つ以上の異なる状況基準のうちの1つに対応する最小又は最大距離を含む、請求項32に記載の方法。
  34. 前記閾値が、前記2つ以上の異なる状況基準のうちの1つに対応する方向を含む、請求項32に記載の方法。
  35. 前記2つ以上の異なる状況基準の各々が、前記ウェアラブルデバイスの物理的位置に対応する、請求項32に記載の方法。
  36. 前記2つ以上の異なる状況基準の各々が、発話、背景音、又は音楽シーケンスのうちの少なくとも1つを含む音クラスを含む、請求項27に記載の方法。
  37. 前記背景音が、警報、足音、交通雑音、又は音のパターンを含む、請求項36に記載の方法。
  38. 前記閾値が、前記2つ以上の異なる状況基準のうちの1つに対応する最小音レベルを含む、請求項37に記載の方法。
  39. 前記閾値が、前記2つ以上の異なる状況基準のうちの前記1つの感度に対応する、請求項37に記載の方法。
  40. 前記フィードバックを提供することが、前記ユーザに対して前記周囲音の記録されたコピーを再生することを含む、請求項27に記載の方法。
  41. 前記記録されたコピーを再生することが、前記ウェアラブルデバイス内のフィードバックマイクロフォンによって収集されたデータに基づいて、前記周囲音の前記記録されたコピーを増幅又は減衰させることを含む、請求項40に記載の方法。
  42. 前記周囲音の前記記録されたコピーを増幅又は減衰させることが、前記ウェアラブルデバイスの移動によって起動される、請求項41に記載の方法。
  43. 前記記録されたコピーを再生することが、前記ウェアラブルデバイスの前記移動に基づいて、前記記録されたコピーを再生することを遅延させることを含む、請求項42に記載の方法。
  44. ある期間にわたって、前記周囲音と前記位置属性とを相関させることと、
    異なる位置で前記期間にわたる前記周囲音の変動をマッピングする顕著性マップを生成することと、
    前記期間にわたる前記ウェアラブルデバイスの移動記録を測定することと、
    前記移動記録と前記顕著性マップとの間の関係に基づいて前記ユーザの応答を判定することと、を更に含む、請求項28に記載の方法。
  45. 前記事象を判定することが、
    測定された前記周囲音を、処理するために第2のデバイスに送信することと、
    前記第2のデバイスから、判定された前記事象及び前記ユーザに提供するための前記対応するフィードバックを受信することと、を更に含み、前記第2のデバイスが、前記ウェアラブルデバイスよりも大きい処理能力を有する、請求項27に記載の方法。
  46. システムであって、
    周囲音を測定するように構成された2つ以上のマイクロフォンを有するウェアラブルデバイスと、
    前記ウェアラブルデバイスと接続されたコンピューティングデバイスと、を備え、前記コンピューティングデバイスが、
    前記ウェアラブルデバイスから、測定された前記周囲音を受信し、
    2つ以上の異なる状況基準に対応する2つ以上の異なる構成事象において変動する閾値を超える前記周囲音に基づいて事象を判定し、かつ
    前記事象に基づいてフィードバックがユーザに提供されるように構成されている、システム。
  47. 前記ウェアラブルデバイスが、
    前記閾値を超える前記周囲音に基づいて事象を局所的に判定するための時間要件を評価し、かつ
    前記時間要件が待機期間を超えたとき、測定された前記周囲音を判定のために前記ウェアラブルデバイスに送信するように構成されている、請求項46に記載のシステム。
  48. 前記2つ以上の異なる状況基準の各々が、
    判定された前記事象と関連付けられた前記閾値、
    前記ウェアラブルデバイスに対する前記事象の位置属性、又は
    判定された前記事象に基づく前記ユーザへの前記フィードバックのうちの少なくとも1つに関するカスタマイズ構成を含む、請求項46に記載のシステム。
  49. 前記コンピューティングデバイスが、前記ユーザから前記カスタマイズ構成を受信するように更に構成されており、前記ユーザが、前記コンピューティングデバイスのグラフィカルインターフェース上で前記カスタマイズ構成を入力する、請求項48に記載のシステム。
  50. 前記ウェアラブルデバイスが、雑音消去オーディオデバイスを含み、前記コンピューティングデバイスが、スマートフォンを含む、請求項49に記載のシステム。
  51. 命令を記憶する非一時的コンピュータ可読媒体であって、前記命令が、ウェアラブルデバイスによって実行されたとき、前記ウェアラブルデバイスに、
    前記ウェアラブルデバイス上の2つ以上のマイクロフォンを使用して周囲音を測定し、
    2つ以上の異なる状況基準に対応する2つ以上の異なる構成事象において変動する閾値を超える測定された前記周囲音に基づいて事象を判定し、かつ
    判定された前記事象に基づいてユーザにフィードバックを提供することを行わせる、非一時的コンピュータ可読媒体。
JP2023518509A 2020-09-22 2021-09-03 定位されたフィードバックによる聴力増強及びウェアラブルシステム Pending JP2023542968A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/027,919 2020-09-22
US17/027,919 US11467666B2 (en) 2020-09-22 2020-09-22 Hearing augmentation and wearable system with localized feedback
PCT/US2021/049008 WO2022066393A1 (en) 2020-09-22 2021-09-03 Hearing augmentation and wearable system with localized feedback

Publications (1)

Publication Number Publication Date
JP2023542968A true JP2023542968A (ja) 2023-10-12

Family

ID=78078372

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023518509A Pending JP2023542968A (ja) 2020-09-22 2021-09-03 定位されたフィードバックによる聴力増強及びウェアラブルシステム

Country Status (5)

Country Link
US (1) US11467666B2 (ja)
EP (1) EP4218263A1 (ja)
JP (1) JP2023542968A (ja)
CN (1) CN116324969A (ja)
WO (1) WO2022066393A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11343612B2 (en) * 2020-10-14 2022-05-24 Google Llc Activity detection on devices with multi-modal sensing
KR20220054504A (ko) * 2020-10-23 2022-05-03 현대자동차주식회사 차량 및 그 제어방법
US11729573B2 (en) * 2021-05-18 2023-08-15 Snap Inc. Audio enhanced augmented reality
USD1024121S1 (en) * 2021-11-16 2024-04-23 Huawei Technologies Co., Ltd. Display screen or portion thereof with transitional graphical user interface
US20230396936A1 (en) * 2022-06-02 2023-12-07 Gn Hearing A/S Hearing device with own-voice detection

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6966837B1 (en) * 2001-05-10 2005-11-22 Best Robert M Linked portable and video game systems
TW200723081A (en) * 2005-12-13 2007-06-16 Universal Scient Ind Co Ltd Circular multimedia playback progress indicator and method of indicating signals thereof
SG133437A1 (en) * 2005-12-21 2007-07-30 Creative Tech Ltd An interface for enhanced movement of objects in a display
US8632409B2 (en) * 2010-05-11 2014-01-21 Bungie, Llc Method and apparatus for online rendering of game files
US9443415B2 (en) * 2013-02-06 2016-09-13 Michael Nepo Disseminating information to facilitate user safety
US20160132046A1 (en) * 2013-03-15 2016-05-12 Fisher-Rosemount Systems, Inc. Method and apparatus for controlling a process plant with wearable mobile control devices
US10262462B2 (en) * 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
US9663031B2 (en) * 2013-10-21 2017-05-30 Harman International Industries, Inc. Modifying an audio panorama to indicate the presence of danger or other events of interest
US9469247B2 (en) * 2013-11-21 2016-10-18 Harman International Industries, Incorporated Using external sounds to alert vehicle occupants of external events and mask in-car conversations
US10425717B2 (en) * 2014-02-06 2019-09-24 Sr Homedics, Llc Awareness intelligence headphone
US9998847B2 (en) * 2016-11-17 2018-06-12 Glen A. Norris Localizing binaural sound to objects
US10679602B2 (en) * 2018-10-26 2020-06-09 Facebook Technologies, Llc Adaptive ANC based on environmental triggers

Also Published As

Publication number Publication date
EP4218263A1 (en) 2023-08-02
US20220091674A1 (en) 2022-03-24
CN116324969A (zh) 2023-06-23
US11467666B2 (en) 2022-10-11
WO2022066393A1 (en) 2022-03-31

Similar Documents

Publication Publication Date Title
US11089402B2 (en) Conversation assistance audio device control
US10817251B2 (en) Dynamic capability demonstration in wearable audio device
US11467666B2 (en) Hearing augmentation and wearable system with localized feedback
US20220140798A1 (en) Compensation for ambient sound signals to facilitate adjustment of an audio volume
US10425717B2 (en) Awareness intelligence headphone
US9271077B2 (en) Method and system for directional enhancement of sound using small microphone arrays
US10224019B2 (en) Wearable audio device
US11948561B2 (en) Automatic speech recognition imposter rejection on a headphone with an accelerometer
US10922044B2 (en) Wearable audio device capability demonstration
CN113905320B (zh) 为考虑语音检测而调节声音回放的方法和系统
EP3695618B1 (en) Augmented environmental awareness system
US11895474B2 (en) Activity detection on devices with multi-modal sensing
CN113228710A (zh) 听力装置中的声源分离及相关方法
US20230229383A1 (en) Hearing augmentation and wearable system with localized feedback
US10623845B1 (en) Acoustic gesture detection for control of a hearable device
WO2022254834A1 (ja) 信号処理装置、信号処理方法およびプログラム
US20230035531A1 (en) Audio event data processing
US11782673B2 (en) Controlling audio output
US20230099275A1 (en) Method and system for context-dependent automatic volume compensation
TW202314684A (zh) 對來自多個麥克風的音訊信號的處理
EP4378175A1 (en) Audio event data processing
CN117499837A (zh) 音频处理方法、装置以及音频播放设备
CN118020314A (zh) 音频事件数据处理
CN118020313A (zh) 处理来自多个麦克风的音频信号

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230404