JP6812604B2

JP6812604B2 - オーディオアクティビティ追跡および要約

Info

Publication number: JP6812604B2
Application number: JP2020520512A
Authority: JP
Inventors: ジャービス、マーレイ; タルウフ、ベンジャミン; グラウベ、ニコラス; ウッステンハルメ、クラーク・ドン; フィンチ、シモン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2017-10-12
Filing date: 2018-10-12
Publication date: 2021-01-13
Anticipated expiration: 2038-10-12
Also published as: CN111194465A; KR20200062229A; US20190115045A1; KR102229039B1; EP3695404A1; EP3695404C0; JP2020537180A; EP3695404B1; CN111194465B; TWI779113B; BR112020006904A2; WO2019075423A1; TW201923758A; US10614831B2; SG11202001986RA

Description

[0001] 本出願は、その内容全体が参照により本明細書に組み込まれる、２０１７年１０月１２日に出願された米国特許出願第１５／７８２，２８７号の利益を主張する。

[0002] 本開示は、一般にオーディオ処理およびユーザインターフェースに関する。

[0003] 技術の進歩は、より多くの消費者によってその身体的アクティビティ（physical activity）を追跡する(track)ために使用されるようになっているフィットネスバンド（fitness band）またはアクティビティ追跡器（activity tracker）（たとえば、フィットビットデバイス（fitbit device）またはウェアラブルウォッチ（wearable watch））をもたらした。これらのフィットネスおよびアクティビティ追跡器は、典型的には装着され、人の心拍を測定するかまたは移動を測定するためのセンサーを含み、ウェアラブルデバイス（wearable device）内のトランシーバに結合される。多くの場合、ウェアラブルデバイスは、フィットネスまたはアクティビティ（たとえば、歩行、燃焼カロリー、または起立時間量）を、Ｂｌｕｅｔｏｏｔｈ（登録商標）ワイヤレス通信を通してスマートフォンまたは他のモバイルデバイスにワイヤレス送信する。

[0004] 過去２、３年において、「ヒアラブル（hearable）」という用語が、ウェアラブルデバイスおよびヘッドフォンの使用を記述するために使用されている。ヒアラブルはまた、音を再生するためのラウドスピーカー（loudspeaker）と、音声コマンドをキャプチャするかまたは電話で話すためのマイクロフォン（microphone）とを含む。ヒアラブルは、心拍数、温度、酸素飽和度（oxygen saturation）、または歩調（cadence）を追跡するためのセンサーを含み得る。加えて、ヒアラブルは、スマートフォンまたはモバイルデバイスと通信するためのＢｌｕｅｔｏｏｔｈ集積回路を含み得る。いくつかのヒアラブルは、ユーザが電話にワイヤレスペアリングしないで通話を行うことを可能にするＷｉ−Ｆｉ（登録商標）およびセルラー接続性が可能である。また、音声認識の進歩は、機械学習の進歩とともに高まっており、ヒアラブル中に含まれ得る追加の技術である。

[0005] ヒアラブルの技術が進歩し続けるにつれて、新しい課題および機会が発生し得る。

[0006] 様々な実施形態は、オーディオ信号(audio signal)を受信したことに基づいてオーディオイベント(audio event)を決定するための１つまたは複数のプロセッサ(processor)を含む、デバイス(device)のための方法を含む。１つまたは複数のプロセッサは、決定されたオーディオイベント(determined audio event)に基づいてオーディオアクティビティ(audio activity)を追跡し、要約モード(summary mode)に基づいて、追跡されたオーディオアクティビティ(tracked audio activity)を要約する（summarize）。その上、１つまたは複数のプロセッサは、フィードバックモード(feedback mode)に基づいて、要約された追跡されたオーディオアクティビティ(summarized tracked audio activity)のフィードバック（feedback）を提供する（provide）。加えて、１つまたは複数のプロセッサは、フィードバックモードを選択し、視覚フィードバックモード（visual feedback mode）に基づいて、要約された追跡されたオーディオアクティビティを表示し得る。同じまたは代替的実施形態では、要約された追跡されたオーディオアクティビティは、選択されたフィードバックモードが可聴フィードバックモード（audible feedback mode）であるとき、可聴（audible）であり得る。

[0007] オーディオ信号を受信したことに基づいてオーディオイベントを決定する方法を含む様々な実施形態がある。本方法は、決定されたオーディオイベントに基づいてアクティビティ（activity）を追跡することを含み、要約モードに基づいて、追跡されたオーディオアクティビティを要約する。その上、本方法は、フィードバックモードに基づいて、要約された追跡されたオーディオアクティビティのフィードバックを提供することを含む。加えて、一実施形態では、本方法は、フィードバックモードを選択することと、視覚フィードバックモードに基づいて、要約された追跡されたオーディオアクティビティを表示することとを含む。同じまたは代替的実施形態では、本方法は、追跡されたオーディオアクティビティを要約することを含み、選択されたフィードバックモードが可聴フィードバックモードであるとき、可聴であり得る。

[0008] オーディオ信号を受信したことに基づいてオーディオイベントを決定するための手段と、決定されたオーディオイベントに基づいてオーディオアクティビティを追跡するための手段とを含む装置を含む様々な実施形態がある。その上、本装置は、要約モードに基づいて、追跡されたオーディオアクティビティを要約するための手段と、フィードバックモードに基づいて、要約された追跡されたオーディオアクティビティのフィードバックを提供する手段とを含む。

[0009] 実行されたとき、デバイスの１つまたは複数のプロセッサに、オーディオ信号を受信したことに基づいてオーディオイベントを決定することと、オーディオ信号を受信したことに基づいてオーディオイベントを決定することとを行わせる命令（instruction）を記憶した非一時的コンピュータ可読記憶媒体（non-transitory computer-readable storage medium）を含む様々な実施形態がある。命令はまた、実行されたとき、１つまたは複数のプロセッサに、決定されたオーディオイベントに基づいてオーディオアクティビティを追跡することと、要約モードに基づいて、追跡されたオーディオアクティビティを要約することと、フィードバックモードに基づいて、要約された追跡されたオーディオアクティビティのフィードバックを提供することとを行わせる。

[0010] 本明細書に組み込まれ、本明細書の一部をなす添付の図面は、特許請求の範囲の例示的な実施形態を示し、上記で与えられた概略的な説明および以下で与えられる詳細な説明とともに、特許請求の範囲の特徴について説明するように働く。

[0011] 本明細書で開示される様々な実施形態を実装するのに好適なデバイスの一例を示す構成要素ブロック図。 [0012] オーディオアクティビティユニット（audio activity unit）とオーディオアクティビティフィードバック提供器（audio activity feedback provider）とを含むブロック図。 [0013] オーディオイベント決定器（audio event determinator）の複数の実施形態を示す図。 [0014] オーディオアクティビティ追跡器（audio activity tracker）の例示的な一実装形態を示す図。 [0015] 追跡されたアクティビティ要約器（tracked activity summarizer）の例示的な実施形態を示す図。 [0016] パケット（packet）の一部であり得る様々なフィールド（field）を示す図。 [0017] 個人識別（personal identification）の様々なタイプ（type）を示す図。 [0018] オーディオイベントをバッチ処理する（batch process）ための一実施形態を示す図。 [0019] ディスプレイ（display）上の日々のオーディオアクティビティの要約（summary）の例示的なビュー（view）を示す図。 [0020] ディスプレイ上の要約された追跡されたオーディオアクティビティに関連付けられた感情（emotion）へのリンク（link）の別の例示的なビューを示す図。 [0021] 例示的な使用事例を示す図。

[0022] 様々な実施形態について、添付図面を参照しながら詳細に説明される。可能な場合はいつでも、同じまたは同様の部分を指すために図面全体にわたって同じ参照番号が使用される。特定の例および実装形態になされる言及は、説明のためであり、特許請求の範囲を限定するものではない。

[0023] 本開示の特定の実装形態について、図面を参照しながら以下で説明される。説明では、共通の特徴は、図面全体にわたって共通の参照番号によって指定される。本明細書で使用される様々な用語は、特定の実装形態について説明するために使用されるにすぎず、限定するものではない。たとえば、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈が別段に明確に示さない限り、複数形を同様に含むものとする。さらに、「備える（comprise）」、「備える（comprises）」、および「備える（comprising）」という用語は、「含む（include）」、「含む（includes）」、または「含む（including）」と互換的に使用され得ることが理解されよう。さらに、「ここにおいて（wherein）」という用語は、「ここで（where）」と互換的に使用され得ることが理解されよう。本明細書で使用される「例示的」は、例、実装形態、および／または態様を示すことがあり、限定的として、または選好もしくは好適な実装形態を示すものとして解釈されるべきでない。本明細書で使用される、構造、構成要素、動作などの要素を修飾するために使用される序数語（たとえば、「第１の」、「第２の」、「第３の」など）は、別の要素に対するその要素の優先順位または順序をそれ自体によって示さず、（序数語の使用を別にすれば）むしろ同じ名前を有する別の要素からその要素を区別するにすぎない。本明細書で使用される「セット」という用語は、１つまたは複数の要素のグループ化を指し、「複数」という用語は、複数の要素を指す。

[0024] 本明細書で使用される「結合される（coupled）」は、「通信可能に結合される」、「電気的に結合される」、または「物理的に結合される」を含み得、また（あるいは代替的に）、それらの任意の組合せを含み得る。２つのデバイス（または構成要素）は、１つまたは複数の他のデバイス、構成要素、ワイヤ、バス、ネットワーク（たとえば、ワイヤードネットワーク、ワイヤレスネットワーク、またはそれらの組合せ）などを介して、直接または間接的に結合（たとえば、通信可能に結合、電気的に結合、または物理的に結合）され得る。電気的に結合された２つのデバイス（または構成要素）は、同じデバイス中にまたは異なるデバイス中に含まれ得、例示的で非限定的な例として、電子回路、１つまたは複数のコネクタ、あるいは誘導結合を介して接続され得る。いくつかの実装形態では、電気通信しているなど、通信可能に結合された２つのデバイス（または構成要素）は、１つまたは複数のワイヤ、バス、ネットワークなどを介して、直接または間接的に電気信号（デジタル信号またはアナログ信号）を送信および受信し得る。本明細書で使用される「直接結合される（directly coupled）」は、介在する構成要素なしに結合（たとえば、通信可能に結合、電気的に結合、または、物理的に結合）された２つのデバイスを含み得る。

[0025] 本明細書で使用される「一体化される（integrated）」は、「とともに製造または販売される」を含み得る。ユーザが、パッケージの一部としてデバイスをバンドルするかまたは含むパッケージを買う場合、デバイスは一体化され得る。いくつかの説明では、２つのデバイスが結合されるが、必ずしも一体化されるとは限らないことがある（たとえば、異なる周辺デバイスはデバイスに一体化されないことがあるが、それでも「結合され」得る）。別の例は、プロセッサに「結合され」得るが、必ずしもデバイスを含むパッケージの一部であるとは限らない、本明細書で説明されるトランシーバまたはアンテナのいずれかであり得る。他の例は、「一体化される」という用語を使用しているとき、本段落を含めて、本明細書で開示される文脈から推論され得る。

[0026] 本明細書で使用される「提供する（provide）」は、「送る（sending）」を含むことがあり、たとえば、１つまたは複数のプロセッサが別の構成要素に１つまたは複数の出力信号を提供し得、等価的に、１つまたは複数のプロセッサが別の構成要素に１つまたは複数の出力信号を送り得ることを意味し得る。

[0027] 本明細書で使用されるデバイス間の「ワイヤレス接続」は、Ｂｌｕｅｔｏｏｔｈ、ワイヤレスフィデリティ（Ｗｉ−Ｆｉ）またはＷｉ−Ｆｉの変形態（たとえば、Ｗｉ−Ｆｉダイレクトなど、様々なワイヤレス技術に基づき得る。デバイスは、ロングタームエボリューション（ＬＴＥ（登録商標））システム、符号分割多元接続（ＣＤＭＡ）システム、モバイル通信用グローバルシステム（ＧＳＭ（登録商標））システム、ワイヤレスローカルエリアネットワーク（ＷＬＡＮ）システム、または何らかの他のワイヤレスシステムなど、様々なセルラー通信システムに基づいて「ワイヤレス接続され」得る。ＣＤＭＡシステムは、広帯域ＣＤＭＡ（ＷＣＤＭＡ（登録商標））、ＣＤＭＡ１Ｘ、エボリューションデータオプティマイズド（ＥＶＤＯ）、時分割同期ＣＤＭＡ（ＴＤ−ＳＣＤＭＡ）、またはＣＤＭＡの何らかの他のバージョンを実装し得る。加えて、２つのデバイスが見通し線内にあるとき、「ワイヤレス接続」は、超音波、赤外線、パルス無線周波数電磁エネルギー、構造光（structured light）、または信号処理（たとえば、オーディオ信号処理または無線周波数処理）において使用される到来の方向性など、他のワイヤレス技術にも基づき得る。

[0028] 「コンピューティングデバイス」という用語は、本明細書では、サーバ、パーソナルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルデバイス、セルラー電話、スマートブック、ウルトラブック、パームトップコンピュータ、個人情報端末（ＰＤＡ）、ワイヤレス電子メール受信機、マルチメディアインターネット対応セルラー電話、全地球測位システム（ＧＰＳ）受信機、ワイヤレスゲームコントローラ、ならびに情報をワイヤレス送信および／または受信するためのプログラマブルプロセッサおよび回路を含む同様の電子デバイスのうちのいずれか１つまたはすべてを指すように概して使用される。

[0029] 「オーディオ信号（audio signal）」という用語は、１つまたは複数のマイクロフォンが、その１つまたは複数のマイクロフォンに当たる音波をキャプチャまたは記録した後の様々な段（stage）において互換的に使用され得る。加えて、オーディオ信号という用語は、別のデバイス（another device）からパケットを受信する様々な段においても互換的に使用され得る。

[0030] 「モバイルデバイス」、「接続されたデバイス」、「ワイヤレスデバイス」、および「ワイヤレスノード」という用語は、本明細書では、セルラー電話、パーソナルまたはモバイルマルチメディアプレーヤ、ウォッチ、リストディスプレイ、医療デバイス、ヘッドセット、ヘッドフォン、スピーカー、マイクロフォン、コンピューティングデバイス、および他の同様の電子回路のうちのいずれか１つまたはすべてを含む、情報をワイヤレス送信および／または受信するための回路を含む任意の電子デバイスを指すように互換的に使用される。

[0031] 本明細書で使用されるＡ「および／または」Ｂは、「ＡおよびＢ」または「ＡまたはＢ」のいずれか、あるいは「ＡおよびＢ」と「ＡまたはＢ」の両方が適用可能または許容可能であることを意味し得る。

[0032] 図１は、デバイス１００の例示的な構成要素を示すブロック図である。デバイス１００は、ヒアラブルデバイス（hearable device）であり得るか、あるいは必ずしも人の耳の中またはその周りにスピーカーを含むとは限らない別のデバイスであり得る。たとえば、別のデバイスは、マイクロフォンを含むホームスピーカー、またはスマートウォッチであり得る。デバイス１００は、本明細書で開示される実施形態のいくつかを同じく組み込む、１つまたは複数のセンサー、１つまたは複数のカメラ、および／あるいはディスプレイデバイス（display device）などの例示的な構成要素をも含み得る。

[0033] 特定の実装形態では、デバイス１００は、メモリ（memory）１２６に結合された、中央処理ユニット（ＣＰＵ）、またはデジタルプロセッサ（ＤＳＰ）、またはグラフィックス処理ユニット（ＧＰＵ）を含むプロセッサ１２８を含む。メモリ１２６は、コンピュータ可読命令またはプロセッサ可読命令などの命令１３０（たとえば、実行可能命令）を含む。命令１３０は、プロセッサ１２８などのコンピュータによって実行可能な１つまたは複数の命令を含み得る。

[0034] 図１はまた、プロセッサ１２８に結合され、デバイス１００中の１つまたは複数の構成要素に結合された１つまたは複数のコントローラ１２０を示している。たとえば、１つまたは複数のコントローラ１２０は、様々な周辺デバイス（たとえば、ディスプレイデバイス１１０、センサー１０８、カメラ１０６、およびマイクロフォン１０２）に結合され得る。本明細書で説明されるように、ディスプレイデバイス１１０は、デバイス１００と一体化されないか、または、本説明に関連する実装形態では、本明細書で開示されるデバイス１００と一体化されなくてよい。

[0035] オーディオ／スピーチ（audio/speech）コーダ／デコーダ（coder/decoder）（コーデック（(CODEC））１１４も、プロセッサ１２８およびメモリ１２６に結合され得る。マイクロフォン１０２がオーディオ／スピーチコーデックに結合され得る。オーディオ／スピーチコーデック出力は、オーディオ／スピーチバッファ１３６であり得、マイクロフォン１０２によってキャプチャされたオーディオおよび／またはスピーチのサンプルを記憶し得る。サンプルはオーディオ波形（audio waveform）の一部であり得る。当業者は、オーディオ／スピーチサンプルをオーディオサンプルまたは音声サンプルのいずれかあるいは両方として指し得る。音声の時間周波数中にあるオーディオサンプルはスピーチサンプルと呼ばれることがある。ビデオコーダ／デコーダ（コーデック）（図示されず）もプロセッサ１２８およびメモリ１２６に結合され得る。カメラ１０６がビデオコーデックに結合され得る。ビデオコーデック出力は、ピクセルバッファ１３１であり得、カメラ１０６によってキャプチャされたビデオのピクセルを記憶し得る。カメラ１０６によってキャプチャされるビデオのピクセルは、デバイス１００の近くの環境（environment）またはシーン（scene）の画像または画像の一部分を含み得る。代替または追加として、カメラ１０６によってキャプチャされるビデオのピクセルは、ユーザの画像または画像の一部分を含み得る。１つまたは複数のセンサー１０８がプロセッサ１２８およびメモリ１２６に結合され得る。センサー１０８の出力（output）は、センサーバッファ１３２であり得、センサー１０８によってキャプチャされた本明細書で説明されるロケーションデータのサンプルを記憶し得る。

[0036] デバイス１００はトランシーバ１２２を含み得、トランシーバ１２２は、アンテナ１１２およびトランシーバ１２２を介して受信されたワイヤレスデータがプロセッサ１２８に提供され得るように、プロセッサ１２８に結合され、アンテナ１１２に結合され得る。デバイス１００は、通信プロトコルを実装するネットワークインターフェース１２４をも含み得る。デバイス１００のいくつかの実装形態では、ネットワークインターフェース１２４は、プロセッサ１２８中に直接一体化され得る。いくつかの実装形態では、プロセッサ１２８と、コントローラ１２０と、メモリ１２６と、トランシーバ１２２とは、システムインパッケージまたはシステムオンチップデバイス中に含まれ得る。いくつかの実装形態では、様々な周辺機器がデバイス１００中に一体化され得る。

[0037] その上、特定の実装形態では、図１に示されているように、ディスプレイデバイス１１０、センサー１０８、カメラ１０６、およびマイクロフォン１０２）アンテナ１１２は、システムオンチップデバイスの外部にある。特定の実装形態では、ディスプレイデバイス１１０、センサー１０８、カメラ１０６、マイクロフォン１０２）、およびアンテナ１１２の各々は、１つまたは複数のコントローラ１２０、あるいはメモリ１２６など、システムオンチップデバイスの構成要素に結合され得る。

[0038] デバイス１００は、例示的で非限定的な例として、ヘッドセット、スマートグラス、または拡張現実デバイス、仮想現実デバイス、複合現実デバイス、エクステンディッドリアリティ（extended reality）デバイス、ロボット、モバイル通信デバイス、スマートフォン、セルラーフォン、ラップトップコンピュータ、コンピュータ、スマートグラス（smart glasses）、タブレット、携帯情報端末、テレビジョン、ゲーミングコンソール、車両中のオーディオシステムの一部としての、音楽プレーヤ、ラジオ、デジタルビデオプレーヤ、デジタルビデオディスク（ＤＶＤ）プレーヤ、スタンドアロンカメラ、ナビゲーションデバイス、車両、車両の構成要素、あるいはそれらの任意の組合せを含み得る。

[0039] 例示的な実装形態では、メモリ１２６は、命令１３０を記憶する非一時的コンピュータ可読媒体（non-transitory computer readable medium）を含むかまたはそれに対応し得る。命令１３０は、プロセッサ１２８などのコンピュータによって実行可能な１つまたは複数の命令を含み得る。命令１３０は、限定はされないが、図１〜図１０のいずれかに関連する説明の１つまたは複数の部分を含む、本明細書で説明される１つまたは複数の動作をプロセッサ１２８に実施させ得る。

[0040] デバイス１００は、オーディオアクティビティユニット１１６と、オーディオアクティビティフィードバック提供器１１８と、オーディオイベントバッファ（audio event buffer）１３８と、要約された追跡されたオーディオアクティビティバッファ（summarized tracked audio activity buffer）１４４と、オーディオ／スピーチパケットバッファ１４２とを含み得る。バッファと、オーディオアクティビティユニット１１６と、オーディオアクティビティフィードバック提供器１１８とについて、本開示内で様々な配置されたものにおいてより詳細に説明される。

[0041] 図２は、オーディオアクティビティユニットとオーディオアクティビティフィードバック提供器とを含むブロック図を示す。プロセッサ技術がより小さいノードサイズにスケールダウンし続けるにつれて、アマゾンエコーまたはグーグルホームなどのデジタルアシスタントの機能もウェアラブルデバイス中に一体化され得ることが想定される。デバイスを装着する１つの利点（advantage）は、複数の環境にわたって（たとえば、車、自宅、オフィス中で）ユーザの社会的相互作用（social interaction）を追跡する能力である。

[0042] 例として、ヒアラブル、ウォッチ、またはスマートグラスなどのデバイスを装着する別の利点は、これらのデバイスのマイクロフォンが、スマートフォンではユーザの一日全体にわたって時々起こるように、ポケットまたは財布中になくてよいことである。いくつかの実施形態では、オーディオ信号を記録（recording）またはキャプチャすること（capturing）と、装着者の代表的エクスペリエンス（representative experience）との間のより良好な相関（correlation）があり得る。

[0043] たとえば、ウェアラブル（wearable）は、いくつかの場合には代替的配置におけるよりも安定していることがあり、実際の装着者エクスペリエンス（real wearer experience）とより相関されて局存化されることにつながり得る。加えて、ウェアラブル（たとえば、ウェアラブルセンサー）の場合、共通の身体的イベントについて異なるタイプの測定値を得るために、身体上の異なる点にセンサーを配置することに利点があり得る。異なる場所にセンサーを配置することは、異なる課題および制限をもたらし得るが、そのような配置の利点は、体の動き（たとえば足センサー、手首センサー、ベルトの周りのセンサー、またはヒアラブル）が、オーディオイベント検出の信頼性を高め得、および／またはオーディオイベント検出をもたらし得ることである。したがって、それらは、いくつかの実施形態では、たとえば、ユーザの動き、または少なくともユーザの動きの一部（たとえば、腕、足など）に関して潜在的に浮動しており、弱い流動性を伴い、未決定である電話（phone）に勝る利点（advantage）を有し得る。

[0044] 非ウェアラブルデバイス（Non-wearable device）も、本明細書で開示される実施形態のうちの１つまたは複数を組み込み得る。また、オーディオアクティビティユニット２０２および／またはオーディオアクティビティフィードバック提供器ユニット２１０を含むデバイスは、ワイヤレス接続されたデバイス間の情報の転送、より大きいメモリサイズ、および／または機械学習の進歩に起因して、より高められた技術的能力を有することが想定される。たとえば、ローカルキャプチャを可能にするが、分析のためにより多くの処理を必要とし得るセンサーは、接続およびリモート処理から恩恵を受け得る。したがって、社会的相互作用に加えて、他のオーディオアクティビティを追跡するための能力は、全体的なオーディオエクスペリエンス（overall audio experience）をキャプチャし、それをアクティビティに変換し、社会的相互作用以外のエクスペリエンスを要約することを目的とする。加えて、様々なタイプの要約モードに基づいてオーディオアクティビティを要約することを実現することが可能になる。要約モードについては図５で論じられる。

[0045] 社会的相互作用（すなわち、社会的相互作用は、堂々巡りの議論をしている少なくとも２人の人々を含む）以外のオーディオアクティビティの例は、テレビジョンまたは音楽を聴くことに費やされた時間を含み得る。他の例は、オーディオ信号レベル（たとえば、叫ぶこと（shouting）またはささやくこと（whispering））に基づいて感情（たとえば、怒った（angry）、幸せな（happy）、ニュートラルな（neutral）など）をカテゴリー分類すること、あるいはおしゃべり（または聴取）に費やされた時間をカテゴリー分類することに関係付けられ得る。また他の例は、異なるタイプの人々（たとえば、子供対大人、または男性対女性）を聴取することに費やされた時間を含む。オーディオアクティビティに基づいて、オーディオフィードバック提供器（audio feedback provider）２１０は、視覚または可聴フィードバック（visual or audible feedback）をユーザに提供し得る。

[0046] 一実施形態では、（デバイス１００などの）デバイスは、オーディオ信号を受信したことに基づいてオーディオイベントを決定するように構成されたオーディオイベント決定器２０４（図３参照）を含むオーディオアクティビティユニット２０２を含む。オーディオイベントは、物体または人が音を生成することに基づいて起こる。オーディオイベントの例は、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｆＭｕｌｔｉｍｅｄｉａ、第１７巻、第１０号、２０１５年１０月における、Ｓｔｏｗｅｌｌらによる「ＤｅｔｅｃｔｉｏｎａｎｄＣｌａｓｓｉｆｉｃａｔｉｏｎｏｆＡｃｏｕｓｔｉｃＳｃｅｎｅｓａｎｄＥｖｅｎｔｓ」に開示されている。オーディオイベントの例は、ドアノック、ドアをバタンと閉めること、会話、笑い、咳払い、咳嗽、引き出し、プリンタ、キーボードクリック、マウスクリック、テーブル表面上のマーカー、テーブル上に鍵を置くこと、電話呼び出し音、短い警報音（たとえば、ビープ）、およびページめくりを含む。オーディオイベントはこれらの例のみに限定されない。オーディオイベントの他の非限定的な例は、椅子の移動、弦の調子を合わされている楽器（たとえば、ギター）、叩くこと（たとえば、ドラム）、テーブル上に置かれたボトル、ブレンダー音、ヘリコプター音などを含む。

[0047] 同じまたは代替的実施形態では、オーディオイベント決定器２０４は、決定されたオーディオイベントに基づいてオーディオアクティビティを追跡するように構成されたオーディオアクティビティ追跡器２０６（図４参照）に結合される。

[0048] 同じまたは代替的実施形態では、本デバイスは、要約モードに基づいて、追跡されたオーディオアクティビティを要約するように構成された、追跡されたオーディオアクティビティ要約器（tracked audio activity summarizer）２０８（図５参照）に結合されたオーディオアクティビティ追跡器２０６を含む。

[0049] 同じまたは代替的実施形態では、本デバイスは、フィードバックモード選択器（feedback mode selector）２１２を含むオーディオアクティビティフィードバック提供器２１０を含む。フィードバックモード選択器２１２は、フィードバックモード設定を通して構成可能であり得る。たとえば、デバイスのユーザは、要約されたオーディオ上で、可聴フィードバック（audible feedback）または視覚フィードバック（visual feedback）あるいは両方を提供するようにフィードバックモード選択器２１２を構成し得る。追跡されたオーディオアクティビティの例示的なフィードバックは図９および図１０に示されている。

[0050] 図３は、オーディオイベント決定器（audio event determinator）３０２の複数の実施形態を示す。一実施形態では、イベント決定器３０４はオーディオ経路選択器（audio path selector）３０２に結合される。オーディオ経路選択器３０２は、１つまたは複数のマイクロフォン１０２からの出力に基づくオーディオ波形がオーディオイベント決定器３０４に提供されるかどうかを選択するように構成される。オーディオ波形はコーデック１１４から出力され得る。オーディオ波形は、イベント分類器バンク（event classifier bank）３２０に提供され得るか、あるいは同じまたは代替的実施形態では、音声メトリック決定器ユニット（voice metric determinator unit）３１４にも提供され得る。音声メトリック決定器ユニット３１４は、スピーチ処理および／または分類を助ける１つまたは複数の音声メトリック（voice metric）を計算し得る。例示的な音声メトリックは、図７に７４０Ａ１〜７４０Ｅ１（音声アクティビティ検出フラグ（voice activity detection flag）、有声周波数（voiced frequency）、ハッシュされた有声フレーム（hashed voiced frame）、最近のスピーチの持続時間（duration of recent speech）、およびピッチ（pitch））として示されている。

[0051] 同じまたは代替的実施形態では、オーディオ経路選択器３０２は受信機３０１に結合される。受信機３０１は、異なるデバイスから信号を受け付けるように構成される。信号は、データパケット、オーディオパケットまたはスピーチパケットを含み得る。データパケットは、オーディオパケットまたはスピーチパケットをカプセル化し得る。説明しやすいように、パケットは、別段に明確に示されない限り、データパケット、オーディオパケットまたはスピーチパケットであり得る。オーディオパケットまたはスピーチパケットはオーディオ／スピーチパケットバッファ１４２（図１参照）に記憶され得る。データパケットはデータパケットバッファ（図示されず）に記憶され得る。オーディオ経路選択器３０２は、オーディオイベント決定器３０４にパケットが提供されるのかオーディオ波形が提供されるのかの選択を助け得るコントローラ１２０のうちの１つまたは複数からコントローラ入力（controller input）を受信し得る。

[0052] 同じまたは代替的実施形態では、オーディオイベント決定器３０４にパケットが提供され得る。パケットはペイロードデータ抽出器（payload data extractor）３１２によって受信され得る。ペイロードデータ抽出器３１２は、パケットから識別データタイプ（identification data type）（ＩＤ）６３０、および／または個人識別情報（personal identification information）６４０を抽出し得る（図６参照）。たとえば、ペイロードデータ抽出器３１２は、人識別（person identification）６２０、すなわち、人が誰であるかを示す１つまたは複数のビットを抽出し得る。２人の人々、たとえば、ゾーイ（Zoe）とマックス（Max）が話している場合、ゾーイのデバイスは、それが実際にゾーイのデバイスからマックスのデバイス宛てであることを表す１つまたは複数のビットを送り得る。マックスのデバイスはペイロードデータ抽出器３１２を含み得る。それがゾーイであるという人識別は、ゾーイのデバイス上にある、マックスのデバイスに対するリモートデバイス上にあるスピーチ認識、顔認識、または何らかの他の認識技術の結果に基づき得る。たとえば、マックスのデバイスはデバイス１００であり得、ゾーイの音声または顔が別個のデバイス上でキャプチャされる。

[0053] 同じまたは代替的実施形態では、マックスのデバイスは、たとえば、説明されるフィールド（６３０、６４０もしくは６２０）のうちの１つに対する代替として含まれるか、またはそれらのフィールドのうちの１つに代わり得る、マックスのデバイスに関連付けられた識別をブロードキャストし得、たとえば、識別データタイプ６３０は、マックスのデバイスを識別するであり得る。一実施形態では、マックスのデバイスの識別は、追加のセキュリティおよび一意性を提供するために（使用事例に応じて固定であるかまたは変動する）乱数であり得る。識別データタイプ６３０は、ユーザ（すなわち、マックス）によって設定された構成の結果であり得る。

[0054] グループ構成または設定は、識別データタイプ６３０から人識別６２０または個人識別情報６４０を分離するためのパーミッションを可能にし得る。一実施形態では、デバイスは、ユーザ識別（たとえば、１２３４５６７）を含む識別データタイプ６３０の交換を（たとえば、バンピング（bumping）あるいはＮＦＣを用いて）可能にするために近傍内にあり得る。その後、構成に応じて、１２３４５６７のブロードキャストユーザ識別（broadcast user identification）が、パケット中でデバイス１００によって受信され得、パケットのフィールド（６３０、６４０、または６２０）中の情報が、デバイス１００のオーディオアクティビティ追跡器２０６において使用され得る。

[0055] グループにサインアップすることを可能にし、特定の個人のためのパーミッションを可能にするために、インターネットまたはプライベートメッセージングを通して仲介されるパーミッションを交換するための他の実施形態が存在し得る。同じまたは代替的実施形態では、ペイロードデータ抽出器３１２が個人識別情報６４０を抽出し得る。個人識別情報の多数の例（７４０Ａ１〜７４０Ｅ１、および７４０Ａ２〜７４０Ｅ２）が図７に示されている。当業者は、リモートデバイスが、デバイス１００に送られ得るそれ自体の音声メトリック決定器ユニットを有し得ることを諒解されよう。

[0056] 同じまたは代替的実施形態では、ペイロードデータ抽出器３１２からタイムスタンプ（timestamp）も抽出され得る。ＩＤデータタイプ６３０、個人識別６４０、または人識別６２０に関連付けられた他のオーディオイベントとの（たとえば、共通の時間に基づき得る）時間相関を可能にするために、リモートデバイスからのタイムスタンプは、ＩＤデータタイプ６３０、個人識別情報、または人識別と同時に、または時間的に比較的近接して到着し得る。到着するタイムスタンプ中で利用可能なペイロードデータ（payload data）は、デバイス１００の物理的ロケーションおよび空間とは異なる物理的ロケーションおよび空間においてキャプチャされた。タイムスタンプ、および時間を割り当てられた関連する情報（すなわち、ペイロードデータフィールド（６２０、６３０、および６４０）は、ペイロードデータとタイムスタンプとを含んでいるパケットを提供した１つまたは複数の異なるリモートデバイスからデバイス１００に転送され、それにより、今度は、オーディオアクティビティ追跡器２０６が時間ベース分析中に含めることが可能になる。

[0057] 同じまたは代替的実施形態では、パケットは、オーディオ／スピーチデコーダ３１０に直接提供され得る。オーディオ／スピーチデコーダ３１０がオーディオ／スピーチパケットを復元した後に、再構成されたオーディオおよび／またはスピーチ波形は、音声メトリック決定器ユニット３１４にも提供され得る。加えて、再構成されたオーディオおよび／またはスピーチ波形はイベント分類器バンク３２０に提供され得る。イベント分類器バンク３２０がパケットまたはオーディオ波形に基づく入力を受信し得るとき、一実施形態では、イベント分類器バンク３２０は、入力として、提供される入力がローカルデバイス（たとえば、デバイス１００）からであるかリモートデバイスからであるかを示すデバイスモード（device mode）をも受信し得る。デバイスモードに応じて、イベント分類器バンク３２０は制御され得る。イベント分類器バンク３２０は、ローカルデバイス（たとえばデバイス１００）からの入力に応答するメモリまたは分類器を選択的に使用するか、あるいは代替的に、リモートデバイスからの入力に応答するメモリまたは分類器を選択的に使用し得る。

[0058] イベント分類器バンク３２０への入力が、ＩＤデータタイプ、ならびに／または個人識別情報、ならびに／または再構成されたオーディオおよび／もしくはスピーチ波形、ならびに／または再構成されたオーディオおよび／もしくはスピーチ波形に基づく音声メトリックである実施形態では、デバイスモードは、１つまたは複数のビットによって表される１つの値を有し得、デバイス１００によって設定され得る。彼がイベント分類器バンク３２０中に入力し、オーディオ波形、および／またはオーディオ波形イベント分類器バンク３２０に基づく音声メトリックである実施形態では、デバイスモードは、１つまたは複数のビットによって表される（デバイス１００に関連付けられた）異なる値を有し得、同じくデバイス１００によって設定され得る。加えて、イベント分類器バンク３２０の制御はまた、適用例に依存し得る。そのようなものとして、イベント分類器バンク３２０は、リモートデバイスＩＤと、リモートデバイス（remote device）のタイムスタンプと、人ＩＤと、（デバイス１００の）ローカルクロックと、ローカルデバイス識別値（local device identification value）（すなわち、デバイス１００のＩＤ）とをもさらに出力し得る。

[0059] 図４は、オーディオアクティビティ追跡器の例示的な一実装形態を示す。例示的なオーディオアクティビティ追跡器４０２は、（ローカルクロックであるか、リモートタイムスタンプであるかを問わずに）タイムスタンプ、（ローカルデバイスＩＤであるか、リモートデバイスＩＤであるかを問わずに）デバイスＩＤ、人ＩＤ、および／またはオーディオイベントの入力を含み得る。オーディオイベントの非限定的な例は図２について説明するときに提供されたが、本明細書で説明される技法を用いて決定され得るオーディオイベントの数は、多数の状況環境（situational environment）、コンテキスト（context）、および適用例（application）にわたることを当業者なら諒解されよう。

[0060] 一実施形態では、オーディオアクティビティ追跡器４０２は比較ユニット（compare unit）４０４を含み得る。比較ユニット４０４は、現在のオーディオイベント（current audio event）と前のオーディオイベント（previous audio event）との間の比較を実施し、現在のオーディオイベントが前のオーディオイベントと同じオーディオイベント４０８であるか異なるオーディオイベント４０６であるかを決定し得る。比較は減算に基づき得る。しかしながら、比較は、同じまたは代替的実施形態では、現在のオーディオイベント値（または現在のオーディオイベントを表す値のセット）が、前のオーディオイベント値（または前のオーディオイベント値を表す値のセット）よりも大きいか小さいかを評価することに基づき得る。比較が、より大きい不等性（inequality）に基づくかより小さい不等性に基づくかは、適用例、または設計選好（design choice）に基づき得る。加えて、比較ユニットは、適用例、または設計選好に応じて、対数、絶対値、またはしきい値を使用することを含み得る。

[0061] オーディオイベントデータバッファ（audio event data buffer）４１０は、同じオーディオイベント４０８を表すか異なるオーディオイベント４０６を表すかを問わず、１つまたは複数の値を記憶し得る。オーディオイベントデータバッファ４０８はまた、現在のオーディオイベントを記憶し得る。加えて、同じまたは代替的実施形態では、オーディオイベントデータバッファ４１０は、図４に示されているように、タイムスタンプ、デバイスＩＤ、または人ＩＤのうちの１つまたは複数を記憶し得る。同じまたは代替的実施形態では、オーディオバッファ１３８は、オーディオイベントを別々に記憶し得る。

[0062] オーディオイベントが表し得ることに基づいてテキストラベルが生成され得る。たとえば、オーディオイベントがキーボードクリックを表すことがある。テキストラベルは「キーボードキークリック（keyboard key click）」になり得る。当業者は、オーディオイベントはいくつかのキーボードクリックをも表し得、テキストラベルは「複数のキーボードキークリック」になり得ることを諒解されよう。頭上を飛んでいるジェット機がある場合、ソースセパレータは、頭上を飛んでいるジェット機の音を分離し得、テキストラベルは「頭上を飛んでいるジェット機」になり得る。キーボードキークリックと、頭上を飛んでいるジェット機は、２つの別個のオーディオイベントと見なされ得るか、またはいくつかの実施形態では、「頭上をジェット機が飛んでいる間のキーボードキークリック」の１つのオーディオイベントを表し得る。

[0063] 当業者は、一実施形態では、オーディオイベントのテキストラベルがオーディオイベントデータバッファ４１０に記憶されてもよいことを諒解されよう。

[0064] 本開示内で、オーディオイベントへの言及は、オーディオイベントのオーディオまたはスピーチサンプルを含み得るか、あるいは互換的に、オーディオイベントへの言及はテキストラベルを含み得る。加えて、オーディオイベントはオーディオイベントの集合であり得、たとえば、キーボードキークリックは、一連のキーボードキークリックの集合であり得る。

[0065] オーディオイベントのテキストラベルとしてか、オーディオまたはスピーチサンプルとしてかを問わずに、オーディオイベントは、オーディオアクティビティを決定するためにバッチ処理４１４され得る（図８参照）。決定されたオーディオイベントへの追加のコンテキストが、オーディオアクティビティを決定し得る。たとえば、オーディオイベント（またはテキストが息切れおよび／もしくは速足を表す場合、決定されたオーディオアクティビティは、走っていることであり得る。オーディオイベントが、それらがセメントまたは砂の上にあるような速足音を表す場合、それは、決定されたオーディオアクティビティが、セメントまたは砂の上で走っていることを表し得る。タイムスタンプ、デバイスＩＤ、および人ＩＤはまた、より多くのコンテキストを提供し得る。たとえば、決定されたオーディオアクティビティは、（人ＩＤによって示される）マックスが、（タイムスタンプによって示される）午後１時にセメントまたは砂の上を走っており、（デバイスＩＤによって示される）ウォッチを装着している、ということであり得る。

[0066] オーディオアクティビティ追跡器４０２が、１つまたは複数の決定されたオーディオイベントおよびコンテキストに基づいてオーディオアクティビティを決定した後に、決定されたオーディオアクティビティは、決定されたオーディオアクティビティをオーディオアクティビティデータバッファ（audio activity data buffer）１４４に記憶することによって追跡され得る。追跡された決定されたオーディオアクティビティの要約は、追跡されたオーディオアクティビティ要約器５０２（図５参照）中の要約モードに基づき得る。

[0067] 当業者は、一実施形態では、追跡された決定されたオーディオアクティビティのテキストラベルが、オーディオアクティビティデータバッファ１４４に記憶されてもよいことを諒解されよう。

[0068] 本開示内で、オーディオアクティビティまたは決定されたオーディオアクティビティへの言及は、オーディオアクティビティのオーディオまたはスピーチサンプルを含み得るか、あるいは互換的に、オーディオアクティビティまたは決定されたオーディオアクティビティへの言及は、テキストラベルを含み得る。加えて、オーディオアクティビティまたは決定されたオーディオアクティビティは、オーディオアクティビティの集合であり得、オーディオアクティビティの集合への言及もオーディオアクティビティと呼ばれることがある。たとえば、「マックスが午後にセメント上を走る」は、マックスが午後１時と午後５時との間に少なくとも数日にわたって走るという一連のオーディオアクティビティの集合であり得る。「マックスが午後にセメント上を走る」というオーディオアクティビティの集合もオーディオアクティビティと呼ばれることがある。センサー１０８のうちの１つまたは複数は、１つまたは複数のセンサー１０８のデータの相関に基づいて、オーディオアクティビティの収集を助け、オーディオイベント検出の信頼性を高めることが可能であり得る。

[0069] 同じまたは代替的実施形態では、「マックスがセメント上を走る」というオーディオアクティビティの収集は、マックスが歩みを取るときの呼吸と、心拍数と、セメントへの衝撃に基づく加速度応答（acceleration response）の形状とを検出する１つまたは複数のセンサー１０８によって助けられ得る。たとえば、検出器バンク（detector bank）８０４中のセンサー検出器（sensor detector）８１６は、これらの１つまたは複数のセンサー１０８（たとえば、慣性（inertial）およびフォトプレチスモグラム（ＰＰＧ：photoplethysmogram）または心拍数（ＨＲ：heart rate）センサー）の出力を検出し得る（図８参照）。バッチ処理８００は、呼吸と、歩みの音と、セメントへの歩みの衝撃の記録された音とに関連する音メトリックに加えて、センサーメトリックまたは視覚メトリックなどの他のセンサー入力を使用するであり得る。したがって、バッチ処理は、たとえば走ることのようなオーディオアクティビティが、検出器バンク８０４（図８参照）中の検出器のうちの１つまたは複数に加えて、他のセンサー入力に基づき得ることを含む。

[0070] 検出器バンク８０４は、いくつかの実施形態では、オーディオイベントの信頼性決定を高めるか、またはいくつかの実施形態では、オーディオイベントの決定を助けるために、ビデオコンテンツをオーディオ信号と相関させるために使用され得る１つまたは複数のカメラ１０６からキャプチャされたローカルビデオコンテンツをキャプチャするための視覚コンテキスト検出器（visual context detector）８１４を含み得る。同様に、いくつかの実施形態では、検出器バンク８０４は、オーディオイベントの信頼性決定を高めるか、またはいくつかの実施形態では、オーディオイベントの決定を助けるために、１つまたは複数のセンサー示度（sensor reading）をオーディオ信号と相関させるために使用され得るセンサー検出器８１６をいくつかの実施形態では含み得る。同じまたは代替的実施形態では、センサー検出器８１６は、１つまたは複数のセンサー１０８（たとえば、慣性およびフォトプレチスモグラム（ＰＰＧ）または心拍数（ＨＲ）センサー）によって助けられ得る。

[0071] 代替的実施形態では、特定の日（たとえば、金曜日）に特定の人に会うこと、または特定の日（たとえば、金曜日）に異なるグループ会合に参加することの追跡が、オーディオアクティビティの集合として使用され得、オーディオアクティビティの集合（「金曜日会合」）への言及もオーディオアクティビティと呼ばれることがある。

[0072] 図５は、追跡されたアクティビティ要約器の例示的な実施形態を示す。追跡されたオーディオアクティビティ要約器５０２は、出力として、要約されたオーディオアクティビティを提供し得る。オーディオアクティビティの要約は要約モードに基づき得る。例示的な要約モードが要約モード選択器（summary mode selector）５０４中に示されている。たとえば、要約モードは、時間モード（time mode）５０６、感情モード（emotion mode）５０８、アクティビティモード（）５１０、環境モード（environment mode）５１２、スピーチ状態モード（speech state mode）５１４、関連付けモード（association mode）５１６、重複モード（overlap mode）５１８、および／または推奨モード（recommendation mode）５２４であり得る。

[0073] 一実施形態では、時間モード要約モードは、持続時間に基づいてオーディオアクティビティの要約を提供し得る。たとえば、持続時間は、最近１０分、６０分、３時間、日、週、月、四半期、年などにわたり得る。加えて、時間モードは、デバイス１００のユーザによって定義され得る。一例として、デバイス１００のユーザは、持続時間を、午後１時および午後５時として定義される午後として定義し得る。このようにして、追跡されたオーディオアクティビティ要約器によって、マックスが昨年セメント上を何回の午後だけ走ったかの要約された追跡されたオーディオアクティビティが提供され得る。一実施形態では、時間モードは、１５分以上持続した会話の統計値を要約し得る。たとえば、人Ａ（たとえば、マックス）と人Ｂ（たとえば、ゾーイ）との間の会話において、追跡されたオーディオアクティビティ要約器は、彼らの２０分間の会話中にゾーイが時間の５０％だけ話し、マックスが時間の５０％の間に話したと決定し得る。

[0074] 一実施形態では、感情モード要約モードは、感情検出器（emotion detector）（図８参照）によって検出された様々な感情に基づいてオーディオアクティビティの要約を提供し得る。たとえば、一実施形態では、感情検出器を用いて、笑うこと、泣くこと、叫ぶこと、および、わめくことのオーディオイベントを決定することに基づいて、追跡されたオーディオアクティビティ要約器５０２によって、幸せな、興奮した、怖い、怒った、穏やかな、または悲しいことに基づく、どのオーディオアクティビティが生じたかの要約が提供され得る。

[0075] 一実施形態では、アクティビティモード要約モードは、様々なタイプのアクティビティに基づいてオーディオアクティビティの要約を提供し得る。たとえば、スポーツは一種のアクティビティである。追跡されたオーディオアクティビティ要約器５０２は、特定のスポーツ中のオーディオアクティビティの要約を提供し得る。たとえば、デバイス１００のユーザ（たとえば、マックス）がバスケットボールをプレイする場合、オーディオアクティビティは、マックスがショットを打つ前にボールを何回ドリブルしたか、または彼がゲーム中にどのくらいの時間ドリブルしたかを示し得る。

[0076] 一実施形態では、環境モード要約モードは、環境のタイプに基づいてオーディオアクティビティの要約を提供し得る。いくつかの環境では、音は、より大きくなる（たとえば、工事現場）か、静かである（たとえば、図書館）か、または（たとえば、いくつかのオフィスもしくは自宅内では）低レベルであり得る。環境は、オーディオアクティビティがどこで起こったのかを識別するのを助け得る他のタイプ、たとえば、クラウドノイズ（crowd-noise）を用いて分類され得る。追跡されたオーディオアクティビティ要約器５０２は、環境が静かであるか、うるさいか、低レベルであるか、クラウドノイズがあるか、または他の分類の環境タイプに基づいて、オーディオアクティビティの要約を提供し得る。

[0077] 一実施形態では、スピーチ状態モード要約モードは、人のスピーチ状態（speech state）に基づいてオーディオアクティビティの要約を提供し得る。異なるスピーチ状態の例は、（たとえば、テレビジョンもしくはラジオに対する）受動的聴取、（たとえば、会話中の）聴取、または（たとえば、会話中の）おしゃべりとして分類され得る。追跡されたオーディオアクティビティ要約器５０２は、環境が静かであるか、うるさいか、低レベルであるか、クラウドノイズがあるか、または他の分類のスピーチ状態に基づいて、オーディオアクティビティの要約を提供し得る。

[0078] 一実施形態では、関連付けモード要約モードは、関連付けモードに基づいてオーディオアクティビティの要約を提供し得る。関連付けモード（association mode）は、人または人々のグループ（group）の関連付け（association）に基づき得る。たとえば、要約は、人Ａと人Ｂがオーディオアクティビティを一緒に実施しているときのオーディオアクティビティに基づいて所望されることがある。たとえば、彼らはテニスをプレイしており、プールをし、コーヒーを介してチャットしており、働くために車の中で運転している。

[0079] 代替的実施形態では、要約された追跡されたオーディオアクティビティがロケーション情報に基づくことを可能にし得るロケーションモード（図示されず）があってよい。ロケーション情報（location information）は、場合によっては、異なるソースからであるか、または（たとえば、ロギングされたＷｉ−Ｆｉパケットスニッフ（packet sniff）からの）オーディオイベントの後に決定され得、要約されたアクティビティがロケーションに基づいて表示または提供されることを可能にし得る。たとえば、ロケーションは、自宅、仕事場、運転中、テニスクラブ、コーヒーショップなどであり得る。

[0080] 同じまたは代替的実施形態では、要約は、２つ以上の要約モードを選択することによって提供され得る。一例として、重複モード５１８を選択した後に、時間モード５０６と感情モード５０８が両方とも選択され得る。別の例は、重複モードを選択した後に、アクティビティモード５１０とスピーチ状態モード５１４とを選択することである。このように、重複モードでは、要約は、２つ以上の要約モードに基づいて提供され得る。

[0081] 同じまたは代替的実施形態では、ユーザにフィードバックを提供するための推奨モード５２２があり得る。たとえば、人が「エムム」、「ウムム」と言っているか、またはいくつかの単語（たとえば、「みたいな」）を濫用している場合、悪い話し方の習慣を訂正するためのフィードバックがあってよい。フィードバックは、リアルタイムにおよび／または分析後フィードバック（post analysis feedback）で行われ得る。同じまたは代替的実施形態では、要約モードは、追跡されたオーディオアクティビティ要約器５０２を含むデバイス１００によって処理されるキーワードを話すことを通して選択され得る。ユーザは、１つまたは複数の要約モードを選択するために例示的な句、「時間モード」、「感情モード」、「環境モード」、スピーチ状態モード」、「関連付けモード」、「重複モード」、および／または「推奨モード」を話し得る。同じまたは代替的実施形態では、複数の実施形態の選択は、重複モード自体を用いないが、２つ以上の要約モードを選択することによって実施され得る。

[0082] 同じまたは代替的実施形態では、要約モードは、追跡されたオーディオアクティビティ要約器５０２を含むデバイス１００によって処理されるキーワードを話すことを通して選択され得る。ユーザは、１つまたは複数の要約モードを選択するために例示的な句、「時間モード」、「感情モード」、「環境モード」、「スピーチ状態モード」、「関連付けモード」、「重複モード」、および／または「推奨モード」を話し得る。同じまたは代替的実施形態では、複数の実施形態の選択は、重複モード自体を用いないが、２つ以上の要約モードを選択することによって実施され得る。

[0083] 同じまたは代替的実施形態では、追跡されたオーディオアクティビティ要約器５０２はディスプレイデバイス１００に一体化または結合されてよく、要約モードの選択は、要約モードがラジオボタン選定である場合、ディスプレイデバイス１００にタッチすることに基づき得る。

[0084] ラジオボタンは、時間モード５０６、感情モード５０８、アクティビティモード５１０、環境モード５１２、スピーチ状態モード５１４、関連付けモード５１６、重複モード５１８、および／または推奨モード５２４を選択するためにスクリーン上でタッチされ得る。代替的実施形態では、ラジオボタン上に示される明示的な重複モード５１８はないが、説明される要約モードのうちの１つまたは複数にタッチすることによって２つ以上の要約モードを選択する能力により、追跡されたオーディオアクティビティ要約器５０２は、１つまたは複数の要約モードに基づいて１つまたは複数のオーディオアクティビティの要約（summary）を提供することが可能になり得る。

[0085] 一実施形態では、要約モード選択器５０４において要約モードを選択することは、追跡されたオーディオアクティビティ要約器５０２を含むデバイス１００に一体化または結合された１つまたは複数のプッシュボタンを押すことによって行われ得る。たとえば、プッシュボタンを押すことにより、時間モード５０６を選択し得る。２回目にプッシュボタンを押すことにより、感情モード５１６を選択し得る。続くプッシュにより、アクティビティモード５１０を選択し得る。次のプッシュにより、環境モード５１２を選択し得る。その後のプッシュにより、スピーチ状態モード５１４を選択し得る。ボタンの別のプッシュにより、関連付けモード５１６を選択し得る。

[0086] 同じまたは代替的実施形態では、追跡されたオーディオアクティビティ要約器５０２を含むデバイス１００に一体化または結合された追加のボタンがある場合、複数の要約モードに基づいて要約されたオーディオアクティビティを提供するために重複モード５１８が選択され得る。たとえば、重複モード５１８を選択した後に、時間モード５０６と感情モード５０８が両方とも選択され得、要約は、時間と感情の両方に基づいて提供され得る。

[0087] 要約された追跡されたオーディオアクティビティバッファ５２６中の要約されたオーディオ上のフィードバックモードは、可聴、または視覚、または可聴と視覚の両方であり得る。たとえば、図９および図１０に示されている要約された追跡されたオーディオアクティビティについて、ラウドスピーカーを通して可聴的に説明され得る。加えて、要約された追跡されたオーディオアクティビティは、チャート形式で図９および図１０に示されているようにグラフィカルユーザインターフェース（ＧＵＩ）上に表示されるか、あるいは部分、割合、または異なるオーディオアクティビティ間のリンクを示す別の視覚表現を通して表示され得る。視覚フィードバックモードはテキストをも含み得る。たとえば、オーディオアクティビティのリストが表示されるかまたはメモリに記憶され得る。要約された追跡されたオーディオアクティビティバッファ５２６は、要約された追跡されたオーディオアクティビティバッファ１４４としても参照される。

[0088] 図６は、２つのデバイス間の通信中のパケット６００の一部であり得る様々なフィールドを示す。通信がワイヤレス接続に基づくとき、パケット６００はワイヤレスパケットと呼ばれることがある。（ワイヤレスであるか否かを問わず）パケット６００は、プリアンブル６０８と、ヘッダ６１０と、ペイロードデータ６１２とを含み得る。プリアンブル６０８は、情報を交換する２つのデバイス間で送信および／または受信を同期させるために使用され得る。ヘッダ６１０は、パケット６００内で搬送されるデータに関する命令、たとえばパケット６００内での長さあるいはいくつのフィールドまたはサブフィールドが含まれているかを含み得る。

[0089] 一実施形態では、パケットのペイロードデータ６１２は、人識別６２０、すなわち、人が誰であるかを示す１つまたは複数のビットを含み得る。人識別６２０は、スピーチ認識、顔認識、または何らかの他の認識技術の結果に基づき得る。パケット６００がデバイス１００によって受信される場合、認識技術は別のデバイス上に配置され得る。一実施形態では、ローカルデバイス、すなわち、デバイス１００が認識技術を一体化していてよく、パケット６００はデバイス１００の外部に送信され得る。

[0090] 同じまたは代替的実施形態では、パケット６００はＩＤデータタイプ６３０を含み得る。たとえば、ＩＤデータタイプ６３０は、認識がスピーチ認識の結果であったか、顔認識の結果であったか、またはリモートデバイス上に配置され、ローカルデバイス、すなわち、デバイス１００に送られる何らかの他の認識技術の結果であったかを示し得る。

[0091] 同じまたは代替的実施形態では、ペイロードデータ６１２は個人識別情報６４０を含み得る。個人識別情報の多数の例（７４０Ａ１〜７４０Ｅ１、および７４０Ａ２〜７４０Ｅ２）が図７に示されている。

[0092] 図７は、個人識別の様々なタイプを示す。１つまたは複数のマイクロフォン１０２に基づいてキャプチャされ得る個人識別が、図７に７４０Ａ１〜７４０Ｅ１として示されている。音声アクティビティ検出フラグ７４０Ａ１は、有声または無声スピーチがあるときを表し得る。有声周波数７４０Ａ２は、話している人の周波数プロファイル（振幅およびホルマントロケーション（formant location））のエンベロープの量子化線形予測係数（quantized linear predictive coefficients）または他の同様の表現であり得る。ハッシュされた音声フレーム７４０Ａ３は、特定の人に一意である声紋（voice print）を表し得る。最近のスピーチの持続時間７４０Ａ４は、誰かが話していた時間の長さ、たとえば５秒であり得る。ピッチ７４０Ａ５は、話している人のピッチを表し得る。子供および女性はより高いピッチを有する傾向があるが、男性はより低いピッチを有する傾向がある。

[0093] 同じまたは代替的実施形態では、１つまたは複数のセンサー１０８に基づいてキャプチャされ得る追加または代替の個人識別が、図７に７４０Ａ２〜７４０Ｅ２として示されている。人の頭部の温度７４０Ａ２は、あまりに寒いかまたはあまりに暑い物理的環境中に彼らがいるかどうかを示すために使用され得る。温度があまりに暑いかまたはあまりに寒い場合、その人は、その人がストレスを受けているというインジケータであり得る。温度示度（temperature reading）を他のセンサー示度と相関させることにより、追跡されているオーディオアクティビティを決定するのを助けるためのより多くのコンテキストが提供され得る。人の心拍７４０Ｂ２も、追跡され要約されているオーディオアクティビティを決定するのを助けるための、ストレス、平穏、および／または運動に関係するより多くのコンテキストを提供し得得る。人の身体部位の移動７４０Ｃ２は、人が走っているか、歩いているか、立っているか、腕を上げているか、手首を回しているか、頭部移動かを示し得る。身体部位のこれらの移動は、追跡され要約されているオーディオアクティビティを助けるより多くのコンテキストを提供し得る。最も近いオブジェクトへの近接度（proximity）７４０Ｄ２は、追跡され要約されているオーディオアクティビティを助けるコンテキストを提供する別のインジケータであり得る。デバイスの配向（orientation）ＩＤ７４０Ｅ２は、追跡され要約されているオーディオアクティビティを助けるコンテキストを提供する別のインジケータであり得る。

[0094] 図８は、オーディオイベントをバッチ処理するための一実施形態を示す。図４に関して前に説明されたように、オーディオイベントは、オーディオアクティビティ追跡器４０２においてバッチ処理８００され得る。決定されたオーディオイベントは、前の決定されたオーディオイベントとアグリゲート（aggregate）８０２され、検出器バンク８０４に提供され得る。たとえば、決定されたオーディオイベントは、キーボードキーがクリックされたことであり得る。いくつかのキーボードクリックがアグリゲートされた場合、決定されたオーディオイベントのアグリゲーション（aggregation）は、複数のキーボードキーがクリックしていることであり得る。別の例は、決定されたオーディオイベントが、足の歩みが砂の上で取られたことであり得るということであり得る。（足の歩みまたはキーボードクリックなどの）数オーディオイベントのアグリゲーションは検出器バンク８４に送られ得る。

[0095] 検出器バンク８０４は、環境検出器８０６と、感情検出器８０８と、スピーチ状態検出器８１０と、可聴コンテキスト検出器（audible context detector）８１２とを含み得る。同じまたは代替的実施形態では、検出器バンク８０４によって追加の入力が処理され得る。たとえば、ＩＤデータタイプ、音声メトリックなどの可聴メトリック、視覚メトリック、および／またはセンサーメトリックは、検出器バンク８０４への入力として働き、検出器バンク８０４中の検出器のうちの１つまたは複数によって使用され得る。センサーからの追加のコンテキストにより、より多くのコンテキストが提供され得る。たとえば、業務フレーズまたはコーヒーショップフレーズ（すなわち、仕事環境に関連するかまたはコーヒーショップ中のフレーズ）が誰かによって発せられ得、このフレーズは１つまたは複数のマイクロフォン１０２によってキャプチャされる。フレーズのコンテキストを決定することに基づく可聴コンテキスト検出器８１２は、検出器バンク８０４から出力されたオーディオアクティビティが、人がオフィス中で、ラップトップで作業していること、またはコーヒーショップにおいてタイピングしていることであるという決定を助け得る。別の例では、環境検出器８０６は、海洋の波を検出し、検出器バンク８０４から出力されたオーディオアクティビティが、人が海洋の近くの砂の上で走っていることであるという決定を助け得る。

[0096] １つまたは複数のマイクロフォン１０２からの可聴入力に基づく検出器バンク８０４またはイベント分類器バンク３２０は、検出のために機械学習または他の適応もしくは分類技術に依拠し得る。たとえば、感情検出器８０８および可聴コンテキスト検出器８１２は、ディープニューラルネットワーク（deep neural network）を基づいた使用するであり得る。別の例として、大人対子供または男性対女性の間の違いを分類することなどのオーディオイベントは、トーン分類器（tone classifier）またはディープニューラルネットワークに基づき得る。イベント分類器バンク３２０における別の例は、音楽を再生しているテレビジョンまたはラウドスピーカーからのコンテンツを決定するためにフォーマット構造分類器（format structure classifiers）およびトーン分類器を使用することであり得る。検出器バンク８０４は、前に論じられた個人識別情報６４０（図８には図示されず）に基づいてオーディオアクティビティを決定し得る。

[0097] 検出器バンク８０４は、いくつかの実施形態では、オーディオイベントの信頼性決定を高めるか、またはいくつかの実施形態では、オーディオイベントの決定を助けるために、ビデオコンテンツをオーディオ信号と相関させるために使用され得る１つまたは複数のカメラ１０６からキャプチャされたローカルビデオコンテンツをキャプチャするための視覚コンテキスト検出器８１４を含み得る。同様に、いくつかの実施形態では、検出器バンク８０４は、オーディオイベントの信頼性決定を高めるか、またはいくつかの実施形態では、オーディオイベントの決定を助けるために、１つまたは複数のセンサー示度をオーディオ信号と相関させるために使用され得るセンサー検出器８１６をいくつかの実施形態では含み得る。同じまたは代替的実施形態では、センサー検出器８１６は、１つまたは複数のセンサー１０８（たとえば、慣性およびフォトプレチスモグラム（ＰＰＧ）または心拍数（ＨＲ）センサー））によって助けられ得る。

[0098] １つまたは複数のマイクロフォン１０２あるいはマイクロフォン１０２に結合されたプロセッサは、電力を節約するためにデューティサイクリングされ得る。これにより、オーディオアクティビティを連続的に監視するためのより長い時間期間が可能になり得る。いくつかのシステムにおける話された単語の検出は、プロセッサがアイドルモードから取り出させられ、追加のマイクロフォンをオンにすることを可能にする。デバイス１００は、話している人の口により近いかまたはそれからより遠くに離れているマイクロフォン１０２を有し得る。１つまたは複数のマイクロフォン２０１はボリューム監視を可能にし得る。たとえば、ヒアラブルは、ボリューム監視を可能にする外部マイクロフォンを有し得る。１つまたは複数のマイクロフォン１０２は、叫ぶこと、おしゃべり、ささやくことなどの検出を可能にし得る。

[0099] 可聴入力に基づく検出器は、トレーニングされた音声テンプレートをも含み得る。デバイス１００がアンテナ１１２とトランシーバ１２２とを含み得るとき、トレーニングされた音声テンプレートは２つのデバイス間で交換または共有され得、それにより、トレーニングされた音声テンプレートを有しないデバイス上でトレーニングをより少なくすることが容易になり得る。様々な信用できるグループはトレーニングデータを共有し得る。信用できるグループの一例は家族である。家族メンバーの間で、トレーニングされた音声テンプレートはデバイス間で交換または共有され得る。アンテナ１１２およびトランシーバ１２２は、追跡され要約されたオーディオアクティビティが別のデバイスに送信されることを可能にする。送信は、オーディオアクティビティ追跡器および要約器デバイス（たとえば、デバイス１００）のユーザによる認証に基づき得る。たとえば、ある人が３時間泣き、誰とも話していないことが、愛しい人に送信され得る。別の例は、比較的年輩者が、ある時間期間の間社会的相互作用を有していなく、親類を呼び出すかまたは訪問に行かせるための推奨が行われ得ることであり得る。また別の例では、ある人が、一定のしきい値レベルを超える背景雑音の過大な量にさらされていることであり得る。

[00100] 図９は、ディスプレイデバイス１１０のＧＵＩ９０２上の日々のオーディオアクティビティの要約の例示的なビューを示す。図９の例示的なビューには、人が関与したオーディオアクティビティ９０４が示されている。要約モード９０６が、ディスプレイデバイス１１０上でユーザに示され得る。様々な要約モードが、たとえば、ドロップダウンメニュー矢印９０８によって選択され得る（か、あるいは例として、ラジオボタンによって、または要約モードの名前でタイピングすることによって選択され得る）。たとえば、要約モードが時間モードであり、人が特定の時間期間を指定した場合、アクティビティの要約は、人ドローバー車（a person drover a car）（Ａ）、ジョーを聴取した（Ｂ）、音楽を聴取した（Ｃ）、メアリーと話した（Ｄ）、静寂な環境にいた（Ｅ）、およびテレビジョンを視聴した（Ｆ）、ということであり得る。円グラフにより、割合を表示することが可能になる。

[00101] 同じまたは代替的実施形態では、ユーザはまた、要約モードに関連するしきい値を選択し得る。たとえば、１０分よりも短く持続したオーディオアクティビティは、必ずしも表示されると限られなくてよい。したがって、この特定の時間期間中に人が関与した他のオーディオアクティビティがあり得るが、ディスプレイデバイス１１０のＧＵＩ９０２上に示されない。

[00102] 図１０は、ディスプレイ上の要約された追跡されたオーディオアクティビティに関連付けられた感情へのリンクの別の例示的なビューを示す。図１０の例示的なビューでは、オーディオアクティビティ（Ａ〜Ｆ）の割合が、要約された追跡されたオーディオアクティビティ１０５０に関連付けられた感情にリンクされ、ディスプレイデバイス１１０の異なるＧＵＩ１０４０上に表示され得る。例示的な感情は、限定はされないが、「退屈な」、「ニュートラルな」、「興奮した」、または「幸せな」を含み得る。

[00103] 図１１は、例示的な使用事例１１００を示す。図１１では、人々が集会において交際している。集会では、発生するいくつかの異なるオーディオアクティビティがあり得る。例は、テレビジョンでスポーツゲームを見ること（Ａ１）、ハッピーバースデーを歌うこと（Ｂ１）、乾杯すること（Ｃ１）、贈り物を開けること（Ｄ１）、ディナーを食べること（Ｅ１）、またはゲームをプレイすること（Ｆ１）を含む。人々が集まる部屋または空間には、オーディオアクティビティユニット２０２とオーディオアクティビティフィードバック提供器２１０とを含むデバイス１１０４があり得る。デバイス１１０４は、１つまたは複数のマイクロフォン１０２についての前の説明と同様の仕方で機能し得るマイクロフォンアレイ（microphone array）１１０６を含み得る。デバイス１１０４は、オーディオアクティビティ（たとえば、Ａ１〜Ｆ１）の要約を表示し得る、ＧＵＩ１１０８をもつディスプレイデバイスを含み得る。

[00104] 同じまたは代替的実施形態では、人々の一部は、本明細書で開示されるオーディオアクティビティユニット２０２とオーディオアクティビティフィードバック提供器２１０とを含むウェアラブルデバイスを装着していることがある。たとえば、ある人は、彼の手首の周りにウェアラブルデバイスを有する。ウェアラブルデバイスはリストバンド（wrist band）、またはウォッチであり得る（両方とも１１０２Ａとして参照される）。別の人は、本明細書で開示されるオーディオアクティビティ追跡器を含むヒアラブル１１０２Ｂを装着している。別の人は、彼女の首の周りにウェアラブルデバイス１１０２Ｃを有する。ウェアラブルデバイスは、マイクロフォンアレイ（すなわち、１つまたは複数のマイクロフォン１０２）をもつネックレスであり得るか、あるいは将来には、首の周りに１つまたは複数のマイクロフォン１０２を含むデバイスを装着することが社会的に許容可能であろう。ウェアラブル１１０２Ａ、１１０２Ｂ、および１１０Ｃは、視覚形態または可聴形態のいずれかでオーディオアクティビティの要約を提供し得る。たとえば、ヒアラブル１１０２Ｂおよび首の周りのウェアラブルデバイス１１０２Ｃは、要約されたオーディオアクティビティをディスプレイデバイスに転送し得る。ウェアラブルデバイス１１０２Ａがウォッチである場合、ウォッチに一体化されたディスプレイデバイスがある。ウェアラブルデバイス１１０２Ａがディスプレイデバイスなしのリストバンドである場合、要約されたオーディオアクティビティはディスプレイデバイスに転送され得る。ウェアラブル１１０２Ａ、１１０２Ｂ、および１１０２Ｃはまた、オーディオアクティビティの要約をプレイアウトするための１つまたは複数のラウドスピーカーを含み得る。

[00105] 特定の実装形態では、本明細書で開示されるシステムおよびデバイスの１つまたは複数の構成要素は、復号システムまたは装置（たとえば、その中の電子デバイス、またはプロセッサ）中に、符号化システムまたは装置中に、あるいは両方の中に一体化され得る。他の実装形態では、本明細書で開示されるシステムおよびデバイスの１つまたは複数の構成要素は、ワイヤレス電話、スマートグラス、または将来のバージョンの拡張現実デバイス、仮想現実デバイス、複合現実デバイス、エクステンディッドリアリティデバイス、ロボット、タブレットコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、セットトップボックス、音楽プレーヤ、ビデオプレーヤ、エンターテインメントユニット、テレビジョン、ゲーム機、ナビゲーションデバイス、通信デバイス、携帯情報端末（ＰＤＡ）、固定ロケーションデータユニット、パーソナルメディアプレーヤ、あるいは別のタイプのデバイス中に一体化され得る。

[00106] 説明される技法に関連して、デバイスは、オーディオ信号を受信したことに基づいてオーディオイベントを決定するための手段と、決定されたオーディオイベントに基づいてオーディオアクティビティを追跡するための手段と、要約モードに基づいて、追跡されたオーディオアクティビティを要約するための手段と、要約された追跡されたオーディオイベントのフィードバックを提供するための手段とを含む。加えて、デバイスは、フィードバックモードを選択するための手段を含み得る。

[00107] 当業者は、いくつかの実施形態では、周辺機器（たとえば１つもしくは複数のセンサー、１つもしくは複数のカメラ、および／またはディスプレイデバイス）、あるいは構成要素（たとえば、コーデック、アンテナ、トランシーバ）のいくつかがない、デバイス１００であって、ここで、デバイス１００はサーバである、デバイス１００は、それはまた、オーディオ信号を受信したことに基づいてオーディオイベントを決定することと、決定されたオーディオイベントに基づいてオーディオアクティビティを追跡することと、要約モードに基づいて、追跡されたオーディオアクティビティを要約することと、フィードバックモードに基づいて、要約された追跡されたオーディオアクティビティのフィードバックを提供することとを行うように構成され得ることを諒解されよう。

[00108] さらに、本明細書で開示される実装形態に関して説明される様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、プロセッサによって実行されるコンピュータソフトウェア、または両方の組合せとして実装され得ることを当業者は諒解されよう。様々な例示的な構成要素、ブロック、構成、モジュール、回路、およびステップについて、上記では概して、それらの機能に関して説明された。そのような機能がハードウェアとして実装されるか、プロセッサ実行可能命令として実装されるかは、特定の適用例および全体的なシステムに課された設計制約に依存する。当業者は、説明される機能を特定の適用例ごとに様々な方法で実装し得るが、そのような実装決定は、本開示の範囲からの逸脱を生じるものと解釈されるべきではない。

[00109] 本明細書の開示に関して説明される方法またはアルゴリズムのステップは、直接ハードウェアで実装されるか、プロセッサによって実行されるソフトウェアモジュールで実装されるか、またはその２つの組合せで実装され得る。ソフトウェアモジュールは、ランダムアクセスメモリ（ＲＡＭ）、フラッシュメモリ、読取り専用メモリ（ＲＯＭ）、プログラマブル読取り専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ（登録商標））、レジスタ、ハードディスク、リムーバブルディスク、コンパクトディスク読取り専用メモリ（ＣＤ−ＲＯＭ）、または当技術分野で知られている任意の他の形態の非一時的記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。上記の組合せも非一時的コンピュータ可読媒体の範囲内に含まれるべきである。さらに、方法またはアルゴリズムの動作は、コンピュータプログラム製品に組み込まれ得る、非一時的プロセッサ可読媒体および／または非一時的コンピュータ可読媒体上のコードおよび／または命令の１つまたは任意の組合せ、あるいはそのセットとして存在し得る。代替として、記憶媒体はプロセッサに一体化され得る。プロセッサおよび記憶媒体は特定用途向け集積回路（ＡＳＩＣ）中に存在し得る。ＡＳＩＣはコンピューティングデバイスまたはユーザ端末中に存在し得る。代替として、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末中に個別構成要素として存在し得る。

[00110]上記の説明は、当業者が開示されている実装形態を製作または使用することを可能にするために提供される。これらの実装形態への様々な修正は当業者には容易に明らかになり、本明細書で定義された原理は、本開示の範囲から逸脱することなく他の実装形態に適用され得る。したがって、本開示は、本明細書に示された実装形態に限定されるものではなく、以下の特許請求の範囲によって定義される原理および新規の特徴に一致する可能な最も広い範囲を与えられるべきである。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
オーディオ信号を受信したことに基づいてオーディオイベントを決定することと、
前記決定されたオーディオイベントに基づいてオーディオアクティビティを追跡することと、
要約モードに基づいて、前記追跡されたオーディオアクティビティを要約することと、
フィードバックモードに基づいて、前記要約された追跡されたオーディオアクティビティのフィードバックを提供することと
を行うように構成された１つまたは複数のプロセッサ
を備えるデバイス。
［Ｃ２］
前記１つまたは複数のプロセッサに結合されたオーディオデコーダをさらに備え、前記オーディオデコーダが、別のデバイスからパケットを受信するように構成された、Ｃ１に記載のデバイス。
［Ｃ３］
前記オーディオデコーダがペイロードデータ抽出器に結合され、前記ペイロードデータ抽出器が、別のデバイスから受信された前記パケットから、人識別、識別タイプ、個人識別情報、リモートデバイスＩＤ、またはタイムスタンプのうちの少なくとも１つを抽出するように構成された、Ｃ２に記載のデバイス。
［Ｃ４］
１つまたは複数のマイクロフォンからの出力に基づくオーディオ波形がオーディオイベント決定器に提供されるか、または別のデバイスから受信された前記パケットが前記オーディオイベント決定器に提供されるかを選択するように構成されたオーディオ経路選択器をさらに備える、Ｃ２に記載のデバイス。
［Ｃ５］
前記オーディオ経路選択器が、コントローラ入力を受信し、デバイスモードを提供するように構成された、Ｃ４に記載のデバイス。
［Ｃ６］
オーディオ波形を出力するように構成され、前記オーディオ波形を前記１つまたは複数のプロセッサに提供するように構成されたオーディオコーデックに結合された、１つまたは複数のマイクロフォンをさらに備える、Ｃ１に記載のデバイス。
［Ｃ７］
前記決定されたオーディオイベントが、音声メトリック決定器ユニットから、１つの音声メトリックを少なくとも分類することに基づき、前記１つまたは複数のプロセッサが、ローカルクロックと、ローカルデバイス識別値と、前記オーディオイベントとのうちの少なくとも１つを提供するように構成されたオーディオイベント分類器バンクを含む、Ｃ６に記載のデバイス。
［Ｃ８］
前記イベント分類器バンクがデバイスモードによって制御される、Ｃ７に記載のデバイス。
［Ｃ９］
前記１つまたはプロセッサが、前記要約モードに基づいて、前記追跡されたオーディオアクティビティを要約するように構成された要約モード選択器を含み、ここにおいて、前記要約モードが、時間モード、感情モード、前記追跡されたオーディオアクティビティ、環境モード、スピーチ状態、グループ関連付け、重複モード、または推奨モードのうちの１つまたは複数である、Ｃ１に記載のデバイス。
［Ｃ１０］
要約された追跡されたオーディオアクティビティバッファを含むメモリをさらに備える、Ｃ９に記載のデバイス。
［Ｃ１１］
前記１つまたは複数のプロセッサが、前記フィードバックモードを選択するように構成されたオーディオアクティビティフィードバック提供器を含む、Ｃ１０に記載のデバイス。
［Ｃ１２］
視覚フィードバックモードが選択されたとき、要約された追跡されたオーディオアクティビティの視覚フィードバックを表示するように構成されたディスプレイデバイスをさらに備える、Ｃ１１に記載のデバイス。
［Ｃ１３］
可聴フィードバックモードが選択されたとき、要約された追跡されたオーディオアクティビティの可聴フィードバックを発生するように構成された１つまたは複数のラウドスピーカーをさらに備える、Ｃ１１に記載のデバイス。
［Ｃ１４］
前記１つまたは複数のラウドスピーカーがヒアラブルデバイスに組み込まれた、Ｃ１３に記載のデバイス。
［Ｃ１５］
前記１つまたは複数のプロセッサが、前記要約モードに基づいて、前記追跡されたオーディオアクティビティを提供するためのオーディオアクティビティ追跡器を含み、前記オーディオアクティビティ追跡器は、前記決定されたオーディオイベントが同じオーディオイベントであるか異なるオーディオイベントであるかを決定するために前のオーディオイベントと比較することを備える、Ｃ１に記載のデバイス。
［Ｃ１６］
前記オーディオアクティビティ追跡器が、前記決定されたオーディオイベントをアグリゲートすることに基づいて、およびタイムスタンプ、デバイス識別値、または人識別値のうちの少なくとも１つに基づいて、２つ以上のオーディオイベントをバッチ処理するように構成された、Ｃ１５に記載のデバイス。
［Ｃ１７］
前記追跡されたオーディオアクティビティが、環境、感情、スピーチ状態、可聴コンテキスト、視覚コンテキスト、またはセンサー示度のうちの少なくとも１つを検出することに基づく、Ｃ１６に記載のデバイス。
［Ｃ１８］
前記追跡されたオーディオアクティビティが、識別データタイプと、人識別と、個人識別情報とのうちの１つにさらに基づく、Ｃ１７に記載のデバイス。
［Ｃ１９］
前記要約された追跡されたオーディオアクティビティに関連付けられた感情のリンクを表すように構成されたディスプレイデバイスをさらに備える、Ｃ１に記載のデバイス。
［Ｃ２０］
オーディオ信号を受信したことに基づいてオーディオイベントを決定することと、
前記決定されたオーディオイベントに基づいてオーディオアクティビティを追跡することと、
要約モードに基づいて、前記追跡されたオーディオアクティビティを要約することと、
フィードバックモードに基づいて、前記要約された追跡されたオーディオアクティビティのフィードバックを提供することと
を備える方法。
［Ｃ２１］
前記要約モードに基づいて、追跡されたオーディオアクティビティを要約すること、ここにおいて、前記要約モードが、時間モード、感情モード、前記追跡されたオーディオアクティビティ、環境モード、スピーチ状態、グループ関連付け、重複モード、または推奨モードのうちの１つまたは複数である、Ｃ２０に記載の方法。
［Ｃ２２］
フィードバックモードを選択することをさらに備える、Ｃ２０に記載の方法。
［Ｃ２３］
前記要約された追跡されたオーディオアクティビティの前記フィードバックは、前記フィードバックモードが視覚フィードバックモードであるとき、表示される、Ｃ２２に記載の方法。
［Ｃ２４］
前記要約された追跡されたオーディオアクティビティの前記フィードバックは、前記フィードバックモードが可聴フィードバックモードであるとき、可聴である、Ｃ２２に記載の方法。
［Ｃ２５］
前記要約された追跡されたオーディオアクティビティは、前記決定されたオーディオイベントが同じオーディオイベントであるか異なるオーディオイベントであるかを決定するために前のオーディオイベントと比較することに基づく、Ｃ２０に記載の方法。
［Ｃ２６］
前記要約された追跡されたオーディオアクティビティが、前記決定されたオーディオイベントをアグリゲートすることに基づいて２つ以上のオーディオイベントをバッチ処理する、Ｃ２０に記載の方法。
［Ｃ２７］
前記要約された追跡されたオーディオアクティビティが別のデバイスに送信される、Ｃ２０に記載の方法。
［Ｃ２８］
オーディオ信号を受信したことに基づいてオーディオイベントを決定するための手段と、
前記決定されたオーディオイベントに基づいてオーディオアクティビティを追跡するための手段と、
要約モードに基づいて、前記追跡されたオーディオアクティビティを要約するための手段と、
フィードバックモードに基づいて、前記要約された追跡されたオーディオアクティビティのフィードバックを提供するための手段と
を備える装置。
［Ｃ２９］
前記フィードバックモードを選択するための手段をさらに備える、Ｃ２８に記載の装置。
［Ｃ３０］
実行されたとき、デバイスの１つまたは複数のプロセッサに、
オーディオ信号を受信したことに基づいてオーディオイベントを決定することと、
前記決定されたオーディオイベントに基づいてオーディオアクティビティを追跡することと、
要約モードに基づいて、前記追跡されたオーディオアクティビティを要約することと、
フィードバックモードに基づいて、前記要約された追跡されたオーディオアクティビティのフィードバックを提供することと
を行わせる命令を記憶した非一時的コンピュータ可読記憶媒体。

Claims

オーディオ信号を受信したことに基づいてオーディオイベントを決定することと、
前記決定されたオーディオイベントに基づいてオーディオアクティビティを追跡することと、
要約モードのユーザ選択に基づいて、前記追跡されたオーディオアクティビティを要約することと、ここにおいて、前記要約モードが、時間モード、感情モード、アクティビティモード、環境モード、スピーチ状態モード、関連付けモード、重複モード、または推奨モードのうちの１つまたは複数である、
フィードバックモードに基づいて、前記要約された追跡されたオーディオアクティビティのフィードバックを提供することとを行うように構成された１つまたは複数のプロセッサを備えるデバイス。
前記１つまたは複数のプロセッサに結合されたオーディオデコーダをさらに備え、前記オーディオデコーダが、別のデバイスからパケットを受信するように構成された、請求項１に記載のデバイス。
前記オーディオデコーダがペイロードデータ抽出器に結合され、前記ペイロードデータ抽出器が、別のデバイスから受信された前記パケットから、人識別、識別タイプ、個人識別情報、リモートデバイスＩＤ、またはタイムスタンプのうちの少なくとも１つを抽出するように構成された、請求項２に記載のデバイス。
１つまたは複数のマイクロフォンからの出力に基づくオーディオ波形がオーディオイベント決定器に提供されるか、または別のデバイスから受信された前記パケットが前記オーディオイベント決定器に提供されるかを選択するように構成されたオーディオ経路選択器をさらに備える、請求項２に記載のデバイス。
前記オーディオ経路選択器が、コントローラ入力を受信し、デバイスモードを提供するように構成された、請求項４に記載のデバイス。
オーディオ波形を出力するように構成され、前記オーディオ波形を前記１つまたは複数のプロセッサに提供するように構成されたオーディオコーデックに結合された、１つまたは複数のマイクロフォンをさらに備える、請求項１に記載のデバイス。
前記決定されたオーディオイベントが、音声メトリック決定器ユニットから、１つの音声メトリックを少なくとも分類することに基づき、前記１つまたは複数のプロセッサが、ローカルクロックと、ローカルデバイス識別値と、前記オーディオイベントとのうちの少なくとも１つを提供するように構成されたオーディオイベント分類器バンクを含む、請求項６に記載のデバイス。
前記イベント分類器バンクがデバイスモードによって制御される、請求項７に記載のデバイス。
要約された追跡されたオーディオアクティビティバッファを含むメモリをさらに備える、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサが、前記フィードバックモードを選択するように構成されたオーディオアクティビティフィードバック提供器を含む、請求項９に記載のデバイス。
視覚フィードバックモードが選択されたとき、要約された追跡されたオーディオアクティビティの視覚フィードバックを表示するように構成されたディスプレイデバイスをさらに備える、請求項１０に記載のデバイス。
可聴フィードバックモードが選択されたとき、要約された追跡されたオーディオアクティビティの可聴フィードバックを発生するように構成された１つまたは複数のラウドスピーカーをさらに備える、請求項１０に記載のデバイス。
前記１つまたは複数のラウドスピーカーがヒアラブルデバイスに組み込まれた、請求項１２に記載のデバイス。
前記１つまたは複数のプロセッサが、前記要約モードに基づいて、前記追跡されたオーディオアクティビティを提供するためのオーディオアクティビティ追跡器を含み、前記オーディオアクティビティ追跡器は、前記決定されたオーディオイベントが同じオーディオイベントであるか異なるオーディオイベントであるかを決定するために前のオーディオイベントと比較することを備える、請求項１に記載のデバイス。
前記オーディオアクティビティ追跡器が、前記決定されたオーディオイベントをアグリゲートすることに基づいて、およびタイムスタンプ、デバイス識別値、または人識別値のうちの少なくとも１つに基づいて、２つ以上のオーディオイベントをバッチ処理するように構成された、請求項１４に記載のデバイス。
前記追跡されたオーディオアクティビティが、環境、感情、スピーチ状態、可聴コンテキスト、視覚コンテキスト、またはセンサー示度のうちの少なくとも１つを検出することに基づく、請求項１５に記載のデバイス。
前記追跡されたオーディオアクティビティが、識別データタイプと、人識別と、個人識別情報とのうちの１つにさらに基づく、請求項１６に記載のデバイス。
前記要約された追跡されたオーディオアクティビティに関連付けられた感情のリンクを表すように構成されたディスプレイデバイスをさらに備える、請求項１に記載のデバイス。
オーディオ信号を受信したことに基づいてオーディオイベントを決定することと、
前記決定されたオーディオイベントに基づいてオーディオアクティビティを追跡することと、
要約モードのユーザ選択に基づいて、前記追跡されたオーディオアクティビティを要約することと、ここにおいて、前記要約モードが、時間モード、感情モード、アクティビティモード、環境モード、スピーチ状態モード、関連付けモード、重複モード、または推奨モードのうちの１つまたは複数である、
フィードバックモードに基づいて、前記要約された追跡されたオーディオアクティビティのフィードバックを提供することとを備える方法。
フィードバックモードを選択することをさらに備える、請求項１９に記載の方法。
前記要約された追跡されたオーディオアクティビティの前記フィードバックは、前記フィードバックモードが視覚フィードバックモードであるとき、表示される、請求項２０に記載の方法。
前記要約された追跡されたオーディオアクティビティの前記フィードバックは、前記フィードバックモードが可聴フィードバックモードであるとき、可聴である、請求項２０に記載の方法。
前記要約された追跡されたオーディオアクティビティは、前記決定されたオーディオイベントが同じオーディオイベントであるか異なるオーディオイベントであるかを決定するために前のオーディオイベントと比較することに基づく、請求項１９に記載の方法。
前記要約された追跡されたオーディオアクティビティが、前記決定されたオーディオイベントをアグリゲートすることに基づいて２つ以上のオーディオイベントをバッチ処理する、請求項１９に記載の方法。
前記要約された追跡されたオーディオアクティビティが別のデバイスに送信される、請求項１９に記載の方法。
オーディオ信号を受信したことに基づいてオーディオイベントを決定するための手段と、
前記決定されたオーディオイベントに基づいてオーディオアクティビティを追跡するための手段と、
要約モードのユーザ選択に基づいて、前記追跡されたオーディオアクティビティを要約するための手段と、ここにおいて、前記要約モードが、時間モード、感情モード、アクティビティモード、環境モード、スピーチ状態モード、関連付けモード、重複モード、または推奨モードのうちの１つまたは複数である、
フィードバックモードに基づいて、前記要約された追跡されたオーディオアクティビティのフィードバックを提供するための手段とを備える装置。
前記フィードバックモードを選択するための手段をさらに備える、請求項２６に記載の装置。
実行されたとき、デバイスの１つまたは複数のプロセッサに、
オーディオ信号を受信したことに基づいてオーディオイベントを決定することと、
前記決定されたオーディオイベントに基づいてオーディオアクティビティを追跡することと、
要約モードのユーザ選択に基づいて、前記追跡されたオーディオアクティビティを要約することと、ここにおいて、前記要約モードが、時間モード、感情モード、アクティビティモード、環境モード、スピーチ状態モード、関連付けモード、重複モード、または推奨モードのうちの１つまたは複数である、
フィードバックモードに基づいて、前記要約された追跡されたオーディオアクティビティのフィードバックを提供することとを行わせる命令を記憶した非一時的コンピュータ可読記憶媒体。