JP2014222523A

JP2014222523A - 音声ライブラリおよび方法

Info

Publication number: JP2014222523A
Application number: JP2014132121A
Authority: JP
Inventors: ゴールドスタインスティーブン; Goldstein Steven; ピー．キーディジョン; P Keady John; ホシザキゲイリー; Hoshizaki Gary
Original assignee: Personics Holdings Inc
Current assignee: Personics Holdings Inc
Priority date: 2008-09-16
Filing date: 2014-06-27
Publication date: 2014-11-27
Also published as: EP2327271A2; US9602938B2; WO2010033533A2; US20160150333A1; WO2010033533A3; US9253560B2; US20100142715A1; EP2327271A4; JP2012504251A

Abstract

【課題】好適な音声ライブラリおよび方法を提供すること。
【解決手段】少なくとも１つの例示的実施形態は、世界中およびそれ以上から音声シグネチャを収集するように構成されるウェブサイトを対象とする。通信デバイスは、通信デバイスのマイクロホンによって受信される音響情報を自動的に記憶する。音響情報は、トリガイベントについて分析される。トリガイベントは、音響情報を記憶し、メタデータを添付し、ガウス混合モデルを作成し、音圧レベルを測定する。通信デバイスは、通信経路が通信デバイスに開かれると、音声シグネチャをデータベースに自動的に送信する。各音声シグネチャは、タイムスタンプおよびジオコードを含む関連メタデータを有する。プロセスのために適合された通信デバイスを使用して、音声を自動的に収集することにより、継続的に音声を世界的に捕捉するデータベースを有効にする。
【選択図】図１１

Description

（関連出願の相互参照）
本願は、米国仮特許出願第６１／０９７，３９６号（２００８年９月１６日出願）の利益を主張する。この出願の開示は、その全体が本明細書に参考として援用される。

（発明の分野）
本発明は、一般に、音声および音声を収集する方法に関し、排他的ではないが具体的には、音声のライブラリを作成することに関係している。

環境中の音響は、文明および技術の進歩とともに進化している。経時的に、人々は音響の変化に適応し、新しい技術によってもたらされた音声を認識することを習得してきた。大都市の音声は、各輸送手段が各自の独特な音響を付与するため、歩行、自転車、自動車、地下鉄、および飛行機へと輸送手段が変化するにつれて異なる。音声は、場所、環境、および文化の反映である。例えば、オーストラリアの平穏な峡谷での風のうなる音、または大晦日のニューヨークのタイムズスクエアでの交通あるいはレストランの音は、時間、場所、およびイベントの独特な音響スナップショットである。

現在入手可能な情報の全てがありながら、世界で利用可能である自然発生および人口音声の検索可能なデータベースは１つもない。保存されている音響情報は、多くの種類のメディア形式であり、多くの場所に記憶され、見つけて使用することが困難になっている。さらに、音声を貯蔵する人々の数は、日常的に作成されている音響情報に関して、比較的少ない。我々の周囲で発生する変化の速度により、広く普及した音声がもはや再び聞かれない可能性が高い。全ての種類の音響情報を貯蔵し、利用可能にすることは、人類にとって多大な便益となるであろう。

少なくとも１つの例示的実施形態は、音響情報を収集する方法であって、音響情報を自動的に受信し、収集し、送信するようにデバイスを構成するステップと、トリガイベントが発生したか否かを決定するために、第１の組の音響情報を分析するステップと、トリガイベント発生したときに、第２の組の音響情報を収集するステップと、第２の組の音響情報をデータベースに提供するステップとを含む、方法を対象とする。

少なくとも１つの例示的実施形態は、地図とともに音響情報を提供する方法であって、トピックを検索するステップと、トピックと関連する地図を提供するステップと、トピックに関係する音響情報について音響データベースを検索するステップと、地図とともに再生するために、トピックに関係する音響情報を提供するステップとを含む、方法を対象とする。
本発明は、例えば、以下を提供する。
（項目１）
音響情報を収集する方法であって、
音響情報を自動的に受信し、収集し、送信するようにデバイスを構成するステップと、
トリガイベントが発生したか否かを決定するために、第１の組の音響情報を分析するステップと、
該トリガイベントが発生したときに、第２の組の音響情報を収集するステップと、
該第２の組の音響情報をデータベースに提供するステップと
を含む、方法。
（項目２）
音圧レベルが所定の閾値を超えていることを上記第１の組の音響情報が示すとき、トリガイベントは既に発生している、項目１に記載の方法。
（項目３）
音圧レベルが所定の量だけ変化したことを上記第１の組の音響情報が示すとき、トリガイベントは既に発生している、項目１に記載の方法。
（項目４）
上記デバイスが所定の場所範囲内にあることを上記第１の組の音響情報が示すとき、トリガイベントは既に発生している、項目１に記載の方法。
（項目５）
第１の組の音響情報が所定の時間範囲内であることを該第１の組の音響情報が示すとき、トリガイベントは既に発生している、項目１に記載の方法。
（項目６）
上記第１の組の音響情報を、少なくとも１つの音声シグネチャと比較するステップと、
上記音声が該少なくとも１つの音声シグネチャに類似しているときに、上記第２の組の音響情報を収集するステップと
をさらに含む、項目１に記載の方法。
（項目７）
上記第１の組の音響情報を、少なくとも１つの音声シグネチャと比較するステップと、
上記音声が該少なくとも１つの音声シグネチャとは異なるときに、上記第２の組の音響情報を収集するステップと
をさらに含む、項目１に記載の方法。
（項目８）
トリガイベントが発生すると、上記第１の組の音響情報を記憶するステップと、
メタデータを該第１の組の音響情報に添付するステップと、
メモリの中に第３の音響情報のキューを構築するステップと、
上記通信デバイスと上記データベースとの間の通信経路が有効になると、該第３の音響情報のキューを該データベースに送信するステップと
をさらに含む、項目１に記載の方法。
（項目９）
上記メタデータとともにタイムスタンプおよびジオコードを含むステップをさらに含み、それにより、それぞれ時間および地理的場所を提供する、項目８に記載の方法。
（項目１０）
上記音響情報のガウス混合モデルを含む音声シグネチャを上記データベースに提供するステップをさらに含む、項目１に記載の方法。
（項目１１）
上記第２の組の音響情報の音圧レベル測定を上記データベースに提供するステップをさらに含む、項目１に記載の方法。
（項目１２）
上記第１の組および上記第２の組の音響情報のうちの少なくとも１つを記憶するステップをさらに含む、項目１に記載の方法。
（項目１３）
トピックを検索するステップと、
該トピックと関連する地図を提供するステップと、
該トピックに関係する情報について上記データベースを検索するステップと、
該地図とともに再生するために該情報を提供するステップと
さらに含む、項目１に記載の方法。
（項目１４）
音響情報を収集し、提供する方法であって、
音響情報のリポジトリにアクセスできるウェブサイトを提供するステップと、
音圧レベル（ＳＰＬ）を測定するように構成される第２の複数の通信デバイスを使用して、第１の複数のＳＰＬレベルを収集するステップと、
各音圧レベルにタイムスタンプおよびジオコードを含むメタデータを添付するステップと、
該ウェブサイトとともに使用するためのデータベースの中に該音圧レベルを記憶するステップと
を含む、方法。
（項目１５）
音圧レベルを自動的に収集し、アップロードするステップをさらに含む、項目１４に記載の方法。
（項目１６）
携帯電話によって音圧レベルを収集するステップをさらに含む、項目１４に記載の方法。
（項目１７）
イヤホンによって音圧レベルを収集するステップをさらに含む、項目１４に記載の方法。
（項目１８）
ユーザインターフェースが、編集、監視、およびコンテンツの管理を促進する、項目１４に記載の方法。
（項目１９）
音響情報を収集し、提供する方法であって、
記憶された音響データベースにアクセスするステップと、
ウェブベースのＧＩＵインターフェースの少なくとも１つのページを使用して、音響情報をアップロードするステップと、
該アップロードされた音響情報を音波シグネチャパラメータと比較するステップであって、該パラメータは、訓練されたモデルと関連する、ステップと、
該パラメータを使用して該アップロードされた音響情報を識別し、該アップロードされた音響情報に識別子を追加するステップと、
該アップロードされた音響情報および該識別子を該ベースの中に記憶するステップと
を含む、方法。
（項目２０）
上記アップロードは、自動的に達成される、項目１９に記載の方法。
（項目２１）
上記アップロードは、複数の通信デバイスを使用して達成される、項目２０に記載の方法。
（項目２２）
ウェブベースのＧＵＩインターフェースは、ユーザアクセスを促進するように構成される、項目２０に記載の方法。
（項目２３）
上記ウェブベースのＧＵＩインターフェースの少なくとも１つのページからアクセス可能である記録を投稿するステップと、
該投稿された記録の議論を促進するために、上記ウェブサイト上にフォーラムを提供するステップと
をさらに含む、項目１９に記載の方法。
（項目２４）
携帯電話によって音圧レベルデータを記録するステップであって、該携帯電話は、該音圧レベルデータにタイムスタンプおよびジオコードを追加する、ステップと、
該音圧レベルデータを上記ウェブサイトにアップロードするステップと、
上記ウェブベースのＧＵＩインターフェースの少なくとも１つのページからアクセス可能である音圧レベルデータを投稿するステップと
をさらに含む、項目１９に記載の方法。
（項目２５）
イヤホンによって音声シグネチャを記録するステップであって、該イヤホンは、該音声シグネチャにタイムスタンプおよびジオコードを付するデータを含むメタデータを生成する、ステップと、
該音声シグネチャおよびメタデータを上記ウェブサイトにアップロードするステップと、
議論のために上記音声シグネチャおよびメタデータを該ウェブサイトに投稿するステップと
をさらに含む、項目１９に記載の方法。
（項目２６）
イヤホンによって音圧レベルを記録するステップであって、該イヤホンは、該音圧レベルにタイムスタンプおよびジオコードを付するデータを含むメタデータを生成する、ステップと、
該音圧レベルおよびメタデータを上記ウェブサイトにアップロードするステップと、
上記ウェブベースのＧＵＩインターフェースの少なくとも１つのページからアクセス可能である上記音圧レベルデータを投稿するステップと、
をさらに含む、項目１９に記載の方法。
（項目２７）
音声シグネチャを収集し、提供する方法であって、
記憶された音響データベースの中のアップロードされた音波シグネチャにアクセスするステップと、
該データベースからデバイスに少なくとも１つの音波シグネチャを提供するステップであって、それにより、該デバイスは、上記少なくとも１つの音声シグネチャを使用して、該デバイスによって受信された音声との比較を行うことにより、該少なくとも１つの音声シグネチャに類似した音声の存在を決定する、ステップと
を含む、方法。
（項目２８）
音響情報を収集する方法であって、
通信デバイスによって音圧レベルを測定するステップと、
いつ、どこで該音圧レベルが測定されたかという時間情報および地理的情報を含むメタデータを該音圧レベルとともに捕捉するステップと、
該通信デバイスのメモリに該音圧レベルおよびメタデータを記憶するステップと、
該通信デバイスからデータベースに該音圧レベルおよびメタデータをアップロードするステップと
を含む、方法。
（項目２９）
音響情報を収集する方法であって、
通信デバイスによって音響情報を記録するステップと、
該音響情報から音波シグネチャを生成するステップであって、該音波シグネチャは、モデルパラメータと、該音響情報を表す特徴とを含む、ステップと、
いつ、どこで該音波シグネチャが記録されたかという時間情報および地理的情報を含むメタデータを捕捉するステップと、
該通信デバイスのメモリに該音波シグネチャおよびメタデータを記憶するステップと、
該通信デバイスからデータベースに、該音波シグネチャデータおよびメタデータをアップロードするステップと
を含む、方法。
（項目３０）
マッピングする方法であって、
地理的領域を識別するステップと、
該地理的領域と関連する音響データベースから音声シグネチャ情報を取り出すステップと、
該音響データベースからのデータを使用して、該地理的領域に関係する音響情報を図示する音響地図を作成するステップと
を含む、方法。
（項目３１）
地図とともに音響情報を提供する方法であって、
トピックを検索するステップと、
該トピックと関連する地図を提供するステップと、
該トピックに関係する音響情報について音響データベースを検索するステップと、
該地図とともに再生するために、該トピックに関係する該音響情報を提供するステップと
を含む、方法。
（項目３２）
周期信号が検出されたことを上記第１の組の音響情報の分析が示すとき、トリガイベントが既に発生している、項目１に記載の方法。
（項目３３）
周期信号が検出されると、上記第１の組の音響情報を少なくとも１つの音声シグネチャと比較するステップと、
上記音声が該少なくとも１つの音声シグネチャに類似しているときに、上記第２の組の音響情報を収集するステップと
をさらに含む、項目２８に記載の方法。

本発明の例示的実施形態は、発明を実施するための形態および添付図面から、より完全に理解されるであろう。
図１は、少なくとも１つの例示的実施形態による、音響情報のリポジトリとしてのウェブサイトの概略図を図示する。図２は、少なくとも１つの例示的実施形態による、データベースを管理および使用するためのウェブサイトおよびユーザコミュニティの概略図を図示する。図３は、少なくとも１つの例示的実施形態による、音声シグネチャをウェブサイトのデータベースに提供するユーザの概略図を図示する。図４は、少なくとも１つの例示的実施形態による、再生および管理環境の使用の概略図を図示する。図５は、少なくとも１つの例示的実施形態による、議論ウェブページの概略図を図示する。図６は、少なくとも１つの例示的実施形態による、音圧レベルのデータベースの概略図を図示する。図７は、少なくとも１つの例示的実施形態による、ウェブサイトから音声シグネチャを受信するイヤホンの概略図を図示する。図８は、少なくとも１つの例示的実施形態による、ユーザの耳を部分的に密閉または密閉するイヤホンの概略図を図示する。図９は、少なくとも１つの例示的実施形態による、イヤホンの概略図を図示する。図１０は、少なくとも１つの例示的実施形態による、音声シグネチャを音声データベースに提供するための通信デバイスまたはイヤホンの概略図を図示する。図１１は、少なくとも１つの例示的実施形態による、音声シグネチャを捕捉し、音声シグネチャを音声のデータベースに提供する携帯電話のブロック図を図示する。図１２ａ−１２ｃは、少なくとも１つの例示的実施形態による、音響情報を収集するように構成されるトリガイベントとしての音圧レベルの使用を図示する、関連概略図である。図１３は、少なくとも１つの例示的実施形態による、音響情報を収集するように構成されるトリガイベントとしての地理的場所の使用の概略図を図示する。図１４は、少なくとも１つの例示的実施形態による、音響情報を収集するように構成されるトリガイベントとしての時間の使用の概略図を図示する。図１５は、少なくとも１つの例示的実施形態による、音響情報を収集するように構成されるトリガイベントとしての音声シグネチャ検出の使用の概略図を図示する。図１５ａは、周波数帯域でＳＰＬ値を使用するトリガを図示する。図１５ｂは、周期信号を使用するトリガイベントを説明する、フローチャートを図示する。図１５ｃ−１５ｋは、少なくとも１つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。図１５ｃ−１５ｋは、少なくとも１つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。図１５ｃ−１５ｋは、少なくとも１つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。図１５ｃ−１５ｋは、少なくとも１つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。図１５ｃ−１５ｋは、少なくとも１つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。図１５ｃ−１５ｋは、少なくとも１つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。図１５ｃ−１５ｋは、少なくとも１つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。図１５ｃ−１５ｋは、少なくとも１つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。図１５ｃ−１５ｋは、少なくとも１つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。図１６ａ−１６ｃは、少なくとも１つの例示的実施形態による、音響情報を収集するように構成されるトリガイベントとしてのセンサデータの使用の概略図を図示する。図１７は、少なくとも１つの例示的実施形態による、音声シグネチャのカタログ１２１０からのダウンロードのブロック図を図示する。図１８は、少なくとも１つの例示的実施形態による、音声を提供することが情報を提供し、検索体験を向上させる、アプリケーションのブロック図を図示する。図１９は、少なくとも１つの例示的実施形態による、３次元音響マッピングのアプリケーションのブロック図を図示する。図２０は、少なくとも１つの例示的実施形態による、緊急情報を自動的に提供するためのアプリケーションのブロック図を図示する。図２１は、少なくとも１つの例示的実施形態による、建物または家庭における強盗、侵入、または深刻な状況を検出するためのアプリケーションのブロック図を図示する。図２２は、少なくとも１つの例示的実施形態による、オーディオロッカーを有する社交用の個人ウェブページを含む、ウェブサイトの概略図を図示する。

例示的実施形態の以下の説明は、本質的に例証的であるにすぎず、決して本発明、その適用、または使用を限定することを目的としない。

当業者に公知であるようなプロセス、技法、装置、および材料は、詳細に論議されない場合があるが、適切な場合に授権説明の一部となることを目的とする。例えば、論議されるステップのそれぞれを達成するための具体的なコンピュータコードが記載されない場合があるが、当業者であれば、必要以上の実験がなくても、本明細書の授権開示を考慮すると、そのようなコードを書くことができるであろう。そのようなコードは、少なくとも１つの例示的実施形態の範囲に入ることを目的とする。

加えて、例示的実施形態で使用される構造のサイズは、本明細書のいずれの論議によっても限定されない（例えば、構造のサイズは、マクロ（センチメートル、メートル、およびサイズ）、マイクロ（マイクロメートル）、ナノメートルサイズ、およびそれより小さくなり得る）。

同様の参照数字および文字は、以下の図中の同様項目を指し、したがって、いったん項目が１つの図で定義されると、次の図で論議またはさらに定義されない場合があることに留意されたい。

本明細書で図示および論議される実施例の全てでは、あらゆる具体的な値は、例証的にすぎず、非限定的と解釈されるべきである。したがって、例示的実施形態の他の実施例には、異なる値があり得る。

音波シグネチャ検出および検出の方法が本明細書で提供されるが、本明細書の範囲は、論議される音波シグネチャの説明に限定されると解釈されるべきではない。例えば、両方ともそれらの全体で本明細書に組み込まれる、「ＭｅｔｈｏｄａｎｄＤｅｖｉｃｅｆｏｒＳｏｕｎｄＤｅｔｅｃｔｉｏｎａｎｄＡｕｄｉｏＣｏｎｔｒｏｌ」と題された２００８年２月２２日出願の特許出願第１２／０３５，８７３号、および「ＭｅｔｈｏｄａｎｄＤｅｖｉｃｅＣｏｎｆｉｇｕｒｅｄｆｏｒＳｏｕｎｄＳｉｇｎａｔｕｒｅＤｅｔｅｃｔｉｏｎ」と題された２００７年１２月２８日出願の特許出願第１１／９６６，４５７号は、音波シグネチャ検出の付加的な方法を説明している。

図１は、少なくとも１つの例示的実施形態による、音響情報を捕捉し、リポジトリに音響情報を記憶するためのシステムを図示する概略図である。システム１００は、１つ以上のマイクロホン１１２（例えば、ＫｎｏｗｌｅｓＦＧマイクロホン、平衡電機子、ダイヤフラム、および他の音響記録および／または測定デバイス）に通信可能に結合される、１つ以上の通信デバイス１０６（例えば、移動および定常通信システム（例えば、電話、コンピュータ））を使用して、世界中の音響情報を捕捉し、音響情報を分析し、どの音響情報に関連性があるかを決定し、関連音響情報をデータベース１１０（例えば、市販の関係データベース）に提供し、音響情報を組織化し、異なる用途に対する音響情報を提供することができる。「どの音響情報に関連性があるかを決定する」ステップの少なくとも１つの非限定的実施例は、例えば、音響信号が選択されたトピックであるか否かを識別するために音波シグネチャモデルを使用して、音響信号がノイズフロアを上回るか否か、または音響信号が選択されたトピック（例えば、車の警笛、警報）の範囲に入るか否かを決定するステップを含むことができることに留意されたい。

システム１００は、ワールドワイドウェブ、セルラーネットワーク、メッシュネットワーク、ならびに、社会経済および地理的な多様性がある多数の人々へのアクセスを獲得する経路としての通信に使用される他のネットワークを活用する。システム１００を用いて、人々は独特の環境から音声を収集することができる。これは、種々の場所で、かつ異なるときに、環境中の特定の音響の種々の順列の効率的な捕捉を可能にする。そうでなければ、１つの実体、人々のグループ、または大型組織が、そのような膨大な量の音響データを収集し、管理することは、圧倒的な取り組みとなるであろう。

システム１００は、捕捉された音声の集合に追加するために、データベース１１０への音声の手動または自動記録および入力を可能にする。人々は、特定の時間および場所で、音声を選択的に捕捉し、音声をタグ付けして特定の体験と関連付けることができる。集合的に、捕捉された音声は、特定の場所でのアンサンブル音声体験または「音響スナップショット」を表すことができる。そのような点で、システム１００は、大部分の人々が音声を１日２４時間収集することを可能にする。

通信デバイス１０６は、音声を受信するように構成されるマイクロホンを含む。典型的には、人々は、移動し、通信デバイスを持ち歩く。通信デバイス１０６を使用して音声を収集することにより、各個人が日中および夜間中にあちこち移動するにつれて、膨大な量の音響情報を生成する。通信デバイス１０６はまた、ユーザ介入なしで、かつ継続的に、音声を自動的に収集してデータベース１１０に送信し、それにより、世界中で１日２４時間、音響情報のデータベース１１０を作成するように適合することもできる。したがって、何億または何十億もの人々が、歴史的、社会的、科学的、医学的、および事業目的で音響情報を収集し得る。

少なくとも１つの例示的実施形態では、音声の収集は、人間の可聴範囲より上および下の周波数まで、かつ収集されている音声の種類までの最も広い文脈で暗示される。乳児の鳴き声、いびきをかく人、ヘビが地面を這う音、街路の騒音、または砂漠の雨は、記録および記憶し、かつ場所および時点の文脈に配置することができる、音声のわずかな実施例である。

少なくとも１つの例示的実施形態では、はっきり異なる音声のカタログを生成することができる。収集された音声は、我々の生活のはっきり異なる可聴要素を表す、独自の１組の音声を構築するように組織化される。これらの音声は、いくつかのレベルでインデックス可能（例えば、車両、車の種類、船、海、海辺、乳児の鳴き声）かつ検索可能となるよう、カタログに入れられ、相互参照される。例証目的のいくつかのカテゴリの実施例は、住居の音であり、家に押し入った音、ガレージの音、芝生からの音、ならびにこれらのカテゴリがなければ、従来的にそこで見られる電化製品、道具、および機械の分類である。付加的なカテゴリは、ほんの数例を挙げれば、商業（例えば、工場、コールセンター、建設現場、オフィス、ホテル等）、医療（例えば、歯科医院、手術室、病院等）、輸送（例えば、飛行機、バス、電車、地下鉄、車両等）となり得る。これらの音声をカタログに入れる際に、可能な限り多くのメタデータが捕捉され、音声と関連付けられることも意図される。また、社交で使用するための収集された音声の側面もあり、これは以下でさらに論議する。

さらなる使用は、本質的に軍事用となり得る。沿岸環境を、リアルタイムで音響的にマッピングし、タグ付けし、安全な通信ネットワークを介して送信することができる。タグ付けされた音響信号は、地図上に表示し、的の活動、場所の動向、銃弾の使用、車両の場所および移動、味方の場所および移動、ならびに軍事計画者にとって有用な他の諜報を識別するために、自動的および／または手動で分析することができる。

図２は、少なくとも１つの例示的実施形態による、データベース２１２を管理および使用するためのウェブサイト２０８およびユーザコミュニティの概略図を図示する。通信デバイス２００は、自動的に音響情報２０２を収集し、通信経路２０６を通してデータベース２１２に音響情報をアップロードする。通信経路２０６は、データベース２１２に結合することができる、インターネット、有線または無線ネットワーク、衛星となり得る。ウェブサイト２０８は、カタログを援助し、情報を提供し、ウェブサイトにおける音響情報の完全性を維持するために、グローバルメンバーコミュニティを活用する。少なくとも１つの例示的実施形態では、通信デバイスはまた、通信デバイス２００上で使用するために、通信経路２０６を通してデータベース２１２から音響情報をダウンロードすることもできる。

ウェブサイト２０８は、通信デバイスを通して自動的に受信された音響情報、ならびに手動で提供された音響情報を捕捉し、識別し、カタログに入れ、フォーマットする際に、参加者が他者と協力することを可能にする。グローバルユーザ２００は、ウェブサイト２０８のある限度内で、音声コンテンツを追加、使用、編集、削除、および修正することが可能となる。

ウェブサイト２０８のウェブページは、全員を音響情報のデータベース２１２への関与に従事させる。オープンウェブコミュニティを通して、何万または何百万もの参加者がプロジェクトに参入することができる。したがって、世界中からの音声のデータベースを効率的に組み立てることができ、現在および将来の生成のために全員にアクセス可能である。少なくとも１つの例示的実施形態では、ユーザは、一度登録し、ブロック２１０によって示されるようにログインしてウェブサイトを使用しなければならない。いったんログインすると、ユーザは、ある特権内でデータベースにアクセスできるようになる。少なくとも１つの例示的実施形態では、データベース２１２へのユーザアクセスは、個人の貢献に基づくか、またはアクセスへの支払いによるものとなり得る。

ウェブサイト２０８は、共通の１組の技術および組織的ガイドラインに従って、音声をフォーマットし、カタログに入れ、組織化することができる。それは、コミュニティで利用可能な共同ツールを介して、音声の収集およびカタログ作成を規制および管理し、それにより、ユーザが収集プロセスを規制し、品質管理の側面を浸透させることを可能にすることができる。

ウェブサイト２０８の一側面は、共通データベースに多様な音声をカタログに入れる。データベース２１２に入れられる各音声は、関連メタデータを通して、多数の異なるレベルで参照および相互参照することができるように、識別および分類される。少なくとも１つの例示的実施形態では、音声シグネチャは、データベース２１２に記憶される。音声シグネチャはまた、音声モデルとして記憶することもできる。例えば、独特の音声（例えば、警笛、サイレン、ベル、口笛等）の各収集は、ガウス混合モデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ／ＧＭＭ）として表すことができる。ＧＭＭのパラメータは、パターン認識の意味で、音声を完全に説明する。次いで、ＧＭＭは、その独特の音声の新しい発生、例えば、新たに記録された警笛音を認識するために使用することができる。音声のＧＭＭを有することにより、メモリに音波形全体を記憶する必要性を低減し、それにより、そのような大量の情報を記憶するときのメモリ必要量を低減する。ＧＭＭは、データベース２１２の中の音声を検索し、識別し、比較する際に使用することができる。少なくとも１つの例示的実施形態では、データベース２１２に記憶された各音声（例えば、警笛、口笛、いびき等）の少なくとも１つのＧＭＭがある。

図３は、少なくとも１つの例示的実施形態による、音声シグネチャをウェブサイトのデータベースに提供するためのプロセスを図示する概略図である。ウェブサイトに提供される音声シグネチャは、データベースに組み込む前に見直される。少なくとも１つの例示的実施形態では、組み込むための基準を満たすことを確実にするために、音声シグネチャの技術的形式３０２がチェックされる。最小限の技術基準を満たし、形式の数を限定することにより、コミュニティが良質の記録にアクセスできることを可能にする。少なくとも１つの例示的実施形態では、技術的形式３０２は、非準拠オーディオ形式をウェブサイトの準拠形式に変換することができる、プログラムを含むことができる。

少なくとも１つの例示的実施形態では、提供されている音声シグネチャは、音声シグネチャ検索３０４において、データベースの中の他のものに対して比較される。寄稿者または自動的に生成されたメタデータは、比較に役立つ音声シグネチャと関連する検索パラメータを提供する。少なくとも１つの例示的実施形態では、種々の音声カテゴリに対する音声シグネチャを、ガウス混合モデル（ＧＭＭ）によって表すことができる。ＧＭＭはまた、音響情報が提供された場合のみ生成される。各ＧＭＭは、多次元空間での各音声シグネチャの特徴統計の分布のモデルを提供する。ＧＭＭは、未知の音声の検索または検出で使用することができる。音声シグネチャはまた、データベースの中に存在する他の音声シグネチャに対して、その独特性および技術的品質について比較することもできる。さらに、ウェブサイトへの寄稿者のコミュニティは、いったんウェブサイトに配置されると、音声シグネチャの利点の決定プロセスで有意な役割を果たすことができる。

応答３０６は、決定がデータベースに音声シグネチャを含まないことである場合に、寄稿者に提供される。応答３０６は、同様のシグネチャがすでに存在する、技術的問題、または含まない他の要因等の、音声シグネチャが使用されない種々の理由を示すことができる。音声シグネチャを組み込む肯定の決定は、メタデータを提供することを含む。一般に、メタデータは、音声シグネチャに関連および関係する情報を含むことができる。少なくとも１つの例示的実施形態では、メタデータは、音声シグネチャを識別すること、または音声シグネチャをデータベース中の他の音声シグネチャと相互参照することに役立つように、音声についての情報を検索し、分類し、提供することを支援する。何、いつ、およびどこ等の音声シグネチャに関する説明またはデータは、提供されるメタデータの一部である。メタデータは、データベースが増大し、ユーザおよび寄稿者の必要性がより良く理解されるにつれて、高いレベルまで成長することができる。

前述のように、データベースまたはアーカイブは、世界中の音声で作成されている。いつ音声が記録されたか、およびどこで記録されたかという知識は、音声シグネチャとともにデータベースに記憶される。したがって、メタデータの構成要素は、タイムスタンプおよびジオコード３１８を付けることができる。タイムスタンプは、音声シグネチャが得られた時間である。この情報は、記録プロセスの一部として得られ、手動で提供または自動的に提供することができる。ジオコードは、地球上であろうと宇宙のどこかであろうと、測定が行われる正確な地点または場所の表現を提供する、座標測定である。少なくとも１つの例示的実施形態では、音声測定を行うデバイスはＧＰＳを有し、または、音声シグネチャが得られた位置を提供するための別個のグローバルポジショニングシステム（ＧＰＳ）デバイスを使用して、ジオコードが提供される。代替として、例えば、送信された信号の携帯電話基地局三角測量といった、付加的な場所特定方法を使用することができる。少なくとも１つの例示的実施形態では、記録デバイスは、音声シグネチャとともにタイムスタンプおよびジオコード３１８を自動的に提供するように設計される。このデータベースとともに経時的に発生する変化を含む、世界の３次元音響地図を生成することができる。

メタデータの一実施例は、同様のカテゴリであるが異なる地理的起点を伴う他の音声に対して、これらのカテゴリからの音声を並置する情報である。異なる地理的場所にある共通デバイスは、異なる音声を有する。緊急およびパトカーのサイレンは、同じ意味を有する（例えば、緊急車両または警察が近くにいて、急速に近づいているかもしれない）が、起源国に応じて、根本的に異なる音を出す場合がある。この種類の違いは、国または大陸（米国、ヨーロッパ、アジア等）に応じて、掃除機、ドアのベル、警笛等の多数の物体にまで及ぶ。各音声シグネチャと関連するメタデータは、共通データベースの中で異なる音声の全てをカタログに入れ、次いで、関連メタデータを通して、多数の異なるレベルで参照および相互参照することができるように、音声を組織化する。

少なくとも１つの例示的実施形態では、ウェブサイトは、適切なメタデータを提供するために記入されるフォームを提供し、このフォームも、通信デバイスに組み込み、捕捉されてデータベースに提供されている音声シグネチャに自動的に添付することができる。音声シグネチャおよびメタデータ３０８は、情報をチェックする３１０ステップで見直される。通信デバイスの寄稿者または所有者は、情報のチェック３１０中に見つかったエラーを訂正するために通知を受けることができる。音声シグネチャおよびメタデータは、ステップ３１２でデータベースに記憶される。いったんデータベースに記憶されると、グローバルユーザおよび寄稿者３１６は、ウェブサイト３１４上の音声シグネチャおよびメタデータ３０８を見直すことができる。

図４は、少なくとも１つの例示的実施形態による、再生および管理環境の使用を図示する概略図である。ウェブサイト４０２は、コンテンツおよび構造の共同編集を使用する。この共同アプローチをウェブサイトに使用して、持続的なコミュニティが構築され、形成される。少なくとも１つの例示的実施形態では、オンラインコミュニティが、カタログ作成し、情報を追加し、特徴を追加し、ウェブサイトを維持することに役立つ。

上述のように、音声は、音声が何であるかを説明する関連メタデータでタグ付けされる。捕捉された音声およびそれと関連するメタデータの実施例は、２００８年６月１６日（月）の午後２時における、ロックフェラーセンター（ＲｏｃｋｅｆｅｌｌｅｒＣｅｎｔｅｒ）付近のニューヨークシティ４８^ｔｈおよび６^ｔｈＡｖｅｎｕｅの角での２００４ＬｉｎｃｏｌｎＴｏｗｎｃａｒのクラクションの音である。通信デバイスの所有者はまた、通過中の他の車両、歩行者の往来、および警察官の笛等の主要な音声に関して存在する、音声シグネチャのメタデータに説明を提供する。逆に、データベース４０８の中の音声シグネチャの比較は、良好な合致を生じさせてもよく、警笛、車、街路等の合致の関連メタデータは、新しい提供された音声シグネチャに添付することができる。

ウェブサイト４０２環境は、音響情報のデータベースを調査し、アップロードし、カタログに入れ、聴き、維持するためのツールである。作者４０４またはグローバルユーザおよび寄稿者４１０は、作者４０４またはグローバルユーザおよび寄稿者４１０が音声シグネチャの側面を管理することを可能にする、管理環境４０６を利用することができる。少なくとも１つの例示的実施形態では、作者404またはグローバルユーザおよび寄稿者４１０は、既存の音声シグネチャを修正または除去し、新しい音声シグネチャを追加し、音声シグネチャ４０８のデータベース内に記憶された関連メタデータを追加または修正するために、管理環境４０６を使用する。音声シグネチャ捕捉および使用の全ての側面をサポートする新しいツールの追加を、ウェブサイト４０２に組み込むことができる。同様に、音声シグネチャに関する新しい情報、またはどのように音声シグネチャを使用できるかを、作者４０４またはグローバルユーザおよび寄稿者４１０によって追加することができる。音声シグネチャの大型データベースを有することの有用性によって駆動される必要性は、コミュニティに、ウェブサイトの機能性を増加させ、データベースのサイズを増大させ、新しい特徴を追加し、新しい情報を追加するように貢献するよう奨励する。

ウェブサイト４０２は、再生環境４１２を含む。再生環境４１２は、一般的なオーディオプロトコルを使用して、ウェブサイトを通して音声が再生されることを可能にする。再生環境４１２は、選択された音声シグネチャを再生するために、ユーザによって促される音声シグネチャ４０８のデータベースにアクセスする。

図５は、少なくとも１つの例示的実施形態による、議論ウェブページを図示する概略図である。ウェブサイト５０６は、音声シグネチャ５１６のデータベースを含む。一般に、ウェブサイト５０６のユーザは、興味深く、ユーザのコミュニティの間の議論に値すると思う音響情報を記録してもよい。ウェブサイト５０６は、関心の音響情報または音声シグネチャを投稿するための議論ウェブページ５０８を含む。

音響情報を持つ作者５０２またはユーザが、ウェブサイト５０６にアクセスする。作者５０２は、議論ウェブページ５０８に音響情報を投稿したいと思う。音響情報は、ステップ５１８でウェブサイト５０６にアップロードされる。音響情報は、技術的およびコンテンツの両方の利点についてチェックされる。基準が満たされなければ、音響情報は拒絶され、投稿されない。少なくとも１つの例示的実施形態では、作者５０２は、拒絶の理由について通知を受けてもよく、欠陥の訂正を可能にする。音響情報が上記で論議されているが、音響情報の意味は単に音声のみを暗示するわけではない。一般に、ユーザによって提供されるデータまたは情報は、音響情報を含むが、任意の他の材料を含んでもよい。音響情報と同伴する付加的な情報の実施例は、ビデオ情報である。

作者５０２によって提供される音響情報は、ウェブサイト５０６の基準が満たされれば容認される。音響情報は、データベース５１６に記憶され、オーディオを投稿するステップ５２２でウェブサイト上に提供される。少なくとも１つの例示的実施形態では、議論ウェブページ５０８は、作者５０２、またはあるいはコミュニティ内の他の誰かによって開始されてもよい、投稿された音響情報に対応する議論スレッド５１０を含む。議論スレッド５１０を見ているグローバルユーザおよび寄稿者５０４は、再生環境５１２を使用して、投稿された音響情報を再生することができる。グローバルユーザおよび寄稿者５０４は、特定のテーマについての会話を開始または継続するために、投稿された音響情報に応答し、議論することができる。例えば、ユーザが、人通りの多い道の記録された音声および音圧レベルを投稿し得る。議論は、世界で最もうるさい街は何かという形態を成し得る。スレッドの別の実施例は、人間の健康に対する継続的雑音の影響となり得る。

図６は、少なくとも１つの例示的実施形態による、音圧レベルのデータベース図示する概略図である。前述のように、世界は絶え間なく変化しており、音声および音声レベルは経時的に変化する。異なる音声のデータベースまたはカタログは１つも世界中で見られない。さらに、音圧レベルに関して利用可能な情報はほとんどない。音圧レベルは、気候、地理、環境、および自然の状態により、経時的に大幅に変化している。通信デバイス６０２は、音圧レベル（ＳＰＬ）測定を含む音響情報または音声シグネチャを自動的にアップロードする。一般に、通信デバイス６０２は、ＳＰＬを測定するために適合される。音響情報は、上記で論議されるようにチェックされる。音響情報は、確立された基準を満たさなければ使用されない。音声シグネチャは、音声シグネチャとともに音圧レベルに関する情報を含むことによって、データベース６０８への記憶に備える。タイムスタンプおよびジオコード６１４を含むメタデータが、音声シグネチャおよび音圧レベル測定を分類し、カタログに入れるために使用される。さらに、メタデータは、音声シグネチャおよび音圧レベル測定についての情報を検索し、提供するのに役立つ。次いで、音声シグネチャ、音圧レベル、およびメタデータは、データベース６０８に記憶される。次いで、ウェブサイト６０４のユーザコミュニティは、情報にアクセスできる。

音圧レベル測定は、典型的には、参照値に対する音声の尺度である。例えば、人間の聴覚の閾値が、一般的な参照値である。人間の聴覚の閾値を上回って測定される音圧レベルは、平均的な人間に聞こえる。継続的に更新される、惑星または宇宙中で測定された音圧レベルのデータベースを有することには、科学、医学、政府、企業、および個人にとって多大な有用性がある。少なくとも１つの例示的実施形態では、音圧レベル測定または任意の音響記録の質が、品質管理のためにチェックされる。例えば、記録を行ったマイクロホンの種類が識別された場合には、マイクロホンの応答関数を決定するために、マイクロホンデータベースを参照することができる。マイクロホンの応答関数は、記録された信号がマイクロホンの動作範囲を超えるか否かをチェックするために使用することができる。加えて、較正情報が記録マイクロホンに利用可能である場合、任意の記録を調整するために較正情報を使用することができる。

一実施例が、人間の健康への音声の長期的曝露についての公開報告で開示されている。大きな音声が耳に傷害を与え得ることは周知である。中程度の音圧レベルへの長期的曝露でさえも、耳に傷害を与えるか、または聴覚あるいは周波数の損失を生じ得る。また、音声コンテンツも、個人の健康において役割を果たし得る。人々は、音声に対処するためのことなる対処機構を有する。過剰に多くの音声または過剰に多様な音声は、脳が処理するのが困難となり得る。うつ病、不眠、または他の病気等の身体的影響が、音声曝露の結果となり得る。音圧レベル、時間、日付、および地理的場所のデータベースを有するには、人類にとって多大な有用性がある。例えば、周囲音が高レベルである地理的領域における健康関連問題と相関がある経時的な音圧レベルの動向は、行動および健康への音声の影響を示し得る。別の実施例では、レストランに関する音圧レベルは、レストランが騒々しいか、またはロマンティックなデートができる雰囲気であるか否かを知りたいユーザによる有用性を有することができる。さらなる実施例では、企業の本社の場所および遮音に関係する建設仕様における要素として、都市内の雑音パターンを使用することができる。

図７は、ウェブサイト７０６から音声シグネチャを受信するイヤホンシステムの概略図である。イヤホン自体が、耳を密閉または部分的に密閉することができる。イヤホンシステムは多くの形状およびサイズを成すことができることに留意されたい。耳の周囲、耳の上、耳の後ろ、耳介、耳の中等のイヤホンまたはヘッドホン構成は、耳を密閉または部分的に密閉する設計である。イヤホン７０２は、少なくとも１つのマイクロホンと、１つのスピーカとを含む。以下で開示される少なくとも１つの例示的実施形態では、イヤホン７０２は、それぞれ、周囲音を受信し、ユーザの耳道の中の音声を受信し、ユーザの耳道に音声を提供するための周囲音マイクロホンと、耳道マイクロホンと、耳道受信機とを含む。

イヤホン７０２は、音声データベース７０８から音声シグネチャを受信するために、ワールドワイドウェブ７０４または他の有線あるいは無線接続を介してウェブサイト７０６に結合される。イヤホン７０２は、有線または無線接続を介してウェブサイト７０６に接続することができる。イヤホン７０２は、ワールドワイドウェブ７０４に直接接続するインターフェースを有することができるか、またはインターネットに接続されるパーソナルコンピュータまたは携帯電話等の媒体を使用することができる。例えば、イヤホン７０２は、１つ以上の音声シグネチャをダウンロードするために、ＵＳＢケーブルを通してパーソナルコンピュータに接続することができる。パーソナルコンピュータのディスプレイが、ウェブサイト７０６をナビゲートするために使用される。同様に、イヤホン７０２は、Ｂｌｕｅｔｏｏｔｈ、Ｚｉｇｂｅｅ、Ｗｉｍａｘ、またはＵＷＢ等の無線接続を通して、携帯電話またはラップトップに接続することができる。１つ以上の音声シグネチャは、ウェブサイト７０６によって提供されるウェブ環境を使用して、音声データベース７０８を検索することにより見つけられる。次いで、音声シグネチャは、以下でさらに論議される種々の用途で使用するために、イヤホン７０２の中のメモリに記憶される。

図８は、ユーザの耳道８２４を部分的に密閉または密閉し、少なくとも１つの例示的実施形態に従って構築され、動作する、イヤホンとして概して示される、イヤホンデバイスの説明図である。図示されるように、イヤホンは、電子筐体ユニット８００と、密閉ユニット８０８とを備える。イヤホンは、典型的には、ユーザ８３０の耳道８２４の中に配置されるため、挿耳型音響アセンブリ用の電子音響アセンブリを表す。イヤホンは、挿耳型イヤホン、耳掛け式イヤホン、耳の中の受信機、部分的嵌合デバイス、または任意の他の好適なイヤホンの種類となり得る。イヤホンは、耳道８２４を部分的または完全に閉塞することができ、健康または異常な聴覚機能を有するユーザの使用のために構成することができる。

イヤホンは、周囲音を捕捉する周囲音マイクロホン（ＡｍｂｉｅｎｔＳｏｕｎｄＭｉｃｒｏｐｈｏｎｅ／ＡＳＭ）８２０と、耳道８２４にオーディオを送達する耳道受信機（ＥａｒＣａｎａｌＲｅｃｅｉｖｅｒ／ＥＣＲ）８１４と、耳道８２４内の音声曝露レベルを捕捉し、評価する耳道マイクロホン（ＥａｒＣａｎａｌＭｉｃｒｏｐｈｏｎｅ／ＥＣＭ）８０６とを含む。イヤホンは、種々の程度の遮音を提供するために、耳道８２４を部分的または完全に閉塞することができる。少なくとも１つの例示的実施形態では、アセンブリは、ユーザの耳道８２４に挿入されるように、かつ耳道８２４への入口と鼓膜との間の場所で耳道８２４の壁との音響シールを形成するように設計されている。一般に、そのようなシールは、典型的には、密閉ユニット８０８の軟質かつ柔軟な筐体を用いて達成される。

密閉ユニット８０８は、耳道８２４に対応する第１の側面と、周囲環境に対応する第２の側面とを有する、音響障壁である。少なくとも１つの例示的実施形態では、密閉ユニット８０８は、耳道マイクロホンチューブ８１０と、耳道受信機チューブ８１４とを含む。密閉ユニット８０８は、耳道８２４の中で、密閉ユニット８０８の第１の側面と鼓膜との間に約５ｃｃの閉鎖空洞を作成する。この密閉の結果として、ＥＣＲ（スピーカ）８１４は、ユーザに音声を再生するときに、全範囲の低音応答を生成することが可能である。このシールはまた、耳道８２４への入口における音場に起因する、ユーザの鼓膜における音圧レベルを有意に低減する働きをする。このシールはまた、電子音響アセンブリの遮音性能の基礎でもある。

少なくとも１つの例示的実施形態では、より広範な文脈において、密閉ユニット８０８の第２の側面は、イヤホン、電子筐体ユニット８００、および周囲環境に曝露される周囲音声マイクロホン８２０に対応する。周囲音声マイクロホン８２０は、ユーザの周辺の周囲環境から周囲音を受信する。

電子筐体ユニット８００は、マイクロプロセッサ８１６、メモリ８０４、バッテリ８０２、ＥＣＭ８０６、ＡＳＭ８２０、ＥＣＲ８１４、およびユーザインターフェース８２２等のシステム構成要素を収納する。マイクロプロセッサ８１６（またはプロセッサ８１６）は、イヤホンの計算および操作を行うための論理回路、デジタル信号プロセッサ、コントローラ、または同等物となり得る。マイクロプロセッサ８１６は、メモリ８０４、ＥＣＭ８０６、ＡＳＭ８２０、ＥＣＲ８１４、およびユーザインターフェース８２０に動作可能に結合される。ワイヤ８１８は、イヤホンに外部接続を提供する。バッテリ８０２は、イヤホンの回路およびトランスデューサに電力供給する。バッテリ８０２は、再充電可能または交換可能なバッテリとなり得る。

少なくとも１つの例示的実施形態では、電子筐体ユニット８００は、密閉ユニット８０８に隣接する。電子筐体ユニット８００の開口部は、それぞれＥＣＭ８０６およびＥＣＲ８１４に結合するように、ＥＣＭチューブ８１０およびＥＣＲチューブ８１２を受容する。ＥＣＲチューブ８１２およびＥＣＭチューブ８１０は、耳道８２４を往復する信号を音響的に結合する。例えば、ＥＣＲは、ＥＣＲチューブ８１２を通して耳道８２４の中へ音響信号を出力し、そこでイヤホンのユーザの鼓膜によって受信される。逆に、ＥＣＭ８１４は、ＥＣＭチューブ８１０を通して耳道８２４の中に存在する音響信号を受信する。示された全てのトランスデューサは、オーディオ信号処理を行い、有線（ワイヤ８１８）または無線通信経路を介したオーディオ用の送受信機を提供する、プロセッサ８１６に、オーディオ信号を受信または伝送することができる。

イヤホンは、耳道８２４の内側および外側の両方の音圧レベルを能動的に監視し、安全な音声再生レベルを確保するために監視を維持しながら、空間的および音色的な音質を向上させることができる。種々の実施形態におけるイヤホンは、リスニング試験を行い、環境中の音声をフィルタにかけ、環境中の警告音を監視し、識別された警告音に基づいて通知を提示し、一定オーディオコンテンツを周囲音レベルに維持し、個人化聴覚レベル（ＰｅｒｓｏｎａｌｉｚｅｄＨｅａｒｉｎｇＬｅｖｅｌ／ＰＨＬ）に従って音声をフィルタにかけることができる。

少なくとも１つの例示的実施形態では、イヤホンは、ウェブサイトへの有線または無線相互接続を通して、１つ以上の音声シグネチャをダウンロードすることができる。例えば、イヤホンは、パーソナルコンピュータまたは携帯電話を通して、ウェブサイトに接続される。所望の音声シグネチャが、イヤホンにダウンロードされる。一般に、音声シグネチャは、ユーザがイヤホンに識別して欲しい１つまたは複数の音声である。イヤホンは、音声を聞くための１つ以上のマイクロホンを有する。ＡＳＭ８２０は、ユーザの周囲環境に結合される。逆に、ＥＣＭ８０６は、耳道８２４に結合され、密閉ユニット８０８によって周囲環境から隔離される。

少なくとも１つの例示的実施形態では、ＡＳＭ８２０は、周囲環境からプロセッサ８１６に音響情報を提供している。プロセッサ８１６は、音声シグネチャに類似した音声について音響情報を分析する。いったん識別されると、イヤホンは、用途に基づいて音声に応答を提供する。例えば、イヤホンのユーザは、イヤホンを装着しているときに救急車またはパトカーの音を聞く、または認識したいと思う。周波数帯域におけるＦＦＴの比較が同様となり得て、その場合、全ての周波数帯域の間の標準偏差が閾値（例えば、３ｄＢ）を下回れば、音声の値の差が特定の音波シグネチャに類似していることに留意されたい。加えて、信頼性のレベルが、音声が特に検出された音波シグネチャであるという閾値（例えば、８０％）よりも良い場合に、ガウス混合モデルを使用することができる。

ユーザは、ウェブサイト（またはウェブサイトのデータベースと関連する）から、救急車およびパトカーのサイレンおよび警笛に関係するイヤホンに音声シグネチャをダウンロードする。ユーザがイヤホンを使用している間に、イヤホンのプロセッサ８１６は、ダウンロードされた音声シグネチャに類似した音声について、ＡＳＭ８２０によって提供された音響情報を分析する。周囲環境中の救急車またはパトカーの警笛またはサイレンを識別すると、イヤホンは、救急車またはパトカーが接近していることをユーザに通知する。第１の例示的実施形態では、イヤホンが、音楽または電話（またはイヤホンによって提供されている優勢な音源）を低減し、識別された信号（救急車またはパトカー）を増幅し、それによって、接近している車両についてユーザに通知する。第２の例示的実施形態では、車両の方向を含んで、救急車またはパトカーが接近していることを（合成音声を通して）イヤホンがユーザに教える。イヤホンはまた、識別された信号に音声警告を提供することもできる。他の変化例が可能である。

逆に、イヤホンは、反対の動作を行うことができる。イヤホンは、音声シグネチャに類似した信号を識別し、次いで、ＥＣＲ８１４を通してそれを提供する前に減衰させることができる。例えば、イヤホンのユーザは、銃の熱狂者である。ユーザは、銃撃に関係する音声シグネチャをダウンロードする。イヤホンは、銃撃音を識別すると、銃撃の音声シグネチャに類似したＡＳＭ８２０によって提供された音響情報の一部分を減衰させる一方で、他の信号が伝わることを可能にする。したがって、ユーザは、イヤホンに会話を通過させながら、銃撃音が減衰された状態で、銃射撃場において会話に従事することができ、それにより、この環境中で大きな音から耳を保護し、より明確に会話を聞くことが可能である。

イヤホンは、ＥＣＲ８１４およびＥＣＭ８０６を使用して、耳道８２４をモデル化する耳道伝達関数（ＥａｒＣａｎａｌＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ／ＥＣＴＦ）を生成するとともに、ＡＳＭ８２０を使用して、外耳道伝達関数（ＯｕｔｅｒＥａｒＣａｎａｌＴｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ／ＯＥＴＦ）を生成することができる。例えば、ＥＣＲ８１４は、耳道８２４内でインパルスを送達し、耳道８２４のインパルス応答とのインパルスの相互相関を介してＥＣＴＦを生成することができる。イヤホンは、また、あらゆる漏出を補うために、ユーザの耳との密閉プロファイルを決定することもできる。それはまた、音声曝露および回復時間を推定する音圧レベル線量計も含む。これは、イヤホンが耳への音声曝露を安全に行い、監視することを可能にする。

図９は、少なくとも１つの例示的実施形態による、イヤホンのブロック図である。電力供給部９０５が、マイクロプロセッサ／ＤＳＰ９０６（またはプロセッサ９０６）およびデータ通信システム９１６を含む、イヤホンの構成要素に電力供給する。図示されるように、イヤホンは、データ通信システム９１６を通して、ＡＳＭ９１０、ＥＣＲ９１２、およびＥＣＭ９０８に動作可能に結合される、プロセッサ９０６を含む。データ通信システム９１６は、１つ以上のアナログ・デジタル変換器（ＡｎａｌｏｇｔｏＤｉｇｉｔａｌＣｏｎｖｅｒｔｅｒ）およびデジタル・アナログ変換器（ＤｉｇｉｔａｌｔｏＡｎａｌｏｇＣｏｎｖｅｒｔｅｒ／ＤＡＣ）を含んでもよい。プロセッサ９０６は、関連ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ／ＲＡＭ）９０２および読み出し専用メモリ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０４とともに、マイクロプロセッサ、特定用途向け集積チップ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｈｉｐ／ＡＳＩＣ）、および／またはデジタル信号プロセッサ（ＤＳＰ）等のコンピューティング技術を利用することができる。フラッシュ、不揮発性メモリ、ＳＲＡＭ、ＤＲＡＭ、または類似技術等の他のメモリ種類を、プロセッサ９０６とともに記憶に使用することができる。プロセッサ９０６は、タイムスタンプを記録するクロック９３４を含む。

一般に、データ通信システム９１６は、イヤホンの構成要素またはイヤホン外部の構成要素への通信経路である。通信リンクは、有線または無線となり得る。少なくとも１つの例示的実施形態では、データ通信システム９１６は、イヤホンのＥＣＭアセンブリ９０８、ＡＳＭアセンブリ９１０、視覚ディスプレイ９１８、およびユーザ制御インターフェース９１４と通信するように構成される。示されるように、ユーザ制御インターフェース９１４は、有線または無線接続することができる。少なくとも１つの例示的実施形態では、データ通信システム９１６は、ユーザの携帯電話、第２のイヤホン９２２、および携帯型メディアプレーヤ９２８等の、イヤホン外部のデバイスとの通信が可能である。携帯型メディアプレーヤ９２８は、手動ユーザ制御９３０によって制御することができる。

ユーザの携帯電話は、携帯電話通信システム９２４を含む。マイクロプロセッサ９２６は、携帯電話通信システム９２４に動作可能に結合される。図示されるように、複数のデバイスを、ユーザの携帯電話への別の個人によって装着されたイヤホン９２０の接続等、相互に無線接続することができる。同様に、ユーザの携帯電話は、イヤホン９０１のデータ通信システム９１６ならびに第２のイヤホン９２２に接続することができる。この接続は、１人以上の人々が、それぞれのイヤホンを通して、ユーザの携帯電話で電話を聞き、応答することを可能にする。

図示されるように、データ通信システム９１６は、音声認識システム、音声ディクテーションシステム、ボイスレコーダ、または任意の他の音声関連プロセッサ等の、１つ以上のサブシステムに音声制御を提供する、音声動作制御（ＶＯＸ）モジュールを含むことができる。ＶＯＸモジュールはまた、話し声の存在および話し声の音声活動レベルをサブシステムに示すスイッチとしての機能も果たすことができる。ＶＯＸは、離散またはアナログ電子構成要素によって実装されるハードウェア構成要素、あるいはソフトウェア構成要素となり得る。１つの配設では、プロセッサ９０６は、プログラムコード、アセンブリ言語、または機械言語等のソフトウェアを用いたＶＯＸの機能性を提供することができる。

ＲＡＭ９０２はまた、プロセッサ９０６上で実行するためのプログラム命令、ならびに捕捉オーディオ処理データを記憶することもできる。例えば、メモリＲＡＭ９０２およびＲＯＭ９０４は、オフチップかつプロセッサ９０６外部にあり、周囲音および内部音を一時的に捕捉するデータバッファと、プロセッサによる指令に反応して圧縮形式でデータバッファからのオーディオ情報を保存する記憶メモリとを含むことができる。データバッファは、以前の時点まで現在の時点におけるオーディオ音声を一時的に保存する、循環バッファとなり得る。また、データバッファは、１つの構成では、高速データアクセスを提供するようにプロセッサ９０６上に存在できることも留意されたい。記憶メモリは、捕捉または圧縮オーディオデータを記憶するＳＲＡＭ等の不揮発性メモリとなり得る。不揮発性メモリはまた、音声シグネチャを記憶するために使用することもできる。

データ通信システム９１６は、例えば、携帯型メディアプレーヤ９２８、携帯電話、または任意の他の通信デバイスからオーディオコンテンツを受信し、プロセッサ９０６にオーディオコンテンツを送達するように、プロセッサ９０６およびＶＯＸに動作可能に結合されるオーディオインターフェースを含むことができる。プロセッサ９０６は、ＶＯＸからの音声動作イベントの検出に応じて、イヤホンのユーザの耳道に送達されるオーディオコンテンツを調整することができる。例えば、プロセッサ９０６（またはデータ通信システム９１６のＶＯＸ）は、ユーザの耳道に鋭い音声を伝達するための音声シグネチャ等のイベントの検出に応じて、オーディオコンテンツの音量を下げることができる。ＥＣＭ９０８を用いたプロセッサ９０６はまた、耳道の内側の音声曝露レベルを能動的に監視し、データ通信システム９１６のＶＯＸによって行われる音声動作決定に基づいて、安全かつ主観的に最適化された聴取レベルの範囲内にオーディオを調整することができる。

イヤホンおよびデータ通信システム９１６はさらに、Ｂｌｕｅｔｏｏｔｈ^TM、ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ（ＷｉＦｉ）、ＷｏｒｌｄｗｉｄｅＩｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒＭｉｃｒｏｗａｖｅＡｃｅｅｓｓ（ＷｉＭＡＸ）、および／または他の短距離または長距離通信プロトコルを無制限に含む、任意の数の無線アクセス技術を単独で、または組み合わせてサポートすることができる、送受信機を含むことができる。送受信機はまた、無線でイヤホンに動的にダウンロードおよびアップロードするためのサポートも提供することができる。また、次世代アクセス技術も本開示に適用できることにも留意されたい。

データ通信システム９１６はまた、衛星信号を傍受し、それからイヤホンの場所固定を決定することができる、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）受信機等の技術を利用する、場所受信機９３２を含むこともできる。プロセッサ９０６とともに動作可能に構成されるＧＰＳ受信機９３２は、場所に対応するジオコードを生成し、ジオコードを記録または音圧レベル測定等のイベントにリンクすることができる。

電力供給部９０５は、イヤホンの構成要素にエネルギーを供給し、携帯型用途を促進するために、交換可能バッテリ、供給規制技術、および充電システム技術等の、一般的な電力管理技術を利用することができる。モータ（図示せず）は、触覚振動を介して感覚を改善するように電力供給部９０５に結合される、単一の供給モータドライバとなり得る。実施例として、プロセッサ９０６は、警告音または着信音声電話の検出等の動作に応じて振動するようにモータに指図することができる。

イヤホンはさらに、マスタ・スレーブ配設で構成される単一の動作デバイスまたは一群のデバイス、例えば、携帯デバイスおよびイヤホンを表すことができる。後者の実施形態では、イヤホンの構成要素は、マスタおよびスレーブデバイスに対する異なる形状因子で再利用することができる。

図１０は、少なくとも１つの例示的実施形態による、オーディオコンテンツャをデータベース１００８に提供するための通信デバイス１００２またはイヤホン１０１０の概略図である。世界中から多数の音声を収集することは、大変な作業である。前述のように、いずれのグループまたは企業実体にも、継続的に世界を音響的にマッピングする能力がない。少なくとも１つの例示的実施形態では、音響情報の収集は、１つまたは複数の音声を捕捉し、データベース１００８に提供することを簡単にすることによって、可能な限り多くの人々を動員することによって達成される。さらに、音響情報は、通信デバイス１００２を使用することによって手動で、より効率的には、人間の介入なしで収集および送信するプロセスを自動化することによって、収集することができる。

一般に、音声シグネチャは、収集され、モデル化され、識別され、記憶される音声である。一群の関連音声シグネチャの実施例は、警報（例えば、ベル、緊急車両、セキュリティシステム等）、サイレン（例えば、パトカー、救急車）、声（例えば、「助けて」、「止まれ」、「警察」等）、または特定の雑音種類（例えば、ガラスを割る、銃撃等）等の警告音である。世界的に、音声シグネチャは、地域的領域に応じて異なる。例えば、ヨーロッパでのパトカーのサイレンは、米国またはアジアとは異なる。収集することができる異なる音声シグネチャの数は、ベルが鳴る音から、いびきをかく人、電車、後退するごみ収集車、または火星の風まで、音声自体と同じくらい多様である。一般に、これらの音声シグネチャは、自動的に音声を収集し、音声を分析し、音声を保存するべきか否かを決定し、音声シグネチャをメタデータによってタグ付けし、収集された音声シグネチャをデータベースに送信するように構成される、共通通信デバイスを使用して、本明細書で開示されるプロセスによって、世界中から、かつ異なるときに収集される。少なくとも１つの例示的実施形態では、捕捉された音声シグネチャのガウス混合モデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ／ＧＭＭ）も生成し、提供することができる。

上記の実施例を続けて、図９の回路を参照する。少なくとも１つの例示的実施形態では、図９と同様の回路を有する通信デバイス１００２またはイヤホン１０１０は、同様の音声を検出するためにプロセッサ９０６が参照する、以前に習得された音声のメモリ９０２に、オーディオコンテンツまたは音声シグネチャを記憶することができる。上記の実施例では、記憶された音声シグネチャのうちのいくつかは、警告音である。音声シグネチャは、メモリ９０２の中に常駐することができるか、または必要に応じて、動作中にデータ通信システム９１６を介して通信デバイス１００２またはイヤホン１０１０にダウンロードすることができる。音声シグネチャ、この実施例では警告音を検出すると、プロセッサ９０６は、認識された音声シグネチャに措置を講じるか、または応答することができる。この実施例では、プロセッサ９０６は、トランスデューサから通信デバイス１００２またはイヤホン１０１０（使用されている場合）上に送達されるオーディオを介して、ユーザに警告を報告することができる。

一般に、通信デバイス１００２またはイヤホン１０１０は、記憶された音声シグネチャに類似した音声について、各デバイスのマイクロホンを通して環境を監視することができる。各音声シグネチャは、音声を特性化する、ある識別可能な特徴を有する。これらの特徴は、集合的に、音声を認識するために使用することができる音声シグネチャと呼ぶことができる。実施例として、音声シグネチャは、音声の統計的特性またはパラメトリック特性を含んでもよい。例えば、音声シグネチャは、関連増幅および位相情報とともに顕著な周波数を表すことができる。別の実施例として、音声シグネチャは、音声の最も認識可能な特徴を識別する、主要構成要素を含有することができる。

図１０を参照すると、通信デバイス１００２は、音声を受信するように構成されるマイクロホンを有する移動通信デバイスである。通信デバイス１００２の実施例は、ほんの数例を挙げれば、電話、携帯電話、ＰＤＡ、携帯型コンピュータ、マイクロホン付きのＧＰＳシステム、自動車、衛星電話、送受信兼用無線機、スマートフォン、およびイヤホンである。これらのデバイスは、全大陸でアクセスがあり、世界中で使用されることが周知である。関心の音声を自動的に検出して記憶し、記憶された音声に関する主要情報を添付し、次いで、デバイスの通常の使用を妨害することなく音声のデータベースに記憶するために、それらをアップロードする能力を有することにより、音声の収集のために、潜在的に何十億もの人々を動員する。次いで、これらの音声は、ほんの数例を挙げれば、他の手段によって収集することが不可能である、一般知識、歴史目的、マッピング、科学、医学、および企業にとって人間の便益に使用することができる。

通信デバイス１００２およびイヤホン１０１０は、図９で開示されるような回路を含むか、または以下で開示されるように機能するように適合される。通信デバイス１００２およびイヤホン１０１０は、音声を記録し、音圧レベルを測定するために動作可能に構成される。少なくとも１つの例示的実施形態では、通信デバイス１００２またはイヤホン１０１０のマイクロホンから受信される音響情報は、バッファまたはメモリの中に配置され、そこで分析することができる。バッファは、一時的記憶装置であり、マイクロホンから受信された音声の継続的分析を可能にする。関心のものが何も発生しなければ、バッファの中の音声は廃棄され、バッファの中の次の音声情報が分析される。

次の図でより詳細に論議されるトリガイベントは、オーディオコンテンツ（または関連音響情報、例えば、オーディオコンテンツの音圧レベル）の収集または捕捉、およびデータベース１００８へのデータの送信を開始する、イベントまたは決定である。１つの例示的実施形態では、オーディオコンテンツは、通信デバイス１００２またはイヤホン１０１０のメモリに記憶され、そこでさらに処理され、後で送信することができる。代替として、オーディオコンテンツは、即座にデータベース１００８に送信することができる。トリガイベントは、ユーザ制御を受けるか、またはウェブサイト１００６およびデータベース１００８を通して遠隔で制御することができる。

オーディオコンテンツの側面、例えば、トリガイベント（ある閾値を上回る音圧レベル）、音声が記録されたときのタイムスタンプ、または音声が記録された場所を提供するジオコードを識別するために使用することができる、メタデータが生成される。通信経路１００４は、オーディオコンテンツ、関連情報、およびメタデータを伝送するための通信デバイス１００２またはイヤホン１０１０の間の有線または無線接続となり得る。オーディオコンテンツは常に送信されるわけではないことに留意されたい。例えば、音圧レベルは、異なる地理的領域／時間において雑音レベルをマッピングするのに有用性を有し、メタデータとともに送信されてもよい（しかし情報集約的オーディオコンテンツは送信されない）。少なくとも１つの例示的実施形態では、通信デバイス１００２またはイヤホン１０１０は、ウェブサイト１００６、サーバシステム、またはデータベース１００８に自動的に接続して、情報をアップロードする。オーディオコンテンツは、アップロードされ、そこで、データベース１００８に記憶される前にさらに見直されてもよい。

上述のように、通信デバイス１００２またはイヤホン１０１０によって得られる別の測定は、音圧レベル（ＳＰＬ）である。音圧レベル測定を行い、それ自体で（関連メタデータとともに）、またはオーディオコンテンツと組み合わせて、送信することができる。音圧レベル（ＳＰＬ）は、アナログ回路を通してマイクロホン信号から測定され、またはより典型的には、オーディオ処理（自動利得制御、均等化等）が通信デバイス１００２およびイヤホン１０１０内で発生する前に、マイクロホン信号がデジタルに変換され、デジタル処理を使用して計算された後に、測定される。

音響情報は、通信デバイス１００２およびイヤホン１００８のユーザによって手動で記録し、提供できることに留意されたい。手動プロセスに頼った場合、多くまたは大部分の音声が見落とされ、潜在的な音声シグネチャ提供者の一部のみが参加する可能性が高い。少なくとも１つの例示的実施形態では、通信デバイス１００２またはイヤホン１００８は、常にオンであり、音声を継続的に分析し、関心のオーディオコンテンツを記憶している。プロセスを自動的に行うことは、多数の音響情報が継続的に提供されるための経路を開く情報を提供するのに通信デバイスのユーザに依存しない。多数のデバイスが世界の全ての地理的領域に広がっているため、世界の音響地図を１日２４時間生成することができる。

少なくとも１つの例示的実施形態では、通信デバイス１００２またはイヤホン１０１０のユーザは、収集された音声の検索および分類化を補助するイベントを表す、メタデータを手動で追加することができる。例えば、ユーザは、記録が、タイムスタンプとジオコード（音響情報で自動的にタグ付けされる）を添付されたニューヨークシティの消防車のサイレンであるという情報を提供することができる。少なくとも１つの例示的実施形態では、通信デバイス１００２またはイヤホン１０１０のユーザの間の通信は、通信経路１００４を通して発生し、音声、テキスト、または自動様式で、さらなる情報を要求することができる。例えば、音声シグネチャを自動的に送信した後、形式について、および何がデータベース１００８に現在記憶されているかという関連で見直される。提供された捕捉音声を編集し、識別し、説明し、フォーマットするために、さらなる通信を行うことができる。通信はまた、より便利な時間または現場で（例えば、パーソナルコンピュータを介して家庭で）発生して、さらにデータベース１００８に永久に記憶する状態にすることもできる。オーディオ情報を含むビデオ情報も、上記で開示されるような同様の様式で提供できることに留意されたい。オーディオ情報は、ビデオから除去し、データベース１００８に使用することができる。

イヤホン１０１０および通信デバイス１００２は、ともに動作可能に結合することができる。イヤホン１０１０が音声１０１２の主要レコーダであるように、優先順位を設定することができる。したがって、収集された情報を与えることにより、ユーザが何を聞いているかという観点を生じる。イヤホン１０１０は、他のデバイス、例えば、携帯型メディアプレーヤとともに使用することができる。イヤホン１０１０は、ＳＰＬを収集し、測定し、メタデータをタグ付けして、通信経路１００４が有効になるとアップロードされる音声のキューを作成する。したがって、共通デバイスは、音声情報を自動的に捕捉して記憶し、ＳＰＬを測定し、タイムスタンプおよびジオコードを含むメタデータを追加し、データベースに音響情報をアップロードし、それにより、継続的に音声収集のために最大地理的領域にわたって最大数の人々を有効にするために適合されている。

図１１は、少なくとも１つの例示的実施形態による、音響情報を収集または捕捉し、音声を提供する通信デバイス１１０４のブロック図である。通信デバイス１１０４は、音響情報を受信するように構成されて有効となる、少なくとも１つのマイクロホンを含む。少なくとも１つの例示的実施形態では、通信デバイス１１０４は、音圧レベル測定を平均化するための複数のマイクロホンを有することができる。また、人々は、常に電話を外に出しているわけではないが、ホルスターの上またはポケットの中に持っている。複数のマイクロホンは、オーディオコンテンツを自動的に収集するときに、情報を受信するように構成される、遮られていないマイクロホンが利用可能であるという確率を増加させる。

上述のように、音響情報は、デバイス１１０４の中の循環バッファに記憶され、継続的に分析される。例えば、バッファの半分の中の音響情報が分析される一方で、新しい音響情報は環状バッファの残りの半分にロードされる。関心の音声が検出されるトリガイベントが発生した場合、音響情報は、音響情報を収集するように構成されるデータベースに提供されるまで、通信デバイス１１０４の中でより永久的であり、上書きされない、メモリに記憶される。

トリガイベントは、音響情報、または音声データベース１１１８にアップロードするためのイベントを誘起した音声に関係する情報の保存を開始する。トリガイベントは、多くの形態を成すことができる。ある閾値を超える音圧レベル（ＳＰＬ）は、音響情報の収集を誘起することができる。ＳＰＬ誘起イベントは、地域の全体を通してＳＰＬをマッピングし、雑音が過剰となり得る場所を識別するために有用な情報を提供する。代替として、音圧レベルの差分変化が、バッファへの音声の記憶を誘起することができる。例えば、周囲ＳＰＬよりも実質的に高い音圧レベルの急上昇または急増が、バッファへの音声の記憶を誘起することができる（例えば、銃撃または爆発）。

時間は、トリガイベントの別の実施例である。通信デバイス１１０４は、周期的に音響情報を受信し、記憶することができる。時刻または時期に応じて変化する、通信デバイス１１０４のユーザの音声曝露をマッピングするために、周期的サンプリングを使用することができる。

地理的場所は、トリガイベントのさらなる実施例である。ＧＰＳ受信機を有する通信デバイス１１０４は、非常に正確に場所を識別することができる。通信デバイス１１０４は、特定の場所の音響情報の記憶を誘起することができる。例えば、通信デバイス１１０４のユーザは、医師にかかったときの音響情報を記憶し、それにより、診察の病歴を保存する、トリガイベントを有する。この実施例での音響情報は、一般的使用のための音声データベース１１１８に行く必要はないが、通信デバイス１１０４のユーザによって所有される、個人的に管理された安全な「音声ロッカー」に行くことができる。

トリガイベントの別の実施例は、音声シグネチャ検出である。少なくとも１つの例示的実施形態では、通信デバイス１１０４は、音声シグネチャへのアクセスを含むか、またはアクセスできる。通信デバイス１１０４は、同様の音声を識別するために音声シグネチャを使用する。音響情報は、いったん同様の音声がデバイス１１０４に利用可能な音声シグネチャから識別されると収集される。例えば、音声データベース１１１８は、警告音に関係がある音声を収集している。データベース１１１８は、通信経路がデバイスに開かれると、警告音に関係がある音声シグネチャを移動通信デバイスに利用可能にすることができる。したがって、人間の介入を必要とせずに特定の音声を自動的に収集することに焦点が置かれるが、ユーザ制御下での手動プロセスで、収集およびトリガイベントの両方を行うか、または入力することができる。音声起動およびセンサデータ（移動、生体情報、大気データ、視覚、物質検出、臭気等）等の他のトリガイベントが、音響情報を収集するために使用されるイベントの実施例である。

少なくとも１つの例示的実施形態では、音声シグネチャは、ガウス混合モデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ／ＧＭＭ）を備える。一般に、デバイス１１０４の中のＡ／Ｄ変換器は、アナログ音声信号をデジタル音声信号に変換する。プロセッサは、デジタル音声信号をフレームに細かく分け、例えば、ｆｓ＝８０００Ｈｚでは、データの２０ｍｓフレームは１６０サンプルであり、各サンプルは１６または３２ビットによって表される（例えば、均等化される）。したがって、１秒間記録された音響音波は、５０フレーム（２０ｍｓ＊５０＝１秒）によって表される。

次いで、各フレームは、当技術分野で公知であるような特徴について抽出される。特徴は、フレームの周波数分解を表すフーリエ級数係数（ＦＦＴに基づく）となり得る。特徴は、スペクトルエンベロープ分解を表すメルケプストラムまたはＬＰＣ係数となり得る。特徴は、ＤＣＴ、ＫＬＴ、ＰＣＡ、または任意の他の特徴セットとなり得る。顕著に、特徴は、入力空間の次元性を低減するために、効率的な形態のデータ圧縮を提供する。（例えば、フレームを表すために１６０サンプル（１６ビット／サンプル）を全て使用する代わりに、メルケプストラムは、同じフレームを表すために１０〜１４サンプル（１６ビット／サンプル）しか必要としない）。

次いで、特徴は、ＧＭＭを訓練するために使用される。各音声シグネチャに対する単一のＧＭＭがある。音声シグネチャは、音波の特徴、例えば、記録された音波のメルケプストラム係数の連続フレームから成る。訓練は、ＧＭＭに、集合的に特徴セットと呼ばれる特徴の統計を習得させる。より具体的には、ＧＭＭは、特徴セットの統計パラメータ、特に、特徴セットの平均、共分散、および確率加重を表す。そのため、ＧＭＭは、これらのパラメータ（平均、共分散、加重）を使用して、特徴セットの統計を特性化する。それにより、例えば、訓練中に、特徴セットの平均（例えば、各フレームに対して１０〜１４ケプストラム係数）が集合的に決定され（例えば、全てのフレームにわたるケプストラム係数を平均化する）、特徴セットの共分散が決定され（全てのフレームにわたるケプストラム係数の２次モーメントを計算する）、確率が決定される（例えば、ＧＭＭクラスタ中心の数（例えば、平均べクトル）に関してフレームの発生の頻度を決定する）。

いったんＧＭＭが訓練されると、平均、共分散、および加重が音声シグネチャを完全に説明する。つまり、これらのパラメータは、パターン認識の意味で、音声シグネチャをモデル化するためのＧＭＭを完全に特定する。次いで、これらのパラメータは、特定のＧＭＭ用のメモリに記憶され、周囲声の中の音声シグネチャを識別しようとするときに参照するために使用される。したがって、比較目的で音波形態全体をメモリに保存する代わりに、最初に特徴が抽出され、次いで、特徴の統計をモデル化するためにＧＭＭが作成される。次いで、ＧＭＭは、周囲音監視中に同じ音声の音声シグネチャを識別するために使用される。

一般に、データベース１１１８には、収集された音声があるだけの多くのＧＭＭがある。したがって、サイレンのＧＭＭ、警笛の別のＧＭＭ、いびきの別のＧＭＭ等がある。次いで、ＧＭＭパラメータ（平均、共分散、加重）が全てメモリに記憶され、通信デバイスによって提供された新しい音声シグネチャが、データベース１１１８上にすでに記憶されている習得音声のうちの１つであるか否かを決定するために、後でメモリから取り出すことができる。

同様に、認識された音声シグネチャのＧＭＭを有する通信デバイス１１０４は、デバイス１１０４のマイクロホンから受信された音声を、音声シグネチャと比較することができる。より具体的には、新しい音声シグネチャを認識するプロセスは、同じフロントエンド抽出ステップ、つまり、特徴セット（例えば、メルケプストラム係数のフレーム）を生成するステップから成る。次いで、この特徴セットは、ＧＭＭのパラメータ（平均、共分散、加重）が新しい特徴セットへの最良合致であるか否かを評価するための各ＧＭＭに渡される。より具体的には、新しい特徴セットの統計は、最大尤度（ＭＬ）方式で各ＧＭＭのパラメータと比較される。新しい特徴セットは、例えば、最小ひずみ、最小Ｌノルム距離、およびＭＬ推定量を採用して、どのＧＭＭが最大尤度の意味で特徴を表す可能性が最も高いかを決定するために、パラメータ（平均、共分散、加重）に効果的にマッピングされる。各ＧＭＭは、新しい音声シグネチャへの合致を表す確率（例えば、０と１との間）を生じ、例えば、０．１確率出力を伴うＧＭＭは、音声シグネチャがＧＭＭ（‘笛ＧＭＭ）と関連する音声に対応する１０％確率があることを示す。０．９確率出力を伴うＧＭＭは、音声シグネチャがＧＭＭ（‘サイレンＧＭＭ）と関連する音声に対応する９０％確率があることを示す。したがって、データベースに音声シグネチャを追加するための基準は変化し得る。例えば、データベース１１１８の中の音声シグネチャとの低い合致確率を伴う音声シグネチャを提供する通信デバイス１１０４が、独特であるため記憶されてもよい。逆に、場所、時間、またはデータベース１１１８がその種類の音声を収集しているため、比較的高い合致確率を有する新しい音声シグネチャが保存される場合がある。

図１１のブロック図を続けると、デバイス１１０４のバッファに記憶された音声情報が分析され、トリガイベントは、受信された音声が記憶されるべきであると決定する。音声１１０２は、データベース１１１８によって使用するために、ＧＭＭ等の適切な形態に変換することができ、または音声情報自体をデバイス１１０４のメモリに保存することができる。音響情報の音圧レベル（ＳＰＬ）は、ＳＰＬを測定するステップ１１０８で測定または計算される。音圧レベルの測定は、収集された音声と合わせて、または独立して（ＳＰＬのみが保存され、音声情報が廃棄される場合）行うことができる。

捕捉または収集された音声に対応するメタデータ１１１０は、音声情報に添付される。加えて、デバイス１１０４のユーザは、送信されるか、または後でデータベース１１１８と通信する前に、さらなる情報を追加することができる。例えば、ユーザは、キーボードを介して、メタデータテーブルにメタデータ１１１０を手動で入力することができ、または添付されたオーディオストリームの中の有声説明となり得る。メタデータ１１１０は、音声シグネチャに対応するタイムスタンプおよびジオコードを含む。少なくとも１つの例示的実施形態では、音声情報が通信デバイス１１０４によってＧＭＭに変換されない場合には、データベース１１１８によって受信されると、音声のＧＭＭが生成される。

少なくとも１つの例示的実施形態では、音声、音圧レベル、およびメタデータは、通信デバイス１１０４上に存在するメモリ１１１２に記憶される。音声のキュー１１１４は、適切なときにアップロードするために、メモリ１１１２に記憶することができる。ユーザは、通信経路が完成すると、音声データベース１１１８への音声のキュー１１１４のアップロードを開始することができる。少なくとも１つの例示的実施形態では、デバイス１１０４は、音声データベース１１１８の中のサーバに自動的に接続し、デバイス１１０４のユーザによる手動介入なしで、通信経路が有効になると音声のキュー１１１４をアップロードし、それにより、デバイス１１０４の正常動作を妨害しない透明なプロセスを行うことができる。音声のデータベース１１１８上に記憶されるものの、音響情報が正しい形式であるか、または永久に記憶されるほど十分独特であるかを決定する反復プロセスがあってもよい。

図１２ａ−１２ｃは、少なくとも１つの例示的実施形態による、音響情報を収集するように構成されるトリガイベントとしての音圧レベルの使用を図示する、関連概略図である。図１２ａ−１２ｃは、図１１に図示されたトリガイベントに関する。図１１を参照すると、通信デバイス１１０４は、デバイスのマイクロホンを通して音響情報を受信している。少なくとも１つの例示的実施形態では、音響情報は、分析のために通信デバイスのバッファに記憶される。分析は、音響情報の収集を開始するために、音圧レベルに関係するトリガイベントを探すステップ含む。

図１２ａを参照すると、音響情報から受信された通信デバイスによって計算される、音圧レベル対時間のグラフが示されている。トリガイベントは、音響情報の音圧レベルが音圧レベル閾値１１２４を超えると発生する。例えば、高雑音区域についての情報が収集されている。音圧レベル閾値１１２４を７０ｄＢに設定することにより、このレベルの周囲音に曝露された場合に張力損失を生じ得る、７０ｄＢを超える音圧レベルを有する区域における情報を収集する。耳への害は、音圧レベルおよび雑音に曝露された期間に関係する。多数のデータ点を収集することにより、３次元領域にわたって経時的に音響情報のマッピングを可能にする。この情報には、種々の用途があり、そのうちの１つは、都市の中で高雑音がいつどこで発生するかを識別することである。

少なくとも１つの例示的実施形態では、トリガイベントは、トリガイベントが発生する期間中に、音響情報の収集を開始する。例えば、図１２ａでは、破線によって示されるように、期間ｔ_１−ｔ_２中に音圧レベル閾値１１２４を超えた場合に、第１のトリガイベント１１２０が発生する。いったん誘起されると、図１２ｂに示されるように、期間ｔ_１−ｔ_２中の音響情報は、データベースに送信するために収集される。音響情報は、その全体で通信デバイスのメモリに記憶することができ、または収集の必要性に応じて、よりコンパクトな形態に変換し、モデル化し、特性化し、メタデータを提供することができる。メタデータには、音響情報と関連する時間情報（ｔ_１−ｔ_２）および場所情報を含むことができる。図１２ｃを参照すると、時間と対比した、ｘ、ｙ、およびｚ座標で示された通信デバイスの位置がグラフで示されている。地理的情報は、音響情報が収集された場所を識別するメタデータとともに提供される。通信デバイスの位置は、定常または移動することができ、それは情報が示す。

同様に、第２のトリガイベント１１２２が図１２ａに図示されている。トリガイベント１１２２および対応する破線よって示されるように、期間ｔ_２−ｔ_３中に、音圧レベル１１２４を超える。図１２ｂに示されるように、期間ｔ_２−ｔ_３中の音響情報が収集される。時間情報および地理的場所情報を含むメタデータが、本明細書の上記で説明されるように、音響情報に添付される。

実施形態では、トリガイベントは、音圧レベル閾値１１２４を超えるときはいつでも発生する。トリガイベントは、他の方法で修正することができる。音圧レベルトリガイベントの実施例は、ほんの数例を挙げれば、所定の期間にわたって閾値１１２４を上回る音圧レベル、（期間にわたって）所定の閾値を上回る平均音圧レベル、または所定の量を上回る音圧レベルの差分変化である。さらに、収集される音響情報は、トリガイベントが発生する期間に限定されない。収集される音響情報の量は、必要に基づいて変化させることができる。例えば、音圧レベル閾値１１２４を上回る音響情報のみを収集する。逆に、トリガイベントは、以前、現在、および次の期間から音響情報を収集することができる。

図１３は、音響情報を収集するように構成されるトリガイベントとしての地理的場所の使用の概略図を図示する。通信デバイス１１３１は、位置付け情報を提供するためのＧＰＳ受信機１１３４を含む。１つ以上の地理的場所が通信デバイス１１３１に記憶され、または通信デバイス１１３１がトリガイベントを開始するための地理的場所にアクセスできる。通信デバイス１１３１は、ＧＰＳ受信機１１３４から情報を使用して、現在の地理的場所を１つ以上の地理的場所と比較する。現在の地理的場所が記憶された地理的場所のうちの１つの範囲に入ると、音響情報を収集するように構成されるトリガイベントが発生する。

地理的領域１１３６は、ｘ±Δｘ、ｙ±Δｙ、およびｚ±Δｚという座標範囲によって表される。３次元が実施形態で示されているが、関心の地域を画定するために、１次元または２次元を使用することができる。例えば、ｘ±Δｘおよびｙ±Δｙの使用を、zが必要ではないレストランを識別するために使用することができる。異なる時刻にレストランに行く人々（それぞれ、レストランの座標から通信デバイスのトリガをオフにしている）が、レストランに関する音響情報を収集する。例えば、異なる人々によって音圧レベル（ＳＰＬ）測定を行うことができる。ＳＰＬ測定は、異なる時刻およびレストランの異なる場所で雑音レベルを示す、レストランの地図を作成するために使用することができる。情報には、例えば、雑音レベルが低いとき、およびレストランの最も私的な（静かな）区域がどこかを知りたい、レストランのユーザにとって有用性がある。

少なくとも１つの例示的実施形態では、ＧＰＳ受信機１１３４は、通信デバイス１１３１の場所についての情報を周期的に提供する。受信されたＧＰＳ情報の周期性は、概略図上の一連の黒いドットによって表される。トリガイベント１１３０（破線によって示される）は、受信されたＧＰＳ情報が地理的領域１１３６の範囲に入ると発生する。示されるように、トリガイベント１１３０は、時間ｔ_２で発生する。音響情報は、通信デバイス１１３１が地理的領域１１３６内にある間に収集される。イベント終了１１３２（破線によって示される）は、（受信されたＧＰＳ情報から）通信デバイス１１３１が地理的領域１１３６の範囲外になると発生する。イベント終了１１３２は、時間ｔ_３で発生する。上述のように、受信された音響情報は、バッファに記憶される。トリガイベント１１３０とイベント終了１１３２との間の期間に対応する音響情報１１３８は、データベースに送信するために収集される。音響情報１１３８は、適切なときにデータベースにアップロードされるように、より永久的なメモリへとバッファから除去することができる。

音響情報１１３８は、その全体で通信デバイスのメモリに記憶することができ、または収集の必要性に応じて、よりコンパクトな形態に変換し、モデル化し、特性化し、メタデータを提供することができる。少なくとも１つの例示的実施形態では、音響情報１１３８には、時間情報および地理的場所情報を含むメタデータが提供される。時間情報は、通信デバイスの中のクロック回路から提供される。開示された実施形態では、通信デバイスのＧＰＳ受信機１１３４を通して提供される地理的場所情報は、離散時間間隔で提供される。ＧＰＳ受信機１１３４からの受信されたデータ点の間の期間中の地理的場所を推定するために、線形補間および他の補間技術を使用することができる。

図１４は、音響情報を収集するように構成されるトリガイベントとしての時間の使用を図示する概略図である。通信デバイス１１４０は、時間情報を提供するためのクロックを含む。１つ以上の時間が通信デバイス１１４０に記憶され、または通信デバイス１１４０は、時間に基づいてトリガイベントを開始するための時間にアクセスできる。記憶された時間は、イベントトリガ時間（または音響情報を収集するように構成される開始時間）およびイベント終了（または音響情報を収集するように構成される終了時間）を含む。通信デバイス１１４０は、現在の時間を１つ以上の記憶された時間と比較する。音響情報を収集するように構成されるトリガイベントは、現在の時間が記憶されたイベントトリガ時間に対応すると発生する。

音響情報を収集するように構成されるイベントトリガ１１４４は、通信デバイス１１４０のクロックが時間ｔ_２に対応すると発生する。イベント終了１１４６は、音響情報の収集を終了させ、クロックが時間ｔ_３に対応すると発生する。上記で開示されるように、時間ｔ_２およびｔ_３は、音響情報の収集を誘起するために、通信デバイス１１４０に記憶される。少なくとも１つの例示的実施形態では、音響情報１１４８は、適切なときにデータベースにアップロードするために、バッファから通信デバイス１１４０のより永久的なメモリに転送される。

少なくとも１つの例示的実施形態では、ＧＰＳ受信機１１４２は、通信デバイス１１４０の場所についての情報を周期的に提供する。受信されたＧＰＳ情報の周期性は、概略図上の一連の黒いドットによって表される。ＧＰＳ受信機からの受信されたデータ点の間の期間中の地理的場所を推定するために、線形補間および他の補間技術を使用することができる。音響情報１１４８に対応するＧＰＳ情報および時間情報は、他のメタデータとともに提供される。時間情報は、通信デバイス１１４０の中のクロックによって提供される。音響情報１１３８は、その全体で通信デバイスのメモリに記憶することができ、または収集の必要性に応じて、よりコンパクトな形態に変換し、モデル化し、特性化し、メタデータを提供することができる。

図１５は、少なくとも１つの例示的実施形態による、音響情報を収集するように構成されるトリガイベントとしての音声シグネチャの検出を図示する概略図である。通信デバイス１１５０は、マイクロホンから音響情報を受信する。通信デバイス１１５０は、メモリの中に１つ以上の音声シグネチャを有するか、またはマイクロホンによって受信された音響情報との比較のために、１つ以上の音声シグネチャにアクセスできる。音響情報は、音声シグネチャとの類似性について継続的に評価される。トリガイベントは、音響情報が音声シグネチャに類似していると分かると発生する。トリガイベントは、データベースに提供されるための音響情報の収集を開始する。

少なくとも１つの例示的実施形態では、音響情報は、デジタル音声信号として通信デバイス１１５０のバッファに記憶される。デジタル音声信号は、情報のフレームに分割することができる。例えば、フレームは、１フレームごとに１６０サンプルを生じるｆ_ｓ＝８０００Ｈｚのサンプリング周波数で、２０ミリ秒サンプルに対応する音声情報として定義される。各サンプルは、通信デバイス１１５０のＡ／Ｄ変換器のビット分解能（例えば、１３ビットまたは２４ビット）によって表される数に均等化される。例えば、Ａ／Ｄ変換器によって生成される数は、サンプルの時間でマイクロホンの電圧出力に対応する、電圧を表してもよい。

一定の縮尺で描かれていないものの、一連のフレームは時間と対比して示されている。各フレームは、マイクロホンによって捕捉される音響情報に対応する、それと関連するデジタル音声情報を有する。デジタル音声情報は、受信された音声に関係する特徴を抽出するように処理される。上記で開示されるように、特徴は、フレームの周波数分解を表すフーリエ級数係数（ＦＦＴに基づく）となり得る。特徴は、スペクトルエンベロープ分解を表すメルケプストラムまたはＬＰＣ係数となり得る。特徴は、ＤＣＴ、ＫＬＴ、ＰＣＡ、または任意の他の特徴セットとなり得る。顕著に、特徴は、入力空間の次元性を低減するために、効率的な形態のデータ圧縮を提供する。例えば、（ｆ_ｓ＝８０００Ｈｚで単一の２０ミリ秒フレームサンプリングの）１６０サンプルを全て使用する代わりに、メルケプストラムは、同じフレームを表すために１０〜１４サンプル（１６ビット／サンプル）しか必要としない。

音響情報の各フレームには、抽出された特徴１１６４が関連付けられる。少なくとも１つの例示的実施形態では、通信デバイス１１５０は、音響情報の各フレームから特徴を抽出し、特徴をフレームごとに発生する１つ以上の音声シグネチャと比較する。示されるように、音響情報の抽出された特徴１１５６は、音声シグネチャのＧＭＭに対して比較される。一般に、音響情報のフレームの抽出された特徴１１６４は、どのＧＭＭが音響情報のフレームの特徴を表す最高尤度を有するかを決定するために、音声シグネチャのパラメータ（平均、共分散、加重）にマッピングされる。比較は、音声シグネチャの各ＧＭＭにどれだけよく合致するかという確率（例えば、０と１との間）を生じる。トリガイベント１１５８は、比較が、基準、例えば、０．８を上回る確率を満たせば、発生する。基準は変化させることができ、比較されている音声シグネチャに類似しているか、または関係がある音響情報を最も良く捕捉または収集するために選択されることに留意されたい。過剰に高く設定された基準は、収集された音響情報をほとんど生じない場合がある一方で、基準を過剰に低く設定することにより、音声シグネチャと無関係である相当量の音響情報を収集する場合がある。この実施例では、確率閾値を０．８のレベルに設定することにより、音響情報が８０％尤度を伴う音声シグネチャに対応した場合に情報の収集を誘起する。少なくとも１つの例示的実施形態では、概略図上で示されるように、基準が満たされない１１６０ときにイベントが終了する。

少なくとも１つの例示的実施形態では、収集された音響情報１１６２は、トリガイベント１１５８と音響情報がもはや基準を満たさないとき１１６０との間に存在する、音響情報よりも多くを含む。いったん音響情報が基準を満たし（確率閾値を上回る）、収集されるべきであることが確立されると、（基準を満たす部分だけではなく）音声全体が捕捉されることを確実にすることが望ましい。したがって、トリガイベント１１５８に先行する音響情報、ならびに基準が満たされた後の音響情報が週種される。前後の収集された音響情報の追加時間量は、固定量となり得るか、またはどれだけ多くの音響情報を収集するかを決定するための他の方法論から基づくことができる。一般に、音響情報がバッファに記憶され、音響情報の期間が通信デバイス１１５０の中のより長期的なメモリに転送されるにすぎないため、収集される音響情報の期間は問題ではない。

上記で開示されるように、メタデータは、それぞれ、音響情報が受信されたときおよび場所に対応する、時間情報および地理的情報を含む。メタデータは、音響情報に添付することができる。通信デバイス１１５０の中のクロックは、時間情報を提供する。ＧＰＳ受信機１１５２は、周期的な地理的場所情報を提供し、図中の一連の黒いドットとして示される。ＧＰＳ受信機１１５２からの受信されたデータ点の間の場所を推定するために、補間を使用することができる。

代替として、音声起動をトリガイベントとして使用することができる。例えば、携帯電話１１５０の中の音声認識回路が、動作を開始するユーザによって話された言葉を検出することができる。同様に、別のユーザによる（異なる言語の）認識された語句または一群の言葉の携帯電話１１５０による検出が、トリガイベントを開始することができる。例えば、助けを求める叫び声または警察への電話である。携帯電話１１５０は、トリガイベントに応じて、適切な実体に音響情報、時間、および場所を送信することができる。

図１５ａは、周波数帯域でＳＰＬ値を使用するトリガを図示する。１５００は、種々の時間増分（例えば、ｔｂ１からｔｂ２）で分析することができる、音響信号を図示する。分析は、初期トリガイベントとして使用することができるスペクトル情報（例えば、パワースペクトル密度、ＰＳＤ）を提供する、スペクトル表示（例えば、ＦＦＴ）１５００Ａを行うことができる。例えば、資源集約的となり得るＳＳＤの信号を継続的に分析する代わりに、種々のＳＰＬ周波数帯域におけるピークを探すことができる。ピークが閾値を超える場合、ＳＰＬピークをもたらした信号を識別するために、ＳＳＤ分析を誘起することができる。単一または複数の周波数帯域を見ることができ、それぞれが独自の閾値を有することができる。例えば、１５１０は、パターンを有する音響時間信号を図示する。時間増分ｔｂ３からｔｂ４の間分析は、スペクトル表示１５１０Ａをもたらす。周波数帯域Ｆｍｉｎ（１５２０）からＦｍａｘ（１５３０）の中の以前に記憶された閾値１５４０（例えば、ノイズフロアを３ｄＢ上回る）は、時間増分ｔｃ１からｔｃ２でさらなるＳＳＤ分析を誘起する。

図１５ｂは、周期信号を使用したトリガイベントを説明するフローチャートを示す。別の例示的実施形態によれば、周期信号１５５３があるか否かを決定するために、入力音響信号１５４７を分析することができる１５５１。周期信号がある場合には、音波シグネチャ検出（ＳＳＤ）分析に必要な音響データをデータバッファから抽出することができる１５５７。抽出されたデータは、音波シグネチャパラメータ（ＳＳＰ）、例えば、ガウス混合モデルの係数を生成するために使用することができる１５６１。計算されたＳＳＰは、信号の検出を取得することができるか否かを決定するために、記憶された値と比較することができる１５６３。信号が識別された１５６５場合には、信号と関連する記憶された動作を成立させることができる１５６７。例えば、火災警報が識別された場合には、減衰を低減することができる（例えば、能動膨張管理システムを使用している場合）。信号が検出されていない場合には、新しいまたは未知の信号として信号を識別する、通知を送信することができる１５６９。

図１５ｃ−１５ｋは、少なくとも１つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。周期信号を識別する可能な方法のうちの１つは、スペクトログラムの使用である。例えば、検出器が、音響信号を経時的に測定することができる。信号はスペクトログラムに分解することができ、ある時間断片が、スペクトル情報（例えば、ＰＳＤ）に変換され、スペクトログラムのピクセルのカラムと関連付けられる。カラムの中のカラム値は、スペクトログラムの各カラムが同じ最大値および最小値を有するように正規化することができ、その場合、最大および最小範囲を離散値に分解することができ、カラム値をそれぞれの離散値に再び割り当てることができる。経時的な正規化（または非正規化）スペクトログラムは、閾値レベルを上回るピークを探すために分析することができる。次いで、ピークを中心にして、分析領域を位置付け、ピーク領域の重心（例えば、中心線）を導出するために分析領域中の付加的なピークを考慮して、再び中心に位置付けることができる。信号が発話であることが決定または予期された場合には、分析領域の全範囲（図示せず）内で閾値を上回る信号レベルに嵌合するように、時間伸張または短縮を分析領域内で成立させることができる。次いで、反復信号の尤度を決定するために、隣接分析領域間で相関値を得ることができる。

例えば、図１５ｃは、連続して３回、第１のスピーカによって話された「火事（ｆｉｒｅ）」という言葉を図示する（例えば、分析領域Ｒ１、Ｒ２、およびＲ３）。際立ったパターンが明白である。中心化／再中心化すると、図１５ｃの隣接分析領域間の相関が良好になる（例えば、＞０．６）。図１５ｄは、それぞれ分析領域Ｒ４、Ｒ５、およびＲ６と関連する、「火事（ｆｉｒｅ）」、「ワイヤ（ｗｉｒｅ）」、および「沼地（ｍｉｒｅ）」という、スピーカ１によって話された３つの異なる言葉を図示する。中心化すると、パターンの違いを決定することができ、非反復信号を示す、より低い相関値（例えば、＜０．６）を得る。

図１５ｅおよび１５ｆは、第２のスピーカを除いて、図１５ｃおよび１５ｄと類似している。図１５ｅの「火事（ｆｉｒｅ）」という言葉と図１５ｃの「火事（ｆｉｒｅ）」という言葉との間のパターンの類似性に留意することができる。図１５ｇおよび１５ｈは、それぞれ、スピーカ１およびスピーカ２からの「火事（ｆｉｒｅ）」、「助けて（ｈｅｌｐ）」、および「警察（ｐｏｌｉｃｅ）」という３つの種々の言葉のスペクトログラムを図示する。スピーカにかかわらず、共通の言葉の間のいくらかの類似性に留意することができる。

図１５ｉは、周波数掃引警報のスペクトログラムを図示し、図１５ｊは、車の警笛のスペクトログラムを図示し、図１５ｋは、火災警報のスペクトログラムを図示する。非常に長い時間信号は、分析領域幅を増加させる必要性をもたらし得ることに留意されたい。図１５ｉ、１５ｊ、および１５ｋの間の信号の違いが分かる。

図１６ａ−１６ｃは、少なくとも１つの例示的実施形態による、音響情報を収集するように構成されるトリガイベントとしてのセンサデータの使用を図示する、関連概略図である。センサおよびセンサデータは、音響情報を収集するように構成されるトリガイベントを決定するのに有用である。センサデータの実施例は、ほんの数例を挙げれば、加速度および速度、温度、大気（大気圧、風速、水分レベル等）、臭気（におい）、化学的検出、生物学的情報（心拍数、血圧、血糖値等）である。速度および加速度は、トリガイベントを図示するために使用されるが、他のセンサデータは、音響材料の収集を開始するために同様に使用することができる。

図１６ａを参照すると、通信デバイス１１７０によって計算される、加速度対時間のグラフが示されている。同様に、図１６ｂを参照すると、速度対時間のグラフが図１６ｂでプロットされている。図１６ａおよび１６ｂは、加速度閾値１１７４を超えると音響情報を収集するように構成される、トリガイベント１１７２を図示する。少なくとも１つの例示的実施形態では、速度および加速度についての情報は、デバイス１１７０と通信している、または通信デバイス１１７０内に存在する加速度計１１７８によって提供することができる。例えば、通信デバイス１１７０のユーザは、急速に加速するローラコースターに乗っている。加速度は、加速度計１１７８によって測定される変化率から計算することができる。計算された加速度が加速度閾値１１７４を超えた場合、音響情報が収集される。ブラックボックス配設で、そのような配設を使用できることに留意されたい。例えば、自動車事故において、閾値レベル（例えば、２ｇ）を超える加速および／または減速レベルの検出時に、音声記録を開始し、記憶することができる。それは後で、事故の手掛かりを提供するためにアクセスすることができる。

少なくとも１つの例示的実施形態では、トリガイベント１１７２は、トリガイベントが発生する期間（ｔ_２−ｔ_３）中に音響情報の収集を開始する。音響情報の収集は、期間ｔ_２−ｔ_３に限定されず、収集が必要とするものに基づいて調整することができる。少なくとも１つの例示的実施形態では、音響情報は、バッファに記憶され、したがって、トリガイベント１１７２が発生した期間よりも長い期間にわたって取り出すことができる。逆に、音響情報は、例えば、加速度が加速度閾値１１７４を超える期間中に、ｔ_２−ｔ_３よりも少ない時間にわたって収集することができる。

いったん誘起されると、図１６ｃに示されるように、期間ｔ_２−ｔ_３中の音響情報は、データベースに送信するために収集される。音響情報は、その全体で通信デバイスの中のより長期的なメモリへとバッファから除去することができ、または収集の必要性に応じて、よりコンパクトな形態に変換し、モデル化し、特性化し、メタデータを提供することができる。収集された音響情報はまた、即座に通信デバイス１１７０からデータベースに送信することもできる。メタデータは、音響情報およびトリガイベントを識別し、説明するのに役立つ。メタデータは、収集された音響情報に添付することができ、時間情報および地理的場所情報を含む。一般に、通信デバイス１１７０の中のクロックが、時間情報またはタイムスタンプを提供し、ＧＰＳ受信機１１７６が、音響情報が受信された地理的場所情報またはジオコードを提供する。

一般に、複数のトリガイベントを、ＡＮＤまたはＯＲの組み合わせで使用することができる。加速度および生物学的センサ情報の両方を使用する実施例は、潜在的な救命用途を例証する。生物学的センサは、通信デバイス１１７０のユーザの生体機能を監視するためにユーザに結合される。生物学的センサは、加速度計１１７８も含む通信デバイス１１７０と通信している。ユーザが急速な減速を受ける車両で進行しており、それが最終的には事故をもたらす。加速度閾値１１７４（絶対値）を超え、音響情報が携帯電話１１７０によって分析され、深刻な事故が発生したことを示す。分析は、強い衝撃の事故であるという高い確率を計算する（加速度計測定を含む）、音声シグネチャ検出を含むことができる。生物学的センサは、ユーザの健康についての情報を提供する。通信デバイス１１７０は、警察、消防署、および病院に、情報（時間、場所、事故のパラメータ）ならびに関連個人医療情報（病状、薬、アレルギー等）を自動的に送信することができ、ユーザを救命し得る数分の時間の節約をもたらす。さらなる特徴は、１つまたは複数のトリガイベントが、写真の撮影またはビデオの撮影を開始できることとなり得る。また、視覚情報を記憶するために環状バッファが採用されていた場合、トリガイベントに先行する視覚情報およびトリガイベント後の情報を提供することが可能となる。

開示されるように、トリガイベントは、デバイスのユーザによって、または遠隔で有効にすることができる。例えば、親は、子供の電話が警告信号（例えば、銃撃）を認識した、音圧レベルを超えた、または地理的場所が入力された場合に、親に音響情報を送信するトリガイベントを有効にしたい場合がある。親は、あるイベントが発生した場合に通知を提供するために、子供の電話にトリガイベントを入力するか、または遠隔で入力することができる。

図１７は、少なくとも１つの例示的実施形態による、音声シグネチャのカタログ１２１０からのダウンロードを図示するブロック図である。前述のように、世界中で収集された音声のデータベースを有することには途方もない便益がある。例えば、音声のデータベースは、後世のために記録された、可聴環境変化のアクセス可能な歴史を表す。科学者および歴史学者は、研究のために情報を使用することができる。個人化音声管理用途のための同様の音声を識別するために音声シグネチャを使用するシステムを、本明細書で開示した。同様に、音声データベースは、企業および政府への用途を有する。例えば、映画用の音声効果、または都市環境と対比した都会環境中の雑音レベルの分析用である。

ウェブサイト１２０２は、本明細書で説明されるように、ユーティリティ、サービス、または商品１２０４を提供するアプリケーションに対する音声シグネチャ情報を提供するために、個人、政府、企業、科学者等に対する１つ以上のウェブページを提供することができる。ユーザまたは実体は、音声データベース１２０８の検索１２０６を行う。音声シグネチャのカタログ１２１０は、この膨大なデータベースの検索を最適化するように組織化される。音声シグネチャ情報は、音声シグネチャが識別され、見つけられることを可能にする階級で、参照され、相関付けられ、相互相関付けられ、技術的にモデル化され、ジオコード付けされ、タイムスタンプ付けされ、文脈で関係付けられ、コンテンツで関係付けられ、用途で関係付けられ、その他が行われる。ユーザは、適切な項目の音声シグネチャまたは音圧レベルが見つかるまで検索する１２０６ことができる。

いったん見つかると、１つ以上の音声シグネチャの音声コンテンツ１２１２ならびに音声シグネチャと関連する全ての情報は、ウェブページ１２１４に提供またはリンクされる。再生環境１２１６は、音声シグネチャを再生するために提供される。ユーザは、用途で使用するために音声シグネチャおよび情報をダウンロードしてもよい。少なくとも１つの例示的実施形態では、用途に応じて、料金が音声シグネチャのダウンロードと関連付けられてもよい。例えば、何百または何千もの銃撃および爆発の収集が欲しい映画スタジオは、この音声のデータベースに支払いをしなければならない。

図１８は、少なくとも１つの例示的実施形態による、音声を提供することが情報を提供し、検索体験を向上させる、アプリケーションのブロック図を図示する。地図のインターネット検索は、多くの異なる画像を提示する。それは、地形、衛星写真、市街地図、または他の種類の地図表示となり得る。多くの異なる種類の検索において１つの欠けている部分、聴覚フィードバックを提供することである。例えば、市街地図の検索は、街路がどのようであるかを視覚的に教える場合があるが、静止画像である。異なる時刻に街路がどのようであるかを見るとともに聞くことができる場合を想像されたい。オーディオ体験は、この種類の使用に全く新しい次元をもたらす。

ユーザは、インターネット上で検索１３０２を行うことができる。例えば、ユーザが移動しており、よく知らない不慣れな地域に位置している。一般に、本明細書で開示される概念を検索に適用することができ、開示された具体的実施例は例証目的のためにすぎないことに留意されたい。検索１３０２は、ユーザが滞在しているホテルから歩いて行ける距離にあるレストランについてである。ユーザは、次の日に提示される事業提案を基準にしなければならない。検索１３０２は、地図１３０４を表示する。これは、スクリーンショット１３１２に示される。少なくとも１つの例示的実施形態では、スクリーンショットは、レストランの場所を伴う地図を提供する。レストランは、検索においてユーザを補助するために、一覧化し、レストランの種類別に分類することができる。

少なくとも１つの例示的実施形態では、検索１３０２は、音声データベース１３１０の検索を含む。音声データベース１３１０は、１つがレストラン情報をグループ化し、もう１つが地図１３０４等のアプリケーションをサポートする場所である、検索階級を有する。少なくとも１つの例示的実施形態では、ユーザが特定のレストラン上にカーソルを配置すると、さらなる情報が表示される。情報は、データベース１３１０からの視覚的（写真、テキスト）およびオーディオとなり得る。本明細書で開示されるように、全ての種類の音声情報が、自動的に、および手動で、データベース１３１０に提供される。例示的実施形態のうちの少なくとも１つでは、データベース１３１０の中の情報のうちのいくらかは、１年の毎日、各レストランの開店から閉店まで蓄積された検索地域の中のレストランに関する。データベース１３１０から受信される情報の実施例は、レストランの音、レストランの中の音圧レベル、レストランのユーザレビュー、レストランの地域の周辺の音、場所、およびメニューである。したがって、ユーザは、実際の顧客によるレビューを聞く、レストランの特製料理を知る、または地域およびレストランがうるさすぎるか、または騒々しすぎるか否かを決定することができる。例えば、ユーザが静かな夕食を求めている。提供された情報は、レストランが、静かな雰囲気を示す低い音圧レベルを有することを示す。ユーザは、滞在の週と関連する期間をチェックし、この時期に休暇中の大学生が殺到するため、雑音レベルが急上昇することを知る。同様に、ユーザは、ある時が大幅により静かである（例えば、サービスタイムの前後）ことを知り、情報によって示されるような静かな期間中に行くようにスケジュールを手配することができる。したがって、検索の主題に向けられたオーディオ情報を提供することによって、ユーザ有用性および体験が多大に向上させられる。

図１９は、少なくとも１つの例示的実施形態による、３次元音響マッピングのアプリケーションのブロック図を図示する。上記で説明されるように、各音声シグネチャは、関連タイムスタンプおよびジオコードを有する。ジオコードは、３次元空間中の各音声シグネチャの場所を与える。したがって、建物の１階での測定は、直接２階にいる誰かとは異なる座標を有する。したがって、一群の音声シグネチャが、地域の３次元音響地図を生成することができる。実施例は、建物の中および周囲の音圧レベル変動となる。別の実施例は、聞こえる音声の種類となる（例えば、警笛、工業雑音、オフィスの喋り声、エレベータの音等）。

３次元音響マッピングを例証する実施例は、建物１４０２である。本明細書で開示される概念を、任意の種類の３次元空間に適用することができ、実施例は例証目的のためにすぎないことに留意されたい。建物１４０２の地域の周囲の音声シグネチャが、年間を通じて、地域で働く、訪れる、または住んでいる人々によって、自動的に、および手動で収集されている。音声シグネチャ、音圧レベル測定、および他の音響情報が、音声データベース１４０８に記憶される。検索は、建物１４０２の周囲、建物１４０２の内側、異なる時刻、および（タイムスタンプ情報を使用して）異なる時期の情報をデータベース１４０８から提供する。音響地図プログラム１４０６は、建物内部および建物１４０２の外側の周辺地域の音声地図１４１０を構築するために、音響情報を使用する。音声地図１４１０は、異なる時刻、数週間、数年間等で、表示することができる。視覚地図を３Ｄ音響地図と一体化することもでき、さらなる情報を提供する。

例えば、企業がなじみのない地域に移転したいと思っている。借りることに関心があるオフィスは、１階に製造施設を有する建物の２階にある。建物の所有者は、建物が雑音に対して十分防音していると告げている。雑音レベルを調査するように、データベース１４０８からの音声シグネチャを使用して、地域の音響地図を生成することができる。音声シグネチャと関連する音圧レベル測定は、音声地図で広範囲に使用される。この実施例では、生成された音声地図は、製造施設からの音声が公称であったことを確かに確立したが、地図は、建物の一側面がある時期に大幅に高い風騒音を被る一方で、別の側面が隣接する建物からの多大な雑音を受けることを示した。さらに、音波シグネチャ検出を使用した記録の分析は、１日のある部分の間の電車の雑音およびバイクの雑音を識別した。したがって、企業の決定は、建物を借りないことであった。他の建物の音声地図が生成され、最善の解決法を識別するために決定プロセスで使用された。

図２０は、少なくとも１つの例示的実施形態による、緊急情報を自動的に提供するためのアプリケーションのブロック図を図示する。一般に、命を脅かす出来事が発生すると、時間が最も重要である。イヤホンについて図９で開示されるように、個人化音声管理ソフトウェアを実行するために適合される、携帯電話、イヤホン、携帯情報端末、スマートフォン、またはラップトップコンピュータ等の通信デバイス１５０２は、適正な権限に報告されるべきである危険な状況を検出するために使用することができる。

通信デバイス１５０２は、個人化音声管理アプリケーション１５０４を実行する。具体的には、常時オン記録１５０８が、バッファに音響情報を記憶し、上記で開示されるようなデバイス１５０２のマイクロホンによって提供される音声を継続的に分析する。分析は、音響情報をデバイス１５０２のメモリに記憶されている音声シグネチャと比較するか、または音声シグネチャのライブラリへのアクセスを通して比較するステップを含む。分析は、音声シグネチャ検出１５１０のステップで行われる。この実施例では、音声シグネチャの一部が緊急音声に関する。

緊急音声は、警察、病院、消防署、または他の権限等の権限にとって重要なものである。緊急音声の実施例は、銃撃、自動車事故、助けを求める叫び声、爆発、または命を脅かすか、あるいは即時応答を必要とし得る他の音声である。音声シグネチャ検出１５１０のステップは、デバイス１５０２のマイクロホンによって受信された音声情報を分析する。通常の音声シグネチャが検出された場合、アプリケーションの個人化１５０４に基づいて応答が提供される。

緊急音声１５０６は、通信デバイス１５０２のマイクロホンによって受信される。緊急音声１５０６は、バッファに記憶され、分析される。音声シグネチャ検出１５１０のステップは、１つ以上の音声シグネチャ緊急音声に類似した音声を見つける。音声は、緊急音声に対する適切な応答を選択する、音声カテゴリ１５１４に入れることができる。例えば、銃撃が検出され、銃撃は、警察への報告を作成し、自動的に送信するための応答を提供する、音声カテゴリ１５１４の中にある。少なくとも１つの例示的実施形態では、銃撃の種類、銃撃の方向、通信デバイスからの距離、音声が発生した時間および場所等の情報を、情報を提供する１５２０ステップで供給することができる。通信デバイス１５０２は、自動的に通信し、適切な権限に情報を提供する。本明細書で説明される方法論では、異なる場所における複数の人々が、自動的に警察に情報を提供する１５２０。音響マッピングは、状況の重大性をさらに決定し、人々の命を救い、被害を受ける状態にある権限を保護する応答を提供するために、使用することができる。

図２１は、少なくとも１つの例示的実施形態による、建物または家庭における強盗、侵入、または深刻な状況を検出するためのアプリケーションのブロック図を図示する。イヤホンについて図９で開示されるように、個人化音声管理ソフトウェアを実行するために適合される、携帯電話、イヤホン、携帯情報端末、スマートフォン、またはラップトップコンピュータ等の通信デバイス１６０２は、適正な権限に報告されるべきである、家庭における強盗、侵入、または他の深刻な状況を検出するために使用することができる。同様に、音声シグネチャ検出を使用するデバイスを、家庭を監視する具体的目的で構築することができる。

通信デバイス１６０２は、個人化音声管理アプリケーション１６０４を実行する。具体的には、常時オン記録１６０８が、バッファに音響情報を記憶し、デバイス１６０２のマイクロホンによって提供される音声を継続的に分析する。分析は、音響情報をデバイス１６０２のメモリに記憶されている音声シグネチャと比較するか、または音声シグネチャのライブラリへのアクセスを通して比較するステップを含む。分析は、音声シグネチャ検出１６１０のステップで行われる。この実施例では、音声シグネチャの一部が、家庭への侵入または火事等の他の深刻な事象に対応する音声に関する。

強盗音声１６０４は、音声を検出し、それに応答するデバイス１６０２の実施例として使用される。強盗音声の実施例は、ほんの数例を挙げれば、侵入するためにガラスを粉々に割る音、誰かが窓を開けようとする（窓がガタガタという）音、または戸棚の扉の急速な開閉である。音声シグネチャ検出１６１０のステップは、デバイス１６０２のマイクロホンによって受信された音声情報を分析する。通常の音声シグネチャが検出された場合、アプリケーションの個人化１６０４に基づいて応答が提供される。

実施形態では、強盗音声１６０６が通信デバイス１６０２のマイクロホンによって受信される。強盗音声１６０６は、バッファに記憶され、分析される。音声シグネチャ検出１６１０のステップは、１つ以上の音声シグネチャ緊急音声に類似した音声を見つける。音声は、強盗音声１６０４に対する適切な応答を選択する、音声カテゴリ１６１４に入れることができる。例えば、窓の破損に類似した音声が、デバイスの所有者の家庭に対応するデバイス１６０２の地理的場所も知っている、デバイス１６０２によって検出される。窓を壊す音は、集合住宅におけるローカルセキュリティへの報告を作成し、自動的に送信するための応答を提供する、音声カテゴリ１６１４の中にある。少なくとも１つの例示的実施形態では、窓の破損の種類、窓の破損の方向、窓の破損からのデバイス１６０２の距離、窓の破損が発生した時間および場所等の情報を、情報を提供する１６２０ステップで供給することができる。通信デバイス１６０２は、自動的に通信し、適切な権限に情報を提供する。この実施形態では、集合住宅に対するローカルセキュリティが通知を受け、車で出かけて何かがおかしいか否かを決定することができる。同様に、警察に連絡することができ、警察は付近の誰かを送って地所を調査することができる。

図２２は、少なくとも１つの例示的実施形態による、オーディオロッカー１７１２を有する社交用の個人ウェブページ１７１０を含む、ウェブサイト１７０６の概略図を図示する。音声捕捉のためのデバイスを使用する参加者は、社会的協力の目的で、選好に基づいて、これらの音声をタグ付けし、カタログに入れることも可能となる。事前に確立されたオーディオロッカーが、コミュニティによって定義可能であるカスタマイズ可能なロッカーとのオンラインインターフェースを通して利用可能となる。例えば、ウェブサイト１７０６は、社交のための環境を提供する。ウェブサイト１７０６のユーザは、安全であり、ユーザの制御の下にあるオーディオロッカー１７１２を含む、個人ウェブページ１７１０を有することができる。他のウェブサイトユーザは、パスワードで保護されているオーディオロッカー１７１２にアクセスできない。オーディオロッカー１７１２は、通信デバイス１７０２からの個人オーディオ情報を記憶する際の個人的使用のためのものである。

通信デバイス１７０２は、ユーザのオーディオ経歴を作成するために使用することができる。少なくとも１つの例示的実施形態では、デバイス１７０２は、ユーザの１日のオーディオ記録であるオーディオ情報を受信し、記憶する。アップロードするステップ１７０８では、デバイス１７０２は、１日のイベントを記憶したオーディオ情報をアップロードするために、ウェブサイト１７０６上で、またはユーザシステム（例えば、パーソナルコンピュータ）を通して、ユーザオーディオロッカー１７１２に接続される。ユーザは、ウェブサイト上の再生環境を通して、オーディオ情報のクリップを編集または作成することができる。ユーザが共有することを所望するオーディオ情報は、ユーザの個人ウェブページ１７１０上に投稿することができる。ウェブサイト１７０６のグローバルユーザ１７０４は、ユーザの個人ウェブページにアクセスし、再生環境１７１４を通してユーザによって提供されたオーディオ経歴情報を聴くことができる。社交のためにユーザによって提供される個人ウェブページ１７１０のオーディオコンテンツの実施例を以下で例証する。
この日に・・・
○重要なイベント−スポーツ、パーティ、トラックショー、パレード、スキーと射撃・私の家庭−家、夕食の時間、週末
・私の街路−私の庭、街角
・私のお気に入りの場所−レストラン、公園
・私の最も騒々しい場所−地域の工事、地下鉄／電車の駅、空港
・私の娯楽−路上イベント、コンサート、ゲームセンター、銃射撃場
・私の通勤
・私の最近の冒険
・私のお気に入りの音声
・私の嫌いな音声
・あなたもこれを聞かなければなりません
これらのコンテンツセグメントは、ユーザが、アプリケーションを通してオンラインソーシャルサイトに公開し、開放および閉鎖コミュニティで議論を開始し、第３者マッピングプログラム上にジオコードおよびタイムスタンプ付きの音声を重ねることを可能にする。収集された音声はまた、種々の現場についての公開入力を提供する、推奨および格付けエンジン（水曜夜の６時３０分のＸＹＺレストラン）にリンク可能にもなり得る。したがって、経歴オーディオ情報の収集は、人々を相互にリンクするのに有意な社会的影響を及ぼし、オーディオセグメントに基づく議論のトピックを作成し、一般に、社交ウェブサイトを使用する体験を向上させることができる。

代替例示的実施形態では、ウェブサイト１７０６は、祖父母と孫との間の社交を提供し、双方向または遅延通信を可能にする。例えば、個人ウェブページ１７１０は、特定の祖父母および孫と関連付けられる。個人ウェブページ１７１０は、アクセスを有するユーザ（祖父母および孫）を特定する所有者を伴う安全なユーザ空間である。１つより多くのオーディオロッカー１７１２が、個人ウェブページ１７１０内に存在することができ、またはオーディオロッカー１７１２を、１つより多くの安全な特定のアクセス領域で区分することができる。

オーディオロッカー１７１２は、オーディオ情報ならびにビデオまたは写真等の他の情報のための安全な記憶領域である。祖父母および孫は、楽しみのため、または継続的交流を可能にする通信のために、オーディオ情報を投稿するためのリポジトリとして、それを使用することができる。通信デバイス１７０２は、アップロード１７０８を介してオーディオロッカー１７１２にオーディオ情報を提供するために使用することができる。オーディオロッカー１７１２は、子供が、通常は頼みにくい場合があるオーディオメッセージを祖父母に送信するための導管となり得る。例えば、孫は、誕生日に欲しいプレゼントのオーディオウィッシュリストをオーディオロッカー１７１２の中に配置することができ、または、オーディオウィッシュリストを、対応する祖父母によるレビューのために個人ウェブページ１７１０の安全な領域の中に配置することができる。

例示的実施形態を参照して本発明を説明してきたが、本発明は、開示された例示的実施形態に限定されないことを理解されたい。以下の請求項の範囲は、全てのそのような修正ならびに同等の構造および機能を包含するよう、最大広義の解釈にふさわしいものである。

Claims

音響情報を収集する方法であって、
前記方法は、
モバイルデバイスに通信可能に結合されたマイクロホンにより音響データを収集するステップと、
前記モバイルデバイス上に地図上の視覚情報を提示するステップと、
前記音響データ内の音声を前記地図上の前記視覚情報と関連付けるステップと、
前記視覚情報に関するトリガイベントに応答して前記音声に関する前記地図中のオーディオコンテンツを検索するステップと
を含む、方法。
前記関連付けることは、音声認識によりトリガされた検索トピックについて前記音響データを分析することを含む、請求項１に記載の方法。
前記検索することは、前記音声コンテンツの分析について前記モバイルデバイスに対してメディアをダウンロードまたはストリーミングすることを含む、請求項１に記載の方法。
前記地図は、写真またはテキストまたは両方を含む、請求項１に記載の方法。
トピックに関する音響情報について音響データベースを検索することと、前記トピックに関する前記地図に対応する場所情報で投稿される情報を提供することとをさらに含む、請求項１に記載の方法。
前記音響データをユーザの１日のオーディオ記録として記憶することと、
前記ユーザの１日において決定された前記オーディオ記録中のイベントをアップロードすることと、
ソーシャルネットワーキングについてイベントの前記オーディオ記録を共有することと
をさらに含む、請求項１に記載の方法。
ソーシャルウェブサイトにわたって前記オーディオ記録上の議論トピックをリンクすることをさらに含む、請求項１に記載の方法。
前記収集するステップは、前記モバイルデバイスに通信可能に結合された前記マイクロホンにより、前記トリガイベントに応答して音響データを自動的および継続的に捕捉することを含み、前記提示するステップは、前記地図および前記音響データと関連付けられたトピックを提示することを含む、請求項１に記載の方法。
前記音響データ内の音声を前記地図上の前記場所情報と関連付けることと、
話された言葉の音声起動に応答して前記音声に関する前記地図中のコンテンツを検索することと
をさらに含む、請求項８に記載の方法。
前記トピックに関する音響情報について音響データベースを検索することと、前記トピックに関する他のユーザにより前記地図に投稿される情報を提供することとをさらに含む、請求項８に記載の方法。
ソーシャルウェブサイトにわたって前記地図上のトピックをリンクすることをさらに含む、請求項８に記載の方法。
場所およびユーザ体験情報を含むメタデータで捕捉された音響データをタグ付けし、カタログに入れることをさらに含む、請求項８に記載の方法。
前記トリガイベントは、場所イベント、音声シグネチャ検出イベントまたは音声起動イベントのうちの１つである、請求項８に記載の方法。
前記トリガイベントは、音声シグネチャ検出イベントである、請求項８に記載の方法。
前記トリガイベントは、音声起動イベントである、請求項８に記載の方法。
検索可能な音声コンテンツを用いて生成または更新されたリアルタイムの３次元音響地図を作成するステップをさらに含む、請求項１に記載の方法。
環境内のユーザ体験に関連する前記音響信号内の音声情報を識別することと、
前記収集することに関連付けられたトピック、トリガイベント、時間および場所を含めることによって、前記音声情報をタグ付けし、前記音声情報を前記ユーザ体験と関連付けることにより、タグ付けされた音声データを生成することと、
前記トピック、トリガイベント、時間および場所に従って検索可能な音声コンテンツを作成するために、前記タグ付けされた音声データをインデックス付けし、カタログに入れることと
をさらに含む、請求項１に記載の方法。
前記トリガイベントは、加速度および速度、温度、大気測定、風速、水分レベル、臭気、化合物、生物学的情報、音波音声シグネチャ、ガウス混合モデル分析に基づく音波シグネチャ、所定の期間にわたって所定の閾値を上回る平均音圧レベル、または、所定の量を上回る音圧レベルの差分変化のうちの１つ以上を含む、請求項１７に記載の方法。
前記トリガイベントは、所定の期間、または音圧レベル、またはＧＰＳ情報、時刻、移動の検出のうちの１つ以上を含む、請求項１７に記載の方法。
前記音声情報をタグ付けし、前記音声情報を前記ユーザ体験と関連付けることは、特定の場所における音響スナップショットを生成する、請求項１７に記載の方法。