JP2014222523A - 音声ライブラリおよび方法 - Google Patents

音声ライブラリおよび方法 Download PDF

Info

Publication number
JP2014222523A
JP2014222523A JP2014132121A JP2014132121A JP2014222523A JP 2014222523 A JP2014222523 A JP 2014222523A JP 2014132121 A JP2014132121 A JP 2014132121A JP 2014132121 A JP2014132121 A JP 2014132121A JP 2014222523 A JP2014222523 A JP 2014222523A
Authority
JP
Japan
Prior art keywords
audio
information
acoustic
acoustic information
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014132121A
Other languages
English (en)
Inventor
ゴールドスタイン スティーブン
Goldstein Steven
ゴールドスタイン スティーブン
ピー. キーディ ジョン
P Keady John
ピー. キーディ ジョン
ホシザキ ゲイリー
Hoshizaki Gary
ホシザキ ゲイリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Personics Holdings Inc
Original Assignee
Personics Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Personics Holdings Inc filed Critical Personics Holdings Inc
Publication of JP2014222523A publication Critical patent/JP2014222523A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/687Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/05Geographic models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • H04R1/083Special constructions of mouthpieces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • H04M1/6041Portable telephones adapted for handsfree use
    • H04M1/6058Portable telephones adapted for handsfree use involving the use of a headset accessory device connected to the portable telephone
    • H04M1/6066Portable telephones adapted for handsfree use involving the use of a headset accessory device connected to the portable telephone including a wireless connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72457User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to geographic location
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/10Details of telephonic subscriber devices including a GPS signal receiver
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/12Details of telephonic subscriber devices including a sensor for measuring a physical value, e.g. temperature or motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Otolaryngology (AREA)
  • Remote Sensing (AREA)
  • Computer Graphics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】好適な音声ライブラリおよび方法を提供すること。
【解決手段】少なくとも1つの例示的実施形態は、世界中およびそれ以上から音声シグネチャを収集するように構成されるウェブサイトを対象とする。通信デバイスは、通信デバイスのマイクロホンによって受信される音響情報を自動的に記憶する。音響情報は、トリガイベントについて分析される。トリガイベントは、音響情報を記憶し、メタデータを添付し、ガウス混合モデルを作成し、音圧レベルを測定する。通信デバイスは、通信経路が通信デバイスに開かれると、音声シグネチャをデータベースに自動的に送信する。各音声シグネチャは、タイムスタンプおよびジオコードを含む関連メタデータを有する。プロセスのために適合された通信デバイスを使用して、音声を自動的に収集することにより、継続的に音声を世界的に捕捉するデータベースを有効にする。
【選択図】図11

Description

(関連出願の相互参照)
本願は、米国仮特許出願第61/097,396号(2008年9月16日出願)の利益を主張する。この出願の開示は、その全体が本明細書に参考として援用される。
(発明の分野)
本発明は、一般に、音声および音声を収集する方法に関し、排他的ではないが具体的には、音声のライブラリを作成することに関係している。
環境中の音響は、文明および技術の進歩とともに進化している。経時的に、人々は音響の変化に適応し、新しい技術によってもたらされた音声を認識することを習得してきた。大都市の音声は、各輸送手段が各自の独特な音響を付与するため、歩行、自転車、自動車、地下鉄、および飛行機へと輸送手段が変化するにつれて異なる。音声は、場所、環境、および文化の反映である。例えば、オーストラリアの平穏な峡谷での風のうなる音、または大晦日のニューヨークのタイムズスクエアでの交通あるいはレストランの音は、時間、場所、およびイベントの独特な音響スナップショットである。
現在入手可能な情報の全てがありながら、世界で利用可能である自然発生および人口音声の検索可能なデータベースは1つもない。保存されている音響情報は、多くの種類のメディア形式であり、多くの場所に記憶され、見つけて使用することが困難になっている。さらに、音声を貯蔵する人々の数は、日常的に作成されている音響情報に関して、比較的少ない。我々の周囲で発生する変化の速度により、広く普及した音声がもはや再び聞かれない可能性が高い。全ての種類の音響情報を貯蔵し、利用可能にすることは、人類にとって多大な便益となるであろう。
少なくとも1つの例示的実施形態は、音響情報を収集する方法であって、音響情報を自動的に受信し、収集し、送信するようにデバイスを構成するステップと、トリガイベントが発生したか否かを決定するために、第1の組の音響情報を分析するステップと、トリガイベント発生したときに、第2の組の音響情報を収集するステップと、第2の組の音響情報をデータベースに提供するステップとを含む、方法を対象とする。
少なくとも1つの例示的実施形態は、地図とともに音響情報を提供する方法であって、トピックを検索するステップと、トピックと関連する地図を提供するステップと、トピックに関係する音響情報について音響データベースを検索するステップと、地図とともに再生するために、トピックに関係する音響情報を提供するステップとを含む、方法を対象とする。
本発明は、例えば、以下を提供する。
(項目1)
音響情報を収集する方法であって、
音響情報を自動的に受信し、収集し、送信するようにデバイスを構成するステップと、
トリガイベントが発生したか否かを決定するために、第1の組の音響情報を分析するステップと、
該トリガイベントが発生したときに、第2の組の音響情報を収集するステップと、
該第2の組の音響情報をデータベースに提供するステップと
を含む、方法。
(項目2)
音圧レベルが所定の閾値を超えていることを上記第1の組の音響情報が示すとき、トリガイベントは既に発生している、項目1に記載の方法。
(項目3)
音圧レベルが所定の量だけ変化したことを上記第1の組の音響情報が示すとき、トリガイベントは既に発生している、項目1に記載の方法。
(項目4)
上記デバイスが所定の場所範囲内にあることを上記第1の組の音響情報が示すとき、トリガイベントは既に発生している、項目1に記載の方法。
(項目5)
第1の組の音響情報が所定の時間範囲内であることを該第1の組の音響情報が示すとき、トリガイベントは既に発生している、項目1に記載の方法。
(項目6)
上記第1の組の音響情報を、少なくとも1つの音声シグネチャと比較するステップと、
上記音声が該少なくとも1つの音声シグネチャに類似しているときに、上記第2の組の音響情報を収集するステップと
をさらに含む、項目1に記載の方法。
(項目7)
上記第1の組の音響情報を、少なくとも1つの音声シグネチャと比較するステップと、
上記音声が該少なくとも1つの音声シグネチャとは異なるときに、上記第2の組の音響情報を収集するステップと
をさらに含む、項目1に記載の方法。
(項目8)
トリガイベントが発生すると、上記第1の組の音響情報を記憶するステップと、
メタデータを該第1の組の音響情報に添付するステップと、
メモリの中に第3の音響情報のキューを構築するステップと、
上記通信デバイスと上記データベースとの間の通信経路が有効になると、該第3の音響情報のキューを該データベースに送信するステップと
をさらに含む、項目1に記載の方法。
(項目9)
上記メタデータとともにタイムスタンプおよびジオコードを含むステップをさらに含み、それにより、それぞれ時間および地理的場所を提供する、項目8に記載の方法。
(項目10)
上記音響情報のガウス混合モデルを含む音声シグネチャを上記データベースに提供するステップをさらに含む、項目1に記載の方法。
(項目11)
上記第2の組の音響情報の音圧レベル測定を上記データベースに提供するステップをさらに含む、項目1に記載の方法。
(項目12)
上記第1の組および上記第2の組の音響情報のうちの少なくとも1つを記憶するステップをさらに含む、項目1に記載の方法。
(項目13)
トピックを検索するステップと、
該トピックと関連する地図を提供するステップと、
該トピックに関係する情報について上記データベースを検索するステップと、
該地図とともに再生するために該情報を提供するステップと
さらに含む、項目1に記載の方法。
(項目14)
音響情報を収集し、提供する方法であって、
音響情報のリポジトリにアクセスできるウェブサイトを提供するステップと、
音圧レベル(SPL)を測定するように構成される第2の複数の通信デバイスを使用して、第1の複数のSPLレベルを収集するステップと、
各音圧レベルにタイムスタンプおよびジオコードを含むメタデータを添付するステップと、
該ウェブサイトとともに使用するためのデータベースの中に該音圧レベルを記憶するステップと
を含む、方法。
(項目15)
音圧レベルを自動的に収集し、アップロードするステップをさらに含む、項目14に記載の方法。
(項目16)
携帯電話によって音圧レベルを収集するステップをさらに含む、項目14に記載の方法。
(項目17)
イヤホンによって音圧レベルを収集するステップをさらに含む、項目14に記載の方法。
(項目18)
ユーザインターフェースが、編集、監視、およびコンテンツの管理を促進する、項目14に記載の方法。
(項目19)
音響情報を収集し、提供する方法であって、
記憶された音響データベースにアクセスするステップと、
ウェブベースのGIUインターフェースの少なくとも1つのページを使用して、音響情報をアップロードするステップと、
該アップロードされた音響情報を音波シグネチャパラメータと比較するステップであって、該パラメータは、訓練されたモデルと関連する、ステップと、
該パラメータを使用して該アップロードされた音響情報を識別し、該アップロードされた音響情報に識別子を追加するステップと、
該アップロードされた音響情報および該識別子を該ベースの中に記憶するステップと
を含む、方法。
(項目20)
上記アップロードは、自動的に達成される、項目19に記載の方法。
(項目21)
上記アップロードは、複数の通信デバイスを使用して達成される、項目20に記載の方法。
(項目22)
ウェブベースのGUIインターフェースは、ユーザアクセスを促進するように構成される、項目20に記載の方法。
(項目23)
上記ウェブベースのGUIインターフェースの少なくとも1つのページからアクセス可能である記録を投稿するステップと、
該投稿された記録の議論を促進するために、上記ウェブサイト上にフォーラムを提供するステップと
をさらに含む、項目19に記載の方法。
(項目24)
携帯電話によって音圧レベルデータを記録するステップであって、該携帯電話は、該音圧レベルデータにタイムスタンプおよびジオコードを追加する、ステップと、
該音圧レベルデータを上記ウェブサイトにアップロードするステップと、
上記ウェブベースのGUIインターフェースの少なくとも1つのページからアクセス可能である音圧レベルデータを投稿するステップと
をさらに含む、項目19に記載の方法。
(項目25)
イヤホンによって音声シグネチャを記録するステップであって、該イヤホンは、該音声シグネチャにタイムスタンプおよびジオコードを付するデータを含むメタデータを生成する、ステップと、
該音声シグネチャおよびメタデータを上記ウェブサイトにアップロードするステップと、
議論のために上記音声シグネチャおよびメタデータを該ウェブサイトに投稿するステップと
をさらに含む、項目19に記載の方法。
(項目26)
イヤホンによって音圧レベルを記録するステップであって、該イヤホンは、該音圧レベルにタイムスタンプおよびジオコードを付するデータを含むメタデータを生成する、ステップと、
該音圧レベルおよびメタデータを上記ウェブサイトにアップロードするステップと、
上記ウェブベースのGUIインターフェースの少なくとも1つのページからアクセス可能である上記音圧レベルデータを投稿するステップと、
をさらに含む、項目19に記載の方法。
(項目27)
音声シグネチャを収集し、提供する方法であって、
記憶された音響データベースの中のアップロードされた音波シグネチャにアクセスするステップと、
該データベースからデバイスに少なくとも1つの音波シグネチャを提供するステップであって、それにより、該デバイスは、上記少なくとも1つの音声シグネチャを使用して、該デバイスによって受信された音声との比較を行うことにより、該少なくとも1つの音声シグネチャに類似した音声の存在を決定する、ステップと
を含む、方法。
(項目28)
音響情報を収集する方法であって、
通信デバイスによって音圧レベルを測定するステップと、
いつ、どこで該音圧レベルが測定されたかという時間情報および地理的情報を含むメタデータを該音圧レベルとともに捕捉するステップと、
該通信デバイスのメモリに該音圧レベルおよびメタデータを記憶するステップと、
該通信デバイスからデータベースに該音圧レベルおよびメタデータをアップロードするステップと
を含む、方法。
(項目29)
音響情報を収集する方法であって、
通信デバイスによって音響情報を記録するステップと、
該音響情報から音波シグネチャを生成するステップであって、該音波シグネチャは、モデルパラメータと、該音響情報を表す特徴とを含む、ステップと、
いつ、どこで該音波シグネチャが記録されたかという時間情報および地理的情報を含むメタデータを捕捉するステップと、
該通信デバイスのメモリに該音波シグネチャおよびメタデータを記憶するステップと、
該通信デバイスからデータベースに、該音波シグネチャデータおよびメタデータをアップロードするステップと
を含む、方法。
(項目30)
マッピングする方法であって、
地理的領域を識別するステップと、
該地理的領域と関連する音響データベースから音声シグネチャ情報を取り出すステップと、
該音響データベースからのデータを使用して、該地理的領域に関係する音響情報を図示する音響地図を作成するステップと
を含む、方法。
(項目31)
地図とともに音響情報を提供する方法であって、
トピックを検索するステップと、
該トピックと関連する地図を提供するステップと、
該トピックに関係する音響情報について音響データベースを検索するステップと、
該地図とともに再生するために、該トピックに関係する該音響情報を提供するステップと
を含む、方法。
(項目32)
周期信号が検出されたことを上記第1の組の音響情報の分析が示すとき、トリガイベントが既に発生している、項目1に記載の方法。
(項目33)
周期信号が検出されると、上記第1の組の音響情報を少なくとも1つの音声シグネチャと比較するステップと、
上記音声が該少なくとも1つの音声シグネチャに類似しているときに、上記第2の組の音響情報を収集するステップと
をさらに含む、項目28に記載の方法。
本発明の例示的実施形態は、発明を実施するための形態および添付図面から、より完全に理解されるであろう。
図1は、少なくとも1つの例示的実施形態による、音響情報のリポジトリとしてのウェブサイトの概略図を図示する。 図2は、少なくとも1つの例示的実施形態による、データベースを管理および使用するためのウェブサイトおよびユーザコミュニティの概略図を図示する。 図3は、少なくとも1つの例示的実施形態による、音声シグネチャをウェブサイトのデータベースに提供するユーザの概略図を図示する。 図4は、少なくとも1つの例示的実施形態による、再生および管理環境の使用の概略図を図示する。 図5は、少なくとも1つの例示的実施形態による、議論ウェブページの概略図を図示する。 図6は、少なくとも1つの例示的実施形態による、音圧レベルのデータベースの概略図を図示する。 図7は、少なくとも1つの例示的実施形態による、ウェブサイトから音声シグネチャを受信するイヤホンの概略図を図示する。 図8は、少なくとも1つの例示的実施形態による、ユーザの耳を部分的に密閉または密閉するイヤホンの概略図を図示する。 図9は、少なくとも1つの例示的実施形態による、イヤホンの概略図を図示する。 図10は、少なくとも1つの例示的実施形態による、音声シグネチャを音声データベースに提供するための通信デバイスまたはイヤホンの概略図を図示する。 図11は、少なくとも1つの例示的実施形態による、音声シグネチャを捕捉し、音声シグネチャを音声のデータベースに提供する携帯電話のブロック図を図示する。 図12a−12cは、少なくとも1つの例示的実施形態による、音響情報を収集するように構成されるトリガイベントとしての音圧レベルの使用を図示する、関連概略図である。 図13は、少なくとも1つの例示的実施形態による、音響情報を収集するように構成されるトリガイベントとしての地理的場所の使用の概略図を図示する。 図14は、少なくとも1つの例示的実施形態による、音響情報を収集するように構成されるトリガイベントとしての時間の使用の概略図を図示する。 図15は、少なくとも1つの例示的実施形態による、音響情報を収集するように構成されるトリガイベントとしての音声シグネチャ検出の使用の概略図を図示する。 図15aは、周波数帯域でSPL値を使用するトリガを図示する。 図15bは、周期信号を使用するトリガイベントを説明する、フローチャートを図示する。 図15c−15kは、少なくとも1つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。 図15c−15kは、少なくとも1つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。 図15c−15kは、少なくとも1つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。 図15c−15kは、少なくとも1つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。 図15c−15kは、少なくとも1つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。 図15c−15kは、少なくとも1つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。 図15c−15kは、少なくとも1つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。 図15c−15kは、少なくとも1つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。 図15c−15kは、少なくとも1つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。 図16a−16cは、少なくとも1つの例示的実施形態による、音響情報を収集するように構成されるトリガイベントとしてのセンサデータの使用の概略図を図示する。 図17は、少なくとも1つの例示的実施形態による、音声シグネチャのカタログ1210からのダウンロードのブロック図を図示する。 図18は、少なくとも1つの例示的実施形態による、音声を提供することが情報を提供し、検索体験を向上させる、アプリケーションのブロック図を図示する。 図19は、少なくとも1つの例示的実施形態による、3次元音響マッピングのアプリケーションのブロック図を図示する。 図20は、少なくとも1つの例示的実施形態による、緊急情報を自動的に提供するためのアプリケーションのブロック図を図示する。 図21は、少なくとも1つの例示的実施形態による、建物または家庭における強盗、侵入、または深刻な状況を検出するためのアプリケーションのブロック図を図示する。 図22は、少なくとも1つの例示的実施形態による、オーディオロッカーを有する社交用の個人ウェブページを含む、ウェブサイトの概略図を図示する。
例示的実施形態の以下の説明は、本質的に例証的であるにすぎず、決して本発明、その適用、または使用を限定することを目的としない。
当業者に公知であるようなプロセス、技法、装置、および材料は、詳細に論議されない場合があるが、適切な場合に授権説明の一部となることを目的とする。例えば、論議されるステップのそれぞれを達成するための具体的なコンピュータコードが記載されない場合があるが、当業者であれば、必要以上の実験がなくても、本明細書の授権開示を考慮すると、そのようなコードを書くことができるであろう。そのようなコードは、少なくとも1つの例示的実施形態の範囲に入ることを目的とする。
加えて、例示的実施形態で使用される構造のサイズは、本明細書のいずれの論議によっても限定されない(例えば、構造のサイズは、マクロ(センチメートル、メートル、およびサイズ)、マイクロ(マイクロメートル)、ナノメートルサイズ、およびそれより小さくなり得る)。
同様の参照数字および文字は、以下の図中の同様項目を指し、したがって、いったん項目が1つの図で定義されると、次の図で論議またはさらに定義されない場合があることに留意されたい。
本明細書で図示および論議される実施例の全てでは、あらゆる具体的な値は、例証的にすぎず、非限定的と解釈されるべきである。したがって、例示的実施形態の他の実施例には、異なる値があり得る。
音波シグネチャ検出および検出の方法が本明細書で提供されるが、本明細書の範囲は、論議される音波シグネチャの説明に限定されると解釈されるべきではない。例えば、両方ともそれらの全体で本明細書に組み込まれる、「Method and Device for Sound Detection and Audio Control」と題された2008年2月22日出願の特許出願第12/035,873号、および「Method and Device Configured for Sound Signature Detection」と題された2007年12月28日出願の特許出願第11/966,457号は、音波シグネチャ検出の付加的な方法を説明している。
図1は、少なくとも1つの例示的実施形態による、音響情報を捕捉し、リポジトリに音響情報を記憶するためのシステムを図示する概略図である。システム100は、1つ以上のマイクロホン112(例えば、Knowles FGマイクロホン、平衡電機子、ダイヤフラム、および他の音響記録および/または測定デバイス)に通信可能に結合される、1つ以上の通信デバイス106(例えば、移動および定常通信システム(例えば、電話、コンピュータ))を使用して、世界中の音響情報を捕捉し、音響情報を分析し、どの音響情報に関連性があるかを決定し、関連音響情報をデータベース110(例えば、市販の関係データベース)に提供し、音響情報を組織化し、異なる用途に対する音響情報を提供することができる。「どの音響情報に関連性があるかを決定する」ステップの少なくとも1つの非限定的実施例は、例えば、音響信号が選択されたトピックであるか否かを識別するために音波シグネチャモデルを使用して、音響信号がノイズフロアを上回るか否か、または音響信号が選択されたトピック(例えば、車の警笛、警報)の範囲に入るか否かを決定するステップを含むことができることに留意されたい。
システム100は、ワールドワイドウェブ、セルラーネットワーク、メッシュネットワーク、ならびに、社会経済および地理的な多様性がある多数の人々へのアクセスを獲得する経路としての通信に使用される他のネットワークを活用する。システム100を用いて、人々は独特の環境から音声を収集することができる。これは、種々の場所で、かつ異なるときに、環境中の特定の音響の種々の順列の効率的な捕捉を可能にする。そうでなければ、1つの実体、人々のグループ、または大型組織が、そのような膨大な量の音響データを収集し、管理することは、圧倒的な取り組みとなるであろう。
システム100は、捕捉された音声の集合に追加するために、データベース110への音声の手動または自動記録および入力を可能にする。人々は、特定の時間および場所で、音声を選択的に捕捉し、音声をタグ付けして特定の体験と関連付けることができる。集合的に、捕捉された音声は、特定の場所でのアンサンブル音声体験または「音響スナップショット」を表すことができる。そのような点で、システム100は、大部分の人々が音声を1日24時間収集することを可能にする。
通信デバイス106は、音声を受信するように構成されるマイクロホンを含む。典型的には、人々は、移動し、通信デバイスを持ち歩く。通信デバイス106を使用して音声を収集することにより、各個人が日中および夜間中にあちこち移動するにつれて、膨大な量の音響情報を生成する。通信デバイス106はまた、ユーザ介入なしで、かつ継続的に、音声を自動的に収集してデータベース110に送信し、それにより、世界中で1日24時間、音響情報のデータベース110を作成するように適合することもできる。したがって、何億または何十億もの人々が、歴史的、社会的、科学的、医学的、および事業目的で音響情報を収集し得る。
少なくとも1つの例示的実施形態では、音声の収集は、人間の可聴範囲より上および下の周波数まで、かつ収集されている音声の種類までの最も広い文脈で暗示される。乳児の鳴き声、いびきをかく人、ヘビが地面を這う音、街路の騒音、または砂漠の雨は、記録および記憶し、かつ場所および時点の文脈に配置することができる、音声のわずかな実施例である。
少なくとも1つの例示的実施形態では、はっきり異なる音声のカタログを生成することができる。収集された音声は、我々の生活のはっきり異なる可聴要素を表す、独自の1組の音声を構築するように組織化される。これらの音声は、いくつかのレベルでインデックス可能(例えば、車両、車の種類、船、海、海辺、乳児の鳴き声)かつ検索可能となるよう、カタログに入れられ、相互参照される。例証目的のいくつかのカテゴリの実施例は、住居の音であり、家に押し入った音、ガレージの音、芝生からの音、ならびにこれらのカテゴリがなければ、従来的にそこで見られる電化製品、道具、および機械の分類である。付加的なカテゴリは、ほんの数例を挙げれば、商業(例えば、工場、コールセンター、建設現場、オフィス、ホテル等)、医療(例えば、歯科医院、手術室、病院等)、輸送(例えば、飛行機、バス、電車、地下鉄、車両等)となり得る。これらの音声をカタログに入れる際に、可能な限り多くのメタデータが捕捉され、音声と関連付けられることも意図される。また、社交で使用するための収集された音声の側面もあり、これは以下でさらに論議する。
さらなる使用は、本質的に軍事用となり得る。沿岸環境を、リアルタイムで音響的にマッピングし、タグ付けし、安全な通信ネットワークを介して送信することができる。タグ付けされた音響信号は、地図上に表示し、的の活動、場所の動向、銃弾の使用、車両の場所および移動、味方の場所および移動、ならびに軍事計画者にとって有用な他の諜報を識別するために、自動的および/または手動で分析することができる。
図2は、少なくとも1つの例示的実施形態による、データベース212を管理および使用するためのウェブサイト208およびユーザコミュニティの概略図を図示する。通信デバイス200は、自動的に音響情報202を収集し、通信経路206を通してデータベース212に音響情報をアップロードする。通信経路206は、データベース212に結合することができる、インターネット、有線または無線ネットワーク、衛星となり得る。ウェブサイト208は、カタログを援助し、情報を提供し、ウェブサイトにおける音響情報の完全性を維持するために、グローバルメンバーコミュニティを活用する。少なくとも1つの例示的実施形態では、通信デバイスはまた、通信デバイス200上で使用するために、通信経路206を通してデータベース212から音響情報をダウンロードすることもできる。
ウェブサイト208は、通信デバイスを通して自動的に受信された音響情報、ならびに手動で提供された音響情報を捕捉し、識別し、カタログに入れ、フォーマットする際に、参加者が他者と協力することを可能にする。グローバルユーザ200は、ウェブサイト208のある限度内で、音声コンテンツを追加、使用、編集、削除、および修正することが可能となる。
ウェブサイト208のウェブページは、全員を音響情報のデータベース212への関与に従事させる。オープンウェブコミュニティを通して、何万または何百万もの参加者がプロジェクトに参入することができる。したがって、世界中からの音声のデータベースを効率的に組み立てることができ、現在および将来の生成のために全員にアクセス可能である。少なくとも1つの例示的実施形態では、ユーザは、一度登録し、ブロック210によって示されるようにログインしてウェブサイトを使用しなければならない。いったんログインすると、ユーザは、ある特権内でデータベースにアクセスできるようになる。少なくとも1つの例示的実施形態では、データベース212へのユーザアクセスは、個人の貢献に基づくか、またはアクセスへの支払いによるものとなり得る。
ウェブサイト208は、共通の1組の技術および組織的ガイドラインに従って、音声をフォーマットし、カタログに入れ、組織化することができる。それは、コミュニティで利用可能な共同ツールを介して、音声の収集およびカタログ作成を規制および管理し、それにより、ユーザが収集プロセスを規制し、品質管理の側面を浸透させることを可能にすることができる。
ウェブサイト208の一側面は、共通データベースに多様な音声をカタログに入れる。データベース212に入れられる各音声は、関連メタデータを通して、多数の異なるレベルで参照および相互参照することができるように、識別および分類される。少なくとも1つの例示的実施形態では、音声シグネチャは、データベース212に記憶される。音声シグネチャはまた、音声モデルとして記憶することもできる。例えば、独特の音声(例えば、警笛、サイレン、ベル、口笛等)の各収集は、ガウス混合モデル(Gaussian Mixture Model/GMM)として表すことができる。GMMのパラメータは、パターン認識の意味で、音声を完全に説明する。次いで、GMMは、その独特の音声の新しい発生、例えば、新たに記録された警笛音を認識するために使用することができる。音声のGMMを有することにより、メモリに音波形全体を記憶する必要性を低減し、それにより、そのような大量の情報を記憶するときのメモリ必要量を低減する。GMMは、データベース212の中の音声を検索し、識別し、比較する際に使用することができる。少なくとも1つの例示的実施形態では、データベース212に記憶された各音声(例えば、警笛、口笛、いびき等)の少なくとも1つのGMMがある。
図3は、少なくとも1つの例示的実施形態による、音声シグネチャをウェブサイトのデータベースに提供するためのプロセスを図示する概略図である。ウェブサイトに提供される音声シグネチャは、データベースに組み込む前に見直される。少なくとも1つの例示的実施形態では、組み込むための基準を満たすことを確実にするために、音声シグネチャの技術的形式302がチェックされる。最小限の技術基準を満たし、形式の数を限定することにより、コミュニティが良質の記録にアクセスできることを可能にする。少なくとも1つの例示的実施形態では、技術的形式302は、非準拠オーディオ形式をウェブサイトの準拠形式に変換することができる、プログラムを含むことができる。
少なくとも1つの例示的実施形態では、提供されている音声シグネチャは、音声シグネチャ検索304において、データベースの中の他のものに対して比較される。寄稿者または自動的に生成されたメタデータは、比較に役立つ音声シグネチャと関連する検索パラメータを提供する。少なくとも1つの例示的実施形態では、種々の音声カテゴリに対する音声シグネチャを、ガウス混合モデル(GMM)によって表すことができる。GMMはまた、音響情報が提供された場合のみ生成される。各GMMは、多次元空間での各音声シグネチャの特徴統計の分布のモデルを提供する。GMMは、未知の音声の検索または検出で使用することができる。音声シグネチャはまた、データベースの中に存在する他の音声シグネチャに対して、その独特性および技術的品質について比較することもできる。さらに、ウェブサイトへの寄稿者のコミュニティは、いったんウェブサイトに配置されると、音声シグネチャの利点の決定プロセスで有意な役割を果たすことができる。
応答306は、決定がデータベースに音声シグネチャを含まないことである場合に、寄稿者に提供される。応答306は、同様のシグネチャがすでに存在する、技術的問題、または含まない他の要因等の、音声シグネチャが使用されない種々の理由を示すことができる。音声シグネチャを組み込む肯定の決定は、メタデータを提供することを含む。一般に、メタデータは、音声シグネチャに関連および関係する情報を含むことができる。少なくとも1つの例示的実施形態では、メタデータは、音声シグネチャを識別すること、または音声シグネチャをデータベース中の他の音声シグネチャと相互参照することに役立つように、音声についての情報を検索し、分類し、提供することを支援する。何、いつ、およびどこ等の音声シグネチャに関する説明またはデータは、提供されるメタデータの一部である。メタデータは、データベースが増大し、ユーザおよび寄稿者の必要性がより良く理解されるにつれて、高いレベルまで成長することができる。
前述のように、データベースまたはアーカイブは、世界中の音声で作成されている。いつ音声が記録されたか、およびどこで記録されたかという知識は、音声シグネチャとともにデータベースに記憶される。したがって、メタデータの構成要素は、タイムスタンプおよびジオコード318を付けることができる。タイムスタンプは、音声シグネチャが得られた時間である。この情報は、記録プロセスの一部として得られ、手動で提供または自動的に提供することができる。ジオコードは、地球上であろうと宇宙のどこかであろうと、測定が行われる正確な地点または場所の表現を提供する、座標測定である。少なくとも1つの例示的実施形態では、音声測定を行うデバイスはGPSを有し、または、音声シグネチャが得られた位置を提供するための別個のグローバルポジショニングシステム(GPS)デバイスを使用して、ジオコードが提供される。代替として、例えば、送信された信号の携帯電話基地局三角測量といった、付加的な場所特定方法を使用することができる。少なくとも1つの例示的実施形態では、記録デバイスは、音声シグネチャとともにタイムスタンプおよびジオコード318を自動的に提供するように設計される。このデータベースとともに経時的に発生する変化を含む、世界の3次元音響地図を生成することができる。
メタデータの一実施例は、同様のカテゴリであるが異なる地理的起点を伴う他の音声に対して、これらのカテゴリからの音声を並置する情報である。異なる地理的場所にある共通デバイスは、異なる音声を有する。緊急およびパトカーのサイレンは、同じ意味を有する(例えば、緊急車両または警察が近くにいて、急速に近づいているかもしれない)が、起源国に応じて、根本的に異なる音を出す場合がある。この種類の違いは、国または大陸(米国、ヨーロッパ、アジア等)に応じて、掃除機、ドアのベル、警笛等の多数の物体にまで及ぶ。各音声シグネチャと関連するメタデータは、共通データベースの中で異なる音声の全てをカタログに入れ、次いで、関連メタデータを通して、多数の異なるレベルで参照および相互参照することができるように、音声を組織化する。
少なくとも1つの例示的実施形態では、ウェブサイトは、適切なメタデータを提供するために記入されるフォームを提供し、このフォームも、通信デバイスに組み込み、捕捉されてデータベースに提供されている音声シグネチャに自動的に添付することができる。音声シグネチャおよびメタデータ308は、情報をチェックする310ステップで見直される。通信デバイスの寄稿者または所有者は、情報のチェック310中に見つかったエラーを訂正するために通知を受けることができる。音声シグネチャおよびメタデータは、ステップ312でデータベースに記憶される。いったんデータベースに記憶されると、グローバルユーザおよび寄稿者316は、ウェブサイト314上の音声シグネチャおよびメタデータ308を見直すことができる。
図4は、少なくとも1つの例示的実施形態による、再生および管理環境の使用を図示する概略図である。ウェブサイト402は、コンテンツおよび構造の共同編集を使用する。この共同アプローチをウェブサイトに使用して、持続的なコミュニティが構築され、形成される。少なくとも1つの例示的実施形態では、オンラインコミュニティが、カタログ作成し、情報を追加し、特徴を追加し、ウェブサイトを維持することに役立つ。
上述のように、音声は、音声が何であるかを説明する関連メタデータでタグ付けされる。捕捉された音声およびそれと関連するメタデータの実施例は、2008年6月16日(月)の午後2時における、ロックフェラーセンター(Rockefeller Center)付近のニューヨークシティ48thおよび6th Avenueの角での2004 Lincoln Towncarのクラクションの音である。通信デバイスの所有者はまた、通過中の他の車両、歩行者の往来、および警察官の笛等の主要な音声に関して存在する、音声シグネチャのメタデータに説明を提供する。逆に、データベース408の中の音声シグネチャの比較は、良好な合致を生じさせてもよく、警笛、車、街路等の合致の関連メタデータは、新しい提供された音声シグネチャに添付することができる。
ウェブサイト402環境は、音響情報のデータベースを調査し、アップロードし、カタログに入れ、聴き、維持するためのツールである。作者404またはグローバルユーザおよび寄稿者410は、作者404またはグローバルユーザおよび寄稿者410が音声シグネチャの側面を管理することを可能にする、管理環境406を利用することができる。少なくとも1つの例示的実施形態では、作者404またはグローバルユーザおよび寄稿者410は、既存の音声シグネチャを修正または除去し、新しい音声シグネチャを追加し、音声シグネチャ408のデータベース内に記憶された関連メタデータを追加または修正するために、管理環境406を使用する。音声シグネチャ捕捉および使用の全ての側面をサポートする新しいツールの追加を、ウェブサイト402に組み込むことができる。同様に、音声シグネチャに関する新しい情報、またはどのように音声シグネチャを使用できるかを、作者404またはグローバルユーザおよび寄稿者410によって追加することができる。音声シグネチャの大型データベースを有することの有用性によって駆動される必要性は、コミュニティに、ウェブサイトの機能性を増加させ、データベースのサイズを増大させ、新しい特徴を追加し、新しい情報を追加するように貢献するよう奨励する。
ウェブサイト402は、再生環境412を含む。再生環境412は、一般的なオーディオプロトコルを使用して、ウェブサイトを通して音声が再生されることを可能にする。再生環境412は、選択された音声シグネチャを再生するために、ユーザによって促される音声シグネチャ408のデータベースにアクセスする。
図5は、少なくとも1つの例示的実施形態による、議論ウェブページを図示する概略図である。ウェブサイト506は、音声シグネチャ516のデータベースを含む。一般に、ウェブサイト506のユーザは、興味深く、ユーザのコミュニティの間の議論に値すると思う音響情報を記録してもよい。ウェブサイト506は、関心の音響情報または音声シグネチャを投稿するための議論ウェブページ508を含む。
音響情報を持つ作者502またはユーザが、ウェブサイト506にアクセスする。作者502は、議論ウェブページ508に音響情報を投稿したいと思う。音響情報は、ステップ518でウェブサイト506にアップロードされる。音響情報は、技術的およびコンテンツの両方の利点についてチェックされる。基準が満たされなければ、音響情報は拒絶され、投稿されない。少なくとも1つの例示的実施形態では、作者502は、拒絶の理由について通知を受けてもよく、欠陥の訂正を可能にする。音響情報が上記で論議されているが、音響情報の意味は単に音声のみを暗示するわけではない。一般に、ユーザによって提供されるデータまたは情報は、音響情報を含むが、任意の他の材料を含んでもよい。音響情報と同伴する付加的な情報の実施例は、ビデオ情報である。
作者502によって提供される音響情報は、ウェブサイト506の基準が満たされれば容認される。音響情報は、データベース516に記憶され、オーディオを投稿するステップ522でウェブサイト上に提供される。少なくとも1つの例示的実施形態では、議論ウェブページ508は、作者502、またはあるいはコミュニティ内の他の誰かによって開始されてもよい、投稿された音響情報に対応する議論スレッド510を含む。議論スレッド510を見ているグローバルユーザおよび寄稿者504は、再生環境512を使用して、投稿された音響情報を再生することができる。グローバルユーザおよび寄稿者504は、特定のテーマについての会話を開始または継続するために、投稿された音響情報に応答し、議論することができる。例えば、ユーザが、人通りの多い道の記録された音声および音圧レベルを投稿し得る。議論は、世界で最もうるさい街は何かという形態を成し得る。スレッドの別の実施例は、人間の健康に対する継続的雑音の影響となり得る。
図6は、少なくとも1つの例示的実施形態による、音圧レベルのデータベース図示する概略図である。前述のように、世界は絶え間なく変化しており、音声および音声レベルは経時的に変化する。異なる音声のデータベースまたはカタログは1つも世界中で見られない。さらに、音圧レベルに関して利用可能な情報はほとんどない。音圧レベルは、気候、地理、環境、および自然の状態により、経時的に大幅に変化している。通信デバイス602は、音圧レベル(SPL)測定を含む音響情報または音声シグネチャを自動的にアップロードする。一般に、通信デバイス602は、SPLを測定するために適合される。音響情報は、上記で論議されるようにチェックされる。音響情報は、確立された基準を満たさなければ使用されない。音声シグネチャは、音声シグネチャとともに音圧レベルに関する情報を含むことによって、データベース608への記憶に備える。タイムスタンプおよびジオコード614を含むメタデータが、音声シグネチャおよび音圧レベル測定を分類し、カタログに入れるために使用される。さらに、メタデータは、音声シグネチャおよび音圧レベル測定についての情報を検索し、提供するのに役立つ。次いで、音声シグネチャ、音圧レベル、およびメタデータは、データベース608に記憶される。次いで、ウェブサイト604のユーザコミュニティは、情報にアクセスできる。
音圧レベル測定は、典型的には、参照値に対する音声の尺度である。例えば、人間の聴覚の閾値が、一般的な参照値である。人間の聴覚の閾値を上回って測定される音圧レベルは、平均的な人間に聞こえる。継続的に更新される、惑星または宇宙中で測定された音圧レベルのデータベースを有することには、科学、医学、政府、企業、および個人にとって多大な有用性がある。少なくとも1つの例示的実施形態では、音圧レベル測定または任意の音響記録の質が、品質管理のためにチェックされる。例えば、記録を行ったマイクロホンの種類が識別された場合には、マイクロホンの応答関数を決定するために、マイクロホンデータベースを参照することができる。マイクロホンの応答関数は、記録された信号がマイクロホンの動作範囲を超えるか否かをチェックするために使用することができる。加えて、較正情報が記録マイクロホンに利用可能である場合、任意の記録を調整するために較正情報を使用することができる。
一実施例が、人間の健康への音声の長期的曝露についての公開報告で開示されている。大きな音声が耳に傷害を与え得ることは周知である。中程度の音圧レベルへの長期的曝露でさえも、耳に傷害を与えるか、または聴覚あるいは周波数の損失を生じ得る。また、音声コンテンツも、個人の健康において役割を果たし得る。人々は、音声に対処するためのことなる対処機構を有する。過剰に多くの音声または過剰に多様な音声は、脳が処理するのが困難となり得る。うつ病、不眠、または他の病気等の身体的影響が、音声曝露の結果となり得る。音圧レベル、時間、日付、および地理的場所のデータベースを有するには、人類にとって多大な有用性がある。例えば、周囲音が高レベルである地理的領域における健康関連問題と相関がある経時的な音圧レベルの動向は、行動および健康への音声の影響を示し得る。別の実施例では、レストランに関する音圧レベルは、レストランが騒々しいか、またはロマンティックなデートができる雰囲気であるか否かを知りたいユーザによる有用性を有することができる。さらなる実施例では、企業の本社の場所および遮音に関係する建設仕様における要素として、都市内の雑音パターンを使用することができる。
図7は、ウェブサイト706から音声シグネチャを受信するイヤホンシステムの概略図である。イヤホン自体が、耳を密閉または部分的に密閉することができる。イヤホンシステムは多くの形状およびサイズを成すことができることに留意されたい。耳の周囲、耳の上、耳の後ろ、耳介、耳の中等のイヤホンまたはヘッドホン構成は、耳を密閉または部分的に密閉する設計である。イヤホン702は、少なくとも1つのマイクロホンと、1つのスピーカとを含む。以下で開示される少なくとも1つの例示的実施形態では、イヤホン702は、それぞれ、周囲音を受信し、ユーザの耳道の中の音声を受信し、ユーザの耳道に音声を提供するための周囲音マイクロホンと、耳道マイクロホンと、耳道受信機とを含む。
イヤホン702は、音声データベース708から音声シグネチャを受信するために、ワールドワイドウェブ704または他の有線あるいは無線接続を介してウェブサイト706に結合される。イヤホン702は、有線または無線接続を介してウェブサイト706に接続することができる。イヤホン702は、ワールドワイドウェブ704に直接接続するインターフェースを有することができるか、またはインターネットに接続されるパーソナルコンピュータまたは携帯電話等の媒体を使用することができる。例えば、イヤホン702は、1つ以上の音声シグネチャをダウンロードするために、USBケーブルを通してパーソナルコンピュータに接続することができる。パーソナルコンピュータのディスプレイが、ウェブサイト706をナビゲートするために使用される。同様に、イヤホン702は、Bluetooth、Zigbee、Wimax、またはUWB等の無線接続を通して、携帯電話またはラップトップに接続することができる。1つ以上の音声シグネチャは、ウェブサイト706によって提供されるウェブ環境を使用して、音声データベース708を検索することにより見つけられる。次いで、音声シグネチャは、以下でさらに論議される種々の用途で使用するために、イヤホン702の中のメモリに記憶される。
図8は、ユーザの耳道824を部分的に密閉または密閉し、少なくとも1つの例示的実施形態に従って構築され、動作する、イヤホンとして概して示される、イヤホンデバイスの説明図である。図示されるように、イヤホンは、電子筐体ユニット800と、密閉ユニット808とを備える。イヤホンは、典型的には、ユーザ830の耳道824の中に配置されるため、挿耳型音響アセンブリ用の電子音響アセンブリを表す。イヤホンは、挿耳型イヤホン、耳掛け式イヤホン、耳の中の受信機、部分的嵌合デバイス、または任意の他の好適なイヤホンの種類となり得る。イヤホンは、耳道824を部分的または完全に閉塞することができ、健康または異常な聴覚機能を有するユーザの使用のために構成することができる。
イヤホンは、周囲音を捕捉する周囲音マイクロホン(Ambient Sound Microphone/ASM)820と、耳道824にオーディオを送達する耳道受信機(Ear Canal Receiver/ECR)814と、耳道824内の音声曝露レベルを捕捉し、評価する耳道マイクロホン(Ear Canal Microphone/ECM)806とを含む。イヤホンは、種々の程度の遮音を提供するために、耳道824を部分的または完全に閉塞することができる。少なくとも1つの例示的実施形態では、アセンブリは、ユーザの耳道824に挿入されるように、かつ耳道824への入口と鼓膜との間の場所で耳道824の壁との音響シールを形成するように設計されている。一般に、そのようなシールは、典型的には、密閉ユニット808の軟質かつ柔軟な筐体を用いて達成される。
密閉ユニット808は、耳道824に対応する第1の側面と、周囲環境に対応する第2の側面とを有する、音響障壁である。少なくとも1つの例示的実施形態では、密閉ユニット808は、耳道マイクロホンチューブ810と、耳道受信機チューブ814とを含む。密閉ユニット808は、耳道824の中で、密閉ユニット808の第1の側面と鼓膜との間に約5ccの閉鎖空洞を作成する。この密閉の結果として、ECR(スピーカ)814は、ユーザに音声を再生するときに、全範囲の低音応答を生成することが可能である。このシールはまた、耳道824への入口における音場に起因する、ユーザの鼓膜における音圧レベルを有意に低減する働きをする。このシールはまた、電子音響アセンブリの遮音性能の基礎でもある。
少なくとも1つの例示的実施形態では、より広範な文脈において、密閉ユニット808の第2の側面は、イヤホン、電子筐体ユニット800、および周囲環境に曝露される周囲音声マイクロホン820に対応する。周囲音声マイクロホン820は、ユーザの周辺の周囲環境から周囲音を受信する。
電子筐体ユニット800は、マイクロプロセッサ816、メモリ804、バッテリ802、ECM806、ASM820、ECR814、およびユーザインターフェース822等のシステム構成要素を収納する。マイクロプロセッサ816(またはプロセッサ816)は、イヤホンの計算および操作を行うための論理回路、デジタル信号プロセッサ、コントローラ、または同等物となり得る。マイクロプロセッサ816は、メモリ804、ECM806、ASM820、ECR814、およびユーザインターフェース820に動作可能に結合される。ワイヤ818は、イヤホンに外部接続を提供する。バッテリ802は、イヤホンの回路およびトランスデューサに電力供給する。バッテリ802は、再充電可能または交換可能なバッテリとなり得る。
少なくとも1つの例示的実施形態では、電子筐体ユニット800は、密閉ユニット808に隣接する。電子筐体ユニット800の開口部は、それぞれECM806およびECR814に結合するように、ECMチューブ810およびECRチューブ812を受容する。ECRチューブ812およびECMチューブ810は、耳道824を往復する信号を音響的に結合する。例えば、ECRは、ECRチューブ812を通して耳道824の中へ音響信号を出力し、そこでイヤホンのユーザの鼓膜によって受信される。逆に、ECM814は、ECMチューブ810を通して耳道824の中に存在する音響信号を受信する。示された全てのトランスデューサは、オーディオ信号処理を行い、有線(ワイヤ818)または無線通信経路を介したオーディオ用の送受信機を提供する、プロセッサ816に、オーディオ信号を受信または伝送することができる。
イヤホンは、耳道824の内側および外側の両方の音圧レベルを能動的に監視し、安全な音声再生レベルを確保するために監視を維持しながら、空間的および音色的な音質を向上させることができる。種々の実施形態におけるイヤホンは、リスニング試験を行い、環境中の音声をフィルタにかけ、環境中の警告音を監視し、識別された警告音に基づいて通知を提示し、一定オーディオコンテンツを周囲音レベルに維持し、個人化聴覚レベル(Personalized Hearing Level/PHL)に従って音声をフィルタにかけることができる。
少なくとも1つの例示的実施形態では、イヤホンは、ウェブサイトへの有線または無線相互接続を通して、1つ以上の音声シグネチャをダウンロードすることができる。例えば、イヤホンは、パーソナルコンピュータまたは携帯電話を通して、ウェブサイトに接続される。所望の音声シグネチャが、イヤホンにダウンロードされる。一般に、音声シグネチャは、ユーザがイヤホンに識別して欲しい1つまたは複数の音声である。イヤホンは、音声を聞くための1つ以上のマイクロホンを有する。ASM820は、ユーザの周囲環境に結合される。逆に、ECM806は、耳道824に結合され、密閉ユニット808によって周囲環境から隔離される。
少なくとも1つの例示的実施形態では、ASM820は、周囲環境からプロセッサ816に音響情報を提供している。プロセッサ816は、音声シグネチャに類似した音声について音響情報を分析する。いったん識別されると、イヤホンは、用途に基づいて音声に応答を提供する。例えば、イヤホンのユーザは、イヤホンを装着しているときに救急車またはパトカーの音を聞く、または認識したいと思う。周波数帯域におけるFFTの比較が同様となり得て、その場合、全ての周波数帯域の間の標準偏差が閾値(例えば、3dB)を下回れば、音声の値の差が特定の音波シグネチャに類似していることに留意されたい。加えて、信頼性のレベルが、音声が特に検出された音波シグネチャであるという閾値(例えば、80%)よりも良い場合に、ガウス混合モデルを使用することができる。
ユーザは、ウェブサイト(またはウェブサイトのデータベースと関連する)から、救急車およびパトカーのサイレンおよび警笛に関係するイヤホンに音声シグネチャをダウンロードする。ユーザがイヤホンを使用している間に、イヤホンのプロセッサ816は、ダウンロードされた音声シグネチャに類似した音声について、ASM820によって提供された音響情報を分析する。周囲環境中の救急車またはパトカーの警笛またはサイレンを識別すると、イヤホンは、救急車またはパトカーが接近していることをユーザに通知する。第1の例示的実施形態では、イヤホンが、音楽または電話(またはイヤホンによって提供されている優勢な音源)を低減し、識別された信号(救急車またはパトカー)を増幅し、それによって、接近している車両についてユーザに通知する。第2の例示的実施形態では、車両の方向を含んで、救急車またはパトカーが接近していることを(合成音声を通して)イヤホンがユーザに教える。イヤホンはまた、識別された信号に音声警告を提供することもできる。他の変化例が可能である。
逆に、イヤホンは、反対の動作を行うことができる。イヤホンは、音声シグネチャに類似した信号を識別し、次いで、ECR814を通してそれを提供する前に減衰させることができる。例えば、イヤホンのユーザは、銃の熱狂者である。ユーザは、銃撃に関係する音声シグネチャをダウンロードする。イヤホンは、銃撃音を識別すると、銃撃の音声シグネチャに類似したASM820によって提供された音響情報の一部分を減衰させる一方で、他の信号が伝わることを可能にする。したがって、ユーザは、イヤホンに会話を通過させながら、銃撃音が減衰された状態で、銃射撃場において会話に従事することができ、それにより、この環境中で大きな音から耳を保護し、より明確に会話を聞くことが可能である。
イヤホンは、ECR814およびECM806を使用して、耳道824をモデル化する耳道伝達関数(Ear Canal Transfer Function/ECTF)を生成するとともに、ASM 820を使用して、外耳道伝達関数(Outer Ear Canal Transfer function/OETF)を生成することができる。例えば、ECR814は、耳道824内でインパルスを送達し、耳道824のインパルス応答とのインパルスの相互相関を介してECTFを生成することができる。イヤホンは、また、あらゆる漏出を補うために、ユーザの耳との密閉プロファイルを決定することもできる。それはまた、音声曝露および回復時間を推定する音圧レベル線量計も含む。これは、イヤホンが耳への音声曝露を安全に行い、監視することを可能にする。
図9は、少なくとも1つの例示的実施形態による、イヤホンのブロック図である。電力供給部905が、マイクロプロセッサ/DSP906(またはプロセッサ906)およびデータ通信システム916を含む、イヤホンの構成要素に電力供給する。図示されるように、イヤホンは、データ通信システム916を通して、ASM910、ECR912、およびECM908に動作可能に結合される、プロセッサ906を含む。データ通信システム916は、1つ以上のアナログ・デジタル変換器(Analog to Digital Converter)およびデジタル・アナログ変換器(Digital to Analog Converter/DAC)を含んでもよい。プロセッサ906は、関連ランダムアクセスメモリ(Random Access Memory/RAM)902および読み出し専用メモリ(Read Only Memory)904とともに、マイクロプロセッサ、特定用途向け集積チップ(Application Specific Integrated Chip/ASIC)、および/またはデジタル信号プロセッサ(DSP)等のコンピューティング技術を利用することができる。フラッシュ、不揮発性メモリ、SRAM、DRAM、または類似技術等の他のメモリ種類を、プロセッサ906とともに記憶に使用することができる。プロセッサ906は、タイムスタンプを記録するクロック934を含む。
一般に、データ通信システム916は、イヤホンの構成要素またはイヤホン外部の構成要素への通信経路である。通信リンクは、有線または無線となり得る。少なくとも1つの例示的実施形態では、データ通信システム916は、イヤホンのECMアセンブリ908、ASMアセンブリ910、視覚ディスプレイ918、およびユーザ制御インターフェース914と通信するように構成される。示されるように、ユーザ制御インターフェース914は、有線または無線接続することができる。少なくとも1つの例示的実施形態では、データ通信システム916は、ユーザの携帯電話、第2のイヤホン922、および携帯型メディアプレーヤ928等の、イヤホン外部のデバイスとの通信が可能である。携帯型メディアプレーヤ928は、手動ユーザ制御930によって制御することができる。
ユーザの携帯電話は、携帯電話通信システム924を含む。マイクロプロセッサ926は、携帯電話通信システム924に動作可能に結合される。図示されるように、複数のデバイスを、ユーザの携帯電話への別の個人によって装着されたイヤホン920の接続等、相互に無線接続することができる。同様に、ユーザの携帯電話は、イヤホン901のデータ通信システム916ならびに第2のイヤホン922に接続することができる。この接続は、1人以上の人々が、それぞれのイヤホンを通して、ユーザの携帯電話で電話を聞き、応答することを可能にする。
図示されるように、データ通信システム916は、音声認識システム、音声ディクテーションシステム、ボイスレコーダ、または任意の他の音声関連プロセッサ等の、1つ以上のサブシステムに音声制御を提供する、音声動作制御(VOX)モジュールを含むことができる。VOXモジュールはまた、話し声の存在および話し声の音声活動レベルをサブシステムに示すスイッチとしての機能も果たすことができる。VOXは、離散またはアナログ電子構成要素によって実装されるハードウェア構成要素、あるいはソフトウェア構成要素となり得る。1つの配設では、プロセッサ906は、プログラムコード、アセンブリ言語、または機械言語等のソフトウェアを用いたVOXの機能性を提供することができる。
RAM902はまた、プロセッサ906上で実行するためのプログラム命令、ならびに捕捉オーディオ処理データを記憶することもできる。例えば、メモリRAM902およびROM904は、オフチップかつプロセッサ906外部にあり、周囲音および内部音を一時的に捕捉するデータバッファと、プロセッサによる指令に反応して圧縮形式でデータバッファからのオーディオ情報を保存する記憶メモリとを含むことができる。データバッファは、以前の時点まで現在の時点におけるオーディオ音声を一時的に保存する、循環バッファとなり得る。また、データバッファは、1つの構成では、高速データアクセスを提供するようにプロセッサ906上に存在できることも留意されたい。記憶メモリは、捕捉または圧縮オーディオデータを記憶するSRAM等の不揮発性メモリとなり得る。不揮発性メモリはまた、音声シグネチャを記憶するために使用することもできる。
データ通信システム916は、例えば、携帯型メディアプレーヤ928、携帯電話、または任意の他の通信デバイスからオーディオコンテンツを受信し、プロセッサ906にオーディオコンテンツを送達するように、プロセッサ906およびVOXに動作可能に結合されるオーディオインターフェースを含むことができる。プロセッサ906は、VOXからの音声動作イベントの検出に応じて、イヤホンのユーザの耳道に送達されるオーディオコンテンツを調整することができる。例えば、プロセッサ906(またはデータ通信システム916のVOX)は、ユーザの耳道に鋭い音声を伝達するための音声シグネチャ等のイベントの検出に応じて、オーディオコンテンツの音量を下げることができる。ECM908を用いたプロセッサ906はまた、耳道の内側の音声曝露レベルを能動的に監視し、データ通信システム916のVOXによって行われる音声動作決定に基づいて、安全かつ主観的に最適化された聴取レベルの範囲内にオーディオを調整することができる。
イヤホンおよびデータ通信システム916はさらに、BluetoothTM、Wireless Fidelity(WiFi)、Worldwide Interoperability for Microwave Aceess(WiMAX)、および/または他の短距離または長距離通信プロトコルを無制限に含む、任意の数の無線アクセス技術を単独で、または組み合わせてサポートすることができる、送受信機を含むことができる。送受信機はまた、無線でイヤホンに動的にダウンロードおよびアップロードするためのサポートも提供することができる。また、次世代アクセス技術も本開示に適用できることにも留意されたい。
データ通信システム916はまた、衛星信号を傍受し、それからイヤホンの場所固定を決定することができる、GPS(Global Positioning System)受信機等の技術を利用する、場所受信機932を含むこともできる。プロセッサ906とともに動作可能に構成されるGPS受信機932は、場所に対応するジオコードを生成し、ジオコードを記録または音圧レベル測定等のイベントにリンクすることができる。
電力供給部905は、イヤホンの構成要素にエネルギーを供給し、携帯型用途を促進するために、交換可能バッテリ、供給規制技術、および充電システム技術等の、一般的な電力管理技術を利用することができる。モータ(図示せず)は、触覚振動を介して感覚を改善するように電力供給部905に結合される、単一の供給モータドライバとなり得る。実施例として、プロセッサ906は、警告音または着信音声電話の検出等の動作に応じて振動するようにモータに指図することができる。
イヤホンはさらに、マスタ・スレーブ配設で構成される単一の動作デバイスまたは一群のデバイス、例えば、携帯デバイスおよびイヤホンを表すことができる。後者の実施形態では、イヤホンの構成要素は、マスタおよびスレーブデバイスに対する異なる形状因子で再利用することができる。
図10は、少なくとも1つの例示的実施形態による、オーディオコンテンツャをデータベース1008に提供するための通信デバイス1002またはイヤホン1010の概略図である。世界中から多数の音声を収集することは、大変な作業である。前述のように、いずれのグループまたは企業実体にも、継続的に世界を音響的にマッピングする能力がない。少なくとも1つの例示的実施形態では、音響情報の収集は、1つまたは複数の音声を捕捉し、データベース1008に提供することを簡単にすることによって、可能な限り多くの人々を動員することによって達成される。さらに、音響情報は、通信デバイス1002を使用することによって手動で、より効率的には、人間の介入なしで収集および送信するプロセスを自動化することによって、収集することができる。
一般に、音声シグネチャは、収集され、モデル化され、識別され、記憶される音声である。一群の関連音声シグネチャの実施例は、警報(例えば、ベル、緊急車両、セキュリティシステム等)、サイレン(例えば、パトカー、救急車)、声(例えば、「助けて」、「止まれ」、「警察」等)、または特定の雑音種類(例えば、ガラスを割る、銃撃等)等の警告音である。世界的に、音声シグネチャは、地域的領域に応じて異なる。例えば、ヨーロッパでのパトカーのサイレンは、米国またはアジアとは異なる。収集することができる異なる音声シグネチャの数は、ベルが鳴る音から、いびきをかく人、電車、後退するごみ収集車、または火星の風まで、音声自体と同じくらい多様である。一般に、これらの音声シグネチャは、自動的に音声を収集し、音声を分析し、音声を保存するべきか否かを決定し、音声シグネチャをメタデータによってタグ付けし、収集された音声シグネチャをデータベースに送信するように構成される、共通通信デバイスを使用して、本明細書で開示されるプロセスによって、世界中から、かつ異なるときに収集される。少なくとも1つの例示的実施形態では、捕捉された音声シグネチャのガウス混合モデル(Gaussian Mixture Model/GMM)も生成し、提供することができる。
上記の実施例を続けて、図9の回路を参照する。少なくとも1つの例示的実施形態では、図9と同様の回路を有する通信デバイス1002またはイヤホン1010は、同様の音声を検出するためにプロセッサ906が参照する、以前に習得された音声のメモリ902に、オーディオコンテンツまたは音声シグネチャを記憶することができる。上記の実施例では、記憶された音声シグネチャのうちのいくつかは、警告音である。音声シグネチャは、メモリ902の中に常駐することができるか、または必要に応じて、動作中にデータ通信システム916を介して通信デバイス1002またはイヤホン1010にダウンロードすることができる。音声シグネチャ、この実施例では警告音を検出すると、プロセッサ906は、認識された音声シグネチャに措置を講じるか、または応答することができる。この実施例では、プロセッサ906は、トランスデューサから通信デバイス1002またはイヤホン1010(使用されている場合)上に送達されるオーディオを介して、ユーザに警告を報告することができる。
一般に、通信デバイス1002またはイヤホン1010は、記憶された音声シグネチャに類似した音声について、各デバイスのマイクロホンを通して環境を監視することができる。各音声シグネチャは、音声を特性化する、ある識別可能な特徴を有する。これらの特徴は、集合的に、音声を認識するために使用することができる音声シグネチャと呼ぶことができる。実施例として、音声シグネチャは、音声の統計的特性またはパラメトリック特性を含んでもよい。例えば、音声シグネチャは、関連増幅および位相情報とともに顕著な周波数を表すことができる。別の実施例として、音声シグネチャは、音声の最も認識可能な特徴を識別する、主要構成要素を含有することができる。
図10を参照すると、通信デバイス1002は、音声を受信するように構成されるマイクロホンを有する移動通信デバイスである。通信デバイス1002の実施例は、ほんの数例を挙げれば、電話、携帯電話、PDA、携帯型コンピュータ、マイクロホン付きのGPSシステム、自動車、衛星電話、送受信兼用無線機、スマートフォン、およびイヤホンである。これらのデバイスは、全大陸でアクセスがあり、世界中で使用されることが周知である。関心の音声を自動的に検出して記憶し、記憶された音声に関する主要情報を添付し、次いで、デバイスの通常の使用を妨害することなく音声のデータベースに記憶するために、それらをアップロードする能力を有することにより、音声の収集のために、潜在的に何十億もの人々を動員する。次いで、これらの音声は、ほんの数例を挙げれば、他の手段によって収集することが不可能である、一般知識、歴史目的、マッピング、科学、医学、および企業にとって人間の便益に使用することができる。
通信デバイス1002およびイヤホン1010は、図9で開示されるような回路を含むか、または以下で開示されるように機能するように適合される。通信デバイス1002およびイヤホン1010は、音声を記録し、音圧レベルを測定するために動作可能に構成される。少なくとも1つの例示的実施形態では、通信デバイス1002またはイヤホン1010のマイクロホンから受信される音響情報は、バッファまたはメモリの中に配置され、そこで分析することができる。バッファは、一時的記憶装置であり、マイクロホンから受信された音声の継続的分析を可能にする。関心のものが何も発生しなければ、バッファの中の音声は廃棄され、バッファの中の次の音声情報が分析される。
次の図でより詳細に論議されるトリガイベントは、オーディオコンテンツ(または関連音響情報、例えば、オーディオコンテンツの音圧レベル)の収集または捕捉、およびデータベース1008へのデータの送信を開始する、イベントまたは決定である。1つの例示的実施形態では、オーディオコンテンツは、通信デバイス1002またはイヤホン1010のメモリに記憶され、そこでさらに処理され、後で送信することができる。代替として、オーディオコンテンツは、即座にデータベース1008に送信することができる。トリガイベントは、ユーザ制御を受けるか、またはウェブサイト1006およびデータベース1008を通して遠隔で制御することができる。
オーディオコンテンツの側面、例えば、トリガイベント(ある閾値を上回る音圧レベル)、音声が記録されたときのタイムスタンプ、または音声が記録された場所を提供するジオコードを識別するために使用することができる、メタデータが生成される。通信経路1004は、オーディオコンテンツ、関連情報、およびメタデータを伝送するための通信デバイス1002またはイヤホン1010の間の有線または無線接続となり得る。オーディオコンテンツは常に送信されるわけではないことに留意されたい。例えば、音圧レベルは、異なる地理的領域/時間において雑音レベルをマッピングするのに有用性を有し、メタデータとともに送信されてもよい(しかし情報集約的オーディオコンテンツは送信されない)。少なくとも1つの例示的実施形態では、通信デバイス1002またはイヤホン1010は、ウェブサイト1006、サーバシステム、またはデータベース1008に自動的に接続して、情報をアップロードする。オーディオコンテンツは、アップロードされ、そこで、データベース1008に記憶される前にさらに見直されてもよい。
上述のように、通信デバイス1002またはイヤホン1010によって得られる別の測定は、音圧レベル(SPL)である。音圧レベル測定を行い、それ自体で(関連メタデータとともに)、またはオーディオコンテンツと組み合わせて、送信することができる。音圧レベル(SPL)は、アナログ回路を通してマイクロホン信号から測定され、またはより典型的には、オーディオ処理(自動利得制御、均等化等)が通信デバイス1002およびイヤホン1010内で発生する前に、マイクロホン信号がデジタルに変換され、デジタル処理を使用して計算された後に、測定される。
音響情報は、通信デバイス1002およびイヤホン1008のユーザによって手動で記録し、提供できることに留意されたい。手動プロセスに頼った場合、多くまたは大部分の音声が見落とされ、潜在的な音声シグネチャ提供者の一部のみが参加する可能性が高い。少なくとも1つの例示的実施形態では、通信デバイス1002またはイヤホン1008は、常にオンであり、音声を継続的に分析し、関心のオーディオコンテンツを記憶している。プロセスを自動的に行うことは、多数の音響情報が継続的に提供されるための経路を開く情報を提供するのに通信デバイスのユーザに依存しない。多数のデバイスが世界の全ての地理的領域に広がっているため、世界の音響地図を1日24時間生成することができる。
少なくとも1つの例示的実施形態では、通信デバイス1002またはイヤホン1010のユーザは、収集された音声の検索および分類化を補助するイベントを表す、メタデータを手動で追加することができる。例えば、ユーザは、記録が、タイムスタンプとジオコード(音響情報で自動的にタグ付けされる)を添付されたニューヨークシティの消防車のサイレンであるという情報を提供することができる。少なくとも1つの例示的実施形態では、通信デバイス1002またはイヤホン1010のユーザの間の通信は、通信経路1004を通して発生し、音声、テキスト、または自動様式で、さらなる情報を要求することができる。例えば、音声シグネチャを自動的に送信した後、形式について、および何がデータベース1008に現在記憶されているかという関連で見直される。提供された捕捉音声を編集し、識別し、説明し、フォーマットするために、さらなる通信を行うことができる。通信はまた、より便利な時間または現場で(例えば、パーソナルコンピュータを介して家庭で)発生して、さらにデータベース1008に永久に記憶する状態にすることもできる。オーディオ情報を含むビデオ情報も、上記で開示されるような同様の様式で提供できることに留意されたい。オーディオ情報は、ビデオから除去し、データベース1008に使用することができる。
イヤホン1010および通信デバイス1002は、ともに動作可能に結合することができる。イヤホン1010が音声1012の主要レコーダであるように、優先順位を設定することができる。したがって、収集された情報を与えることにより、ユーザが何を聞いているかという観点を生じる。イヤホン1010は、他のデバイス、例えば、携帯型メディアプレーヤとともに使用することができる。イヤホン1010は、SPLを収集し、測定し、メタデータをタグ付けして、通信経路1004が有効になるとアップロードされる音声のキューを作成する。したがって、共通デバイスは、音声情報を自動的に捕捉して記憶し、SPLを測定し、タイムスタンプおよびジオコードを含むメタデータを追加し、データベースに音響情報をアップロードし、それにより、継続的に音声収集のために最大地理的領域にわたって最大数の人々を有効にするために適合されている。
図11は、少なくとも1つの例示的実施形態による、音響情報を収集または捕捉し、音声を提供する通信デバイス1104のブロック図である。通信デバイス1104は、音響情報を受信するように構成されて有効となる、少なくとも1つのマイクロホンを含む。少なくとも1つの例示的実施形態では、通信デバイス1104は、音圧レベル測定を平均化するための複数のマイクロホンを有することができる。また、人々は、常に電話を外に出しているわけではないが、ホルスターの上またはポケットの中に持っている。複数のマイクロホンは、オーディオコンテンツを自動的に収集するときに、情報を受信するように構成される、遮られていないマイクロホンが利用可能であるという確率を増加させる。
上述のように、音響情報は、デバイス1104の中の循環バッファに記憶され、継続的に分析される。例えば、バッファの半分の中の音響情報が分析される一方で、新しい音響情報は環状バッファの残りの半分にロードされる。関心の音声が検出されるトリガイベントが発生した場合、音響情報は、音響情報を収集するように構成されるデータベースに提供されるまで、通信デバイス1104の中でより永久的であり、上書きされない、メモリに記憶される。
トリガイベントは、音響情報、または音声データベース1118にアップロードするためのイベントを誘起した音声に関係する情報の保存を開始する。トリガイベントは、多くの形態を成すことができる。ある閾値を超える音圧レベル(SPL)は、音響情報の収集を誘起することができる。SPL誘起イベントは、地域の全体を通してSPLをマッピングし、雑音が過剰となり得る場所を識別するために有用な情報を提供する。代替として、音圧レベルの差分変化が、バッファへの音声の記憶を誘起することができる。例えば、周囲SPLよりも実質的に高い音圧レベルの急上昇または急増が、バッファへの音声の記憶を誘起することができる(例えば、銃撃または爆発)。
時間は、トリガイベントの別の実施例である。通信デバイス1104は、周期的に音響情報を受信し、記憶することができる。時刻または時期に応じて変化する、通信デバイス1104のユーザの音声曝露をマッピングするために、周期的サンプリングを使用することができる。
地理的場所は、トリガイベントのさらなる実施例である。GPS受信機を有する通信デバイス1104は、非常に正確に場所を識別することができる。通信デバイス1104は、特定の場所の音響情報の記憶を誘起することができる。例えば、通信デバイス1104のユーザは、医師にかかったときの音響情報を記憶し、それにより、診察の病歴を保存する、トリガイベントを有する。この実施例での音響情報は、一般的使用のための音声データベース1118に行く必要はないが、通信デバイス1104のユーザによって所有される、個人的に管理された安全な「音声ロッカー」に行くことができる。
トリガイベントの別の実施例は、音声シグネチャ検出である。少なくとも1つの例示的実施形態では、通信デバイス1104は、音声シグネチャへのアクセスを含むか、またはアクセスできる。通信デバイス1104は、同様の音声を識別するために音声シグネチャを使用する。音響情報は、いったん同様の音声がデバイス1104に利用可能な音声シグネチャから識別されると収集される。例えば、音声データベース1118は、警告音に関係がある音声を収集している。データベース1118は、通信経路がデバイスに開かれると、警告音に関係がある音声シグネチャを移動通信デバイスに利用可能にすることができる。したがって、人間の介入を必要とせずに特定の音声を自動的に収集することに焦点が置かれるが、ユーザ制御下での手動プロセスで、収集およびトリガイベントの両方を行うか、または入力することができる。音声起動およびセンサデータ(移動、生体情報、大気データ、視覚、物質検出、臭気等)等の他のトリガイベントが、音響情報を収集するために使用されるイベントの実施例である。
少なくとも1つの例示的実施形態では、音声シグネチャは、ガウス混合モデル(Gaussian Mixture Model/GMM)を備える。一般に、デバイス1104の中のA/D変換器は、アナログ音声信号をデジタル音声信号に変換する。プロセッサは、デジタル音声信号をフレームに細かく分け、例えば、fs=8000Hzでは、データの20msフレームは160サンプルであり、各サンプルは16または32ビットによって表される(例えば、均等化される)。したがって、1秒間記録された音響音波は、50フレーム(20ms*50=1秒)によって表される。
次いで、各フレームは、当技術分野で公知であるような特徴について抽出される。特徴は、フレームの周波数分解を表すフーリエ級数係数(FFTに基づく)となり得る。特徴は、スペクトルエンベロープ分解を表すメルケプストラムまたはLPC係数となり得る。特徴は、DCT、KLT、PCA、または任意の他の特徴セットとなり得る。顕著に、特徴は、入力空間の次元性を低減するために、効率的な形態のデータ圧縮を提供する。(例えば、フレームを表すために160サンプル(16ビット/サンプル)を全て使用する代わりに、メルケプストラムは、同じフレームを表すために10〜14サンプル(16ビット/サンプル)しか必要としない)。
次いで、特徴は、GMMを訓練するために使用される。各音声シグネチャに対する単一のGMMがある。音声シグネチャは、音波の特徴、例えば、記録された音波のメルケプストラム係数の連続フレームから成る。訓練は、GMMに、集合的に特徴セットと呼ばれる特徴の統計を習得させる。より具体的には、GMMは、特徴セットの統計パラメータ、特に、特徴セットの平均、共分散、および確率加重を表す。そのため、GMMは、これらのパラメータ(平均、共分散、加重)を使用して、特徴セットの統計を特性化する。それにより、例えば、訓練中に、特徴セットの平均(例えば、各フレームに対して10〜14ケプストラム係数)が集合的に決定され(例えば、全てのフレームにわたるケプストラム係数を平均化する)、特徴セットの共分散が決定され(全てのフレームにわたるケプストラム係数の2次モーメントを計算する)、確率が決定される(例えば、GMMクラスタ中心の数(例えば、平均べクトル)に関してフレームの発生の頻度を決定する)。
いったんGMMが訓練されると、平均、共分散、および加重が音声シグネチャを完全に説明する。つまり、これらのパラメータは、パターン認識の意味で、音声シグネチャをモデル化するためのGMMを完全に特定する。次いで、これらのパラメータは、特定のGMM用のメモリに記憶され、周囲声の中の音声シグネチャを識別しようとするときに参照するために使用される。したがって、比較目的で音波形態全体をメモリに保存する代わりに、最初に特徴が抽出され、次いで、特徴の統計をモデル化するためにGMMが作成される。次いで、GMMは、周囲音監視中に同じ音声の音声シグネチャを識別するために使用される。
一般に、データベース1118には、収集された音声があるだけの多くのGMMがある。したがって、サイレンのGMM、警笛の別のGMM、いびきの別のGMM等がある。次いで、GMMパラメータ(平均、共分散、加重)が全てメモリに記憶され、通信デバイスによって提供された新しい音声シグネチャが、データベース1118上にすでに記憶されている習得音声のうちの1つであるか否かを決定するために、後でメモリから取り出すことができる。
同様に、認識された音声シグネチャのGMMを有する通信デバイス1104は、デバイス1104のマイクロホンから受信された音声を、音声シグネチャと比較することができる。より具体的には、新しい音声シグネチャを認識するプロセスは、同じフロントエンド抽出ステップ、つまり、特徴セット(例えば、メルケプストラム係数のフレーム)を生成するステップから成る。次いで、この特徴セットは、GMMのパラメータ(平均、共分散、加重)が新しい特徴セットへの最良合致であるか否かを評価するための各GMMに渡される。より具体的には、新しい特徴セットの統計は、最大尤度(ML)方式で各GMMのパラメータと比較される。新しい特徴セットは、例えば、最小ひずみ、最小Lノルム距離、およびML推定量を採用して、どのGMMが最大尤度の意味で特徴を表す可能性が最も高いかを決定するために、パラメータ(平均、共分散、加重)に効果的にマッピングされる。各GMMは、新しい音声シグネチャへの合致を表す確率(例えば、0と1との間)を生じ、例えば、0.1確率出力を伴うGMMは、音声シグネチャがGMM(‘笛GMM)と関連する音声に対応する10%確率があることを示す。0.9確率出力を伴うGMMは、音声シグネチャがGMM(‘サイレンGMM)と関連する音声に対応する90%確率があることを示す。したがって、データベースに音声シグネチャを追加するための基準は変化し得る。例えば、データベース1118の中の音声シグネチャとの低い合致確率を伴う音声シグネチャを提供する通信デバイス1104が、独特であるため記憶されてもよい。逆に、場所、時間、またはデータベース1118がその種類の音声を収集しているため、比較的高い合致確率を有する新しい音声シグネチャが保存される場合がある。
図11のブロック図を続けると、デバイス1104のバッファに記憶された音声情報が分析され、トリガイベントは、受信された音声が記憶されるべきであると決定する。音声1102は、データベース1118によって使用するために、GMM等の適切な形態に変換することができ、または音声情報自体をデバイス1104のメモリに保存することができる。音響情報の音圧レベル(SPL)は、SPLを測定するステップ1108で測定または計算される。音圧レベルの測定は、収集された音声と合わせて、または独立して(SPLのみが保存され、音声情報が廃棄される場合)行うことができる。
捕捉または収集された音声に対応するメタデータ1110は、音声情報に添付される。加えて、デバイス1104のユーザは、送信されるか、または後でデータベース1118と通信する前に、さらなる情報を追加することができる。例えば、ユーザは、キーボードを介して、メタデータテーブルにメタデータ1110を手動で入力することができ、または添付されたオーディオストリームの中の有声説明となり得る。メタデータ1110は、音声シグネチャに対応するタイムスタンプおよびジオコードを含む。少なくとも1つの例示的実施形態では、音声情報が通信デバイス1104によってGMMに変換されない場合には、データベース1118によって受信されると、音声のGMMが生成される。
少なくとも1つの例示的実施形態では、音声、音圧レベル、およびメタデータは、通信デバイス1104上に存在するメモリ1112に記憶される。音声のキュー1114は、適切なときにアップロードするために、メモリ1112に記憶することができる。ユーザは、通信経路が完成すると、音声データベース1118への音声のキュー1114のアップロードを開始することができる。少なくとも1つの例示的実施形態では、デバイス1104は、音声データベース1118の中のサーバに自動的に接続し、デバイス1104のユーザによる手動介入なしで、通信経路が有効になると音声のキュー1114をアップロードし、それにより、デバイス1104の正常動作を妨害しない透明なプロセスを行うことができる。音声のデータベース1118上に記憶されるものの、音響情報が正しい形式であるか、または永久に記憶されるほど十分独特であるかを決定する反復プロセスがあってもよい。
図12a−12cは、少なくとも1つの例示的実施形態による、音響情報を収集するように構成されるトリガイベントとしての音圧レベルの使用を図示する、関連概略図である。図12a−12cは、図11に図示されたトリガイベントに関する。図11を参照すると、通信デバイス1104は、デバイスのマイクロホンを通して音響情報を受信している。少なくとも1つの例示的実施形態では、音響情報は、分析のために通信デバイスのバッファに記憶される。分析は、音響情報の収集を開始するために、音圧レベルに関係するトリガイベントを探すステップ含む。
図12aを参照すると、音響情報から受信された通信デバイスによって計算される、音圧レベル対時間のグラフが示されている。トリガイベントは、音響情報の音圧レベルが音圧レベル閾値1124を超えると発生する。例えば、高雑音区域についての情報が収集されている。音圧レベル閾値1124を70dBに設定することにより、このレベルの周囲音に曝露された場合に張力損失を生じ得る、70dBを超える音圧レベルを有する区域における情報を収集する。耳への害は、音圧レベルおよび雑音に曝露された期間に関係する。多数のデータ点を収集することにより、3次元領域にわたって経時的に音響情報のマッピングを可能にする。この情報には、種々の用途があり、そのうちの1つは、都市の中で高雑音がいつどこで発生するかを識別することである。
少なくとも1つの例示的実施形態では、トリガイベントは、トリガイベントが発生する期間中に、音響情報の収集を開始する。例えば、図12aでは、破線によって示されるように、期間t−t中に音圧レベル閾値1124を超えた場合に、第1のトリガイベント1120が発生する。いったん誘起されると、図12bに示されるように、期間t−t中の音響情報は、データベースに送信するために収集される。音響情報は、その全体で通信デバイスのメモリに記憶することができ、または収集の必要性に応じて、よりコンパクトな形態に変換し、モデル化し、特性化し、メタデータを提供することができる。メタデータには、音響情報と関連する時間情報(t−t)および場所情報を含むことができる。図12cを参照すると、時間と対比した、x、y、およびz座標で示された通信デバイスの位置がグラフで示されている。地理的情報は、音響情報が収集された場所を識別するメタデータとともに提供される。通信デバイスの位置は、定常または移動することができ、それは情報が示す。
同様に、第2のトリガイベント1122が図12aに図示されている。トリガイベント1122および対応する破線よって示されるように、期間t−t中に、音圧レベル1124を超える。図12bに示されるように、期間t−t中の音響情報が収集される。時間情報および地理的場所情報を含むメタデータが、本明細書の上記で説明されるように、音響情報に添付される。
実施形態では、トリガイベントは、音圧レベル閾値1124を超えるときはいつでも発生する。トリガイベントは、他の方法で修正することができる。音圧レベルトリガイベントの実施例は、ほんの数例を挙げれば、所定の期間にわたって閾値1124を上回る音圧レベル、(期間にわたって)所定の閾値を上回る平均音圧レベル、または所定の量を上回る音圧レベルの差分変化である。さらに、収集される音響情報は、トリガイベントが発生する期間に限定されない。収集される音響情報の量は、必要に基づいて変化させることができる。例えば、音圧レベル閾値1124を上回る音響情報のみを収集する。逆に、トリガイベントは、以前、現在、および次の期間から音響情報を収集することができる。
図13は、音響情報を収集するように構成されるトリガイベントとしての地理的場所の使用の概略図を図示する。通信デバイス1131は、位置付け情報を提供するためのGPS受信機1134を含む。1つ以上の地理的場所が通信デバイス1131に記憶され、または通信デバイス1131がトリガイベントを開始するための地理的場所にアクセスできる。通信デバイス1131は、GPS受信機1134から情報を使用して、現在の地理的場所を1つ以上の地理的場所と比較する。現在の地理的場所が記憶された地理的場所のうちの1つの範囲に入ると、音響情報を収集するように構成されるトリガイベントが発生する。
地理的領域1136は、x±Δx、y±Δy、およびz±Δzという座標範囲によって表される。3次元が実施形態で示されているが、関心の地域を画定するために、1次元または2次元を使用することができる。例えば、x±Δxおよびy±Δyの使用を、zが必要ではないレストランを識別するために使用することができる。異なる時刻にレストランに行く人々(それぞれ、レストランの座標から通信デバイスのトリガをオフにしている)が、レストランに関する音響情報を収集する。例えば、異なる人々によって音圧レベル(SPL)測定を行うことができる。SPL測定は、異なる時刻およびレストランの異なる場所で雑音レベルを示す、レストランの地図を作成するために使用することができる。情報には、例えば、雑音レベルが低いとき、およびレストランの最も私的な(静かな)区域がどこかを知りたい、レストランのユーザにとって有用性がある。
少なくとも1つの例示的実施形態では、GPS受信機1134は、通信デバイス1131の場所についての情報を周期的に提供する。受信されたGPS情報の周期性は、概略図上の一連の黒いドットによって表される。トリガイベント1130(破線によって示される)は、受信されたGPS情報が地理的領域1136の範囲に入ると発生する。示されるように、トリガイベント1130は、時間tで発生する。音響情報は、通信デバイス1131が地理的領域1136内にある間に収集される。イベント終了1132(破線によって示される)は、(受信されたGPS情報から)通信デバイス1131が地理的領域1136の範囲外になると発生する。イベント終了1132は、時間tで発生する。上述のように、受信された音響情報は、バッファに記憶される。トリガイベント1130とイベント終了1132との間の期間に対応する音響情報1138は、データベースに送信するために収集される。音響情報1138は、適切なときにデータベースにアップロードされるように、より永久的なメモリへとバッファから除去することができる。
音響情報1138は、その全体で通信デバイスのメモリに記憶することができ、または収集の必要性に応じて、よりコンパクトな形態に変換し、モデル化し、特性化し、メタデータを提供することができる。少なくとも1つの例示的実施形態では、音響情報1138には、時間情報および地理的場所情報を含むメタデータが提供される。時間情報は、通信デバイスの中のクロック回路から提供される。開示された実施形態では、通信デバイスのGPS受信機1134を通して提供される地理的場所情報は、離散時間間隔で提供される。GPS受信機1134からの受信されたデータ点の間の期間中の地理的場所を推定するために、線形補間および他の補間技術を使用することができる。
図14は、音響情報を収集するように構成されるトリガイベントとしての時間の使用を図示する概略図である。通信デバイス1140は、時間情報を提供するためのクロックを含む。1つ以上の時間が通信デバイス1140に記憶され、または通信デバイス1140は、時間に基づいてトリガイベントを開始するための時間にアクセスできる。記憶された時間は、イベントトリガ時間(または音響情報を収集するように構成される開始時間)およびイベント終了(または音響情報を収集するように構成される終了時間)を含む。通信デバイス1140は、現在の時間を1つ以上の記憶された時間と比較する。音響情報を収集するように構成されるトリガイベントは、現在の時間が記憶されたイベントトリガ時間に対応すると発生する。
音響情報を収集するように構成されるイベントトリガ1144は、通信デバイス1140のクロックが時間tに対応すると発生する。イベント終了1146は、音響情報の収集を終了させ、クロックが時間tに対応すると発生する。上記で開示されるように、時間tおよびtは、音響情報の収集を誘起するために、通信デバイス1140に記憶される。少なくとも1つの例示的実施形態では、音響情報1148は、適切なときにデータベースにアップロードするために、バッファから通信デバイス1140のより永久的なメモリに転送される。
少なくとも1つの例示的実施形態では、GPS受信機1142は、通信デバイス1140の場所についての情報を周期的に提供する。受信されたGPS情報の周期性は、概略図上の一連の黒いドットによって表される。GPS受信機からの受信されたデータ点の間の期間中の地理的場所を推定するために、線形補間および他の補間技術を使用することができる。音響情報1148に対応するGPS情報および時間情報は、他のメタデータとともに提供される。時間情報は、通信デバイス1140の中のクロックによって提供される。音響情報1138は、その全体で通信デバイスのメモリに記憶することができ、または収集の必要性に応じて、よりコンパクトな形態に変換し、モデル化し、特性化し、メタデータを提供することができる。
図15は、少なくとも1つの例示的実施形態による、音響情報を収集するように構成されるトリガイベントとしての音声シグネチャの検出を図示する概略図である。通信デバイス1150は、マイクロホンから音響情報を受信する。通信デバイス1150は、メモリの中に1つ以上の音声シグネチャを有するか、またはマイクロホンによって受信された音響情報との比較のために、1つ以上の音声シグネチャにアクセスできる。音響情報は、音声シグネチャとの類似性について継続的に評価される。トリガイベントは、音響情報が音声シグネチャに類似していると分かると発生する。トリガイベントは、データベースに提供されるための音響情報の収集を開始する。
少なくとも1つの例示的実施形態では、音響情報は、デジタル音声信号として通信デバイス1150のバッファに記憶される。デジタル音声信号は、情報のフレームに分割することができる。例えば、フレームは、1フレームごとに160サンプルを生じるf=8000Hzのサンプリング周波数で、20ミリ秒サンプルに対応する音声情報として定義される。各サンプルは、通信デバイス1150のA/D変換器のビット分解能(例えば、13ビットまたは24ビット)によって表される数に均等化される。例えば、A/D変換器によって生成される数は、サンプルの時間でマイクロホンの電圧出力に対応する、電圧を表してもよい。
一定の縮尺で描かれていないものの、一連のフレームは時間と対比して示されている。各フレームは、マイクロホンによって捕捉される音響情報に対応する、それと関連するデジタル音声情報を有する。デジタル音声情報は、受信された音声に関係する特徴を抽出するように処理される。上記で開示されるように、特徴は、フレームの周波数分解を表すフーリエ級数係数(FFTに基づく)となり得る。特徴は、スペクトルエンベロープ分解を表すメルケプストラムまたはLPC係数となり得る。特徴は、DCT、KLT、PCA、または任意の他の特徴セットとなり得る。顕著に、特徴は、入力空間の次元性を低減するために、効率的な形態のデータ圧縮を提供する。例えば、(f=8000Hzで単一の20ミリ秒フレームサンプリングの)160サンプルを全て使用する代わりに、メルケプストラムは、同じフレームを表すために10〜14サンプル(16ビット/サンプル)しか必要としない。
音響情報の各フレームには、抽出された特徴1164が関連付けられる。少なくとも1つの例示的実施形態では、通信デバイス1150は、音響情報の各フレームから特徴を抽出し、特徴をフレームごとに発生する1つ以上の音声シグネチャと比較する。示されるように、音響情報の抽出された特徴1156は、音声シグネチャのGMMに対して比較される。一般に、音響情報のフレームの抽出された特徴1164は、どのGMMが音響情報のフレームの特徴を表す最高尤度を有するかを決定するために、音声シグネチャのパラメータ(平均、共分散、加重)にマッピングされる。比較は、音声シグネチャの各GMMにどれだけよく合致するかという確率(例えば、0と1との間)を生じる。トリガイベント1158は、比較が、基準、例えば、0.8を上回る確率を満たせば、発生する。基準は変化させることができ、比較されている音声シグネチャに類似しているか、または関係がある音響情報を最も良く捕捉または収集するために選択されることに留意されたい。過剰に高く設定された基準は、収集された音響情報をほとんど生じない場合がある一方で、基準を過剰に低く設定することにより、音声シグネチャと無関係である相当量の音響情報を収集する場合がある。この実施例では、確率閾値を0.8のレベルに設定することにより、音響情報が80%尤度を伴う音声シグネチャに対応した場合に情報の収集を誘起する。少なくとも1つの例示的実施形態では、概略図上で示されるように、基準が満たされない1160ときにイベントが終了する。
少なくとも1つの例示的実施形態では、収集された音響情報1162は、トリガイベント1158と音響情報がもはや基準を満たさないとき1160との間に存在する、音響情報よりも多くを含む。いったん音響情報が基準を満たし(確率閾値を上回る)、収集されるべきであることが確立されると、(基準を満たす部分だけではなく)音声全体が捕捉されることを確実にすることが望ましい。したがって、トリガイベント1158に先行する音響情報、ならびに基準が満たされた後の音響情報が週種される。前後の収集された音響情報の追加時間量は、固定量となり得るか、またはどれだけ多くの音響情報を収集するかを決定するための他の方法論から基づくことができる。一般に、音響情報がバッファに記憶され、音響情報の期間が通信デバイス1150の中のより長期的なメモリに転送されるにすぎないため、収集される音響情報の期間は問題ではない。
上記で開示されるように、メタデータは、それぞれ、音響情報が受信されたときおよび場所に対応する、時間情報および地理的情報を含む。メタデータは、音響情報に添付することができる。通信デバイス1150の中のクロックは、時間情報を提供する。GPS受信機1152は、周期的な地理的場所情報を提供し、図中の一連の黒いドットとして示される。GPS受信機1152からの受信されたデータ点の間の場所を推定するために、補間を使用することができる。
代替として、音声起動をトリガイベントとして使用することができる。例えば、携帯電話1150の中の音声認識回路が、動作を開始するユーザによって話された言葉を検出することができる。同様に、別のユーザによる(異なる言語の)認識された語句または一群の言葉の携帯電話1150による検出が、トリガイベントを開始することができる。例えば、助けを求める叫び声または警察への電話である。携帯電話1150は、トリガイベントに応じて、適切な実体に音響情報、時間、および場所を送信することができる。
図15aは、周波数帯域でSPL値を使用するトリガを図示する。1500は、種々の時間増分(例えば、tb1からtb2)で分析することができる、音響信号を図示する。分析は、初期トリガイベントとして使用することができるスペクトル情報(例えば、パワースペクトル密度、PSD)を提供する、スペクトル表示(例えば、FFT)1500Aを行うことができる。例えば、資源集約的となり得るSSDの信号を継続的に分析する代わりに、種々のSPL周波数帯域におけるピークを探すことができる。ピークが閾値を超える場合、SPLピークをもたらした信号を識別するために、SSD分析を誘起することができる。単一または複数の周波数帯域を見ることができ、それぞれが独自の閾値を有することができる。例えば、1510は、パターンを有する音響時間信号を図示する。時間増分tb3からtb4の間分析は、スペクトル表示1510Aをもたらす。周波数帯域Fmin(1520)からFmax(1530)の中の以前に記憶された閾値1540(例えば、ノイズフロアを3dB上回る)は、時間増分tc1からtc2でさらなるSSD分析を誘起する。
図15bは、周期信号を使用したトリガイベントを説明するフローチャートを示す。別の例示的実施形態によれば、周期信号1553があるか否かを決定するために、入力音響信号1547を分析することができる1551。周期信号がある場合には、音波シグネチャ検出(SSD)分析に必要な音響データをデータバッファから抽出することができる1557。抽出されたデータは、音波シグネチャパラメータ(SSP)、例えば、ガウス混合モデルの係数を生成するために使用することができる1561。計算されたSSPは、信号の検出を取得することができるか否かを決定するために、記憶された値と比較することができる1563。信号が識別された1565場合には、信号と関連する記憶された動作を成立させることができる1567。例えば、火災警報が識別された場合には、減衰を低減することができる(例えば、能動膨張管理システムを使用している場合)。信号が検出されていない場合には、新しいまたは未知の信号として信号を識別する、通知を送信することができる1569。
図15c−15kは、少なくとも1つの例示的実施形態による、周期的検出のためのスペクトログラムの使用を図示する、種々のスペクトログラムシグネチャを図示する。周期信号を識別する可能な方法のうちの1つは、スペクトログラムの使用である。例えば、検出器が、音響信号を経時的に測定することができる。信号はスペクトログラムに分解することができ、ある時間断片が、スペクトル情報(例えば、PSD)に変換され、スペクトログラムのピクセルのカラムと関連付けられる。カラムの中のカラム値は、スペクトログラムの各カラムが同じ最大値および最小値を有するように正規化することができ、その場合、最大および最小範囲を離散値に分解することができ、カラム値をそれぞれの離散値に再び割り当てることができる。経時的な正規化(または非正規化)スペクトログラムは、閾値レベルを上回るピークを探すために分析することができる。次いで、ピークを中心にして、分析領域を位置付け、ピーク領域の重心(例えば、中心線)を導出するために分析領域中の付加的なピークを考慮して、再び中心に位置付けることができる。信号が発話であることが決定または予期された場合には、分析領域の全範囲(図示せず)内で閾値を上回る信号レベルに嵌合するように、時間伸張または短縮を分析領域内で成立させることができる。次いで、反復信号の尤度を決定するために、隣接分析領域間で相関値を得ることができる。
例えば、図15cは、連続して3回、第1のスピーカによって話された「火事(fire)」という言葉を図示する(例えば、分析領域R1、R2、およびR3)。際立ったパターンが明白である。中心化/再中心化すると、図15cの隣接分析領域間の相関が良好になる(例えば、>0.6)。図15dは、それぞれ分析領域R4、R5、およびR6と関連する、「火事(fire)」、「ワイヤ(wire)」、および「沼地(mire)」という、スピーカ1によって話された3つの異なる言葉を図示する。中心化すると、パターンの違いを決定することができ、非反復信号を示す、より低い相関値(例えば、<0.6)を得る。
図15eおよび15fは、第2のスピーカを除いて、図15cおよび15dと類似している。図15eの「火事(fire)」という言葉と図15cの「火事(fire)」という言葉との間のパターンの類似性に留意することができる。図15gおよび15hは、それぞれ、スピーカ1およびスピーカ2からの「火事(fire)」、「助けて(help)」、および「警察(police)」という3つの種々の言葉のスペクトログラムを図示する。スピーカにかかわらず、共通の言葉の間のいくらかの類似性に留意することができる。
図15iは、周波数掃引警報のスペクトログラムを図示し、図15jは、車の警笛のスペクトログラムを図示し、図15kは、火災警報のスペクトログラムを図示する。非常に長い時間信号は、分析領域幅を増加させる必要性をもたらし得ることに留意されたい。図15i、15j、および15kの間の信号の違いが分かる。
図16a−16cは、少なくとも1つの例示的実施形態による、音響情報を収集するように構成されるトリガイベントとしてのセンサデータの使用を図示する、関連概略図である。センサおよびセンサデータは、音響情報を収集するように構成されるトリガイベントを決定するのに有用である。センサデータの実施例は、ほんの数例を挙げれば、加速度および速度、温度、大気(大気圧、風速、水分レベル等)、臭気(におい)、化学的検出、生物学的情報(心拍数、血圧、血糖値等)である。速度および加速度は、トリガイベントを図示するために使用されるが、他のセンサデータは、音響材料の収集を開始するために同様に使用することができる。
図16aを参照すると、通信デバイス1170によって計算される、加速度対時間のグラフが示されている。同様に、図16bを参照すると、速度対時間のグラフが図16bでプロットされている。図16aおよび16bは、加速度閾値1174を超えると音響情報を収集するように構成される、トリガイベント1172を図示する。少なくとも1つの例示的実施形態では、速度および加速度についての情報は、デバイス1170と通信している、または通信デバイス1170内に存在する加速度計1178によって提供することができる。例えば、通信デバイス1170のユーザは、急速に加速するローラコースターに乗っている。加速度は、加速度計1178によって測定される変化率から計算することができる。計算された加速度が加速度閾値1174を超えた場合、音響情報が収集される。ブラックボックス配設で、そのような配設を使用できることに留意されたい。例えば、自動車事故において、閾値レベル(例えば、2g)を超える加速および/または減速レベルの検出時に、音声記録を開始し、記憶することができる。それは後で、事故の手掛かりを提供するためにアクセスすることができる。
少なくとも1つの例示的実施形態では、トリガイベント1172は、トリガイベントが発生する期間(t−t)中に音響情報の収集を開始する。音響情報の収集は、期間t−tに限定されず、収集が必要とするものに基づいて調整することができる。少なくとも1つの例示的実施形態では、音響情報は、バッファに記憶され、したがって、トリガイベント1172が発生した期間よりも長い期間にわたって取り出すことができる。逆に、音響情報は、例えば、加速度が加速度閾値1174を超える期間中に、t−tよりも少ない時間にわたって収集することができる。
いったん誘起されると、図16cに示されるように、期間t−t中の音響情報は、データベースに送信するために収集される。音響情報は、その全体で通信デバイスの中のより長期的なメモリへとバッファから除去することができ、または収集の必要性に応じて、よりコンパクトな形態に変換し、モデル化し、特性化し、メタデータを提供することができる。収集された音響情報はまた、即座に通信デバイス1170からデータベースに送信することもできる。メタデータは、音響情報およびトリガイベントを識別し、説明するのに役立つ。メタデータは、収集された音響情報に添付することができ、時間情報および地理的場所情報を含む。一般に、通信デバイス1170の中のクロックが、時間情報またはタイムスタンプを提供し、GPS受信機1176が、音響情報が受信された地理的場所情報またはジオコードを提供する。
一般に、複数のトリガイベントを、ANDまたはORの組み合わせで使用することができる。加速度および生物学的センサ情報の両方を使用する実施例は、潜在的な救命用途を例証する。生物学的センサは、通信デバイス1170のユーザの生体機能を監視するためにユーザに結合される。生物学的センサは、加速度計1178も含む通信デバイス1170と通信している。ユーザが急速な減速を受ける車両で進行しており、それが最終的には事故をもたらす。加速度閾値1174(絶対値)を超え、音響情報が携帯電話1170によって分析され、深刻な事故が発生したことを示す。分析は、強い衝撃の事故であるという高い確率を計算する(加速度計測定を含む)、音声シグネチャ検出を含むことができる。生物学的センサは、ユーザの健康についての情報を提供する。通信デバイス1170は、警察、消防署、および病院に、情報(時間、場所、事故のパラメータ)ならびに関連個人医療情報(病状、薬、アレルギー等)を自動的に送信することができ、ユーザを救命し得る数分の時間の節約をもたらす。さらなる特徴は、1つまたは複数のトリガイベントが、写真の撮影またはビデオの撮影を開始できることとなり得る。また、視覚情報を記憶するために環状バッファが採用されていた場合、トリガイベントに先行する視覚情報およびトリガイベント後の情報を提供することが可能となる。
開示されるように、トリガイベントは、デバイスのユーザによって、または遠隔で有効にすることができる。例えば、親は、子供の電話が警告信号(例えば、銃撃)を認識した、音圧レベルを超えた、または地理的場所が入力された場合に、親に音響情報を送信するトリガイベントを有効にしたい場合がある。親は、あるイベントが発生した場合に通知を提供するために、子供の電話にトリガイベントを入力するか、または遠隔で入力することができる。
図17は、少なくとも1つの例示的実施形態による、音声シグネチャのカタログ1210からのダウンロードを図示するブロック図である。前述のように、世界中で収集された音声のデータベースを有することには途方もない便益がある。例えば、音声のデータベースは、後世のために記録された、可聴環境変化のアクセス可能な歴史を表す。科学者および歴史学者は、研究のために情報を使用することができる。個人化音声管理用途のための同様の音声を識別するために音声シグネチャを使用するシステムを、本明細書で開示した。同様に、音声データベースは、企業および政府への用途を有する。例えば、映画用の音声効果、または都市環境と対比した都会環境中の雑音レベルの分析用である。
ウェブサイト1202は、本明細書で説明されるように、ユーティリティ、サービス、または商品1204を提供するアプリケーションに対する音声シグネチャ情報を提供するために、個人、政府、企業、科学者等に対する1つ以上のウェブページを提供することができる。ユーザまたは実体は、音声データベース1208の検索1206を行う。音声シグネチャのカタログ1210は、この膨大なデータベースの検索を最適化するように組織化される。音声シグネチャ情報は、音声シグネチャが識別され、見つけられることを可能にする階級で、参照され、相関付けられ、相互相関付けられ、技術的にモデル化され、ジオコード付けされ、タイムスタンプ付けされ、文脈で関係付けられ、コンテンツで関係付けられ、用途で関係付けられ、その他が行われる。ユーザは、適切な項目の音声シグネチャまたは音圧レベルが見つかるまで検索する1206ことができる。
いったん見つかると、1つ以上の音声シグネチャの音声コンテンツ1212ならびに音声シグネチャと関連する全ての情報は、ウェブページ1214に提供またはリンクされる。再生環境1216は、音声シグネチャを再生するために提供される。ユーザは、用途で使用するために音声シグネチャおよび情報をダウンロードしてもよい。少なくとも1つの例示的実施形態では、用途に応じて、料金が音声シグネチャのダウンロードと関連付けられてもよい。例えば、何百または何千もの銃撃および爆発の収集が欲しい映画スタジオは、この音声のデータベースに支払いをしなければならない。
図18は、少なくとも1つの例示的実施形態による、音声を提供することが情報を提供し、検索体験を向上させる、アプリケーションのブロック図を図示する。地図のインターネット検索は、多くの異なる画像を提示する。それは、地形、衛星写真、市街地図、または他の種類の地図表示となり得る。多くの異なる種類の検索において1つの欠けている部分、聴覚フィードバックを提供することである。例えば、市街地図の検索は、街路がどのようであるかを視覚的に教える場合があるが、静止画像である。異なる時刻に街路がどのようであるかを見るとともに聞くことができる場合を想像されたい。オーディオ体験は、この種類の使用に全く新しい次元をもたらす。
ユーザは、インターネット上で検索1302を行うことができる。例えば、ユーザが移動しており、よく知らない不慣れな地域に位置している。一般に、本明細書で開示される概念を検索に適用することができ、開示された具体的実施例は例証目的のためにすぎないことに留意されたい。検索1302は、ユーザが滞在しているホテルから歩いて行ける距離にあるレストランについてである。ユーザは、次の日に提示される事業提案を基準にしなければならない。検索1302は、地図1304を表示する。これは、スクリーンショット1312に示される。少なくとも1つの例示的実施形態では、スクリーンショットは、レストランの場所を伴う地図を提供する。レストランは、検索においてユーザを補助するために、一覧化し、レストランの種類別に分類することができる。
少なくとも1つの例示的実施形態では、検索1302は、音声データベース1310の検索を含む。音声データベース1310は、1つがレストラン情報をグループ化し、もう1つが地図1304等のアプリケーションをサポートする場所である、検索階級を有する。少なくとも1つの例示的実施形態では、ユーザが特定のレストラン上にカーソルを配置すると、さらなる情報が表示される。情報は、データベース1310からの視覚的(写真、テキスト)およびオーディオとなり得る。本明細書で開示されるように、全ての種類の音声情報が、自動的に、および手動で、データベース1310に提供される。例示的実施形態のうちの少なくとも1つでは、データベース1310の中の情報のうちのいくらかは、1年の毎日、各レストランの開店から閉店まで蓄積された検索地域の中のレストランに関する。データベース1310から受信される情報の実施例は、レストランの音、レストランの中の音圧レベル、レストランのユーザレビュー、レストランの地域の周辺の音、場所、およびメニューである。したがって、ユーザは、実際の顧客によるレビューを聞く、レストランの特製料理を知る、または地域およびレストランがうるさすぎるか、または騒々しすぎるか否かを決定することができる。例えば、ユーザが静かな夕食を求めている。提供された情報は、レストランが、静かな雰囲気を示す低い音圧レベルを有することを示す。ユーザは、滞在の週と関連する期間をチェックし、この時期に休暇中の大学生が殺到するため、雑音レベルが急上昇することを知る。同様に、ユーザは、ある時が大幅により静かである(例えば、サービスタイムの前後)ことを知り、情報によって示されるような静かな期間中に行くようにスケジュールを手配することができる。したがって、検索の主題に向けられたオーディオ情報を提供することによって、ユーザ有用性および体験が多大に向上させられる。
図19は、少なくとも1つの例示的実施形態による、3次元音響マッピングのアプリケーションのブロック図を図示する。上記で説明されるように、各音声シグネチャは、関連タイムスタンプおよびジオコードを有する。ジオコードは、3次元空間中の各音声シグネチャの場所を与える。したがって、建物の1階での測定は、直接2階にいる誰かとは異なる座標を有する。したがって、一群の音声シグネチャが、地域の3次元音響地図を生成することができる。実施例は、建物の中および周囲の音圧レベル変動となる。別の実施例は、聞こえる音声の種類となる(例えば、警笛、工業雑音、オフィスの喋り声、エレベータの音等)。
3次元音響マッピングを例証する実施例は、建物1402である。本明細書で開示される概念を、任意の種類の3次元空間に適用することができ、実施例は例証目的のためにすぎないことに留意されたい。建物1402の地域の周囲の音声シグネチャが、年間を通じて、地域で働く、訪れる、または住んでいる人々によって、自動的に、および手動で収集されている。音声シグネチャ、音圧レベル測定、および他の音響情報が、音声データベース1408に記憶される。検索は、建物1402の周囲、建物1402の内側、異なる時刻、および(タイムスタンプ情報を使用して)異なる時期の情報をデータベース1408から提供する。音響地図プログラム1406は、建物内部および建物1402の外側の周辺地域の音声地図1410を構築するために、音響情報を使用する。音声地図1410は、異なる時刻、数週間、数年間等で、表示することができる。視覚地図を3D音響地図と一体化することもでき、さらなる情報を提供する。
例えば、企業がなじみのない地域に移転したいと思っている。借りることに関心があるオフィスは、1階に製造施設を有する建物の2階にある。建物の所有者は、建物が雑音に対して十分防音していると告げている。雑音レベルを調査するように、データベース1408からの音声シグネチャを使用して、地域の音響地図を生成することができる。音声シグネチャと関連する音圧レベル測定は、音声地図で広範囲に使用される。この実施例では、生成された音声地図は、製造施設からの音声が公称であったことを確かに確立したが、地図は、建物の一側面がある時期に大幅に高い風騒音を被る一方で、別の側面が隣接する建物からの多大な雑音を受けることを示した。さらに、音波シグネチャ検出を使用した記録の分析は、1日のある部分の間の電車の雑音およびバイクの雑音を識別した。したがって、企業の決定は、建物を借りないことであった。他の建物の音声地図が生成され、最善の解決法を識別するために決定プロセスで使用された。
図20は、少なくとも1つの例示的実施形態による、緊急情報を自動的に提供するためのアプリケーションのブロック図を図示する。一般に、命を脅かす出来事が発生すると、時間が最も重要である。イヤホンについて図9で開示されるように、個人化音声管理ソフトウェアを実行するために適合される、携帯電話、イヤホン、携帯情報端末、スマートフォン、またはラップトップコンピュータ等の通信デバイス1502は、適正な権限に報告されるべきである危険な状況を検出するために使用することができる。
通信デバイス1502は、個人化音声管理アプリケーション1504を実行する。具体的には、常時オン記録1508が、バッファに音響情報を記憶し、上記で開示されるようなデバイス1502のマイクロホンによって提供される音声を継続的に分析する。分析は、音響情報をデバイス1502のメモリに記憶されている音声シグネチャと比較するか、または音声シグネチャのライブラリへのアクセスを通して比較するステップを含む。分析は、音声シグネチャ検出1510のステップで行われる。この実施例では、音声シグネチャの一部が緊急音声に関する。
緊急音声は、警察、病院、消防署、または他の権限等の権限にとって重要なものである。緊急音声の実施例は、銃撃、自動車事故、助けを求める叫び声、爆発、または命を脅かすか、あるいは即時応答を必要とし得る他の音声である。音声シグネチャ検出1510のステップは、デバイス1502のマイクロホンによって受信された音声情報を分析する。通常の音声シグネチャが検出された場合、アプリケーションの個人化1504に基づいて応答が提供される。
緊急音声1506は、通信デバイス1502のマイクロホンによって受信される。緊急音声1506は、バッファに記憶され、分析される。音声シグネチャ検出1510のステップは、1つ以上の音声シグネチャ緊急音声に類似した音声を見つける。音声は、緊急音声に対する適切な応答を選択する、音声カテゴリ1514に入れることができる。例えば、銃撃が検出され、銃撃は、警察への報告を作成し、自動的に送信するための応答を提供する、音声カテゴリ1514の中にある。少なくとも1つの例示的実施形態では、銃撃の種類、銃撃の方向、通信デバイスからの距離、音声が発生した時間および場所等の情報を、情報を提供する1520ステップで供給することができる。通信デバイス1502は、自動的に通信し、適切な権限に情報を提供する。本明細書で説明される方法論では、異なる場所における複数の人々が、自動的に警察に情報を提供する1520。音響マッピングは、状況の重大性をさらに決定し、人々の命を救い、被害を受ける状態にある権限を保護する応答を提供するために、使用することができる。
図21は、少なくとも1つの例示的実施形態による、建物または家庭における強盗、侵入、または深刻な状況を検出するためのアプリケーションのブロック図を図示する。イヤホンについて図9で開示されるように、個人化音声管理ソフトウェアを実行するために適合される、携帯電話、イヤホン、携帯情報端末、スマートフォン、またはラップトップコンピュータ等の通信デバイス1602は、適正な権限に報告されるべきである、家庭における強盗、侵入、または他の深刻な状況を検出するために使用することができる。同様に、音声シグネチャ検出を使用するデバイスを、家庭を監視する具体的目的で構築することができる。
通信デバイス1602は、個人化音声管理アプリケーション1604を実行する。具体的には、常時オン記録1608が、バッファに音響情報を記憶し、デバイス1602のマイクロホンによって提供される音声を継続的に分析する。分析は、音響情報をデバイス1602のメモリに記憶されている音声シグネチャと比較するか、または音声シグネチャのライブラリへのアクセスを通して比較するステップを含む。分析は、音声シグネチャ検出1610のステップで行われる。この実施例では、音声シグネチャの一部が、家庭への侵入または火事等の他の深刻な事象に対応する音声に関する。
強盗音声1604は、音声を検出し、それに応答するデバイス1602の実施例として使用される。強盗音声の実施例は、ほんの数例を挙げれば、侵入するためにガラスを粉々に割る音、誰かが窓を開けようとする(窓がガタガタという)音、または戸棚の扉の急速な開閉である。音声シグネチャ検出1610のステップは、デバイス1602のマイクロホンによって受信された音声情報を分析する。通常の音声シグネチャが検出された場合、アプリケーションの個人化1604に基づいて応答が提供される。
実施形態では、強盗音声1606が通信デバイス1602のマイクロホンによって受信される。強盗音声1606は、バッファに記憶され、分析される。音声シグネチャ検出1610のステップは、1つ以上の音声シグネチャ緊急音声に類似した音声を見つける。音声は、強盗音声1604に対する適切な応答を選択する、音声カテゴリ1614に入れることができる。例えば、窓の破損に類似した音声が、デバイスの所有者の家庭に対応するデバイス1602の地理的場所も知っている、デバイス1602によって検出される。窓を壊す音は、集合住宅におけるローカルセキュリティへの報告を作成し、自動的に送信するための応答を提供する、音声カテゴリ1614の中にある。少なくとも1つの例示的実施形態では、窓の破損の種類、窓の破損の方向、窓の破損からのデバイス1602の距離、窓の破損が発生した時間および場所等の情報を、情報を提供する1620ステップで供給することができる。通信デバイス1602は、自動的に通信し、適切な権限に情報を提供する。この実施形態では、集合住宅に対するローカルセキュリティが通知を受け、車で出かけて何かがおかしいか否かを決定することができる。同様に、警察に連絡することができ、警察は付近の誰かを送って地所を調査することができる。
図22は、少なくとも1つの例示的実施形態による、オーディオロッカー1712を有する社交用の個人ウェブページ1710を含む、ウェブサイト1706の概略図を図示する。音声捕捉のためのデバイスを使用する参加者は、社会的協力の目的で、選好に基づいて、これらの音声をタグ付けし、カタログに入れることも可能となる。事前に確立されたオーディオロッカーが、コミュニティによって定義可能であるカスタマイズ可能なロッカーとのオンラインインターフェースを通して利用可能となる。例えば、ウェブサイト1706は、社交のための環境を提供する。ウェブサイト1706のユーザは、安全であり、ユーザの制御の下にあるオーディオロッカー1712を含む、個人ウェブページ1710を有することができる。他のウェブサイトユーザは、パスワードで保護されているオーディオロッカー1712にアクセスできない。オーディオロッカー1712は、通信デバイス1702からの個人オーディオ情報を記憶する際の個人的使用のためのものである。
通信デバイス1702は、ユーザのオーディオ経歴を作成するために使用することができる。少なくとも1つの例示的実施形態では、デバイス1702は、ユーザの1日のオーディオ記録であるオーディオ情報を受信し、記憶する。アップロードするステップ1708では、デバイス1702は、1日のイベントを記憶したオーディオ情報をアップロードするために、ウェブサイト1706上で、またはユーザシステム(例えば、パーソナルコンピュータ)を通して、ユーザオーディオロッカー1712に接続される。ユーザは、ウェブサイト上の再生環境を通して、オーディオ情報のクリップを編集または作成することができる。ユーザが共有することを所望するオーディオ情報は、ユーザの個人ウェブページ1710上に投稿することができる。ウェブサイト1706のグローバルユーザ1704は、ユーザの個人ウェブページにアクセスし、再生環境1714を通してユーザによって提供されたオーディオ経歴情報を聴くことができる。社交のためにユーザによって提供される個人ウェブページ1710のオーディオコンテンツの実施例を以下で例証する。
この日に・・・
○重要なイベント−スポーツ、パーティ、トラックショー、パレード、スキーと射撃・私の家庭−家、夕食の時間、週末
・私の街路−私の庭、街角
・私のお気に入りの場所−レストラン、公園
・私の最も騒々しい場所−地域の工事、地下鉄/電車の駅、空港
・私の娯楽−路上イベント、コンサート、ゲームセンター、銃射撃場
・私の通勤
・私の最近の冒険
・私のお気に入りの音声
・私の嫌いな音声
・あなたもこれを聞かなければなりません
これらのコンテンツセグメントは、ユーザが、アプリケーションを通してオンラインソーシャルサイトに公開し、開放および閉鎖コミュニティで議論を開始し、第3者マッピングプログラム上にジオコードおよびタイムスタンプ付きの音声を重ねることを可能にする。収集された音声はまた、種々の現場についての公開入力を提供する、推奨および格付けエンジン(水曜夜の6時30分のXYZレストラン)にリンク可能にもなり得る。したがって、経歴オーディオ情報の収集は、人々を相互にリンクするのに有意な社会的影響を及ぼし、オーディオセグメントに基づく議論のトピックを作成し、一般に、社交ウェブサイトを使用する体験を向上させることができる。
代替例示的実施形態では、ウェブサイト1706は、祖父母と孫との間の社交を提供し、双方向または遅延通信を可能にする。例えば、個人ウェブページ1710は、特定の祖父母および孫と関連付けられる。個人ウェブページ1710は、アクセスを有するユーザ(祖父母および孫)を特定する所有者を伴う安全なユーザ空間である。1つより多くのオーディオロッカー1712が、個人ウェブページ1710内に存在することができ、またはオーディオロッカー1712を、1つより多くの安全な特定のアクセス領域で区分することができる。
オーディオロッカー1712は、オーディオ情報ならびにビデオまたは写真等の他の情報のための安全な記憶領域である。祖父母および孫は、楽しみのため、または継続的交流を可能にする通信のために、オーディオ情報を投稿するためのリポジトリとして、それを使用することができる。通信デバイス1702は、アップロード1708を介してオーディオロッカー1712にオーディオ情報を提供するために使用することができる。オーディオロッカー1712は、子供が、通常は頼みにくい場合があるオーディオメッセージを祖父母に送信するための導管となり得る。例えば、孫は、誕生日に欲しいプレゼントのオーディオウィッシュリストをオーディオロッカー1712の中に配置することができ、または、オーディオウィッシュリストを、対応する祖父母によるレビューのために個人ウェブページ1710の安全な領域の中に配置することができる。
例示的実施形態を参照して本発明を説明してきたが、本発明は、開示された例示的実施形態に限定されないことを理解されたい。以下の請求項の範囲は、全てのそのような修正ならびに同等の構造および機能を包含するよう、最大広義の解釈にふさわしいものである。

Claims (20)

  1. 音響情報を収集する方法であって、
    前記方法は、
    モバイルデバイスに通信可能に結合されたマイクロホンにより音響データを収集するステップと、
    前記モバイルデバイス上に地図上の視覚情報を提示するステップと、
    前記音響データ内の音声を前記地図上の前記視覚情報と関連付けるステップと、
    前記視覚情報に関するトリガイベントに応答して前記音声に関する前記地図中のオーディオコンテンツを検索するステップと
    を含む、方法。
  2. 前記関連付けることは、音声認識によりトリガされた検索トピックについて前記音響データを分析することを含む、請求項1に記載の方法。
  3. 前記検索することは、前記音声コンテンツの分析について前記モバイルデバイスに対してメディアをダウンロードまたはストリーミングすることを含む、請求項1に記載の方法。
  4. 前記地図は、写真またはテキストまたは両方を含む、請求項1に記載の方法。
  5. トピックに関する音響情報について音響データベースを検索することと、前記トピックに関する前記地図に対応する場所情報で投稿される情報を提供することとをさらに含む、請求項1に記載の方法。
  6. 前記音響データをユーザの1日のオーディオ記録として記憶することと、
    前記ユーザの1日において決定された前記オーディオ記録中のイベントをアップロードすることと、
    ソーシャルネットワーキングについてイベントの前記オーディオ記録を共有することと
    をさらに含む、請求項1に記載の方法。
  7. ソーシャルウェブサイトにわたって前記オーディオ記録上の議論トピックをリンクすることをさらに含む、請求項1に記載の方法。
  8. 前記収集するステップは、前記モバイルデバイスに通信可能に結合された前記マイクロホンにより、前記トリガイベントに応答して音響データを自動的および継続的に捕捉することを含み、前記提示するステップは、前記地図および前記音響データと関連付けられたトピックを提示することを含む、請求項1に記載の方法。
  9. 前記音響データ内の音声を前記地図上の前記場所情報と関連付けることと、
    話された言葉の音声起動に応答して前記音声に関する前記地図中のコンテンツを検索することと
    をさらに含む、請求項8に記載の方法。
  10. 前記トピックに関する音響情報について音響データベースを検索することと、前記トピックに関する他のユーザにより前記地図に投稿される情報を提供することとをさらに含む、請求項8に記載の方法。
  11. ソーシャルウェブサイトにわたって前記地図上のトピックをリンクすることをさらに含む、請求項8に記載の方法。
  12. 場所およびユーザ体験情報を含むメタデータで捕捉された音響データをタグ付けし、カタログに入れることをさらに含む、請求項8に記載の方法。
  13. 前記トリガイベントは、場所イベント、音声シグネチャ検出イベントまたは音声起動イベントのうちの1つである、請求項8に記載の方法。
  14. 前記トリガイベントは、音声シグネチャ検出イベントである、請求項8に記載の方法。
  15. 前記トリガイベントは、音声起動イベントである、請求項8に記載の方法。
  16. 検索可能な音声コンテンツを用いて生成または更新されたリアルタイムの3次元音響地図を作成するステップをさらに含む、請求項1に記載の方法。
  17. 環境内のユーザ体験に関連する前記音響信号内の音声情報を識別することと、
    前記収集することに関連付けられたトピック、トリガイベント、時間および場所を含めることによって、前記音声情報をタグ付けし、前記音声情報を前記ユーザ体験と関連付けることにより、タグ付けされた音声データを生成することと、
    前記トピック、トリガイベント、時間および場所に従って検索可能な音声コンテンツを作成するために、前記タグ付けされた音声データをインデックス付けし、カタログに入れることと
    をさらに含む、請求項1に記載の方法。
  18. 前記トリガイベントは、加速度および速度、温度、大気測定、風速、水分レベル、臭気、化合物、生物学的情報、音波音声シグネチャ、ガウス混合モデル分析に基づく音波シグネチャ、所定の期間にわたって所定の閾値を上回る平均音圧レベル、または、所定の量を上回る音圧レベルの差分変化のうちの1つ以上を含む、請求項17に記載の方法。
  19. 前記トリガイベントは、所定の期間、または音圧レベル、またはGPS情報、時刻、移動の検出のうちの1つ以上を含む、請求項17に記載の方法。
  20. 前記音声情報をタグ付けし、前記音声情報を前記ユーザ体験と関連付けることは、特定の場所における音響スナップショットを生成する、請求項17に記載の方法。
JP2014132121A 2008-09-16 2014-06-27 音声ライブラリおよび方法 Pending JP2014222523A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US9739608P 2008-09-16 2008-09-16
US61/097,396 2008-09-16

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2011527055A Division JP2012504251A (ja) 2008-09-16 2009-09-16 音声ライブラリおよび方法

Publications (1)

Publication Number Publication Date
JP2014222523A true JP2014222523A (ja) 2014-11-27

Family

ID=42040098

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2011527055A Pending JP2012504251A (ja) 2008-09-16 2009-09-16 音声ライブラリおよび方法
JP2014132121A Pending JP2014222523A (ja) 2008-09-16 2014-06-27 音声ライブラリおよび方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2011527055A Pending JP2012504251A (ja) 2008-09-16 2009-09-16 音声ライブラリおよび方法

Country Status (4)

Country Link
US (2) US9253560B2 (ja)
EP (1) EP2327271A4 (ja)
JP (2) JP2012504251A (ja)
WO (1) WO2010033533A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019235134A1 (ja) * 2018-06-07 2019-12-12 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Families Citing this family (173)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8983677B2 (en) * 2008-10-01 2015-03-17 Honeywell International Inc. Acoustic fingerprinting of mechanical devices
US20100082180A1 (en) * 2008-10-01 2010-04-01 Honeywell International Inc. Errant vehicle countermeasures
GB2466242B (en) * 2008-12-15 2013-01-02 Audio Analytic Ltd Sound identification systems
US8588880B2 (en) 2009-02-16 2013-11-19 Masimo Corporation Ear sensor
US9009132B2 (en) * 2010-03-05 2015-04-14 The Dun & Bradstreet Corporation Location-aware business data retrieval
US8554731B2 (en) * 2010-03-31 2013-10-08 Microsoft Corporation Creating and propagating annotated information
US9736600B2 (en) * 2010-05-17 2017-08-15 Iii Holdings 4, Llc Devices and methods for collecting acoustic data
US8550206B2 (en) 2011-05-31 2013-10-08 Virginia Tech Intellectual Properties, Inc. Method and structure for achieving spectrum-tunable and uniform attenuation
US8311522B1 (en) 2010-09-28 2012-11-13 E.Digital Corporation System and method for managing mobile communications
US9390625B2 (en) * 2010-09-29 2016-07-12 Cyber Physical Systems, Inc. System and method for automatic traffic accident determination and notification
US8504062B2 (en) 2010-11-01 2013-08-06 Wavemarket, Inc. System and method for aggregating and associating mobile device location data
JP5937611B2 (ja) 2010-12-03 2016-06-22 シラス ロジック、インコーポレイテッド パーソナルオーディオデバイスにおける適応ノイズキャンセラの監視制御
US8908877B2 (en) 2010-12-03 2014-12-09 Cirrus Logic, Inc. Ear-coupling detection and adjustment of adaptive response in noise-canceling in personal audio devices
JP5333517B2 (ja) * 2011-05-26 2013-11-06 ヤマハ株式会社 データ処理装置およびプログラム
US9824677B2 (en) 2011-06-03 2017-11-21 Cirrus Logic, Inc. Bandlimiting anti-noise in personal audio devices having adaptive noise cancellation (ANC)
US9214150B2 (en) 2011-06-03 2015-12-15 Cirrus Logic, Inc. Continuous adaptation of secondary path adaptive response in noise-canceling personal audio devices
US8948407B2 (en) 2011-06-03 2015-02-03 Cirrus Logic, Inc. Bandlimiting anti-noise in personal audio devices having adaptive noise cancellation (ANC)
US9318094B2 (en) 2011-06-03 2016-04-19 Cirrus Logic, Inc. Adaptive noise canceling architecture for a personal audio device
US8958571B2 (en) 2011-06-03 2015-02-17 Cirrus Logic, Inc. MIC covering detection in personal audio devices
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
US20130070928A1 (en) * 2011-09-21 2013-03-21 Daniel P. W. Ellis Methods, systems, and media for mobile audio event recognition
US9325821B1 (en) 2011-09-30 2016-04-26 Cirrus Logic, Inc. Sidetone management in an adaptive noise canceling (ANC) system including secondary path modeling
US9384272B2 (en) 2011-10-05 2016-07-05 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for identifying similar songs using jumpcodes
US9299110B2 (en) * 2011-10-19 2016-03-29 Facebook, Inc. Periodic ambient waveform analysis for dynamic device configuration
US11599915B1 (en) 2011-10-25 2023-03-07 Auddia Inc. Apparatus, system, and method for audio based browser cookies
US20130254159A1 (en) * 2011-10-25 2013-09-26 Clip Interactive, Llc Apparatus, system, and method for digital audio services
US8666951B2 (en) * 2012-01-20 2014-03-04 International Business Machines Corporation Managing multiple versions of enterprise meta-models using semantic based indexing
US10445464B2 (en) 2012-02-17 2019-10-15 Location Labs, Inc. System and method for detecting medical anomalies using a mobile communication device
WO2013136118A1 (en) * 2012-03-14 2013-09-19 Nokia Corporation Spatial audio signal filtering
US9014387B2 (en) 2012-04-26 2015-04-21 Cirrus Logic, Inc. Coordinated control of adaptive noise cancellation (ANC) among earspeaker channels
US9319781B2 (en) 2012-05-10 2016-04-19 Cirrus Logic, Inc. Frequency and direction-dependent ambient sound handling in personal audio devices having adaptive noise cancellation (ANC)
US9318090B2 (en) 2012-05-10 2016-04-19 Cirrus Logic, Inc. Downlink tone detection and adaptation of a secondary path response model in an adaptive noise canceling system
US9123321B2 (en) 2012-05-10 2015-09-01 Cirrus Logic, Inc. Sequenced adaptation of anti-noise generator response and secondary path response in an adaptive noise canceling system
US20130317821A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Sparse signal detection with mismatched models
JP5904021B2 (ja) * 2012-06-07 2016-04-13 ソニー株式会社 情報処理装置、電子機器、情報処理方法、及びプログラム
EP2872079B1 (en) * 2012-07-16 2021-03-24 Valco Acquisition LLC as Designee of Wesley Holdings Ltd. Medical procedure monitoring system
US9069740B2 (en) * 2012-07-20 2015-06-30 Community-Based Innovation Systems Gmbh Computer implemented method for transformation between discussion documents and online discussion forums
US9532139B1 (en) 2012-09-14 2016-12-27 Cirrus Logic, Inc. Dual-microphone frequency amplitude response self-calibration
US20140086419A1 (en) * 2012-09-27 2014-03-27 Manjit Rana Method for capturing and using audio or sound signatures to analyse vehicle accidents and driver behaviours
US9369798B1 (en) 2013-03-12 2016-06-14 Cirrus Logic, Inc. Internal dynamic range control in an adaptive noise cancellation (ANC) system
US9414150B2 (en) 2013-03-14 2016-08-09 Cirrus Logic, Inc. Low-latency multi-driver adaptive noise canceling (ANC) system for a personal audio device
EP3042377B1 (en) * 2013-03-15 2023-01-11 Xmos Inc. Method and system for generating advanced feature discrimination vectors for use in speech recognition
US9502020B1 (en) * 2013-03-15 2016-11-22 Cirrus Logic, Inc. Robust adaptive noise canceling (ANC) in a personal audio device
US9208771B2 (en) 2013-03-15 2015-12-08 Cirrus Logic, Inc. Ambient noise-based adaptation of secondary path adaptive response in noise-canceling personal audio devices
US9521480B2 (en) 2013-07-31 2016-12-13 Natan Bauman Variable noise attenuator with adjustable attenuation
US10748529B1 (en) * 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10045133B2 (en) 2013-03-15 2018-08-07 Natan Bauman Variable sound attenuator with hearing aid
US9333116B2 (en) 2013-03-15 2016-05-10 Natan Bauman Variable sound attenuator
US10206032B2 (en) 2013-04-10 2019-02-12 Cirrus Logic, Inc. Systems and methods for multi-mode adaptive noise cancellation for audio headsets
US9462376B2 (en) 2013-04-16 2016-10-04 Cirrus Logic, Inc. Systems and methods for hybrid adaptive noise cancellation
US9478210B2 (en) 2013-04-17 2016-10-25 Cirrus Logic, Inc. Systems and methods for hybrid adaptive noise cancellation
US9460701B2 (en) 2013-04-17 2016-10-04 Cirrus Logic, Inc. Systems and methods for adaptive noise cancellation by biasing anti-noise level
US9578432B1 (en) 2013-04-24 2017-02-21 Cirrus Logic, Inc. Metric and tool to evaluate secondary path design in adaptive noise cancellation systems
WO2014190496A1 (en) * 2013-05-28 2014-12-04 Thomson Licensing Method and system for identifying location associated with voice command to control home appliance
US9392364B1 (en) 2013-08-15 2016-07-12 Cirrus Logic, Inc. Virtual microphone for adaptive noise cancellation in personal audio devices
US9666176B2 (en) 2013-09-13 2017-05-30 Cirrus Logic, Inc. Systems and methods for adaptive noise cancellation by adaptively shaping internal white noise to train a secondary path
US9620101B1 (en) 2013-10-08 2017-04-11 Cirrus Logic, Inc. Systems and methods for maintaining playback fidelity in an audio system with adaptive noise cancellation
US9704472B2 (en) 2013-12-10 2017-07-11 Cirrus Logic, Inc. Systems and methods for sharing secondary path information between audio channels in an adaptive noise cancellation system
US10219071B2 (en) 2013-12-10 2019-02-26 Cirrus Logic, Inc. Systems and methods for bandlimiting anti-noise in personal audio devices having adaptive noise cancellation
US10382864B2 (en) 2013-12-10 2019-08-13 Cirrus Logic, Inc. Systems and methods for providing adaptive playback equalization in an audio device
US20150223000A1 (en) * 2014-02-04 2015-08-06 Plantronics, Inc. Personal Noise Meter in a Wearable Audio Device
GB201401917D0 (en) * 2014-02-04 2014-03-19 Chen Dabo Event detection systems and methods for and enclosed environment
US9402155B2 (en) * 2014-03-03 2016-07-26 Location Labs, Inc. System and method for indicating a state of a geographic area based on mobile device sensor measurements
US9369557B2 (en) 2014-03-05 2016-06-14 Cirrus Logic, Inc. Frequency-dependent sidetone calibration
US9479860B2 (en) 2014-03-07 2016-10-25 Cirrus Logic, Inc. Systems and methods for enhancing performance of audio transducer based on detection of transducer status
US9524731B2 (en) 2014-04-08 2016-12-20 Doppler Labs, Inc. Active acoustic filter with location-based filter characteristics
US9736264B2 (en) 2014-04-08 2017-08-15 Doppler Labs, Inc. Personal audio system using processing parameters learned from user feedback
US9557960B2 (en) 2014-04-08 2017-01-31 Doppler Labs, Inc. Active acoustic filter with automatic selection of filter parameters based on ambient sound
US9560437B2 (en) 2014-04-08 2017-01-31 Doppler Labs, Inc. Time heuristic audio control
US9825598B2 (en) 2014-04-08 2017-11-21 Doppler Labs, Inc. Real-time combination of ambient audio and a secondary audio source
US9648436B2 (en) 2014-04-08 2017-05-09 Doppler Labs, Inc. Augmented reality sound system
US9319784B2 (en) 2014-04-14 2016-04-19 Cirrus Logic, Inc. Frequency-shaped noise-based adaptation of secondary path adaptive response in noise-canceling personal audio devices
US9275645B2 (en) * 2014-04-22 2016-03-01 Droneshield, Llc Drone detection and classification methods and apparatus
US9520142B2 (en) 2014-05-16 2016-12-13 Alphonso Inc. Efficient apparatus and method for audio signature generation using recognition history
US10759442B2 (en) * 2014-05-30 2020-09-01 Here Global B.V. Dangerous driving event reporting
US10181315B2 (en) 2014-06-13 2019-01-15 Cirrus Logic, Inc. Systems and methods for selectively enabling and disabling adaptation of an adaptive noise cancellation system
US9357320B2 (en) * 2014-06-24 2016-05-31 Harmon International Industries, Inc. Headphone listening apparatus
US9639854B2 (en) 2014-06-26 2017-05-02 Nuance Communications, Inc. Voice-controlled information exchange platform, such as for providing information to supplement advertising
KR101660671B1 (ko) * 2014-07-24 2016-09-27 고어텍 인크 이어폰에 적용되는 심박수 검출 방법 및 심박수 검출이 가능한 이어폰
US9913099B2 (en) 2014-08-06 2018-03-06 Mobile Video Computing Solutions, LLC Crash event detection, response and reporting apparatus and method
US10623899B2 (en) 2014-08-06 2020-04-14 Mobile Video Computing Solutions Llc Crash event detection, response and reporting apparatus and method
US9628975B1 (en) * 2014-08-06 2017-04-18 Mobile Video Computing Solutions Llc Crash event detection, response and reporting apparatus and method
US11051127B2 (en) 2014-08-06 2021-06-29 Mobile Video Computing Solutions Holdings Llc Communications hub for crash event detection, response, and reporting system
CN106797512B (zh) * 2014-08-28 2019-10-25 美商楼氏电子有限公司 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质
US10078703B2 (en) * 2014-08-29 2018-09-18 Microsoft Technology Licensing, Llc Location-based media searching and sharing
US9478212B1 (en) 2014-09-03 2016-10-25 Cirrus Logic, Inc. Systems and methods for use of adaptive secondary path estimate to control equalization in an audio device
CN105940435B (zh) * 2014-09-12 2018-10-19 微软技术许可有限责任公司 测量并诊断城市环境中的噪音的方法和系统
KR102226817B1 (ko) * 2014-10-01 2021-03-11 삼성전자주식회사 콘텐츠 재생 방법 및 그 방법을 처리하는 전자 장치
US9837068B2 (en) * 2014-10-22 2017-12-05 Qualcomm Incorporated Sound sample verification for generating sound detection model
US9552805B2 (en) 2014-12-19 2017-01-24 Cirrus Logic, Inc. Systems and methods for performance and stability control for feedback adaptive noise cancellation
GB2535167B (en) * 2015-02-09 2017-03-29 24 Acoustics Ltd Audio signal processing apparatus, client device, system and method
WO2016145283A2 (en) * 2015-03-11 2016-09-15 Howloud, Inc. System for sound evaluation in a designated area
US9805739B2 (en) * 2015-05-15 2017-10-31 Google Inc. Sound event detection
KR20170002117A (ko) * 2015-06-29 2017-01-06 엘지전자 주식회사 전자 디바이스 및 그 제어방법
US9457754B1 (en) * 2015-07-13 2016-10-04 State Farm Mutual Automobile Insurance Company Method and system for identifying vehicle collisions using sensor data
US10063970B2 (en) * 2015-08-12 2018-08-28 Toyota Motor Engineering & Manufacturing North America, Inc. Audio system with removable speaker
US10026388B2 (en) 2015-08-20 2018-07-17 Cirrus Logic, Inc. Feedback adaptive noise cancellation (ANC) controller and method having a feedback response partially provided by a fixed-response filter
US9578415B1 (en) 2015-08-21 2017-02-21 Cirrus Logic, Inc. Hybrid adaptive noise cancellation system with filtered error microphone signal
US11477560B2 (en) 2015-09-11 2022-10-18 Hear Llc Earplugs, earphones, and eartips
JP6759545B2 (ja) * 2015-09-15 2020-09-23 ヤマハ株式会社 評価装置およびプログラム
US10157333B1 (en) 2015-09-15 2018-12-18 Snap Inc. Systems and methods for content tagging
US9715366B2 (en) 2015-09-16 2017-07-25 International Business Machines Corporation Digital map of a physical location based on a user's field of interest and a specific sound pattern
US9959737B2 (en) 2015-11-03 2018-05-01 Sigh, LLC System and method for generating an alert based on noise
US9899035B2 (en) 2015-11-04 2018-02-20 Ioannis Kakadiaris Systems for and methods of intelligent acoustic monitoring
US9678709B1 (en) * 2015-11-25 2017-06-13 Doppler Labs, Inc. Processing sound using collective feedforward
US11145320B2 (en) * 2015-11-25 2021-10-12 Dolby Laboratories Licensing Corporation Privacy protection in collective feedforward
US9584899B1 (en) 2015-11-25 2017-02-28 Doppler Labs, Inc. Sharing of custom audio processing parameters
US10853025B2 (en) 2015-11-25 2020-12-01 Dolby Laboratories Licensing Corporation Sharing of custom audio processing parameters
US9703524B2 (en) 2015-11-25 2017-07-11 Doppler Labs, Inc. Privacy protection in collective feedforward
US10062395B2 (en) * 2015-12-03 2018-08-28 Loop Labs, Inc. Spectral recognition of percussive sounds
US20170161382A1 (en) * 2015-12-08 2017-06-08 Snapchat, Inc. System to correlate video data and contextual data
US9843877B2 (en) * 2015-12-31 2017-12-12 Ebay Inc. Sound recognition
US10631108B2 (en) 2016-02-08 2020-04-21 K/S Himpp Hearing augmentation systems and methods
US10433074B2 (en) * 2016-02-08 2019-10-01 K/S Himpp Hearing augmentation systems and methods
US10390155B2 (en) 2016-02-08 2019-08-20 K/S Himpp Hearing augmentation systems and methods
US10284998B2 (en) 2016-02-08 2019-05-07 K/S Himpp Hearing augmentation systems and methods
US10341791B2 (en) 2016-02-08 2019-07-02 K/S Himpp Hearing augmentation systems and methods
US10750293B2 (en) 2016-02-08 2020-08-18 Hearing Instrument Manufacture Patent Partnership Hearing augmentation systems and methods
US11475746B2 (en) * 2016-03-15 2022-10-18 Motorola Solutions, Inc. Method and apparatus for camera activation
US11334768B1 (en) 2016-07-05 2022-05-17 Snap Inc. Ephemeral content management
US10629224B1 (en) 2016-07-28 2020-04-21 United Services Automobile Association (Usaa) Vehicle sound analysis
US9934785B1 (en) * 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
US10531220B2 (en) * 2016-12-05 2020-01-07 Magic Leap, Inc. Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems
US20180254054A1 (en) * 2017-03-02 2018-09-06 Otosense Inc. Sound-recognition system based on a sound language and associated annotations
US20180268844A1 (en) * 2017-03-14 2018-09-20 Otosense Inc. Syntactic system for sound recognition
US9986405B1 (en) * 2017-03-16 2018-05-29 International Business Machines Corporation Context-dependent emergency situation report
US10565214B2 (en) 2017-03-22 2020-02-18 Bank Of America Corporation Intelligent database control systems with automated request assessments
US20180307753A1 (en) * 2017-04-21 2018-10-25 Qualcomm Incorporated Acoustic event enabled geographic mapping
US10242674B2 (en) * 2017-08-15 2019-03-26 Sony Interactive Entertainment Inc. Passive word detection with sound effects
EP3445065B1 (en) * 2017-08-16 2020-10-07 Honeywell International Inc. Use of hearing protection to discriminate between different noises and identify individual noise sources to control and reduce risk of noise induced hearing loss
CN111194443A (zh) 2017-09-05 2020-05-22 肖氏工业集团公司 可听声学性能工具
US10888783B2 (en) 2017-09-20 2021-01-12 Sony Interactive Entertainment Inc. Dynamic modification of audio playback in games
US10048973B1 (en) * 2017-09-22 2018-08-14 Harman International Industries, Incorporated Sequential activity intelligent personal assistant
TWI642291B (zh) * 2017-09-22 2018-11-21 淡江大學 基於區塊的主成分分析轉換方法及其裝置
US10289434B2 (en) * 2017-09-22 2019-05-14 Harman International Industries, Incorporated Sequential activity intelligent personal assistant
US10661175B2 (en) 2017-09-26 2020-05-26 Sony Interactive Entertainment Inc. Intelligent user-based game soundtrack
US11272308B2 (en) 2017-09-29 2022-03-08 Apple Inc. File format for spatial audio
US11128977B2 (en) 2017-09-29 2021-09-21 Apple Inc. Spatial audio downmixing
US10672380B2 (en) 2017-12-27 2020-06-02 Intel IP Corporation Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
KR102629424B1 (ko) 2018-01-25 2024-01-25 삼성전자주식회사 보안 기능을 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법
KR102530391B1 (ko) * 2018-01-25 2023-05-09 삼성전자주식회사 외부 인터럽트를 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법
CA3091328A1 (en) 2018-02-15 2019-08-22 Johnson Controls Fire Protection LP Gunshot detection system with fire alarm system integration
US10549719B2 (en) 2018-02-22 2020-02-04 Zubie, Inc. OBD device vehicle security alarm detection
US10740389B2 (en) 2018-04-12 2020-08-11 Microsoft Technology Licensing, KKC Remembering audio traces of physical actions
US10685663B2 (en) * 2018-04-18 2020-06-16 Nokia Technologies Oy Enabling in-ear voice capture using deep learning
US11488590B2 (en) * 2018-05-09 2022-11-01 Staton Techiya Llc Methods and systems for processing, storing, and publishing data collected by an in-ear device
US10741037B2 (en) * 2018-05-16 2020-08-11 Avaya Inc. Method and system for detecting inaudible sounds
US10880663B1 (en) * 2018-06-20 2020-12-29 Columbia Insurance Company Methods and systems for sound file creation
JP7146240B2 (ja) * 2018-06-25 2022-10-04 株式会社パロマ ガスコンロ
US11100918B2 (en) 2018-08-27 2021-08-24 American Family Mutual Insurance Company, S.I. Event sensing system
CN109186745A (zh) * 2018-09-02 2019-01-11 安徽省通途信息技术有限公司 一种居住环境噪声检测评定系统
US10800409B2 (en) * 2018-09-04 2020-10-13 Caterpillar Paving Products Inc. Systems and methods for operating a mobile machine using detected sounds
JP2022001967A (ja) * 2018-09-11 2022-01-06 ソニーグループ株式会社 音響イベント認識装置
US11408988B2 (en) 2018-09-24 2022-08-09 Howden Alphair Ventilating Systems Inc. System and method for acoustic vehicle location tracking
CN111724811B (zh) * 2019-03-21 2023-01-24 成都鼎桥通信技术有限公司 基于亚音频的啸叫识别方法及设备
US11115765B2 (en) 2019-04-16 2021-09-07 Biamp Systems, LLC Centrally controlling communication at a venue
WO2020226001A1 (ja) * 2019-05-08 2020-11-12 ソニー株式会社 情報処理装置および情報処理方法
US11215500B2 (en) * 2019-06-01 2022-01-04 Apple Inc. Environmental and aggregate acoustic dosimetry
US11499865B2 (en) 2019-06-01 2022-11-15 Apple Inc. Environmental acoustic dosimetry with water event detection
CN110225202A (zh) * 2019-06-11 2019-09-10 深圳市锐尔觅移动通信有限公司 音频流的处理方法、装置、移动终端及存储介质
US10831824B1 (en) * 2019-07-01 2020-11-10 Koye Corp. Audio segment based and/or compilation based social networking platform
US11568731B2 (en) * 2019-07-15 2023-01-31 Apple Inc. Systems and methods for identifying an acoustic source based on observed sound
US11276418B2 (en) 2019-09-12 2022-03-15 International Business Machines Corporation Acoustic signature generation by embedding user sentiments
US11857880B2 (en) 2019-12-11 2024-01-02 Synapticats, Inc. Systems for generating unique non-looping sound streams from audio clips and audio tracks
US20210193165A1 (en) * 2019-12-18 2021-06-24 Audio Analytic Ltd Computer apparatus and method implementing combined sound recognition and location sensing
US11468116B2 (en) * 2019-12-19 2022-10-11 Google Llc Place search by audio signals
KR102260466B1 (ko) * 2020-06-19 2021-06-03 주식회사 코클리어닷에이아이 오디오 인식을 활용한 라이프로그 장치 및 그 방법
US12073319B2 (en) * 2020-07-27 2024-08-27 Google Llc Sound model localization within an environment
US11670322B2 (en) 2020-07-29 2023-06-06 Distributed Creation Inc. Method and system for learning and using latent-space representations of audio signals for audio content-based retrieval
JP7347368B2 (ja) * 2020-08-20 2023-09-20 トヨタ自動車株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
US11694692B2 (en) 2020-11-11 2023-07-04 Bank Of America Corporation Systems and methods for audio enhancement and conversion
EP4006856A1 (en) * 2020-11-30 2022-06-01 Unify Patente GmbH & Co. KG Computer-implemented method and system for the triggering of an alarm in an emergency communication system
US11594242B2 (en) * 2021-05-03 2023-02-28 Gulfstream Aerospace Corporation Noise event location and classification in an enclosed area

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004363871A (ja) * 2003-06-04 2004-12-24 Nippon Telegr & Teleph Corp <Ntt> データ保存装置とその方法、及びそのプログラムとそのプログラムを記録した記録媒体
JP2006092381A (ja) * 2004-09-27 2006-04-06 Hitachi Ltd メディアマイニング方法
JP2006211562A (ja) * 2005-01-31 2006-08-10 Advanced Telecommunication Research Institute International 音声メモシステム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400652B1 (en) * 1998-12-04 2002-06-04 At&T Corp. Recording system having pattern recognition
US20050038819A1 (en) * 2000-04-21 2005-02-17 Hicken Wendell T. Music Recommendation system and method
GB2366033B (en) * 2000-02-29 2004-08-04 Ibm Method and apparatus for processing acquired data and contextual information and associating the same with available multimedia resources
JP2001285526A (ja) * 2000-03-31 2001-10-12 Nec Corp 双方向コミュニケーションシステム
US20030051447A1 (en) * 2001-09-19 2003-03-20 Bruce Allison E. Apparatus and method for properly selecting and fitting articles to animals
JP2003244691A (ja) * 2002-02-20 2003-08-29 Matsushita Electric Ind Co Ltd 記憶支援システム
US7222245B2 (en) * 2002-04-26 2007-05-22 Hewlett-Packard Development Company, L.P. Managing system power based on utilization statistics
US20040122672A1 (en) * 2002-12-18 2004-06-24 Jean-Francois Bonastre Gaussian model-based dynamic time warping system and method for speech processing
JP2004356970A (ja) * 2003-05-29 2004-12-16 Casio Comput Co Ltd ウエアラブルカメラの撮影方法、撮像装置、及び撮影制御プログラム
JP2005129975A (ja) * 2003-10-21 2005-05-19 Hitachi Ltd 情報記録再生装置
US20050255826A1 (en) * 2004-05-12 2005-11-17 Wittenburg Kent B Cellular telephone based surveillance system
JP2006031379A (ja) 2004-07-15 2006-02-02 Sony Corp 情報提示装置及び情報提示方法
JP4686160B2 (ja) * 2004-10-04 2011-05-18 沖コンサルティングソリューションズ株式会社 会話記録装置および会話記録方法
US7348895B2 (en) * 2004-11-03 2008-03-25 Lagassey Paul J Advanced automobile accident detection, data recordation and reporting system
DE602007011594D1 (de) * 2006-04-27 2011-02-10 Dolby Lab Licensing Corp Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke
US20070257782A1 (en) * 2006-05-08 2007-11-08 Drivecam, Inc. System and Method for Multi-Event Capture
US8301621B2 (en) * 2006-11-07 2012-10-30 At&T Intellectual Property I, L.P. Topic map for navigational control
US7983426B2 (en) * 2006-12-29 2011-07-19 Motorola Mobility, Inc. Method for autonomously monitoring and reporting sound pressure level (SPL) exposure for a user of a communication device
WO2008095167A2 (en) * 2007-02-01 2008-08-07 Personics Holdings Inc. Method and device for audio recording
WO2008103925A1 (en) 2007-02-22 2008-08-28 Personics Holdings Inc. Method and device for sound detection and audio control
US8650030B2 (en) * 2007-04-02 2014-02-11 Google Inc. Location based responses to telephone requests
US8137283B2 (en) * 2008-08-22 2012-03-20 International Business Machines Corporation Method and apparatus for retrieval of similar heart sounds from a database

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004363871A (ja) * 2003-06-04 2004-12-24 Nippon Telegr & Teleph Corp <Ntt> データ保存装置とその方法、及びそのプログラムとそのプログラムを記録した記録媒体
JP2006092381A (ja) * 2004-09-27 2006-04-06 Hitachi Ltd メディアマイニング方法
JP2006211562A (ja) * 2005-01-31 2006-08-10 Advanced Telecommunication Research Institute International 音声メモシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019235134A1 (ja) * 2018-06-07 2019-12-12 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Also Published As

Publication number Publication date
WO2010033533A2 (en) 2010-03-25
US20160150333A1 (en) 2016-05-26
US9602938B2 (en) 2017-03-21
US20100142715A1 (en) 2010-06-10
US9253560B2 (en) 2016-02-02
JP2012504251A (ja) 2012-02-16
EP2327271A4 (en) 2013-11-27
EP2327271A2 (en) 2011-06-01
WO2010033533A3 (en) 2011-12-29

Similar Documents

Publication Publication Date Title
US9602938B2 (en) Sound library and method
US11589329B1 (en) Information processing using a population of data acquisition devices
US20190391999A1 (en) Methods And Systems For Searching Utilizing Acoustical Context
Bello et al. Sound analysis in smart cities
US12014616B2 (en) System and method for generating an alert based on noise
US11521598B2 (en) Systems and methods for classifying sounds
US10275210B2 (en) Privacy protection in collective feedforward
JP2012504251A5 (ja)
Pleva et al. The joint database of audio events and backgrounds for monitoring of urban areas
CN108370457B (zh) 个人音频系统、声音处理系统及相关方法
US20230072905A1 (en) Managing event notifications
Kay et al. Awareness system for headphone users
AU2011351935A1 (en) Information processing using a population of data acquisition devices

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150529

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20151224