JP2014517939A

JP2014517939A - モバイルデバイスにおけるオーディオデータ収集プライバシーを保護すること

Info

Publication number: JP2014517939A
Application number: JP2014512870A
Authority: JP
Inventors: グロコップ、レオナルド・エイチ．; ナラヤナン、ビドゥヤ; ドルター、ジェームズ・ダブリュ．; ナンダ、サンジブ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2011-05-23
Filing date: 2012-05-14
Publication date: 2014-07-24
Anticipated expiration: 2032-05-14
Also published as: EP2715722A1; KR20140021681A; WO2012162009A1; KR101580510B1; JP5937202B2; US20140172424A1; CN103620680A; US8700406B2; US20120303360A1; CN103620680B; EP2715722B1

Abstract

オーディオデータを使用したコンテキストアウェアネスアプリケーションによってコンテキスト判断が行われる前に、オーディオデータ中の音声を不明瞭にするためにモバイルデバイスのハードウェアおよび／またはソフトウェアを使用するための技法を開示する。特に、収集されたオーディオから音声（単語、句および文）が確実に再構成され得ないように、連続オーディオストリームのサブセットがキャプチャされる。サブセットはオーディオ特性について分析され、周囲環境に関する判断が行われ得る。

Description

関連出願の相互参照
本出願は、そのすべてがすべての目的のために参照により本明細書に組み込まれる、２０１１年５月２３日に出願された「PRESERVING AUDIO DATA COLLECTION PRIVACY IN MOBILE DEVICES」と題する米国仮特許出願第６１／４８８，９２７号、代理人整理番号第１１１１７４Ｐ１号の優先権を主張する。本出願はまた、そのすべてがすべての目的のために参照により本明細書に組み込まれる、２０１１年８月１９日に出願された「PRESERVING AUDIO DATA COLLECTION PRIVACY IN MOBILE DEVICES」と題する米国特許出願第１３／２１３，２９４号、代理人整理番号第１１１１７４号の優先権を主張する。

モバイルデバイスは、今日の社会において信じられないほど普及している。たとえば、人々は、セルラーフォン、スマートフォン、携帯情報端末、ラップトップコンピュータ、ページャ、タブレットコンピュータなどを使用して、無数のロケーションからデータをワイヤレスに送信および受信する。さらに、ワイヤレス通信技術の進歩は、今日のモバイルデバイスの汎用性を大幅に高め、ユーザは、従来は複数のデバイスまたはより大きい非ポータブル機器のいずれかを必要とした広範囲のタスクを単一のポータブルデバイスから実行することが可能になった。

たとえば、モバイルデバイスは、コンテキスト判断と呼ばれるプロセスを通して、モバイルデバイスユーザがどんな環境（たとえば、レストラン、車、公園、空港など）にあり得るかを判断するように構成され得る。そのようなコンテキスト判断を実行するコンテキストアウェアネスアプリケーションは、ＧＰＳ、ＷｉＦｉおよびＢｌｕｅＴｏｏｔｈ（登録商標）など、モバイルデバイスのセンサー入力からの情報を利用することによってモバイルデバイスの環境を判断しようとする。多くのシナリオでは、モバイルデバイスのマイクロフォンからのオーディオを分類することは、コンテキスト判断を行う際に極めて有益であるが、音声を含み得るオーディオを収集するプロセスはプライバシー問題を引き起こすことがある。

本明細書で開示する技法は、オーディオデータを使用したコンテキストアウェアネスアプリケーションによってコンテキスト判断が行われる前に、オーディオデータ中の音声を不明瞭にするためにモバイルデバイスのハードウェアおよび／またはソフトウェアを使用することを提供する。特に、収集されたオーディオから音声（単語、句および文）が確実に再構成され得ないように、連続オーディオストリームのサブセットがキャプチャされる。サブセットはオーディオ特性について分析され、周囲環境に関する判断が行われ得る。

いくつかの実施形態では、プライバシー敏感オーディオ分析の方法を提示する。本方法は、連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャすることを含み得る。連続オーディオストリームは人間音声を含んでいることがある。オーディオデータのサブセットは人間音声の成分を不明瞭にし得る。本方法は、オーディオ特性についてオーディオデータのサブセットを分析することを含み得る。本方法は、オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うことを含み得る。

そのような方法の実施形態は、以下のうちの１つまたは複数を含み得る。オーディオデータのサブセットは、了解性忠実度をもって連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する連続オーディオストリームの計算された関数を備え得る。オーディオデータのサブセットは複数のオーディオデータセグメントを備え得、各オーディオデータセグメントは、連続オーディオストリームの異なる時間成分からのデータを備える。本方法は、オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うことを含み得る。複数のオーディオデータセグメントは、３０ｍｓ〜１００ｍｓの記録されたオーディオを備え得る。連続オーディオストリームの各時間成分は、長さが２５０ｍｓ〜２ｓであり得る。本方法は、オーディオデータのサブセットを分析する前に、複数のオーディオデータセグメントの順序をランダムに変更することを含み得る。複数のオーディオデータセグメントの順序をランダムに変更することは、地球測位システム（ＧＰＳ）デバイスと、モバイルデバイス内の回路からの信号雑音と、マイクロフォンからの信号雑音と、アンテナからの信号雑音とのうちの１つからの情報に少なくとも部分的に基づき得る。

いくつかの実施形態では、プライバシー敏感オーディオを不明瞭にするためのデバイスを提示する。本デバイスはマイクロフォンを含み得る。本デバイスは、マイクロフォンに通信可能に結合された処理ユニットを含み得る。処理ユニットは、マイクロフォンからの信号中に表される連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャするように構成され得る。連続オーディオストリームは人間音声を含んでいることがある。オーディオデータのサブセットは人間音声の成分を不明瞭にし得る。処理ユニットは、オーディオ特性についてオーディオデータのサブセットを分析するように構成され得る。処理ユニットは、オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うように構成され得る。

そのようなデバイスの実施形態は、以下のうちの１つまたは複数を含み得る。オーディオデータのサブセットは、了解性忠実度をもって連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する連続オーディオストリームの計算された関数を備え得る。オーディオデータのサブセットは複数のオーディオデータセグメントを備え得、各オーディオデータセグメントは、連続オーディオストリームの異なる時間成分からのデータを備える。処理ユニットは、オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うように構成され得る。複数のオーディオデータセグメントの各々は、３０ｍｓ〜１００ｍｓの記録されたオーディオを備え得る。連続オーディオストリームの各時間成分は、長さが２５０ｍｓ〜２ｓであり得る。処理ユニットは、オーディオデータのサブセットを分析する前に、複数のオーディオデータセグメントの順序をランダムに変更するようにさらに構成される。複数のオーディオデータセグメントの順序をランダムに変更することは、地球測位システム（ＧＰＳ）デバイスと、モバイルデバイス内の回路からの信号雑音と、マイクロフォンからの信号雑音と、アンテナからの信号雑音とのうちの１つからの情報に少なくとも部分的に基づき得る。

いくつかの実施形態では、モバイルデバイスに関連する環境を判断するためのシステムを提示する。本システムは、連続オーディオストリームを受信するように構成されたオーディオセンサーを含み得る。本システムは、オーディオセンサーに結合された少なくとも１つの処理ユニットを含み得る。処理ユニットは、オーディオデータのサブセットが連続オーディオストリーム中に含まれる人間音声の成分を不明瞭にするように、連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャするように構成され得る。処理ユニットは、オーディオ特性についてオーディオデータのサブセットを分析するように構成され得る。処理ユニットは、オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うように構成され得る。

そのようなシステムの実施形態は、以下のうちの１つまたは複数を含み得る。本システムは、モバイルデバイスからリモートにあるロケーションに、ネットワークを介してオーディオデータのサブセットを表す情報を送るように構成されたネットワークインターフェースを含み得る。少なくとも１つの処理ユニットは、モバイルデバイスからリモートにあるロケーションにおいて周囲環境の判断を行うように構成され得る。オーディオデータのサブセットは複数のオーディオデータセグメントを備え得、各オーディオデータセグメントは、連続オーディオストリームの異なる時間成分からのデータを備える。少なくとも１つの処理ユニットは、オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うように構成され得る。複数のオーディオデータセグメントの各々は、３０ｍｓ〜１００ｍｓの記録されたオーディオを備え得る。連続オーディオストリームの各時間成分は、長さが２５０ｍｓ〜２ｓであり得る。処理ユニットは、オーディオデータのサブセットを分析する前に、複数のオーディオデータセグメントの順序をランダムに変更するようにさらに構成され得る。

いくつかの実施形態では、非一時的プロセッサ可読媒体上に常駐するコンピュータプログラム製品を提示する。非一時的プロセッサ可読媒体は、連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャすることをプロセッサに行わせるように構成されたプロセッサ可読命令を含む。連続オーディオストリームは人間音声を含んでいることがある。オーディオデータのサブセットは人間音声の成分を不明瞭にし得る。プロセッサ可読命令は、オーディオ特性についてオーディオデータのサブセットを分析することをプロセッサに行わせるように構成され得る。プロセッサ可読命令は、オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うことをプロセッサに行わせるように構成され得る。

そのようなコンピュータプログラム製品の実施形態は、以下のうちの１つまたは複数を含み得る。オーディオデータのサブセットは、了解性忠実度をもって連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する連続オーディオストリームの計算された関数を備え得る。オーディオデータのサブセットは複数のオーディオデータセグメントを備え得、各オーディオデータセグメントは、連続オーディオストリームの異なる時間成分からのデータを備える。プロセッサ可読命令は、オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うことをプロセッサに行わせるように構成され得る。複数のオーディオデータセグメントの各々は、３０ｍｓ〜１００ｍｓの記録されたオーディオを備え得る。連続オーディオストリームの各時間成分は、長さが２５０ｍｓ〜２ｓであり得る。プロセッサ可読命令は、オーディオデータのサブセットを分析する前に、複数のオーディオデータセグメントの順序をランダムに変更するように構成され得る。複数のオーディオデータセグメントの順序をランダムに変更するためのプロセッサ可読命令は、地球測位システム（ＧＰＳ）デバイスと、モバイルデバイス内の回路からの信号雑音と、マイクロフォンからの信号雑音と、アンテナからの信号雑音とのうちの１つからの情報に少なくとも部分的に基づく。

いくつかの実施形態では、プライバシー敏感オーディオを不明瞭にするためのデバイスを提示する。本デバイスは、マイクロフォンからの信号中に表される連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャするための手段を含み得る。連続オーディオストリームは人間音声を含んでいることがある。オーディオデータのサブセットは人間音声の成分を不明瞭にし得る。本デバイスは、オーディオ特性についてオーディオデータのサブセットを分析するための手段を含み得る。本デバイスは、オーディオ特性に少なくとも部分的に基づいて周囲環境を判断するための手段を含み得る。

そのようなデバイスの実施形態は、以下のうちの１つまたは複数を含み得る。オーディオデータのサブセットをキャプチャするための手段は、了解性忠実度をもって連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する連続オーディオストリームの計算された関数に従ってオーディオデータのサブセットをキャプチャするように構成され得る。オーディオデータのサブセットをキャプチャするための手段は、オーディオデータのサブセットが複数のオーディオデータセグメントを備え、各オーディオデータセグメントが、連続オーディオストリームの異なる時間成分からのデータを備えるように、オーディオデータのサブセットをキャプチャするように構成され得る。周囲環境を判断するための手段は、オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うように構成され得る。オーディオデータのサブセットをキャプチャするための手段は、複数のオーディオデータセグメントの各々が、３０ｍｓ〜１００ｍｓの記録されたオーディオを備えるように、オーディオデータのサブセットをキャプチャするように構成され得る。

本明細書で説明するアイテムおよび／または技法は、以下の機能、ならびに言及しない他の機能のうちの１つまたは複数を提供し得る。コンテキスト判断の精度にほとんどまたはまったく影響を与えることなしに、コンテキスト判断のために使用されるオーディオストリーム中に含まれ得る音声の成分を不明瞭にすること。最小処理リソースを使用して、リアルタイムで実行され得る比較的単純な方法を利用すること。コンテキスト判断において使用されるモデルの精度を改善するのを助けるために、（不明瞭にされた音声を有する）オーディオデータのサブセットをアップロードする能力を含むこと。少なくとも１つのアイテム／技法効果ペアについて説明したが、言及した効果は、言及した手段以外の手段によって実現されることが可能であり得、言及したアイテム／技法は、必ずしも言及した効果を生じ得るとは限らない。

以下の図を参照すれば、様々な実施形態の性質および利点の理解が促進され得る。添付の図において、同様の構成要素または特徴は同じ参照ラベルを有し得る。さらに、同じタイプの様々な構成要素は、参照ラベルの後に、ダッシュと、それらの同様の構成要素同士を区別する第２のラベルとを続けることによって区別され得る。第１の参照ラベルのみが明細書において使用される場合、その説明は、第２の参照ラベルにかかわらず、同じ第１の参照ラベルを有する同様の構成要素のうちのいずれか１つに適用可能である。

一実施形態による、コンテキストアウェアネスアプリケーションをサポートするように構成されたモバイルデバイスの基本構成要素の簡略ブロック図。音声のプライバシーを保証するのを助けると同時に、性能劣化のないモバイルデバイスの周囲環境を分類するために十分なオーディオ情報をキャプチャするためのプロセスの可視化を示す図。音声のプライバシーを保証するのを助けると同時に、性能劣化のないモバイルデバイスの周囲環境を分類するために十分なオーディオ情報をキャプチャするためのプロセスの可視化を示す図。音声のプライバシーを保証するのを助けると同時に、性能劣化のないモバイルデバイスの周囲環境を分類するために十分なオーディオ情報をキャプチャするためのプロセスの可視化を示す図。図２ｂおよび図２ｃに示した機能を提供するための方法の流れ図。図２ｂおよび図２ｃに示した機能を提供するための方法の流れ図。本明細書で説明するいくつかの処理方法から生じるオーディオデータから、音声認識器が単語のｎ字列（n-gram）を再構成する確率に対する上限を計算する分析の結果を示すグラフ。

図面を参照しながら以下の説明を行う。図面全体にわたって、同様の要素を指すのに同様の参照番号を使用する。本明細書では、１つまたは複数の技法の様々な詳細について説明するが、他の技法も可能である。いくつかの例では、様々な技法の説明を円滑にするために、よく知られている構造およびデバイスをブロック図の形態で示す。

携帯情報端末（ＰＤＡ）、モバイルフォン、タブレットコンピュータ、および他のパーソナル電子機器など、モバイルデバイスは、コンテキストアウェアネスアプリケーションが使用可能であり得る。これらのコンテキストアウェアネスアプリケーションは、たとえば、モバイルデバイスのユーザがどこにいるか、特に、そのユーザが何をしている可能性があるかを判断することができる。そのようなコンテキスト判断は、モバイルデバイスが、ユーザが車中にいると判断した後に自動車モードに入ること、またはユーザが映画館に入ったと判断したときにサイレントモードに入ることなど、追加の機能をユーザに与えることを可能にするのを助けることができる。

本明細書では、モバイルデバイスのコンテキスト判断のために使用されるオーディオ中でキャプチャされ得る音声におけるプライバシーを保護するための技法について説明する。より詳細には、オーディオデータのサブセットが、音声を含んでいることがある連続オーディオストリームからキャプチャされ得、それにより、サンプリングの性質は、連続オーディオストリーム中に含まれていることがある音声を不明瞭にする。しかしながら、サンプリングの性質はまた、モバイルデバイスの特定の周囲環境に関する判断などのコンテキスト判断が精度の低減をほとんどまたはまったく受けないように、連続オーディオストリームのいくつかのオーディオ特性を保護する。これらおよび他の技法について以下でさらに詳細に説明する。

図１は、一実施形態による、コンテキストアウェアネスを提供することができるモバイルデバイス１００のいくつかの構成要素を示す簡略ブロック図である。この図は一例であり、限定的なものではない。たとえば、モバイルデバイス１００は、簡単のために図１から省略される追加の構成要素（たとえば、ユーザインターフェース、アンテナ、ディスプレイなど）を含み得る。さらに、図示された構成要素は、モバイルデバイス１００の機能に応じて、組み合わせられるか、分離されるか、または省略され得る。

この実施形態では、モバイルデバイス１００はモバイルネットワークインターフェース１２０を含む。そのようなインターフェースは、モバイルキャリアと通信するためのハードウェア、ソフトウェア、および／またはファームウェアを含むことができる。モバイルネットワークインターフェース１２０は、高速パケットアクセス（ＨＳＰＡ：High Speed Packet Access）、ＥｎｈａｎｃｅｄＨＳＰＡ（ＨＳＰＡ＋）、３ＧＰＰＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ（ＬＴＥ）、および／またはモバイル通信のための他の規格を利用することができる。モバイルネットワークインターフェース１２０はまた、コンテキストアウェアネスアプリケーションにおいて有用であり得る、ロケーションデータなどのある情報を与えることができる。

さらに、モバイルデバイス１００は他の（１つまたは複数の）ワイヤレスインターフェース１７０を含むことができる。そのようなインターフェースは、ＩＥＥＥ８０２．１１（ＷｉＦｉ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、および／または他のワイヤレス技術を含むことができる。これらの（１つまたは複数の）ワイヤレスインターフェース１７０は、コンテキスト判断において使用され得るモバイルデバイス１００に情報を与えることができる。たとえば、（１つまたは複数の）ワイヤレスインターフェース１７０は、（１つまたは複数の）ワイヤレスインターフェース１７０のうちの１つまたは複数が接続されるワイヤレスネットワークの近似ロケーションを判断することによってロケーションに関する情報を与えることができる。追加または代替として、（１つまたは複数の）ワイヤレスインターフェース１７０は、モバイルデバイス１００が、モバイルデバイス１００のコンテキストを判断する際に有用な情報を与え得る、ワイヤレスヘッドセットおよび／またはマイクロフォンなど、他のデバイスと通信することを可能にすることができる。

モバイルデバイス１００はまた、全地球測位システム（ＧＰＳ）ユニット１６０、（１つまたは複数の）加速度計１３０、および／または他の（１つまたは複数の）センサー１５０を含むことができる。これらの追加の特徴は、ロケーション、配向、動き、温度、近接度などの情報を与えることができる。（１つまたは複数の）ワイヤレスインターフェース１７０の場合と同様に、これらの構成要素からの情報は、コンテキストアウェアネスアプリケーションがモバイルデバイス１００のコンテキストに関するコンテキスト判断を行うのを助けることができる。

モバイルデバイス１００はさらに（１つまたは複数の）分析／判断モジュール１１０を含むことができる。特に、（１つまたは複数の）分析／判断モジュール１１０は、それが通信可能に結合される様々な構成要素からセンサー情報を受信することができる。（１つまたは複数の）分析／判断モジュール１１０はまた、（１つまたは複数の）分析／判断モジュール１１０とは別個であり、および／または（１つまたは複数の）分析／判断モジュール１１０に組み込まれ得る、メモリ１８０に記憶された（コンテキストアウェアネスアプリケーションを含む）ソフトウェアを実行することができる。さらに、（１つまたは複数の）分析／判断モジュール１１０は、中央処理ユニット（ＣＰＵ）、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、および／または、特に、オーディオデータを分析し、その分析に基づいて判断を行うことが可能な手段を有する構成要素を含む、１つのまたは多数の処理デバイスを備えることができる。

ワイヤレスインターフェース１７０、ＧＰＳユニット１６０、（１つまたは複数の）加速度計１３０、および／または他の（１つまたは複数の）センサー１５０からの情報は、ユーザが、屋外にいるとき、識別可能なＷｉＦｉまたはＢｌｕｅＴｏｏｔｈアクセスポイントの近くにいるとき、歩行しているときなどのロケーションを判断するのを大いに支援することができるが、これらの構成要素には限界がある。多くのシナリオでは、それらは、環境および状況を判断するためにあまり有用でない。たとえば、これらの構成要素からの情報は、ユーザが会議中であるのか、自分のオフィスにいるのか、またはユーザが食品雑貨品店にいるのか、そのすぐ隣のジムにいるのかを区別する際にあまり有用でない。これらのシナリオなどでは、モバイルデバイス１００のオーディオキャプチャモジュール１４０（たとえば、（１つまたは複数の）マイクロフォンおよび／または他のオーディオキャプチャ手段）からの情報は、環境を分類するのを助けるために使用され得る極めて有益なオーディオデータを与え、ならびに音声が存在するかどうか、複数の話者が存在するかどうか、話者の識別情報などを判断することができる。

コンテキスト判断のためにモバイルデバイス１００によってオーディオデータをキャプチャするプロセスは、電話のメモリ１８０にオーディオデータを一時的におよび／または永続的に記憶することを含むことができる。しかしながら、明瞭な音声を含むオーディオデータのキャプチャはプライバシー問題を引き起こすことがある。事実上、モバイルデバイス１００が、承諾なしに、モバイルデバイス１００のユーザまたは別の人間からの音声をキャプチャする場合、連邦法、州法、および／または地域法が関係していることがある。これらの問題は、音声（単語、句および文）が、キャプチャされたオーディオデータから確実に再構成され得ないように、音声がキャプチャされる前にオーディオデータを前処理するために、モバイルデバイス１００のハードウェアおよび／またはソフトウェアを使用することによって緩和され得る。その上、前処理は、さらに、（たとえば、背景雑音からの）周囲環境、および／または音声、音楽、タイピング音などの存在など、オーディオデータの他のオーディオ特性の判断を可能にすることができる。

図２ａは、性能劣化のないモバイルデバイスおよび／またはユーザの状況／環境を分類するために十分なオーディオ情報をキャプチャするためのプロセスを可視化したものである。さらに、そのプロセスはまた、キャプチャされた情報から音声（単語、句および文）が確実に再構成され得ないことを保証するのを助けることができる。このプロセスは、入力オーディオストリームの次元数を低減することを伴う。言い換えれば、連続オーディオの入力ストリームのビット（すなわち、デジタルデータ）は、得られたオーディオストリームが、了解性忠実度をもって連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有するように低減される。したがって、次元数を低減することは、音声が再生不可能であることを保証するように設計された、計算された関数であり得る。

たとえば、連続オーディオストリームは、Ｔ_window秒持続するオーディオデータのウィンドウ２１０を備えることができる。ウィンドウ２１０は、複数のオーディオデータセグメントを有するものと見なされ得る。より詳細には、ウィンドウ２１０は、Ｎ個の時間成分、またはブロック２２０を備えることができ、各ブロック２２０は、Ｔ_block秒持続し、それぞれＴ_frame秒の複数のフレーム２３０を備える。マイクロフォン信号は、（データのＴ_frame秒をもつ）ただ１つのフレーム２３０がＴ_block秒のあらゆるブロック中で収集されるようにサンプリングされ得る。

Ｔ_frameおよびＴ_blockの値は、所望の機能に応じて変動することができる。一実施形態では、たとえば、Ｔ_frame＝５０ｍｓおよびＴ_block＝５００ｍｓであるが、これらの設定は、得られたオーディオ情報２４０ａを使用するコンテキスト判断の精度への影響がほとんどなしに大幅に変動することができる。たとえば、Ｔ_frameは３０ｍｓ未満から１００ｍｓ以上にわたることができ、Ｔ_blockは２５０ｍｓ未満から２０００ｍｓ（２ｓ）以上までにわたることができ、Ｔ_windowは、単一のブロックと同じくらい短く（たとえば、ウィンドウ当たり１つのブロック）、最高１分以上になり得る。異なるフレーム長、ブロック長、およびウィンドウ長は、ブロック２２０当たりのフレーム２３０の数とウィンドウ２１０当たりのブロック２２０の数とに影響を及ぼすことがある。

フレーム２３０のキャプチャは異なる方法で達成され得る。たとえば、（１つまたは複数の）分析／判断モジュール１１０は、連続オーディオのウィンドウ２１０中のマイクロフォン信号を連続的にサンプリングし、不要なフレーム２３０を廃棄する（すなわち、記憶しない）ことがある。したがって、上記の例では、Ｔ_frame＝５０ｍｓおよびＴ_block＝５００ｍｓである場合、処理ユニットは、サンプリングされた５００ｍｓごとに４５０ｍｓを単に廃棄することができる。追加または代替として、（１つまたは複数の）分析／判断モジュール１１０は、不要なフレーム２３０の間にオーディオキャプチャモジュール１４０をオフにし（たとえば、５００ｍｓごとに４５０ｍｓの間オーディオキャプチャジュール１４０をオフにし）、それにより、コンテキスト判断において使用される、得られたオーディオ情報２４０ａ中に挿入されるフレーム２３０のみを収集することができる。

得られたオーディオ情報２４０ａは、ウィンドウ２１０中の連続オーディオストリームのサブセットのみを備えるフレーム２３０の収集である。たとえそうでも、この得られたオーディオ情報２４０ａは、判断の精度への著しい影響なしに、周囲環境を判断することなどのコンテキスト判断を可能にするのを助けることができるオーディオ特性を含むことができる。したがって、得られたオーディオ情報２４０ａは、コンテキスト分類のためのアプリケーションにリアルタイムで与えられ、ならびに／あるいは後の分析のために、および／またはモバイルデバイス１００に通信可能に結合されたサーバにアップロードするためにメモリ１８０に１つまたは複数の波形として記憶され得る。

図２ｂおよび図２ｃは、図２ａに示したプロセスと同様に、オーディオ情報をキャプチャするためのプロセスを可視化したものである。ただし、図２ｂおよび図２ｃでは、キャプチャされ得る音声のさらなるプライバシーを保証するのを助けるために追加のステップをとる。

図２ｂを参照すると、Ｔ_window秒のウィンドウ２１０ごとに、各ブロック２２０の第１のフレーム２３０がどのようにキャプチャされ得るかを示す可視化が与えられている。ウィンドウ２１０の最終ブロック２２０のフレーム２３０−１がキャプチャされた後、ウィンドウ２１０のすべてのキャプチャされたフレームは、得られたオーディオ情報２４０ｂを与えるためにランダムに置換（すなわち、ランダムにシャッフル）され得る。したがって、得られたオーディオ情報２４０ｂは、図２ａの得られたオーディオ情報２４０ａと同様であるが、得られたオーディオ情報２４０ｂがそれから構成されるフレームがランダム化される追加の特徴をもち、それにより、得られたオーディオ情報２４０ｂ中に含まれ得る音声が了解性忠実度をもって再生され得る可能性がさらに低下する。

図２ｃは、図２ｂに示したプロセスと同様であるが、各ブロック２２０についてキャプチャされたフレーム２３０をさらにランダム化するプロセスを示す。より詳細には、図２ａおよび図２ｂに示したようにウィンドウ２１０の各ブロック２２０の第１のフレーム２３０をキャプチャするのではなく、図２ｃに示すプロセスは、代わりに各ブロック２２０からのランダムフレーム２３０が選択され得ることを示す。ウィンドウ２１０のフレーム２３０のキャプチャと得られたオーディオ情報２４０ｃ中のフレーム２３０の順序付けの両方のランダム化は、ウィンドウ２１０内の連続オーディオストリーム中に含まれている音声が不明瞭にされ、再生不可能であることをさらに保証するのを助ける。

図２ｂおよび図２ｃに示したプロセスにおいて使用されるランダム化は、多数の方法で生成されるシードを使用して計算され得る。たとえば、シードは、ＧＰＳユニット１６０によって与えられるＧＰＳ時間、モバイルデバイス１００内の回路からの雑音、オーディオキャプチャモジュール１４０からの雑音（または他の信号）、アンテナからの雑音などに基づき得る。さらに、置換は、シャフリング効果が逆転させられ得ないことを保証するのを助けるために廃棄され得る（たとえば、記憶され得ない）。

図２ａ、図２ｂ、および図２ｃに示したプロセスは、例として与えたものであり、限定的なものではない。他の実施形態が企図される。たとえば、ブロック２２０は、フレーム２３０がキャプチャされる前にランダムに置換され得る。代替的に、フレーム２３０は、ブロック２２０当たり１つのフレーム２３０をキャプチャするのではなく、ウィンドウ２１０全体にわたってランダムにキャプチャされ得る。

図３ａは、図２ｂおよび図２ｃに示した機能を提供するための方法３００−１の実施形態を示す流れ図である。方法３００−１は段階３１０において開始し、そこで、連続オーディオストリームからオーディオデータのブロック２２０を受信する。連続オーディオストリームは、たとえば、モバイルデバイス１００のオーディオキャプチャモジュール１４０が露出される時間のウィンドウ２１０内のオーディオであり得る。

段階３２０において、オーディオデータのブロック２２０のフレーム２３０をキャプチャする。前に説明したように、フレーム２３０はオーディオデータの各ブロック２２０の所定のフレーム（たとえば、第１のフレーム）であり得るか、またはそれはランダムに選択され得る。フレーム２３０は、たとえば、モバイルデバイス１００のメモリ１８０に（一時的にまたは永続的に）記憶されることによってキャプチャされる。前に説明したように、フレーム２３０のキャプチャは、オーディオキャプチャモジュール１４０をオンおよびオフにすることおよび／または連続オーディオストリームを表すオーディオキャプチャモジュール１４０からの信号のいくつかの部分をサンプリングすることを含むことができる。

段階３３０において、現在のウィンドウ２１０中に追加のブロック２２０があるかどうかを判断する。追加のブロック２２０がある場合、ブロック２２０からのフレーム２３０をキャプチャするプロセスが繰り返される。これは、所望の機能に応じて、何度でも繰り返され得る。たとえば、Ｔ_block＝５００ｍｓおよびＴ_window＝１０秒である場合、フレーム２３０をキャプチャするプロセスは２０回繰り返され、その結果、フレーム２３０が２０個キャプチャされることになる。

現在のウィンドウ２１０中のすべてのブロック２２０からのフレーム２３０がキャプチャされた場合、プロセスは段階３４０に移動し、そこで、キャプチャされたフレームの順序をランダム化する。これらのランダム化されたフレームは、たとえば、コンテキストアウェアネスアプリケーションによる分析のために使用されるオーディオファイルに記憶され得る。最後に、段階３５０において、ランダム化されたフレームのオーディオ特性に少なくとも部分的に基づいて周囲環境の判断（または他のコンテキスト判断）を行う。

方法３００−１の異なる段階は、モバイルデバイス１００の１つまたは複数の異なる構成要素および／またはモバイルデバイス１００に通信可能に結合された他のシステムによって実行され得る。さらに、段階は、ハードウェア、ソフトウェア、および／またはファームウェアの任意の組合せによって実行され得る。たとえば、オーディオストリーム全体（たとえば、認識可能な音声を有し得るオーディオストリーム）が、モバイルデバイス１００によって実行されるソフトウェアアプリケーションにアクセス不可能であることを保証するのを助けるために、段階３２０〜３４０などのいくつかの段階は、（（１つまたは複数の）分析／判断モジュール１１０などの）ハードウェアによって実行され、キャプチャされたフレームをメモリ１８０に記憶するおよび／またはそれらをソフトウェアアプリケーションに与える前に、たとえば、バッファ上でそれらをランダム化し得る。追加または代替として、いくつかの実施形態は、いくつかのパラメータ（たとえば、Ｔ_window、Ｔ_block、および／またはＴ_frame）がソフトウェアによって少なくとも部分的に構成可能であることを可能にし得る。

さらに他の実施形態では、モバイルデバイス１００は、キャプチャされたフレームを含む、得られたオーディオ情報２４０をリモートサーバにアップロードし得る。この場合、リモートサーバは、段階３５０の周囲環境の判断を行うことができる。代替的に、モバイルデバイス１００は、モバイルデバイス１００によって行われた周囲環境の判断とともに、得られたオーディオ情報２４０をアップロードすることができる。いずれの場合も、リモートサーバは、その判断と得られたオーディオ情報２４０とを使用して、周囲環境判断を行うために使用される既存のモデルを変更することができる。これにより、サーバは、モバイルデバイス１００によって受信された入力から「学習する」ことが可能であるモデルを維持することが可能になる。次いで、修正および／または更新されたモデルは、モバイルデバイス１００によって行われた周囲環境判断の精度を改善するのを助けるためにモバイルデバイス１００にダウンロードされ得る。したがって、周囲環境判断（または他のコンテキスト判断）は継続的に改善され得る。

上記のように、本明細書で説明する技法は、周囲環境および／または他のコンテキスト判断だけでなく、オーディオデータの他のオーディオ特性の判断をも可能にすることができる。これらのオーディオ特性は、音声、音楽、タイピング音などの存在を含むことができる。オーディオ特性に応じて、異なる判断が行われ得る。

図３ｂは、図３の方法３００−１と同様の段階を含む、方法３００−１の一例を示す流れ図である。ただし、図３ｂの方法３００−２は、周囲環境の判断を行うために使用されるキャプチャされたフレーム中に音声が含まれる（１人または複数の）話者の識別情報に関する判断を行う追加の段階３６０を含む。段階３５０の場合と同様に、段階３６０の判断は、モバイルデバイス１００、および／またはキャプチャされたフレームがアップロードされるリモートサーバによって行われ得る。さらに、識別情報に関する判断は、話者の年齢、性別などを判断するのを助けるためのモデル、および特定の人間の音声のオーディオ特性に関する記憶された情報など、他の情報および／またはモデル、ならびに他のデータの使用を含むことができる。

上記で説明したプロセスによって生成された、キャプチャされたオーディオファイルをリッスンすることは、単語がこの方式から確実に再構成され得ないことを明確に示す。ただし、この概念は、商用音声認識器を開発するための公開されているソースからの収集されたオーディオデータが与えられれば、音声認識器が単語のｎ字列を再構成する確率に対する上限を計算するための分析を実行することによって数学的に示され得、単語のｎ字列はｎ個の連続する単語の集合である。

図４は、収集されたオーディオが与えられれば、ｎ字列を正しく推測する確率に対する上限を示す、そのような分析の結果を示すグラフである。１字列４１０と２字列４２０とを正しく再構成するための結果を示し、Ｔ_blockの可変長について、Ｔ_frame＝５０ｍｓである。直観的にｎ字列を再構成する確率はｎの増加とともに減少する。これは図４からわかり得、Ｔ_block＝５００ｍｓの場合、１字列４１０を正しく再構成する確率は１４％であり、２字列４２０を正しく再構成する確率は８％である。（この分析は、言語をなお一層不明瞭にし得る、本明細書で説明するフレームの置換を含まず、おおよそ（Ｔ_window／Ｔ_block）だけ確率を低減することに留意されたい。）
音声を再構成する確率の低減にもかかわらず、本明細書で説明する技法は、ユーザの環境を見分けるための、分類器（たとえば、コンテキストアウェアネスアプリケーションにおいて使用される確率的分類器）の能力に著しい影響を与えない。これは、１つの混合成分と２つの混合成分とを有する統計的モデルを用いた、コンテキストアウェアネス分類器の精度および再現率（recall）を示す表１に示されており、Ｔ_frame＝５０ｍｓであり、Ｔ_blockは可変である。使用されたデータは、コンテキストアウェアネスアプリケーション間で共通の（たとえば、公園内、街路上、マーケット内、車中、空港内などの）環境のセットの環境音の商業的に収集されたオーディオデータセットであった。

Ｔ_frame＝５０ｍｓであるので、Ｔ_block＝５０ｍｓについて表１に示した精度および再現率は連続オーディオである。したがって、表１は、連続オーディオストリームのサブセットのみをサンプリングすることによってオーディオデータの次元数を低減することが、Ｔ_blockが２秒に近づく（すなわち、マイクロフォンが、２秒ごとに５０ｍｓのみ、またはその時間の２．５％の間オンである）まで、周囲環境の分類器の判断の精度にほとんど影響を与えないことがあることを示す。分類器ごとに結果が異なり得る。

上記で説明した方法、システム、デバイス、グラフ、および表は例である。様々な構成は、適宜に様々なプロシージャまたは構成要素を省略、置換、または追加し得る。たとえば、代替構成では、本方法は、説明した順序とは異なる順序で実行され得、ならびに／あるいは様々な段階が追加、省略、および／または組み合わせられ得る。また、いくつかの構成に関して説明した特徴は、様々な他の構成において組み合わせられ得る。構成の異なる態様および要素が、同様の方法で組み合わせられ得る。また、技術は発展し、したがって、要素の多くは例であり、本開示または特許請求の範囲を限定しない。さらに、本明細書で説明した技法は、異なるタイプのコンテキストアウェアネス分類器を用いて異なる結果を与え得る。

説明では、（実装形態を含む）例示的な実施形態の完全な理解が得られるように具体的な詳細を与えた。ただし、実施形態は、これらの具体的な詳細なしに実施され得る。たとえば、構成を不明瞭にすることを避けるために、よく知られている回路、プロセス、アルゴリズム、構造、および技法を不要な詳細なしに示した。この説明は、例示的な構成を与えるにすぎず、特許請求の範囲の範囲、適用性、または構成を限定しない。そうではなく、構成の上記の説明は、説明した技法を実装することを可能にする説明を当業者に与えるものである。本開示の趣旨および範囲から逸脱することなく、要素の機能および構成において様々な変更が行われ得る。

また、構成は、流れ図またはブロック図として示されるプロセスとして説明されることがある。各々は動作を逐次プロセスとして説明することがあるが、動作の多くは並行してまたは同時に実行され得る。さらに、動作の順序は並べ替えられ得る。プロセスは、図中に含まれない追加のステップを有し得る。

本発明の様々な特徴を組み込んだコンピュータプログラムは、様々な非一時的コンピュータ可読記憶媒体および／または非一時的プロセッサ可読記憶媒体上で符号化され得、好適な媒体は、磁気媒体と、光学媒体と、フラッシュメモリと、他の非一時的媒体とを含む。プログラムコードで符号化された非一時的プロセッサ可読記憶媒体は、互換デバイスとともにパッケージングされるか、または他のデバイスから別々に与えられ得る。さらに、プログラムコードは、インターネットを含む、様々なプロトコルに準拠するワイヤード、光、および／またはワイヤレスネットワークを介して符号化され、送信され、それにより、たとえば、インターネットダウンロードを介した配信が可能になり得る。

いくつかの例示的な構成を説明したが、本開示の趣旨から逸脱することなく、様々な変更形態、代替構成、および等価物が使用され得る。たとえば、上記の要素は、より大きいシステムの構成要素であり得、他のルールが、本発明の適用よりも優先するかまたは他の方法で本発明の適用を変更し得る。また、上記の要素が考慮される前に、考慮されている間に、または考慮された後に、いくつかのステップが行われ得る。したがって、上記の説明は特許請求の範囲を限定しない。

Claims

連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャすることであって、
前記連続オーディオストリームが人間音声を含んでおり、
オーディオデータの前記サブセットが前記人間音声の成分を不明瞭にする
キャプチャすることと、
オーディオ特性についてオーディオデータの前記サブセットを分析することと、
前記オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うことと
を備える、プライバシー敏感オーディオ分析の方法。
オーディオデータの前記サブセットが、了解性忠実度をもって前記連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する前記連続オーディオストリームの計算された関数を備える、請求項１に記載のプライバシー敏感オーディオ分析の方法。
オーディオデータの前記サブセットが複数のオーディオデータセグメントを備え、各オーディオデータセグメントが、前記連続オーディオストリームの異なる時間成分からのデータを備える、請求項１に記載のプライバシー敏感オーディオ分析の方法。
前記オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うことをさらに備える、請求項３に記載のプライバシー敏感オーディオ分析の方法。
前記複数のオーディオデータセグメントの各々が、３０ｍｓ〜１００ｍｓの記録されたオーディオを備える、請求項３に記載のプライバシー敏感オーディオ分析の方法。
前記連続オーディオストリームの各時間成分は、長さが２５０ｍｓ〜２ｓである、請求項３に記載のプライバシー敏感オーディオ分析の方法。
オーディオデータの前記サブセットを分析する前に、前記複数のオーディオデータセグメントの順序をランダムに変更することをさらに備える、請求項３に記載のプライバシー敏感オーディオ分析の方法。
前記複数のオーディオデータセグメントの前記順序をランダムに変更することが、
全地球測位システム（ＧＰＳ）デバイスと、
モバイルデバイス内の回路からの信号雑音と、
マイクロフォンからの信号雑音と、
アンテナからの信号雑音と
のうちの１つからの情報に少なくとも部分的に基づく、請求項７に記載のプライバシー敏感オーディオ分析の方法。
マイクロフォンと、
前記マイクロフォンに通信可能に結合された処理ユニットであって、
前記マイクロフォンからの信号中に表される連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャすることであって、
前記連続オーディオストリームが人間音声を含んでおり、
オーディオデータの前記サブセットが前記人間音声の成分を不明瞭にする
キャプチャすることと、
オーディオ特性についてオーディオデータの前記サブセットを分析することと、
前記オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うことと
を行うように構成された処理ユニットと
を備える、プライバシー敏感オーディオを不明瞭にするためのデバイス。
オーディオデータの前記サブセットが、了解性忠実度をもって前記連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する前記連続オーディオストリームの計算された関数を備える、請求項９に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
オーディオデータの前記サブセットが複数のオーディオデータセグメントを備え、各オーディオデータセグメントが、前記連続オーディオストリームの異なる時間成分からのデータを備える、請求項９に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
前記処理ユニットが、前記オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うように構成された、請求項１１に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
前記複数のオーディオデータセグメントの各々が、３０ｍｓ〜１００ｍｓの記録されたオーディオを備える、請求項１１に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
前記連続オーディオストリームの各時間成分は、長さが２５０ｍｓ〜２ｓである、請求項１１に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
前記処理ユニットが、オーディオデータの前記サブセットを分析する前に、前記複数のオーディオデータセグメントの順序をランダムに変更するように構成された、請求項１１に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
前記処理ユニットが、
全地球測位システム（ＧＰＳ）デバイスと、
モバイルデバイス内の回路からの信号雑音と、
前記マイクロフォンからの信号雑音と、
アンテナからの信号雑音と
のうちの１つからの情報に少なくとも部分的に基づいて、前記複数のオーディオデータセグメントの前記順序をランダムに変更するように構成された、請求項１５に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
連続オーディオストリームを受信するように構成されたオーディオセンサーと、
前記オーディオセンサーに結合された少なくとも１つの処理ユニットであって、
オーディオデータのサブセットが前記連続オーディオストリーム中に含まれる人間音声の成分を不明瞭にするように、前記連続オーディオストリーム中に含まれているオーディオデータの前記サブセットをキャプチャすることと、
オーディオ特性についてオーディオデータの前記サブセットを分析することと、
前記オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うことと
を行うように構成された少なくとも１つの処理ユニットと
を備える、モバイルデバイスに関連する環境を判断するためのシステム。
前記モバイルデバイスからリモートにあるロケーションに、ネットワークを介してオーディオデータの前記サブセットを表す情報を送るように構成されたネットワークインターフェースをさらに備える、請求項１７に記載のモバイルデバイスに関連する環境を判断するためのシステム。
前記少なくとも１つの処理ユニットが、前記モバイルデバイスからリモートにある前記ロケーションにおいて前記周囲環境の前記判断を行うように構成された、請求項１８に記載のモバイルデバイスに関連する環境を判断するためのシステム。
オーディオデータの前記サブセットが複数のオーディオデータセグメントを備え、各オーディオデータセグメントが、前記連続オーディオストリームの異なる時間成分からのデータを備える、請求項１８に記載のモバイルデバイスに関連する環境を判断するためのシステム。
前記少なくとも１つの処理ユニットが、前記オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うように構成された、請求項２０に記載のモバイルデバイスに関連する環境を判断するためのシステム。
前記複数のオーディオデータセグメントの各々が、３０ｍｓ〜１００ｍｓの記録されたオーディオを備える、請求項２０に記載のモバイルデバイスに関連する環境を判断するためのシステム。
前記連続オーディオストリームの各時間成分は、長さが２５０ｍｓ〜２ｓである、請求項２０に記載のモバイルデバイスに関連する環境を判断するためのシステム。
前記少なくとも１つの処理ユニットが、オーディオデータの前記サブセットを分析する前に、前記複数のオーディオデータセグメントの順序をランダムに変更するように構成された、請求項２０に記載のモバイルデバイスに関連する環境を判断するためのシステム。
非一時的プロセッサ可読媒体上に常駐するコンピュータプログラム製品であって、
連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャすることであって、
前記連続オーディオストリームが人間音声を含んでおり、
オーディオデータの前記サブセットが前記人間音声の成分を不明瞭にする
キャプチャすることと、
オーディオ特性についてオーディオデータの前記サブセットを分析することと、
前記オーディオ特性に少なくとも部分的に基づいて周囲環境の判断を行うことと
をプロセッサに行わせるように構成されたプロセッサ可読命令を備えるコンピュータプログラム製品。
オーディオデータの前記サブセットが、了解性忠実度をもって前記連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する前記連続オーディオストリームの計算された関数を備える、請求項２５に記載のコンピュータプログラム製品。
オーディオデータの前記サブセットが複数のオーディオデータセグメントを備え、各オーディオデータセグメントが、前記連続オーディオストリームの異なる時間成分からのデータを備える、請求項２５に記載のコンピュータプログラム製品。
前記プロセッサ可読命令が、前記オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うことを前記プロセッサに行わせるように構成された、請求項２７に記載のコンピュータプログラム製品。
前記複数のオーディオデータセグメントの各々が、３０ｍｓ〜１００ｍｓの記録されたオーディオを備える、請求項２７に記載のコンピュータプログラム製品。
前記連続オーディオストリームの各時間成分は、長さが２５０ｍｓ〜２ｓである、請求項２７に記載のコンピュータプログラム製品。
前記プロセッサ可読命令が、オーディオデータの前記サブセットを分析する前に、前記複数のオーディオデータセグメントの順序をランダムに変更することを前記プロセッサに行わせるように構成された、請求項２７に記載のコンピュータプログラム製品。
前記プロセッサ可読命令が、
全地球測位システム（ＧＰＳ）デバイスと、
モバイルデバイス内の回路からの信号雑音と、
マイクロフォンからの信号雑音と、
アンテナからの信号雑音と
のうちの１つからの情報に少なくとも部分的に基づいて、前記複数のオーディオデータセグメントの前記順序をランダムに変更することを前記プロセッサに行わせるように構成された、請求項３１に記載のコンピュータプログラム製品。
マイクロフォンからの信号中に表される連続オーディオストリーム中に含まれているオーディオデータのサブセットをキャプチャするための手段であって、
前記連続オーディオストリームが人間音声を含んでおり、
オーディオデータの前記サブセットが前記人間音声の成分を不明瞭にする
キャプチャするための手段と、
オーディオ特性についてオーディオデータの前記サブセットを分析するための手段と、
前記オーディオ特性に少なくとも部分的に基づいて周囲環境を判断するための手段と
を備える、プライバシー敏感オーディオを不明瞭にするためのデバイス。
オーディオデータの前記サブセットをキャプチャするための前記手段が、了解性忠実度をもって前記連続オーディオストリームを再生するために必要とされるよりも少ないビット数を有する前記連続オーディオストリームの計算された関数に従ってオーディオデータの前記サブセットをキャプチャするように構成された、請求項３３に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
オーディオデータの前記サブセットをキャプチャするための前記手段は、オーディオデータの前記サブセットが複数のオーディオデータセグメントを備え、各オーディオデータセグメントが、前記連続オーディオストリームの異なる時間成分からのデータを備えるように、オーディオデータの前記サブセットをキャプチャするように構成された、請求項３３に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
前記周囲環境を判断するための前記手段が、前記オーディオ特性に少なくとも部分的に基づいて人間の識別情報の判断を行うように構成された、請求項３５に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。
オーディオデータの前記サブセットをキャプチャするための前記手段は、前記複数のオーディオデータセグメントの各々が、３０ｍｓ〜１００ｍｓの記録されたオーディオを備えるように、オーディオデータの前記サブセットをキャプチャするように構成された、請求項３５に記載のプライバシー敏感オーディオを不明瞭にするためのデバイス。