JP2014519071A

JP2014519071A - 音響コンテキストを使用する検索システム及び方法

Info

Publication number: JP2014519071A
Application number: JP2014502734A
Authority: JP
Inventors: ダブリュ．ゴールドスタインスティーブン; コーエンジョーダン
Original assignee: アンビエンツ
Priority date: 2011-03-28
Filing date: 2012-03-28
Publication date: 2014-08-07
Also published as: US10409860B2; EP2691950A2; CA2831678A1; US20190391999A1; KR20140088836A; CN104040480A; US20140372401A1; WO2012135293A2; EP2691950A4; WO2012135293A3; AU2012236649A1

Abstract

コンテキストベースの検索システム、コントローラ、及び検索方法は、実現される。システムは、少なくとも一つのオーディオストリームを収集するように構成された一つ以上の装置及びコンテキスト検索システムを含む。コンテキスト検索システムは、データ分析機器及び検索エンジンを含む。データ分析機器は、一つ以上の装置から少なくとも一つのオーディオストリーム受信し、受信された少なくとも一つのオーディオストリームからコンテキスト情報を判定するように構成される。検索エンジンは、検索結果を生成するために、コンテキスト情報を使用する少なくとも一つの検索語の検索を実行するように構成される。
【選択図】図１

Description

［関連出願の相互参照］
本出願は、「音響コンテキストを使用する検索システム及び方法」というタイトルで２０１１年３月２８日に出願された米国仮出願第６１／５１６，０２６号に関連し、この仮出願の利益を主張し、この仮出願の内容を参照することにより援用する。

［技術分野］
本発明は、検索エンジン、より具体的には、一つ以上の装置のオーディオストリームに基づいた音響コンテキスト（ａｃｏｕｓｔｉｃａｌｃｏｎｔｅｘｔ）を使用する検索システム及び方法に関する。

たくさんの装置は、異なる情報のために環境をサンプリングできる。よくあるケースは、装置が環境からオーディオ又はマルチメディア情報をローカル（ｌｏｃａｌ）で処理し得る。例えば、「スマート」フォン（ＯＳベースの電話である、ＡｐｐｌｅｉＰｈｏｎｅ（登録商標）、Ａｎｄｒｏｉｄ（登録商標）等）は、オーディオ及びビデオ取得装置と同様に飛躍的なローカル処理能力を持つ。

［発明の要約］
本発明は、コンテキストベース検索システム、コントローラ、及び方法で具現化される。システムは、少なくとも一つのオーディオストリームを収集するように構成された一つ以上の装置とコンテキスト検索システムとを含む。コンテキスト検索システムは、データ分析機器と、検索エンジンとを含む。データ分析機器は、一つ以上の装置から少なくとも一つのオーディオストリームを受信し、受信された少なくとも一つのオーディオストリームからコンテキスト情報を判定するように構成される。検索エンジンは、検索結果を生成するために、コンテキスト情報を使用する少なくとも一つの検索語の検索を実行するように構成される。

本発明の実施態様によれば、一つ以上の装置は、分類機器及び検索エンジンを含むコンテキスト検索システムに信号を提供できる。分類機器（音声認識機器等）は、検索エンジンによる検索の実行に有益なコンテキスト情報を提供し得る。信号は、他の情報（ロケーション、日時、環境条件等）だけでなく、オーディオ情報も含む。オーディオ情報及び他の情報は、検索語のための情報（コンテキスト情報等）の曖昧さをなくすことを可能にする。例えば、「ｔｕｒｋｅｙ」は、鳥、国、個人的評価、サンドイッチ等に関連する。検索開始者（ｓｅａｒｃｈｉｎｉｔｉａｔｏｒ）の意図、ロケーション、物理的環境、及び／又は他のイベントについてのコンテキスト情報は、例えば、検索を拡張又は制限するために、検索エンジンによって使用されてもよい。

本発明の他の実施態様によれば、装置は、音声信号（ｓｐｅｅｃｈｓｉｇｎａｌ）、環境音、ロケーション特有のオーディオ及び他の地理的ロケーションデータを収集し、これらのデータのうちのいくつか、又はこれらのデータのすべてを（音声検索等のための）動作又は分析のためのコンテキスト検索システムに送信してもよい。

［図面の簡単な説明］
添付された図面とともに解釈すると、本発明は以下に続く詳細な説明から理解され得る。一般的な方法によれば、図面の様々な機能又は要素は、縮尺通りに描かれていないことも有り得る。それどころか、様々な機能又は要素の寸法は、明確さのために任意に拡大又は縮小され得る。さらに、図面において、共通の番号は、同様の機能又は要素を表現するために使用される。図面には、以下の図が含まれる。
本発明の実施態様によるコンテキストベースの典型的な検索システムの機能ブロック図を示す。本発明の実施態様によるコンテキストベースの典型的な検索アドホックネットワークシステムの機能ブロック図を示す。本発明の実施態様による図１及び図２に示されたシステムの典型的な装置の機能ブロック図を示す。本発明のもう一つの実施態様による図１及び図２に示されたシステムの典型的な装置の機能ブロック図を示す。本発明の実施態様による装置の典型的なイヤホンの斜視図を示す。本発明の実施態様による音響コンテキストを使用する典型的な検索方法のフローチャートを示す。

たくさんの装置は、情報のための環境をサンプリングし得る。例えば、携帯電話は、位置、加速度、オーディオ環境、照明レベル、ステータスを報告し、コンテンツを表示し、他の情報を提供し得る。携帯電話又は他の装置と連動して付加センサーは、オーディオ又は、ユーザによって生成された他の生物学的な信号、生体信号、物理的な信号、又は環境信号、ユーザの環境についてのオーディオ、調整された電話、無線又は、他の装置からの電気信号、これらの信号から分類されるオーディオイベントの警報、通知へのアクセスを提供し得る。これらの装置のそれぞれは、ローカル又はリモートの大量のデータ記憶装置、一つ以上の通信プロトコル、現在の状況又は新たな状態に関するローカルユーザの携帯電話及び／又は他の装置の記録、転送、分析及び／又は通知する処理へ順にアクセスし得る。

本発明の実施形態は、音響コンテキストを使用して検索を実行するシステム及び方法に関連する。データは、他のセンサーからの情報（地理的ロケーション等）だけでなく、（本明細書ではオーディオストリームと呼ばれる）オーディオ信号を取得し得る一つ以上の装置から取得されてもよい。データは、オーディオ信号、及び／又は、オーディオ信号に関連する音響情報を含み得る。例えば、音響情報は、（隠れマルコフモデル（ＨＭＭ）等の静的モデルによる）対応するオーディオ信号から抽出された特徴、オーディオ信号、及び／又はオーディオ信号の記録で検出されたキーワードを含み得る。典型的な実施態様によれば、一つ以上の装置は、近接場及び遠距離場を含む取得データ等の、装置に関連する近接場信号、装置に近接して周囲環境に関連する遠距離場信号をキャプチャー（ｃａｐｔｕｒｅ）するように構成されてもよい。一つ以上の装置からの取得データは、検索語に関連付けられたコンテキスト情報を判定するために、検索語と関連して分析してもよい。検索は、コンテキスト情報によって修正された検索語に対して実行され得る。

本発明のもう一つの実施態様によれば、装置は、その周囲の環境から情報を収集、及び分析するだけでなく、収集情報源の分散共有を形成するために接続された装置の体系化前のネットワーク、又はアドホックネットワークからも、情報を収集、及び分析してもよい。ネットワークを介して（他の情報と同様に）収集されたオーディオは、（ビーム形成、又は、その他の信号処理変換器技術等で）選択的にキャプチャされ、（キーワード、及び／又はイベント等ために）分析され得る。ネットワーク中からのキーワード及び／又はイベントは、検索のためのコンテキストを生成するために組み合わせられる。例えば、ネットワーク中から選択された装置の変換器は、ビーム形成アレイ（ｂｅａｍｆｏｒｍｉｎｇａｒｒａｙ）として使用され得る。装置は、自律的に、又は、ネットワークによって選択されてもよい。

本発明のもう一つの実施態様によれば、自律的に、又は、動作（キーパッド、ペン、マウス、タッチパッドを介してユーザから受信した指示等）に応答して処理され、任意の検索イベントで組み合わされた、一つ以上の装置からのデータは、後の分析のために、適切な形式（ｆｏｒｍ）に記録できる。記録は、ローカル又はリモート装置で実行され、分析のための任意の適切な形式に記録し得る。例えば、記録は、オーディオストリーム、トランスクリプション（ｔｒａｎｓｃｒｉｐｔｉｏｎ）、一つ以上のキーワード、オーディオストリームから抽出された特徴、感知した変数、分類した結果、通話メタデータ、又は無線情報、検索イベントからのテキスト、又は、それらについての任意の組み合わせの形式であり得る。

記録データは、任意に、他のメタデータ（気温等の環境情報）とともに、時刻を記録し、地理的にコード化され、索引を付けられ、後にデータ資源として簡単に提供され得る。一つ以上の装置に関連付けられた話者の識別子（ユーザ識別子等）は、以下に説明するように、ネットワークによって決定され、又は、開始時刻又は記録情報のレビューで、ユーザによって割り当てられてもよい。話者識別は、検索のコンテキストを判定する際にも含まれ得る。

典型的な実施態様によれば、装置のユーザは、音（非音声音（ｎｏｎ−ｓｐｅｅｃｈｓｏｕｎｄ）、会話、特定の話者等）を聴き、装置にオーディオの部分及び／又はオーディオのトランスクリプションの強調を指示してもよい。例えば、装置がイヤホンを含む場合、ユーザは、イヤホンのマイクロホン等を介して、強調のための音声起動（ｖｏｉｃｅａｃｔｉｖａｔｉｏｎ）を実現してもよい。この方法において、オーディオのトランスクリプション（ｔｒａｎｓｃｒｉｐｔｉｏｎ）は、後のレビューのために、視覚的に強調され、ユーザに提示されてもよい。

本発明のもう一つの実施態様によれば、コンテキストに応じた検索処理結果は、ローカルユーザだけでなく、検索を開始したネットワーク上の装置のいくつか又は全体に提供され、又は、階層的に組織化された状況（消防署、軍隊の治安活動等）で、（クラウドソーシングのための）監督又は他の支援機構（ｓｕｐｐｏｒｔｉｎｇｏｒｇａｎｉｚａｔｉｏｎ）に提供され得る。

本発明のもう一つの実施態様によれば、システムは、システムによって収集されたイベントの参加者から収集された承諾の任意のステータスだけなく、地理的ロケーション（都市又は州等）に関連付けられた任意の法律的な制限によって調整（ｍｏｄｕｌａｔｅｄ）されたローカルイベントのログを提供し得る。このように、ログ情報は、承諾なしで記録する人々について任意の法律的な制約、又は地域の法律によって課された他の制限に従い得る。例えば、いくつかの状況で、電話討議からのオーディオを記録することは、合法であり得るものの、討議の議事録（ｔｒａｎｓｃｒｉｐｔ）、又は、討議の単なるトピックをキャプチャすることは、非合法であり得る。

本発明の実施態様は、一人以上のユーザの環境をサンプリング、又は、監視する装置及びネットワークからの情報の使用を含む。情報は、より効果的な検索を行い、これらの装置の履歴、及び履歴に関連ある情報であって、履歴に含まれていない一人以上のユーザへの情報配信を実現するために使用され得る。情報は、履歴のイベントで同時に又は後に発生した広告又は他の機会のいずれか一方を提供するためにも使用され得る。

図１を参照すれば、システム１００と表記された、コンテキストベースの典型的な検索システムの機能ブロック図が示される。システム１００は、装置１０２及びサーバ１０４を含み得る。装置１０２は、通信回線１０８により通信システム１０６を介してサーバ１０４に通信するように構成され得る。サーバ１０４は、リモートコンテキスト検索システム１１４に接続され得る。サーバ１０４は、リモート記憶装置１１０に接続されてもよい。

図１において、通信システム１０６は、無線データネットワークとして図示される。もう一つの例によれば、通信システム１０６は、インターネット等の、携帯電話システム、又は、コンピュータネットワークを含み得る。図１は、サーバ１０４がリモートコンテキスト検索システム１１４を含むことを示しているが、通信システム１０６は、リモートコンテキスト検索システム１１４及び／又はリモート記憶装置１１０に直接的に接続してもよい。

装置１０２は、音響情報をキャプチャする機能のある任意の適切な装置を含み得る。典型的な実施態様において、装置１０２は、携帯電話を含み得る。もう一つの実施態様によれば、装置１０２は、図４Ａ及び図４Ｂについて、さらに、説明されるイヤホン及び外部デバイスを含み得る。装置１０２は、携帯電話に限定されないことが理解される。装置１０２は、（携帯コンピュータ、タブレットコンピュータ、無線デジタルレコーダー、ラジオ等の）スタンドアロン装置であり、グローバル・ポジショニング・システム（ＧＰＳ）、補聴器、携帯電話、時計、テレビのリモコン、カーキーホブ（ｃａｒｋｅｙｆｏｂ）、携帯ゲームコントローラ、又は任意の同様な装置に一体部分であり得る。装置１０２は、ユーザ１１６により運搬され、又は、自動車等の乗り物の中又は上に取り付けられてもよい。

応用例において、装置１０２は、家で固定されて取り付けられ、又は、固定電話、デスクトップコンピュータ、テレビ、又はゲーム機の一部になり得る。装置１０２は、図３について以下に説明するように、ソフトウエアに関連付けられた一つ以上のセンサーを含み得る。装置１０２が「スマート」フォンのようなものである場合、システム１００は、テキストデータ（電子メール、チャットトランスクリプション、及び文書を含む）、オーディオデータ（電話の会話、装置上の又は装置でストリーム再生された音楽、一つ以上のマイクロホンで取得された周囲のオーディオを含む）、及びユーザの検索ログにアクセスし得る。このデータのいくつか又は全ては、コンテキスト情報を判定することに関連し得る。

装置１０２は、装置１０２に近接するオーディオシーン（ａｕｄｉｏｓｃｅｎｅ）を示す蓄積された音響信号１２２をキャプチャし得る。蓄積された音響信号１２２は、（たとえ、通話していないときでも）ユーザ１１６の音声、ユーザ１１６によって生成された他の音（咳等）、装置１０２に近接した他の話者１１８の音声、装置１０２に近接する周囲の音１２０（警報、飛行機、銃撃、及び他の環境音等）を含み得る。蓄積された音響信号１２２は、（音響情報をキャプチャする機能のある装置１０２の変換器の数に依存して）少なくとも一つのオーディオストリームを形成する装置１０２によって記録され得る。

装置１０２及び／又はサーバ１０４は、オーディオストリームを使用してコンテキスト検索システム１１２、１１４のそれぞれを介してコンテキストベースの検索を実行し得る。典型的な実施態様によれば、装置コンテキスト検索システム１１２は、オーディオストリームを使用して、コンテキストベースの初期検索を実行し得る。装置１０２からの初期検索結果（及び、任意に、オーディオストリーム）は、サーバ１０４に提供され得る。サーバ１０４は、リモートコンテキスト検索システム１１４を使用して更なるコンテキストベース検索を実行し得る。この例において、装置１０２及びサーバ１０４間の検索処理の割り振りによって、装置１０２及びサーバ１０４の計算負荷を低減しつつ、より直接的な検索結果を実現され得る。

例えば、コンテキスト検索システム１１２（又はシステム１１４）は、検索が始まるイベントの最後まで待たなくてよい。もう一つの例で、装置コンテキスト検索システム１１２は、一日中たくさんの初期検索を実行し得る。一日の最後に、初期検索結果の全ては、リモートコンテキスト検索システム１１４に提供され得る。リモートコンテキスト検索システム１１４は、それから、一つ以上の初期検索結果を使用して、検索を実行する。

典型的な実施態様によれば、装置１０２は、初期検索及び検索結果のユーザ１１６への通知を実現するために使用され得る。装置１０２からのオーディオストリームの任意の分析結果に沿った、装置１０２からのオーディオストリーム及び他の情報は、検索のためのコンテキストを提供するために、装置コンテキスト検索システム１１２及び／又はリモートコンテキスト検索システム１１４に送信し得る。

リモートコンテキスト検索システム１１４は、データ分析機器１２４、分類機器１２６、及び検索エンジン１２８を含み得る。装置コンテキスト検索システム１１２は、リモートコンテキスト検索システム１１４（図３で示された、データ分析機器３２０、分類機器３２２、及び検索エンジン３２４等）の同様な構成要素を含み得る。したがって、以下のリモートコンテキスト検索システム１１４の説明は、装置コンテキスト検索システム１１２にも関連する。

データ分析機器１２４は、装置１０２からの情報を分析するように構成され得る。情報は、装置コンテキスト検索システム１１２によって、前もって分類されたデータ、装置１０２によって提供されたオーディオストリーム、（図３について以下に説明される）装置１０２に含まれる他のタイプのセンサーからの情報、装置１０２の地理的なロケーション及び／又はオーディオストリームのキャプチャ時刻を含み得る。データ分析機器１２４は、実質的にノイズを除き又は低減させるために、オーディオストリーム及び／又は他のセンサー情報を前処理してもよい。

分類機器１２６を介して、データ分析機器１２４は、分類された情報を形成するために、（他の情報だけでなく）オーディオストリームを分類し得る。分類された情報は、例えば、特定のオーディオストリーム、オーディオストリーム内のキーワード、音声イベント、非音声イベント及び／又はオーディオストリームの部分に割当てられたトピックを含み得る。データ分析機器１２４は、（生体センサー、環境センサー、画像センサー等からの他のタイプからのセンサー等の）他の非音声情報を他の分類された情報に分類する分類機器１２６を使用してもよい。一つの分類機器１２６は、図１で示したものの、分類機器１２６は、データの異なるタイプを分類するように構成された複数の分類機器、又はそれぞれの分類機器を含み得る。

データ分析機器１２４は、オーディオ情報（及び、センサーの異なるタイプからの他の分類された情報）のプロファイルを構築する分類機器１２６を使用し得る、分類機器１２６は、非音声の音を分類し、警報又は銃撃等の音響（非音声)イベントを検出する機能を備え得る。分類機器１２６は、音声を認識し、音声情報のキーワードスポッティング（ｋｅｙｗｏｒｄｓｐｏｔｔｉｎｇ）を実行し、装置１０２の可聴範囲の様々な話者（ユーザ１１６及び／又は話者１１８等）の音声モデルを話者識別のために構築する音声認識機器を含み得る。データ分析機器１２４は、機械学習方法だけでなく、オーディオストリームから性別、推定年齢、国籍、感情、及び他の人口統計学的特徴等を識別する分類機器１２６を使用し得る。分類機器１２６は、ワード（ｗｏｒｄ）の集合を、トピックを現在の議論に確率的に割り当てることに使用し得る。

データ分析機器１２４は、少なくとも一つの検索語のビュー（ｖｉｅｗ）等の、分類された情報から（他のコンテキスト情報と同様に）音響コンテキスト情報を判定し得る。コンテキスト情報（他の情報と同様な音響情報）は、少なくとも一つの検索語に従って、検索エンジン１２８に提供され得る。検索エンジン１２８は、コンテキスト情報を使用して検索語の検索を実行し、ユーザ１１６の意図（コンテキスト）に従った検索に重点を絞り得る。検索エンジン１２８は、一つ以上の検索プロバイダーを使用して検索を実行してもよい。検索エンジン１２８から取得した検索結果は、装置１０２に提供され得る。装置１０２は、例えば、視覚的な表示、聴覚で、又は、触覚インターフェース（振動インターフェース等）を介して、検索結果を提示し得る。

例えば、テキスト検索が装置１０２（携帯電話等）で開始されたとき、所定時間、検索要求につながる装置１０２（分類機器１２６を介して）で識別されたワード（ｗｏｒｄ）は、コンテキスト情報としてデータ分析機器１２４を介して検索要求に付加され得る。さらに、ワードは、トピック、ロケーション、又は、他の大分類の代表か否かを判定するデータ分析装置１２４を介して分析され、分類は、検索対象の支援のために検索エンジン１２８に送信され得る。

装置１０２から取得可能なコンテキストの非限定のリストは、前回記録されたオーディオ、最近収集されたオーディオストリーム（音声認識、又はワードスポッティング（ｗｏｒｄｓｐｏｔｔｉｎｇ）等）より以前のワード、以前に収集されたオーディオ又はテキストのそれぞれの部分の話者識別、以前の議論、外部のトーク、声、又はテキストのトピック、及び以前に収集されたオーディオストリーム（咳、くしゃみ、自動車音、マシン音及び交通騒音等の分析音、環境音等）内の分類された音を含み得る。音のこれらの例は、完全には網羅されていないリストである。

典型的な実施態様によれば、検索クエリーは、装置１０２によって自動的に生成される場合、コンテキスト検索システム１１２（及び／又はシステム１１４）は、検索クエリーの生成の判定後に生じた情報も使用し得る。装置１０２は、オーディオ、ワード、話者識別及び他の情報の循環バッファを含み得る。時間に依存しないクエリーは、検索クエリーの内容として任意のこの情報を使用し得る。例えば、システム１００は、検索クエリーの開始に関連する、音声及びテキストを前の二分間、及び、次の二分間、保持し得る。検索のための口頭のトリガーを探すシステム１００は、検索前、及び、検索トリガー後の両方からコンテキストを送信するために、循環バッファ（又は記憶媒体）内にトリガーを見つけ、循環バッファのサイズまで検索を遅らせてもよい。

使用できるオーディオストリームの数は、装置１０２で使用できる変換器の数だけでなく、装置１０２のタイプに依存し得る。例えば、装置１０２がイヤホン及び携帯電話（図４Ａに示される、イヤホン４０２及び外部装置４０４等）を含む場合、オーディオストリームは、イヤホンからの内部オーディオ（内部マイクロホン４０６等）、イヤホンからの外部オーディオ（外部のマイクロホン４１０等）、（受信器４０８で提供される）イヤホンからの電気信号又は利用可能なオーディオのうちのいずれか一方、又は関連する携帯電話、携帯電話のマイクロホンからのオーディオ、イヤホンの処理システム（プロセッサ４１２等）により修正された、イヤホンからの外部オーディオを含み得る。

それぞれのオーディオストリームは、分類機器１２６（音声認識機器又はイベント分類機器）によって自律的に、分類され、又は、影響され、又は、オーディオの特定の発信源を強調するために、信号処理（ビーム形成等）を使用して組み合わされる。様々なオーディオストリームからの情報は、データ分析機器１２４を介して検索エンジン１２８に選択的に提供され得る。例えば、オーディオ信号からのワードは、クリーンなオーディオ（ｃｌｅａｎａｕｄｉｏ）を有し、正確に文字起こしする内部マイクロホン（図４Ａ）により提供され、外部マイクロホン４１０から抽出されたトピックに組み合わされ、両者は、検索エンジン１２８に提供され得る。システム１００からの情報のたくさんの組み合わせの候補は、検索を支援するために提供され得る。

検索は、装置１０２のユーザインターフェース（図３に示されたユーザインターフェース３０４）又は、（図３に示されたセンサーモジュール３０２等を介する）音声起動によって起動され得る。例えば、ユーザインターフェースは、キーボード、アイトラッカー（ｅｙｅ−ｔｒａｃｋｅｒ）、又は他の触覚インターフェース（呼吸入力装置等）のうちの少なくとも一つを含み得る。しかしながら、コンテキスト検索システム１１２（及び／又はシステム１１４）は、装置１０２によって提供される情報をフルに活用するために、オーディオによって通知されるワード、他のバックグラウンドワード（ｂａｃｋｇｒｏｕｎｄｗｏｒｄ）によって通知されたワード、ワードによって通知されたオーディオ、一つ以上のオーディオストリームによって通知されたオーディオ、又は、検索開始及びコンテキスト情報のその他の組み合わせを検索する機能を拡張し得る。

装置１０２からのオーディオストリーム及び分類データは、検索機構（ｓｅａｒｃｈｏｒｇａｎｉｚａｔｉｏｎ）（装置コンテキスト検索システム１１２、リモートコンテキスト検索システム１１４、又は、その他の機構）によって、検索後に、選択的に問合せが行われ得る。例えば、検索機構は、検索結果を配信後二分間オーディオストリームからすべてのワードを要求し得る。そのようなワードは、検索の成功を評価するために使用され、又は、後に続く検索結果、検索機構又はユーザ１１６のいずれか一方に使用され得る他の分析を提供し得る。

検索プロバイダーは、後に続く情報だけでなく、検索に先行する情報もほしい可能性がある。検索プロバイダーは、検索の後に続くワード又はオーディオだけでなく、所定時間、検索に先行するワード又はオーディオをシステム１００に問い合わせし得る。この情報は、検索プロセスを改善し、処理結果を分析し、又は、ユーザ起動の検索の前後に収集された情報を活用する一つ以上のセカンダリー検索結果を提供するために使用され得る。

装置１０２からのデータは、装置１０２のローカル、又は、リモートロケーションのいずれか一方に記録され得る。データは、継続的に記録され、ユーザ１１６による要求、地理的ロケーション、検索プロバイダー又は他のサービスプロバイダーによる要求、日時、装置１０２のステータス、又は、任意の他の信号に応答して、選択的に記録され得る。

記録は、装置１０２にキャッシュされ、格納するためにリモート記憶装置１１０に送信され得る。イベントの記録は、コンテキスト検索システム１１２（及び／又はシステム１１４）によって、検索可能にされ得る。例えば、一つ以上のオーディオストリームについて文字起こしし、分類機器１２６によって感知されたオーディオストリームのイベントを記録し得る。トピック又は他の識別子は、データ分析機器１２８を介して、統計的な、又は、データの他の分析に基づく記録に定期的に割り当てられる。キャッシュデータは、地理的な情報、装置１０２によって取得された画像又はビデオ、装置１０２で感知された生体情報、又は任意の他の記録又は感知された使用可能データを含めることができる。

リモート記憶装置１１０は、（装置１０２からの）オーディオストリーム、装置１０２からの他の情報（他のセンサー、時刻、及び／又は地理的ロケーション等）、分類されたオーディオ情報、他の分類された情報（非音響情報）、音響コンテキスト情報、他のコンテキスト情報（非音響情報）、検索語又は（装置コンテキスト検索システム１１２及び／又はリモートコンテキスト検索システム１１４からの）検索結果のうちの少なくとも一つを格納し得る。リモート記憶装置１１０は、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスク、光ディスク、フラッシュメモリ、又はハードディスクドライブ等を含み得る。

適切なデータ分析機器１２４、分類機器１２６及び検索エンジン１２８は、本明細書の当業者によって理解され得る。

図２を参照し、システム２００と表記された、コンテキストベースの検索のための典型的なアドホックネットワークの機能ブロック図は、示される。システム２００は、システム２００が装置１０２（コントローラ１０２としても参照される）、装置２０２−１及び装置２０２−２を含む、複数の装置を含むことを除いて、システム１００（図１）と同様である。装置２０２−１、２０２−２は、装置１０２で蓄積された音響信号１２２と異なるそれぞれの蓄積された音響信号２０６−１、２０６−２もキャプチャし得る。

装置２０２及び装置１０２は、通信回線２０４を介して相互に直接通信する機能があってよい。装置１２０及び装置１０２は、通信回線１０８を介して通信システム１０６と通信する機能も有する。装置２０６及び装置１０２は、装置のタイプが同様であってもよく、又は、装置のタイプが異なってもよい。装置２０２、１０２の異なる種類は、異なるセンサー、及び／又は異なるソフトウエアを含み得る。一般に、装置２０６は、装置１０２について上記に説明した任意の装置を含み得る。

システム２００において、一つ以上の装置２０２及び装置１０２は、それぞれの装置２０２及び装置１０２に近接した（他の情報と同様な）オーディオ情報を取得するように構成され得る。装置１０２は、コンテキスト情報を判定するために、装置１０２が装置２０２からセンサー情報を選択的に取得するコントローラとして動作するように構成され得ることを除いて、装置２０２と同じであり得る。一つの装置１０２は、コントローラとして図示されるものの、多数の装置１０２及び装置２０２は、コントローラとして動作し得ると理解される。

装置１０２は、センサー情報を集めるためのコントローラとして図示されるものの、通信システム１０６及び／又はサーバ１０４は、コントローラとして動作するようにも構成され得ることが理解される。

図２において、少数の代表的な装置１０２及び装置２０２が図示される。装置１０２及び装置２０２は、たくさんの装置（大都市圏の多数の電話等）の一部であり、システム２００は、装置１０２及び装置２０２の特定のサブセットを適応可能にし、及び／又は、使用可能な装置１０２及び装置２０２を選択的に構成し得る。例えば、装置１０２（又は、サーバ１０４）は、一つ以上の装置１０２、２０２で検出されたトリガーイベント（ｔｒｉｇｇｅｒｉｎｇｅｖｅｎｔ）に従って、装置２０２を使用可能に構成し得る。

図３を参照して、典型的な装置１０２（又は装置２０２）の機能ブロック図は示される。装置１２０（又は装置２０２）は、一つ以上のセンサーモジュール３０２、ユーザインターフェース３０４、ディスプレイ３０６、スピーカー３０８（ラウドスピーカー等）、警告灯３１０、位置モジュール３１２、通信モジュール３１４、コントローラ３１６、記憶装置３１８、装置コンテキスト検索システム１１４、及び、データ及び制御バス３３０を介して一緒に接続されるプライバシーモジュール３３６を含み得る。

簡単にするために、以下に装置１０２について説明する。装置２０２は、装置１０２と同じ一つ以上の構成要素を含み得る。したがって、装置１０２の説明も装置２０２に関する。ゆえに、装置２０２を更に説明はしない。

代表的な装置１０２は、通信システム１０６を介してサーバ１０４への通信回線１０８及び／又は他の装置２０２への通信回線２０４（図２）を提供する通信モジュール３１４を含む。通知モジュール３１４は、位置信号（ＧＰＳ信号、Ｗｉ−Ｆｉ信号強度等）の役割も果たし、他の装置２０２への直接通信の方法を提供する。

装置１０２は、センサー情報の取得のためのセンサーモジュール３０２を含み得る。センサーモジュール３０２は、蓄積された音響信号１２２（図１）を収集するための一つ以上のマイクロホンを含み得る。センサーモジュール３０２は、装置１０２に関連付けられた環境情報を収集するための一つ以上の環境センサー（気温センサー、加速度センサー等の運動センサー）も含み得る。センサーモジュール３０２は、装置１０２のユーザに関する生体情報を感知するための一つ以上の生体センサー（心拍数等）も含み得る。センサーモジュール３０２は、装置１０２の周囲環境の画像及び／又はビデオをキャプチャするためのカメラ（画像センサー等）も含み得る。センサーモジュール３０２は、位置情報を提供するためのコンパスも含み得る。

一般的に、センサーモジュール３０２は、物理量を測定し、その物理量をシステム１００（図１）（又は図２に示されたシステム２００）によって使用される信号に変換できる任意のセンサーを含み得る。例えば、センサーモジュール３０２のセンサーは、無制限に、一つ以上の光検出センサー、近接センサー、重力検出センサー、磁場検出センサー、電場検出センサー、振動センサー、圧力センサー、湿度センサー、水分センサー、毒素検出センサー、栄養素検出センサー、又はフェロモン検出センサーも含み得る。

典型的な実施態様において、装置１０２のセンサーモジュール３０２は、近接場音響信号及び遠距離場音響信号をキャプチャする一つ以上の変換器を備える。例えば、装置１０２は、携帯装置（携帯電話等）又はコンピュータ（ラップトップ、タブレット又はデスクトップコンピュータ）を含み得る。変換器は、ユーザからの信号をオーディオ信号に変換できる任意の変換器を含み得る。例えば、変換器は、電気機械変換器、光変換器、又は圧電変換器を含み得る。変換器は、喉にまきつけるマイクロホン、ジャーマイクロホン（ｊａｗｍｉｃｒｏｐｈｏｎｅ）、骨伝導マイクロホンも含み得る。変換器は、ユーザの顔からの振動を検出し、振動をオーディオ信号に変換できる。

一つ以上の変換器は、外部（遠距離場）音場から装置１０２に関連付けられたユーザの音声を検出及び／又は区別するために使用され得る。例えば、ブームマイクロホン（ｂｏｏｍｍｉｃｒｏｐｈｏｎｅ）は、外部音場からユーザからの音声を突き止めるために使用される。他の例では、複数のマイクロホンは、外部音場からユーザの音声を突き止めるために、ビーム形成等によって、組み合わされる。他の例では、音声ピックアップロケーション（ｓｐｅｅｃｈｐｉｃｋｕｐｌｏｃａｔｉｏｎ）に近接した携帯装置１０２の一つ以上の変換器は、装置の反対側の付加変換器が遠距離場の変換器として使用されている間、近接場の変換器として使用され得る。他の例では、異なる装置の変換器の組み合わせは、ユーザの音声（近接場信号）及び他の装置（隣接した携帯電話等）の変換器を検出及び区別するために使用され得る。更なる例では、装置１０２に近接した装置２０２は、外部音場を収集するために使用される。

ユーザインターフェース３０４は、検索要求及び検索語を提供できる適切な任意のユーザインターフェースを含み得る。ユーザインターフェース３０４は、一つ以上の装置コンテキスト検索システム１１２、センサーモジュール３０２、ディスプレイ３０６、スピーカー３０８、警告灯３１０、位置モジュール３１２、通信モジュール３１４、記憶装置３１８、及びプライバシーモジュール３２６のためのパラメータも提供できる。ユーザインターフェース３０４は、例えば、ポインティングデバイス、キーボード及び／又は（タッチセンサーディスプレイを含む）ディスプレイデバイスを含み得る。

装置１０２は、装置１０２のユーザ１１６に情報を提示するためのディスプレイ３０６、スピーカー３０８、及び／又は警告灯３１０を含み得る。ディスプレイ３０６は、装置１０２の情報を提示できる任意の適切なディスプレイデバイスを含み得る。警告灯３１０は、装置１０２の警告を提示するための任意の適切な可視的表示器（ｖｉｓｕａｌｉｎｄｉｃａｔｏｒ）を含み得る。警告は、例えば、記録されているオーディオ情報の表示を含み得る。スピーカー３０８は、警告を聴覚的に提示され得る。ユーザインターフェース３０４及びディスプレイ３０６は、別々の装置として図示されるものの、ユーザインターフェース３０４及びディスプレイ３０６の機能は、一つの装置で接続され得ることが理解される。

装置１０２は、装置１０２の位置推定を継続するために、位置モジュール３１２を含み得る。例えば、位置モジュール３１２は、位置推定を取得するために、位置システム１８０（図１）を含み得る。

記憶装置３１８は、（センサーモジュール３０２からの）未加工のセンサー情報、（図１に示された装置コンテキスト検索システム１１２及び／又はシステム１１４からの）分類された情報（音響情報及び／又は非音響情報）、（図１に示された装置コンテキスト検索システム１１２及び／又はシステム１１４からの）コンテキスト情報（音響情報及び／又は非音響情報）、（図１に示された装置コンテキスト検索システム１１２及び／又はシステム１１４からの）検索結果、（位置センサー３１２からの）ロケーション情報、又は、（システムクロック（不図示）等からの）記憶情報に関連付けられるタイムスタンプのうちの少なくとも一つを記憶する。記憶装置３１８は、例えば、ＲＡＭ、磁気ディスク、光ディスク、フラッシュメモリ又はハードディスクドライブを使用できる。

コントローラ３１６は、データ及び制御バス３３０を介して、センサーモジュール３０２、ユーザインターフェース３０４、ディスプレイ３０６、スピーカー３０８、警告灯３１０、位置モジュール３１２、通信モジュール３１４、コントローラ３１６、記憶機器３１８、装置コンテキスト検索システム１１４及びプライバシーモジュール３３６のうちの少なくとも一つに接続され得る。コントローラ３１６は、装置１０２（ディスプレイ３０６、スピーカー３０８及び／又は警告灯３１０等）による情報の任意の提示だけでなく、センサー情報の取得を制御し、コンテキストのためのセンサー情報の分析し、センサー情報の送信及び／又は受信し、コンテキスト情報及び／又は検索結果の送信及び又は受信するように構成され得る。コントローラ３１６は、多重データストリームの平行処理を円滑にするために、例えば、論理回路、デジタルシグナルプロセッサ、マイクロプロセッサ、又はマルチコアプロセッサを含み得る。装置コンテキスト検索システム１１２の一つ以上の機能は、コントローラ３１６によって実行され得る。

装置コンテキスト検索システム１１２は、データ分析機器３２０、分類機器３２２及び検索エンジン３２４を含む。上述したように、装置コンテキスト検索システム１１２は、システム１１２が装置１０２の一部に含まれていることを除いてリモートコンテキスト検索システム１１４と同じである。システム１１２は、情報（音響情報及び／又は非音響情報）を分析し、コンテキスト情報（音響情報及び／又は非音響情報）を判定し、及び／又は装置１０２のためにセンサーモジュール３０２によってローカルで収集された情報に基づいて検索を実行するように構成され得る。システム１１２は、通信モジュール３１４を介して他の装置２０２からの情報も受信又は分析し得る。

プライバシーモジュール３２６は、プライバシー及び／又はセキュリティ要件を実装するための機構と、キャリアの数に関連付けられた一つ以上の装置によって、オーディオ情報を含む、様々な種類の情報の取得及び使用に関する応用のポリシーとを含み得る。これらのポリシー及び機構は、リモートでセンサーのスイッチのオンオフする機能、これらの装置１０２によって集められた任意のオーディオ情報の所有権（ｏｗｎｅｒｓｈｉｐ）、簡単に感知及び情報取得を制御するユーザの機能、応用のオプトイン（ｏｐｔ−ｉｎ）及びオプトアウト（ｏｐｔ−ｏｕｔ）の機構、キャリア範囲又はネットワーク範囲のデータ収集、収集された任意のオーディオの個人を特定できる情報（ＰＩＩ）、及びたくさんの装置１０２、２０２及びネットワークで生成され集約された情報の保護を含む装置１０２の使用を制御し得る。ポリシー又は標準プラクティスは、全てのユーザがデータ取得をプライベート又は、すべてのユーザ文書類（ｕｓｅｒｓｐｒｅｓｅｎｔ）がデータ取得を選択（ｏｐｔｅｄ−ｉｎ）していない、セミプライベートの状況のために、規定され得る。

所有者の許可によってのみ使用可能になるように記録データは、暗号化され得る。暗号化処理は、よく知られ、適切な暗号化は、イヤホン装置、携帯電話、又は事後のリモート記憶装置のロケーションの処理で実現され得る。携帯電話通信は、よく暗号化されるため、付加的な暗号化は、リモート記憶装置の前には不要であり得る。

本発明の他の実施態様によれば、図４Ａ及び図４Ｂを参照すると、典型的な装置１０２’（及び／又は装置２０２’）は示される。装置１０２’（装置２０２’）は、装置１０２’（装置２０２’）が少なくとも一つのイヤホン４０２及び外部装置４０２を含むことを除いて、図３に示された装置１０２（装置２０２）と同様である。一つの実施態様によれば、装置１０２’（装置２０２’）は、一つの耳のための一つのイヤホン４０２−１を含み得る。他の実施態様によれば、装置１０２’（装置２０２’）は、それぞれの耳用の二つのイヤホン４０２−１及び４０２−２を含み得る。

装置１０２’、装置２０２’は、図２に示される装置１０２、装置２０２と同じ構成要素のうちの一つ以上を含み得る。例えば、外部装置４０４は、図２に示された装置１０２、装置２０２の構成要素のうちの少なくとも一つを含み得る。さらに、イヤホン４０２は、一つ以上のオーディオストリームを収集するための変換器（内部マイクロホン４０６及び／又は外部マイクロホン４１０等）を含み得る。典型的な実施態様において、処理は、プロセッサ４１２及び外部装置４０４内のプロセッサ間で分割され得る。

イヤホン４０２は、外耳道に位置する一つ以上の内部マイクロホン４０６を含むものの、外耳道の障害物（閉鎖）を取得することについて、閉鎖要素４１４（図４Ｂ）（膨らませる風船又は他の技術）によって、外部音場（イヤホンまで近接した遠隔場信号等）からの音を阻止し得る。イヤホン４０２は、外部音場又は外部装置４０４（ラジオ、携帯電話等）からオーディオを提供するために構成された少なくとも一つの受信器４０８（内部ラウドスピーカー等）を含み得る。

イヤホン４０２は、外部音場をサンプリングするために、一つ以上の外部マイクロホン４１０を含み得る。マイクロホン４１０は、イヤホン４０２内に位置し得る。イヤホン４０２は、ヘッドセット又は携帯電話内の一つ以上のマイクロホン等の一つ以上の他の外部マイクロホンにも接続され得る。

コンピュータ又は他のプロセッサ４１２は、オーディオ信号のデジタル処理、外部装置４０４の通信、ユーザ１１６（図１）の音環境管理の使用及び、外部装置４０４との情報交信のためのローカル記憶装置等を実現するためにイヤホン４０２に含まれ得る。プロセッサ４１２は、外部マイクロホン４１０及び／又は音響イベント（ワード、会話のトピック、音楽、環境音等）を検出するための少なくとも一つの内部マイクロホン４０６から受信されるオーディオ信号の分析を実行し得る。プロセッサ４１２は、オーディオ信号の任意の適切な処理（特徴抽出等）、及び音響情報の送信も実行し得る。プロセッサ４１２は、論理回路、デジタルシグナルプロセッサ、又は、マイクロプロセッサ等を含み得る。

図４Ｂに示されるように、一般的に、イヤホン４０２は、閉鎖要素４１４及び筐体要素４１６を含み得る。閉鎖要素４１４は、実質的に、外部音場から外耳道を分離するように構成され得る。構成要素の筐体４１６は、イヤホン４０２の電子構成要素（内部マイクロホン４０６、受信器４０８、外部マイクロホン４１０及びプロセッサ４０２等）を保持し得る。

図５を参照すると、音響コンテキストを使用する典型的な検索方法のフローチャートが示される。図５に図示されたステップは、本発明の実施態様の例を示す。あるステップは、示された順番とは異なる順番で実行され得ることが理解される。あるステップは、除外され得ることも理解される。

ステップ５００において、少なくとも一つの装置から少なくとも一つのオーディオストリームを収集する。例えば、少なくとも一つのオーディオストリームは、センサーモジュール３０２（図３）を介して装置１０２から収集され得る。他の例によれば、オーディオストリームは、装置２０６−１及び装置２０６−２（図２）と同様に、装置１０２から収集され得る。ステップ５０２において、分類機器１２６（図１）及び／又は分類機器３２２（図３）等は、分類された音響情報を形成するために、オーディオを分類する。

任意にステップ５０４において、センサーモジュール３０２（図３）等は、一つ以上の装置から他の情報（非音響情報）を収集し得る。任意にステップ５０６において、分類機器１２６（図１）及び／又は分類機器３２２（図３）等は、他の分類された情報（非音響情報）を形成するために、非音響情報を分類し得る。

ステップ５０８において、リモート記憶装置１１０（図１）又は記憶装置３１８（図３）等は、オーディオストリーム、他の情報、分類された情報（音響情報）又は他の分類された情報（非音響情報）のうちの少なくとも一つを格納する。

ステップ５１０において、データ分析機器１２４（図１）又はデータ分析機器３２０（図３）等は、分類された情報（音響情報）から音響コンテキスト情報を判定する。任意にステップ５１２において、データ分析機器１２４（図１）及び／又はデータ分析機器３２０（図３）は、他の情報（非音響情報）及び／又は他の分類された情報（非音響情報）から更なるコンテキスト情報（非音響情報）を判定する。

ステップ５１４において、検索エンジン１２８及び／又は検索エンジン３２４等は、ステップ５１０（及び、任意にステップ５１２）で判定されたコンテキスト情報を使用して、少なくとも一つの検索語の検索を実行する。ステップ５１６において、ディスプレイ３０６及び／又はスピーカー３０８等のユーザインターフェース３０４（図３）は、装置１０２、装置２０２（図２）に、検索結果を提示する。

任意にステップ５１８において、センサーモジュール３０２を選択的に起動するコントローラ３１６（図３）等は、（ステップ５１４及びステップ５１６での）検索結果に応答して、一つ以上の装置１０２及び装置２０２から少なくとも更に一つのオーディオストリームを収集する。任意にステップ５２０において、装置コンテキスト検索システム１１２（図１）、リモートコンテキスト検索システム１１４、検索機構及び／又は検索プロバイダー等は、少なくとも更に一つのオーディオストリームに基づいて検索結果の有効性を分析し得る。

ステップ５００〜５２０は、ユーザインターフェース３０４（図３）（検索要求トリガー（ｓｅａｒｃｈｒｅｑｕｅｓｔｔｒｉｇｇｅｒ））を介して提供された追加の検索要求のために繰り返され得る。他の実施態様によれば、オーディオストリーム（及び他の非音響情報）は、継続的に監視され得る。興味のある所定のキーワード、トピック又はイベントの検出に応答して、システム１００（図１）（又はシステム２００（図２））は、自動的に検索を発生させてもよい。継続的な監視の例は、さらに以下で説明される。

説明は、例として「スマート」フォンを扱うこと、及び、固定装置又は携帯装置の他のタイプは、「スマート」フォンとともに、又は、「スマート」フォンに代わって使用され得ることは、理解される。また、説明が例としてオーディオ情報の集約又は組み合わせを扱うものの、ビデオ及び生体情報を含む、集約及び情報の他の形式の処理は、以下に説明するオーディオデータの例とともに、又は、オーディオデータの例に代えて実行され得る。

発明は、いくつかの実施例を参照することによって、次に説明される。実施例は、発明の全体の本質をより明確に説明するために含まれる。これらの実施例は、発明の限定でなく、一例である。

［実例応用］
図４Ａ及び図４Ｂを参照すると、典型的な応用において、ネットワークに情報を提供するために、イヤホン４０２及び外部装置４０４は、他の装置（図２に示されるシステム２００等）とネットワークで結ばれ得る。例えば、消防隊は、内部マイクロホン４０６からクリーンなオーディオ（ｃｌｅａｎａｕｄｉｏ）と、外部マイクロホン４１０から環境オーディオと、イヤホン４０２又は外部装置４０４のいずれか一方のセンサーから地理的情報、気温情報、加速度情報及び他の情報とを継続的に収集するネットワークで結ばれた装置を有し得る。システム２００は、チームのメンバー間の継続的な通信、外部オーディオ及びセンサー情報に基づいた危険なコンディションについての警報、コンディション、ロケーション、プロトコル、設備稼働率、軍隊の治安活動又はチームに有益な他の情報を対象とするコンテキストに応じた検索（ｃｏｎｔｅｘｔ−ｓｅｎｓｉｔｉｖｅｓｅａｒｃｈ）へのアクセスを継続的に提供できる。データは、リモート記憶装置１１０（図２）に全て格納され、状況及びチームの活動の分析後に使用可能であり得る。さらに、これまでの完全な記録情報は、リアルタイムオーディオ及びセンサー情報と同様に、状況監視及び命令目的又は制御目的の現場監督に使用可能であり得る。このデータは、装備隊員によって訪問された全ての地域の気温地図が維持されるように、状態表示を継続的に更新するように使用され得る。

リモートデータは、ユーザの環境における会話情報、ユーザにより話されたデータ、メタデータ及び検索結果の記録を含み得るため、法医学的分析のための情報になり得る。一例において、記録にそれぞれの話者の識別子も含み、同じ話者から聞こえてくる少なくとも複数のオーディオの異なるサンプルの識別を含み得る。同様に、企業は、これらの記録を他の法的及びビジネス関係のための口頭の契約議論を確認するために使用できる。

外部検索プロセスは、消防隊での会話及びデータを継続的に監視し、気温、近接する消防資源のステータス、交通、通信ステータス、又は応答者を支援できる他の情報等の関連情報についての検索結果を提供し得る。コンテキストは、継続的に追跡され、対象とされる、関連検索情報を消防士に提供する検索エンジンを支援し得る。同様のシナリオは、社会情勢のため、軍事活動のため、又は、たくさんの他の集団活動のために検討され得る。

応用のもう一つの実施形態によれば、図２を参照すると、装置１０２及び装置２０２は、自動車とは異なる携帯電話を含み得る。装置１０２、装置２０２の様々なセンサーは、交通渋滞及び／又は交通事故の様々な指示を記憶し得る。例えば、装置１０２及び装置２０２の加速度センサーは、急停止を示し、装置１０２及び装置２０２に記録されたオーディオは、感情状態の変化を示し、オーディオからのキーワードは、交通渋滞又は事故を示し、又は、記録オーディオは、一つ以上の音の突然の高音圧レベルを示し得る。これらの指示が与えられると、システム２００は、装置１０２及び装置２０２に交通又は事故コンディション、又は、交通渋滞又は事故を避けるための新しいルート指示を提供し得る。事故候補が示される場合、システム２００は、緊急隊員が一人以上の自動車の乗員に連絡できるように、装置１０２（又は装置２０２）のスピーカーフォンのスイッチを入れ、緊急隊員に電話し得る。システム２００は、自動車内の活動を視覚的に監視するために、装置１０２（又は装置２０２）のビデオカメラのスイッチも入れてもよい。システム２００は、熱（火災を示す）の増加を検出するために、装置１０２（又は装置２０２）の温度計のスイッチを入れ、結果を緊急隊員（緊急医療サービス及び／又は消防署）に送信し得る。

他の応用の例によれば、ビジネスのシナリオにおいて、装置１０２（図１）（又は、図４Ａに示される装置１０２’）の例は、営業日の間、オンにし得る。オーディオ、ワード及び感知イベントは、コンテキストに応じた検索のために使用され、外部装置の（又はイヤホンデバイスの）実行プロセスは、トランスクリプションで観測されたコンテキスト又はオーディオ及び／又は他のキー入力イベントからのキーボードストリームに基づいて自律的に臨時検索を生成し得る。例えば、実業家（ｂｕｓｉｎｅｓｓｐｅｒｓｏｎ）は、彼のビジネスのために、新しいビルを見つけることに従事し、装置１０２（図１）（又は、図４Ａに示された装置１０２’）は、不動産取引が議論されていることを感知した場合に、特有の地理的ロケーションの不動産環境に関して、調査されるロケーションに関連付けられた法的な難しさに関して、そのロケーションに関連付けられた審理中の法令に関して、不動産を取引する際の租税構造又は特別会計状況に関して、又は、そのロケーションでの交通及び通信の使用に関して、自律的に検索を創出（ｇｅｎｅｒａｔｅ）できる。これらの自律的に創出された検索は、テキストメッセージでユーザに通知でき、装置１０２（図１）のディスプレイで、聴覚でイヤホン４０２（図４Ａ）に提供され、又は、その日の履歴に単に提供され得る。

その日の終了後、アプリケーションは、ユーザにその日の活動のサマリーを提供でき、日中に創出された、全ての関連付けられた検索情報を提供できる。この検索情報は、関連性によって体系化でき、処理は、実業家の興味を満足させるために一番役に立つ情報を再体系化できる。検索エンジン自身は、不動産情報の情報源、審理中の法律、又は他の関連情報に関する広告、推薦等の顧客及び検索機構の両者に商業的感心がある情報に加えて、以前の検索結果を収集し、事後に顧客に対象情報配信するために、前もって生成された情報を再体系化及び優先順位づけできる。当日、及び、この一週間又は一ヶ月の検索結果は、分析及び提示のためにユーザに使用可能で、この分析に由来するデータは、将来の検索のコンテキストとして検索エンジンに提供され得る。

ユーザは、一日の活動をレビューでき、現在のローカルのオーディオストリームだけでなく、レビューされた記録からのデータにも基づく更なる検索クエリーを生成できる。記録は、前後のレビューイベントの両者で拡張することが期待されるので、検索エンジンに提供されるコンテキストは、過去及び将来、両方のレビューされる特定のイベントであり得る。

レビュー中に、システム１００（図１）は、話者によってオーディオ情報を集めることができる。任意の一つのオーディオサンプルが話者によって識別できる場合、識別子をすべてのその話者ためのオーディオに付加できる。話者の識別子が未知である場合、レビューワー（ｒｅｖｉｅｗｅｒ）は、話者の識別を要求され、今後（過去のデータでさえ）、その話者は記録データにタグ付けできる。以下に説明するように、ネットワークがアクティブ（ａｃｔｉｖｅ）である間に、話者がアドホックネットワークに関係し、ユーザとの会話に参加する場合、話者識別はほぼ確実に確定され得る。

任意のネットワークで結ばれた状況において、システム２００（図２）等のために、与えられた話者のオーディオは、ネットワーク参加者の一人の内部マイクロホンからだけでなく、複数のネットワークのメンバーの外部マイクロホンの両方に現れる。この場合において、ネットワークに有効な処理は、オーディオ情報に識別子を割り当て得る。検索のためのコンテキストを生成するときに、外部オーディオからのワードは、検索に有効なだけでなく、ワードのそれぞれの組は、ワードの話者の識別子に関連付けられ、検索のコンテキストは、特定の人が声に出すワードの履歴の理解することによりさらに改善できる。例えば、識別された話者が車椅子にいる場合、その人のアシスタント（ａｓｓｉｓｔａｎｔ）によって生成された検索は、支援される人の物理的制約条件について知らされ、有益な結果にするために、より的を絞ることができる。

ネットワークで結ばれた状況において、ネットワークの参加者の識別子は、検索エンジン１２８（図１）又は検索エンジン３２４（図３）に情報を提供できる。例えば、ブルーグラスミュージック（ｂｌｕｅｇｒａｓｓｍｕｓｉｃ）を好きな人達の集団の集まりにおいて、アドホックネットワークに関係する人々の識別子は、検索エンジンに影響を与える特定のグループ、イベント、又は録音処理への関心を示唆し得る。登場する話者のための分類機器１２６（図１）又は分類機器３２４（図３）は、装置１０２（又は、図４Ａに示される装置１０２’）によく組み込まれるため、しばしば遭遇する討論参加者ための識別子をオンザフライ（ｏｎ−ｔｈｅ−ｆｌｙ）で提供できる。

発明は、音響コンテキストを使用する検索システム及び方法の観点から説明したけれども、一つ以上のステップ及び／又は構成要素は、マイクロプロセッサ又は汎用コンピュータ（不図示）を使用するソフトウエアによって実装され得る。この実施態様において、上記に説明された、様々な構成要素及び／又はステップの機能の一つ以上は、コンピュータを制御するソフトウエアに実装され得る。ソフトウエアは、コンピュータによる実行のために、持続的な有形のコンピュータ読み取り可能なメディア（非限定の目的の例として、磁気ディスク、光ディスク、フラッシュメモリ、ハードディスクドライブ等）で具現化される。

例えば、いくつかのソフトウエアは、装置１０２及び装置２０２での実行のための命令を含み得る。このソフトウエアは、中心ロケーション（ｃｅｎｔｒａｌｌｏｃａｔｉｏｎ）で持続的で有形のコンピュータ読み取り可能な媒体に格納され得る。例えば、装置１０２及び装置２０２への配信のためのサーバ１０４は、デジタル通信媒体を介して伝達され、及び／又は装置１０２、装置２０２でマシン読み取り可能な媒体（ダウンロードされたアプリケーション又はアプレット等）に格納され得る。いくつかのソフトウエアは、サーバ１０４（プロセッサの割り振られた「クラウド」等）で格納され、サーバ１０４のプロセッサの実行のため、そのソフトウエアを持続的で有形なコンピュータ読み取り可能な媒体で格納することによりアクセス可能にし得る。

発明は、特定の実施態様を参照し、本明細書に図示及び説明されるけれども、発明は、示された詳細に限定される意図はない。むしろ、様々な修正は、発明から逸脱することなく、特許請求の範囲及び均等の範囲内で詳細にされ得る。

Claims

少なくとも一つのオーディオストリームを収集するように構成された一つ以上の装置と、
前記一つ以上の装置から前記少なくとも一つのオーディオストリームを受信し、前記の受信された少なくとも一つのオーディオストリームからコンテキスト情報を判定するように構成されたデータ分析機器と、検索結果を生成するために、前記コンテキスト情報を使用して少なくとも一つの検索語の検索を実行するように構成された検索エンジンを含むコンテキスト検索システムと、
を含むコンテキストベースの検索システム。
前記システムは、前記一つ以上の装置のうちの少なくとも一つの装置に前記検索結果を提供する、請求項１に記載のシステム。
前記コンテキスト情報は、前記検索語の検索意図を示す、請求項１に記載のシステム。
前記コンテキスト検索システムは、前記オーディオストリームを分類された情報に分類する少なくとも一つの分類機器と、前記コンテキスト情報を判定するために、前記分類された情報及び前記少なくとも一つの検索語を使用する前記データ分析機器とを含む、請求項１に記載のシステム。
前記分類機器は、それぞれのオーディオストリームをキーワード、音声イベント、非音声イベント、トピック、トランスクリプション、話者識別、又は、前記オーディオストリームに関連付けられた感情状態のうちの少なくとも一つに分類する、請求項４に記載のシステム。
前記データ分析機器は、それぞれの前記装置に関連付けられた非音響情報を受信するように構成され、前記データ分析機器は、前記コンテキスト情報を判定するために、前記非音響情報又は前記非音響情報から更に分類された情報のうちの少なくとも一つを使用する、請求項４に記載のシステム。
前記非音響情報は、地理的ロケーション、時刻、話者識別、画像、テキスト情報、生体情報、又は環境情報のうちの少なくとも一つを含む、請求項６に記載のシステム。
前記少なくとも一つのオーディオストリーム、前記分類された情報、前記非音響情報、前記更に分類された情報、前記コンテキスト情報、前記少なくとも一つの検索語、前記検索結果、又は、任意の時間の前記分類された情報のログのうちの少なくとも一つを格納するように構成された記憶装置を含む、請求項６に記載のシステム。
それぞれの装置は、他の前記装置又はサーバのうちの少なくとも一つと情報を交換するための少なくとも通信機能を有する、請求項１に記載のシステム。
前記サーバ又は前記一つ以上の前記装置のうちの少なくとも一つは、前記コンテキスト検索システムを含む、請求項９に記載のシステム。
少なくとも複数の前記装置のそれぞれは、ユーザインターフェースと、前記ユーザインターフェースから受信した指示に応答して実行される前記検索を含む、請求項１に記載のシステム。
前記コンテキスト検索システムは、前記少なくとも一つのオーディオストリームを継続的に監視し、更なる検索は、前記の監視されたオーディオストリームの指示に応答して自動的に実行される、請求項１に記載のシステム。
少なくとも複数の装置のそれぞれは、前記装置に近接した環境に関するセンサーデータを取得するための一つ以上のセンサーを備える、請求項１に記載のシステム。
前記一つ以上のセンサーは、マイクロホン、運動に関するセンサー、気温センサー、生体センサー、コンパス、画像センサー、光検出センサー、近接センサー、重力検出センサー、磁場検出センサー、電場検出センサー、振動センサー、圧力センサー、湿度センサー、水分センサー、毒素検出センサー、栄養素検出センサー、又はフェロモン検出センサーのうちの少なくとも一つを含む、請求項１３に記載のシステム。
前記装置の少なくとも一つは、ユーザインターフェース、ディスプレイ、警告灯、スピーカー、位置モジュール、又はプライバシーモジュールのうちの少なくとも一つを含む、請求項１に記載のシステム。
前記装置の少なくとも一つは、携帯電話装置、イヤホン、補聴器、ナビゲーション装置、コンピュータ、又は少なくとも一つのセンサーを備えるセンサーモジュールのうちの少なくとも一つを含む、請求項１に記載のシステム。
前記装置の少なくとも一つは、無線装置又は有線装置のうちの少なくとも一つを含む、請求項１に記載のシステム。
前記装置の少なくとも一つは、固定装置又は携帯装置のうちの少なくとも一つを含む、請求項１に記載のシステム。
コンテキストベースの検索コントローラであって、前記コントローラは、複数の装置と交信するように構成され、それぞれの装置は、他の前記装置の少なくとも一つ、前記コントローラ又は通信システムと情報を交信する通信機能を少なくとも備え、一つ以上の前記装置又は前記コントローラのうちの少なくとも一つは、少なくとも一つのオーディオストリームを収集するように構成され、
前記一つ以上の装置又は前記コントローラのうちの少なくとも一つから少なくとも一つのオーディオストリームを受信し、前記の受信された少なくとも一つのオーディオストリームからコンテキスト情報を判定するように構成されたデータ分析機器と、
検索結果を生成するために、前記コンテキスト情報を使用して少なくとも一つの検索語の検索を実行するように構成された検索エンジンと、を含むコンテキスト検索システムを含む、コンテキストベースの検索コントローラ。
前記一つ以上の装置から前記少なくとも一つのオーディオストリームを受信するように構成された通信モジュールをさらに含む、請求項１９に記載のコントローラ。
前記少なくとも一つのオーディオストリームを収集するためのセンサーモジュールをさらに含む、請求項１９に記載のコントローラ。
前記センサーモジュールは、マイクロホンと、運動に関するセンサー、気温センサー、生体センサー、コンパス、画像センサー、光検出センサー、近接センサー、重力検出センサー、磁場検出センサー、電場検出センサー、振動センサー、圧力センサー、湿度センサー、水分センサー、毒素検出センサー、栄養素検出センサー、又はフェロモン検出センサーのうちの少なくとも一つとを含む、請求項２１に記載のコントローラ。
前記コントローラは、前記検索結果を前記一つ以上の装置のうちの少なくとも一つの装置に提供する、請求項１９に記載のコントローラ。
前記コンテキスト検索システムは、前記オーディオストリームを分類された情報に分類する少なくとも一つの分類機器と、前記コンテキスト情報を判定するために、前記分類された情報及び前記少なくとも一つの検索語を使用する前記データ分析機器とを含む、請求項１９に記載のコントローラ。
前記データ分析機器は、それぞれの前記装置に関連付けられた非音響情報を受信し、前記データ分析機器は、前記コンテキスト情報を判定するために、前記非音響情報、又は前記非音響情報から更に分類された情報のうちの少なくとも一つを使用するように構成される、請求項２４に記載のコントローラ。
前記少なくとも一つのオーディオストリーム、前記分類された情報、前記非音響情報、前記更に分類された情報、前記コンテキスト情報、前記少なくとも一つの検索語、前記検索結果、任意の時間の前記分類された情報のログのうちの少なくとも一つを格納するように構成された記憶装置をさらに含む、請求項２５に記載のコントローラ。
前記コンテキスト検索システムは、前記少なくとも一つのオーディオストリームを継続的に監視し、更なる検索は、前記の監視されたオーディオストリームの指示に応答して自動的に実行される、請求項１９に記載のコントローラ。
ユーザインターフェースをさらに含み、前記検索は、前記ユーザインターフェースから受信された指示に応答して実行される、請求項１９に記載のコントローラ。
一つ以上の装置から少なくとも一つのオーディオストリームを収集するステップと、
データ分析機器が、前記一つ以上の装置から受信した前記少なくとも一つのオーディオストリームからコンテキスト情報を判定するステップと、
検索エンジンが、検索結果を生成するために、前記コンテキスト情報を使用する少なくとも一つの検索語の検索を実行するステップと、
を含むコンテキストベースの検索方法。
前記方法は、前記検索結果を前記一つ以上の装置のうちの少なくとも一つの装置に提供するステップをさらに含み、前記検索結果は、視覚的に、聴覚的に、又は触覚インターフェースのうちの少なくとも一つによって提示される、請求項２９に記載の方法。
前記の提示された検索結果に応答して前記一つ以上の装置から少なくとも更に一つのオーディオストリームを収集するステップと、
前記少なくとも更に一つのオーディオストリームから更なるコンテキスト情報を判定するステップと、
前記更なるコンテキスト情報から前記検索結果の有効性を判定するステップと、
をさらに含む、請求項３０に記載の方法。
前記コンテキスト情報は、前記検索語の検索意図の曖昧さをなくすために使用される、請求項２９に記載の方法。
前記少なくとも一つのオーディオストリームを継続的に監視するステップと、
前記の監視されたオーディオストリームの指示に応答して更なる検索を自動的に実行するステップと、
をさらに含む、請求項２９に記載の方法。
前記検索は、前記一つ以上の装置の少なくとも一つから受信された指示に応答して実行される、請求項２９に記載の方法。
前記指示前の前記少なくとも一つのオーディオストリームの第一の部分及び前記指示後の前記少なくとも一つのオーディオストリームの第二の部分は、前記コンテキスト情報を判定するために使用される、請求項３４に記載の方法。
更なる検索結果を生成するために、前記検索結果を使用して、前記少なくとも一つの検索語の更なる検索を実行するステップをさらに含む、請求項２９に記載の方法。
前記コンテキスト情報を判定するステップは、前記オーディオストリームを分類された情報に分類するステップを含み、前記分類された情報及び前記少なくとも一つの検索語は、前記コンテキスト情報を判定するために使用される、請求項２９に記載の方法。
前記分類された情報は、キーワード、音声イベント、非音声イベント、トピック、トランスクリプション、話者識別、又は前記オーディオストリームに関連付けられた感情状態のうちの少なくとも一つを含む、請求項３７に記載の方法。
前記コンテキスト情報を判定するステップは、非音響情報又は前記非音響情報から更に分類された情報のうちの少なくとも一つを使用するステップをさらに含む、請求項３７に記載の方法。
前記非音響情報は、地理的ロケーション、時刻、話者識別、画像、テキスト情報、生体情報、又は環境情報のうちの少なくとも一つを含む、請求項３９に記載の方法。