JP6911938B2

JP6911938B2 - 装置及び方法

Info

Publication number: JP6911938B2
Application number: JP2019553498A
Authority: JP
Inventors: ディミトリタフス; コーナーアイルワード; フーゴエンブレッツ
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2017-03-31
Filing date: 2018-03-28
Publication date: 2021-07-28
Anticipated expiration: 2038-03-28
Also published as: WO2018178207A1; EP3602554B1; EP3602554A1; JP2020512592A; US20200035248A1; US11594229B2

Description

本開示は、概して、スピーチに基づきユーザを識別する一般的な分野における装置及び方法に関する。

公知の（ホーム）エージェントデバイスは、益々一般的になりつつある。この様なデバイスは、典型的には、声で制御されて、簡単なタスク（例えば、照明の点灯／消灯、音楽の再生、インターネット店舗での物品の購入等）を引き受ける。

しかしながら、この様なデバイスを声で制御するには、ユーザを識別する必要がある。例えば、購入時には、人情報にアクセスしたりする。

デバイスを声で制御する技術は既存であるが、声制御を用いる装置及び方法を改良することが一般的には望ましい。

本開示の第１の側面に係る装置は、ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別するよう構成される回路を具備する。

本開示の第２の側面に係る方法は、ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する。

さらに、各側面は、従属請求項、以下の明細書及び図面に説明される。

本開示の一実施形態に係るエージェント装置及びウェアラブルデバイスを示す。図１のエージェント装置（ａ）及びウェアラブルデバイス（ｂ）を模式的に示す。エージェント装置のユースケースの構成を示し、ウェアラブルデバイスを装着する２人のユーザを示す。一実施形態に係る方法のフローチャートを示す。ユースケースシナリオに係る図４の方法のフローチャートを示す。ユースケースシナリオに係る図４の方法のフローチャートを示す。ユースケースシナリオに係る図４の方法のフローチャートを示す。ユースケースシナリオに係る図４の方法のフローチャートを示す。ユースケースシナリオに係る図４の方法のフローチャートを示す。

添付の図面を参照し、各実施形態を例示的に説明する。

図１を参照して各実施形態の詳細な説明をする前に、一般的な説明を行う。

始めに、一般的に、（ホーム）エージェントデバイスが公知である。エージェントデバイスは、声で制御されて、簡単なタスク（例えば、照明の点灯／消灯、音楽の再生、インターネット店舗での物品の購入等）を引き受ける。

人間の様にリアクションすることができるように、ユーザビリティを改良する（例えば、この種のエージェントは、誰がエージェントに話し掛けているのか識別できるべきである）ことが認識されている。例えば、ユーザ「Ｔｏｍ」が「今日の私のアジェンダには何がある？」と尋ねるとする。すると、Ｔｏｍのアジェンダをチェックするべきであると知られている。

スピーチデータに基づく発話者認識は、ユーザ識別の実施形態に使用されている。しかしながら、発話者認識の信頼性が低い場合もあるため、環境によっては、発話者認識だけでは２人以上のユーザを区別できない可能性があることも認識されている。ユーザのスピーチだけに基づきユーザを識別できる可能性は高い（例えば、９５%より高い、又は１００%）。

従って、各実施形態によれば、装置は、ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別するよう構成される回路を具備する。一部の実施形態において、前記回路は、前記サウンドデータに基づき、少なくとも１個のユーザ識別情報を、前記ユーザの前記判断した位置と関連付けるようにさらに構成され、前記少なくとも１個のユーザ識別情報及び前記ユーザの前記判断した位置を、前記モバイルデバイスから受信した前記ユーザ識別情報及び前記位置情報と比較することにより、前記ユーザを識別する。

装置は、（ホーム）エージェント装置でよい。装置は、電子機器（例えば、スマートフォン、パーソナルコンピュータ、タブレットコンピュータ等）でよい。装置は、サーバデバイス／コンピュータでよい。装置は、１個のデバイス内にあってよい。装置は、２以上のデバイスに分散してよい。装置は、リモートコンピュータ（クラウド）等でよい。

一般に公知な電子機器（コンピュータ、スマートフォン等）のように、回路は、プロセッサ、メモリ（ＲＡＭ、ＲＯＭ等）、ストレージ、入力手段（マウス、キーボード、カメラ等）、出力手段（ディスプレイ（例えば、液晶、（有機）ＬＥＤ（ｌｉｇｈｔｅｍｉｔｔｉｎｇｄｉｏｄｅ）等）、ラウドスピーカ等、（無線）インタフェース等を有してよい。さらに、回路は、オーディオ（例えば、１以上のマイクロフォン）、静止画又は動画データ（画像センサ、カメラセンサ、動画センサ等）、指紋、環境パラメータ（例えば、湿度、光、温度）等を検出するセンサを有してよい。

上述のように、回路は、ユーザのスピーチを示すサウンドデータ（又は声データ）に基づき、前記ユーザの位置を判断するよう構成される。例えば、装置の近くで（例えば、コマンドを言うことにより）スピーチを発しているユーザから生じる音波を受信することにより、回路がサウンドデータを生成すればよい。装置が有する又は装置に接続された１以上のマイクロフォンが、サウンドデータを受信すればよい。マイクロフォンは、アレイ、リニア構造等に配置すればよい。マイクロフォンは、例えば、ユーザから生じる複数の音波の複数の異なる遅延時間を判断できる構造であればよい。

装置にサウンドデータを供給するサウンド記録デバイス等が、サウンドデータを供給してもよい。

回路は、サウンドデータに基づき、ユーザの位置を判断することができる。前記ユーザの前記位置を判断することは、前記ユーザの方向及び／又は距離を判断することを含んでよい。音源の位置の判断は、サウンド位置特定又は音源位置特定としても公知である。

ユーザの方向は、例えば、コマンドを言ってこれによりスピーチを生成するユーザが発する複数の音波の異なる遅延時間に基づき判断すればよい。これは、到着時間差法として公知である。互いに距離を認知している２以上のマイクロフォンに基づき、異なる遅延時間を判断すればよい。マイクロフォンアレイの場合、一般に公知なビームフォーミング技術を使用すればよい。

距離及び／又は方向の判断は、例えば、直接的に及び間接的に受信した音波の判断を含んでもよい。直接受信した音波は、例えば、壁で反射しない音波である。間接的な音波は、（少なくとも一度）壁で反射した音波である。直接受信した音波と反射した音波との比は、音源（即ち、発話する（例えば、コマンドを言う）ときに音波を生成するユーザ）の距離を示してよい。

距離及び／又は方向の判断は、サウンドデータ中のスピーチのボリュームの大きさの判断を含んでもよい。何故なら、装置により近い音源（即ち、ユーザ）は、より遠い音源（即ち、ユーザ）よりもボリュームが大きいと考えられるからである。

距離及び／又は方向の判断は、サウンドデータが示すサウンドスペクトルの分析を含んでもよい。何故なら、高周波数は低周波数よりも空気により早く減衰するためであり、従って、音源（即ち、ユーザ）がより遠いほど、高周波数の強度がより低くなるためである。

さらに、ＩＴＤＧ（ＴｈｅＩｎｉｔｉａｌＴｉｍｅＤｅｌａｙＧａｐ）と呼ばれる方法を使用してもよい。この方法は、直接の音波の到着時間と、最初に強く反射した音波の装置への到着時間との時間差に基づく。近くの音源（即ち、ユーザ）のＩＴＤＧは、比較的大きいだろう。何故なら、音源が近い場合に最初の反射が通る道は、音源が装置からさらに離れている場合（直接の音波及び反射した音波の通る道の長さが同じと考えられる）よりも長く掛かると考えられるからである。

さらに、視覚系と同様に聴覚でも、運動視差現象が存在する。運動視差現象とは、装置にとって、近くの音源は、より遠くの音源よりも運動速度が速い（両方の音源の速度が同じと仮定）ことを意味する。

さらに、回路は、トレーニングによるマシーンラーニングに基づき、ユーザ（音源）の距離／方向を判断してもよい。例えば、特に、装置が（少なくとも一時的に）静止しているとき、異なる所定の位置（方向及び／又は距離）に居る具体的なユーザのスピーチサンプルの何れが、装置まで進行するのか、を学習する。典型的には、装置が置かれた部屋は、部屋の構造及び素材によって、音波に所定の影響を与える（即ち、部屋は、所定の音響特性を有する）。このため、マシーンラーニングアルゴリズム（ニューラルネットワーク、ベイズネットワーク等）は、部屋内の位置にもとづき部屋の音響特性が音波に与える影響を学習すればよい。

上記全ての技術と、上記していないが付加的な技術は、それ単体で又は如何なる互いの組み合わせによっても使用できる。

回路は、前記サウンドデータに基づき、少なくとも１個のユーザ識別情報を、前記ユーザの前記判断した位置と関連付ける。回路は、例えば、ユーザプロファイルとして記憶された１以上のユーザ識別情報を有してもよい。各ユーザ識別情報は、具体的なユーザに固有である。ユーザ識別情報は、ユーザを装置に登録することにより生成してもよい（例えば、一般に公知のように、ユーザ名、誕生日、出生地、性別等に基づき）。

さらに、回路は、サウンドデータに基づき、一種の発話者認識を実行してもよい。一般に公知なように、発話者認識は、声の特徴の検出を含んでもよい（声紋認証とも称する）。ユーザのスピーチを示すサウンドデータを、声の特徴を検出するために分析すればよい。この様な特徴が検出されると、特徴を１以上のユーザ識別情報と関連付けることができる。１以上のユーザ識別情報は、装置が既に記憶していたり既知であったりしてもよいし、又は、新たに作成してもよい。さらに、検出した声特性は、既知の（例えば、登録済みの）ユーザの声の記憶済みの特徴と比較してもよい。従って、一部の実施形態において、既知のユーザそれぞれに、声特性が関連付けて記憶される。これにより、声特性に基づき、ユーザを識別することができる。

しかしながら、上述のように、発話者認識は、完璧でないこともある。例えば、装置が、２以上のユーザ識別情報を検出する。従って、サウンドデータに基づき、ユーザの判断した位置に、２以上のユーザ識別情報が関連付けられることが起こり得る。

回路は、前記少なくとも１個のユーザ識別情報及び前記ユーザの前記判断した位置を、前記モバイルデバイスから受信した前記ユーザ識別情報及び前記位置情報と比較することにより、前記ユーザを識別する。

従って、回路は、ユーザ識別情報及び位置情報を供給する第２の情報ソース（即ち、モバイルデバイス）を使用する。

ユーザは、スピーチを生成する。このスピーチは、サウンドデータによって示され、サウンドデータに基づきユーザの位置が判断される。このユーザが、モバイルデバイスから受信したユーザ識別情報により識別されたユーザと同じであり、且つ、モバイルデバイスから受信した位置情報が判断されたユーザ位置と一致する場合、ユーザを識別することができる。この場合、モバイルデバイスを装着しているユーザは、スピーチ（音波）を生成するユーザと同一であると想定される。

しかしながら、モバイルデバイスから受信したユーザ識別情報及び／又は位置情報が一致しないと仮定すると、ユーザは識別されない。

これにより、スピーチコマンドを発声するユーザを（確実に）識別することができる。何故なら、第２のソース情報（モバイルデバイスからの）を、ユーザを正確に識別したかのチェックを実行するのに使用するためである。さらに、これにより、発話者認識だけでは２人以上のユーザ／人を区別できない場合も、異なるユーザ／人を区別できる。

装置が判断する位置は、点でなくてもよく、或る程度の大きさ（例えば、小さなエリアでよい）を有してもよい。位置判断は、一部の実施形態においては数センチメートル又はメートル範囲の精密さでよい（即ち、位置は、センチメートル又は場合によってはメートルを基準にした精密さでよい）。モバイルデバイスからの位置情報により識別される位置にも同じことが言える。モバイルデバイスからの位置情報により識別される位置もまた、ミリメートル、センチメートル又は場合によってはメートルを基準にした精密さでよい。特に、判断した位置及び位置情報が、メートルだけを基準にした精密さでもよい。この場合、例えば、異なるモバイルを装着している異なるユーザは、位置情報及び／又は判断した情報に基づき、区別できない場合がある。

ユーザ識別情報及び／又は位置情報は、モバイルデバイスにより直接受信されてもよいし、又は、モバイルデバイスにより間接的に受信されてもよい。上述のように、モバイルデバイスは、無線又は有線通信を介して、直接受信してもよい。モバイルデバイスは、サードパーティサービスとの通信を介して、間接的に受信してもよい。例えば、モバイルデバイスは、サードパーティサービスにユーザ識別情報及び／又は位置情報を送信し、装置はサードパーティサービスからユーザ識別情報及び／又は位置情報を取得してもよい。

一部の実施形態において、装置のユーザ全てが、自分自身のモバイルデバイスを有してもよい。モバイルデバイスは、ユーザ識別情報及び位置情報を、装置に供給する。

モバイルデバイスは、モバイルデバイス（スマートフォン、モバイルステーション、タブレットコンピュータ、デジタルカメラ、インテリジェントガラス、インテリジェントクロック又は他のあらゆるモバイル電子機器）でよく、あるいは、ウェアラブルデバイス（リストバンド、ネックバンド、エレクトロニックパッチ又は他のあらゆるウェアラブル電子機器）でもよい。一部の実施形態において、モバイルデバイスは、リストバンドとしての「フォームファクター」をもつ（例えば、生体認証しない）クリプトウェアラブルである。

前記モバイルデバイスは、位置を判断し、前記判断した位置を示す位置情報を供給するよう構成される。前記回路は、前記位置情報を受信するようにさらに構成される。

一部の実施形態において、モバイルデバイスは、ＧＰＳ（ｇｌｏｂａｌｐｏｓｉｔｉｏｎｉｎｇｓｙｓｔｅｍ）等、及び／又は、屋内位置を算定する高度な屋内位置技術（一般に公知なように、例えば、ＵＷＢ（ＵｌｔｒａＷｉｄｅＢａｎｄ）を使用した位置算定、磁気／Ｗｉｆｉフィンガープリンティングを使用した位置算定、ＩＭＵ（ｉｎｅｒｔｉａｌｍｅａｓｕｒｅｍｅｎｔｕｎｉｔ）を基準とした位置特定を使用した位置算定又は他のあらゆる屋内位置追跡技術）を使用してもよい。

一般に、（地磁気）磁気フィンガープリンティングは、地球の磁場が、例えば、建物（例えば、家の部屋の中）の鉄を含む部位により特徴的に歪むという事実を利用している。

一部の実施形態において、モバイルデバイスは、磁気フィンガープリンティングを使用して、モバイルデバイスの位置を算定してもよい。例えば、モバイルデバイスは、地球磁場のサンプル測定値を取ったり、又は、別のデバイスからそれぞれの磁気情報を取得したりすればよい。そして、モバイルデバイスは、これらを比較したり、又は、一般に公知なように、これと、対応するエリア又は建物の磁気マップとを比較したりすればよい。

Ｗｉｆｉフィンガープリンティングも同様に動作する。環境のＷｉｆｉパターン（フィンガープリント）は、以下の様に判断及び記憶することができる。一般に公知なように、後の時点で、環境のＷｉｆｉパターンを判断することにより、モバイルデバイスの現在の位置を判断することができる。

一部の実施形態において、モバイルデバイスがフィンガープリントを取得してもよい。フィンガープリントは、位置を算定するための複数の成分（磁気成分、Ｗｉｆｉ強度成分、聴覚特徴成分等）を含んでもよい。一般に公知なように、位置を算定するための成分は、特定の位置に関連付けられ、ユーザ位置の算定に使用されてもよい。

超広帯域（ＵＷＢ）ラジオは、通常より比較的大きい帯域（例えば、５００ＭＨｚより大きい）を有してよい。大きな帯域は、信頼性を上げることもある。何故なら、典型的には、信号が異なる周波数成分を含み、これにより、一部の周波数成分が障壁を通和する又は障壁の周囲を通ることができる可能性が上がるためである。これにより、射程の精密さを上げることができる。位置算定は、到着角度、信号強度及び／又は時間遅延の検出を含んでもよい。

様々な信号変調（ｐｕｌｓｅｐｏｓｉｔｉｏｎｍｏｄｕｌａｔｉｏｎ（ＰＰＭ）、ｏｎ−ｏｆｆＫｅｙｉｎｇ（ＯＯＫ）、ｐｕｌｓｅａｍｐｌｉｔｕｄｅｍｏｄｕｌａｔｉｏｎ（ＰＡＭ）、ａｎｄｐｕｌｓｅｗｉｄｔｈｍｏｄｕｌａｔｉｏｎ（ＰＷＭ）等）をＵＷＢに使用してもよい。

一般に公知なように、ＩＭＵに基づく位置特定は、モバイルデバイスの位置を算定するために、加速度計、ジャイロスコープ及び他のセンサを組み合わせて使用することを含んでもよい。

前記モバイルデバイスは、前記モバイルデバイスを装着するユーザを判断又は識別し、前記判断したユーザを示すユーザ識別情報を供給するよう構成される。前記回路は、前記ユーザ識別情報を受信するようにさらに構成される。

例えば、モバイルデバイスは、例えば、顔認識、指紋検出、ユーザパスワード入力等により、オーナーを識別又は認証可能でも良い。及び／又は、モバイルデバイスは、（ユーザが）装着していることを認知してもよい。モバイルデバイスは、例えば、モバイルデバイス取り外されたことを検出可能である（例えば、リストバンドの場合、ブレスレットを開いたことを検出可能である等）ので、装着を認知可能である。

モバイルデバイスは、フリクションレスな認証によりオーナーを認証可能でもよい。一実施形態によれば、フリクションレスな認証は、ユーザを示すコンテクストを構築する多様なソースからの情報を使用することを含む。例えば、フリクションレスな認証は、生理的なパラメータ（心拍数、血圧等）をモニタすること、及び／又は、ユーザの習慣、環境及び／又はより長期間に亘る振る舞いをモニタすること等を含んでもよい。

一部の実施形態において、ユーザを認証するために、複数の技術を組み合わせて適用してもよい。

さらに、例えば、機密度に応じて、異なるアプリケーション、サービス又はデバイスにアクセスするための、異なる認証閾値を実装してもよい。一部の実施形態において、機密レベルが算出される。機密レベルは、ユーザが正確に識別されたことの機密性を示す。機密レベルは、その後、適切な認証閾値と比較してもよい。例えば、認証閾値を上げることにより、ユーザのふりをする偽者である可能性が減る。従って、より高い機密性が必要である場合、より高い認証閾値を適用すればよい。

モバイルデバイスは、例えば、無線通信により（無線ＬＡＮを介して、赤外線を介して、Ｂｌｕｅｔｏｏｔｈ（登録商標）を介して等）、又は有線（例えば、ＵＳＢ（ｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ）接続等）により、装置と通信可能でもよい。

前記モバイルデバイスは、ユーザ入力を受信し、ユーザ入力情報を供給するよう構成される。前記回路は、前記ユーザを識別するため、前記ユーザ入力情報を受信するようにさらに構成される。

例えば、モバイルデバイスは、入力センサ、タッチセンサ等を有する。入力センサ、タッチセンサ等は、例えば、ユーザがモバイルをタップしてこれによりユーザ入力を行うようなタッチイベントを検出可能である。

一部の実施形態において、回路は、スピーチ認識を実行するようにさらに構成される。これにより、装置は、ユーザにより発話されたスピーチコマンドを理解し実行すればよい。

前記回路は、前記モバイルデバイスと通信するようにさらに構成されてもよい。上述のように、回路は、無線（例えば、無線ＬＡＮ、赤外線、Ｂｌｕｅｔｏｏｔｈ等）、又は有線（例えば、ＵＳＢ（ｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ）、ファイアワイア等）でモバイルデバイスと通信可能なインタフェースを有してもよい。例えば、回路は、このインタフェースを用いて、モバイルデバイスから、ユーザ識別情報、位置情報、ユーザ入力情報、付加的なサウンドデータ等を受信する。

一部の実施形態において、前記モバイルデバイスのマイクロフォンを介して、付加的なサウンドデータを生成する。従って、ユーザは、モバイルデバイスのマイクロフォンに発話すればよい。モバイルデバイスのマイクロフォンを介して生成された付加的なサウンドデータは、モバイルデバイス又は装置によりユーザを識別するのに使用してよい。従って、一実施形態において、付加的なサウンドデータは、ユーザを識別するために、装置に送信されてよい。別の各実施形態において、モバイルデバイスは、識別したユーザに関する情報を、装置に送信してよい。従って、一部の実施形態において、装置は、２タイプのサウンドデータを取得する。第１のタイプのサウンドデータは、例えば、マイクロフォンに基づき生成される。第２のタイプのサウンドデータは、モバイルデバイスから受信される。

一部の実施形態において、前記回路は、前記モバイルデバイスからの前記ユーザ入力情報をリクエストするようにさらに構成される。上述のように、モバイルデバイスは、ユーザ入力を受信可能でよい。例えば、装置は、モバイルデバイスへ入力するようユーザに促す。これにより、ユーザを識別可能である。

一部の実施形態において、前記回路は、前記ユーザを識別するため、顔認識データをリクエストするようにさらに構成される。これによっても、ユーザを識別可能である。上述のように、装置は、カメラ等を有してもよい。あるいは、カメラを装置に接続してもよい。これにより、ユーザがカメラを見るとき、ユーザの顔を認識すればよい。顔認識は、一般に公知である。

上述したように、２人以上のユーザが装置の近くにいる場合がある。この場合、装置は、受信したサウンド信号及び位置情報だけに基づき、ユーザを（確実に）識別（又は認証）出来ない可能性がある。従って、回路は、第１のモバイルデバイスから第１の位置情報を受信し、第２のモバイルデバイスから第２の位置情報を受信すればよい。特に、判断される位置及び位置情報がメートル（又は数センチメートル）を基準にした精密さでしかない場合、例えば、第１／第２の位置情報に基づき、異なるモバイルを装着している異なるユーザを区別できない可能性がある。従って、回路は、第１の位置情報及び第２の位置情報が同じ位置を示す場合、ユーザ入力、顔認識及び／又はモバイルデバイスのマイクロフォンに対する発話をリクエストするようにさらに構成されればよい。さらなる識別情報（例えば、ユーザ入力、顔認識及び／又はモバイルデバイスのマイクロフォンに対する発話）をリクエストすることにより、サウンドデータ中のスピーチが由来するユーザを識別すればよい。

一部の実施形態において、発話しているユーザ（即ち、サウンドデータにスピーチが含まれるユーザ）をより良く識別するために、上述のように、発話しているユーザ（「発話者」）を識別するために、装置は、異なる複数のソースからの異なる情報を組み合わせてもよい。

一部の各実施形態は、上述のように、ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する方法に関する。方法は、さらに、前記サウンドデータに基づき、少なくとも１個のユーザ識別情報を、前記ユーザの前記判断した位置と関連付け、前記少なくとも１個のユーザ識別情報及び前記ユーザの前記判断した位置を、前記モバイルデバイスから受信した前記ユーザ識別情報及び前記位置情報と比較することにより、前記ユーザを識別してよい。上述のように、装置（又は装置の回路）、プロセッサ、コンピュータ、タブレットコンピュータ、サーバ、リモートサーバ、スマートフォン等、他のあらゆるタイプの電子機器により、前記方法を実行してよい。

上述のように、前記方法は、前記ユーザの前記位置を判断することは、前記ユーザの方向及び／又は距離を判断してよい。上述のように、前記方法は、さらに、スピーチ認識を実行してよい。上述のように、前記方法は、さらに、前記モバイルデバイスと通信してよい。上述のように、前記モバイルデバイスは、位置を判断し、前記判断した位置を示す位置情報を供給するよう構成され、前記方法は、さらに、前記位置情報を受信してよい。上述のように、前記モバイルデバイスは、前記モバイルデバイスを装着するユーザを判断又は識別し、前記判断したユーザを示すユーザ識別情報を供給するよう構成され、前記方法は、さらに、前記ユーザ識別情報を受信してよい。上述のように、前記ユーザを識別するのに使用する、前記モバイルデバイスのマイクロフォンを介して付加的なサウンドデータを生成してよい。前記モバイルデバイスは、ユーザ入力を受信し、ユーザ入力情報を供給するよう構成されてよい。上述のように、前記方法は、さらに、前記ユーザを識別するため、前記ユーザ入力情報を受信してよい。上述のように、前記方法は、さらに、前記モバイルデバイスからの前記ユーザ入力情報をリクエストしてよい。上述のように、前記ユーザを識別するため、顔認識データをリクエストしてよい。

ここで説明した方法は、一部の実施形態において、コンピュータプログラムにより実現可能である。コンピュータ及び／又はプロセッサ及び／又は回路がコンピュータプログラムを実行するとき、コンピュータプログラムは、コンピュータ及び／又はプロセッサ及び／又は回路にこの方法を実行させる。一部の実施形態において、コンピュータプログラムプロダクトを記憶する非一過性のコンピュータ読み取り可能な記録媒体を用意する。プロセッサ及び／又は回路（上述のようなプロセッサ及び／又は回路等）がコンピュータプログラムプロダクトを実行するとき、コンピュータプログラムプロダクトは、上述の方法を実行する。

図１を再び参照する。図１は、一実施形態に係る、ウェアラブルデバイス２（右側）と通信するエージェント装置１（左側）を示す。本実施形態において、ウェアラブルデバイス２は、リストバンド２である。以下の各実施形態において、モバイルデバイスに基づき本開示を説明する。この点は本開示を限定するものでは無い。モバイルデバイスは、典型的にはウェアラブルデバイスである。

エージェント装置１は、回路１１を有する。図２の（ａ）は回路１１を示し、回路１１は後で詳細に説明する。

回路１１は、複数のマイクロフォン１２のアレイを有する。図１は、３個のマイクロフォン１２を例示する。３個のマイクロフォン１２は、エージェント装置１の周縁に、互いに規定の距離をあけて配置されている。本実施形態において、エージェント装置１は円筒形である。この点は本開示を限定するものでは無い。

さらに、カメラ１３が設けられる。カメラ１３は、カメラ１３の前にいるユーザの画像又は動画を撮影することができる。カメラ１３は、さらに、ユーザの顔認識にも使用することができる。本実施形態において、カメラ１３は、ＣＭＯＳ（ｃｏｍｐｌｅｍｅｎｔａｒｙｍｅｔａｌｏｘｉｄｅｓｅｍｉｃｏｎｄｕｃｔｏｒ）に基づく。この点は本開示を限定するものでは無い。

エージェント装置１は、さらに、上部にラウドスピーカ１４を有する。ラウドスピーカ１４は、サウンドを出力し、例えば、さらに、ユーザとコミュニケーションする。

リストバンド２は、回路２０を有する。回路２０は、マイクロフォン２１と、タッチ検出可能領域２２、即ち、タッチパッド２２とを有する。タッチパッド２２は、ユーザがタッチパッド２２をタップすると、ユーザ入力を受け付ける。図２の（ｂ）は回路２０を示し、回路２０は後で詳細に説明する。

エージェント装置１及びリストバンド２は、ワイヤレスリンクを介して通信可能である。ワイヤレスリンクは、無線ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ等により提供される。

さらに、リストバンド２は、リストレット２３を有する。リストレット２３は、２個の留め金２４ａ及び２４ｂにより閉塞される。

以下、エージェント装置１の回路１１は、図２の（ａ）を参照して模式的に説明する。

回路１１は、さらに、プロセッサ１５（１以上のプロセッサを含む）を有する。プロセッサ１５は、複数のマイクロフォン１２、カメラ１３、ラウドスピーカ１４、インタフェース１６、ランダムアクセスメモリ（ＲＡＭ）１７及びデータベース１９を含むストレージ１８に接続される。本実施形態において、ストレージ１８はハードディスクである。この点は本開示を限定するものでは無い。

一部の実施形態において、エージェント装置１は、付加的な入力手段（例えば、キーボード、マウス、タッチパッド等）及び付加的な出力手段（例えば、ディスプレイ、ＬＥＤ等）を有する。

インタフェース１６は、有線及び無線（Ｂｌｕｅｔｏｏｔｈ及び無線ＬＡＮ）で通信可能である。これにより、インタフェース１６は、インターネット、（ホーム）ネットワーク及び電子機器（リストバンド２等）と通信可能である。

データベース１９は、例えば、ユーザプロファイルの形式で、エージェント装置１のユーザに関する情報を含んでもよい。各ユーザに対して、固有のユーザプロファイルがデータベース１９に記憶される。

ユーザプロファイルは、ユーザ識別情報（例えば、名前、住所、誕生日）を含む。ユーザプロファイルは、上述したように、話者認識に基づきユーザを識別する声特性を含む。

以下、図２の（ｂ）を参照し、リストバンド２の回路２０を模式的に説明する。

回路２０は、プロセッサ２３（１以上のプロセッサを含む）を有する。プロセッサ２３は、マイクロフォン２１、タッチパッド２２、位置センサ２４、留め金センサ２５及びインタフェース２６に接続される。

位置センサ２４は、リストバンド２の位置を判断する。本例において、上述のように、位置センサ２４は、屋内の位置を判断するためのＵＷＢセンサ及びＧＰＳ（ｇｌｏｂａｌｐｏｓｉｔｉｏｎｉｎｇｓｅｎｓｏｒ）を有する。この点は本開示を限定するものでは無い。

留め金センサ２５は、例えば、公知のように磁力センサ又はメカニカルセンサに基づき、２個の留め金２４ａ及び２４ｂが閉塞しているか否かを検出可能である。

インタフェース２６は、無線通信（Ｂｌｕｅｔｏｏｔｈ及び無線ＬＡＮ）及び有線通信を実行可能である。本例では、有線通信はＵＳＢ（ｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ）を用いる。この点は本開示を限定するものでは無い。

これにより、エージェント装置１及びリストバンド２は、相互に無線通信可能である（必要に応じて、有線）。

以下、図３を参照し、エージェント装置１及び２人のユーザ３０ａ及び３０ｂのユースケースの典型的な構成を説明する。図４を参照し、エージェント装置１がリストバンド２と共に実行する方法４０を説明する。

エージェント装置１は、部屋３１内に位置する。本例では、２人のユーザ３０ａ及び３０ｂは遠く離れている。

ユーザ３０ａは、発話しており、例えば、コマンドを言うユーザである。ユーザ３０ａが発生した音波３２は、部屋３１の中を進行し、エージェント装置１の複数のマイクロフォン１２により検出される。４１で、複数のマイクロフォン１２は音波３２を受信する。４２で、回路１１は、音波３２に基づきサウンドデータを生成する。従って、サウンドデータは、ユーザ３０が発話したスピーチコマンドも含む。

４３で、回路１１は、サウンドデータ又はボイスパターンに含まれる声特性を検出するために、サウンドデータを分析する。回路１１は、これを、データベース１９に記憶されたユーザプロファイルに記憶された声特性と比較する。

本例において、サウンドデータ内から検出された声特性とマッチする２個のユーザ識別情報（即ち、ユーザ３０ａ及びユーザ３０ｂの識別情報）が、データベース１９内から検出される。

４４において、上述のように、エージェント装置１は、音波３２の方向及びユーザ３０ａの距離を判断することにより、受信した音波に基づき、ユーザ３０ａの位置３３を判断する。

４５において、エージェント装置１は、ユーザ３０ａ及び３０ｂの２個のユーザ識別情報を、４４で判断した位置３３と関連付ける。上述のように、位置判断の精密さの不足により、位置３３は或る程度の大きさを有する。これを、直径約２メートルのエリアを囲む楕円形の線３３で示す。

上述のように、ユーザ３０ａは、ウェアラブルデバイス２を装着する。ユーザ３０ｂは、技術的観点からウェアラブルデバイス２に対応するウェアラブルデバイス２'を装着する。

４６において、エージェント装置１は、ウェアラブルデバイス２及び２'と無線通信する。

４７において、エージェント装置１は、ウェアラブルデバイス２及び２'から位置情報及びユーザ識別情報を受信する。本実施形態において、エージェント装置１並びにウェアラブルデバイス２及び２'は、互いに定期的に通信する。しかしながら、別の各実施形態において、エージェント装置１は、ユーザ識別情報及び／又は位置情報を受信するために、データベース１９に登録されたウェアラブルデバイスにリクエストを送信してもよい。

音波３２を生成しているユーザ３０ａのウェアラブルデバイス２は、ウェアラブルデバイス２の位置３４を判断する。位置３４も、精密さの不足により、或る程度の大きさを有する（例えば、位置３４も、直径約２メートル）。しかしながら、図３に示すように、エージェント装置１が判断した位置３３と、ウェアラブルデバイス２が判断した位置３４とは、重なり合う。

ユーザ３０ｂのウェアラブルデバイス２'は、ウェアラブルデバイス２'の位置３５を判断する。位置３５も、精密さの不足により、或る程度の大きさを有する（例えば、位置３５も、直径約２メートル）。しかしながら、図３に示すように、エージェント装置１が判断した位置３３と、ウェアラブルデバイス２'が判断した位置３５とは、重なり合わない。

４８において、エージェント装置１は、４３において検出した２個のユーザ識別情報及び４４において判断したユーザ３０ａの位置と、４７において受信したユーザ識別情報及び位置情報とを、互いに比較する。

これにより、エージェント装置１は、判断したユーザ識別情報及びユーザ３０ａの判断した位置情報と、ウェアラブルデバイス２から受信したユーザ識別情報及び位置情報が示す位置とが、マッチすると判断する。

従って、これにより、４１において受信した音波３２に基づき、ユーザ３０ａを、４２において生成したサウンドデータに含まれるスピーチコマンドを出した又は発声したユーザとして識別する。

５０において、エージェント装置１は、スピーチ認識を実行し、実行したスピーチ認識に基づき、サウンドデータに含まれるコマンドを実行する。

以下、図５乃至９を参照し、上述のようなエージェント装置１及び少なくとも１個のウェアラブルデバイス２と、上述のような図３の一般的な構成とを使用する５個のユースケースシナリオを説明する。

図５は、方法６０を示す。エージェント装置１並びにウェアラブルデバイス２及び２'が方法６０を実行する。

６１において、「Ｔｏｍ」という名前のユーザ３０ａ（図３）は、エージェント装置１に発話し、これにより、音波３２を生成する。

６２において、上述のように、エージェント装置１は、音波３２を受信することにより、Ｔｏｍからの声をピックアップする。

６３において、エージェント装置１の話者認識は、話者がＴｏｍ（ユーザ３０ａ）又はＤａｎ（ユーザ３０ｂ、図３）であると結論付ける。即ち、エージェント装置１は、例えば、ＤａｎとＴｏｍの声特性が似すぎているか、あるいは別の理由により、話者がＴｏｍであると結論付けることができない。

Ｔｏｍは、ウェアラブルデバイス２（図２）を装着している。６４において、例えば、留め金センサ２５が留め金２４ａ及び２４ｂが閉塞していると検出することにより、Ｔｏｍのウェアラブルデバイス２は、Ｔｏｍがウェアラブルデバイス２を装着していることを認知する。さらに、Ｔｏｍは、ウェアラブルデバイス２のユーザとして登録される。Ｔｏｍは、例えば、ウェアラブルデバイス２を装着した際にコード等を入力したことにより、認証されていてもよい。

６５において、Ｔｏｍのウェアラブルデバイス２は、Ｔｏｍの位置３４（図３）を算定し、エージェント装置１に算定した位置を送信する。

６６において、Ｄａｎのウェアラブルデバイス２'も、Ｄａｎの位置を算定し、エージェント装置１に算定した位置を送信する。

６７において、エージェント装置１は、マイクロフォンアレイ１２を用いてキャプチャしたサウンドから、話者の方向及び距離を算定する。図３を参照して上述したように、これにより、エージェント装置１は、ユーザ位置３３を算定する。

６８において、エージェント装置１並びに２個のウェアラブルデバイス２及び２'により算定された位置同士を比較することにより、エージェント装置１は、Ｔｏｍを、発話しているユーザ３０ａとして識別する。

図６は、方法７０を示す。エージェント装置１並びにウェアラブルデバイス２及び２'が方法７０を実行する。

７１において、Ｔｏｍ（ユーザ３０ａ、図３）は、上述のように、エージェント装置１に発話し、これにより、音波３２を生成する。

７２において、上述のように、エージェント装置１は、音波３２を受信することにより、複数のマイクロフォン１２を介してＴｏｍからの声データをピックアップする。

７３において、上述のように、エージェント装置１の話者認識は、話者がＴｏｍ又はＤａｎ（ユーザ３０ｂ、図３）であると結論付ける。

７４において、Ｔｏｍは、ウェアラブルデバイス２を装着している。Ｔｏｍのウェアラブルデバイス２は、上述のように、Ｔｏｍがウェアラブルデバイス２を装着していることを認知する。

７５において、上述のように、Ｔｏｍのウェアラブルデバイス２は、ウェアラブルデバイス２が部屋３１内にあると認知する。ウェアラブルデバイス２は、エージェント装置１にそれぞれの位置情報を送信する。

７６において、Ｄａｎは部屋内に居ない。しかしながら、Ｄａｎのウェアラブルデバイス２'は、Ｄａｎの位置を追跡している。ウェアラブルデバイス２'は、上述のように、ウェアラブルデバイス２'の位置をエージェント装置１に送信する（例えば、サードパーティのクラウドサービスを介して）。

７７において、上記のステップに基づき、エージェント装置１は、Ｔｏｍを、発話しているユーザとして識別する。

図７は、方法８０を示す。エージェント装置１並びにウェアラブルデバイス２及び２'が方法８０を実行する。

８１において、Ｔｏｍ（ユーザ３０ａ、図３）は、上述のように、エージェント装置１に発話し、これにより、音波３２を生成する。

８２において、上述のように、エージェント装置１は、音波３２を受信することにより、Ｔｏｍからの声データをピックアップする。

８３において、エージェント装置１の話者認識は、話者がＴｏｍ又はＤａｎであると結論付ける。即ち、エージェント装置１は、上述のように、話者がＴｏｍであると結論付けることができない。

８４において、Ｔｏｍは、ウェアラブルデバイス２を装着している。Ｔｏｍのウェアラブルデバイス２は、上述のように、Ｔｏｍがウェアラブルデバイス２を装着していることを認知する。

８５において、Ｔｏｍのウェアラブルデバイスは、ウェアラブルデバイスの位置３４を算定し、位置３４をエージェント装置１に送信する。

このシナリオにおいて、Ｄａｎ（ユーザ３０ｂ、図３）はＴｏｍの近くに立っている。このため、それぞれのウェアラブルデバイス２及び２'が判断した位置同士（位置エリア同士）が重なり合う。

８６において、Ｄａｎは、ウェアラブルデバイス２'を装着している。Ｄａｎのウェアラブルデバイスは、上述のように、Ｄａｎがウェアラブルデバイスを装着していることを認知する。

８７において、Ｄａｎのウェアラブルデバイスは、ウェアラブルデバイスの位置３５を算定する。上述のように、ウェアラブルデバイスは、エージェント装置１に位置情報を送信する。

８８において、上記のステップに基づき、エージェント装置１は、算定した位置３４及び３５が重なり合うため、ＴｏｍとＤａｎとを未だ判別することができない。

８９において、エージェント装置１は、ウェアラブルデバイスを介して、Ｔｏｍの（又はＤａｎの）確認を要求する。例えば、エージェント装置１は、Ｔｏｍ又はＤａｎに、ウェアラブルデバイス２（又は２'）をタップさせる。

９０において、エージェント装置１は、ウェアラブルデバイス（２又は２'）をタップしている人／ユーザを、発話したユーザとして識別する。

一部の実施形態において、ウェアラブルデバイスは位置判断する必要が無くてもよい。例えば、ユーザを識別するために、ウェアラブルデバイスを例えばタップするようユーザに単に要求する。

図８は、方法１００を示す。エージェント装置１並びにウェアラブルデバイス２及び２'が方法１００を実行する。

１０１において、Ｔｏｍ（ユーザ３０ａ、図３）（又はＤａｎ、ユーザ３０ｂ、図３）は、上述のように、エージェント装置１に発話し、これにより、音波３２を生成する。

１０２において、上述のように、エージェント装置１は、音波３２を受信することにより、Ｔｏｍ（又はＤａｎ）からの声データをピックアップする。

１０３において、エージェント装置１の話者認識は、話者がＴｏｍ又はＤａｎであると結論付ける。即ち、エージェント装置１は、上述のように、話者がＴｏｍであると結論付けることができない。

１０４において、Ｔｏｍは、ウェアラブルデバイス２を装着している。Ｔｏｍのウェアラブルデバイス２は、上述のように、Ｔｏｍがウェアラブルデバイス２を装着していることを認知する。

１０５において、上述のように、Ｔｏｍのウェアラブルデバイスは、ウェアラブルデバイスの位置３４を算定し、位置３４をエージェント装置１に送信する。

このシナリオにおいて、Ｄａｎ（ユーザ３０ｂ）は部屋３１内に居ない。Ｄａｎは、ウェアラブルデバイス２'を装着していない。このため、エージェント装置１は、Ｄａｎの位置を認知しない。

従って、この場合、１０６において、上述のように、エージェント装置１は、例えば、ウェアラブルデバイス２をタップすることでのＴｏｍの確認を要求する。あるいは、上述のように、エージェント装置１は、（未認知の）ユーザにエージェント装置１まで来させ、カメラ２３を用いて顔認識を実行する。

１０７において、エージェント装置１が、ウェアラブルデバイス２のタップによるＴｏｍの確認を認識すると、エージェント装置１は、Ｔｏｍが発話していることを認知する。

１０８において、エージェント装置１がＴｏｍ又はＤａｎの顔認識の実行に成功すると、エージェント装置１は、Ｔｏｍ又はＤａｎが発話していると認知する。

これにより、発話しているユーザ（Ｔｏｍ又はＤａｎ）が正確に識別される。

図９は、方法１１０を示す。エージェント装置１並びにウェアラブルデバイス２及び２'が方法１１０を実行する。

１１１において、Ｔｏｍ（ユーザ３０ａ）は、上述のように、エージェント装置１に発話し、これにより、音波３２を生成する。

１１２において、上述のように、エージェント装置１は、音波３２を受信することにより、Ｔｏｍからの声データをピックアップする。

１１３において、エージェント装置１の話者認識は、話者がＴｏｍ又はＤａｎであると結論付ける。即ち、エージェント装置１は、上述のように、話者がＴｏｍであると結論付けることができない。

１１４において、Ｔｏｍは、ウェアラブルデバイス２を装着している。Ｔｏｍのウェアラブルデバイス２は、上述のように、Ｔｏｍがウェアラブルデバイス２を装着していることを認知する。

このシナリオにおいて、Ｄａｎも、部屋内に居て、ウェアラブルデバイス２'を装着している。１１５において、Ｄａｎのウェアラブルデバイス２'は、Ｄａｎがウェアラブルデバイス２'を装着していることを認知する。

このシナリオにおいて、Ｔｏｍ及びＤａｎのウェアラブルデバイス２及び２'の両者は、それぞれ、マイクロフォン（１２、図２の（ｂ））を有する。

１１６において、Ｔｏｍが発話するとき、Ｔｏｍ及びＤａｎのウェアラブルデバイス２及び２'の両者は、それぞれ、サウンド（声）を記録する。

１１７において、ウェアラブルデバイス２及び２'の両者は、付加的なサウンドデータとしてのサウンドの記録を、エージェント装置１に送信する。

１１８において、両者のサウンドの記録に基づき、即ち、付加的なサウンドデータに基づき、エージェント装置１は、誰が発話しているかを判別可能でもよい。

例えば、記録されたサウンドのうち発話した声に相当するサウンドの音量に（大きな）差がある（例えば、所定の閾値より大きい）場合、エージェント装置１は、ウェアラブルデバイスを装着している人を判別することができ、記録された声が最大音量の人が話者であると判別することができる。

なお、各実施形態で説明した方法において、方法ステップの順序は例示である。しかしながら、方法ステップの具体的な順序は、単に例示目的であり、拘束力があるとは解釈されない。例えば、図４の実施形態の４５及び４６の順序は交換可能である。同様に、図５の実施形態の６３、６４及び６５の順序は交換可能である。さらに、図６の実施形態の７３及び７４の順序も交換可能である。方法ステップの順序の他の変更も、当業者は明らかでよい。

なお、回路１１を複数のユニット１５乃至１９に分割するのは単に例示目的である。本開示は、機能を具体的なユニットに分割する如何なる具体的な分割にも限定されない。例えば、回路１１は、プログラミングされたプロセッサ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）等により実装され得る。

ここで説明した方法は、コンピュータプログラムにより実現可能である。コンピュータ及び／又はプロセッサ及び／又は回路がコンピュータプログラムを実行するとき、コンピュータプログラムは、コンピュータ及び／又はプロセッサ及び／又は回路（上述のプロセッサ１５又は２３及び／又は回路１１又は２１等）にこの方法を実行させる。一部の実施形態において、コンピュータプログラムプロダクトを記憶する非一過性のコンピュータ読み取り可能な記録媒体を用意する。プロセッサ（上述のようなプロセッサ等）がコンピュータプログラムプロダクトを実行するとき、コンピュータプログラムプロダクトは、上述の方法を実行する。

本明細書及び特許請求の範囲に記載の請求項に記述した全てのユニット及び要素は、特記しない限り、集積回路論理（例えば、チップ上）として実装可能である。このユニット及び要素により提供される機能は、特記しない限り、ソフトウェアにより実装可能である。

少なくとも一部がソフトウェア制御のデータ処理装置を用いて本開示の上述の各実施形態を実装する限りにおいて、このソフトウェア制御を提供するコンピュータプログラムと、このコンピュータプログラムを提供する伝送、ストレージ又は他の媒体とは、本開示の実施形態として想定される。

なお、本技術は、以下の構成を取ることも出来る。
（１）ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、
前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する
よう構成される回路
を具備する装置。
（２）項（１）に記載の装置であって、
前記回路は、前記サウンドデータに基づき、少なくとも１個のユーザ識別情報を、前記ユーザの前記判断した位置と関連付けるようにさらに構成され、
前記少なくとも１個のユーザ識別情報及び前記ユーザの前記判断した位置を、前記モバイルデバイスから受信した前記ユーザ識別情報及び前記位置情報と比較することにより、前記ユーザを識別する
装置。
（３）項（１）又は（２）に記載の装置であって、
前記ユーザの前記位置を判断することは、前記ユーザの方向及び距離の少なくとも一方を判断することを含む
装置。
（４）項（１）乃至（３）の何れか一項に記載の装置であって、
前記回路は、前記モバイルデバイスと通信するようにさらに構成される
装置。
（５）項（１）乃至（４）の何れか一項に記載の装置であって、
前記モバイルデバイスは、位置を判断し、前記判断した位置を示す位置情報を供給するよう構成され、
前記回路は、前記位置情報を受信するようにさらに構成される
装置。
（６）項（１）乃至（５）の何れか一項に記載の装置であって、
前記モバイルデバイスは、前記モバイルデバイスを装着するユーザを識別し、前記判断したユーザを示すユーザ識別情報を供給するよう構成され、
前記回路は、前記ユーザ識別情報を受信するようにさらに構成される
装置。
（７）項（１）乃至（６）の何れか一項に記載の装置であって、
前記モバイルデバイスのマイクロフォンを介して生成した付加的なサウンドデータを、前記ユーザを識別するのに使用する
装置。
（８）項（１）乃至（７）の何れか一項に記載の装置であって、
前記モバイルデバイスは、ユーザ入力を受信し、ユーザ入力情報を供給するよう構成され、
前記回路は、前記ユーザを識別するため、前記ユーザ入力情報を受信するようにさらに構成される
装置。
（９）項（１）乃至（８）の何れか一項に記載の装置であって、
前記回路は、前記モバイルデバイスからの前記ユーザ入力情報をリクエストするようにさらに構成される
装置。
（１０）項（１）乃至（９）の何れか一項に記載の装置であって、
前記回路は、前記ユーザを識別するため、顔認識データをリクエストするようにさらに構成される
装置。
（１１）ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、
前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する
方法。
（１２）項（１１）に記載の方法であって、
さらに、前記サウンドデータに基づき、少なくとも１個のユーザ識別情報を、前記ユーザの前記判断した位置と関連付け、
前記少なくとも１個のユーザ識別情報及び前記ユーザの前記判断した位置を、前記モバイルデバイスから受信した前記ユーザ識別情報及び前記位置情報と比較することにより、前記ユーザを識別する
方法。
（１３）項（１１）又は（１２）に記載の方法であって、
前記ユーザの前記位置を判断することは、前記ユーザの方向及び距離の少なくとも一方を判断することを含む
方法。
（１４）項（１１）乃至（１３）の何れか一項に記載の方法であって、
さらに、前記モバイルデバイスと通信する
方法。
（１５）項（１１）乃至（１４）の何れか一項に記載の方法であって、
前記モバイルデバイスは、位置を判断し、前記判断した位置を示す位置情報を供給するよう構成され、
さらに、前記位置情報を受信する
方法。
（１６）項（１１）乃至（１５）の何れか一項に記載の方法であって、
前記モバイルデバイスは、前記モバイルデバイスを装着するユーザを識別し、前記判断したユーザを示すユーザ識別情報を供給するよう構成され、
さらに、前記ユーザ識別情報を受信する
方法。
（１７）項（１１）乃至（１６）の何れか一項に記載の方法であって、
前記モバイルデバイスのマイクロフォンを介して生成した付加的なサウンドデータを、前記ユーザを識別するのに使用する
方法。
（１８）項（１１）乃至（１７）の何れか一項に記載の方法であって、
前記モバイルデバイスは、ユーザ入力を受信し、ユーザ入力情報を供給するよう構成され、
さらに、前記ユーザを識別するため、前記ユーザ入力情報を受信する
方法。
（１９）項（１１）乃至（１８）の何れか一項に記載の方法であって、
さらに、前記モバイルデバイスからの前記ユーザ入力情報をリクエストする
方法。
（２０）項（１１）乃至（１９）の何れか一項に記載の方法であって、
さらに、前記ユーザを識別するため、顔認識データをリクエストする
方法。
（２１）コンピュータが実行するとき、項（１１）乃至（２０）の何れか一項に記載の方法をコンピュータに実行させるプログラムコードを含む
コンピュータプログラム。
（２２）プロセッサが実行するとき、項（１１）乃至（２０）の何れか一項に記載の方法を実行させるコンピュータプログラムプロダクトを記憶する
非一過性のコンピュータ読み取り可能な記録媒体。

Claims

ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、
前記ユーザの前記判断した位置と、モバイルデバイスから受信した、当該モバイルデバイス側で決定した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する
よう構成される回路
を具備する装置。
ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、
前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する
よう構成される回路
を具備する装置であって、
前記回路は、前記サウンドデータに基づき、少なくとも１個のユーザ識別情報を、前記ユーザの前記判断した位置と関連付けるようにさらに構成され、
前記少なくとも１個のユーザ識別情報及び前記ユーザの前記判断した位置を、前記モバイルデバイスから受信した前記ユーザ識別情報及び前記位置情報と比較することにより、前記ユーザを識別する
装置。
請求項１に記載の装置であって、
前記ユーザの前記位置を判断することは、前記ユーザの方向及び距離の少なくとも一方を判断することを含む
装置。
請求項１に記載の装置であって、
前記回路は、前記モバイルデバイスと通信するようにさらに構成される
装置。
請求項１に記載の装置であって、
前記回路は、前記モバイルデバイスから供給された前記モバイルデバイスが判断した当該モバイルデバイスの位置を示す前記位置情報を受信するようにさらに構成される
装置。
請求項１に記載の装置であって、
前記回路は、前記モバイルデバイスから供給された、前記モバイルデバイスを装着するユーザを識別し、前記判断したユーザを示す前記ユーザ識別情報を受信するようにさらに構成される
装置。
請求項１に記載の装置であって、
前記モバイルデバイスのマイクロフォンを介して生成した付加的なサウンドデータを、前記ユーザを識別するのに使用する
装置。
請求項１に記載の装置であって、
前記モバイルデバイスは、ユーザ入力を受信し、ユーザ入力情報を供給するよう構成され、
前記回路は、前記ユーザを識別するため、前記ユーザ入力情報を受信するようにさらに構成される
装置。
請求項８に記載の装置であって、
前記回路は、前記モバイルデバイスからの前記ユーザ入力情報をリクエストするようにさらに構成される
装置。
請求項１に記載の装置であって、
前記回路は、前記ユーザを識別するため、顔認識データをリクエストするようにさらに構成される
装置。
ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、
前記ユーザの前記判断した位置と、モバイルデバイスから受信した、当該モバイルデバイス側で決定した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する
方法。
ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、
前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する方法であって、
さらに、前記サウンドデータに基づき、少なくとも１個のユーザ識別情報を、前記ユーザの前記判断した位置と関連付け、
前記少なくとも１個のユーザ識別情報及び前記ユーザの前記判断した位置を、前記モバイルデバイスから受信した前記ユーザ識別情報及び前記位置情報と比較することにより、前記ユーザを識別する
方法。
請求項１１に記載の方法であって、
前記ユーザの前記位置を判断することは、前記ユーザの方向及び距離の少なくとも一方を判断することを含む
方法。
請求項１１に記載の方法であって、
さらに、前記モバイルデバイスと通信する
方法。
ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、
前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する方法であって、
前記モバイルデバイスは、位置を判断し、前記判断した位置を示す位置情報を供給するよう構成され、
さらに、前記位置情報を受信する
方法。
請求項１１に記載の方法であって、
前記モバイルデバイスは、前記モバイルデバイスを装着するユーザを識別し、前記判断したユーザを示すユーザ識別情報を供給するよう構成され、
さらに、前記ユーザ識別情報を受信する
方法。
請求項１１に記載の方法であって、
前記モバイルデバイスのマイクロフォンを介して生成した付加的なサウンドデータを、前記ユーザを識別するのに使用する
方法。
請求項１１に記載の方法であって、
前記モバイルデバイスは、ユーザ入力を受信し、ユーザ入力情報を供給するよう構成され、
さらに、前記ユーザを識別するため、前記ユーザ入力情報を受信する
方法。
請求項１８に記載の方法であって、
さらに、前記モバイルデバイスからの前記ユーザ入力情報をリクエストする
方法。
請求項１１に記載の方法であって、
さらに、前記ユーザを識別するため、顔認識データをリクエストする
方法。