JP6911938B2 - 装置及び方法 - Google Patents

装置及び方法 Download PDF

Info

Publication number
JP6911938B2
JP6911938B2 JP2019553498A JP2019553498A JP6911938B2 JP 6911938 B2 JP6911938 B2 JP 6911938B2 JP 2019553498 A JP2019553498 A JP 2019553498A JP 2019553498 A JP2019553498 A JP 2019553498A JP 6911938 B2 JP6911938 B2 JP 6911938B2
Authority
JP
Japan
Prior art keywords
user
mobile device
determined
identification information
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019553498A
Other languages
English (en)
Other versions
JP2020512592A (ja
Inventor
ディミトリ タフス
ディミトリ タフス
コーナー アイルワード
コーナー アイルワード
フーゴ エンブレッツ
フーゴ エンブレッツ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JP2020512592A publication Critical patent/JP2020512592A/ja
Application granted granted Critical
Publication of JP6911938B2 publication Critical patent/JP6911938B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/28Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves by co-ordinating position lines of different shape, e.g. hyperbolic, circular, elliptical or radial
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/0009Transmission of position information to remote stations
    • G01S5/0045Transmission from base station to mobile station
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2111Location-sensitive, e.g. geographical location, GPS

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

本開示は、概して、スピーチに基づきユーザを識別する一般的な分野における装置及び方法に関する。
公知の(ホーム)エージェントデバイスは、益々一般的になりつつある。この様なデバイスは、典型的には、声で制御されて、簡単なタスク(例えば、照明の点灯/消灯、音楽の再生、インターネット店舗での物品の購入等)を引き受ける。
しかしながら、この様なデバイスを声で制御するには、ユーザを識別する必要がある。例えば、購入時には、人情報にアクセスしたりする。
デバイスを声で制御する技術は既存であるが、声制御を用いる装置及び方法を改良することが一般的には望ましい。
本開示の第1の側面に係る装置は、ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別するよう構成される回路を具備する。
本開示の第2の側面に係る方法は、ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する。
さらに、各側面は、従属請求項、以下の明細書及び図面に説明される。
本開示の一実施形態に係るエージェント装置及びウェアラブルデバイスを示す。 図1のエージェント装置(a)及びウェアラブルデバイス(b)を模式的に示す。 エージェント装置のユースケースの構成を示し、ウェアラブルデバイスを装着する2人のユーザを示す。 一実施形態に係る方法のフローチャートを示す。 ユースケースシナリオに係る図4の方法のフローチャートを示す。 ユースケースシナリオに係る図4の方法のフローチャートを示す。 ユースケースシナリオに係る図4の方法のフローチャートを示す。 ユースケースシナリオに係る図4の方法のフローチャートを示す。 ユースケースシナリオに係る図4の方法のフローチャートを示す。
添付の図面を参照し、各実施形態を例示的に説明する。
図1を参照して各実施形態の詳細な説明をする前に、一般的な説明を行う。
始めに、一般的に、(ホーム)エージェントデバイスが公知である。エージェントデバイスは、声で制御されて、簡単なタスク(例えば、照明の点灯/消灯、音楽の再生、インターネット店舗での物品の購入等)を引き受ける。
人間の様にリアクションすることができるように、ユーザビリティを改良する(例えば、この種のエージェントは、誰がエージェントに話し掛けているのか識別できるべきである)ことが認識されている。例えば、ユーザ「Tom」が「今日の私のアジェンダには何がある?」と尋ねるとする。すると、Tomのアジェンダをチェックするべきであると知られている。
スピーチデータに基づく発話者認識は、ユーザ識別の実施形態に使用されている。しかしながら、発話者認識の信頼性が低い場合もあるため、環境によっては、発話者認識だけでは2人以上のユーザを区別できない可能性があることも認識されている。ユーザのスピーチだけに基づきユーザを識別できる可能性は高い(例えば、95%より高い、又は100%)。
従って、各実施形態によれば、装置は、ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別するよう構成される回路を具備する。一部の実施形態において、前記回路は、前記サウンドデータに基づき、少なくとも1個のユーザ識別情報を、前記ユーザの前記判断した位置と関連付けるようにさらに構成され、前記少なくとも1個のユーザ識別情報及び前記ユーザの前記判断した位置を、前記モバイルデバイスから受信した前記ユーザ識別情報及び前記位置情報と比較することにより、前記ユーザを識別する。
装置は、(ホーム)エージェント装置でよい。装置は、電子機器(例えば、スマートフォン、パーソナルコンピュータ、タブレットコンピュータ等)でよい。装置は、サーバデバイス/コンピュータでよい。装置は、1個のデバイス内にあってよい。装置は、2以上のデバイスに分散してよい。装置は、リモートコンピュータ(クラウド)等でよい。
一般に公知な電子機器(コンピュータ、スマートフォン等)のように、回路は、プロセッサ、メモリ(RAM、ROM等)、ストレージ、入力手段(マウス、キーボード、カメラ等)、出力手段(ディスプレイ(例えば、液晶、(有機)LED(light emitting diode)等)、ラウドスピーカ等、(無線)インタフェース等を有してよい。さらに、回路は、オーディオ(例えば、1以上のマイクロフォン)、静止画又は動画データ(画像センサ、カメラセンサ、動画センサ等)、指紋、環境パラメータ(例えば、湿度、光、温度)等を検出するセンサを有してよい。
上述のように、回路は、ユーザのスピーチを示すサウンドデータ(又は声データ)に基づき、前記ユーザの位置を判断するよう構成される。例えば、装置の近くで(例えば、コマンドを言うことにより)スピーチを発しているユーザから生じる音波を受信することにより、回路がサウンドデータを生成すればよい。装置が有する又は装置に接続された1以上のマイクロフォンが、サウンドデータを受信すればよい。マイクロフォンは、アレイ、リニア構造等に配置すればよい。マイクロフォンは、例えば、ユーザから生じる複数の音波の複数の異なる遅延時間を判断できる構造であればよい。
装置にサウンドデータを供給するサウンド記録デバイス等が、サウンドデータを供給してもよい。
回路は、サウンドデータに基づき、ユーザの位置を判断することができる。前記ユーザの前記位置を判断することは、前記ユーザの方向及び/又は距離を判断することを含んでよい。音源の位置の判断は、サウンド位置特定又は音源位置特定としても公知である。
ユーザの方向は、例えば、コマンドを言ってこれによりスピーチを生成するユーザが発する複数の音波の異なる遅延時間に基づき判断すればよい。これは、到着時間差法として公知である。互いに距離を認知している2以上のマイクロフォンに基づき、異なる遅延時間を判断すればよい。マイクロフォンアレイの場合、一般に公知なビームフォーミング技術を使用すればよい。
距離及び/又は方向の判断は、例えば、直接的に及び間接的に受信した音波の判断を含んでもよい。直接受信した音波は、例えば、壁で反射しない音波である。間接的な音波は、(少なくとも一度)壁で反射した音波である。直接受信した音波と反射した音波との比は、音源(即ち、発話する(例えば、コマンドを言う)ときに音波を生成するユーザ)の距離を示してよい。
距離及び/又は方向の判断は、サウンドデータ中のスピーチのボリュームの大きさの判断を含んでもよい。何故なら、装置により近い音源(即ち、ユーザ)は、より遠い音源(即ち、ユーザ)よりもボリュームが大きいと考えられるからである。
距離及び/又は方向の判断は、サウンドデータが示すサウンドスペクトルの分析を含んでもよい。何故なら、高周波数は低周波数よりも空気により早く減衰するためであり、従って、音源(即ち、ユーザ)がより遠いほど、高周波数の強度がより低くなるためである。
さらに、ITDG(The Initial Time Delay Gap)と呼ばれる方法を使用してもよい。この方法は、直接の音波の到着時間と、最初に強く反射した音波の装置への到着時間との時間差に基づく。近くの音源(即ち、ユーザ)のITDGは、比較的大きいだろう。何故なら、音源が近い場合に最初の反射が通る道は、音源が装置からさらに離れている場合(直接の音波及び反射した音波の通る道の長さが同じと考えられる)よりも長く掛かると考えられるからである。
さらに、視覚系と同様に聴覚でも、運動視差現象が存在する。運動視差現象とは、装置にとって、近くの音源は、より遠くの音源よりも運動速度が速い(両方の音源の速度が同じと仮定)ことを意味する。
さらに、回路は、トレーニングによるマシーンラーニングに基づき、ユーザ(音源)の距離/方向を判断してもよい。例えば、特に、装置が(少なくとも一時的に)静止しているとき、異なる所定の位置(方向及び/又は距離)に居る具体的なユーザのスピーチサンプルの何れが、装置まで進行するのか、を学習する。典型的には、装置が置かれた部屋は、部屋の構造及び素材によって、音波に所定の影響を与える(即ち、部屋は、所定の音響特性を有する)。このため、マシーンラーニングアルゴリズム(ニューラルネットワーク、ベイズネットワーク等)は、部屋内の位置にもとづき部屋の音響特性が音波に与える影響を学習すればよい。
上記全ての技術と、上記していないが付加的な技術は、それ単体で又は如何なる互いの組み合わせによっても使用できる。
回路は、前記サウンドデータに基づき、少なくとも1個のユーザ識別情報を、前記ユーザの前記判断した位置と関連付ける。回路は、例えば、ユーザプロファイルとして記憶された1以上のユーザ識別情報を有してもよい。各ユーザ識別情報は、具体的なユーザに固有である。ユーザ識別情報は、ユーザを装置に登録することにより生成してもよい(例えば、一般に公知のように、ユーザ名、誕生日、出生地、性別等に基づき)。
さらに、回路は、サウンドデータに基づき、一種の発話者認識を実行してもよい。一般に公知なように、発話者認識は、声の特徴の検出を含んでもよい(声紋認証とも称する)。ユーザのスピーチを示すサウンドデータを、声の特徴を検出するために分析すればよい。この様な特徴が検出されると、特徴を1以上のユーザ識別情報と関連付けることができる。1以上のユーザ識別情報は、装置が既に記憶していたり既知であったりしてもよいし、又は、新たに作成してもよい。さらに、検出した声特性は、既知の(例えば、登録済みの)ユーザの声の記憶済みの特徴と比較してもよい。従って、一部の実施形態において、既知のユーザそれぞれに、声特性が関連付けて記憶される。これにより、声特性に基づき、ユーザを識別することができる。
しかしながら、上述のように、発話者認識は、完璧でないこともある。例えば、装置が、2以上のユーザ識別情報を検出する。従って、サウンドデータに基づき、ユーザの判断した位置に、2以上のユーザ識別情報が関連付けられることが起こり得る。
回路は、前記少なくとも1個のユーザ識別情報及び前記ユーザの前記判断した位置を、前記モバイルデバイスから受信した前記ユーザ識別情報及び前記位置情報と比較することにより、前記ユーザを識別する。
従って、回路は、ユーザ識別情報及び位置情報を供給する第2の情報ソース(即ち、モバイルデバイス)を使用する。
ユーザは、スピーチを生成する。このスピーチは、サウンドデータによって示され、サウンドデータに基づきユーザの位置が判断される。このユーザが、モバイルデバイスから受信したユーザ識別情報により識別されたユーザと同じであり、且つ、モバイルデバイスから受信した位置情報が判断されたユーザ位置と一致する場合、ユーザを識別することができる。この場合、モバイルデバイスを装着しているユーザは、スピーチ(音波)を生成するユーザと同一であると想定される。
しかしながら、モバイルデバイスから受信したユーザ識別情報及び/又は位置情報が一致しないと仮定すると、ユーザは識別されない。
これにより、スピーチコマンドを発声するユーザを(確実に)識別することができる。何故なら、第2のソース情報(モバイルデバイスからの)を、ユーザを正確に識別したかのチェックを実行するのに使用するためである。さらに、これにより、発話者認識だけでは2人以上のユーザ/人を区別できない場合も、異なるユーザ/人を区別できる。
装置が判断する位置は、点でなくてもよく、或る程度の大きさ(例えば、小さなエリアでよい)を有してもよい。位置判断は、一部の実施形態においては数センチメートル又はメートル範囲の精密さでよい(即ち、位置は、センチメートル又は場合によってはメートルを基準にした精密さでよい)。モバイルデバイスからの位置情報により識別される位置にも同じことが言える。モバイルデバイスからの位置情報により識別される位置もまた、ミリメートル、センチメートル又は場合によってはメートルを基準にした精密さでよい。特に、判断した位置及び位置情報が、メートルだけを基準にした精密さでもよい。この場合、例えば、異なるモバイルを装着している異なるユーザは、位置情報及び/又は判断した情報に基づき、区別できない場合がある。
ユーザ識別情報及び/又は位置情報は、モバイルデバイスにより直接受信されてもよいし、又は、モバイルデバイスにより間接的に受信されてもよい。上述のように、モバイルデバイスは、無線又は有線通信を介して、直接受信してもよい。モバイルデバイスは、サードパーティサービスとの通信を介して、間接的に受信してもよい。例えば、モバイルデバイスは、サードパーティサービスにユーザ識別情報及び/又は位置情報を送信し、装置はサードパーティサービスからユーザ識別情報及び/又は位置情報を取得してもよい。
一部の実施形態において、装置のユーザ全てが、自分自身のモバイルデバイスを有してもよい。モバイルデバイスは、ユーザ識別情報及び位置情報を、装置に供給する。
モバイルデバイスは、モバイルデバイス(スマートフォン、モバイルステーション、タブレットコンピュータ、デジタルカメラ、インテリジェントガラス、インテリジェントクロック又は他のあらゆるモバイル電子機器)でよく、あるいは、ウェアラブルデバイス(リストバンド、ネックバンド、エレクトロニックパッチ又は他のあらゆるウェアラブル電子機器)でもよい。一部の実施形態において、モバイルデバイスは、リストバンドとしての「フォームファクター」をもつ(例えば、生体認証しない)クリプトウェアラブルである。
前記モバイルデバイスは、位置を判断し、前記判断した位置を示す位置情報を供給するよう構成される。前記回路は、前記位置情報を受信するようにさらに構成される。
一部の実施形態において、モバイルデバイスは、GPS(global positioning system)等、及び/又は、屋内位置を算定する高度な屋内位置技術(一般に公知なように、例えば、UWB(Ultra Wide Band)を使用した位置算定、磁気/Wifiフィンガープリンティングを使用した位置算定、IMU(inertial measurement unit)を基準とした位置特定を使用した位置算定又は他のあらゆる屋内位置追跡技術)を使用してもよい。
一般に、(地磁気)磁気フィンガープリンティングは、地球の磁場が、例えば、建物(例えば、家の部屋の中)の鉄を含む部位により特徴的に歪むという事実を利用している。
一部の実施形態において、モバイルデバイスは、磁気フィンガープリンティングを使用して、モバイルデバイスの位置を算定してもよい。例えば、モバイルデバイスは、地球磁場のサンプル測定値を取ったり、又は、別のデバイスからそれぞれの磁気情報を取得したりすればよい。そして、モバイルデバイスは、これらを比較したり、又は、一般に公知なように、これと、対応するエリア又は建物の磁気マップとを比較したりすればよい。
Wifiフィンガープリンティングも同様に動作する。環境のWifiパターン(フィンガープリント)は、以下の様に判断及び記憶することができる。一般に公知なように、後の時点で、環境のWifiパターンを判断することにより、モバイルデバイスの現在の位置を判断することができる。
一部の実施形態において、モバイルデバイスがフィンガープリントを取得してもよい。フィンガープリントは、位置を算定するための複数の成分(磁気成分、Wifi強度成分、聴覚特徴成分等)を含んでもよい。一般に公知なように、位置を算定するための成分は、特定の位置に関連付けられ、ユーザ位置の算定に使用されてもよい。
超広帯域(UWB)ラジオは、通常より比較的大きい帯域(例えば、500MHzより大きい)を有してよい。大きな帯域は、信頼性を上げることもある。何故なら、典型的には、信号が異なる周波数成分を含み、これにより、一部の周波数成分が障壁を通和する又は障壁の周囲を通ることができる可能性が上がるためである。これにより、射程の精密さを上げることができる。位置算定は、到着角度、信号強度及び/又は時間遅延の検出を含んでもよい。
様々な信号変調(pulse position modulation(PPM)、on−off Keying(OOK)、pulse amplitude modulation(PAM)、and pulse width modulation(PWM)等)をUWBに使用してもよい。
一般に公知なように、IMUに基づく位置特定は、モバイルデバイスの位置を算定するために、加速度計、ジャイロスコープ及び他のセンサを組み合わせて使用することを含んでもよい。
前記モバイルデバイスは、前記モバイルデバイスを装着するユーザを判断又は識別し、前記判断したユーザを示すユーザ識別情報を供給するよう構成される。前記回路は、前記ユーザ識別情報を受信するようにさらに構成される。
例えば、モバイルデバイスは、例えば、顔認識、指紋検出、ユーザパスワード入力等により、オーナーを識別又は認証可能でも良い。及び/又は、モバイルデバイスは、(ユーザが)装着していることを認知してもよい。モバイルデバイスは、例えば、モバイルデバイス取り外されたことを検出可能である(例えば、リストバンドの場合、ブレスレットを開いたことを検出可能である等)ので、装着を認知可能である。
モバイルデバイスは、フリクションレスな認証によりオーナーを認証可能でもよい。一実施形態によれば、フリクションレスな認証は、ユーザを示すコンテクストを構築する多様なソースからの情報を使用することを含む。例えば、フリクションレスな認証は、生理的なパラメータ(心拍数、血圧等)をモニタすること、及び/又は、ユーザの習慣、環境及び/又はより長期間に亘る振る舞いをモニタすること等を含んでもよい。
一部の実施形態において、ユーザを認証するために、複数の技術を組み合わせて適用してもよい。
さらに、例えば、機密度に応じて、異なるアプリケーション、サービス又はデバイスにアクセスするための、異なる認証閾値を実装してもよい。一部の実施形態において、機密レベルが算出される。機密レベルは、ユーザが正確に識別されたことの機密性を示す。機密レベルは、その後、適切な認証閾値と比較してもよい。例えば、認証閾値を上げることにより、ユーザのふりをする偽者である可能性が減る。従って、より高い機密性が必要である場合、より高い認証閾値を適用すればよい。
モバイルデバイスは、例えば、無線通信により(無線LANを介して、赤外線を介して、Bluetooth(登録商標)を介して等)、又は有線(例えば、USB(universal serial bus)接続等)により、装置と通信可能でもよい。
前記モバイルデバイスは、ユーザ入力を受信し、ユーザ入力情報を供給するよう構成される。前記回路は、前記ユーザを識別するため、前記ユーザ入力情報を受信するようにさらに構成される。
例えば、モバイルデバイスは、入力センサ、タッチセンサ等を有する。入力センサ、タッチセンサ等は、例えば、ユーザがモバイルをタップしてこれによりユーザ入力を行うようなタッチイベントを検出可能である。
一部の実施形態において、回路は、スピーチ認識を実行するようにさらに構成される。これにより、装置は、ユーザにより発話されたスピーチコマンドを理解し実行すればよい。
前記回路は、前記モバイルデバイスと通信するようにさらに構成されてもよい。上述のように、回路は、無線(例えば、無線LAN、赤外線、Bluetooth等)、又は有線(例えば、USB(universal serial bus)、ファイアワイア等)でモバイルデバイスと通信可能なインタフェースを有してもよい。例えば、回路は、このインタフェースを用いて、モバイルデバイスから、ユーザ識別情報、位置情報、ユーザ入力情報、付加的なサウンドデータ等を受信する。
一部の実施形態において、前記モバイルデバイスのマイクロフォンを介して、付加的なサウンドデータを生成する。従って、ユーザは、モバイルデバイスのマイクロフォンに発話すればよい。モバイルデバイスのマイクロフォンを介して生成された付加的なサウンドデータは、モバイルデバイス又は装置によりユーザを識別するのに使用してよい。従って、一実施形態において、付加的なサウンドデータは、ユーザを識別するために、装置に送信されてよい。別の各実施形態において、モバイルデバイスは、識別したユーザに関する情報を、装置に送信してよい。従って、一部の実施形態において、装置は、2タイプのサウンドデータを取得する。第1のタイプのサウンドデータは、例えば、マイクロフォンに基づき生成される。第2のタイプのサウンドデータは、モバイルデバイスから受信される。
一部の実施形態において、前記回路は、前記モバイルデバイスからの前記ユーザ入力情報をリクエストするようにさらに構成される。上述のように、モバイルデバイスは、ユーザ入力を受信可能でよい。例えば、装置は、モバイルデバイスへ入力するようユーザに促す。これにより、ユーザを識別可能である。
一部の実施形態において、前記回路は、前記ユーザを識別するため、顔認識データをリクエストするようにさらに構成される。これによっても、ユーザを識別可能である。上述のように、装置は、カメラ等を有してもよい。あるいは、カメラを装置に接続してもよい。これにより、ユーザがカメラを見るとき、ユーザの顔を認識すればよい。顔認識は、一般に公知である。
上述したように、2人以上のユーザが装置の近くにいる場合がある。この場合、装置は、受信したサウンド信号及び位置情報だけに基づき、ユーザを(確実に)識別(又は認証)出来ない可能性がある。従って、回路は、第1のモバイルデバイスから第1の位置情報を受信し、第2のモバイルデバイスから第2の位置情報を受信すればよい。特に、判断される位置及び位置情報がメートル(又は数センチメートル)を基準にした精密さでしかない場合、例えば、第1/第2の位置情報に基づき、異なるモバイルを装着している異なるユーザを区別できない可能性がある。従って、回路は、第1の位置情報及び第2の位置情報が同じ位置を示す場合、ユーザ入力、顔認識及び/又はモバイルデバイスのマイクロフォンに対する発話をリクエストするようにさらに構成されればよい。さらなる識別情報(例えば、ユーザ入力、顔認識及び/又はモバイルデバイスのマイクロフォンに対する発話)をリクエストすることにより、サウンドデータ中のスピーチが由来するユーザを識別すればよい。
一部の実施形態において、発話しているユーザ(即ち、サウンドデータにスピーチが含まれるユーザ)をより良く識別するために、上述のように、発話しているユーザ(「発話者」)を識別するために、装置は、異なる複数のソースからの異なる情報を組み合わせてもよい。
一部の各実施形態は、上述のように、ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する方法に関する。方法は、さらに、前記サウンドデータに基づき、少なくとも1個のユーザ識別情報を、前記ユーザの前記判断した位置と関連付け、前記少なくとも1個のユーザ識別情報及び前記ユーザの前記判断した位置を、前記モバイルデバイスから受信した前記ユーザ識別情報及び前記位置情報と比較することにより、前記ユーザを識別してよい。上述のように、装置(又は装置の回路)、プロセッサ、コンピュータ、タブレットコンピュータ、サーバ、リモートサーバ、スマートフォン等、他のあらゆるタイプの電子機器により、前記方法を実行してよい。
上述のように、前記方法は、前記ユーザの前記位置を判断することは、前記ユーザの方向及び/又は距離を判断してよい。上述のように、前記方法は、さらに、スピーチ認識を実行してよい。上述のように、前記方法は、さらに、前記モバイルデバイスと通信してよい。上述のように、前記モバイルデバイスは、位置を判断し、前記判断した位置を示す位置情報を供給するよう構成され、前記方法は、さらに、前記位置情報を受信してよい。上述のように、前記モバイルデバイスは、前記モバイルデバイスを装着するユーザを判断又は識別し、前記判断したユーザを示すユーザ識別情報を供給するよう構成され、前記方法は、さらに、前記ユーザ識別情報を受信してよい。上述のように、前記ユーザを識別するのに使用する、前記モバイルデバイスのマイクロフォンを介して付加的なサウンドデータを生成してよい。前記モバイルデバイスは、ユーザ入力を受信し、ユーザ入力情報を供給するよう構成されてよい。上述のように、前記方法は、さらに、前記ユーザを識別するため、前記ユーザ入力情報を受信してよい。上述のように、前記方法は、さらに、前記モバイルデバイスからの前記ユーザ入力情報をリクエストしてよい。上述のように、前記ユーザを識別するため、顔認識データをリクエストしてよい。
ここで説明した方法は、一部の実施形態において、コンピュータプログラムにより実現可能である。コンピュータ及び/又はプロセッサ及び/又は回路がコンピュータプログラムを実行するとき、コンピュータプログラムは、コンピュータ及び/又はプロセッサ及び/又は回路にこの方法を実行させる。一部の実施形態において、コンピュータプログラムプロダクトを記憶する非一過性のコンピュータ読み取り可能な記録媒体を用意する。プロセッサ及び/又は回路(上述のようなプロセッサ及び/又は回路等)がコンピュータプログラムプロダクトを実行するとき、コンピュータプログラムプロダクトは、上述の方法を実行する。
図1を再び参照する。図1は、一実施形態に係る、ウェアラブルデバイス2(右側)と通信するエージェント装置1(左側)を示す。本実施形態において、ウェアラブルデバイス2は、リストバンド2である。以下の各実施形態において、モバイルデバイスに基づき本開示を説明する。この点は本開示を限定するものでは無い。モバイルデバイスは、典型的にはウェアラブルデバイスである。
エージェント装置1は、回路11を有する。図2の(a)は回路11を示し、回路11は後で詳細に説明する。
回路11は、複数のマイクロフォン12のアレイを有する。図1は、3個のマイクロフォン12を例示する。3個のマイクロフォン12は、エージェント装置1の周縁に、互いに規定の距離をあけて配置されている。本実施形態において、エージェント装置1は円筒形である。この点は本開示を限定するものでは無い。
さらに、カメラ13が設けられる。カメラ13は、カメラ13の前にいるユーザの画像又は動画を撮影することができる。カメラ13は、さらに、ユーザの顔認識にも使用することができる。本実施形態において、カメラ13は、CMOS(complementary metal oxide semiconductor)に基づく。この点は本開示を限定するものでは無い。
エージェント装置1は、さらに、上部にラウドスピーカ14を有する。ラウドスピーカ14は、サウンドを出力し、例えば、さらに、ユーザとコミュニケーションする。
リストバンド2は、回路20を有する。回路20は、マイクロフォン21と、タッチ検出可能領域22、即ち、タッチパッド22とを有する。タッチパッド22は、ユーザがタッチパッド22をタップすると、ユーザ入力を受け付ける。図2の(b)は回路20を示し、回路20は後で詳細に説明する。
エージェント装置1及びリストバンド2は、ワイヤレスリンクを介して通信可能である。ワイヤレスリンクは、無線LAN(local area network)、Bluetooth等により提供される。
さらに、リストバンド2は、リストレット23を有する。リストレット23は、2個の留め金24a及び24bにより閉塞される。
以下、エージェント装置1の回路11は、図2の(a)を参照して模式的に説明する。
回路11は、さらに、プロセッサ15(1以上のプロセッサを含む)を有する。プロセッサ15は、複数のマイクロフォン12、カメラ13、ラウドスピーカ14、インタフェース16、ランダムアクセスメモリ(RAM)17及びデータベース19を含むストレージ18に接続される。本実施形態において、ストレージ18はハードディスクである。この点は本開示を限定するものでは無い。
一部の実施形態において、エージェント装置1は、付加的な入力手段(例えば、キーボード、マウス、タッチパッド等)及び付加的な出力手段(例えば、ディスプレイ、LED等)を有する。
インタフェース16は、有線及び無線(Bluetooth及び無線LAN)で通信可能である。これにより、インタフェース16は、インターネット、(ホーム)ネットワーク及び電子機器(リストバンド2等)と通信可能である。
データベース19は、例えば、ユーザプロファイルの形式で、エージェント装置1のユーザに関する情報を含んでもよい。各ユーザに対して、固有のユーザプロファイルがデータベース19に記憶される。
ユーザプロファイルは、ユーザ識別情報(例えば、名前、住所、誕生日)を含む。ユーザプロファイルは、上述したように、話者認識に基づきユーザを識別する声特性を含む。
以下、図2の(b)を参照し、リストバンド2の回路20を模式的に説明する。
回路20は、プロセッサ23(1以上のプロセッサを含む)を有する。プロセッサ23は、マイクロフォン21、タッチパッド22、位置センサ24、留め金センサ25及びインタフェース26に接続される。
位置センサ24は、リストバンド2の位置を判断する。本例において、上述のように、位置センサ24は、屋内の位置を判断するためのUWBセンサ及びGPS(global positioning sensor)を有する。この点は本開示を限定するものでは無い。
留め金センサ25は、例えば、公知のように磁力センサ又はメカニカルセンサに基づき、2個の留め金24a及び24bが閉塞しているか否かを検出可能である。
インタフェース26は、無線通信(Bluetooth及び無線LAN)及び有線通信を実行可能である。本例では、有線通信はUSB(universal serial bus)を用いる。この点は本開示を限定するものでは無い。
これにより、エージェント装置1及びリストバンド2は、相互に無線通信可能である(必要に応じて、有線)。
以下、図3を参照し、エージェント装置1及び2人のユーザ30a及び30bのユースケースの典型的な構成を説明する。図4を参照し、エージェント装置1がリストバンド2と共に実行する方法40を説明する。
エージェント装置1は、部屋31内に位置する。本例では、2人のユーザ30a及び30bは遠く離れている。
ユーザ30aは、発話しており、例えば、コマンドを言うユーザである。ユーザ30aが発生した音波32は、部屋31の中を進行し、エージェント装置1の複数のマイクロフォン12により検出される。41で、複数のマイクロフォン12は音波32を受信する。42で、回路11は、音波32に基づきサウンドデータを生成する。従って、サウンドデータは、ユーザ30が発話したスピーチコマンドも含む。
43で、回路11は、サウンドデータ又はボイスパターンに含まれる声特性を検出するために、サウンドデータを分析する。回路11は、これを、データベース19に記憶されたユーザプロファイルに記憶された声特性と比較する。
本例において、サウンドデータ内から検出された声特性とマッチする2個のユーザ識別情報(即ち、ユーザ30a及びユーザ30bの識別情報)が、データベース19内から検出される。
44において、上述のように、エージェント装置1は、音波32の方向及びユーザ30aの距離を判断することにより、受信した音波に基づき、ユーザ30aの位置33を判断する。
45において、エージェント装置1は、ユーザ30a及び30bの2個のユーザ識別情報を、44で判断した位置33と関連付ける。上述のように、位置判断の精密さの不足により、位置33は或る程度の大きさを有する。これを、直径約2メートルのエリアを囲む楕円形の線33で示す。
上述のように、ユーザ30aは、ウェアラブルデバイス2を装着する。ユーザ30bは、技術的観点からウェアラブルデバイス2に対応するウェアラブルデバイス2'を装着する。
46において、エージェント装置1は、ウェアラブルデバイス2及び2'と無線通信する。
47において、エージェント装置1は、ウェアラブルデバイス2及び2'から位置情報及びユーザ識別情報を受信する。本実施形態において、エージェント装置1並びにウェアラブルデバイス2及び2'は、互いに定期的に通信する。しかしながら、別の各実施形態において、エージェント装置1は、ユーザ識別情報及び/又は位置情報を受信するために、データベース19に登録されたウェアラブルデバイスにリクエストを送信してもよい。
音波32を生成しているユーザ30aのウェアラブルデバイス2は、ウェアラブルデバイス2の位置34を判断する。位置34も、精密さの不足により、或る程度の大きさを有する(例えば、位置34も、直径約2メートル)。しかしながら、図3に示すように、エージェント装置1が判断した位置33と、ウェアラブルデバイス2が判断した位置34とは、重なり合う。
ユーザ30bのウェアラブルデバイス2'は、ウェアラブルデバイス2'の位置35を判断する。位置35も、精密さの不足により、或る程度の大きさを有する(例えば、位置35も、直径約2メートル)。しかしながら、図3に示すように、エージェント装置1が判断した位置33と、ウェアラブルデバイス2'が判断した位置35とは、重なり合わない。
48において、エージェント装置1は、43において検出した2個のユーザ識別情報及び44において判断したユーザ30aの位置と、47において受信したユーザ識別情報及び位置情報とを、互いに比較する。
これにより、エージェント装置1は、判断したユーザ識別情報及びユーザ30aの判断した位置情報と、ウェアラブルデバイス2から受信したユーザ識別情報及び位置情報が示す位置とが、マッチすると判断する。
従って、これにより、41において受信した音波32に基づき、ユーザ30aを、42において生成したサウンドデータに含まれるスピーチコマンドを出した又は発声したユーザとして識別する。
50において、エージェント装置1は、スピーチ認識を実行し、実行したスピーチ認識に基づき、サウンドデータに含まれるコマンドを実行する。
以下、図5乃至9を参照し、上述のようなエージェント装置1及び少なくとも1個のウェアラブルデバイス2と、上述のような図3の一般的な構成とを使用する5個のユースケースシナリオを説明する。
図5は、方法60を示す。エージェント装置1並びにウェアラブルデバイス2及び2'が方法60を実行する。
61において、「Tom」という名前のユーザ30a(図3)は、エージェント装置1に発話し、これにより、音波32を生成する。
62において、上述のように、エージェント装置1は、音波32を受信することにより、Tomからの声をピックアップする。
63において、エージェント装置1の話者認識は、話者がTom(ユーザ30a)又はDan(ユーザ30b、図3)であると結論付ける。即ち、エージェント装置1は、例えば、DanとTomの声特性が似すぎているか、あるいは別の理由により、話者がTomであると結論付けることができない。
Tomは、ウェアラブルデバイス2(図2)を装着している。64において、例えば、留め金センサ25が留め金24a及び24bが閉塞していると検出することにより、Tomのウェアラブルデバイス2は、Tomがウェアラブルデバイス2を装着していることを認知する。さらに、Tomは、ウェアラブルデバイス2のユーザとして登録される。Tomは、例えば、ウェアラブルデバイス2を装着した際にコード等を入力したことにより、認証されていてもよい。
65において、Tomのウェアラブルデバイス2は、Tomの位置34(図3)を算定し、エージェント装置1に算定した位置を送信する。
66において、Danのウェアラブルデバイス2'も、Danの位置を算定し、エージェント装置1に算定した位置を送信する。
67において、エージェント装置1は、マイクロフォンアレイ12を用いてキャプチャしたサウンドから、話者の方向及び距離を算定する。図3を参照して上述したように、これにより、エージェント装置1は、ユーザ位置33を算定する。
68において、エージェント装置1並びに2個のウェアラブルデバイス2及び2'により算定された位置同士を比較することにより、エージェント装置1は、Tomを、発話しているユーザ30aとして識別する。
図6は、方法70を示す。エージェント装置1並びにウェアラブルデバイス2及び2'が方法70を実行する。
71において、Tom(ユーザ30a、図3)は、上述のように、エージェント装置1に発話し、これにより、音波32を生成する。
72において、上述のように、エージェント装置1は、音波32を受信することにより、複数のマイクロフォン12を介してTomからの声データをピックアップする。
73において、上述のように、エージェント装置1の話者認識は、話者がTom又はDan(ユーザ30b、図3)であると結論付ける。
74において、Tomは、ウェアラブルデバイス2を装着している。Tomのウェアラブルデバイス2は、上述のように、Tomがウェアラブルデバイス2を装着していることを認知する。
75において、上述のように、Tomのウェアラブルデバイス2は、ウェアラブルデバイス2が部屋31内にあると認知する。ウェアラブルデバイス2は、エージェント装置1にそれぞれの位置情報を送信する。
76において、Danは部屋内に居ない。しかしながら、Danのウェアラブルデバイス2'は、Danの位置を追跡している。ウェアラブルデバイス2'は、上述のように、ウェアラブルデバイス2'の位置をエージェント装置1に送信する(例えば、サードパーティのクラウドサービスを介して)。
77において、上記のステップに基づき、エージェント装置1は、Tomを、発話しているユーザとして識別する。
図7は、方法80を示す。エージェント装置1並びにウェアラブルデバイス2及び2'が方法80を実行する。
81において、Tom(ユーザ30a、図3)は、上述のように、エージェント装置1に発話し、これにより、音波32を生成する。
82において、上述のように、エージェント装置1は、音波32を受信することにより、Tomからの声データをピックアップする。
83において、エージェント装置1の話者認識は、話者がTom又はDanであると結論付ける。即ち、エージェント装置1は、上述のように、話者がTomであると結論付けることができない。
84において、Tomは、ウェアラブルデバイス2を装着している。Tomのウェアラブルデバイス2は、上述のように、Tomがウェアラブルデバイス2を装着していることを認知する。
85において、Tomのウェアラブルデバイスは、ウェアラブルデバイスの位置34を算定し、位置34をエージェント装置1に送信する。
このシナリオにおいて、Dan(ユーザ30b、図3)はTomの近くに立っている。このため、それぞれのウェアラブルデバイス2及び2'が判断した位置同士(位置エリア同士)が重なり合う。
86において、Danは、ウェアラブルデバイス2'を装着している。Danのウェアラブルデバイスは、上述のように、Danがウェアラブルデバイスを装着していることを認知する。
87において、Danのウェアラブルデバイスは、ウェアラブルデバイスの位置35を算定する。上述のように、ウェアラブルデバイスは、エージェント装置1に位置情報を送信する。
88において、上記のステップに基づき、エージェント装置1は、算定した位置34及び35が重なり合うため、TomとDanとを未だ判別することができない。
89において、エージェント装置1は、ウェアラブルデバイスを介して、Tomの(又はDanの)確認を要求する。例えば、エージェント装置1は、Tom又はDanに、ウェアラブルデバイス2(又は2')をタップさせる。
90において、エージェント装置1は、ウェアラブルデバイス(2又は2')をタップしている人/ユーザを、発話したユーザとして識別する。
一部の実施形態において、ウェアラブルデバイスは位置判断する必要が無くてもよい。例えば、ユーザを識別するために、ウェアラブルデバイスを例えばタップするようユーザに単に要求する。
図8は、方法100を示す。エージェント装置1並びにウェアラブルデバイス2及び2'が方法100を実行する。
101において、Tom(ユーザ30a、図3)(又はDan、ユーザ30b、図3)は、上述のように、エージェント装置1に発話し、これにより、音波32を生成する。
102において、上述のように、エージェント装置1は、音波32を受信することにより、Tom(又はDan)からの声データをピックアップする。
103において、エージェント装置1の話者認識は、話者がTom又はDanであると結論付ける。即ち、エージェント装置1は、上述のように、話者がTomであると結論付けることができない。
104において、Tomは、ウェアラブルデバイス2を装着している。Tomのウェアラブルデバイス2は、上述のように、Tomがウェアラブルデバイス2を装着していることを認知する。
105において、上述のように、Tomのウェアラブルデバイスは、ウェアラブルデバイスの位置34を算定し、位置34をエージェント装置1に送信する。
このシナリオにおいて、Dan(ユーザ30b)は部屋31内に居ない。Danは、ウェアラブルデバイス2'を装着していない。このため、エージェント装置1は、Danの位置を認知しない。
従って、この場合、106において、上述のように、エージェント装置1は、例えば、ウェアラブルデバイス2をタップすることでのTomの確認を要求する。あるいは、上述のように、エージェント装置1は、(未認知の)ユーザにエージェント装置1まで来させ、カメラ23を用いて顔認識を実行する。
107において、エージェント装置1が、ウェアラブルデバイス2のタップによるTomの確認を認識すると、エージェント装置1は、Tomが発話していることを認知する。
108において、エージェント装置1がTom又はDanの顔認識の実行に成功すると、エージェント装置1は、Tom又はDanが発話していると認知する。
これにより、発話しているユーザ(Tom又はDan)が正確に識別される。
図9は、方法110を示す。エージェント装置1並びにウェアラブルデバイス2及び2'が方法110を実行する。
111において、Tom(ユーザ30a)は、上述のように、エージェント装置1に発話し、これにより、音波32を生成する。
112において、上述のように、エージェント装置1は、音波32を受信することにより、Tomからの声データをピックアップする。
113において、エージェント装置1の話者認識は、話者がTom又はDanであると結論付ける。即ち、エージェント装置1は、上述のように、話者がTomであると結論付けることができない。
114において、Tomは、ウェアラブルデバイス2を装着している。Tomのウェアラブルデバイス2は、上述のように、Tomがウェアラブルデバイス2を装着していることを認知する。
このシナリオにおいて、Danも、部屋内に居て、ウェアラブルデバイス2'を装着している。115において、Danのウェアラブルデバイス2'は、Danがウェアラブルデバイス2'を装着していることを認知する。
このシナリオにおいて、Tom及びDanのウェアラブルデバイス2及び2'の両者は、それぞれ、マイクロフォン(12、図2の(b))を有する。
116において、Tomが発話するとき、Tom及びDanのウェアラブルデバイス2及び2'の両者は、それぞれ、サウンド(声)を記録する。
117において、ウェアラブルデバイス2及び2'の両者は、付加的なサウンドデータとしてのサウンドの記録を、エージェント装置1に送信する。
118において、両者のサウンドの記録に基づき、即ち、付加的なサウンドデータに基づき、エージェント装置1は、誰が発話しているかを判別可能でもよい。
例えば、記録されたサウンドのうち発話した声に相当するサウンドの音量に(大きな)差がある(例えば、所定の閾値より大きい)場合、エージェント装置1は、ウェアラブルデバイスを装着している人を判別することができ、記録された声が最大音量の人が話者であると判別することができる。
なお、各実施形態で説明した方法において、方法ステップの順序は例示である。しかしながら、方法ステップの具体的な順序は、単に例示目的であり、拘束力があるとは解釈されない。例えば、図4の実施形態の45及び46の順序は交換可能である。同様に、図5の実施形態の63、64及び65の順序は交換可能である。さらに、図6の実施形態の73及び74の順序も交換可能である。方法ステップの順序の他の変更も、当業者は明らかでよい。
なお、回路11を複数のユニット15乃至19に分割するのは単に例示目的である。本開示は、機能を具体的なユニットに分割する如何なる具体的な分割にも限定されない。例えば、回路11は、プログラミングされたプロセッサ、FPGA(field programmable gate array)等により実装され得る。
ここで説明した方法は、コンピュータプログラムにより実現可能である。コンピュータ及び/又はプロセッサ及び/又は回路がコンピュータプログラムを実行するとき、コンピュータプログラムは、コンピュータ及び/又はプロセッサ及び/又は回路(上述のプロセッサ15又は23及び/又は回路11又は21等)にこの方法を実行させる。一部の実施形態において、コンピュータプログラムプロダクトを記憶する非一過性のコンピュータ読み取り可能な記録媒体を用意する。プロセッサ(上述のようなプロセッサ等)がコンピュータプログラムプロダクトを実行するとき、コンピュータプログラムプロダクトは、上述の方法を実行する。
本明細書及び特許請求の範囲に記載の請求項に記述した全てのユニット及び要素は、特記しない限り、集積回路論理(例えば、チップ上)として実装可能である。このユニット及び要素により提供される機能は、特記しない限り、ソフトウェアにより実装可能である。
少なくとも一部がソフトウェア制御のデータ処理装置を用いて本開示の上述の各実施形態を実装する限りにおいて、このソフトウェア制御を提供するコンピュータプログラムと、このコンピュータプログラムを提供する伝送、ストレージ又は他の媒体とは、本開示の実施形態として想定される。
なお、本技術は、以下の構成を取ることも出来る。
(1)ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、
前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する
よう構成される回路
を具備する装置。
(2)項(1)に記載の装置であって、
前記回路は、前記サウンドデータに基づき、少なくとも1個のユーザ識別情報を、前記ユーザの前記判断した位置と関連付けるようにさらに構成され、
前記少なくとも1個のユーザ識別情報及び前記ユーザの前記判断した位置を、前記モバイルデバイスから受信した前記ユーザ識別情報及び前記位置情報と比較することにより、前記ユーザを識別する
装置。
(3)項(1)又は(2)に記載の装置であって、
前記ユーザの前記位置を判断することは、前記ユーザの方向及び距離の少なくとも一方を判断することを含む
装置。
(4)項(1)乃至(3)の何れか一項に記載の装置であって、
前記回路は、前記モバイルデバイスと通信するようにさらに構成される
装置。
(5)項(1)乃至(4)の何れか一項に記載の装置であって、
前記モバイルデバイスは、位置を判断し、前記判断した位置を示す位置情報を供給するよう構成され、
前記回路は、前記位置情報を受信するようにさらに構成される
装置。
(6)項(1)乃至(5)の何れか一項に記載の装置であって、
前記モバイルデバイスは、前記モバイルデバイスを装着するユーザを識別し、前記判断したユーザを示すユーザ識別情報を供給するよう構成され、
前記回路は、前記ユーザ識別情報を受信するようにさらに構成される
装置。
(7)項(1)乃至(6)の何れか一項に記載の装置であって、
前記モバイルデバイスのマイクロフォンを介して生成した付加的なサウンドデータを、前記ユーザを識別するのに使用する
装置。
(8)項(1)乃至(7)の何れか一項に記載の装置であって、
前記モバイルデバイスは、ユーザ入力を受信し、ユーザ入力情報を供給するよう構成され、
前記回路は、前記ユーザを識別するため、前記ユーザ入力情報を受信するようにさらに構成される
装置。
(9)項(1)乃至(8)の何れか一項に記載の装置であって、
前記回路は、前記モバイルデバイスからの前記ユーザ入力情報をリクエストするようにさらに構成される
装置。
(10)項(1)乃至(9)の何れか一項に記載の装置であって、
前記回路は、前記ユーザを識別するため、顔認識データをリクエストするようにさらに構成される
装置。
(11)ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、
前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する
方法。
(12)項(11)に記載の方法であって、
さらに、前記サウンドデータに基づき、少なくとも1個のユーザ識別情報を、前記ユーザの前記判断した位置と関連付け、
前記少なくとも1個のユーザ識別情報及び前記ユーザの前記判断した位置を、前記モバイルデバイスから受信した前記ユーザ識別情報及び前記位置情報と比較することにより、前記ユーザを識別する
方法。
(13)項(11)又は(12)に記載の方法であって、
前記ユーザの前記位置を判断することは、前記ユーザの方向及び距離の少なくとも一方を判断することを含む
方法。
(14)項(11)乃至(13)の何れか一項に記載の方法であって、
さらに、前記モバイルデバイスと通信する
方法。
(15)項(11)乃至(14)の何れか一項に記載の方法であって、
前記モバイルデバイスは、位置を判断し、前記判断した位置を示す位置情報を供給するよう構成され、
さらに、前記位置情報を受信する
方法。
(16)項(11)乃至(15)の何れか一項に記載の方法であって、
前記モバイルデバイスは、前記モバイルデバイスを装着するユーザを識別し、前記判断したユーザを示すユーザ識別情報を供給するよう構成され、
さらに、前記ユーザ識別情報を受信する
方法。
(17)項(11)乃至(16)の何れか一項に記載の方法であって、
前記モバイルデバイスのマイクロフォンを介して生成した付加的なサウンドデータを、前記ユーザを識別するのに使用する
方法。
(18)項(11)乃至(17)の何れか一項に記載の方法であって、
前記モバイルデバイスは、ユーザ入力を受信し、ユーザ入力情報を供給するよう構成され、
さらに、前記ユーザを識別するため、前記ユーザ入力情報を受信する
方法。
(19)項(11)乃至(18)の何れか一項に記載の方法であって、
さらに、前記モバイルデバイスからの前記ユーザ入力情報をリクエストする
方法。
(20)項(11)乃至(19)の何れか一項に記載の方法であって、
さらに、前記ユーザを識別するため、顔認識データをリクエストする
方法。
(21)コンピュータが実行するとき、項(11)乃至(20)の何れか一項に記載の方法をコンピュータに実行させるプログラムコードを含む
コンピュータプログラム。
(22)プロセッサが実行するとき、項(11)乃至(20)の何れか一項に記載の方法を実行させるコンピュータプログラムプロダクトを記憶する
非一過性のコンピュータ読み取り可能な記録媒体。

Claims (20)

  1. ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、
    前記ユーザの前記判断した位置と、モバイルデバイスから受信した、当該モバイルデバイス側で決定した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する
    よう構成される回路
    を具備する装置。
  2. ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、
    前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する
    よう構成される回路
    を具備する装置であって、
    前記回路は、前記サウンドデータに基づき、少なくとも1個のユーザ識別情報を、前記ユーザの前記判断した位置と関連付けるようにさらに構成され、
    前記少なくとも1個のユーザ識別情報及び前記ユーザの前記判断した位置を、前記モバイルデバイスから受信した前記ユーザ識別情報及び前記位置情報と比較することにより、前記ユーザを識別する
    装置。
  3. 請求項1に記載の装置であって、
    前記ユーザの前記位置を判断することは、前記ユーザの方向及び距離の少なくとも一方を判断することを含む
    装置。
  4. 請求項1に記載の装置であって、
    前記回路は、前記モバイルデバイスと通信するようにさらに構成される
    装置。
  5. 請求項1に記載の装置であって、
    前記回路は、前記モバイルデバイスから供給された前記モバイルデバイスが判断した当該モバイルデバイスの位置を示す前記位置情報を受信するようにさらに構成される
    装置。
  6. 請求項1に記載の装置であって、
    前記回路は、前記モバイルデバイスから供給された、前記モバイルデバイスを装着するユーザを識別し、前記判断したユーザを示す前記ユーザ識別情報を受信するようにさらに構成される
    装置。
  7. 請求項1に記載の装置であって、
    前記モバイルデバイスのマイクロフォンを介して生成した付加的なサウンドデータを、前記ユーザを識別するのに使用する
    装置。
  8. 請求項1に記載の装置であって、
    前記モバイルデバイスは、ユーザ入力を受信し、ユーザ入力情報を供給するよう構成され、
    前記回路は、前記ユーザを識別するため、前記ユーザ入力情報を受信するようにさらに構成される
    装置。
  9. 請求項8に記載の装置であって、
    前記回路は、前記モバイルデバイスからの前記ユーザ入力情報をリクエストするようにさらに構成される
    装置。
  10. 請求項1に記載の装置であって、
    前記回路は、前記ユーザを識別するため、顔認識データをリクエストするようにさらに構成される
    装置。
  11. ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、
    前記ユーザの前記判断した位置と、モバイルデバイスから受信した、当該モバイルデバイス側で決定した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する
    方法。
  12. ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、
    前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する方法であって、
    さらに、前記サウンドデータに基づき、少なくとも1個のユーザ識別情報を、前記ユーザの前記判断した位置と関連付け、
    前記少なくとも1個のユーザ識別情報及び前記ユーザの前記判断した位置を、前記モバイルデバイスから受信した前記ユーザ識別情報及び前記位置情報と比較することにより、前記ユーザを識別する
    方法。
  13. 請求項11に記載の方法であって、
    前記ユーザの前記位置を判断することは、前記ユーザの方向及び距離の少なくとも一方を判断することを含む
    方法。
  14. 請求項11に記載の方法であって、
    さらに、前記モバイルデバイスと通信する
    方法。
  15. ユーザのスピーチを示すサウンドデータに基づき、前記ユーザの位置を判断し、
    前記ユーザの前記判断した位置と、モバイルデバイスから受信した位置情報及びユーザ識別情報とに基づき、前記ユーザを識別する方法であって、
    前記モバイルデバイスは、位置を判断し、前記判断した位置を示す位置情報を供給するよう構成され、
    さらに、前記位置情報を受信する
    方法。
  16. 請求項11に記載の方法であって、
    前記モバイルデバイスは、前記モバイルデバイスを装着するユーザを識別し、前記判断したユーザを示すユーザ識別情報を供給するよう構成され、
    さらに、前記ユーザ識別情報を受信する
    方法。
  17. 請求項11に記載の方法であって、
    前記モバイルデバイスのマイクロフォンを介して生成した付加的なサウンドデータを、前記ユーザを識別するのに使用する
    方法。
  18. 請求項11に記載の方法であって、
    前記モバイルデバイスは、ユーザ入力を受信し、ユーザ入力情報を供給するよう構成され、
    さらに、前記ユーザを識別するため、前記ユーザ入力情報を受信する
    方法。
  19. 請求項18に記載の方法であって、
    さらに、前記モバイルデバイスからの前記ユーザ入力情報をリクエストする
    方法。
  20. 請求項11に記載の方法であって、
    さらに、前記ユーザを識別するため、顔認識データをリクエストする
    方法。
JP2019553498A 2017-03-31 2018-03-28 装置及び方法 Active JP6911938B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17164215 2017-03-31
EP17164215.0 2017-03-31
PCT/EP2018/058024 WO2018178207A1 (en) 2017-03-31 2018-03-28 Apparatus and method

Publications (2)

Publication Number Publication Date
JP2020512592A JP2020512592A (ja) 2020-04-23
JP6911938B2 true JP6911938B2 (ja) 2021-07-28

Family

ID=58489172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019553498A Active JP6911938B2 (ja) 2017-03-31 2018-03-28 装置及び方法

Country Status (4)

Country Link
US (1) US11594229B2 (ja)
EP (1) EP3602554B1 (ja)
JP (1) JP6911938B2 (ja)
WO (1) WO2018178207A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102478031B1 (ko) * 2018-03-08 2022-12-16 삼성전자주식회사 외부 장치와의 연결을 위한 전자 장치 및 방법
US11838230B2 (en) * 2021-01-07 2023-12-05 Qualcomm Incorporated Access point assisted sidelink communications
US20220335087A1 (en) * 2021-04-14 2022-10-20 Ricoh Company, Ltd. Data processing apparatus, data processing system, and data processing method

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001319045A (ja) * 2000-05-11 2001-11-16 Matsushita Electric Works Ltd 音声マンマシンインタフェースを用いたホームエージェントシステム、及びプログラム記録媒体
KR101295003B1 (ko) 2011-10-12 2013-08-16 한국과학기술연구원 지능 로봇, 지능 로봇과 사용자의 상호작용을 위한 시스템 및 지능 로봇과 사용자의 상호작용을 위한 방법
JP2013104938A (ja) * 2011-11-11 2013-05-30 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP6031761B2 (ja) 2011-12-28 2016-11-24 富士ゼロックス株式会社 音声解析装置および音声解析システム
US9706323B2 (en) * 2014-09-09 2017-07-11 Sonos, Inc. Playback device calibration
JP6026651B2 (ja) * 2013-05-14 2016-11-16 株式会社東芝 電子機器およびデータ管理方法
JP2016524724A (ja) 2013-05-28 2016-08-18 トムソン ライセンシングThomson Licensing 家庭環境内で音声コマンドに関連付けられた位置を特定して家庭用電気機器を制御する方法およびシステム
US9595181B2 (en) 2013-12-20 2017-03-14 Invensense, Inc. Wearable device assisting smart media application and vice versa
JP6440483B2 (ja) * 2014-12-17 2018-12-19 シャープ株式会社 通信システム、サーバ装置、ロボット、情報処理方法、およびプログラム
US20160180222A1 (en) 2014-12-23 2016-06-23 Ejenta, Inc. Intelligent Personal Agent Platform and System and Methods for Using Same
US9554091B1 (en) * 2015-12-15 2017-01-24 Cisco Technology, Inc. Identifying conference participants and active talkers at a video conference endpoint using user devices
US10028112B2 (en) * 2016-02-18 2018-07-17 Vivint, Inc. Event triggered messaging
CN106328132A (zh) 2016-08-15 2017-01-11 歌尔股份有限公司 一种智能设备的语音交互控制方法和装置

Also Published As

Publication number Publication date
WO2018178207A1 (en) 2018-10-04
EP3602554B1 (en) 2023-12-20
EP3602554A1 (en) 2020-02-05
JP2020512592A (ja) 2020-04-23
US20200035248A1 (en) 2020-01-30
US11594229B2 (en) 2023-02-28

Similar Documents

Publication Publication Date Title
KR102513297B1 (ko) 전자 장치 및 전자 장치의 기능 실행 방법
US11270695B2 (en) Augmentation of key phrase user recognition
US10146923B2 (en) Audiovisual associative authentication method, related system and device
Bai et al. Acoustic-based sensing and applications: A survey
US11699449B2 (en) In-ear liveness detection for voice user interfaces
US11210376B2 (en) Systems and methods for biometric user authentication
JP6911938B2 (ja) 装置及び方法
US10636405B1 (en) Automatic active noise reduction (ANR) control
TW201606760A (zh) 從音頻訊號的即時情緒辨識
US11343612B2 (en) Activity detection on devices with multi-modal sensing
US11514928B2 (en) Spatially informed audio signal processing for user speech
KR20150130854A (ko) 오디오 신호 인식 방법 및 이를 제공하는 전자 장치
CN109064720B (zh) 位置提示方法、装置、存储介质及电子设备
Zhang Towards Context-Aware and Trustworthy Voice Assistants
WO2017219925A1 (zh) 一种信息发送方法、装置及计算机存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210608

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210621

R151 Written notification of patent or utility model registration

Ref document number: 6911938

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151