JP2004533640A

JP2004533640A - 人についての情報を管理する方法及び装置

Info

Publication number: JP2004533640A
Application number: JP2002584244A
Authority: JP
Inventors: イング−フイチャング; ユアン−フリアオ; リ−フェンイェ; ジク−クェンホルング
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-04-17
Filing date: 2002-04-11
Publication date: 2004-11-04
Also published as: CN1307589C; EP1382003A1; US7058208B2; US20030035567A1; WO2002086801A1; KR20030010729A; CN1461451A

Abstract

自然人についての情報を供給する方法及び電子装置（好ましくは、携帯情報端末、PDA又はパームコンピュータ）であって、前記自然人のオーディオデータを記録するマイク（６０６）及び／又はイメージデータを記録するカメラ（６０２）を有する方法及び電子装置である。前記自然人の身元を認識するために前記オーディオデータ及び／又はビジュアルデータを処理し、認識された前記身元についての記憶された情報を検索するためのメモリを備えるプロセッサ（６０３、６０７、６０４）が設けられる。ユーザインタフェース（６０５）が、ユーザに前記記憶された情報を引き渡すために用いられる。前記情報は、前記人についての名刺の情報及び／又は他の情報を有し得る。更に、前記人の感情的／個人的な状態／雰囲気を表わす情報が、記録され、検索され、前記ユーザインタフェース（６０５）を介して前記ユーザに供給されても良い。

Description

【技術分野】
【０００１】
本発明は、自然人(physical person)についての情報を供給する装置であって、前記自然人のオーディオ及び／又はイメージデータを記録する記録器を有する装置に関する。
【０００２】
更に、本発明は、自然人についての情報を供給する方法であって、前記自然人のオーディオ／イメージデータを記録するステップを有する方法に関する。
【背景技術】
【０００３】
従来技術において、人々の顔の表情及び音声の表現(vocal expression)の記録を処理するための様々な技術的解決法が提案されている。この処理の結果は、とりわけアクセス制御アプリケーションのために人を同定するのに用いられている。このようなアプリケーションは、例えば、音声認識（話者認識）技術又は顔認識技術のいずれかに基づいて、ユーザを認識することに基づいている。更に、人の雰囲気(mood)又は感情的な状態（emotional state）を認識するための様々な技術が提案されている。
【０００４】
ICICS 1997の情報、通信及び信号処理についての国際会議の会議の議事録（IEEE, vol.1, pp. 397-401）は、文化(cultures)間の感情の翻訳(emotion translation)のために顔及び音声の表情を記録するためにビデオとオーディオとの組み合わせを用いるコンピュータマルチメディアの方法を開示している。
【０００５】
独国特許公報第DE19502627A1号は、互いと連絡(contact)をつけることを望む人々に連絡を開始する手段を供給する方法及び送信／受信装置を開示している。連絡を求める人は、喜んで個人的な連絡をつける気のある人によって受信され得る信号を送信しても良く、前記連絡を求める人は、その結果として、音響信号又は視覚信号によって通知されるかもしれない。
【０００６】
独国特許公報第DE19801666A1号は、受け取られた特徴情報を検出し、この受け取られた特徴情報を予め記憶された特徴情報と突き合わせて、完全な又は部分的な一致を検出し、示す方法を開示している。
【発明の開示】
【発明が解決しようとする課題】
【０００７】
しかしながら、従来技術は、ほとんどの人々が、あまり頻繁には会わない人々を覚えるのに苦労するという問題に対して如何なる解決策も開示していない。幾つかの−典型的にはビジネスに関連する−状況において、人々は、彼らが特定の人の詳細を思い出すのに役立つよう人の名刺を持つかもしれない。しかしながら、彼らは、たとえ彼らの前に前記人の名刺を持っていたとしても、該人を思い出すことが出来ないかもしれない。
【０００８】
我々があまり頻繁には会わない人々との良好な関係を得ることにおいて、我々が以前に会った人々の我々の心の中での印象を思い出すことが出来ることは、極めて重要であり得る。
【課題を解決するための手段】
【０００９】
上記の問題は、冒頭の段落に記載の電子装置が、自然人の身元(identity)を認識するためにオーディオ及び／又はビジュアルデータを処理し、認識された前記身元について記憶された情報を検索するメモリを備えるプロセッサと、前記記憶された情報をユーザに供給するユーザインタフェースとを更に有する場合に解決される。
【００１０】
その結果として、電子装置は、ユーザがあまり頻繁に会わない人を思い出すのを手助けすることが出来る。これは、その結果として、仕事上の関係又は人間関係の改善を得る助けとなり得る。
【００１１】
それにより、人々を思い出すことがより容易になることから、誰が誰であろうかと考えるのに払われる労力が少なくなる。更に、様々な人々についての情報を混同することによりもたらされる考え違いを直すユーザの労力が削減され得る。これは、その結果として、時間のより効率的な使用をもたらし得る。
【００１２】
好都合な実施例において、装置は、オーディオデータを取得するマイク、及びイメージデータを取得するカメラを有する。非常に小さい物理的な寸法を持つマイク及びカメラの両方が市販されていることから、これらは非常に小さな携帯型の器具に一体的に組み込まれ得る。
【００１３】
更に、プロセッサは、人の音声のトーンを決定するためにオーディオデータを処理し、前記音声のトーンを表わす情報(representation)を記憶するよう構成され得る。これは、前記音声のトーンは、典型的には、前記人についての、とりわけ、話している人の感情的な状態又は雰囲気についての多くの情報を有するという点で都合がよい。
【００１４】
更に、プロセッサは、音声のトーンを表わす情報を、雰囲気を表わす情報と関連づけるよう構成され得る。それにより、所与の音声のトーンは、予め規定された雰囲気と関連づけられ得る。
【００１５】
その上、プロセッサは、人の顔の表情を決定するためにイメージデータを処理し、前記顔の表情を表わす情報を記憶するよう構成され得る。典型的には、顔の表情は、人の感情的な状態又は雰囲気と密接に関連づけられる。これは、その結果として、人の感情的な状態又は雰囲気を登録する又は認識するための良い基準(basis)を装置に供給する。
【００１６】
プロセッサが、顔の表情を表わす情報を、雰囲気を表わす情報と関連づけるよう構成される場合に、顔の表情は、予め規定されたタイプの雰囲気に関連づけられ得る。
【００１７】
プロセッサは、顔の表情を表わす情報及び音声のトーンを表わす情報を、雰囲気を表わす情報と組み合わせるよう構成され得る。それにより、雰囲気のより詳細な又はロバストな登録／認識が達成され得る。
【００１８】
好ましい実施例において、音声のトーンを表わす情報は、発話速度(speaking rate)、ピッチ曲線(pitch contour)又は音声の大きさを表わす値を有する。
【００１９】
オーディオ／イメージデータの処理は、人の特徴を示すデータの生成を含む。それにより、人は、記録データに基づいて認識され得る。
【００２０】
好ましい実施例において、装置は、人についての情報を記憶し、この情報を前記人の特徴を示すデータと関連づけるオプションをユーザに供給するよう構成される。それにより、ユーザは、所与の人に関する該ユーザ自身の覚え書又は他のタイプの情報を付加することが出来る。
【００２１】
これは、前記情報がテキスト、ピクチャ又はイメージシーケンスを有する場合にとりわけ好都合である。
【００２２】
装置が、顔の表情を表わす情報及び／又は音声のトーンを表わす情報の履歴を記憶するよう構成される場合、ユーザは人の履歴を集める(compile)ことが出来る。これは、その結果として、ユーザが前記人をより良く知るようになるのを手助けすることが出来る。
【００２３】
装置が雰囲気を表わす情報の履歴を記憶するよう構成される場合、人のより個人的な知識が得られ得る。
【００２４】
装置は、雰囲気を表わす情報の履歴において、以前に記憶された雰囲気を表わす情報と現在の雰囲気を表わす情報を比較し、この比較についてユーザに情報を引き渡すよう構成され得る。これは、ユーザが記録の履歴を詳細に調べるより素早く人についての情報を得る助けとなり得る。
【００２５】
本発明は、方法にも関する。
【００２６】
以下で、好ましい実施例と関連して、図面を参照して本発明をより完全に説明する。
【発明を実施するための最良の形態】
【００２７】
図１は、人についての情報を検索する方法の第1フローチャートを示している。このフローチャートは、前記方法の最初のステップ、ステップ１０２につながるステップ１０１において開始し、ステップ１０２において、携帯情報端末(PDA)を携帯するユーザが人と会う。ユーザは、以前にこの人に会ったことがあるだろうかと思いながらこの人と話し始める。その結果、ユーザは、会話が続いている間に、ステップ１０３においてユーザのPDAにおける個人情報検索（Personal Information Retrieval）（PIR）機能をイネーブルにする。
【００２８】
会話が進行している間、PDAは、オーディオデータを得るためにステップ１０９においてこの人の音声を記録する。オーディオデータは、この人の音声によってこの人を同定するためにPDAにおいて処理される。この人が同定され得る場合には、PDAは、この人についての情報を見つけるためにデータベースに照会する。これは、ステップ１０８において行われる。照会の結果が、同定された人についての情報が見つけられることを示す場合には、ユーザは、ユーザが現在話している人についての情報が見つけられることを通知される。この情報はステップ１０７においてユーザに供給される。その結果として、ユーザは、ステップ１０５において、この人についての情報でアップデートされることから、以前にこの人に会ったことがあるだろうかと思うのをやめ得る。この情報は、この人についてのユーザ自身の覚え書を有しても良い。その後、会話は、続いていても良いし、又はステップ１０６においてこのフローチャートが終了する前に終了しても良い。それによって、ユーザは、例えば、電子名刺にこの人の名前、（勤務先の）住所などを供給することによって、この人についての情報でアップデートされる。
【００２９】
図２は、人についての情報を検索する方法の第２フローチャートを示している。このフローチャートは、前記方法の最初のステップ、ステップ２０２につながるステップ２０１において開始し、ステップ２０２において、ユーザは人と会う。ユーザは、確信はないが、この人に会ったことがあるに違いないと思いながらこの人と話し始める。今度も、ユーザは、ステップ２０３においてユーザのPDAにおける個人情報検索機能をイネーブルにする。これは、ステップ２０４においてユーザが、会話が進行している間この人のオーディオデータを記録していることを含む。それに応じて、オーディオデータがステップ２１０においてPDAにより記録される。しかしながら、イメージ／ビデオデータもまた記録され得る。
【００３０】
この記録中又はその直後に、このデータは、この人の音声によってこの人を同定するためにこの人を認識するために処理される。この人のイメージ／ビデオデータが記録される場合には、この人は、この人の顔又は全体的な外観によって同定され得る。
【００３１】
この人が同定され得る場合には、PDAは、ステップ２０８において、この人についての情報を見つけるためにデータベースDBに照会する。照会の結果が、同定された人についての情報が見つけられることを示す場合には、ユーザは、ユーザが会っている人についての情報が見つけられることを通知され、この情報はステップ２０７においてユーザに供給される。その結果として、ユーザは、ステップ２０５においてこの情報でアップデートされる。その後、会話は、ステップ２１１において続いていても良い。
【００３２】
会話中又はその後、ユーザは、ユーザが今しがた会話中に取得したこの人についての情報を付加する、編集する又はアップデートするためにステップ２１２及び２１３においてPDAを操作することが出来る。
【００３３】
この方法は、ステップ２０６において終了する。オーディオデータを記録することに加えて、又はオーディオデータを記録することの代わりとして、ユーザは、人のイメージ又はビデオシーケンスを記録することが出来る。後に、記録されたイメージデータは、この人を同定するために処理され得る。
【００３４】
図３は、人についての情報を検索する装置の第１フローチャートを示している。この方法は、自然人についての情報を思い出す手段をユーザに供給するために、ユーザのコマンドに応じてPDAにより実行される。
【００３５】
ステップ３０１においてユーザのコマンドを受け取ると、オーディオデータ及びイメージデータの並行記録が、各々ステップ３０３及び３０２において行なわれる。これらの記録中又はこの記録が終了される直後に、ビデオ及びイメージデータは、オーディオ及びビデオデータから、所与の人を認識するために用いられ得るフィーチャを抽出するために処理される。
【００３６】
ステップ３０７において、フィーチャプロファイル中に配設される抽出フィーチャが、以前に記憶されたフィーチャプロファイルに適合するか否かが確認される。適合が検出される（Yesである）場合には、このプロファイルと関連する人がステップ３０８において同定され、以前記憶された、この人と関連する情報が検索される。その後、ステップ３０５において、この情報はユーザインタフェースによってユーザに供給される。
【００３７】
一方、適合が検出されない（Noである）場合には、仮の無名の人(temporary anonymous person)がステップ３０９において作成される。即ち、フィーチャプロファイルが、ユーザ指定の名前をこのプロファイルと関連づけることなしに記憶される。ステップ３１０において、仮の無名の人に対する参照情報(reference)が、その後のユーザによる情報の付加のために作成される。これは、その場合に、ユーザは、人との会話が終了した際に人についての情報を入力することを許容されることから好都合である。
【００３８】
図４は、人についての情報を検索する装置の第２フローチャートを示している。同様に、この方法は、自然人についての情報を思い出す手段をユーザに供給するために、ユーザのコマンドに応じてPDAにより実行される。このフローチャートにおいては、ユーザに、人の雰囲気及び／又は感情的／個人的な状態(emotional/personal status)についての情報を記憶し、検索するオプションが供給される。
【００３９】
ステップ４０１においてユーザのコマンドを受け取ると、オーディオデータ及びイメージデータの並行記録が、各々ステップ４０３及びステップ４０２において行なわれる。これらの記録中又はこの記録が中止される直後に、ステップ４０４において、ビデオ及びイメージデータは、オーディオ及びビデオデータから、所与の人を認識するために用いられ得るフィーチャを抽出するために処理される。
【００４０】
ステップ４０７において、フィーチャプロファイル中に配設される抽出フィーチャが、以前に記憶されたフィーチャプロファイルに適合するか否かが確認される。適合が検出される（Yesである）場合には、このプロファイルと関連する人がステップ４０８において同定され、以前記憶された、この人と関連する情報が検索される。次のステップ４１１において、ビデオ及びイメージデータは、オーディオ及びビデオデータから、同定された人の雰囲気又は感情的／個人的な状態を認識するために用いられ得るフィーチャを抽出するために処理される。
【００４１】
その後、ステップ４０５において、この人についての情報及びこの人の雰囲気又は感情的／個人的な状態が、ユーザインタフェースによってユーザに供給される。
【００４２】
一方、適合が検出されない（ステップ４０７においてNoである）場合には、仮の無名の人がステップ４０９において作成される。ステップ４１０において、ユーザは、その後の情報の付加のために仮の無名の人に対する参照情報を作成する。
【００４３】
次のステップ４１２において、ユーザは、ユーザが人についての情報を編集する及び／又はアップデートすることを可能にするユーザインタフェースにアクセスできる。ユーザがこのようなオプションを選択する場合には、ステップ４１３においてエディタがオープンされる。
【００４４】
同様に、ステップ４１４において、ユーザに、人の雰囲気又は感情的／個人的な状態についての情報を編集する及び／又はアップデートするオプションが供給される。ユーザがこの情報を変更することを選択する場合には、ステップ４１５においてエディタがオープンされる。
【００４５】
この方法はステップ４０６において終了する。
【００４６】
図５は、人についての情報を記憶し、検索する装置のブロック図を示している。
【００４７】
参照符号５０１は、一般に、携帯情報端末（PDA）を示す。PDAは、基本的なオペレーティングシステム（OS）のプロセスと、本発明による方法を実施するためのプログラムを含むアプリケーションのプロセス／プログラムとの両方を実行する中央処理装置５０９を有する。
【００４８】
イメージデータを処理するために、この処理装置は、カメラ５０２からのイメージデータを前処理するためのイメージプロセッサ５０３に動作的に接続される。
【００４９】
同様に、オーディオデータを処理するために、この処理装置はまた、マイク５０４からのオーディオデータを前処理するためのオーディオプロセッサ５０５に動作的に接続される。
【００５０】
ユーザがPDAと対話することを可能にするために、PDAは、対話型ディスプレイ５０６及びスピーカ５０７を備えるユーザインタフェース手段を有する。対話型ディスプレイは、イメージ及びビデオシーケンスを含むグラフィック並びにテキストを表示することによりユーザに情報を供給することが出来る。
【００５１】
PDAは、対話型ディスプレイがタッチセンシティブであることでユーザからの入力を受け取ることが出来る。それにより、対話型ディスプレイ上にキーボードを出現させることが可能である。その代わりに又は付加的に、ディスプレイ上でのユーザの手書きが解釈(interpret)され得る。
【００５２】
人についての情報を記憶するために、PDAは、構造化され、探索可能なようにこの情報を記憶するためのデータベース５０８を有する。
【００５３】
据え置き型コンピュータ、インターネット上のコンピュータ、他のPDA、又は移動体電話を含む他の電気機器と通信する目的のために、PDAは入力／出力（I/O）インタフェース５１０を有する。I/Oインタフェースは、ワイヤレスインタフェース、例えば、所謂IrDaポート又はブルートゥースインタフェースであっても良い。
【００５４】
PDAは、携帯型の装置又は移動体装置であることから、PDAは、主として充電式バッテリ５１１によって給電される。
【００５５】
図６は、人についての情報を処理する装置の装置の第２ブロック図を示している。
【００５６】
このブロック図は、４つの主要な処理手段、即ち、イメージプリプロセッサ６０３、オーディオプリプロセッサ６０７、人認識プロセッサ６０４及び雰囲気認識プロセッサ６０８を有する。更に、イメージプリプロセッサ６０３はカメラ６０２からイメージデータを取得し、オーディオプリプロセッサ６０７はマイク６０６からオーディオデータを取得する。ユーザインタフェース６０５を介して、ユーザに、認識された人の身元又は認識された／登録された雰囲気についての情報を登録する手段が供給される。この情報はデータベース６０９中に記憶される。
【００５７】
好ましい実施例において、イメージプリプロセッサ６０３は、人々の顔を表わすイメージデータを処理するよう構成される。これは、人々の顔は、１）特定の人を同定するため、及び２）人の雰囲気を決定するために用いられ得る多くの情報を有することから、好都合である。
【００５８】
オーディオプリプロセッサ６０７は、人々の音声及び人々の音声のトーンを表わすオーディオデータを処理するよう構成される。これは、人々の音声は、信号処理技術により抽出され得る、個々の人の特徴を示す情報を有することから好都合である。同様に、ほとんどの状況において、人の音声のトーンは該人の雰囲気を表わす。
【００５９】
斯くして、プリプロセッサ６０３及び６０７は、１）特定の人を同定するため、及び２）人の雰囲気を決定するために用いられ得るフィーチャを抽出するよう構成される。
【００６０】
特定の人の同定に関連するフィーチャは人認識プロセッサ６０４に供給され、人の雰囲気の決定に関連するフィーチャは雰囲気認識プロセッサ６０８に供給される。それにより、所与のイメージ及び／又はオーディオの記録が、人の身元を認識するためにも、人の雰囲気を決定するためにも用いられ得る。
【００６１】
上記のプロセッサは、所与の人について様々な雰囲気又は音声のトーンの間の区別をするためのイメージ及びオーディオデータの処理において非常に効率的であるが、ユーザが登録された雰囲気情報を修正することが出来ると都合がよい。それにより、ユーザは、関係のある人(associated person)の雰囲気と音声のトーンとの間の関係を変更することが出来る。ユーザインタフェース６０５はこのための手段を供給する。
【００６２】
更に、ユーザインタフェース６０５は、人についての情報を登録する、アップデートする又は編集するのに用いられ得る。
【００６３】
前記ブロック図は、PDA、移動体電話、パソコン、ラップトップコンピュータ、クライアント-サーバ・コンピュータシステム、又は別のタイプの電子機器によって実施され得る。
【００６４】
図７は、カメラユニット及びマイクを備える携帯情報端末（PDA）を示している。参照符号７０１によって一般に示されているPDAのこの実施例において、PDAは、対話型ディスプレイ７０３、マイク７０８及びボタン７０４を有する。PDAは、カメラユニット７０２に接続するためのインタフェース７０５を持つ。カメラユニット７０２は、該カメラユニットから直接的に、又はPDAから操作され得るカメラ７０９を有する。カメラで記録されたイメージはインタフェース７０５を介してPDAに転送される。
【００６５】
人について記憶される情報は、名前、住所、会社名、電子メールアドレス、ウェブアドレス、地位、専門技術(expertise)などを備える名刺を含み得ることに注意されたい。更に、この情報は、この人との面談の内容についての覚え書などを含み得る。
【００６６】
更に、人の音声のトーンの記憶／処理の代わりに又は加えて、人の声紋が記憶／処理され得ることに注意されたい。人の声紋は、音声データに基づいて人を同定するために音声データを処理することにより抽出され得る。人の声紋は、人に特有のものであるとみなされることができ、即ち、声紋は、とりわけ人の物理的な発声系(physical voice system) の大きさ、例えば該人の声道の長さ及び幅によって決定される特徴である。
【図面の簡単な説明】
【００６７】
【図１】人についての情報を検索する方法の第１フローチャートを示す。
【図２】人についての情報を検索する方法の第２フローチャートを示す。
【図３】人についての情報を検索する装置の第１フローチャートを示す。
【図４】人についての情報を検索する装置の第２フローチャートを示す。
【図５】人についての情報を記憶し、検索する装置のブロック図を示す。
【図６】人についての情報を処理する装置の第２ブロック図を示す。
【図７】カメラユニット及びマイクを備える携帯情報端末(PDA)を示す。

Claims

自然人についての情報を供給する方法であって、
前記自然人のオーディオデータ及び／又はイメージデータを記録するステップと、
前記自然人の身元を認識するために前記オーディオデータ及び／又はビジュアルデータを処理するステップと、
認識された前記身元について記憶された情報を検索するステップと、
前記記憶された情報をユーザに供給するステップとを有する方法。
前記人の音声のトーン及び／又は声紋を決定するために前記オーディオデータを処理するステップと、前記音声のトーン及び／又は声紋を表わす情報を記憶するステップとを更に有することを特徴とする請求項１に記載の方法。
音声のトーンを表わす情報を雰囲気を表わす情報と関連づけるステップを更に有することを特徴とする請求項２に記載の方法。
前記人の顔の表情を決定するために前記イメージデータを処理するステップと、前記顔の表情を表わす情報を記憶するステップとを更に有することを特徴とする請求項１に記載の方法。
顔の表情を表わす情報を雰囲気を表わす情報と関連づけるステップを更に有することを特徴とする請求項４に記載の方法。
人についての情報を記憶し、この情報を前記人の特徴を示すデータと関連づけるオプションをユーザに供給するステップを更に有することを特徴とする請求項１に記載の方法。
自然人についての情報を供給する装置であって、
前記自然人のオーディオデータ及び／又はイメージデータを記録する記録器と、
前記自然人の身元を認識するために前記オーディオデータ及び／又はビジュアルデータを処理し、認識された前記身元について記憶された情報を検索するメモリを備えるプロセッサと、
前記記憶された情報をユーザに供給するユーザインタフェースとを有する装置。
前記プロセッサが、音声のトーンを表わす情報を雰囲気を表わす情報と関連づけるよう構成されることを特徴とする請求項７に記載の装置。
前記プロセッサが、顔の表情を表わす情報を雰囲気を表わす情報と関連づけるよう構成されることを特徴とする請求項７に記載の装置。
前記プロセッサが、顔の表情を表わす情報及び音声のトーンを表わす情報を雰囲気を表わす情報と組み合わせるよう構成されることを特徴とする請求項７に記載の装置。
前記装置が、人についての情報を記憶し、この情報を前記人の特徴を示すデータと関連づけるオプションをユーザに供給するよう構成されることを特徴とする請求項７に記載の装置。
雰囲気を表わす情報の履歴において、現在の雰囲気を表わす情報を、以前に記憶された雰囲気を表わす情報と比較し、この比較の結果について前記ユーザに情報を供給するよう構成されることを特徴とする請求項７に記載の装置。