JP2012525625A

JP2012525625A - マルチモーダル情報を用いるユーザ意図推論装置及び方法

Info

Publication number: JP2012525625A
Application number: JP2012508401A
Authority: JP
Inventors: チョウ，ジョン−ミ; キム，ジョン−ス; バン，ウォン−チョル; キム，ナム−フン
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2009-04-30
Filing date: 2010-04-29
Publication date: 2012-10-22
Anticipated expiration: 2030-04-29
Also published as: JP5911796B2; WO2010126321A2; CN102405463A; EP2426598A2; EP2426598A4; US8606735B2; WO2010126321A3; US20100280983A1; EP2426598B1; CN102405463B

Abstract

マルチモーダル情報を用いてユーザ意図を推論する装置及び方法を提供する。少なくとも一つのモーション情報を用いてユーザ意図の一部を予測する１次予測部と、予測されたユーザ意図の一部及び少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を用いてユーザ意図を予測する２次予測部と、を含むユーザ意図推論装置。

Description

本発明の一つ以上の態様は、マルチモーダル情報を用いるシステムに係り、より詳細には、マルチモーダル情報を用いてユーザ入力を処理する装置及び方法に関する。

マルチモーダルインタフェースは、人間と機械との通信のために、音声、キーボード、ペンなどを用いてインターフェースする方法を意味する。このようなマルチモーダルインタフェースを通じるマルチモーダル情報が入力された場合、ユーザ意図を分析する方式は、マルチモーダル入力を信号レベルで融合して分析する方式と、各モダリティ入力情報をそれぞれ分析した後、該分析された結果を意味レベルで融合して分析する方法とがある。

信号レベルで融合する方式は、マルチモーダル入力信号を融合して一度に分析及び分類するものであって、例えば、音声信号と唇の動きのように同時に発生する信号処理に好適に利用されうる。しかし、２以上の信号を統合して処理するために、特徴空間が非常に大きく、信号間の関連性を計算するためのモデルが非常に複雑で、学習量が多くなる。また、他のモダリティと結合するか、他の端末に適用するなどの場合のような拡張性が容易ではない。

各モダリティを意味レベルで融合する方式は、それぞれのモダリティ入力信号の意味を分析した後、該分析結果を融合するものであって、モダリティ間の独立性を保持することができて、学習及び拡張が容易である。しかし、ユーザがマルチモーダル入力を行う理由は、モダリティ間の関連性があるためであるが、個別的に意味を分析する場合、この関連性を捜し出しにくい。

本発明は、モーション情報によってユーザ意図を予測し、該予測されたユーザ意図をマルチモーダル入力情報を用いて推論することによって、効率的かつ正確にユーザ意図を推論することができる装置及び方法を提供することである。

本発明の一側面によるユーザ意図推論装置は、少なくとも一つのモーション情報を用いてユーザ意図の一部を予測する１次予測部と、予測されたユーザ意図の一部及び少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を用いてユーザ意図を予測する２次予測部と、を含む。

本発明の他の側面によるユーザ意図推論方法は、少なくとも一つのモーション情報を受信する段階と、受信されたモーション情報を用いてユーザ意図の一部を予測する段階と、少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を受信する段階と、予測されたユーザ意図の一部及びマルチモーダル情報を用いてユーザ意図を予測する段階と、を含む。

本発明の一実施形態によれば、ユーザモーション認識を通じてユーザ意図の一部を予測し、該予測されたユーザ意図の一部によってマルチモーダル情報を分析して、２次的にユーザ意図を予測することによって、モダリティ間の独立性を保持しながらも、モダリティ間の関連性の把握が容易であって、ユーザ意図を正確に推論することができる。

また、モーション情報を用いて、またはモーション情報と共に音声または映像情報などのマルチモーダル情報を融合して、ユーザの音声入力開始及び終了の意図を予測することができるので、ユーザは特別な音声入力方式を学習せずとも、ユーザ意図推論装置に音声を入力することができる。

本発明の一実施形態によるユーザ意図推論装置の構成を示す図である。図１のユーザ意図予測部の構成の一例を示す図である。図２のユーザ意図予測部の例示的な動作を示す図である。ユーザ意図の一部が予測された後、追加的なマルチモーダル入力を受けてユーザ意図を予測する動作の一例を示す図である。ユーザ意図の一部が予測された後、追加的なマルチモーダル入力を受けてユーザ意図を予測する動作の他の例を示す図である。音響信号と映像信号とを結合して信号を分類する構成の一例を示す図である。本発明の一実施形態によるマルチモーダル情報を用いるユーザ意図推論方法を示す図である。

１次予測部は、予測されたユーザ意図の一部を用いてユーザ意図を予測する過程で行われる動作を実行させるための制御信号を生成することができる。

ユーザ意図を予測する過程で行われる動作を実行させるための制御信号は、ユーザ意図推論装置によって制御されるマルチモーダルセンサーの動作を制御する制御信号であり得る。

２次予測部は、ユーザ意図を予測するために、マルチモーダルセンサーから入力されるマルチモーダル情報を予測されたユーザ意図の一部と関連するように解析することができる。

予測されたユーザ意図の一部がディスプレイ画面に表示されたオブジェクトの選択であり、マルチモーダルセンサーから音声が入力されれば、２次予測部は、入力された音声をオブジェクトの選択と関連して解析することによって、ユーザ意図を予測することができる。

２次予測部は、予測されたユーザ意図の一部の範囲内で、少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を用いてユーザ意図を予測することができる。

予測されたユーザ意図の一部がマイクを口に持って行く動作である場合、２次予測部は、音響信号を感知し、該感知された音響信号についての特徴を抽出及び分析して、ユーザ意図を予測することができる。

２次予測部は、音響信号で音声区間が検出されるか否かを決定し、音声区間が検出される場合、ユーザ意図を音声命令意図として予測することができる。

２次予測部は、音響信号で呼吸音が検出された場合、ユーザ意図を吹きとして予測することができる。

予測されたユーザ意図の一部がディスプレイ画面に表示されたオブジェクトの選択である場合、２次予測部は、マルチモーダル情報を用いてユーザ意図を選択されたオブジェクトに対する削除、分類及び整列のうち少なくとも一つとして予測することができる。

ユーザ意図の予測結果を用いてユーザ意図推論装置で制御されるソフトウェアまたはハードウェアを制御するユーザ意図適用部をさらに含みうる。

以下、添付した図面を参照して、本発明の一実施形態を詳しく説明する。本発明の多様な実施形態を説明するに当たって、関連した公知機能または構成についての具体的な説明が、本発明の要旨を不明にする恐れがあると判断される場合には、その詳細な説明を省略する。

図１は、本発明の一実施形態によるユーザ意図推論装置の構成を示す図である。

ユーザ意図推論装置１００は、モーションセンサー１１０、制御部１２０、及びマルチモーダル感知部１３０を含む。ユーザ意図推論装置１００は、携帯電話、ＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｅ）、デジタルカメラ、携帯用ゲームコンソール、ＭＰ３プレーヤー、携帯用／個人用マルチメディアプレーヤー（ＰＭＰ）、ハンドヘルド電子ブック、携帯用ラップトップＰＣ、ＧＰＳ（ｇｌｏｂａｌｐｏｓｉｔｉｏｎｉｎｇｓｙｓｔｅｍ）ナビゲーション、及びデスクトップＰＣ、ＨＤＴＶ（ｈｉｇｈｄｅｆｉｎｉｔｉｏｎｔｅｌｅｖｉｓｏｎ）、光学ディスクプレーヤー、セットトップボックスなど、如何なる形態の装置またはシステムでも具現可能である。また、ユーザ意図推論装置１００は、ユーザインターフェース部、ディスプレイ部、音響出力部などのマルチモーダルインタフェースのための構成要素のように、具現例によって多様な構成要素をさらに含んで構成することができる。

モーションセンサー１１０は、モーション情報を感知するために、慣性センサー、方向を感知する地磁気センサー及び動きを感知する加速度センサーまたはジャイロセンサーなどを含みうる。モーションセンサー１１０は、前記に列挙したセンサー以外にも、映像センサー、音響センサーなどを含みうる。本発明の一実施形態によれば、複数個のモーションセンサーがユーザの身体一部とユーザ意図推論装置１００とに付着されてモーション情報を感知することができる。

マルチモーダル感知部１３０は、少なくとも一つのマルチモーダルセンサー１３２、１３４、１３６、１３８を含みうる。音響センサー１３２は、音響信号を感知するセンサーであり、映像センサー１３４は、イメージ情報を感知するセンサーであり、生体情報センサー１３６は、体温などの生体情報を感知し、タッチセンサー１３８は、タッチパッド上のタッチジェスチャを感知し、その他の多様な種類または形態のマルチモーダルセンサーが含まれうる。

図１には、マルチモーダル感知部１３０に４つのセンサーが含まれていると示されているが、個数には制限もない。マルチモーダル感知部１３０に含まれるセンサーの種類及び範囲は、モーション感知を目的とするモーションセンサー１１０に含まれるセンサーの種類及び範囲より広い。また、図１には、モーションセンサー１１０とマルチモーダル感知部１３０とが別途に存在すると示されているが、一体化されて構成することもできる。または、モーションセンサー１１０に含まれるセンサーとマルチモーダル感知部１３０とに同じ種類のセンサー、例えば、映像センサー及び音響センサーが重複的に含まれうる。

マルチモーダル感知部１３０は、それぞれのマルチモーダルセンサー１３２、１３４、１３６、１３８で感知されたマルチモーダル情報を、その種類によって特徴値を抽出して意味を分析するモジュールを含んで構成することができる。マルチモーダル情報を分析する構成要素は、制御部１２０に含まれることもある。

制御部１２０は、ユーザ意図推論装置１００の各構成要素の動作を制御するためのアプリケーション、データ及びオペレーティングシステムを含みうる。本発明の一実施形態によれば、制御部１２０は、ユーザ意図予測部１２２、及びユーザ意図適用部１２４を含む。

ユーザ意図予測部１２２は、モーションセンサー１１０から感知された少なくとも一つのモーション情報を受信し、該受信されたモーション情報を用いて１次的にユーザ意図の一部を予測する。また、ユーザ意図予測部１２２は、予測されたユーザ意図の一部及び少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を用いて２次的にユーザ意図を予測することができる。すなわち、ユーザ意図予測部１２２は、２次的にユーザ意図を予測する時、モーションセンサー１１０から感知されたモーション情報及びマルチモーダル感知部１３０から入力されたマルチモーダル情報を用いて、最終的にユーザ意図を予測することができる。ユーザ意図予測部１２２は、ユーザ意図を推論するための知られたさまざまな推論モデルを利用できる。

また、ユーザ意図予測部１２２は、１次的に予測されたユーザ意図の一部を用いて２次的にユーザ意図を予測する過程で行われる動作を実行させるための制御信号を生成することができる。ユーザ意図推論過程で行われる動作を実行させるための制御信号は、ユーザ意図推論装置１００によって制御されるマルチモーダル感知部１３０の動作を制御する制御信号であり得る。

例えば、モーション情報を用いて１次的に予測されたユーザ意図の一部に基盤してマルチモーダル感知部１３０のセンサーのうち、１次的に予測されたユーザ意図の一部と関連した一部のセンサー動作を活性化し、この場合、マルチモーダル感知部１３０のあらゆるセンサーを活性化する場合に比べて、センサー動作に使う電力消耗を減少させることができる。また、一部のセンサーから入力される感知情報を分析するので、マルチモーダル入力情報の解析を単純化して、ユーザ意図予測過程の複雑度を減少させながらも、正確なユーザ意図を推論することができる。

ユーザ意図予測部１２２は、２次的にユーザ意図を予測するために、マルチモーダル情報の種類によって特徴を抽出して分析するモジュール（図示せず）を含んで構成することができる。また、ユーザ意図予測部１２２は、マルチモーダル感知部１３０から入力されるマルチモーダル情報を１次的に予測されたユーザ意図の一部と関連するように解析することができる。

例えば、ユーザ意図予測部１２２で、１次的に予測されたユーザ意図の一部がディスプレイ画面に表示されたオブジェクトの選択として決定される場合、マルチモーダル感知部１３０から音声が入力されれば、該入力された音声をオブジェクトの選択と関連して解析することによって、２次的にユーザ意図を予測することができる。具体的に、１次的に予測されたユーザ意図の一部がディスプレイ画面に表示されたオブジェクトの選択として決定され、マルチモーダル感知部１３０で入力された音響信号が、“日付別に整理”と分析された場合、ユーザ意図予測部１２２は、ユーザ意図を“ディスプレイ画面で選択されたオブジェクトを日付順に整列”せよとの意味として解析することができる。
また、ユーザ意図予測部１２２は、１次的に予測されたユーザ意図の一部がディスプレイ画面に表示されたオブジェクトの選択である場合、マルチモーダル情報を用いて２次的にユーザ意図を削除、分類及び整列のうち少なくとも一つとして予測することができる。

ユーザ意図適用部１２４は、ユーザ意図の予測結果を用いてユーザ意図推論装置で制御されるソフトウェアまたはハードウェアを制御することができる。ユーザ意図適用部１２４は、予測されたユーザ意図にインタラクションするためのマルチモーダルインタフェースを提供することができる。例えば、ユーザ意図が音声命令として予測された場合、音声命令内の意味を把握するために、音声認識を行い、認識結果によって、特定の人に対して自動で電話を連結するアプリケーションや検索アプリケーションを実行し、ユーザが選択したオブジェクトを伝送しようとする意図である場合には、電子メールアプリケーションを実行することができる。他の例として、ユーザ意図がハミング（ｈｕｍｍｉｎｇ）として予測される場合、ハミング音源と類似した音楽とを検索するアプリケーションが駆動されうる。また他の例として、ユーザ意図が吹き（ｂｌｏｗ）として予測される場合、ゲームアプリケーションでアパターが特定の動作を実行する命令として利用されうる。

本発明の一実施形態によれば、ユーザモーション認識を通じてユーザ意図の一部を予測し、該予測されたユーザ意図の一部によってマルチモーダル情報を分析して、２次的にユーザ意図を予測することによって、マルチモーダル情報を解析する過程で独立性を保持しながらも、一次的に予測されたユーザ意図の一部と関連付けてマルチモーダル情報を解析することができるので、モダリティ間の関連性の把握が容易であって、ユーザ意図を正確に推論することができる。

図２は、図１のユーザ意図予測部の構成の一例を示す図である。

ユーザ意図予測部１２２は、モーション情報分析部２１０、１次予測部２２０、及び２次予測部２３０を含みうる。

モーション情報分析部２１０は、モーションセンサー１１０から受信される一つ以上のモーション情報を分析する。モーション情報分析部２１０は、モーションセンサー１１０が付着されたユーザの身体の各部位の位置情報及び角度情報を測定し、該測定された位置情報及び角度情報を用いて、モーションセンサー１１０が付着されていないユーザの身体の各部位の位置情報及び角度情報も計算することができる。

例えば、モーションセンサー１１０が、両手首及び頭に付着された場合、センサーとセンサーとの距離が測定され、各センサーは、基準座標系に対する３次元回転角情報が得られる。したがって、モーション情報から手首部位と頭部位との距離及び手首の回転角情報を計算して、手首と顔の口部位との距離及び手首の回転角情報を計算することができる。ユーザが、手にユーザ意図推論装置１００の音響センサー１３２に該当するマイクを取っている場合を仮定すれば、マイクの口の間の距離とマイクの方向とが計算されうる。

他の例として、モーションセンサー１１０が、ユーザの頭と音響センサーに該当するマイクとに装着された場合、モーション情報からマイクと頭部位との距離が測定され、マイクに付着された慣性センサーからセンサーを付着した軸の３次元角度情報を獲得して、モーション情報分析部２１０は、手首と顔の口部位との距離及びマイクの回転角情報を計算することができる。

また他の例として、モーションセンサー１１０に映像センサーが含まれて、モーション情報分析部２１０に映像情報を入力することができる。この場合、モーション情報分析部２１０は、映像内の顔や手のようなオブジェクト（ｏｂｊｅｃｔ）を認識した後、オブジェクト間の位置関係を計算することができる。例えば、モーション情報分析部２１０は、顔と両手との距離及び角度、両手間の距離及び角度などを計算することができる。

１次予測部２２０は、モーション情報分析によってトリガーされたユーザ意図の一部を予測する。例えば、１次予測部２２０は、映像を含むモーション情報分析を通じて１次的にスクリーンにあるオブジェクトを選択するモーションであるか否かを予測することができる。

２次予測部２３０は、１次予測部２２０で予測されたユーザ意図の一部及びマルチモーダル感知部１３０から入力されたマルチモーダル情報を用いてユーザ意図を予測する。

２次予測部２３０は、ユーザ意図を予測するために、マルチモーダルセンサーから入力されるマルチモーダル情報を１次的に予測されたユーザ意図の一部と関連するように解析することができる。一例として、１次的に予測されたユーザ意図の一部がディスプレイ画面に表示されたオブジェクトの選択であり、２次予測部２３０は、マルチモーダル感知部１３０から音声が入力されれば、該入力された音声をオブジェクトの選択と関連して解析することによって、２次的にユーザ意図を予測することができる。

また他の例として、１次予測部２２０が、１次的に予測されたユーザ意図の一部をマイクを口に持って行くと予測し、マルチモーダル感知部１３０でカメラのような映像センサー１３４を通じて口の動きが感知され、マイクのような音響センサー１３２を通じて音声が入力される場合、２次予測部２３０は、ユーザ意図を音声命令入力として予測することができる。音声命令入力の意図を予測するために、２次予測部２３０の音響信号から音声区間を検出し、該検出された音声区間についての特徴抽出及び分析を通じる意味分析を行って、ユーザ意図適用部１２４で利用することができる形態で作ることができる。

また他の例として、１次予測部２２０が、マイクを口に持って行くことを１次的にユーザ意図の一部として予測し、マルチモーダル感知部１３０でカメラのような映像センサー１３４を通じて唇が前に突出する映像が一貫して感知され、マイクを通じて呼吸音（ｂｒｅａｔｈｓｏｕｎｄ）が入力される場合、２次予測部２３０は、ユーザ意図を吹きとして予測することができる。

前記の二つの例で、ユーザ意図は、“マイクを口に持って行って音声命令入力”と“マイクを口に持って行って吹き”とでそれぞれ異なる。しかし、二つのユーザ意図の一部は、“マイクを口に持って行って”ということで共通しており、１次予測部２２０は、このようなユーザ意図の一部を先に予測して、ユーザ意図の範囲を狭めることができる。１次予測部２２０によって狭められたユーザ意図の範囲内で、２次予測部２３０は、マルチモーダル情報を考慮して、ユーザ意図を予測することができる。前記の二つの例の場合のみ考慮すれば、“マイクを口に持って行って”というモーションが感知されれば、１次予測部２２０によってユーザ意図の範囲は、“音声命令入力”と“吹き”とに制限され、２次予測部２３０は、感知されるマルチモーダル情報を考慮して、ユーザ意図が、“音声命令入力”であるか、“吹き”であるか判断することができる。

図３は、このような図２のユーザ意図予測部の例示的な動作を示す図である。

１次予測部２２０は、モーション情報分析部２１０で分析されたモーション情報を用いてユーザ意図の一部を予測することができる。２次予測部２３０は、マルチモーダル感知部１３０の映像センサー１３４によって感知された映像または音響センサー１３２から感知された音響信号などのマルチモーダル信号を入力されて、音声が検出されているか否かについての情報を生成して、ユーザ意図を予測することができる。

一例として、モーション情報分析部２１０は、ユーザの頭及び手首に装着されたモーションセンサーから感知されたモーション情報を用いて、ユーザの口とマイクを取った手との距離を計算する（３１０）。モーション情報分析部２１０は、手首の回転角度からマイクの方向を計算する（３２０）。

１次予測部２２０は、モーション情報分析部２１０によって計算された距離及び方向情報を用いて、ユーザがマイクを口に当てるモーションであるか否かを予測して、ユーザ意図の一部を予測する（３３０）。例えば、１次予測部２２０は、ユーザの口とマイクを取った手との位置が口周り半径２０ｃｍ以内であり、マイク方向が口に向けていると決定されれば、ユーザがマイクを口に持って来ようとすると予測することができる。

この場合、２次予測部２３０は、マイクのような音響センサー１３２とカメラのような映像センサー１３４とから入力されたマルチモーダル入力信号を分析して、音声命令意図であるか、ハミングや吹きのような意図であるかなどに、ユーザ意図を予測することができる。

２次予測部２３０は、ユーザ意図の一部の予測、すなわち、１次予測がマイクを口に持って来ることであり、カメラから唇の動きが感知され、マイクによって感知された音響信号から音声が検出されれば、ユーザ意図を音声命令意図として決定することができる（３４０）。これと異なって、１次予測がマイクを口に持って来ることであり、カメラから唇を前に突出する映像が感知され、マイクから入力される音響信号から呼吸音が検出されれば、２次予測部２３０は、ユーザ意図を吹きとして決定することができる（３５０）。

図４は、ユーザ意図の一部が予測された後、追加的なマルチモーダル入力を受けてユーザ意図を予測する動作の一例を示す図である。

２次予測部２３０は、１次予測部２２０から受信された予測されたユーザ意図の一部がマイクを口に持って行くことである場合（４１０）、マルチモーダル感知部１３０に含まれたマイクとカメラなどのセンサーとを活性化して、マルチモーダル信号を入力される（４２０）。

２次予測部２３０は、マイクから入力された音響信号とカメラから入力された映像信号とから特徴を抽出し、特徴を分類及び分析する（４３０）。

音響特徴として、マイクから入力された音響信号で時間エネルギー（ＴｉｍｅＥｎｅｒｇｙ）、周波数エネルギー（ＦｒｅｑｕｅｎｃｙＥｎｅｒｇｙ）、ゼロ交差率（ＺｅｒｏＣｒｏｓｓｉｎｇＲａｔｅ）、ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）、ケプストラム係数（Ｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔｓ）、ピッチ（ｐｉｔｃｈ）などの時間領域の特徴や周波数スペクトルのような統計的特徴などが抽出されうる。抽出されうる特徴は、これらに限定されず、他の特徴アルゴリズムによって抽出されうる。抽出された特徴は、決定ツリー（ＤｅｃｉｓｉｏｎＴｒｅｅ）、支援ベクトルマシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）、ベイジアンネットワーク（ＢａｙｅｓｉａｎＮｅｔｗｏｒｋ）、神経網（ＮｅｕｒａｌＮｅｔｗｏｒｋ）のような分類及び学習アルゴリズムなどを使って、入力特徴音声（ｓｐｅｅｃｈ）活動クラスであるか、非音性（ｎｏｎ−ｓｐｅｅｃｈ）活動クラスであるかを分類されうるが、これに限定されるものではない。

特徴分析の結果、音声区間が検出されれば（４４０）、２次予測部２３０は、音声命令入力でユーザ意図を予測することができる。２次予測部２３０は、特徴分析の結果、音声区間が検出されず（４４０）、呼吸音が検出されれば（４５０）、吹きの意図として予測することができる。また、他種の特徴が検出されることによって、ユーザ意図をハミングなどいろいろと決定されうる。この際、２次予測部２３０は、１次予測から限定される範囲内でユーザ意図を予測することができる。

したがって、本発明の一実施形態によれば、ユーザのマルチモーダル情報を用いてユーザ意図を予測し、該予測結果によって、音声検出動作の遂行を制御することができるので、音声インターフェース使用時に、ユーザが音声入力方法、例えば、ユーザが音声入力のための別途のボタンや画面タッチなどの動作方法などを別途に学習せずとも、直観的に音声を入力することができる。

２次予測部２３０は、マイクから音響情報以外にも、カメラのような映像センサー１３４から入力される映像情報と声帯マイクのような生体情報センサー１３６から入力される人が音声を発話する時、変化される少なくとも一つの感知情報のうち少なくとも一つを音響信号から抽出された特徴情報と共に用いて音声区間を検出し、該検出された音声区間の音声を処理することができる。ここで、感知情報は、ユーザの口の形状変化などを表わす映像情報、発話時に出る息などによって変化する温度情報及び発話時に振動する喉または顎骨などの身体部位の振動情報、発話時に顔や口から出る赤外線感知情報のうち少なくとも一つを含みうる。

ユーザ意図適用部１２４は、音声区間が検出されれば（４４０）、該検出された音声区間に属した音声信号を処理して音声認識を行い、音声認識結果を用いて応用モジュールを転換させることができる。例えば、認識結果によってアプリケーションが実行されて、名前が認識されれば、該認識された名前に対する電話番号が検索されるか、該検索された電話番号に電話をかける動作などの知能的な音声入力開始及び終了の転換が可能になる。また、ユーザ意図推論装置１００が、モバイルコミュニケーションデバイスとして具現された場合、マルチモーダル情報に基盤して音声通話開始及び終了の意図を把握して、ユーザが通話ボタンを押すなどの別途の動作をしないとしても、自動で音声通話モードに動作モードが転換されうる。

図５は、ユーザ意図の一部が予測された後、追加的なマルチモーダル入力を受けてユーザ意図を予測する動作の他の例を示す図である。

２次予測部２３０は、１次予測部２２０から受信された１次予測されたユーザ意図の一部が特定オブジェクトの選択である場合（４６０）、カメラと超音波センサーなどのセンサーとを活性化して、マルチモーダル信号を入力される（４７０）。

２次予測部２３０は、入力されたマルチモーダル信号を分析して（４８０）、ユーザ意図を予測する。この際、予測されるユーザ意図は、１次予測から限定される範囲内の意図であり得る。

２次予測部２３０は、マルチモーダル信号の分析結果、手を振る動作と判断することができる（４９０）。２次予測部２３０は、ユーザ意図適用部１２４で実行中であるアプリケーションによって、手を振る動作を画面上に示される特定アイテムまたはファイルを削除せよとの意図と解析して、ユーザ意図適用部１２４で特定アイテムまたはファイルが削除されるように制御することができる。

図６は、２次予測部２３０で音響信号と映像信号とを共に用いて統合分析する特徴基盤信号分類に対する一例を示す図である。

２次予測部２３０は、音響特徴抽出部５１０、音響特徴分析部５２０、映像特徴抽出部５３０、映像特徴分析部５４０、及び統合分析部５５０を含みうる。

音響特徴抽出部５１０は、音響信号から音響特徴を抽出する。音響特徴分析部５２０は、音響特徴に分類及び学習アルゴリズムを適用して音声区間を抽出する。映像特徴抽出部５３０は、一連の映像信号から映像特徴を抽出する。映像特徴分析部５４０は、抽出された映像特徴に分類及び学習アルゴリズムを適用して音声区間を抽出する。

統合分析部５５０は、音響信号と映像信号とによってそれぞれ分類された結果を融合して、最終的に音声区間を検出する。この際、音響特徴及び映像特徴を個別的に適用するか、二つの特徴を融合して適用し、他の信号、例えば、振動、温度などを表わす信号から特徴が抽出及び分析される場合、統合分析部５５０で音響信号及び映像信号から抽出された検出情報と融合して、音声区間が検出されうる。

本発明の一実施形態によれば、音声インターフェース使用時に、ユーザが音声入力方法を別途に学習せずとも、直観的に音声を入力することができる。一例として、ユーザが音声入力のための別途のボタンや画面タッチなどの動作を行う必要がない。また、家庭ノイズ、車両ノイズ、非話者ノイズなど、ノイズの種類や程度などに関係なく、多様なノイズ環境で正確なユーザ音声区間検出を行うことができる。また、映像以外にも、他の生体情報を用いて音声検出を行うことができるので、照明が過度に明るいか、暗い場合、またはユーザの口が隠れる状況でも、ユーザの音声区間を正確に検出することができる。

図７は、本発明の一実施形態によるマルチモーダル情報を用いるユーザ意図推論方法を示す図である。

ユーザ意図推論装置１００は、少なくとも一つのモーションセンサーから感知されたモーション情報を受信する（６１０）。ユーザ意図推論装置１００は、受信されたモーション情報を用いて１次的にユーザ意図の一部を予測する（６２０）。

少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報が受信されれば（６３０）、ユーザ意図推論装置１００は、１次的に予測されたユーザ意図の一部及びマルチモーダル情報を用いて、２次的にユーザ意図を予測する（６４０）。２次的にユーザ意図を予測する段階で、マルチモーダルセンサーから入力されるマルチモーダル情報を１次的に予測されたユーザ意図の一部と関連付けて解析する動作が行われる。

１次的に予測されたユーザ意図の一部を用いて、２次的ユーザ意図予測過程で行われる動作を実行させるための制御信号を生成することができる。２次的ユーザ意図予測過程で行われる動作を実行させるための制御信号は、ユーザ意図推論装置１００によって制御されるマルチモーダルセンサーの動作を制御する制御信号であり得る。ユーザ意図は、１次的に予測されたユーザ意図の一部の範囲内で、少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を用いて決定されうる。

本発明の一態様は、コンピュータで読み取り可能な記録媒体にコンピュータで読み取り可能なコードとして具現しうる。プログラムを具現するコード及びコードセグメントは、当該分野のコンピュータプログラマーによって容易に推論されうる。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取れるデータが保存されるあらゆる種類の記録装置を含む。コンピュータで読み取り可能な記録媒体の例としては、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光ディスクなどを含む。また、コンピュータで読み取り可能な記録媒体は、ネットワークで連結されたコンピュータシステムに分散されて、分散方式でコンピュータで読み取り可能なコードとして保存されて実行可能である。

以上の説明は、本発明の一実施形態に過ぎず、当業者ならば、本発明の本質的特性から外れない範囲で変形された形態で具現することができる。したがって、本発明の範囲は、前述した実施形態に限定されず、特許請求の範囲に記載の内容と同等な範囲内にある多様な実施形態が含まれるように解析しなければならない。

本発明は、コンピュータ、電子製品、コンピュータソフトウェア及び情報技術領域分野で好適に適用されうる。

Claims

少なくとも一つのモーション情報を用いてユーザ意図の一部を予測する１次予測部と、
前記予測されたユーザ意図の一部及び少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を用いてユーザ意図を予測する２次予測部と、
を含むことを特徴とするユーザ意図推論装置。
前記１次予測部は、前記予測されたユーザ意図の一部を用いて、前記ユーザ意図を予測する過程で行われる動作を実行させるための制御信号を生成することを特徴とする請求項１に記載のユーザ意図推論装置。
前記ユーザ意図を予測する過程で行われる動作を実行させるための制御信号は、前記ユーザ意図推論装置によって制御されるマルチモーダルセンサーの動作を制御する制御信号であることを特徴とする請求項２に記載のユーザ意図推論装置。
前記２次予測部は、ユーザ意図を予測するために、前記マルチモーダルセンサーから入力されるマルチモーダル情報を前記予測されたユーザ意図の一部と関連するように解析することを特徴とする請求項１に記載のユーザ意図推論装置。
前記予測されたユーザ意図の一部がディスプレイ画面に表示されたオブジェクトの選択であり、前記マルチモーダルセンサーから音声が入力されれば、前記２次予測部は、前記入力された音声を前記オブジェクトの選択と関連して解析することによって、ユーザ意図を予測することを特徴とする請求項４に記載のユーザ意図推論装置。
前記２次予測部は、前記予測されたユーザ意図の一部の範囲内で、少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を用いてユーザ意図を予測することを特徴とする請求項１に記載のユーザ意図推論装置。
前記予測されたユーザ意図の一部がマイクを口に持って行く動作である場合、前記２次予測部は、音響信号を感知し、該感知された音響信号についての特徴を抽出及び分析して、ユーザ意図を予測することを特徴とする請求項６に記載のユーザ意図推論装置。
前記２次予測部は、前記音響信号で音声区間が検出されるか否かを決定し、音声区間が検出される場合、ユーザ意図を音声命令意図として予測することを特徴とする請求項７に記載のユーザ意図推論装置。
前記２次予測部は、前記音響信号で呼吸音が検出された場合、ユーザ意図を吹きとして予測することを特徴とする請求項８に記載のユーザ意図推論装置。
前記予測されたユーザ意図の一部がディスプレイ画面に表示されたオブジェクトの選択である場合、前記２次予測部は、マルチモーダル情報を用いてユーザ意図を前記選択されたオブジェクトに対する削除、分類及び整列のうち少なくとも一つとして予測することを特徴とする請求項１に記載のユーザ意図推論装置。
前記ユーザ意図の予測結果を用いて、前記ユーザ意図推論装置で制御されるソフトウェアまたはハードウェアを制御するユーザ意図適用部をさらに含むことを特徴とする請求項１に記載のユーザ意図推論装置。
少なくとも一つのモーション情報を受信する段階と、
前記受信されたモーション情報を用いてユーザ意図の一部を予測する段階と、
少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を受信する段階と、
前記予測されたユーザ意図の一部及び前記マルチモーダル情報を用いてユーザ意図を予測する段階と、
を含むことを特徴とするユーザ意図推論方法。
前記予測されたユーザ意図の一部を用いて、前記ユーザ意図を予測する過程で行われる動作を実行させるための制御信号を生成する段階をさらに含むことを特徴とする請求項１２に記載のユーザ意図推論方法。
前記ユーザ意図を予測する過程で行われる動作を実行させるための制御信号は、前記ユーザ意図推論装置によって制御されるマルチモーダルセンサーの動作を制御する制御信号であることを特徴とする請求項１３に記載のユーザ意図推論方法。
前記ユーザ意図を予測する段階は、
前記マルチモーダルセンサーから入力されるマルチモーダル情報を前記予測されたユーザ意図の一部と関連するように解析する段階を含むことを特徴とする請求項１２に記載のユーザ意図推論方法。
前記ユーザ意図を予測する段階で、ユーザ意図は、前記予測されたユーザ意図の一部の範囲内で、少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を用いて予測されることを特徴とする請求項１２に記載のユーザ意図推論方法。
前記ユーザ意図の予測結果を用いて、前記ユーザ意図推論装置で制御されるソフトウェアまたはハードウェアを制御する段階をさらに含むことを特徴とする請求項１２に記載のユーザ意図推論方法。