JP2012525625A - マルチモーダル情報を用いるユーザ意図推論装置及び方法 - Google Patents

マルチモーダル情報を用いるユーザ意図推論装置及び方法 Download PDF

Info

Publication number
JP2012525625A
JP2012525625A JP2012508401A JP2012508401A JP2012525625A JP 2012525625 A JP2012525625 A JP 2012525625A JP 2012508401 A JP2012508401 A JP 2012508401A JP 2012508401 A JP2012508401 A JP 2012508401A JP 2012525625 A JP2012525625 A JP 2012525625A
Authority
JP
Japan
Prior art keywords
user intention
user
multimodal
predicted
prediction unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012508401A
Other languages
English (en)
Other versions
JP5911796B2 (ja
Inventor
チョウ,ジョン−ミ
キム,ジョン−ス
バン,ウォン−チョル
キム,ナム−フン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020090038267A external-priority patent/KR101581883B1/ko
Priority claimed from KR1020100036031A external-priority patent/KR101652705B1/ko
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2012525625A publication Critical patent/JP2012525625A/ja
Application granted granted Critical
Publication of JP5911796B2 publication Critical patent/JP5911796B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

マルチモーダル情報を用いてユーザ意図を推論する装置及び方法を提供する。少なくとも一つのモーション情報を用いてユーザ意図の一部を予測する1次予測部と、予測されたユーザ意図の一部及び少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を用いてユーザ意図を予測する2次予測部と、を含むユーザ意図推論装置。

Description

本発明の一つ以上の態様は、マルチモーダル情報を用いるシステムに係り、より詳細には、マルチモーダル情報を用いてユーザ入力を処理する装置及び方法に関する。
マルチモーダルインタフェースは、人間と機械との通信のために、音声、キーボード、ペンなどを用いてインターフェースする方法を意味する。このようなマルチモーダルインタフェースを通じるマルチモーダル情報が入力された場合、ユーザ意図を分析する方式は、マルチモーダル入力を信号レベルで融合して分析する方式と、各モダリティ入力情報をそれぞれ分析した後、該分析された結果を意味レベルで融合して分析する方法とがある。
信号レベルで融合する方式は、マルチモーダル入力信号を融合して一度に分析及び分類するものであって、例えば、音声信号と唇の動きのように同時に発生する信号処理に好適に利用されうる。しかし、2以上の信号を統合して処理するために、特徴空間が非常に大きく、信号間の関連性を計算するためのモデルが非常に複雑で、学習量が多くなる。また、他のモダリティと結合するか、他の端末に適用するなどの場合のような拡張性が容易ではない。
各モダリティを意味レベルで融合する方式は、それぞれのモダリティ入力信号の意味を分析した後、該分析結果を融合するものであって、モダリティ間の独立性を保持することができて、学習及び拡張が容易である。しかし、ユーザがマルチモーダル入力を行う理由は、モダリティ間の関連性があるためであるが、個別的に意味を分析する場合、この関連性を捜し出しにくい。
本発明は、モーション情報によってユーザ意図を予測し、該予測されたユーザ意図をマルチモーダル入力情報を用いて推論することによって、効率的かつ正確にユーザ意図を推論することができる装置及び方法を提供することである。
本発明の一側面によるユーザ意図推論装置は、少なくとも一つのモーション情報を用いてユーザ意図の一部を予測する1次予測部と、予測されたユーザ意図の一部及び少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を用いてユーザ意図を予測する2次予測部と、を含む。
本発明の他の側面によるユーザ意図推論方法は、少なくとも一つのモーション情報を受信する段階と、受信されたモーション情報を用いてユーザ意図の一部を予測する段階と、少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を受信する段階と、予測されたユーザ意図の一部及びマルチモーダル情報を用いてユーザ意図を予測する段階と、を含む。
本発明の一実施形態によれば、ユーザモーション認識を通じてユーザ意図の一部を予測し、該予測されたユーザ意図の一部によってマルチモーダル情報を分析して、2次的にユーザ意図を予測することによって、モダリティ間の独立性を保持しながらも、モダリティ間の関連性の把握が容易であって、ユーザ意図を正確に推論することができる。
また、モーション情報を用いて、またはモーション情報と共に音声または映像情報などのマルチモーダル情報を融合して、ユーザの音声入力開始及び終了の意図を予測することができるので、ユーザは特別な音声入力方式を学習せずとも、ユーザ意図推論装置に音声を入力することができる。
本発明の一実施形態によるユーザ意図推論装置の構成を示す図である。 図1のユーザ意図予測部の構成の一例を示す図である。 図2のユーザ意図予測部の例示的な動作を示す図である。 ユーザ意図の一部が予測された後、追加的なマルチモーダル入力を受けてユーザ意図を予測する動作の一例を示す図である。 ユーザ意図の一部が予測された後、追加的なマルチモーダル入力を受けてユーザ意図を予測する動作の他の例を示す図である。 音響信号と映像信号とを結合して信号を分類する構成の一例を示す図である。 本発明の一実施形態によるマルチモーダル情報を用いるユーザ意図推論方法を示す図である。
本発明の一側面によるユーザ意図推論装置は、少なくとも一つのモーション情報を用いてユーザ意図の一部を予測する1次予測部と、予測されたユーザ意図の一部及び少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を用いてユーザ意図を予測する2次予測部と、を含む。
1次予測部は、予測されたユーザ意図の一部を用いてユーザ意図を予測する過程で行われる動作を実行させるための制御信号を生成することができる。
ユーザ意図を予測する過程で行われる動作を実行させるための制御信号は、ユーザ意図推論装置によって制御されるマルチモーダルセンサーの動作を制御する制御信号であり得る。
2次予測部は、ユーザ意図を予測するために、マルチモーダルセンサーから入力されるマルチモーダル情報を予測されたユーザ意図の一部と関連するように解析することができる。
予測されたユーザ意図の一部がディスプレイ画面に表示されたオブジェクトの選択であり、マルチモーダルセンサーから音声が入力されれば、2次予測部は、入力された音声をオブジェクトの選択と関連して解析することによって、ユーザ意図を予測することができる。
2次予測部は、予測されたユーザ意図の一部の範囲内で、少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を用いてユーザ意図を予測することができる。
予測されたユーザ意図の一部がマイクを口に持って行く動作である場合、2次予測部は、音響信号を感知し、該感知された音響信号についての特徴を抽出及び分析して、ユーザ意図を予測することができる。
2次予測部は、音響信号で音声区間が検出されるか否かを決定し、音声区間が検出される場合、ユーザ意図を音声命令意図として予測することができる。
2次予測部は、音響信号で呼吸音が検出された場合、ユーザ意図を吹きとして予測することができる。
予測されたユーザ意図の一部がディスプレイ画面に表示されたオブジェクトの選択である場合、2次予測部は、マルチモーダル情報を用いてユーザ意図を選択されたオブジェクトに対する削除、分類及び整列のうち少なくとも一つとして予測することができる。
ユーザ意図の予測結果を用いてユーザ意図推論装置で制御されるソフトウェアまたはハードウェアを制御するユーザ意図適用部をさらに含みうる。
本発明の他の側面によるユーザ意図推論方法は、少なくとも一つのモーション情報を受信する段階と、受信されたモーション情報を用いてユーザ意図の一部を予測する段階と、少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を受信する段階と、予測されたユーザ意図の一部及びマルチモーダル情報を用いてユーザ意図を予測する段階と、を含む。
以下、添付した図面を参照して、本発明の一実施形態を詳しく説明する。本発明の多様な実施形態を説明するに当たって、関連した公知機能または構成についての具体的な説明が、本発明の要旨を不明にする恐れがあると判断される場合には、その詳細な説明を省略する。
図1は、本発明の一実施形態によるユーザ意図推論装置の構成を示す図である。
ユーザ意図推論装置100は、モーションセンサー110、制御部120、及びマルチモーダル感知部130を含む。ユーザ意図推論装置100は、携帯電話、PDA(personal digital assistane)、デジタルカメラ、携帯用ゲームコンソール、MP3プレーヤー、携帯用/個人用マルチメディアプレーヤー(PMP)、ハンドヘルド電子ブック、携帯用ラップトップPC、GPS(global positioning system)ナビゲーション、及びデスクトップPC、HDTV(high definition televison)、光学ディスクプレーヤー、セットトップボックスなど、如何なる形態の装置またはシステムでも具現可能である。また、ユーザ意図推論装置100は、ユーザインターフェース部、ディスプレイ部、音響出力部などのマルチモーダルインタフェースのための構成要素のように、具現例によって多様な構成要素をさらに含んで構成することができる。
モーションセンサー110は、モーション情報を感知するために、慣性センサー、方向を感知する地磁気センサー及び動きを感知する加速度センサーまたはジャイロセンサーなどを含みうる。モーションセンサー110は、前記に列挙したセンサー以外にも、映像センサー、音響センサーなどを含みうる。本発明の一実施形態によれば、複数個のモーションセンサーがユーザの身体一部とユーザ意図推論装置100とに付着されてモーション情報を感知することができる。
マルチモーダル感知部130は、少なくとも一つのマルチモーダルセンサー132、134、136、138を含みうる。音響センサー132は、音響信号を感知するセンサーであり、映像センサー134は、イメージ情報を感知するセンサーであり、生体情報センサー136は、体温などの生体情報を感知し、タッチセンサー138は、タッチパッド上のタッチジェスチャを感知し、その他の多様な種類または形態のマルチモーダルセンサーが含まれうる。
図1には、マルチモーダル感知部130に4つのセンサーが含まれていると示されているが、個数には制限もない。マルチモーダル感知部130に含まれるセンサーの種類及び範囲は、モーション感知を目的とするモーションセンサー110に含まれるセンサーの種類及び範囲より広い。また、図1には、モーションセンサー110とマルチモーダル感知部130とが別途に存在すると示されているが、一体化されて構成することもできる。または、モーションセンサー110に含まれるセンサーとマルチモーダル感知部130とに同じ種類のセンサー、例えば、映像センサー及び音響センサーが重複的に含まれうる。
マルチモーダル感知部130は、それぞれのマルチモーダルセンサー132、134、136、138で感知されたマルチモーダル情報を、その種類によって特徴値を抽出して意味を分析するモジュールを含んで構成することができる。マルチモーダル情報を分析する構成要素は、制御部120に含まれることもある。
制御部120は、ユーザ意図推論装置100の各構成要素の動作を制御するためのアプリケーション、データ及びオペレーティングシステムを含みうる。本発明の一実施形態によれば、制御部120は、ユーザ意図予測部122、及びユーザ意図適用部124を含む。
ユーザ意図予測部122は、モーションセンサー110から感知された少なくとも一つのモーション情報を受信し、該受信されたモーション情報を用いて1次的にユーザ意図の一部を予測する。また、ユーザ意図予測部122は、予測されたユーザ意図の一部及び少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を用いて2次的にユーザ意図を予測することができる。すなわち、ユーザ意図予測部122は、2次的にユーザ意図を予測する時、モーションセンサー110から感知されたモーション情報及びマルチモーダル感知部130から入力されたマルチモーダル情報を用いて、最終的にユーザ意図を予測することができる。ユーザ意図予測部122は、ユーザ意図を推論するための知られたさまざまな推論モデルを利用できる。
また、ユーザ意図予測部122は、1次的に予測されたユーザ意図の一部を用いて2次的にユーザ意図を予測する過程で行われる動作を実行させるための制御信号を生成することができる。ユーザ意図推論過程で行われる動作を実行させるための制御信号は、ユーザ意図推論装置100によって制御されるマルチモーダル感知部130の動作を制御する制御信号であり得る。
例えば、モーション情報を用いて1次的に予測されたユーザ意図の一部に基盤してマルチモーダル感知部130のセンサーのうち、1次的に予測されたユーザ意図の一部と関連した一部のセンサー動作を活性化し、この場合、マルチモーダル感知部130のあらゆるセンサーを活性化する場合に比べて、センサー動作に使う電力消耗を減少させることができる。また、一部のセンサーから入力される感知情報を分析するので、マルチモーダル入力情報の解析を単純化して、ユーザ意図予測過程の複雑度を減少させながらも、正確なユーザ意図を推論することができる。
ユーザ意図予測部122は、2次的にユーザ意図を予測するために、マルチモーダル情報の種類によって特徴を抽出して分析するモジュール(図示せず)を含んで構成することができる。また、ユーザ意図予測部122は、マルチモーダル感知部130から入力されるマルチモーダル情報を1次的に予測されたユーザ意図の一部と関連するように解析することができる。
例えば、ユーザ意図予測部122で、1次的に予測されたユーザ意図の一部がディスプレイ画面に表示されたオブジェクトの選択として決定される場合、マルチモーダル感知部130から音声が入力されれば、該入力された音声をオブジェクトの選択と関連して解析することによって、2次的にユーザ意図を予測することができる。具体的に、1次的に予測されたユーザ意図の一部がディスプレイ画面に表示されたオブジェクトの選択として決定され、マルチモーダル感知部130で入力された音響信号が、“日付別に整理”と分析された場合、ユーザ意図予測部122は、ユーザ意図を“ディスプレイ画面で選択されたオブジェクトを日付順に整列”せよとの意味として解析することができる。
また、ユーザ意図予測部122は、1次的に予測されたユーザ意図の一部がディスプレイ画面に表示されたオブジェクトの選択である場合、マルチモーダル情報を用いて2次的にユーザ意図を削除、分類及び整列のうち少なくとも一つとして予測することができる。
ユーザ意図適用部124は、ユーザ意図の予測結果を用いてユーザ意図推論装置で制御されるソフトウェアまたはハードウェアを制御することができる。ユーザ意図適用部124は、予測されたユーザ意図にインタラクションするためのマルチモーダルインタフェースを提供することができる。例えば、ユーザ意図が音声命令として予測された場合、音声命令内の意味を把握するために、音声認識を行い、認識結果によって、特定の人に対して自動で電話を連結するアプリケーションや検索アプリケーションを実行し、ユーザが選択したオブジェクトを伝送しようとする意図である場合には、電子メールアプリケーションを実行することができる。他の例として、ユーザ意図がハミング(humming)として予測される場合、ハミング音源と類似した音楽とを検索するアプリケーションが駆動されうる。また他の例として、ユーザ意図が吹き(blow)として予測される場合、ゲームアプリケーションでアパターが特定の動作を実行する命令として利用されうる。
本発明の一実施形態によれば、ユーザモーション認識を通じてユーザ意図の一部を予測し、該予測されたユーザ意図の一部によってマルチモーダル情報を分析して、2次的にユーザ意図を予測することによって、マルチモーダル情報を解析する過程で独立性を保持しながらも、一次的に予測されたユーザ意図の一部と関連付けてマルチモーダル情報を解析することができるので、モダリティ間の関連性の把握が容易であって、ユーザ意図を正確に推論することができる。
図2は、図1のユーザ意図予測部の構成の一例を示す図である。
ユーザ意図予測部122は、モーション情報分析部210、1次予測部220、及び2次予測部230を含みうる。
モーション情報分析部210は、モーションセンサー110から受信される一つ以上のモーション情報を分析する。モーション情報分析部210は、モーションセンサー110が付着されたユーザの身体の各部位の位置情報及び角度情報を測定し、該測定された位置情報及び角度情報を用いて、モーションセンサー110が付着されていないユーザの身体の各部位の位置情報及び角度情報も計算することができる。
例えば、モーションセンサー110が、両手首及び頭に付着された場合、センサーとセンサーとの距離が測定され、各センサーは、基準座標系に対する3次元回転角情報が得られる。したがって、モーション情報から手首部位と頭部位との距離及び手首の回転角情報を計算して、手首と顔の口部位との距離及び手首の回転角情報を計算することができる。ユーザが、手にユーザ意図推論装置100の音響センサー132に該当するマイクを取っている場合を仮定すれば、マイクの口の間の距離とマイクの方向とが計算されうる。
他の例として、モーションセンサー110が、ユーザの頭と音響センサーに該当するマイクとに装着された場合、モーション情報からマイクと頭部位との距離が測定され、マイクに付着された慣性センサーからセンサーを付着した軸の3次元角度情報を獲得して、モーション情報分析部210は、手首と顔の口部位との距離及びマイクの回転角情報を計算することができる。
また他の例として、モーションセンサー110に映像センサーが含まれて、モーション情報分析部210に映像情報を入力することができる。この場合、モーション情報分析部210は、映像内の顔や手のようなオブジェクト(object)を認識した後、オブジェクト間の位置関係を計算することができる。例えば、モーション情報分析部210は、顔と両手との距離及び角度、両手間の距離及び角度などを計算することができる。
1次予測部220は、モーション情報分析によってトリガーされたユーザ意図の一部を予測する。例えば、1次予測部220は、映像を含むモーション情報分析を通じて1次的にスクリーンにあるオブジェクトを選択するモーションであるか否かを予測することができる。
2次予測部230は、1次予測部220で予測されたユーザ意図の一部及びマルチモーダル感知部130から入力されたマルチモーダル情報を用いてユーザ意図を予測する。
2次予測部230は、ユーザ意図を予測するために、マルチモーダルセンサーから入力されるマルチモーダル情報を1次的に予測されたユーザ意図の一部と関連するように解析することができる。一例として、1次的に予測されたユーザ意図の一部がディスプレイ画面に表示されたオブジェクトの選択であり、2次予測部230は、マルチモーダル感知部130から音声が入力されれば、該入力された音声をオブジェクトの選択と関連して解析することによって、2次的にユーザ意図を予測することができる。
また他の例として、1次予測部220が、1次的に予測されたユーザ意図の一部をマイクを口に持って行くと予測し、マルチモーダル感知部130でカメラのような映像センサー134を通じて口の動きが感知され、マイクのような音響センサー132を通じて音声が入力される場合、2次予測部230は、ユーザ意図を音声命令入力として予測することができる。音声命令入力の意図を予測するために、2次予測部230の音響信号から音声区間を検出し、該検出された音声区間についての特徴抽出及び分析を通じる意味分析を行って、ユーザ意図適用部124で利用することができる形態で作ることができる。
また他の例として、1次予測部220が、マイクを口に持って行くことを1次的にユーザ意図の一部として予測し、マルチモーダル感知部130でカメラのような映像センサー134を通じて唇が前に突出する映像が一貫して感知され、マイクを通じて呼吸音(breath sound)が入力される場合、2次予測部230は、ユーザ意図を吹きとして予測することができる。
前記の二つの例で、ユーザ意図は、“マイクを口に持って行って音声命令入力”と“マイクを口に持って行って吹き”とでそれぞれ異なる。しかし、二つのユーザ意図の一部は、“マイクを口に持って行って”ということで共通しており、1次予測部220は、このようなユーザ意図の一部を先に予測して、ユーザ意図の範囲を狭めることができる。1次予測部220によって狭められたユーザ意図の範囲内で、2次予測部230は、マルチモーダル情報を考慮して、ユーザ意図を予測することができる。前記の二つの例の場合のみ考慮すれば、“マイクを口に持って行って”というモーションが感知されれば、1次予測部220によってユーザ意図の範囲は、“音声命令入力”と“吹き”とに制限され、2次予測部230は、感知されるマルチモーダル情報を考慮して、ユーザ意図が、“音声命令入力”であるか、“吹き”であるか判断することができる。
図3は、このような図2のユーザ意図予測部の例示的な動作を示す図である。
1次予測部220は、モーション情報分析部210で分析されたモーション情報を用いてユーザ意図の一部を予測することができる。2次予測部230は、マルチモーダル感知部130の映像センサー134によって感知された映像または音響センサー132から感知された音響信号などのマルチモーダル信号を入力されて、音声が検出されているか否かについての情報を生成して、ユーザ意図を予測することができる。
一例として、モーション情報分析部210は、ユーザの頭及び手首に装着されたモーションセンサーから感知されたモーション情報を用いて、ユーザの口とマイクを取った手との距離を計算する(310)。モーション情報分析部210は、手首の回転角度からマイクの方向を計算する(320)。
1次予測部220は、モーション情報分析部210によって計算された距離及び方向情報を用いて、ユーザがマイクを口に当てるモーションであるか否かを予測して、ユーザ意図の一部を予測する(330)。例えば、1次予測部220は、ユーザの口とマイクを取った手との位置が口周り半径20cm以内であり、マイク方向が口に向けていると決定されれば、ユーザがマイクを口に持って来ようとすると予測することができる。
この場合、2次予測部230は、マイクのような音響センサー132とカメラのような映像センサー134とから入力されたマルチモーダル入力信号を分析して、音声命令意図であるか、ハミングや吹きのような意図であるかなどに、ユーザ意図を予測することができる。
2次予測部230は、ユーザ意図の一部の予測、すなわち、1次予測がマイクを口に持って来ることであり、カメラから唇の動きが感知され、マイクによって感知された音響信号から音声が検出されれば、ユーザ意図を音声命令意図として決定することができる(340)。これと異なって、1次予測がマイクを口に持って来ることであり、カメラから唇を前に突出する映像が感知され、マイクから入力される音響信号から呼吸音が検出されれば、2次予測部230は、ユーザ意図を吹きとして決定することができる(350)。
図4は、ユーザ意図の一部が予測された後、追加的なマルチモーダル入力を受けてユーザ意図を予測する動作の一例を示す図である。
2次予測部230は、1次予測部220から受信された予測されたユーザ意図の一部がマイクを口に持って行くことである場合(410)、マルチモーダル感知部130に含まれたマイクとカメラなどのセンサーとを活性化して、マルチモーダル信号を入力される(420)。
2次予測部230は、マイクから入力された音響信号とカメラから入力された映像信号とから特徴を抽出し、特徴を分類及び分析する(430)。
音響特徴として、マイクから入力された音響信号で時間エネルギー(Time Energy)、周波数エネルギー(Frequency Energy)、ゼロ交差率(Zero Crossing Rate)、LPC(Linear Predictive Coding)、ケプストラム係数(Cepstral coefficients)、ピッチ(pitch)などの時間領域の特徴や周波数スペクトルのような統計的特徴などが抽出されうる。抽出されうる特徴は、これらに限定されず、他の特徴アルゴリズムによって抽出されうる。抽出された特徴は、決定ツリー(Decision Tree)、支援ベクトルマシン(Support Vector Machine)、ベイジアンネットワーク(Bayesian Network)、神経網(Neural Network)のような分類及び学習アルゴリズムなどを使って、入力特徴音声(speech)活動クラスであるか、非音性(non−speech)活動クラスであるかを分類されうるが、これに限定されるものではない。
特徴分析の結果、音声区間が検出されれば(440)、2次予測部230は、音声命令入力でユーザ意図を予測することができる。2次予測部230は、特徴分析の結果、音声区間が検出されず(440)、呼吸音が検出されれば(450)、吹きの意図として予測することができる。また、他種の特徴が検出されることによって、ユーザ意図をハミングなどいろいろと決定されうる。この際、2次予測部230は、1次予測から限定される範囲内でユーザ意図を予測することができる。
したがって、本発明の一実施形態によれば、ユーザのマルチモーダル情報を用いてユーザ意図を予測し、該予測結果によって、音声検出動作の遂行を制御することができるので、音声インターフェース使用時に、ユーザが音声入力方法、例えば、ユーザが音声入力のための別途のボタンや画面タッチなどの動作方法などを別途に学習せずとも、直観的に音声を入力することができる。
2次予測部230は、マイクから音響情報以外にも、カメラのような映像センサー134から入力される映像情報と声帯マイクのような生体情報センサー136から入力される人が音声を発話する時、変化される少なくとも一つの感知情報のうち少なくとも一つを音響信号から抽出された特徴情報と共に用いて音声区間を検出し、該検出された音声区間の音声を処理することができる。ここで、感知情報は、ユーザの口の形状変化などを表わす映像情報、発話時に出る息などによって変化する温度情報及び発話時に振動する喉または顎骨などの身体部位の振動情報、発話時に顔や口から出る赤外線感知情報のうち少なくとも一つを含みうる。
ユーザ意図適用部124は、音声区間が検出されれば(440)、該検出された音声区間に属した音声信号を処理して音声認識を行い、音声認識結果を用いて応用モジュールを転換させることができる。例えば、認識結果によってアプリケーションが実行されて、名前が認識されれば、該認識された名前に対する電話番号が検索されるか、該検索された電話番号に電話をかける動作などの知能的な音声入力開始及び終了の転換が可能になる。また、ユーザ意図推論装置100が、モバイルコミュニケーションデバイスとして具現された場合、マルチモーダル情報に基盤して音声通話開始及び終了の意図を把握して、ユーザが通話ボタンを押すなどの別途の動作をしないとしても、自動で音声通話モードに動作モードが転換されうる。
図5は、ユーザ意図の一部が予測された後、追加的なマルチモーダル入力を受けてユーザ意図を予測する動作の他の例を示す図である。
2次予測部230は、1次予測部220から受信された1次予測されたユーザ意図の一部が特定オブジェクトの選択である場合(460)、カメラと超音波センサーなどのセンサーとを活性化して、マルチモーダル信号を入力される(470)。
2次予測部230は、入力されたマルチモーダル信号を分析して(480)、ユーザ意図を予測する。この際、予測されるユーザ意図は、1次予測から限定される範囲内の意図であり得る。
2次予測部230は、マルチモーダル信号の分析結果、手を振る動作と判断することができる(490)。2次予測部230は、ユーザ意図適用部124で実行中であるアプリケーションによって、手を振る動作を画面上に示される特定アイテムまたはファイルを削除せよとの意図と解析して、ユーザ意図適用部124で特定アイテムまたはファイルが削除されるように制御することができる。
図6は、2次予測部230で音響信号と映像信号とを共に用いて統合分析する特徴基盤信号分類に対する一例を示す図である。
2次予測部230は、音響特徴抽出部510、音響特徴分析部520、映像特徴抽出部530、映像特徴分析部540、及び統合分析部550を含みうる。
音響特徴抽出部510は、音響信号から音響特徴を抽出する。音響特徴分析部520は、音響特徴に分類及び学習アルゴリズムを適用して音声区間を抽出する。映像特徴抽出部530は、一連の映像信号から映像特徴を抽出する。映像特徴分析部540は、抽出された映像特徴に分類及び学習アルゴリズムを適用して音声区間を抽出する。
統合分析部550は、音響信号と映像信号とによってそれぞれ分類された結果を融合して、最終的に音声区間を検出する。この際、音響特徴及び映像特徴を個別的に適用するか、二つの特徴を融合して適用し、他の信号、例えば、振動、温度などを表わす信号から特徴が抽出及び分析される場合、統合分析部550で音響信号及び映像信号から抽出された検出情報と融合して、音声区間が検出されうる。
本発明の一実施形態によれば、音声インターフェース使用時に、ユーザが音声入力方法を別途に学習せずとも、直観的に音声を入力することができる。一例として、ユーザが音声入力のための別途のボタンや画面タッチなどの動作を行う必要がない。また、家庭ノイズ、車両ノイズ、非話者ノイズなど、ノイズの種類や程度などに関係なく、多様なノイズ環境で正確なユーザ音声区間検出を行うことができる。また、映像以外にも、他の生体情報を用いて音声検出を行うことができるので、照明が過度に明るいか、暗い場合、またはユーザの口が隠れる状況でも、ユーザの音声区間を正確に検出することができる。
図7は、本発明の一実施形態によるマルチモーダル情報を用いるユーザ意図推論方法を示す図である。
ユーザ意図推論装置100は、少なくとも一つのモーションセンサーから感知されたモーション情報を受信する(610)。ユーザ意図推論装置100は、受信されたモーション情報を用いて1次的にユーザ意図の一部を予測する(620)。
少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報が受信されれば(630)、ユーザ意図推論装置100は、1次的に予測されたユーザ意図の一部及びマルチモーダル情報を用いて、2次的にユーザ意図を予測する(640)。2次的にユーザ意図を予測する段階で、マルチモーダルセンサーから入力されるマルチモーダル情報を1次的に予測されたユーザ意図の一部と関連付けて解析する動作が行われる。
1次的に予測されたユーザ意図の一部を用いて、2次的ユーザ意図予測過程で行われる動作を実行させるための制御信号を生成することができる。2次的ユーザ意図予測過程で行われる動作を実行させるための制御信号は、ユーザ意図推論装置100によって制御されるマルチモーダルセンサーの動作を制御する制御信号であり得る。ユーザ意図は、1次的に予測されたユーザ意図の一部の範囲内で、少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を用いて決定されうる。
本発明の一態様は、コンピュータで読み取り可能な記録媒体にコンピュータで読み取り可能なコードとして具現しうる。プログラムを具現するコード及びコードセグメントは、当該分野のコンピュータプログラマーによって容易に推論されうる。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取れるデータが保存されるあらゆる種類の記録装置を含む。コンピュータで読み取り可能な記録媒体の例としては、ROM、RAM、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光ディスクなどを含む。また、コンピュータで読み取り可能な記録媒体は、ネットワークで連結されたコンピュータシステムに分散されて、分散方式でコンピュータで読み取り可能なコードとして保存されて実行可能である。
以上の説明は、本発明の一実施形態に過ぎず、当業者ならば、本発明の本質的特性から外れない範囲で変形された形態で具現することができる。したがって、本発明の範囲は、前述した実施形態に限定されず、特許請求の範囲に記載の内容と同等な範囲内にある多様な実施形態が含まれるように解析しなければならない。
本発明は、コンピュータ、電子製品、コンピュータソフトウェア及び情報技術領域分野で好適に適用されうる。

Claims (17)

  1. 少なくとも一つのモーション情報を用いてユーザ意図の一部を予測する1次予測部と、
    前記予測されたユーザ意図の一部及び少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を用いてユーザ意図を予測する2次予測部と、
    を含むことを特徴とするユーザ意図推論装置。
  2. 前記1次予測部は、前記予測されたユーザ意図の一部を用いて、前記ユーザ意図を予測する過程で行われる動作を実行させるための制御信号を生成することを特徴とする請求項1に記載のユーザ意図推論装置。
  3. 前記ユーザ意図を予測する過程で行われる動作を実行させるための制御信号は、前記ユーザ意図推論装置によって制御されるマルチモーダルセンサーの動作を制御する制御信号であることを特徴とする請求項2に記載のユーザ意図推論装置。
  4. 前記2次予測部は、ユーザ意図を予測するために、前記マルチモーダルセンサーから入力されるマルチモーダル情報を前記予測されたユーザ意図の一部と関連するように解析することを特徴とする請求項1に記載のユーザ意図推論装置。
  5. 前記予測されたユーザ意図の一部がディスプレイ画面に表示されたオブジェクトの選択であり、前記マルチモーダルセンサーから音声が入力されれば、前記2次予測部は、前記入力された音声を前記オブジェクトの選択と関連して解析することによって、ユーザ意図を予測することを特徴とする請求項4に記載のユーザ意図推論装置。
  6. 前記2次予測部は、前記予測されたユーザ意図の一部の範囲内で、少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を用いてユーザ意図を予測することを特徴とする請求項1に記載のユーザ意図推論装置。
  7. 前記予測されたユーザ意図の一部がマイクを口に持って行く動作である場合、前記2次予測部は、音響信号を感知し、該感知された音響信号についての特徴を抽出及び分析して、ユーザ意図を予測することを特徴とする請求項6に記載のユーザ意図推論装置。
  8. 前記2次予測部は、前記音響信号で音声区間が検出されるか否かを決定し、音声区間が検出される場合、ユーザ意図を音声命令意図として予測することを特徴とする請求項7に記載のユーザ意図推論装置。
  9. 前記2次予測部は、前記音響信号で呼吸音が検出された場合、ユーザ意図を吹きとして予測することを特徴とする請求項8に記載のユーザ意図推論装置。
  10. 前記予測されたユーザ意図の一部がディスプレイ画面に表示されたオブジェクトの選択である場合、前記2次予測部は、マルチモーダル情報を用いてユーザ意図を前記選択されたオブジェクトに対する削除、分類及び整列のうち少なくとも一つとして予測することを特徴とする請求項1に記載のユーザ意図推論装置。
  11. 前記ユーザ意図の予測結果を用いて、前記ユーザ意図推論装置で制御されるソフトウェアまたはハードウェアを制御するユーザ意図適用部をさらに含むことを特徴とする請求項1に記載のユーザ意図推論装置。
  12. 少なくとも一つのモーション情報を受信する段階と、
    前記受信されたモーション情報を用いてユーザ意図の一部を予測する段階と、
    少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を受信する段階と、
    前記予測されたユーザ意図の一部及び前記マルチモーダル情報を用いてユーザ意図を予測する段階と、
    を含むことを特徴とするユーザ意図推論方法。
  13. 前記予測されたユーザ意図の一部を用いて、前記ユーザ意図を予測する過程で行われる動作を実行させるための制御信号を生成する段階をさらに含むことを特徴とする請求項12に記載のユーザ意図推論方法。
  14. 前記ユーザ意図を予測する過程で行われる動作を実行させるための制御信号は、前記ユーザ意図推論装置によって制御されるマルチモーダルセンサーの動作を制御する制御信号であることを特徴とする請求項13に記載のユーザ意図推論方法。
  15. 前記ユーザ意図を予測する段階は、
    前記マルチモーダルセンサーから入力されるマルチモーダル情報を前記予測されたユーザ意図の一部と関連するように解析する段階を含むことを特徴とする請求項12に記載のユーザ意図推論方法。
  16. 前記ユーザ意図を予測する段階で、ユーザ意図は、前記予測されたユーザ意図の一部の範囲内で、少なくとも一つのマルチモーダルセンサーから入力されたマルチモーダル情報を用いて予測されることを特徴とする請求項12に記載のユーザ意図推論方法。
  17. 前記ユーザ意図の予測結果を用いて、前記ユーザ意図推論装置で制御されるソフトウェアまたはハードウェアを制御する段階をさらに含むことを特徴とする請求項12に記載のユーザ意図推論方法。
JP2012508401A 2009-04-30 2010-04-29 マルチモーダル情報を用いるユーザ意図推論装置及び方法 Expired - Fee Related JP5911796B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
KR1020090038267A KR101581883B1 (ko) 2009-04-30 2009-04-30 모션 정보를 이용하는 음성 검출 장치 및 방법
KR10-2009-0038267 2009-04-30
KR20090067034 2009-07-22
KR10-2009-0067034 2009-07-22
KR1020100036031A KR101652705B1 (ko) 2009-07-22 2010-04-19 멀티 모달 정보를 이용하는 사용자 의도 추론 장치 및 방법
KR10-2010-0036031 2010-04-19
PCT/KR2010/002723 WO2010126321A2 (ko) 2009-04-30 2010-04-29 멀티 모달 정보를 이용하는 사용자 의도 추론 장치 및 방법

Publications (2)

Publication Number Publication Date
JP2012525625A true JP2012525625A (ja) 2012-10-22
JP5911796B2 JP5911796B2 (ja) 2016-04-27

Family

ID=45541557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012508401A Expired - Fee Related JP5911796B2 (ja) 2009-04-30 2010-04-29 マルチモーダル情報を用いるユーザ意図推論装置及び方法

Country Status (5)

Country Link
US (1) US8606735B2 (ja)
EP (1) EP2426598B1 (ja)
JP (1) JP5911796B2 (ja)
CN (1) CN102405463B (ja)
WO (1) WO2010126321A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014147785A1 (ja) * 2013-03-21 2014-09-25 富士通株式会社 動作検知装置,動作検知方法,プログラム及び記録媒体

Families Citing this family (321)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001013255A2 (en) 1999-08-13 2001-02-22 Pixo, Inc. Displaying and traversing links in character array
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US10713312B2 (en) * 2010-06-11 2020-07-14 Doat Media Ltd. System and method for context-launching of applications
US9141702B2 (en) 2010-06-11 2015-09-22 Doat Media Ltd. Method for dynamically displaying a personalized home screen on a device
GB2494598A (en) 2010-06-11 2013-03-13 Doat Media Ltd A system and methods thereof for enhancing a user's search experience
US9552422B2 (en) 2010-06-11 2017-01-24 Doat Media Ltd. System and method for detecting a search intent
US9069443B2 (en) 2010-06-11 2015-06-30 Doat Media Ltd. Method for dynamically displaying a personalized home screen on a user device
US20140365474A1 (en) * 2010-06-11 2014-12-11 Doat Media Ltd. System and method for sharing content over the web
US9529918B2 (en) 2010-06-11 2016-12-27 Doat Media Ltd. System and methods thereof for downloading applications via a communication network
US20160300138A1 (en) * 2010-06-11 2016-10-13 Doat Media Ltd. Method and system for context-based intent verification
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US20120038555A1 (en) * 2010-08-12 2012-02-16 Research In Motion Limited Method and Electronic Device With Motion Compensation
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US9274744B2 (en) 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
US8700392B1 (en) * 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US9348417B2 (en) * 2010-11-01 2016-05-24 Microsoft Technology Licensing, Llc Multimodal input system
US20120159341A1 (en) 2010-12-21 2012-06-21 Microsoft Corporation Interactions with contextual and task-based computing environments
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US20120166522A1 (en) * 2010-12-27 2012-06-28 Microsoft Corporation Supporting intelligent user interface interactions
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9263045B2 (en) 2011-05-17 2016-02-16 Microsoft Technology Licensing, Llc Multi-mode text input
US20120304067A1 (en) * 2011-05-25 2012-11-29 Samsung Electronics Co., Ltd. Apparatus and method for controlling user interface using sound recognition
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
TWI447066B (zh) * 2011-06-08 2014-08-01 Sitronix Technology Corp Distance sensing circuit and touch electronic device
US8975903B2 (en) 2011-06-09 2015-03-10 Ford Global Technologies, Llc Proximity switch having learned sensitivity and method therefor
US8928336B2 (en) 2011-06-09 2015-01-06 Ford Global Technologies, Llc Proximity switch having sensitivity control and method therefor
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US10004286B2 (en) 2011-08-08 2018-06-26 Ford Global Technologies, Llc Glove having conductive ink and method of interacting with proximity sensor
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9143126B2 (en) 2011-09-22 2015-09-22 Ford Global Technologies, Llc Proximity switch having lockout control for controlling movable panel
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10112556B2 (en) 2011-11-03 2018-10-30 Ford Global Technologies, Llc Proximity switch having wrong touch adaptive learning and method
US8994228B2 (en) 2011-11-03 2015-03-31 Ford Global Technologies, Llc Proximity switch having wrong touch feedback
US8878438B2 (en) 2011-11-04 2014-11-04 Ford Global Technologies, Llc Lamp and proximity switch assembly and method
US9223415B1 (en) 2012-01-17 2015-12-29 Amazon Technologies, Inc. Managing resource usage for task performance
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9531379B2 (en) 2012-04-11 2016-12-27 Ford Global Technologies, Llc Proximity switch assembly having groove between adjacent proximity sensors
US9568527B2 (en) 2012-04-11 2017-02-14 Ford Global Technologies, Llc Proximity switch assembly and activation method having virtual button mode
US9219472B2 (en) 2012-04-11 2015-12-22 Ford Global Technologies, Llc Proximity switch assembly and activation method using rate monitoring
US9065447B2 (en) 2012-04-11 2015-06-23 Ford Global Technologies, Llc Proximity switch assembly and method having adaptive time delay
US9559688B2 (en) 2012-04-11 2017-01-31 Ford Global Technologies, Llc Proximity switch assembly having pliable surface and depression
US9660644B2 (en) 2012-04-11 2017-05-23 Ford Global Technologies, Llc Proximity switch assembly and activation method
US9184745B2 (en) 2012-04-11 2015-11-10 Ford Global Technologies, Llc Proximity switch assembly and method of sensing user input based on signal rate of change
US9287864B2 (en) 2012-04-11 2016-03-15 Ford Global Technologies, Llc Proximity switch assembly and calibration method therefor
US8933708B2 (en) 2012-04-11 2015-01-13 Ford Global Technologies, Llc Proximity switch assembly and activation method with exploration mode
US9831870B2 (en) 2012-04-11 2017-11-28 Ford Global Technologies, Llc Proximity switch assembly and method of tuning same
US9520875B2 (en) 2012-04-11 2016-12-13 Ford Global Technologies, Llc Pliable proximity switch assembly and activation method
US9197206B2 (en) 2012-04-11 2015-11-24 Ford Global Technologies, Llc Proximity switch having differential contact surface
US9944237B2 (en) 2012-04-11 2018-04-17 Ford Global Technologies, Llc Proximity switch assembly with signal drift rejection and method
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9136840B2 (en) 2012-05-17 2015-09-15 Ford Global Technologies, Llc Proximity switch assembly having dynamic tuned threshold
US8981602B2 (en) 2012-05-29 2015-03-17 Ford Global Technologies, Llc Proximity switch assembly having non-switch contact and method
US9337832B2 (en) 2012-06-06 2016-05-10 Ford Global Technologies, Llc Proximity switch and method of adjusting sensitivity therefor
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9641172B2 (en) 2012-06-27 2017-05-02 Ford Global Technologies, Llc Proximity switch assembly having varying size electrode fingers
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US8922340B2 (en) 2012-09-11 2014-12-30 Ford Global Technologies, Llc Proximity switch based door latch release
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US8796575B2 (en) 2012-10-31 2014-08-05 Ford Global Technologies, Llc Proximity switch assembly having ground layer
US9081413B2 (en) * 2012-11-20 2015-07-14 3M Innovative Properties Company Human interaction system based upon real-time intention detection
CN103841137A (zh) * 2012-11-22 2014-06-04 腾讯科技(深圳)有限公司 智能终端控制网页应用的方法及智能终端
US9147398B2 (en) * 2013-01-23 2015-09-29 Nokia Technologies Oy Hybrid input device for touchless user interface
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9311204B2 (en) 2013-03-13 2016-04-12 Ford Global Technologies, Llc Proximity interface development system having replicator and method
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US11151899B2 (en) 2013-03-15 2021-10-19 Apple Inc. User training by intelligent digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101904293B1 (ko) 2013-03-15 2018-10-05 애플 인크. 콘텍스트-민감성 방해 처리
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
CN103200330A (zh) * 2013-04-16 2013-07-10 上海斐讯数据通信技术有限公司 一种触发手电筒的实现方法及移动终端
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
US10474961B2 (en) 2013-06-20 2019-11-12 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on prompting for additional user input
US9633317B2 (en) 2013-06-20 2017-04-25 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on a natural language intent interpreter
US10083009B2 (en) 2013-06-20 2018-09-25 Viv Labs, Inc. Dynamically evolving cognitive architecture system planning
US9594542B2 (en) 2013-06-20 2017-03-14 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on training by third-party developers
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US11199906B1 (en) 2013-09-04 2021-12-14 Amazon Technologies, Inc. Global user input management
US9367203B1 (en) 2013-10-04 2016-06-14 Amazon Technologies, Inc. User interface techniques for simulating three-dimensional depth
DE112014005354T5 (de) * 2013-11-25 2016-08-04 Mitsubishi Electric Corporation Dialog-management-system und dialog-management-verfahren
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
EP2887205A1 (en) * 2013-12-17 2015-06-24 Sony Corporation Voice activated device, method & computer program product
US10741182B2 (en) * 2014-02-18 2020-08-11 Lenovo (Singapore) Pte. Ltd. Voice input correction using non-audio based input
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9824079B1 (en) 2014-07-11 2017-11-21 Google Llc Providing actions for mobile onscreen content
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9792334B2 (en) * 2014-09-25 2017-10-17 Sap Se Large-scale processing and querying for real-time surveillance
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10038443B2 (en) 2014-10-20 2018-07-31 Ford Global Technologies, Llc Directional proximity switch assembly
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
JP5784211B1 (ja) * 2014-12-19 2015-09-24 株式会社Cygames 情報処理プログラムおよび情報処理方法
CN105812506A (zh) * 2014-12-27 2016-07-27 深圳富泰宏精密工业有限公司 操作方式控制系统与方法
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
KR101671760B1 (ko) * 2015-03-16 2016-11-02 주식회사 스마트올웨이즈온 멀티모달 정보를 기반으로 상황 인지 기능을 수행하여 사용자 인터페이스와 사용자 경험을 스스로 학습하고 개선하는 셋톱박스, 촬영 장치, 그리고 이를 이용한 방법 및 컴퓨터 판독 가능한 기록 매체
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9654103B2 (en) 2015-03-18 2017-05-16 Ford Global Technologies, Llc Proximity switch assembly having haptic feedback and method
US10923126B2 (en) 2015-03-19 2021-02-16 Samsung Electronics Co., Ltd. Method and device for detecting voice activity based on image information
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US9548733B2 (en) 2015-05-20 2017-01-17 Ford Global Technologies, Llc Proximity sensor assembly having interleaved electrode configuration
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN105159111B (zh) * 2015-08-24 2019-01-25 百度在线网络技术(北京)有限公司 基于人工智能的智能交互设备控制方法及系统
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10970646B2 (en) * 2015-10-01 2021-04-06 Google Llc Action suggestions for user-selected content
CN105389461A (zh) * 2015-10-21 2016-03-09 胡习 一种交互式儿童自主管理系统及其管理方法
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10764226B2 (en) * 2016-01-15 2020-09-01 Staton Techiya, Llc Message delivery and presentation methods, systems and devices using receptivity
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
CN107490971B (zh) * 2016-06-09 2019-06-11 苹果公司 家庭环境中的智能自动化助理
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
CN106446524A (zh) * 2016-08-31 2017-02-22 北京智能管家科技有限公司 智能硬件多模态级联建模方法及装置
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10535005B1 (en) 2016-10-26 2020-01-14 Google Llc Providing contextual actions for mobile onscreen content
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10229680B1 (en) * 2016-12-29 2019-03-12 Amazon Technologies, Inc. Contextual entity resolution
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10664533B2 (en) 2017-05-24 2020-05-26 Lenovo (Singapore) Pte. Ltd. Systems and methods to determine response cue for digital assistant based on context
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
IL311263A (en) 2017-12-14 2024-05-01 Magic Leap Inc Context-based processing of virtual characters
CN108563321A (zh) * 2018-01-02 2018-09-21 联想(北京)有限公司 信息处理方法和电子设备
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
TWI691923B (zh) * 2018-04-02 2020-04-21 華南商業銀行股份有限公司 金融交易詐騙偵測防範系統及其方法
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11588902B2 (en) * 2018-07-24 2023-02-21 Newton Howard Intelligent reasoning framework for user intent extraction
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10831442B2 (en) * 2018-10-19 2020-11-10 International Business Machines Corporation Digital assistant user interface amalgamation
CN109192209A (zh) * 2018-10-23 2019-01-11 珠海格力电器股份有限公司 一种语音识别方法及装置
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN111737670B (zh) * 2019-03-25 2023-08-18 广州汽车集团股份有限公司 多模态数据协同人机交互的方法、系统及车载多媒体装置
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110196642B (zh) * 2019-06-21 2022-05-17 济南大学 一种基于意图理解模型的导航式虚拟显微镜
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11887600B2 (en) * 2019-10-04 2024-01-30 Disney Enterprises, Inc. Techniques for interpreting spoken input using non-verbal cues
EP3832435A1 (en) * 2019-12-06 2021-06-09 XRSpace CO., LTD. Motion tracking system and method
US11869213B2 (en) * 2020-01-17 2024-01-09 Samsung Electronics Co., Ltd. Electronic device for analyzing skin image and method for controlling the same
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111968631B (zh) * 2020-06-29 2023-10-10 百度在线网络技术(北京)有限公司 智能设备的交互方法、装置、设备及存储介质
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11804215B1 (en) 2022-04-29 2023-10-31 Apple Inc. Sonic responses

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216069A (ja) * 2000-02-01 2001-08-10 Toshiba Corp 操作入力装置および方向検出方法
JP2004515982A (ja) * 2000-12-05 2004-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テレビ会議及び他の適用においてイベントを予測する方法及び装置
JP2005174356A (ja) * 2000-02-01 2005-06-30 Toshiba Corp 方向検出方法
JP2005178473A (ja) * 2003-12-17 2005-07-07 Denso Corp 車載機器用インターフェース
WO2008069519A1 (en) * 2006-12-04 2008-06-12 Electronics And Telecommunications Research Institute Gesture/speech integrated recognition system and method
JP2009042910A (ja) * 2007-08-07 2009-02-26 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0375860A (ja) * 1989-08-18 1991-03-29 Hitachi Ltd パーソナライズド端末
US5621858A (en) * 1992-05-26 1997-04-15 Ricoh Corporation Neural network acoustic and visual speech recognition system training method and apparatus
US5473726A (en) * 1993-07-06 1995-12-05 The United States Of America As Represented By The Secretary Of The Air Force Audio and amplitude modulated photo data collection for speech recognition
JP3375449B2 (ja) 1995-02-27 2003-02-10 シャープ株式会社 統合認識対話装置
US5806036A (en) * 1995-08-17 1998-09-08 Ricoh Company, Ltd. Speechreading using facial feature parameters from a non-direct frontal view of the speaker
JP3702978B2 (ja) * 1996-12-26 2005-10-05 ソニー株式会社 認識装置および認識方法、並びに学習装置および学習方法
JPH11164186A (ja) * 1997-11-27 1999-06-18 Fuji Photo Film Co Ltd 画像記録装置
US6629065B1 (en) * 1998-09-30 2003-09-30 Wisconsin Alumni Research Foundation Methods and apparata for rapid computer-aided design of objects in virtual reality and other environments
JP2000132305A (ja) * 1998-10-23 2000-05-12 Olympus Optical Co Ltd 操作入力装置
US6842877B2 (en) * 1998-12-18 2005-01-11 Tangis Corporation Contextual responses based on automated learning techniques
US6825875B1 (en) * 1999-01-05 2004-11-30 Interval Research Corporation Hybrid recording unit including portable video recorder and auxillary device
JP2000276190A (ja) 1999-03-26 2000-10-06 Yasuto Takeuchi 発声を必要としない音声通話装置
SE9902229L (sv) * 1999-06-07 2001-02-05 Ericsson Telefon Ab L M Apparatus and method of controlling a voice controlled operation
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
JP2001100878A (ja) 1999-09-29 2001-04-13 Toshiba Corp マルチモーダル入出力装置
US7028269B1 (en) * 2000-01-20 2006-04-11 Koninklijke Philips Electronics N.V. Multi-modal video target acquisition and re-direction system and method
NZ503882A (en) * 2000-04-10 2002-11-26 Univ Otago Artificial intelligence system comprising a neural network with an adaptive component arranged to aggregate rule nodes
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
KR20020068235A (ko) 2001-02-20 2002-08-27 유재천 치아와 입술 영상을 이용한 음성인식 장치 및 방법
US7171357B2 (en) * 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
US7102485B2 (en) * 2001-05-08 2006-09-05 Gene Williams Motion activated communication device
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
CA2397703C (en) * 2001-08-15 2009-04-28 At&T Corp. Systems and methods for abstracting portions of information that is represented with finite-state devices
US6990639B2 (en) * 2002-02-07 2006-01-24 Microsoft Corporation System and process for controlling electronic components in a ubiquitous computing environment using multimodal integration
DE10208469A1 (de) * 2002-02-27 2003-09-04 Bsh Bosch Siemens Hausgeraete Elektrisches Gerät, insbesondere Dunstabzugshaube
US7230955B1 (en) * 2002-12-27 2007-06-12 At & T Corp. System and method for improved use of voice activity detection
KR100515798B1 (ko) 2003-02-10 2005-09-21 한국과학기술원 입 벌림 정도와 얼굴방향 인식방법 및 얼굴 제스처를이용한 로봇 구동방법
CA2420129A1 (en) * 2003-02-17 2004-08-17 Catena Networks, Canada, Inc. A method for robustly detecting voice activity
US8745541B2 (en) * 2003-03-25 2014-06-03 Microsoft Corporation Architecture for controlling a computer using hand gestures
US20040243416A1 (en) * 2003-06-02 2004-12-02 Gardos Thomas R. Speech recognition
US7343289B2 (en) * 2003-06-25 2008-03-11 Microsoft Corp. System and method for audio/video speaker detection
US7383181B2 (en) * 2003-07-29 2008-06-03 Microsoft Corporation Multi-sensory speech detection system
US7318030B2 (en) * 2003-09-17 2008-01-08 Intel Corporation Method and apparatus to perform voice activity detection
US20050228673A1 (en) * 2004-03-30 2005-10-13 Nefian Ara V Techniques for separating and evaluating audio and video source data
US8788265B2 (en) * 2004-05-25 2014-07-22 Nokia Solutions And Networks Oy System and method for babble noise detection
US7624355B2 (en) * 2004-05-27 2009-11-24 Baneth Robin C System and method for controlling a user interface
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
JP4630646B2 (ja) * 2004-11-19 2011-02-09 任天堂株式会社 息吹きかけ判別プログラム、息吹きかけ判別装置、ゲームプログラムおよびゲーム装置
EP1686804A1 (en) * 2005-01-26 2006-08-02 Alcatel Predictor of multimedia system user behavior
WO2006104576A2 (en) * 2005-03-24 2006-10-05 Mindspeed Technologies, Inc. Adaptive voice mode extension for a voice activity detector
GB2426166B (en) * 2005-05-09 2007-10-17 Toshiba Res Europ Ltd Voice activity detection apparatus and method
US7346504B2 (en) * 2005-06-20 2008-03-18 Microsoft Corporation Multi-sensory speech enhancement using a clean speech prior
US20070005363A1 (en) * 2005-06-29 2007-01-04 Microsoft Corporation Location aware multi-modal multi-lingual device
US8175874B2 (en) * 2005-11-17 2012-05-08 Shaul Shimhi Personalized voice activity detection
KR100820141B1 (ko) 2005-12-08 2008-04-08 한국전자통신연구원 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
DE102006037156A1 (de) * 2006-03-22 2007-09-27 Volkswagen Ag Interaktive Bedienvorrichtung und Verfahren zum Betreiben der interaktiven Bedienvorrichtung
KR20080002187A (ko) * 2006-06-30 2008-01-04 주식회사 케이티 개인 감성 및 상황 변화에 따른 맞춤형 감성 서비스 시스템및 그 방법
US8775168B2 (en) * 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
US8326636B2 (en) * 2008-01-16 2012-12-04 Canyon Ip Holdings Llc Using a physical phenomenon detector to control operation of a speech recognition engine
US20080252595A1 (en) * 2007-04-11 2008-10-16 Marc Boillot Method and Device for Virtual Navigation and Voice Processing
US8321219B2 (en) * 2007-10-05 2012-11-27 Sensory, Inc. Systems and methods of performing speech recognition using gestures
US20090262078A1 (en) * 2008-04-21 2009-10-22 David Pizzi Cellular phone with special sensor functions
US20100162181A1 (en) * 2008-12-22 2010-06-24 Palm, Inc. Interpreting Gesture Input Including Introduction Or Removal Of A Point Of Contact While A Gesture Is In Progress

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216069A (ja) * 2000-02-01 2001-08-10 Toshiba Corp 操作入力装置および方向検出方法
JP2005174356A (ja) * 2000-02-01 2005-06-30 Toshiba Corp 方向検出方法
JP2004515982A (ja) * 2000-12-05 2004-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テレビ会議及び他の適用においてイベントを予測する方法及び装置
JP2005178473A (ja) * 2003-12-17 2005-07-07 Denso Corp 車載機器用インターフェース
WO2008069519A1 (en) * 2006-12-04 2008-06-12 Electronics And Telecommunications Research Institute Gesture/speech integrated recognition system and method
JP2009042910A (ja) * 2007-08-07 2009-02-26 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阪口 豊: "感覚と運動の工学的表現", 電子情報通信学会誌, vol. 第76巻,第11号, JPN6014033392, 25 November 1993 (1993-11-25), JP, pages 1222 - 1227, ISSN: 0002873255 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014147785A1 (ja) * 2013-03-21 2014-09-25 富士通株式会社 動作検知装置,動作検知方法,プログラム及び記録媒体
JP6032350B2 (ja) * 2013-03-21 2016-11-24 富士通株式会社 動作検知装置及び動作検知方法

Also Published As

Publication number Publication date
JP5911796B2 (ja) 2016-04-27
WO2010126321A2 (ko) 2010-11-04
CN102405463A (zh) 2012-04-04
EP2426598A2 (en) 2012-03-07
EP2426598A4 (en) 2012-11-14
US8606735B2 (en) 2013-12-10
WO2010126321A3 (ko) 2011-03-24
US20100280983A1 (en) 2010-11-04
EP2426598B1 (en) 2017-06-21
CN102405463B (zh) 2015-07-29

Similar Documents

Publication Publication Date Title
JP5911796B2 (ja) マルチモーダル情報を用いるユーザ意図推論装置及び方法
US10126826B2 (en) System and method for interaction with digital devices
LaViola Jr 3d gestural interaction: The state of the field
US8954330B2 (en) Context-aware interaction system using a semantic model
US9443536B2 (en) Apparatus and method for detecting voice based on motion information
JP5616325B2 (ja) ユーザ命令に基づいて表示を変更する方法
US10838508B2 (en) Apparatus and method of using events for user interface
US20080111710A1 (en) Method and Device to Control Touchless Recognition
JP2022537011A (ja) 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム
US20090051648A1 (en) Gesture-based mobile interaction
LaViola Whole-hand and speech input in virtual environments
WO2009026337A1 (en) Enhanced rejection of out-of-vocabulary words
LaViola Jr An introduction to 3D gestural interfaces
Gillian Gesture recognition for musician computer interaction
LaViola Jr Context aware 3D gesture recognition for games and virtual reality
CN114995657B (zh) 一种智能机器人的多模态融合自然交互方法、系统及介质
KR101652705B1 (ko) 멀티 모달 정보를 이용하는 사용자 의도 추론 장치 및 방법
Wang et al. A gesture-based method for natural interaction in smart spaces
Wilson Sensor-and recognition-based input for interaction
Marasović et al. Motion-based gesture recognition algorithms for robot manipulation
Shree et al. A Virtual Assistor for Impaired People by using Gestures and Voice
CN109725722A (zh) 有屏设备的手势控制方法和装置
Costagliola et al. Gesture‐Based Computing
US20220238134A1 (en) Method and system for providing voice recognition trigger and non-transitory computer-readable recording medium
Kumar et al. Gesture-Driven Virtual Mouse with a Voice Assistant

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140812

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20141112

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20141119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160330

R150 Certificate of patent or registration of utility model

Ref document number: 5911796

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees