JP4416643B2 - マルチモーダル入力方法 - Google Patents

マルチモーダル入力方法 Download PDF

Info

Publication number
JP4416643B2
JP4416643B2 JP2004379948A JP2004379948A JP4416643B2 JP 4416643 B2 JP4416643 B2 JP 4416643B2 JP 2004379948 A JP2004379948 A JP 2004379948A JP 2004379948 A JP2004379948 A JP 2004379948A JP 4416643 B2 JP4416643 B2 JP 4416643B2
Authority
JP
Japan
Prior art keywords
information
input
interpretation result
gui
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004379948A
Other languages
English (en)
Other versions
JP2006048628A (ja
JP2006048628A5 (ja
Inventor
裕美 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004379948A priority Critical patent/JP4416643B2/ja
Priority to US11/152,626 priority patent/US7630901B2/en
Publication of JP2006048628A publication Critical patent/JP2006048628A/ja
Publication of JP2006048628A5 publication Critical patent/JP2006048628A5/ja
Application granted granted Critical
Publication of JP4416643B2 publication Critical patent/JP4416643B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Description

本発明は、マルチモーダル・ユーザインタフェースに係る技術に関するものである。
GUI入力や音声入力といった複数種類の入力手段から、ユーザの所望の入力手段をもって情報の入力を可能にするマルチモーダル・ユーザインタフェースは、ユーザにとって利便性が高いものである。特に、複数種類の入力手段を同時に用いて入力を行った場合の利便性は高く、例えば音声で「これをここに移動」等の指示を発声しながら、GUIで「これ」に対応する対象と、「ここ」に対応する対象をクリックする等の操作を行うことにより、コマンド等の専門的な言語に不慣れなユーザであっても自由に対象を操作することができる。このような操作を可能にするためには複数種類の入力手段による入力を統合するための処理が必要になる。
複数種の入力手段による入力を統合する処理の例として、マウスイベントの種類や速度に関する情報を用いる方法(特許文献1、特許文献2)のほか、音声認識結果に対して言語解析を行う方法(特許文献3)や文脈情報を用いる方法(特許文献4)、入力時刻の近いものをまとめて意味解析単位として出力する方法(特許文献5)、入力データの認識結果遅着を考慮した方法(特許文献6)、利用者の意図を統計的な学習により検出する方法(特許文献7、特許文献8)、文法解析方法を用いた方法(特許文献9)、言語解析を行って意味構造を用いる方法(特許文献10)等や、マウスなどのポインティングデバイスによるポインティング入力をリストに登録し、音声入力データ中の指示表現の数とリスト中の数とを比較し、ポインティング入力の数が少ない場合に、次のポインティング入力を得ることで数を合わせ、音声入力とポインティング入力を統合する方法(特許文献11)が開示されている。
特開平8−286887号公報 特開平9−81364号公報 特許第2993872号公報 特許第3375449号公報 特許第3363283号公報 特開平10−198544号公報 特開平11−288342号公報 特開2001−100878号公報 特開平6−282569号公報 特開2000−231427号公報 特開平7−110734号公報
上記従来例では、各入力の入力時刻や入力順序を考慮しているが、1つの入力結果に対する複数の候補を解析するには複雑な処理を行わなければならない。また、音声入力を正確に認識できることを前提としているが、現在の音声認識技術では100%正しく認識するのは困難である。そのため誤認識への対応が重要となるが、上記従来例には誤認識を起こした場合の対応や誤認識率を下げることについて言及していない。
特許文献11では、音声入力データ中の指示入力の数に対してポインティング入力の数が足りない場合に次のポインティング入力を待って統合する技術が記載されているが、上述したように基本的に音声入力データ中の指示入力の数が正確に認識できることを前提としており、誤認識に関する記載はなく、また誤認識率を下げることついては記載されていない。特許文献11は、ポインティング入力の数が音声入力データ中の指示入力の数よりも多い場合には、エラー処理を行い入力をやり直す構成となっているが、入力をやり直すことはユーザにとって負担となるため、このような事態を減らす技術が重要となる。
本発明は、このような事情を鑑みてなされたものであり、少なくとも2種類の入力手段からの入力が意図する指示内容の認識精度を向上することを目的とする。
上記課題を解決するために、本発明の情報処理方法は、音声認識された情報とGUI入力された情報とを統合した認識結果を出力する情報処理装置の情報処理方法であって、音声情報を受信する音声情報受信工程と、前記音声情報を受信している時間内にユーザに操作された1または複数のボタンに対応するGUI入力情報を受信するGUI情報受信工程と、前記音声情報を音声認識し、尤度が高い順に複数の解釈結果の候補を取得する音声認識工程と、前記尤度が最も高い解釈結果の候補に含まれる未確定語の数と、前記GUI入力情報の数とが一致しているか否か判断する判断工程と、前記尤度が最も高い解釈結果の候補に含まれる未確定語の数と、前記GUI入力情報の数とが一致していないと判断された場合、解釈結果の候補に含まれる未確定語の数と、前記GUI入力情報の数とが一致している別の解釈結果の候補を検索する検索工程と、検索された解釈結果の候補に含まれる未確定語を前記GUI入力情報で置換えた情報を、認識結果として出力する出力工程とを有することを特徴とする。
以上説明したように、本発明によれば、少なくとも2種類の入力手段からの入力が意図する指示内容の認識精度を向上することができる。
以下、図面を参照して、本発明に係るマルチモーダル入力方法の好適な実施例ついて説明する。
図1は、本発明の実施例1におけるシステムの基本構成を示す図である。ここでは、音声入力とGUI入力を受け付けるシステムを例にあげて説明する。GUI入力部101、GUI入力解釈部102、音声入力部103、音声認識・解釈部104、マルチモーダル入力統合部105、記憶部106、マークアップ解釈部107、制御部108、音声合成部109、表示部110、通信部111から構成される。
GUI入力部101はGUI上で指示を与えるボタン群やキーボード、マウス、タッチパネル、ペン、タブレット等から構成され、各種の指示を本装置に入力するための入力インタフェースとして機能する。本システムはこれら入力部から入力情報を受信する。GUI入力解釈部102は、GUI入力部101から入力された情報に対して解釈を行う。上記解釈については、例えば手書き認識技術等、公知の技術を利用する。
音声入力部103はマイクロフォンやA/D変換器等により構成されており、ユーザの音声を入力する。音声認識・解釈部104は音声入力部103より入力された音声に対して音声認識を行う。上記音声認識技術については公知の技術を利用する。マルチモーダル入力統合部105は、GUI入力解釈部102、音声認識・解釈部104で解釈された情報を統合する。
記憶部106は、各種の情報を保存するためのハードディスクドライブ装置や、システムに各種の情報を提供するためのCD−ROMやDVD−ROM等の記憶媒体等により構成されている。またこのハードディスクドライブ装置や記憶媒体には、各種のアプリケーションプログラム、ユーザインタフェース制御プログラム、そして各プログラムを実行する際に必要な各種のデータ等が記憶されており、これらは後段の制御部108の制御により、本システムに読み込まれる。マークアップ解釈部107はマークアップで記述された文書を解釈する。制御部108はワークメモリやCPU、MPU等により構成されており、記憶部105に記憶されたプログラムやデータを読み出して各種の処理を実行する。またGUI入力解釈部、音声認識・解釈部、マルチモーダル入力統合部などの制御も実行する。
音声合成部109はスピーカやヘッドフォン、D/A変換器等により構成されており、制御部108の制御により読み上げテキストから音声データを作成してD/A変換し、音として外部に出力する処理を行う。上記音声合成技術については公知の技術を利用する。表示部110は液晶ディスプレイ等の表示装置から構成され、画像や文字等により構成される各種の情報を表示する。なお、表示部110としてタッチパネル式の表示装置を用いてもよく、その場合、表示部110はGUI入力部101としての機能(各種の指示を本システムに入力する機能)をも有することになる。通信部111は、インターネットやLAN等のネットワークを介して他の装置とのデータ通信を行うためのネットワークインタフェースである。
以下では、上記マルチモーダル入力統合部105における統合処理方法について図2のフローチャートを用いて説明する。GUI入力解釈部102、音声認識・解釈部104で解釈された情報、つまり認識候補がマルチモーダル入力統合部105に渡されると、まず、GUI入力のintegration=0の解釈結果を出力する(ステップS201)。上記integrationは他の入力手段の入力結果と統合する必要があるか否かを示す情報であり、必要がある場合は“1”、必要がない場合は“0”が、GUI入力解釈部102、音声認識・解釈部104において入力される。他の入力手段の入力結果と統合する必要があるか否かを判別する方法については、例えば、値を格納する場所が決まっているか否かを判別する等、公知の技術を利用する。
続いて、すべての音声認識・解釈結果においてintegration=0の場合(ステップS202にてYES)、第1位の音声認識・解釈結果を出力して終了する(ステップS203)。音声認識・解釈結果にintegration=1の結果がある場合(ステップS202にてNO)、音声入力時間T内のGUI入力の中でintegration=1の個数NUMをカウントする(ステップS204)。ここで、音声入力時間Tは、図3(縦軸:音声入力のパワー、横軸:時間)の301に示すように閾値th以上のパワーが検出されている時間とする。あるいは、図3の302のように、閾値th以上のパワーが検出されている時間の前後に任意の時間(例えば数秒)を足す等、音声入力部にて設
定した値でもよい。図3の301の例では、GUI入力がすべてintegration=1とするとNUM=2となる。
NUM=0であれば(ステップS205にてYES)、integration=0の音声認識・解釈結果が存在するかどうかをチェックする(ステップS206)。存在する場合は(ステップS206にてYES)integration=0の音声認識・解釈結果の中で最も確信度の高い結果を出力して終了する(ステップS207)。存在しない場合は(ステップS206にてNO)結果を統合できなかった旨のエラーを出力して終了する(ステップS208)。
NUM=0でなければ(ステップS205にてNO)、Nに1を代入して(ステップS209)ステップS210へと進む。N位(最初は1位)の音声認識・解釈結果が存在しない場合は(ステップS210にてNO)、結果を統合できなかった旨のエラーを出力して終了する(ステップ208)。存在する場合は(ステップS210にてYES)、ステップS211へと進む。ステップS211ではN位の音声認識・解釈結果のintegrationが1か(統合する必要があるか否か)を判別する(ステップS211)。統合する必要がない場合は(ステップS211にてNO)、Nに1を足し(ステップS212)、ステップS210へ進む。統合する必要がある場合は(ステップS211にてYES)、“?”の数(図4の例では401〜403のテーブルにおけるunknownの値)が前述のNUMと同じかどうかを判別する(ステップS213)。同じ値でなければ(ステップS213にてNO)、Nに1を足し(ステップS212)、ステップS210へ進む。同じ値の場合は(ステップS213にてYES)、N位の音声認識・解釈結果とGUIの解釈結果を統合して出力する(ステップS214)。統合の具体例としては、音声入力「ここから」とGUI入力「恵比寿」を統合し、「恵比寿から」という結果になる。
以下では、上記マルチモーダル入力統合の例を図を用いて示す。図4〜図7では、音声入力とボタン入力がなされた場合の、解釈処理結果の流れを示している。
1つ目の例を、図4を用いて説明する。図4の401、402は音声入力に対する音声認識・解釈結果を表すテーブルであり、確信度第1位の結果を401、確信度第2位の結果を402に示している。また、403はボタン入力に対する解釈結果を表すテーブルであり、この例では確信度が第1位の結果のみの場合を示している。
以下、401〜403に示す各テーブルの項目について説明する。“rank”は確信度の順位(高いものから1位,2位,・・・)、“unknown”は確定していない値(後述の“value=?”)の数、“value”は解釈値、“time(start)”は入力開始時刻、“time(end)”は入力終了時刻、“score”は確信度、“integration”は統合が必要か否か(必要:1,不要:0)を表す。GUI入力解釈部102、音声認識・解釈部104にて解釈された結果が上記テーブルに入力され、マルチモーダル入力統合部105へと渡される。上記テーブルがXMLで記述されている場合はマークアップ解釈部107にて解釈される。
マルチモーダル入力統合部105では、前述のフローチャート図2に示す流れで処理を行う。GUI入力解釈処理結果である402は音声入力時間T(02:10:00〜02:12:00)内に入力されたものであり、integration=1であるのでステップ204にてNUM=1とし、続いてN=1とする(ステップS209)。第1位の音声認識・解釈結果(401)が存在するので(ステップS210にてYES)、ステップS211へと進む。続いてintegration=1(ステップS211にてYES)、unknown=1=NUMであるので(ステップS213にてYES)、ステップS214へと進む。ステップS214では、音声入力の解釈結果「東京からここまで」とボタン入力の解釈結果「恵比寿」を統合し、「東京から恵比寿まで」を出力する。
同様に、図5の例では、503と504よりNUM=2(ステップS204)である。第1位の音声認識・解釈結果(501)はunknown=1であり、NUM=2とは異なるので(ステップS213にてNO)、続いて第2位の音声認識・解釈結果(502)を調べる。502の結果はunknown=2=NUMであるので(ステップS213にてYES)、ステップS214にて、音声入力の解釈結果「ここからここまで」とボタン入力の解釈結果「恵比寿」「横浜」を統合し、「恵比寿から横浜まで」を出力する。
図6の例では、604はintegration=0であるのでボタン入力の解釈結果「1」を出力する。また、603より、NUM=1(ステップS204)である。第1位の音声認識・解釈結果(601)はunknown=1=NUMであるので(ステップS213にてYES)、ステップS214にて、音声入力の解釈結果「東京からここまで」とボタン入力の解釈結果「恵比寿」を統合して「東京から恵比寿まで」を出力する。
図7の例では、703はintegration=0であるのでボタン入力の解釈結果「1」を出力し、NUM=0とする(ステップS204)。音声認識・解釈結果701、702にintegration=0の結果が存在しないので(ステップS206にてNO)、結果を統合できなかった旨のエラーを出力して終了する(ステップS208)。
以上のように、実施例1によれば、音声入力時間中のボタン入力の個数情報を利用して音声認識・解釈結果を選択することで、音声認識処理により生ずる候補に対して優先度をつけることができ、認識の精度を向上することができる。その結果、複数の候補から正しい認識結果が出力される可能性が高くなり、ユーザの再入力の手間を省くなどの効果が生まれる。
続いて、本発明に係る情報処理システムの実施例2について説明する。前述した実施例1では、GUI入力がボタン入力で認識率100%である場合の例を示した。しかしながら、実際のマルチモーダル・ユーザインタフェースでは,統合する入力の解釈の確信度がいずれも100%でない場合がある。このような場合は、第1位の解釈結果から順番に第1の実施形態と同様の処理を行えばよい。
本実施例では、音声入力とペン入力がなされた場合の例について図8〜図10を用いて説明する。図8に示すテーブル801〜804の各項目は、前述の図4〜図7に示した各テーブルの項目と同様であり、801は第1位の音声認識・解釈結果、802は第2位の音声認識・解釈結果、803は第1位のGUI入力解釈結果、804は第2位のGUI入力解釈結果である。
GUI入力解釈結果の第1位の解釈結果から順番に第1の実施形態と同様の処理を行う。まず、第1位のGUI入力解釈結果803は音声入力時間T(02:10:00〜02:12:00)内に入力されたものであり、integration=1である。また803よりvalueの数は1つであるので、ステップ204にてNUM=1とし、続いてN=1とする(ステップS209)。第1位の音声認識・解釈結果(801)が存在するので(ステップS210にてYES)、ステップS211へと進む。続いてintegration=1(ステップS211にてYES)、unknown=1=NUMであるので(ステップS213にてYES)、ステップS214へと進む。ステップS214では、音声入力の解釈結果「ここ」とペン入力の解釈結果「恵比寿」を統合し、「恵比寿」を出力する。
図9の例では、まず第1位のGUI入力解釈結果903より、NUM=1(ステップS204)である。第1位の音声認識・解釈結果(901)はunknown=1以上であり、NUMと一致するので(ステップS213にてYES)、ステップS214にて、音声入力の解釈結果「このへん」とペン入力の解釈結果「恵比寿」を統合して「恵比寿」を出力する。
また、図10では、GUI入力としてペン入力とボタン入力の両方がなされた場合の例を示している。1005はintegration=0であるのでボタン入力の解釈結果「1」を出力する。また、第1位のGUI入力解釈結果1003より、NUM=1(ステップS204)である。第1位の音声認識・解釈結果(1001)はunknown=2以上であり、NUMとは異なるので(ステップS213にてNO)、続いて第2位の音声認識・解釈結果(1002)を調べる。第2位の音声認識・解釈結果(1002)は、unknown=3であり、NUMとは異なるので(ステップS213にてNO)統合できない。次に第2位のGUI入力解釈結果1004より、NUM=2(ステップS204)とする。第1位の音声認識・解釈結果(1001)はunknown=2以上であり、NUMと一致するので(ステップS213にてYES)、ステップS214にて、音声入力の解釈結果「これらを」とペン入力の解釈結果「A,B」を統合して「A,Bを」を出力する。
以上のように、実施例2によれば、統合する入力の解釈の確信度がいずれも100%でない場合においても、音声入力時間中のGUI入力個数の情報を利用して音声認識・解釈結果を選択することで、音声認識結果の解釈の精度を向上することができる。
上記実施例では、GUI入力を受け付ける例をあげて説明したが、本発明はこれに限定されるものではなく、キーボードやテンキーなどの物理的なキー入力を受け付ける構成としてもかまわない。ここでは、テンキーと音声入力によって操作可能な複写機を例にあげて説明する。複写機における各指示コマンドが以下に示すようにテンキーの各キーに割り当てられていることを前提とする。キー1:用紙選択、キー2:枚数(部数)、キー3:倍率、キー4:濃さ、キー5:両面、キー6:ソータ、キー7:ステイプルソート、キー8:応用モード。
ユーザは、10ページからなるA5サイズの資料を左上にステイプルしたものを5部コピーしたい場合、キー1を押して「A5」、キー2を押して「5部」、キー7を押して「左上」と発声することで設定することができるが、この操作に慣れてきた場合は、1つ1つを入力するよりも「A5、5部、左上」のように連続発声できたほうが効率的に作業を進めることができる。しかしながら現在の音声認識の精度は100%ではないため、『5枚、左上』や『A5、5部、左上、濃く』等の認識誤りが発生し、誤った認識候補が発生する可能性がある。
本実施例ではこのような場面において、音声入力とキー入力をキー入力の個数を用いて統合する。ユーザは、キー1、2、7を押しながら「A5、5部、左上」と発声する。キーの押し方は3つ同時に押していても良いし、連続的に押しても構わない。ここでキー入力の入力数は3である。音声入力の認識候補が1位「5部、左上」、2位「A5、5部、左上」、3位「A5、5部、左上、濃く」、4位「A2、50部、左上」であった場合、これとキー入力数3を統合することで、数が一致しない「A5、5部」、「A5、5部、左上、濃く」が除去されるかもしくは、数が一致する「A5、5部、左上」、「A2、50部、左上」が選択されることにより、1位「A5、5部、左上」、2位「A2、50部、左上」となって認識候補が絞られ、ここから認識尤度の最も高い認識候補が認識結果として選ばれることによって、ユーザが発声した「A5、5部、左上」が正しく認識されることとなる。
この他、携帯電話に表示された番号付きのメニューに対して携帯電話のボタンで各メニューを指定できるような場面を想定し、例えばボタンで、3番、5番を押しながら、「これとこれのヘルプがみたい」と発声する場合などにも本発明が適用できることは言うまでもない。
上記実施例では、GUIや物理的なキー入力数の情報を用いて、音声認識・解釈結果の第1位〜第N位の候補の中から適切なものを選択する例を示したが、どの入力手段の入力個数情報をどの入力手段の入力情報に適応するかは上記例に限られない。例えば、音声認識・解釈結果より入力個数(前述の例でいえばunknownの値)を判別して手書き文字入力の認識結果の第1位〜第N位の候補の中から適切なものを選択してもよい。一般にボタン入力は音声入力(認識)に比べて確実性が高いことから、ボタン入力の個数情報を他方のモダリティに適用する等、任意に決めてもよいが、いずれの入力手段も曖昧性をもつような場合、どの入力手段の入力個数情報をどの入力手段の入力情報に適用すればいいのか、一意に決めることは適切でない。このような場合は、第1位の確信度と第2位以下の確信度の差が大きい方のモダリティを選択する等、確信度の結果から毎回決めてもよい。
図11を用いてそのような例について説明する。図11は音声入力で「ここ」と発声しながら、ペン入力で「恵比寿」に丸をつけた例を示している。ユーザは「恵比寿」にのみ丸をつけるつもりが「渋谷」にも少しかかってしまった状態である。音声入力の解釈処理により第1位が「ここ」、第2位が「こことここ」であり、それぞれSCOREが90、55である。ペン入力の解釈処理により、第1位が「渋谷、恵比寿」、第2位が「恵比寿」であり、SCOREが95、90である。第1位と第2位の確信度の差が音声入力の方が大きく、第1位が正解である確率が高いことから、入力数が正しい可能性も高いといえる。つまり入力数の確からしさの値が高いため、ここでは入力数は音声入力の方を信頼する。入力数の確からしさの値は、上述したように第1位と第2位の差から求めても良いし、例えば、確信度が上位の認識候補が共通して含む入力数がより多いものが確からしさの値が高くなるよう求めてもよい。例えば、1位と2位の差が大きくても1位と2位で入力数が異なるものは確からしさの値を低くし、1位から4位までの確信度の差が少なくても全て入力数が等しい場合は入力数の確からしさの値が高くなるように求めても良い。また、上述したように、「一般にボタン入力は音声入力(認識)に比べて確実性が高い」等の情報を加味して求めても良い。音声入力の第1位の入力数は1であり、GUI入力のうち入力数が1である第2位が選ばれ、「ここ」と「恵比寿」が統合されて統合結果が「恵比寿」となる。
上記実施例では、入力数を取得する入力手段が1種類の場合について説明してきたが、本発明はこれに限られる物ではない。例えばGUI入力とキー入力を併せ持つ複写機においては、これら両方の入力からの入力数を考慮することも可能である。音声入力で「B5、片面から両面をこの枚数で」と入力しながら、GUI入力で用紙サイズと両面の指示を選択し、キー入力で10と入力した場合は、音声入力に含まれる入力数は3であり、GUI入力とキー入力をあわせた入力数が3となり、これらの数が一致しないものを音声入力の認識結果から除外することで認識精度を向上することが可能となる。
上記実施例では、音声入力と他の入力手段を統合する例を挙げて説明してきたが、本発明はこれに限定されるものではない。例えば、ジェスチャ入力と視線入力でのマルチモーダル入力に適用した場合にも適用可能である。ここでは、視線入力で操作対象を指定し、ジェスチャ入力でその操作対象に指示を与えるタスクを考えてみる。視線入力でオブジェクトを指定する場合は、そのオブジェクトを長く見ていた場合は選択されたとみなすなどの処理によって指定するが、それが正しく認識されず、操作対象の認識候補が複数得られる場合がある。それに対してジェスチャ入力により2つの指示が入力された場合は、操作対象が2つである可能性が高いため、視線入力の認識候補のうち、操作対象が2つの候補以外を除外することで認識精度を向上することができる。
なお、本発明の目的は、前述した実施例の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク,ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明の実施例1における情報処理システムの基本構成を示す図である。 本発明の実施例1に係る情報処理システムにおけるマルチモーダル入力統合部の処理の流れを説明するためのフローチャートである。 本発明の実施例1に係る入力の例を示す図である。 本発明の実施例1に係る情報処理システムにおけるマルチモーダル統合入力統合の例を示す図である。 本発明の実施例1に係る情報処理システムにおけるマルチモーダル統合入力統合の例を示す図である。 本発明の実施例1に係る情報処理システムにおけるマルチモーダル統合入力統合の例を示す図である。 本発明の実施例1に係る情報処理システムにおけるマルチモーダル統合入力統合の例を示す図である。 本発明の実施例2に係る情報処理システムにおけるマルチモーダル統合入力統合の例を示す図である。 本発明の実施例2に係る情報処理システムにおけるマルチモーダル統合入力統合の例を示す図である。 本発明の実施例2に係る情報処理システムにおけるマルチモーダル統合入力統合の例を示す図である。 本発明の実施例4に係る情報処理システムにおけるマルチモーダル統合入力統合の例を示す図である。
符号の説明
101 GUI入力部
102 GUI入力解釈部
103 音声入力部
104 音声認識・解釈部
105 マルチモーダル入力統合部
106 記憶部
107 マークアップ解釈部
108 制御部
109 音声合成部
110 表示部
111 通信部

Claims (5)

  1. 音声認識された情報とGUI入力された情報とを統合した認識結果を出力する情報処理装置の情報処理方法であって、
    音声情報を受信する音声情報受信工程と、
    前記音声情報を受信している時間内にユーザに操作された1または複数のボタンに対応するGUI入力情報を受信するGUI情報受信工程と、
    前記音声情報を音声認識し、尤度が高い順に複数の解釈結果の候補を取得する音声認識工程と、
    前記尤度が最も高い解釈結果の候補に含まれる未確定語の数と、前記GUI入力情報の数とが一致しているか否か判断する判断工程と、
    前記尤度が最も高い解釈結果の候補に含まれる未確定語の数と、前記GUI入力情報の数とが一致していないと判断された場合、解釈結果の候補に含まれる未確定語の数と、前記GUI入力情報の数とが一致している別の解釈結果の候補を検索する検索工程と、
    検索された解釈結果の候補に含まれる未確定語を前記GUI入力情報で置換えた情報を、認識結果として出力する出力工程とを有する情報処理方法。
  2. 前記検索工程は、前記尤度が高い解釈結果の候補から順に、解釈結果の候補に含まれる未確定語の数と、前記GUI入力情報の数とが一致している別の解釈結果の候補を検索することを特徴とする請求項1記載の情報処理方法。
  3. 前記GUI入力情報の数とは、前記GUI入力手段から、前記音声情報を受信している時間内にユーザに操作されたボタンの個数または回数であることを特徴とする請求項1記載の情報処理方法。
  4. 音声入力手段から音声情報を受信する音声情報受信手段と、
    GUI入力手段から、前記音声情報を受信している時間内にユーザに操作された1または複数のボタンに対応するGUI入力情報を受信するGUI情報受信手段と、
    前記音声情報を音声認識し、尤度が高い順に複数の解釈結果の候補を取得する音声認識手段と、
    前記尤度が最も高い解釈結果の候補に含まれる未確定語の数と、前記GUI入力情報の数とが一致しているか否か判断する判断手段と、
    前記尤度が最も高い解釈結果の候補に含まれる未確定語の数と、前記GUI入力情報の数とが一致していないと判断された場合、解釈結果の候補に含まれる未確定語の数と、前記GUI入力情報の数とが一致している別の解釈結果の候補を検索する検索手段と、
    検索された解釈結果の候補に含まれる未確定語を前記GUI入力情報で置換えた情報を、認識結果として出力する出力手段とを有する情報処理装置。
  5. 請求項1乃至請求項3に記載の情報処理方法をコンピュータに実行させるためのプログラム。
JP2004379948A 2004-06-29 2004-12-28 マルチモーダル入力方法 Expired - Fee Related JP4416643B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004379948A JP4416643B2 (ja) 2004-06-29 2004-12-28 マルチモーダル入力方法
US11/152,626 US7630901B2 (en) 2004-06-29 2005-06-14 Multimodal input method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004191632 2004-06-29
JP2004379948A JP4416643B2 (ja) 2004-06-29 2004-12-28 マルチモーダル入力方法

Publications (3)

Publication Number Publication Date
JP2006048628A JP2006048628A (ja) 2006-02-16
JP2006048628A5 JP2006048628A5 (ja) 2009-10-01
JP4416643B2 true JP4416643B2 (ja) 2010-02-17

Family

ID=35507168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004379948A Expired - Fee Related JP4416643B2 (ja) 2004-06-29 2004-12-28 マルチモーダル入力方法

Country Status (2)

Country Link
US (1) US7630901B2 (ja)
JP (1) JP4416643B2 (ja)

Families Citing this family (199)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20040073690A1 (en) 2002-09-30 2004-04-15 Neil Hepworth Voice over IP endpoint call admission
US7359979B2 (en) 2002-09-30 2008-04-15 Avaya Technology Corp. Packet prioritization and associated bandwidth and buffer management techniques for audio over IP
US7978827B1 (en) 2004-06-30 2011-07-12 Avaya Inc. Automatic configuration of call handling based on end-user needs and characteristics
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP2008065789A (ja) * 2006-09-11 2008-03-21 Canon Inc 入力操作支援装置およびその制御方法
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20080313607A1 (en) * 2007-06-15 2008-12-18 Microsoft Corporation Unified input stack
US20090089251A1 (en) * 2007-10-02 2009-04-02 Michael James Johnston Multimodal interface for searching multimedia content
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8176438B2 (en) * 2008-09-26 2012-05-08 Microsoft Corporation Multi-modal interaction for a screen magnifier
US9372590B2 (en) * 2008-09-26 2016-06-21 Microsoft Technology Licensing, Llc Magnifier panning interface for natural input devices
US8218751B2 (en) 2008-09-29 2012-07-10 Avaya Inc. Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11487347B1 (en) * 2008-11-10 2022-11-01 Verint Americas Inc. Enhanced multi-modal communication
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9123341B2 (en) * 2009-03-18 2015-09-01 Robert Bosch Gmbh System and method for multi-modal input synchronization and disambiguation
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8510117B2 (en) * 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8719014B2 (en) * 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9152376B2 (en) * 2011-12-01 2015-10-06 At&T Intellectual Property I, L.P. System and method for continuous multimodal speech and gesture interaction
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9696547B2 (en) 2012-06-25 2017-07-04 Microsoft Technology Licensing, Llc Mixed reality system learned input and functions
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9093072B2 (en) * 2012-07-20 2015-07-28 Microsoft Technology Licensing, Llc Speech and gesture recognition enhancement
KR101987255B1 (ko) * 2012-08-20 2019-06-11 엘지이노텍 주식회사 음성 인식 장치 및 이의 음성 인식 방법
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014070872A2 (en) * 2012-10-30 2014-05-08 Robert Bosch Gmbh System and method for multimodal interaction with reduced distraction in operating vehicles
CN103970260B (zh) 2013-01-31 2017-06-06 华为技术有限公司 一种非接触式手势控制方法及电子终端设备
EP4138075A1 (en) 2013-02-07 2023-02-22 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
KR102053820B1 (ko) * 2013-07-02 2019-12-09 삼성전자주식회사 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9766715B2 (en) 2014-05-01 2017-09-19 Seiko Epson Corporation Head-mount type display device, control system, method of controlling head-mount type display device, and computer program
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
EP2947635B1 (en) * 2014-05-21 2018-12-19 Samsung Electronics Co., Ltd. Display apparatus, remote control apparatus, system and controlling method thereof
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
EP2958010A1 (en) 2014-06-20 2015-12-23 Thomson Licensing Apparatus and method for controlling the apparatus by a user
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10276158B2 (en) 2014-10-31 2019-04-30 At&T Intellectual Property I, L.P. System and method for initiating multi-modal speech recognition using a long-touch gesture
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US10726197B2 (en) * 2015-03-26 2020-07-28 Lenovo (Singapore) Pte. Ltd. Text correction using a second input
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
WO2018020828A1 (ja) * 2016-07-28 2018-02-01 パナソニックIpマネジメント株式会社 翻訳装置および翻訳システム
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
JP6983118B2 (ja) 2018-06-26 2021-12-17 株式会社日立製作所 対話システムの制御方法、対話システム及びプログラム
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN111124236B (zh) 2018-10-30 2023-04-28 斑马智行网络(香港)有限公司 一种数据处理方法、装置和机器可读介质
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07122879B2 (ja) 1993-03-30 1995-12-25 日本電気株式会社 マルチモーダル入力解析装置
JPH07110734A (ja) 1993-10-14 1995-04-25 Personal Joho Kankyo Kyokai マルチモーダル入力解析システム
JP3136906B2 (ja) 1994-07-21 2001-02-19 トヨタ自動車株式会社 車両用ロックアップクラッチのスリップ制御装置
JP3375449B2 (ja) 1995-02-27 2003-02-10 シャープ株式会社 統合認識対話装置
JP3363283B2 (ja) 1995-03-23 2003-01-08 株式会社日立製作所 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
JPH0981364A (ja) 1995-09-08 1997-03-28 Nippon Telegr & Teleph Corp <Ntt> マルチモーダル情報入力方法及び装置
JP2993872B2 (ja) 1995-10-16 1999-12-27 株式会社エイ・ティ・アール音声翻訳通信研究所 マルチモーダル情報統合解析装置
JPH10198544A (ja) 1997-01-09 1998-07-31 Toshiba Corp マルチモーダル入力解釈装置及びその入力統合・解釈方法
JP3822357B2 (ja) 1998-02-09 2006-09-20 株式会社東芝 マルチモーダル入出力装置のインタフェース装置及びその方法
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6523061B1 (en) * 1999-01-05 2003-02-18 Sri International, Inc. System, method, and article of manufacture for agent-based navigation in a speech-based data navigation system
JP2000231427A (ja) 1999-02-08 2000-08-22 Nec Corp マルチモーダル情報解析装置
JP2001100878A (ja) 1999-09-29 2001-04-13 Toshiba Corp マルチモーダル入出力装置
US20020135614A1 (en) * 2001-03-22 2002-09-26 Intel Corporation Updating user interfaces based upon user inputs
US7124085B2 (en) * 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
US7899915B2 (en) * 2002-05-10 2011-03-01 Richard Reisman Method and apparatus for browsing using multiple coordinated device sets
US7363398B2 (en) * 2002-08-16 2008-04-22 The Board Of Trustees Of The Leland Stanford Junior University Intelligent total access system
US20050010892A1 (en) * 2003-07-11 2005-01-13 Vocollect, Inc. Method and system for integrating multi-modal data capture device inputs with multi-modal output capabilities
US20050165601A1 (en) * 2004-01-28 2005-07-28 Gupta Anurag K. Method and apparatus for determining when a user has ceased inputting data

Also Published As

Publication number Publication date
JP2006048628A (ja) 2006-02-16
US20050288934A1 (en) 2005-12-29
US7630901B2 (en) 2009-12-08

Similar Documents

Publication Publication Date Title
JP4416643B2 (ja) マルチモーダル入力方法
TWI266280B (en) Multimodal disambiguation of speech recognition
JP4878471B2 (ja) 情報処理装置およびその制御方法
JP5166255B2 (ja) データ入力システム
KR101312849B1 (ko) 이동 장치에 대한 조합된 음성 및 교체 입력 양식을 위한정보 입력 방법, 이동 장치 및 사용자 인터페이스
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
JP5622566B2 (ja) アジア文字を生成するための認識アーキテクチャ
TWI437449B (zh) 多重模式輸入方法及輸入方法編輯器系統
US7496513B2 (en) Combined input processing for a computing device
JP2005055782A (ja) データ入力装置、ハンディターミナル、データ入力方法、プログラム及び記録媒体
KR20080045142A (ko) 네비게이션 인터페이스를 통해 컴퓨팅 시스템에 텍스트를입력하기 위한 방법 및 컴퓨터 판독가능 매체
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
US20150073801A1 (en) Apparatus and method for selecting a control object by voice recognition
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
JP2006053906A (ja) コンピューティングデバイスへの入力を提供するための効率的なマルチモーダル方法
JP2010520531A (ja) 統合ピンイン及び画入力
CN107797676B (zh) 一种单字输入方法及装置
JP2007018290A (ja) 手書き文字入力表示支援装置及び方法並びにプログラム
JP2012003090A (ja) 音声認識装置および音声認識方法
JP2018072508A (ja) 音声入力装置、音声入力方法
JP2011186994A (ja) 文字入力装置および文字入力方法
EP3742301A1 (en) Information processing device and information processing method
JP2002156996A (ja) 音声認識装置、認識結果修正方法及び記録媒体
JP4012228B2 (ja) 情報入力方法、情報入力装置及び記憶媒体
US20080256071A1 (en) Method And System For Selection Of Text For Editing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091117

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091124

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121204

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131204

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees