JP2015018276A - ユーザの発話を認識するための方法及び装置 - Google Patents
ユーザの発話を認識するための方法及び装置 Download PDFInfo
- Publication number
- JP2015018276A JP2015018276A JP2014184204A JP2014184204A JP2015018276A JP 2015018276 A JP2015018276 A JP 2015018276A JP 2014184204 A JP2014184204 A JP 2014184204A JP 2014184204 A JP2014184204 A JP 2014184204A JP 2015018276 A JP2015018276 A JP 2015018276A
- Authority
- JP
- Japan
- Prior art keywords
- user
- utterance
- qualifier
- model
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000003213 activating effect Effects 0.000 claims 1
- 230000004044 response Effects 0.000 claims 1
- 230000004913 activation Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006386 memory function Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Position Input By Displaying (AREA)
Abstract
【課題】音声認識とクオリファイアとを用いた、ユーザの発話を認識するための方法及び装置の実現。【解決手段】装置を用いてユーザの発話を認識するための方法は、発話のある集合モデルが予め記憶され、音声認識を行うために、ユーザの発話が受信され、ユーザの発話が予め記憶されたモデルと比較され、比較に基づいて認識決定が行われ、装置に触れることによって、ユーザが比較を限定するクオリファイアを提供することができ、クオリファイアが装置のメニュー構造中の項目を識別し、ユーザが与えたクオリファイアに基づいて記憶されたモデルの中から部分集合モデルが選択され、部分集合モデルがメニュー構造の下位項目を識別し、ユーザの発話を部分集合モデルと比較することによって認識決定を行うための比較を行う。【選択図】図2
Description
本発明は音声認識方法及び本発明による音声認識方法を利用する装置に関する。
通常、移動電話では、電話用ノートパッドによってブラウズを行いながら、探す氏名の最初の文字を利用して氏名を選択することが可能である。この場合、検索処理中にユーザが例えば文字「s 」を押すと、文字「s 」で始まる氏名がメモリから検索される。このようにして、ユーザは氏名をみつけるためにアルファベット順にノートパッドの内容をブラウズする必要なく自分の探している氏名をより迅速にみつけることができる。この種の方法はすべて手動であり、キーボードによってユーザが与えるコマンドと、このコマンドに基づくブラウジングに基づくものである。
今日、ユーザが声によってコマンドを与えることができる音声認識装置を利用するいくつかの移動局がある。これらの装置では、その音声認識装置は話者依存形であることが多い。すなわち、音声認識装置のオペレーションは、音声認識装置が後で認識すると思われる単語をユーザが音声認識装置に対して教えるという方式に基づいている。また、別個の訓練段階を必要としないいわゆる話者独立形音声認識装置も存在する。この場合、音声認識装置のオペレーションは異なるタイプの話者から採られた多くのサンプリングから集めた多量の教材に基づいている。いわゆる平均的ユーザの場合、適度の機能が話者独立形認識装置については典型的である。これに対して、話者依存形音声認識装置はこの音声認識装置を訓練した人にとって最適に機能する。
J. Picone著「音声認識の信号モデル化方法:Signal modeling techniques in speed recognition 」(IEEE(米国電気電子技術者協会)会報、第81巻、No.9、pp.1215 〜1247、1993年9月)
上述の音声認識装置の双方について通常言えることは、使用されている語彙の大きさによってその音声認識装置の性能が大きく左右されるということである。また、従来技術による音声認識装置について通常言えることは、認識できる単語が特定の数に限定されていることである。例えば、移動局では、電話機のノートパッドに声で記憶できるようにユーザに許されるのは最大20の氏名であり、それに応じてユーザはこれらの記憶された氏名を音声による選択と関連して利用することができる。現在また将来のアプリケーションとしてはそのような数では明らかに不十分であり、本発明の目的はこの認識対象単語数を実質的に増やすことである。例えば現今の方法の10倍というような認識対象単語数の増加に伴い、より少ない語彙を使用しているときと同じ音声認識能力を保持することは不可能になる。もう一つの制限要因として、端末装置などにおける使用メモリが必要となるということがある。この必要性は、当然のことながら音声認識装置の語彙の拡大につれて増大する。
従来技術による現今の音声認識装置では、音声認識装置の起動は、例えば「起動」のような特定の起動コマンドを用いて音声で実現することができ、そのコマンドで音声認識装置が起動してユーザからのコマンドを受信する準備ができる。音声認識装置を別個のキーで起動することもできる。声で起動される音声認識装置については、典型的にはその起動性能が環境のノイズレベルに左右される。また、音声認識装置の作動中、環境のノイズレベルが、達成すべき音声認識装置の性能に大きく影響する。音声認識装置の性能を表す重要なパラメータは、その語彙の範囲及び環境のノイズ条件の程度であると言うことができる。
更なる公知の音声認識システムが、米国特許4,866,778 に開示されている。この特許では、ユーザが1つあるいはそれより多い文字からなる最初の文字列を選択することによって単語の下位の語彙を選択し、それらの頭文字で始まる単語に限定される下位の語彙に対して認識を行わせることができるようになっている。
今回我々は、従来技術の上述の問題を回避するあるいは少なくとも和らげる目的を持つ音声認識方法と装置を発明した。本発明は、音声認識中にユーザがクオリファイア(qualifier : 修飾子)を与えることができる装置と方法に関する。このクオリファイアによって音声認識はユーザが与えたクオリファイアに一致する音声モデルのみに限定される。この場合、音声認識中に使用される特定の部分集合のみが予め記憶された音声モデルの中から選択される。
本発明の実施例によれば、装置の既存のキーボード又はタッチスクリーン(touch-senitive screen : 接触感知スクリーン)/ベースを利用して装置に触れることによって音声認識を限定するクオリファイアが与えられると同時に音声認識装置が起動される。この起動は、最も好適にはキーで行われる。本発明による方法によって、音声認識装置を起動する論理的方法がユーザに与えられ、同時に、入力されたクオリファイアによる音声認識装置の改善された性能が提供される。本発明によるこの音声認識の限定は音声認識装置の起動とは別に行うこともできる。
本発明の典型的実施例によれば、この装置はタッチスクリーン又は表面(ベース)を備え、スクリーン上に書かれた一つの文字又はいくつかの文字に関する情報が音声認識装置へ伝送される。この場合、音声認識は当該文字を含む単語に限定される。音声認識は、最も好適にはタッチスクリーンにユーザが書いた文字で始まる氏名に限定される。
本発明の典型的実施例によれば、最終的認識結果が画定されると、すべての記憶されたモデルを予め利用することによって、また、ユーザが与えた限定クオリファイアを利用することによって音声認識を行うこともできる。
本発明の第1の態様によれば、ユーザの発話を認識する方法に対して装置が提供され、この装置において、ある集合の発話モデルが予め記憶され、音声認識を行うために、ユーザの発話が受信され、ユーザの発話が予め記憶されたモデルと比較され、この比較に基づいて認識決定が行われる。この方法は、
ユーザが、装置に触れることによって比較を限定するクオリファイアを提供することができ、このクオリファイアによって装置のメニュー構造のアイテムが識別され、
ユーザが与えたクオリファイアに基づいて記憶されたモデルの中からモデルの部分集合が選択され、モデルのこの部分集合がメニュー構造の下位アイテムを識別し、
ユーザの発話をモデルの部分集合と比較することによって、認識決定を行うための比較が行われることを特徴とする。
ユーザが、装置に触れることによって比較を限定するクオリファイアを提供することができ、このクオリファイアによって装置のメニュー構造のアイテムが識別され、
ユーザが与えたクオリファイアに基づいて記憶されたモデルの中からモデルの部分集合が選択され、モデルのこの部分集合がメニュー構造の下位アイテムを識別し、
ユーザの発話をモデルの部分集合と比較することによって、認識決定を行うための比較が行われることを特徴とする。
本発明の第2の態様によれば、ユーザの発話を認識するための方法に対して装置が提供され、この装置において、ある集合の発話モデルが予め記憶され、音声認識を行うために、ユーザの発話が受信され、ユーザの発話が予め記憶されたモデルと比較され、この比較に基づいて、認識決定が行われる。この方法は、
ユーザの発話を予め記憶されたモデルと比較することによって、第1の認識決定を行うための比較が行われ、
ユーザが、部分集合モデルを選択するために装置に触れることによって比較を限定するクオリファイアを提供することができ、このクオリファイアがこの装置のメニュー構造のアイテムを識別し、部分集合モデルがメニュー構造の下位アイテムを識別し、
第1の認識決定を部分集合モデルと比較する認識決定を行うための最終的比較を行うことを特徴とする。
ユーザの発話を予め記憶されたモデルと比較することによって、第1の認識決定を行うための比較が行われ、
ユーザが、部分集合モデルを選択するために装置に触れることによって比較を限定するクオリファイアを提供することができ、このクオリファイアがこの装置のメニュー構造のアイテムを識別し、部分集合モデルがメニュー構造の下位アイテムを識別し、
第1の認識決定を部分集合モデルと比較する認識決定を行うための最終的比較を行うことを特徴とする。
本発明の第3の態様によれば、ユーザの発話を認識するための音声認識装置と、音声モデルを記憶するためのメモリ手段と、ユーザの発話を受信するための手段と、ユーザの発話をメモリ手段に記憶されたモデルと比較することによって認識プロセスを実行するための比較手段とを有する装置が提供され、この装置は、装置に触れることによってユーザからのクオリファイアを受信するための手段と、比較手段によって行われた比較を集合モデルに限定するためのユーザから受信されたクオリファイアに基づいて、記憶されたモデルの中からある集合を選択するための手段と、装置のメニュー構造を記憶するための、及び、装置のメニュー構造の一つの項目として受信されたクオリファイアを特定するための手段とを有することも特徴とする。
図1は、本発明に対して適用できるような公知の音声認識装置の構造ブロック図を示す。通常、図1に示されるように、音声認識装置の動作は2つの異なる主要な活動、すなわち実際の音声認識段階10〜12、14〜15と音声訓練段階10〜13とに分割される。音声認識装置はマイクロホンから入力として音声信号S(n)を受信し、この信号は、A/D 変換器10によって例えば8kHzのサンプリング周波数及び1サンプル当たり12ビットの解像度を使ってデジタル形式に変換される。通常、音声認識装置は、音声信号が分析され、特徴ベクトル(Feature vector) 12がモデル化されるいわゆるフロント・エンド11を有し、この特徴ベクトルが特定の期間中の音声信号を記述する。この特徴ベクトルは例えば10msの時間間隔で定義される。この特徴ベクトルをいくつかの種々な方法を用いてモデル化することができる。例えば、特徴ベクトルモデル化のための種々な方法が、参考文献J. Picone著「音声認識の信号モデル化方法:Signal modeling techniques in speed recognition 」(IEEE(米国電気電子技術者協会)会報、第81巻、No.9、pp.1215 〜1247、1993年9月)の中に示されている。訓練段階中、音声認識装置の訓練ブロック13で、音声認識装置が使用する単語の特徴ベクトル12によってモデルが構成される。モデル訓練13a で、認識対象の単語のモデルが定義される。この訓練段階で、モデル化される単語の反復を利用することができる。これらのモデルはメモリ13b に記憶される。音声認識中、特徴ベクトル12は実際の認識装置14へ伝送され、この装置によって、ブロック15a で、訓練段階中に構成されたモデルが認識対象音声の構成された特徴ベクトルと比較され、ブロック15b でその認識結果に関する決定が行われる。認識結果15によって、音声認識装置を使用している人が発した単語と最も良く一致した単語が表示され音声認識装置のメモリに記憶される。
図2は、本発明による音声認識装置の動作を示す。この音声認識装置には、図1による解決策に加えて、キーボードなどによってユーザが与えるコマンドに基づいてモデルの選択を行うブロック16を備える。ブロック16は、どのキーをユーザが押したかに関する情報が含まれる信号17をその入力として受信する。ブロック16で、ブロック13b によって伝送された音声モデル18は、信号17と比較され、この信号の中から部分集合19が選択されて音声認識装置のブロック15a へ伝送される。ブロック16の動作に関するモデルの選択については、本発明によるメモリ構造を利用して以下に説明した。
表1は本発明によるメモリ構造を示し、この構造によって、例えば移動局の電話ノートパッドまたはその一部などが形成される。このメモリには、音声認識訓練段階中に構成された参照モデル(特徴ベクトルなど)のみならず、氏名、氏名に対応する電話番号を備える。参照モデル「xxx...x 」を含むデータフィールドのみならず、氏名「Smith 」、対応する電話番号「0405459883」が記憶されている表の一行がこの表には示されている。参照モデルの長さは音声認識装置に特有のパラメータであるため、フィールド長さは使用される音声認識装置に依存する。本発明によれば、ユーザが装置の特定のキー(キー「s 」など)を押すと、装置のプロセッサがメモリの内容を調べ、氏名を含むデータフィールドの内容を比較し、メモリから文字「s 」で始まる氏名のみを検索する。例えば、押されたキーのASCII 文字をメモリ中の氏名の最初の文字のASCII 文字と比較することによって、また、もしこれらの文字が比較において互いに一致した場合、氏名と一致する参照モデルを選択することによって、この比較を行うことができる。この選択された参照モデル(部分集合)に関する情報は、次いで音声認識装置へ伝送され、その後音声認識装置が上で選択された氏名に関係するモデルを利用して音声認識が行われる。
ユーザは更にもう一つのキー(例えばキー「m 」)を押すこともでき、それによって音声認識が文字の組み合わせ「Sm」で始まる氏名にただちに限定される。この場合、認識すべき氏名数も更に限定される。すなわち部分集合モデルの数が少なくなる。さらに、本発明による音声認識装置の起動ベースとなる上述の氏名フィールド以外のフィールドをメモリに含めることも可能である。移動局のような装置の電話メモリには、例えば、ある特定の番号が移動局の番号であるかどうかを示すフィールドが含まれてもよい。この場合、メモリフィールドには例えば、要素「GSM 」を含めてもよい。それによって、ユーザがこのフィールドを起動するとGSM 番号だけが選択され、その他の番号、例えば固定ネットワークの番号やファックス番号などは選択されなくなる。このように本発明はユーザが選択した文字が音声認識装置の動作を制御する場合に限定されるものではなく、代わりにユーザがなんらかの他の分類などに従って電話用ノートパッドから氏名を選択することができる。例えば、電話用ノートパッド中の氏名は「家庭」、「会社」、「友人」などのようなクラスに分類されていてもよい。その場合移動局によってメニューの中から、例えばクラス「友人」を選択する便利な方法が提供され、本発明による音声認識がこの部類の氏名へ向けられる。移動局が、いくつかの異なる文字が一つの特定のキーと結合しているキーボードを備えることもまた可能である。例えば、文字記号「j 、k 、i 」を数字キー「5 」の中に含めることができる。この場合、ユーザがキー「5 」を押すと音声認識装置が起動して、音声認識で、文字「j 」、「k 」又は「i 」で始まる氏名に限定されるように本発明を適合することができる。本発明の典型的実施例では、ユーザがSENDキーを押すと、本発明による音声認識を最新の複数呼(例えば、最新の10件の呼)などに限定することができる。この場合、SENDキーを押してホールドすることなどによって呼が開始され、ユーザが同時に認識させたい氏名を発音するとすぐに最新の10件の呼の氏名/記号を含む1つの集合モデルに音声認識を限定することができる。
音声認識装置は好適にはプレス&ホールド(press-and-hold)によって起動されることが最も望ましい。この装置(音声認識装置)は、ユーザが音声認識の開始を望んでいることを当該キーの押下(プレス)とホールドによって通知される。同時に、押されたキーに関する情報は音声認識装置へ伝送される。すなわち音声認識は、例えば押されているキーの文字で始まる単語に限定され、すぐにユーザが望む参照モデルによって起動される。音声認識装置がキーの押下以外の方法、例えば音声によって起動されるのもまた本発明によるものである。この場合、上記に示したように、音声認識装置の起動後に本発明による参照モデル選択を音声認識中利用することが可能である。
本発明による移動局のメニュー構造を表2に示すように構成することもできる。表2は電話のメニュー構造の特定の部分を示すものである。この例では、主メニューはメニュー「電話設定」、「メッセージ」及び「メモリ機能」からなる。これに対応して、メニュー「メッセージ」はサブメニュー「読み込みメッセージ」と「書き込みメッセージ」とからなる。電話のユーザが音声によって又はメニューキーを押すことによってメニュー機能を選択するとき、起動はメニュー中の数ヶ所に限定される。この例では、音声による起動はメニュー「電話設定」、「メッセージ」あるいは「メモリ機能」に向けられる。ユーザは更に手動でサブメニュー「メッセージ」を選択することができる。その場合、音声起動は当該メニューの「読み込みメッセージ」又は「書き込みメッセージ」のある箇所へ向けられる。移動局のための外部のサービスとその起動に上述の方法を適用することもできる。この場合、特定のサービス、例えばWWW サービス(World Wide Web)に対して移動局の特定のキーが定義される。この場合、当該キーの押下とホールドによって、音声コマンドなどを利用することによりWWW アドレスのブックマークの選択を行うことが可能になる。この適用例では、移動局には上述のように選択された文字記号の表が含まれる。
図3は本発明による方法の活動シーケンスを示す。段階30では、ユーザが音声認識装置を起動するプレス&ホールドを行ったかどうかが検出される。プレス&ホールドが検出されなかった場合、装置は音声認識装置の起動待機状態のままになる。あるいは、ユーザがスクリーンのような接触感知面に書き込みを始めるとすぐに、音声認識装置を起動することができる。音声認識装置の起動を音声に基づいて行ってもよい。段階31で、タッチスクリーンに書かれた文字/テキストが認識される。段階32で、キーの押下に関する情報が音声認識装置へ伝送される及び/又はユーザがタッチスクリーンに書いた又は描いた英数字文字に関する情報が伝送される。タッチスクリーン上に、音声認識で利用する、英数字文字から外れる何らかの他の図形を描くことも可能である。段階33で、ユーザがキーの押下又はタッチスクリーンへの書き込みをまだ行っているかどうかが調べられる。その場合、これらの活動に関する情報は音声認識装置へも伝送される。ユーザの活動を特定の時間しきい値と比較することによってこの調査を行うことができる。この比較によってユーザがコマンドの発令を決定したかどうかが決められる。段階34で、段階32で与えられた情報を利用することによってユーザが発音した単語が認識される。
図4は本発明による方法のもう一つの活動シーケンスを示すものである。この方法では、発音された単語がまず従来通りに認識され、次いで、認識段階中に得られた結果の限定のために、ユーザが与えた限定の利用はこの認識後にしか行われない。図4では段階30〜33は図3の対応する段階と一致する。段階35で、すべての予め記憶されたモデルを利用してユーザの発話が認識される。この認識結果に関する情報は段階34へ伝送され、そこで第一の認識決定を部分集合モデルと比較することによって、ユーザが与えた限定に基づいて得られた最終的認識決定が行われる。段階35から得られる認識決定には、認識されたある集合の提案された単語と、段階34へ伝送されたこの単語に対応する認識確率とが含まれる。不完全な認識の場合には、最も高い認識確率を得た単語はユーザが発音した単語ではない。この場合、本発明による段階34で、ユーザが与えたクオリファイアによって最終的音声認識段階を実行して、本発明によるさらに高い音声認識性能に達することが可能である。本発明による方法は、限定と発音単語の認識とが実質的に同時となるように実行することもできる。
図5は、本発明を利用する音声認識装置66を有する移動局の構造を示す。移動局はマイクロホン61、キーボード62、スクリーン63、スピーカ64、及び、移動局の動作を制御する制御ブロック65のような装置の特徴を示す部分を有する。本発明の実施例によれば、スクリーン63はスクリーンのような接触感知面であってもよい。さらに、本図には、移動局の特徴を示す送信ブロック67と受信ブロック68とが例示されている。制御ブロック65はまた移動局と関係する音声認識装置66の動作をも制御する。音声認識装置の訓練段階中又は実際の音声認識段階中のいずれかの段階で音声認識装置が起動されると、ユーザが与える音声コマンドは制御ブロックによって制御されマイクロホン61から音声認識装置66へ伝送される。本発明によって、制御ブロック65は、ユーザがキーによって与えるコマンドに関する情報や、タッチスクリーン上へ入力される英数字文字/図形に関する情報を音声認識装置66へ伝送する。音声コマンドは別のHF(ハンドフリー)マイクロホンを通じて伝送することもできる。音声認識装置は通常DSP によって実行され、動作に必要な外部の及び/又は内部のROM/RAM 回路69を備える。
本発明の実施例は、タッチスクリーンまたはベースのような接触感知面を有する移動局のような装置を備えてもよい。この場合、ユーザは、接触感知面にペンなどで認識対象の単語の最初の文字を書いたり、指で描いたりすると同時に認識対象の単語を発音する(あるいは、ユーザはスクリーン上に表示された文字のある箇所を押す)。この場合、入力文字に関する情報は音声認識装置へ伝送され、音声認識は当該文字を含む単語に限定される。認識は、好適には上に説明した当該頭文字で始まる単語に限定して行われることが最も望ましい。この場合、ユーザは、本発明によって接触感知面上に例えば文字「S 」を書き込むと同時に認識対象の氏名、例えば「Smith 」を発音して、音声認識を文字「S 」で始まる氏名に限定することができる。
あるいは、ユーザはまずタッチスクリーン上に文字を書き込み、その後で認識対象の単語を発音してもよい。キー入力と接触感知面への書き込みに基づく上述の方法を組み合わせることができる。この場合、ユーザは、接触感知面への書き込みと、いくつかのキーの押下との両方を行い、音声認識時にこれらのデータの両方を利用することができる。接触感知面自体は本発明の範囲外にあり、従来技術に従って種々の方法で実現することができる。
本発明による方法によって、認識対象の氏名の数が同じままであれば従来技術による認識装置と比較して10〜30倍の認識精度を達成することができると推測できる。一方、本発明によって、認識精度をそのまま変えない場合、本発明によって認識できる氏名の数は、従来の10〜30倍の数を認識することが可能である。この改善された能力は本発明による一定の組み合わせに基づくものであり、キー/接触感知面によってユーザが出したコマンド、すなわち音声認識検索を限定するクオリファイアが音声認識と組み合わされる。本発明の一つの典型的実施例はタッチスクリーン利用に基づくものであった。この適用例の長所は、テキスト認識と音声認識とで用いるアルゴリズムがほとんど同一であり、これらの機能の両方を実現した装置でプログラムメモリ必要量があまり増えないということである。
以上、本発明の典型的実施例として移動局について説明した。しかし、本発明は例えばコンピュータにも等しく十分に適用可能である。本発明は、上に示した実施例に限定されるものではなく、添付の請求の範囲内で変形できるものである。
10 A/D変換器
11 フロントエンド
12 特徴ブロック
13 訓練ブロック
15a 比較ブロック
15b 認識決定ブロック
16 モデルの選択ブロック
11 フロントエンド
12 特徴ブロック
13 訓練ブロック
15a 比較ブロック
15b 認識決定ブロック
16 モデルの選択ブロック
Claims (10)
- 装置を用いてユーザの発話を認識するための方法であって、前記発話のある集合モデルが予め記憶され、音声認識を行うために、前記ユーザの前記発話が受信され、前記ユーザの発話が前記予め記憶されたモデルと比較され、前記比較に基づいて認識決定が行われるユーザの発話を認識するための方法において、
前記装置に触れることによって、前記ユーザが前記比較を限定するクオリファイアを提供することができ、前記クオリファイアが前記装置のメニュー構造中の項目を識別し、
前記ユーザが与えた前記クオリファイアに基づいて前記記憶されたモデルの中から部分集合モデルが選択され、前記部分集合モデルが前記メニュー構造の下位項目を識別し、
前記ユーザの前記発話を前記部分集合モデルと比較することによって前記認識決定を行うための比較を行うことを特徴とするユーザの発話を認識するための方法。 - 装置を用いてユーザの発話を認識するための方法であって、前記発話のある集合モデルが予め記憶され、音声認識を行うために、前記ユーザの発話が受信され、前記ユーザの発話が前記予め記憶されたモデルと比較され、前記比較に基づいて認識決定が行われるユーザの発話を認識するための方法において、
前記ユーザの前記発話を前記予め記憶されたモデルと比較することによって第1の認識決定を行うための比較を行い、
部分集合モデルを選択するための前記装置に触れることによって、前記ユーザが前記比較を限定するクオリファイアを提供することができ、前記クオリファイアが前記装置のメニュー構造の中の項目を識別し、前記部分集合モデルが前記メニュー構造の下位項目を識別し、
前記第1の認識決定を前記部分集合モデルと比較することによって認識決定を行うための最終的比較を行うことを特徴とするユーザの発話を認識するための方法。 - 前記ユーザが与えたクオリファイアに応じて音声認識装置が起動することを特徴とする請求項1又は2に記載の方法。
- 前記ユーザがキーを押すことによって前記クオリファイアを与えることができることを特徴とする請求項1又は2に記載の方法。
- 前記ユーザが前記装置の接触感知面上に英数字文字を書くことによって前記クオリファイアを提供することができることを特徴とする請求項1又は2に記載の方法。
- 前記ユーザがプレス&ホールドとして前記クオリファイアを提供することができることを特徴とする請求項3又は4に記載の方法。
- ユーザの発話を認識するための音声認識装置(66)と、音声モデルを記憶する(13b)ためのメモリ手段(69)と、前記ユーザの前記発話を受信するための手段(61)と、前記ユーザの前記発話を前記メモリ手段に記憶された前記モデルと比較することによって前記認識プロセスを実行するための比較手段(19、15a 、15b)とを有する装置において、該装置はまた、該装置に触れることによって前記ユーザからクオリファイア(17)を受信するための手段(62 、63)と、前記比較手段(19 、15a 、15b)によって行われる前記比較を前記集合モデルに限定するための、前記ユーザから受信された前記クオリファイアに基づいて、前記記憶されたモデルの中から1つの集合を選択するための手段(16)と、ある装置のメニュー構造を記憶するための、また、前記装置のメニュー構造中の1つの項目として前記受信されたクオリファイアを識別するための手段(65)とを備えることを特徴とする装置。
- 前記ユーザから前記クオリファイアを受信するための前記手段がキーボードを備えることを特徴とする請求項7に記載の装置。
- 前記クオリファイアを受信するための前記手段が接触感知面を備えることを特徴とする請求項7に記載の装置。
- 前記ユーザから受信されたクオリファイアに応じて前記音声認識装置を起動するための手段(62 、63、65)を備えることを特徴とする請求項7に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI981154A FI981154A (fi) | 1998-05-25 | 1998-05-25 | Menetelmä ja laite puheen tunnistamiseksi |
FI981154 | 1998-05-25 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011045500A Division JP2011175265A (ja) | 1998-05-25 | 2011-03-02 | ユーザの発話を認識するための方法及び装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015018276A true JP2015018276A (ja) | 2015-01-29 |
Family
ID=8551797
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP14360299A Expired - Lifetime JP5048174B2 (ja) | 1998-05-25 | 1999-05-24 | ユーザの発話を認識するための方法及び装置 |
JP2011045500A Withdrawn JP2011175265A (ja) | 1998-05-25 | 2011-03-02 | ユーザの発話を認識するための方法及び装置 |
JP2014184204A Pending JP2015018276A (ja) | 1998-05-25 | 2014-09-10 | ユーザの発話を認識するための方法及び装置 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP14360299A Expired - Lifetime JP5048174B2 (ja) | 1998-05-25 | 1999-05-24 | ユーザの発話を認識するための方法及び装置 |
JP2011045500A Withdrawn JP2011175265A (ja) | 1998-05-25 | 2011-03-02 | ユーザの発話を認識するための方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6694295B2 (ja) |
EP (1) | EP0961263B1 (ja) |
JP (3) | JP5048174B2 (ja) |
DE (1) | DE69923253T2 (ja) |
FI (1) | FI981154A (ja) |
Families Citing this family (158)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
WO2002005263A1 (de) * | 2000-07-07 | 2002-01-17 | Siemens Aktiengesellschaft | Verfahren zur spracheingabe und -erkennung |
US8200485B1 (en) | 2000-08-29 | 2012-06-12 | A9.Com, Inc. | Voice interface and methods for improving recognition accuracy of voice search queries |
GB0029573D0 (en) * | 2000-12-02 | 2001-01-17 | Hewlett Packard Co | Activation of voice-controlled apparatus |
US20020077830A1 (en) * | 2000-12-19 | 2002-06-20 | Nokia Corporation | Method for activating context sensitive speech recognition in a terminal |
US7010490B2 (en) * | 2001-01-26 | 2006-03-07 | International Business Machines Corporation | Method, system, and apparatus for limiting available selections in a speech recognition system |
US20020152075A1 (en) * | 2001-04-16 | 2002-10-17 | Shao-Tsu Kung | Composite input method |
DE10129005B4 (de) * | 2001-06-15 | 2005-11-03 | Harman Becker Automotive Systems Gmbh | Verfahren zur Spracherkennung und Spracherkennungssystem |
KR100457509B1 (ko) | 2001-07-07 | 2004-11-17 | 삼성전자주식회사 | 터치스크린과 음성인식을 통해 동작 제어되는 정보단말기 및 그의 명령 실행 방법 |
US20030069733A1 (en) * | 2001-10-02 | 2003-04-10 | Ryan Chang | Voice control method utilizing a single-key pushbutton to control voice commands and a device thereof |
EP1302929A1 (de) * | 2001-10-16 | 2003-04-16 | Siemens Aktiengesellschaft | Verfahren zur automatischen Implementierung eines Spracherkenners und Spracherkenner |
US7124085B2 (en) | 2001-12-13 | 2006-10-17 | Matsushita Electric Industrial Co., Ltd. | Constraint-based speech recognition system and method |
DE10204924A1 (de) * | 2002-02-07 | 2003-08-21 | Philips Intellectual Property | Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen |
DE10207895B4 (de) | 2002-02-23 | 2005-11-03 | Harman Becker Automotive Systems Gmbh | Verfahren zur Spracherkennung und Spracherkennungssystem |
ES2192154B1 (es) * | 2002-03-12 | 2005-02-16 | Bsh Balay S.A. | Cuadro de mandos sensible al contacto. |
US7260529B1 (en) * | 2002-06-25 | 2007-08-21 | Lengen Nicholas D | Command insertion system and method for voice recognition applications |
US7392182B2 (en) | 2002-12-18 | 2008-06-24 | Harman International Industries, Inc. | Speech recognition system |
US7729913B1 (en) * | 2003-03-18 | 2010-06-01 | A9.Com, Inc. | Generation and selection of voice recognition grammars for conducting database searches |
US20050125541A1 (en) * | 2003-12-04 | 2005-06-09 | Randall Frank | Integrating multiple communication modes |
DE10360656A1 (de) * | 2003-12-23 | 2005-07-21 | Daimlerchrysler Ag | Bediensystem für ein Fahrzeug |
US20050234710A1 (en) * | 2004-04-20 | 2005-10-20 | Microsoft Corporation | Canceling a speech interaction session |
US7574356B2 (en) | 2004-07-19 | 2009-08-11 | At&T Intellectual Property Ii, L.P. | System and method for spelling recognition using speech and non-speech input |
EP1635328B1 (en) * | 2004-09-14 | 2018-05-30 | Swisscom AG | Speech recognition method constrained with a grammar received from a remote system. |
KR100679042B1 (ko) * | 2004-10-27 | 2007-02-06 | 삼성전자주식회사 | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9210252B2 (en) * | 2006-07-13 | 2015-12-08 | Alcatel Lucent | End-user device personalized application notification feature |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7831431B2 (en) * | 2006-10-31 | 2010-11-09 | Honda Motor Co., Ltd. | Voice recognition updates via remote broadcast signal |
US8219406B2 (en) * | 2007-03-15 | 2012-07-10 | Microsoft Corporation | Speech-centric multimodal user interface design in mobile technology |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8958848B2 (en) | 2008-04-08 | 2015-02-17 | Lg Electronics Inc. | Mobile terminal and menu control method thereof |
KR20090107365A (ko) | 2008-04-08 | 2009-10-13 | 엘지전자 주식회사 | 이동 단말기 및 그 메뉴 제어방법 |
US8504365B2 (en) * | 2008-04-11 | 2013-08-06 | At&T Intellectual Property I, L.P. | System and method for detecting synthetic speaker verification |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
KR101504212B1 (ko) | 2008-11-19 | 2015-03-24 | 엘지전자 주식회사 | 단말기 및 그 제어 방법 |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US8412531B2 (en) * | 2009-06-10 | 2013-04-02 | Microsoft Corporation | Touch anywhere to speak |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8160877B1 (en) * | 2009-08-06 | 2012-04-17 | Narus, Inc. | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US20110184736A1 (en) * | 2010-01-26 | 2011-07-28 | Benjamin Slotznick | Automated method of recognizing inputted information items and selecting information items |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
KR20120067078A (ko) * | 2010-12-15 | 2012-06-25 | 삼성전자주식회사 | 터치 스크린을 구비한 휴대용 단말기에서 어플리케이션 정보를 제공하고 어플리케이션을 실행하기 위한 장치 및 방법 |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US20120280915A1 (en) * | 2011-05-02 | 2012-11-08 | Nokia Corporation | Method and apparatus for facilitating interacting with a multimodal user interface |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
CN103827962B (zh) * | 2011-09-09 | 2016-12-07 | 旭化成株式会社 | 声音识别装置 |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
KR101987255B1 (ko) * | 2012-08-20 | 2019-06-11 | 엘지이노텍 주식회사 | 음성 인식 장치 및 이의 음성 인식 방법 |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
WO2014200731A1 (en) | 2013-06-13 | 2014-12-18 | Apple Inc. | System and method for emergency calls initiated by voice command |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10580405B1 (en) * | 2016-12-27 | 2020-03-03 | Amazon Technologies, Inc. | Voice control of remote device |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
JP7056185B2 (ja) * | 2018-01-31 | 2022-04-19 | トヨタ自動車株式会社 | 情報処理装置および情報処理方法 |
US11735169B2 (en) * | 2020-03-20 | 2023-08-22 | International Business Machines Corporation | Speech recognition and training for data inputs |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60158496A (ja) * | 1984-01-30 | 1985-08-19 | 株式会社東芝 | 音声認識装置 |
JPH05119793A (ja) * | 1991-10-25 | 1993-05-18 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及び装置 |
JPH06124097A (ja) * | 1992-10-13 | 1994-05-06 | Hitachi Ltd | 携帯型端末装置 |
JPH06208389A (ja) * | 1993-01-13 | 1994-07-26 | Canon Inc | 情報処理方法及び装置 |
JPH07265430A (ja) * | 1993-04-21 | 1995-10-17 | Kazuyuki Ikeda | 自動麻酔記録装置 |
JPH07311656A (ja) * | 1994-05-17 | 1995-11-28 | Toshiba Corp | マルチモーダル文字入力装置 |
JPH10124291A (ja) * | 1996-10-17 | 1998-05-15 | Casio Comput Co Ltd | 移動端末音声認識通信システム |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4866778A (en) | 1986-08-11 | 1989-09-12 | Dragon Systems, Inc. | Interactive speech recognition apparatus |
JPS63300297A (ja) * | 1987-05-30 | 1988-12-07 | キヤノン株式会社 | 音声認識装置 |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
JPH0336855A (ja) * | 1989-07-04 | 1991-02-18 | Matsushita Electric Ind Co Ltd | 携帯電話装置 |
US5020107A (en) * | 1989-12-04 | 1991-05-28 | Motorola, Inc. | Limited vocabulary speech recognition system |
US5425128A (en) * | 1992-05-29 | 1995-06-13 | Sunquest Information Systems, Inc. | Automatic management system for speech recognition processes |
FI97919C (fi) | 1992-06-05 | 1997-03-10 | Nokia Mobile Phones Ltd | Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten |
US5502774A (en) * | 1992-06-09 | 1996-03-26 | International Business Machines Corporation | Automatic recognition of a consistent message using multiple complimentary sources of information |
US5335276A (en) * | 1992-12-16 | 1994-08-02 | Texas Instruments Incorporated | Communication system and methods for enhanced information transfer |
CA2115210C (en) * | 1993-04-21 | 1997-09-23 | Joseph C. Andreshak | Interactive computer system recognizing spoken commands |
US5524169A (en) * | 1993-12-30 | 1996-06-04 | International Business Machines Incorporated | Method and system for location-specific speech recognition |
DK0718823T3 (da) * | 1994-12-23 | 2001-01-29 | Siemens Ag | Fremgangsmåde til konvertering af ved brug af tale indlæste informationer til maskinlæsbare data |
JPH08202386A (ja) * | 1995-01-23 | 1996-08-09 | Sony Corp | 音声認識方法、音声認識装置、およびナビゲーション装置 |
EP0746136A3 (en) | 1995-06-02 | 1999-06-23 | Nokia Mobile Phones Ltd. | Automatic credit card calling system |
FI111893B (fi) | 1995-06-02 | 2003-09-30 | Nokia Corp | Menetelmä ja laite puhelimen ohjaamiseksi komennoilla |
US5544654A (en) * | 1995-06-06 | 1996-08-13 | Acuson Corporation | Voice control of a medical ultrasound scanning machine |
DE69531052T2 (de) | 1995-09-29 | 2004-04-01 | Nokia Corp. | Telekommunikationsverfahren und eine zu seiner Durchführung geeignete Vorrichtung |
JPH09116940A (ja) * | 1995-10-19 | 1997-05-02 | Matsushita Electric Ind Co Ltd | コンピュータ・電話統合システム |
US5692032A (en) | 1995-11-27 | 1997-11-25 | Nokia Mobile Phones Ltd. | Mobile terminal having one key user message acknowledgment function |
US6055333A (en) * | 1995-12-28 | 2000-04-25 | Motorola, Inc. | Handwriting recognition method and apparatus having multiple selectable dictionaries |
US5794142A (en) | 1996-01-29 | 1998-08-11 | Nokia Mobile Phones Limited | Mobile terminal having network services activation through the use of point-to-point short message service |
GB2314726B (en) | 1996-06-28 | 2000-07-12 | Nokia Mobile Phones Ltd | User interface |
US6009336A (en) * | 1996-07-10 | 1999-12-28 | Motorola, Inc. | Hand-held radiotelephone having a detachable display |
US5870683A (en) | 1996-09-18 | 1999-02-09 | Nokia Mobile Phones Limited | Mobile station having method and apparatus for displaying user-selectable animation sequence |
US5878351A (en) | 1996-11-07 | 1999-03-02 | Nokia Mobile Phones Limited | Methods and apparatus for providing delayed transmission of SMS delivery acknowledgement, manual acknowledgement and SMS messages |
US6084951A (en) * | 1997-04-23 | 2000-07-04 | Nortel Networks Corporation | Iconized name list |
DE19742054A1 (de) * | 1997-09-24 | 1999-04-01 | Philips Patentverwaltung | Eingabesystem wenigstens für Orts- und/oder Straßennamen |
US6438523B1 (en) * | 1998-05-20 | 2002-08-20 | John A. Oberteuffer | Processing handwritten and hand-drawn input and speech input |
US6401065B1 (en) * | 1999-06-17 | 2002-06-04 | International Business Machines Corporation | Intelligent keyboard interface with use of human language processing |
-
1998
- 1998-05-25 FI FI981154A patent/FI981154A/fi unknown
-
1999
- 1999-03-19 DE DE69923253T patent/DE69923253T2/de not_active Expired - Lifetime
- 1999-03-19 EP EP99660048A patent/EP0961263B1/en not_active Expired - Lifetime
- 1999-05-17 US US09/313,142 patent/US6694295B2/en not_active Expired - Lifetime
- 1999-05-24 JP JP14360299A patent/JP5048174B2/ja not_active Expired - Lifetime
-
2011
- 2011-03-02 JP JP2011045500A patent/JP2011175265A/ja not_active Withdrawn
-
2014
- 2014-09-10 JP JP2014184204A patent/JP2015018276A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60158496A (ja) * | 1984-01-30 | 1985-08-19 | 株式会社東芝 | 音声認識装置 |
JPH05119793A (ja) * | 1991-10-25 | 1993-05-18 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及び装置 |
JPH06124097A (ja) * | 1992-10-13 | 1994-05-06 | Hitachi Ltd | 携帯型端末装置 |
JPH06208389A (ja) * | 1993-01-13 | 1994-07-26 | Canon Inc | 情報処理方法及び装置 |
JPH07265430A (ja) * | 1993-04-21 | 1995-10-17 | Kazuyuki Ikeda | 自動麻酔記録装置 |
JPH07311656A (ja) * | 1994-05-17 | 1995-11-28 | Toshiba Corp | マルチモーダル文字入力装置 |
JPH10124291A (ja) * | 1996-10-17 | 1998-05-15 | Casio Comput Co Ltd | 移動端末音声認識通信システム |
Also Published As
Publication number | Publication date |
---|---|
FI981154A (fi) | 1999-11-26 |
DE69923253D1 (de) | 2005-02-24 |
JP2011175265A (ja) | 2011-09-08 |
JP2000056792A (ja) | 2000-02-25 |
US6694295B2 (en) | 2004-02-17 |
EP0961263A2 (en) | 1999-12-01 |
JP5048174B2 (ja) | 2012-10-17 |
US20020032567A1 (en) | 2002-03-14 |
DE69923253T2 (de) | 2006-01-05 |
EP0961263A3 (en) | 2000-01-05 |
EP0961263B1 (en) | 2005-01-19 |
FI981154A0 (fi) | 1998-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5048174B2 (ja) | ユーザの発話を認識するための方法及び装置 | |
TWI296793B (en) | Speech recognition assisted autocompletion of composite characters | |
KR101109265B1 (ko) | 텍스트 입력 방법 | |
KR100996212B1 (ko) | 음성인식을 위한 방법, 시스템 및 프로그램 | |
KR101586890B1 (ko) | 입력 처리 방법 및 장치 | |
JP4468264B2 (ja) | 多言語による名称の音声認識のための方法とシステム | |
US20020103644A1 (en) | Speech auto-completion for portable devices | |
JP2006023860A (ja) | 情報閲覧装置、情報閲覧プログラム、情報閲覧プログラム記録媒体及び情報閲覧システム | |
KR101545881B1 (ko) | 휴대 단말기의 입력 처리 장치 및 방법 | |
JP2011254553A (ja) | 小型キーパッド用日本語入力メカニズム | |
JP2002116793A (ja) | データ入力システム及びその方法 | |
US9928084B2 (en) | Electronic device and method for activating application | |
KR100919227B1 (ko) | 네비게이션 시스템에 이용되는 음성 인식 방법 및 장치 | |
CN110827815B (zh) | 一种语音识别方法、终端、系统以及计算机存储介质 | |
KR100664144B1 (ko) | 이동통신 단말기의 상용구 입력 방법 | |
KR20050014979A (ko) | 이동통신 단말기에서의 문자 입력 지원 방법 및 이를 위한이동통신 단말기 | |
JP2002041277A (ja) | 情報処理装置およびWebブラウザ制御プログラムを記録した記録媒体 | |
KR20060063420A (ko) | 휴대단말기에서의 음성인식방법 및 이를 구비한 휴대단말기 | |
JP2004295017A (ja) | マルチモーダルシステムおよび音声入力方法 | |
WO2011037230A1 (ja) | 電子機器及びアプリケーションの起動方法 | |
KR20050051239A (ko) | 이동통신 단말기에서의 음성에 의한 키명령어 입력 방법 | |
JP2009037433A (ja) | ナンバーボイスブラウザ、およびナンバーボイスブラウザの制御方法 | |
JP2002268798A (ja) | 単語認識装置およびこれを用いた機能指示装置、携帯電話装置並びに単語認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150318 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150414 |