JP2015018276A - ユーザの発話を認識するための方法及び装置 - Google Patents

ユーザの発話を認識するための方法及び装置 Download PDF

Info

Publication number
JP2015018276A
JP2015018276A JP2014184204A JP2014184204A JP2015018276A JP 2015018276 A JP2015018276 A JP 2015018276A JP 2014184204 A JP2014184204 A JP 2014184204A JP 2014184204 A JP2014184204 A JP 2014184204A JP 2015018276 A JP2015018276 A JP 2015018276A
Authority
JP
Japan
Prior art keywords
user
utterance
qualifier
model
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014184204A
Other languages
English (en)
Inventor
リンドホルム クリスティアン
Christian Lindholm
リンドホルム クリスティアン
ラウリラ カリ
Kari Laurila
ラウリラ カリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of JP2015018276A publication Critical patent/JP2015018276A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Position Input By Displaying (AREA)

Abstract

【課題】音声認識とクオリファイアとを用いた、ユーザの発話を認識するための方法及び装置の実現。【解決手段】装置を用いてユーザの発話を認識するための方法は、発話のある集合モデルが予め記憶され、音声認識を行うために、ユーザの発話が受信され、ユーザの発話が予め記憶されたモデルと比較され、比較に基づいて認識決定が行われ、装置に触れることによって、ユーザが比較を限定するクオリファイアを提供することができ、クオリファイアが装置のメニュー構造中の項目を識別し、ユーザが与えたクオリファイアに基づいて記憶されたモデルの中から部分集合モデルが選択され、部分集合モデルがメニュー構造の下位項目を識別し、ユーザの発話を部分集合モデルと比較することによって認識決定を行うための比較を行う。【選択図】図2

Description

本発明は音声認識方法及び本発明による音声認識方法を利用する装置に関する。
通常、移動電話では、電話用ノートパッドによってブラウズを行いながら、探す氏名の最初の文字を利用して氏名を選択することが可能である。この場合、検索処理中にユーザが例えば文字「s 」を押すと、文字「s 」で始まる氏名がメモリから検索される。このようにして、ユーザは氏名をみつけるためにアルファベット順にノートパッドの内容をブラウズする必要なく自分の探している氏名をより迅速にみつけることができる。この種の方法はすべて手動であり、キーボードによってユーザが与えるコマンドと、このコマンドに基づくブラウジングに基づくものである。
今日、ユーザが声によってコマンドを与えることができる音声認識装置を利用するいくつかの移動局がある。これらの装置では、その音声認識装置は話者依存形であることが多い。すなわち、音声認識装置のオペレーションは、音声認識装置が後で認識すると思われる単語をユーザが音声認識装置に対して教えるという方式に基づいている。また、別個の訓練段階を必要としないいわゆる話者独立形音声認識装置も存在する。この場合、音声認識装置のオペレーションは異なるタイプの話者から採られた多くのサンプリングから集めた多量の教材に基づいている。いわゆる平均的ユーザの場合、適度の機能が話者独立形認識装置については典型的である。これに対して、話者依存形音声認識装置はこの音声認識装置を訓練した人にとって最適に機能する。
J. Picone著「音声認識の信号モデル化方法:Signal modeling techniques in speed recognition 」(IEEE(米国電気電子技術者協会)会報、第81巻、No.9、pp.1215 〜1247、1993年9月)
上述の音声認識装置の双方について通常言えることは、使用されている語彙の大きさによってその音声認識装置の性能が大きく左右されるということである。また、従来技術による音声認識装置について通常言えることは、認識できる単語が特定の数に限定されていることである。例えば、移動局では、電話機のノートパッドに声で記憶できるようにユーザに許されるのは最大20の氏名であり、それに応じてユーザはこれらの記憶された氏名を音声による選択と関連して利用することができる。現在また将来のアプリケーションとしてはそのような数では明らかに不十分であり、本発明の目的はこの認識対象単語数を実質的に増やすことである。例えば現今の方法の10倍というような認識対象単語数の増加に伴い、より少ない語彙を使用しているときと同じ音声認識能力を保持することは不可能になる。もう一つの制限要因として、端末装置などにおける使用メモリが必要となるということがある。この必要性は、当然のことながら音声認識装置の語彙の拡大につれて増大する。
従来技術による現今の音声認識装置では、音声認識装置の起動は、例えば「起動」のような特定の起動コマンドを用いて音声で実現することができ、そのコマンドで音声認識装置が起動してユーザからのコマンドを受信する準備ができる。音声認識装置を別個のキーで起動することもできる。声で起動される音声認識装置については、典型的にはその起動性能が環境のノイズレベルに左右される。また、音声認識装置の作動中、環境のノイズレベルが、達成すべき音声認識装置の性能に大きく影響する。音声認識装置の性能を表す重要なパラメータは、その語彙の範囲及び環境のノイズ条件の程度であると言うことができる。
更なる公知の音声認識システムが、米国特許4,866,778 に開示されている。この特許では、ユーザが1つあるいはそれより多い文字からなる最初の文字列を選択することによって単語の下位の語彙を選択し、それらの頭文字で始まる単語に限定される下位の語彙に対して認識を行わせることができるようになっている。
今回我々は、従来技術の上述の問題を回避するあるいは少なくとも和らげる目的を持つ音声認識方法と装置を発明した。本発明は、音声認識中にユーザがクオリファイア(qualifier : 修飾子)を与えることができる装置と方法に関する。このクオリファイアによって音声認識はユーザが与えたクオリファイアに一致する音声モデルのみに限定される。この場合、音声認識中に使用される特定の部分集合のみが予め記憶された音声モデルの中から選択される。
本発明の実施例によれば、装置の既存のキーボード又はタッチスクリーン(touch-senitive screen : 接触感知スクリーン)/ベースを利用して装置に触れることによって音声認識を限定するクオリファイアが与えられると同時に音声認識装置が起動される。この起動は、最も好適にはキーで行われる。本発明による方法によって、音声認識装置を起動する論理的方法がユーザに与えられ、同時に、入力されたクオリファイアによる音声認識装置の改善された性能が提供される。本発明によるこの音声認識の限定は音声認識装置の起動とは別に行うこともできる。
本発明の典型的実施例によれば、この装置はタッチスクリーン又は表面(ベース)を備え、スクリーン上に書かれた一つの文字又はいくつかの文字に関する情報が音声認識装置へ伝送される。この場合、音声認識は当該文字を含む単語に限定される。音声認識は、最も好適にはタッチスクリーンにユーザが書いた文字で始まる氏名に限定される。
本発明の典型的実施例によれば、最終的認識結果が画定されると、すべての記憶されたモデルを予め利用することによって、また、ユーザが与えた限定クオリファイアを利用することによって音声認識を行うこともできる。
本発明の第1の態様によれば、ユーザの発話を認識する方法に対して装置が提供され、この装置において、ある集合の発話モデルが予め記憶され、音声認識を行うために、ユーザの発話が受信され、ユーザの発話が予め記憶されたモデルと比較され、この比較に基づいて認識決定が行われる。この方法は、
ユーザが、装置に触れることによって比較を限定するクオリファイアを提供することができ、このクオリファイアによって装置のメニュー構造のアイテムが識別され、
ユーザが与えたクオリファイアに基づいて記憶されたモデルの中からモデルの部分集合が選択され、モデルのこの部分集合がメニュー構造の下位アイテムを識別し、
ユーザの発話をモデルの部分集合と比較することによって、認識決定を行うための比較が行われることを特徴とする。
本発明の第2の態様によれば、ユーザの発話を認識するための方法に対して装置が提供され、この装置において、ある集合の発話モデルが予め記憶され、音声認識を行うために、ユーザの発話が受信され、ユーザの発話が予め記憶されたモデルと比較され、この比較に基づいて、認識決定が行われる。この方法は、
ユーザの発話を予め記憶されたモデルと比較することによって、第1の認識決定を行うための比較が行われ、
ユーザが、部分集合モデルを選択するために装置に触れることによって比較を限定するクオリファイアを提供することができ、このクオリファイアがこの装置のメニュー構造のアイテムを識別し、部分集合モデルがメニュー構造の下位アイテムを識別し、
第1の認識決定を部分集合モデルと比較する認識決定を行うための最終的比較を行うことを特徴とする。
本発明の第3の態様によれば、ユーザの発話を認識するための音声認識装置と、音声モデルを記憶するためのメモリ手段と、ユーザの発話を受信するための手段と、ユーザの発話をメモリ手段に記憶されたモデルと比較することによって認識プロセスを実行するための比較手段とを有する装置が提供され、この装置は、装置に触れることによってユーザからのクオリファイアを受信するための手段と、比較手段によって行われた比較を集合モデルに限定するためのユーザから受信されたクオリファイアに基づいて、記憶されたモデルの中からある集合を選択するための手段と、装置のメニュー構造を記憶するための、及び、装置のメニュー構造の一つの項目として受信されたクオリファイアを特定するための手段とを有することも特徴とする。
従来技術による音声認識装置の構造を示すブロック図である。 本発明による音声認識装置の構造を示すブロック図である。 本発明による方法の作用のフローチャートを示す図である。 本発明によるもう一つの方法の作用のフローチャートを示す図である。 本発明による方法を利用する移動局の構造を示す図である。
図1は、本発明に対して適用できるような公知の音声認識装置の構造ブロック図を示す。通常、図1に示されるように、音声認識装置の動作は2つの異なる主要な活動、すなわち実際の音声認識段階10〜12、14〜15と音声訓練段階10〜13とに分割される。音声認識装置はマイクロホンから入力として音声信号S(n)を受信し、この信号は、A/D 変換器10によって例えば8kHzのサンプリング周波数及び1サンプル当たり12ビットの解像度を使ってデジタル形式に変換される。通常、音声認識装置は、音声信号が分析され、特徴ベクトル(Feature vector) 12がモデル化されるいわゆるフロント・エンド11を有し、この特徴ベクトルが特定の期間中の音声信号を記述する。この特徴ベクトルは例えば10msの時間間隔で定義される。この特徴ベクトルをいくつかの種々な方法を用いてモデル化することができる。例えば、特徴ベクトルモデル化のための種々な方法が、参考文献J. Picone著「音声認識の信号モデル化方法:Signal modeling techniques in speed recognition 」(IEEE(米国電気電子技術者協会)会報、第81巻、No.9、pp.1215 〜1247、1993年9月)の中に示されている。訓練段階中、音声認識装置の訓練ブロック13で、音声認識装置が使用する単語の特徴ベクトル12によってモデルが構成される。モデル訓練13a で、認識対象の単語のモデルが定義される。この訓練段階で、モデル化される単語の反復を利用することができる。これらのモデルはメモリ13b に記憶される。音声認識中、特徴ベクトル12は実際の認識装置14へ伝送され、この装置によって、ブロック15a で、訓練段階中に構成されたモデルが認識対象音声の構成された特徴ベクトルと比較され、ブロック15b でその認識結果に関する決定が行われる。認識結果15によって、音声認識装置を使用している人が発した単語と最も良く一致した単語が表示され音声認識装置のメモリに記憶される。
図2は、本発明による音声認識装置の動作を示す。この音声認識装置には、図1による解決策に加えて、キーボードなどによってユーザが与えるコマンドに基づいてモデルの選択を行うブロック16を備える。ブロック16は、どのキーをユーザが押したかに関する情報が含まれる信号17をその入力として受信する。ブロック16で、ブロック13b によって伝送された音声モデル18は、信号17と比較され、この信号の中から部分集合19が選択されて音声認識装置のブロック15a へ伝送される。ブロック16の動作に関するモデルの選択については、本発明によるメモリ構造を利用して以下に説明した。
Figure 2015018276
Figure 2015018276
表1は本発明によるメモリ構造を示し、この構造によって、例えば移動局の電話ノートパッドまたはその一部などが形成される。このメモリには、音声認識訓練段階中に構成された参照モデル(特徴ベクトルなど)のみならず、氏名、氏名に対応する電話番号を備える。参照モデル「xxx...x 」を含むデータフィールドのみならず、氏名「Smith 」、対応する電話番号「0405459883」が記憶されている表の一行がこの表には示されている。参照モデルの長さは音声認識装置に特有のパラメータであるため、フィールド長さは使用される音声認識装置に依存する。本発明によれば、ユーザが装置の特定のキー(キー「s 」など)を押すと、装置のプロセッサがメモリの内容を調べ、氏名を含むデータフィールドの内容を比較し、メモリから文字「s 」で始まる氏名のみを検索する。例えば、押されたキーのASCII 文字をメモリ中の氏名の最初の文字のASCII 文字と比較することによって、また、もしこれらの文字が比較において互いに一致した場合、氏名と一致する参照モデルを選択することによって、この比較を行うことができる。この選択された参照モデル(部分集合)に関する情報は、次いで音声認識装置へ伝送され、その後音声認識装置が上で選択された氏名に関係するモデルを利用して音声認識が行われる。
ユーザは更にもう一つのキー(例えばキー「m 」)を押すこともでき、それによって音声認識が文字の組み合わせ「Sm」で始まる氏名にただちに限定される。この場合、認識すべき氏名数も更に限定される。すなわち部分集合モデルの数が少なくなる。さらに、本発明による音声認識装置の起動ベースとなる上述の氏名フィールド以外のフィールドをメモリに含めることも可能である。移動局のような装置の電話メモリには、例えば、ある特定の番号が移動局の番号であるかどうかを示すフィールドが含まれてもよい。この場合、メモリフィールドには例えば、要素「GSM 」を含めてもよい。それによって、ユーザがこのフィールドを起動するとGSM 番号だけが選択され、その他の番号、例えば固定ネットワークの番号やファックス番号などは選択されなくなる。このように本発明はユーザが選択した文字が音声認識装置の動作を制御する場合に限定されるものではなく、代わりにユーザがなんらかの他の分類などに従って電話用ノートパッドから氏名を選択することができる。例えば、電話用ノートパッド中の氏名は「家庭」、「会社」、「友人」などのようなクラスに分類されていてもよい。その場合移動局によってメニューの中から、例えばクラス「友人」を選択する便利な方法が提供され、本発明による音声認識がこの部類の氏名へ向けられる。移動局が、いくつかの異なる文字が一つの特定のキーと結合しているキーボードを備えることもまた可能である。例えば、文字記号「j 、k 、i 」を数字キー「5 」の中に含めることができる。この場合、ユーザがキー「5 」を押すと音声認識装置が起動して、音声認識で、文字「j 」、「k 」又は「i 」で始まる氏名に限定されるように本発明を適合することができる。本発明の典型的実施例では、ユーザがSENDキーを押すと、本発明による音声認識を最新の複数呼(例えば、最新の10件の呼)などに限定することができる。この場合、SENDキーを押してホールドすることなどによって呼が開始され、ユーザが同時に認識させたい氏名を発音するとすぐに最新の10件の呼の氏名/記号を含む1つの集合モデルに音声認識を限定することができる。
音声認識装置は好適にはプレス&ホールド(press-and-hold)によって起動されることが最も望ましい。この装置(音声認識装置)は、ユーザが音声認識の開始を望んでいることを当該キーの押下(プレス)とホールドによって通知される。同時に、押されたキーに関する情報は音声認識装置へ伝送される。すなわち音声認識は、例えば押されているキーの文字で始まる単語に限定され、すぐにユーザが望む参照モデルによって起動される。音声認識装置がキーの押下以外の方法、例えば音声によって起動されるのもまた本発明によるものである。この場合、上記に示したように、音声認識装置の起動後に本発明による参照モデル選択を音声認識中利用することが可能である。
本発明による移動局のメニュー構造を表2に示すように構成することもできる。表2は電話のメニュー構造の特定の部分を示すものである。この例では、主メニューはメニュー「電話設定」、「メッセージ」及び「メモリ機能」からなる。これに対応して、メニュー「メッセージ」はサブメニュー「読み込みメッセージ」と「書き込みメッセージ」とからなる。電話のユーザが音声によって又はメニューキーを押すことによってメニュー機能を選択するとき、起動はメニュー中の数ヶ所に限定される。この例では、音声による起動はメニュー「電話設定」、「メッセージ」あるいは「メモリ機能」に向けられる。ユーザは更に手動でサブメニュー「メッセージ」を選択することができる。その場合、音声起動は当該メニューの「読み込みメッセージ」又は「書き込みメッセージ」のある箇所へ向けられる。移動局のための外部のサービスとその起動に上述の方法を適用することもできる。この場合、特定のサービス、例えばWWW サービス(World Wide Web)に対して移動局の特定のキーが定義される。この場合、当該キーの押下とホールドによって、音声コマンドなどを利用することによりWWW アドレスのブックマークの選択を行うことが可能になる。この適用例では、移動局には上述のように選択された文字記号の表が含まれる。
図3は本発明による方法の活動シーケンスを示す。段階30では、ユーザが音声認識装置を起動するプレス&ホールドを行ったかどうかが検出される。プレス&ホールドが検出されなかった場合、装置は音声認識装置の起動待機状態のままになる。あるいは、ユーザがスクリーンのような接触感知面に書き込みを始めるとすぐに、音声認識装置を起動することができる。音声認識装置の起動を音声に基づいて行ってもよい。段階31で、タッチスクリーンに書かれた文字/テキストが認識される。段階32で、キーの押下に関する情報が音声認識装置へ伝送される及び/又はユーザがタッチスクリーンに書いた又は描いた英数字文字に関する情報が伝送される。タッチスクリーン上に、音声認識で利用する、英数字文字から外れる何らかの他の図形を描くことも可能である。段階33で、ユーザがキーの押下又はタッチスクリーンへの書き込みをまだ行っているかどうかが調べられる。その場合、これらの活動に関する情報は音声認識装置へも伝送される。ユーザの活動を特定の時間しきい値と比較することによってこの調査を行うことができる。この比較によってユーザがコマンドの発令を決定したかどうかが決められる。段階34で、段階32で与えられた情報を利用することによってユーザが発音した単語が認識される。
図4は本発明による方法のもう一つの活動シーケンスを示すものである。この方法では、発音された単語がまず従来通りに認識され、次いで、認識段階中に得られた結果の限定のために、ユーザが与えた限定の利用はこの認識後にしか行われない。図4では段階30〜33は図3の対応する段階と一致する。段階35で、すべての予め記憶されたモデルを利用してユーザの発話が認識される。この認識結果に関する情報は段階34へ伝送され、そこで第一の認識決定を部分集合モデルと比較することによって、ユーザが与えた限定に基づいて得られた最終的認識決定が行われる。段階35から得られる認識決定には、認識されたある集合の提案された単語と、段階34へ伝送されたこの単語に対応する認識確率とが含まれる。不完全な認識の場合には、最も高い認識確率を得た単語はユーザが発音した単語ではない。この場合、本発明による段階34で、ユーザが与えたクオリファイアによって最終的音声認識段階を実行して、本発明によるさらに高い音声認識性能に達することが可能である。本発明による方法は、限定と発音単語の認識とが実質的に同時となるように実行することもできる。
図5は、本発明を利用する音声認識装置66を有する移動局の構造を示す。移動局はマイクロホン61、キーボード62、スクリーン63、スピーカ64、及び、移動局の動作を制御する制御ブロック65のような装置の特徴を示す部分を有する。本発明の実施例によれば、スクリーン63はスクリーンのような接触感知面であってもよい。さらに、本図には、移動局の特徴を示す送信ブロック67と受信ブロック68とが例示されている。制御ブロック65はまた移動局と関係する音声認識装置66の動作をも制御する。音声認識装置の訓練段階中又は実際の音声認識段階中のいずれかの段階で音声認識装置が起動されると、ユーザが与える音声コマンドは制御ブロックによって制御されマイクロホン61から音声認識装置66へ伝送される。本発明によって、制御ブロック65は、ユーザがキーによって与えるコマンドに関する情報や、タッチスクリーン上へ入力される英数字文字/図形に関する情報を音声認識装置66へ伝送する。音声コマンドは別のHF(ハンドフリー)マイクロホンを通じて伝送することもできる。音声認識装置は通常DSP によって実行され、動作に必要な外部の及び/又は内部のROM/RAM 回路69を備える。
本発明の実施例は、タッチスクリーンまたはベースのような接触感知面を有する移動局のような装置を備えてもよい。この場合、ユーザは、接触感知面にペンなどで認識対象の単語の最初の文字を書いたり、指で描いたりすると同時に認識対象の単語を発音する(あるいは、ユーザはスクリーン上に表示された文字のある箇所を押す)。この場合、入力文字に関する情報は音声認識装置へ伝送され、音声認識は当該文字を含む単語に限定される。認識は、好適には上に説明した当該頭文字で始まる単語に限定して行われることが最も望ましい。この場合、ユーザは、本発明によって接触感知面上に例えば文字「S 」を書き込むと同時に認識対象の氏名、例えば「Smith 」を発音して、音声認識を文字「S 」で始まる氏名に限定することができる。
あるいは、ユーザはまずタッチスクリーン上に文字を書き込み、その後で認識対象の単語を発音してもよい。キー入力と接触感知面への書き込みに基づく上述の方法を組み合わせることができる。この場合、ユーザは、接触感知面への書き込みと、いくつかのキーの押下との両方を行い、音声認識時にこれらのデータの両方を利用することができる。接触感知面自体は本発明の範囲外にあり、従来技術に従って種々の方法で実現することができる。
本発明による方法によって、認識対象の氏名の数が同じままであれば従来技術による認識装置と比較して10〜30倍の認識精度を達成することができると推測できる。一方、本発明によって、認識精度をそのまま変えない場合、本発明によって認識できる氏名の数は、従来の10〜30倍の数を認識することが可能である。この改善された能力は本発明による一定の組み合わせに基づくものであり、キー/接触感知面によってユーザが出したコマンド、すなわち音声認識検索を限定するクオリファイアが音声認識と組み合わされる。本発明の一つの典型的実施例はタッチスクリーン利用に基づくものであった。この適用例の長所は、テキスト認識と音声認識とで用いるアルゴリズムがほとんど同一であり、これらの機能の両方を実現した装置でプログラムメモリ必要量があまり増えないということである。
以上、本発明の典型的実施例として移動局について説明した。しかし、本発明は例えばコンピュータにも等しく十分に適用可能である。本発明は、上に示した実施例に限定されるものではなく、添付の請求の範囲内で変形できるものである。
10 A/D変換器
11 フロントエンド
12 特徴ブロック
13 訓練ブロック
15a 比較ブロック
15b 認識決定ブロック
16 モデルの選択ブロック

Claims (10)

  1. 装置を用いてユーザの発話を認識するための方法であって、前記発話のある集合モデルが予め記憶され、音声認識を行うために、前記ユーザの前記発話が受信され、前記ユーザの発話が前記予め記憶されたモデルと比較され、前記比較に基づいて認識決定が行われるユーザの発話を認識するための方法において、
    前記装置に触れることによって、前記ユーザが前記比較を限定するクオリファイアを提供することができ、前記クオリファイアが前記装置のメニュー構造中の項目を識別し、
    前記ユーザが与えた前記クオリファイアに基づいて前記記憶されたモデルの中から部分集合モデルが選択され、前記部分集合モデルが前記メニュー構造の下位項目を識別し、
    前記ユーザの前記発話を前記部分集合モデルと比較することによって前記認識決定を行うための比較を行うことを特徴とするユーザの発話を認識するための方法。
  2. 装置を用いてユーザの発話を認識するための方法であって、前記発話のある集合モデルが予め記憶され、音声認識を行うために、前記ユーザの発話が受信され、前記ユーザの発話が前記予め記憶されたモデルと比較され、前記比較に基づいて認識決定が行われるユーザの発話を認識するための方法において、
    前記ユーザの前記発話を前記予め記憶されたモデルと比較することによって第1の認識決定を行うための比較を行い、
    部分集合モデルを選択するための前記装置に触れることによって、前記ユーザが前記比較を限定するクオリファイアを提供することができ、前記クオリファイアが前記装置のメニュー構造の中の項目を識別し、前記部分集合モデルが前記メニュー構造の下位項目を識別し、
    前記第1の認識決定を前記部分集合モデルと比較することによって認識決定を行うための最終的比較を行うことを特徴とするユーザの発話を認識するための方法。
  3. 前記ユーザが与えたクオリファイアに応じて音声認識装置が起動することを特徴とする請求項1又は2に記載の方法。
  4. 前記ユーザがキーを押すことによって前記クオリファイアを与えることができることを特徴とする請求項1又は2に記載の方法。
  5. 前記ユーザが前記装置の接触感知面上に英数字文字を書くことによって前記クオリファイアを提供することができることを特徴とする請求項1又は2に記載の方法。
  6. 前記ユーザがプレス&ホールドとして前記クオリファイアを提供することができることを特徴とする請求項3又は4に記載の方法。
  7. ユーザの発話を認識するための音声認識装置(66)と、音声モデルを記憶する(13b)ためのメモリ手段(69)と、前記ユーザの前記発話を受信するための手段(61)と、前記ユーザの前記発話を前記メモリ手段に記憶された前記モデルと比較することによって前記認識プロセスを実行するための比較手段(19、15a 、15b)とを有する装置において、該装置はまた、該装置に触れることによって前記ユーザからクオリファイア(17)を受信するための手段(62 、63)と、前記比較手段(19 、15a 、15b)によって行われる前記比較を前記集合モデルに限定するための、前記ユーザから受信された前記クオリファイアに基づいて、前記記憶されたモデルの中から1つの集合を選択するための手段(16)と、ある装置のメニュー構造を記憶するための、また、前記装置のメニュー構造中の1つの項目として前記受信されたクオリファイアを識別するための手段(65)とを備えることを特徴とする装置。
  8. 前記ユーザから前記クオリファイアを受信するための前記手段がキーボードを備えることを特徴とする請求項7に記載の装置。
  9. 前記クオリファイアを受信するための前記手段が接触感知面を備えることを特徴とする請求項7に記載の装置。
  10. 前記ユーザから受信されたクオリファイアに応じて前記音声認識装置を起動するための手段(62 、63、65)を備えることを特徴とする請求項7に記載の装置。
JP2014184204A 1998-05-25 2014-09-10 ユーザの発話を認識するための方法及び装置 Pending JP2015018276A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI981154A FI981154A (fi) 1998-05-25 1998-05-25 Menetelmä ja laite puheen tunnistamiseksi
FI981154 1998-05-25

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2011045500A Division JP2011175265A (ja) 1998-05-25 2011-03-02 ユーザの発話を認識するための方法及び装置

Publications (1)

Publication Number Publication Date
JP2015018276A true JP2015018276A (ja) 2015-01-29

Family

ID=8551797

Family Applications (3)

Application Number Title Priority Date Filing Date
JP14360299A Expired - Lifetime JP5048174B2 (ja) 1998-05-25 1999-05-24 ユーザの発話を認識するための方法及び装置
JP2011045500A Withdrawn JP2011175265A (ja) 1998-05-25 2011-03-02 ユーザの発話を認識するための方法及び装置
JP2014184204A Pending JP2015018276A (ja) 1998-05-25 2014-09-10 ユーザの発話を認識するための方法及び装置

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP14360299A Expired - Lifetime JP5048174B2 (ja) 1998-05-25 1999-05-24 ユーザの発話を認識するための方法及び装置
JP2011045500A Withdrawn JP2011175265A (ja) 1998-05-25 2011-03-02 ユーザの発話を認識するための方法及び装置

Country Status (5)

Country Link
US (1) US6694295B2 (ja)
EP (1) EP0961263B1 (ja)
JP (3) JP5048174B2 (ja)
DE (1) DE69923253T2 (ja)
FI (1) FI981154A (ja)

Families Citing this family (158)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
WO2002005263A1 (de) * 2000-07-07 2002-01-17 Siemens Aktiengesellschaft Verfahren zur spracheingabe und -erkennung
US8200485B1 (en) 2000-08-29 2012-06-12 A9.Com, Inc. Voice interface and methods for improving recognition accuracy of voice search queries
GB0029573D0 (en) * 2000-12-02 2001-01-17 Hewlett Packard Co Activation of voice-controlled apparatus
US20020077830A1 (en) * 2000-12-19 2002-06-20 Nokia Corporation Method for activating context sensitive speech recognition in a terminal
US7010490B2 (en) * 2001-01-26 2006-03-07 International Business Machines Corporation Method, system, and apparatus for limiting available selections in a speech recognition system
US20020152075A1 (en) * 2001-04-16 2002-10-17 Shao-Tsu Kung Composite input method
DE10129005B4 (de) * 2001-06-15 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
KR100457509B1 (ko) 2001-07-07 2004-11-17 삼성전자주식회사 터치스크린과 음성인식을 통해 동작 제어되는 정보단말기 및 그의 명령 실행 방법
US20030069733A1 (en) * 2001-10-02 2003-04-10 Ryan Chang Voice control method utilizing a single-key pushbutton to control voice commands and a device thereof
EP1302929A1 (de) * 2001-10-16 2003-04-16 Siemens Aktiengesellschaft Verfahren zur automatischen Implementierung eines Spracherkenners und Spracherkenner
US7124085B2 (en) 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
DE10204924A1 (de) * 2002-02-07 2003-08-21 Philips Intellectual Property Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen
DE10207895B4 (de) 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
ES2192154B1 (es) * 2002-03-12 2005-02-16 Bsh Balay S.A. Cuadro de mandos sensible al contacto.
US7260529B1 (en) * 2002-06-25 2007-08-21 Lengen Nicholas D Command insertion system and method for voice recognition applications
US7392182B2 (en) 2002-12-18 2008-06-24 Harman International Industries, Inc. Speech recognition system
US7729913B1 (en) * 2003-03-18 2010-06-01 A9.Com, Inc. Generation and selection of voice recognition grammars for conducting database searches
US20050125541A1 (en) * 2003-12-04 2005-06-09 Randall Frank Integrating multiple communication modes
DE10360656A1 (de) * 2003-12-23 2005-07-21 Daimlerchrysler Ag Bediensystem für ein Fahrzeug
US20050234710A1 (en) * 2004-04-20 2005-10-20 Microsoft Corporation Canceling a speech interaction session
US7574356B2 (en) 2004-07-19 2009-08-11 At&T Intellectual Property Ii, L.P. System and method for spelling recognition using speech and non-speech input
EP1635328B1 (en) * 2004-09-14 2018-05-30 Swisscom AG Speech recognition method constrained with a grammar received from a remote system.
KR100679042B1 (ko) * 2004-10-27 2007-02-06 삼성전자주식회사 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9210252B2 (en) * 2006-07-13 2015-12-08 Alcatel Lucent End-user device personalized application notification feature
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7831431B2 (en) * 2006-10-31 2010-11-09 Honda Motor Co., Ltd. Voice recognition updates via remote broadcast signal
US8219406B2 (en) * 2007-03-15 2012-07-10 Microsoft Corporation Speech-centric multimodal user interface design in mobile technology
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8958848B2 (en) 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
KR20090107365A (ko) 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
KR101504212B1 (ko) 2008-11-19 2015-03-24 엘지전자 주식회사 단말기 및 그 제어 방법
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US8412531B2 (en) * 2009-06-10 2013-04-02 Microsoft Corporation Touch anywhere to speak
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
KR20120067078A (ko) * 2010-12-15 2012-06-25 삼성전자주식회사 터치 스크린을 구비한 휴대용 단말기에서 어플리케이션 정보를 제공하고 어플리케이션을 실행하기 위한 장치 및 방법
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120280915A1 (en) * 2011-05-02 2012-11-08 Nokia Corporation Method and apparatus for facilitating interacting with a multimodal user interface
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
CN103827962B (zh) * 2011-09-09 2016-12-07 旭化成株式会社 声音识别装置
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
KR101987255B1 (ko) * 2012-08-20 2019-06-11 엘지이노텍 주식회사 음성 인식 장치 및 이의 음성 인식 방법
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10580405B1 (en) * 2016-12-27 2020-03-03 Amazon Technologies, Inc. Voice control of remote device
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
JP7056185B2 (ja) * 2018-01-31 2022-04-19 トヨタ自動車株式会社 情報処理装置および情報処理方法
US11735169B2 (en) * 2020-03-20 2023-08-22 International Business Machines Corporation Speech recognition and training for data inputs

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60158496A (ja) * 1984-01-30 1985-08-19 株式会社東芝 音声認識装置
JPH05119793A (ja) * 1991-10-25 1993-05-18 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
JPH06124097A (ja) * 1992-10-13 1994-05-06 Hitachi Ltd 携帯型端末装置
JPH06208389A (ja) * 1993-01-13 1994-07-26 Canon Inc 情報処理方法及び装置
JPH07265430A (ja) * 1993-04-21 1995-10-17 Kazuyuki Ikeda 自動麻酔記録装置
JPH07311656A (ja) * 1994-05-17 1995-11-28 Toshiba Corp マルチモーダル文字入力装置
JPH10124291A (ja) * 1996-10-17 1998-05-15 Casio Comput Co Ltd 移動端末音声認識通信システム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4866778A (en) 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
JPS63300297A (ja) * 1987-05-30 1988-12-07 キヤノン株式会社 音声認識装置
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
JPH0336855A (ja) * 1989-07-04 1991-02-18 Matsushita Electric Ind Co Ltd 携帯電話装置
US5020107A (en) * 1989-12-04 1991-05-28 Motorola, Inc. Limited vocabulary speech recognition system
US5425128A (en) * 1992-05-29 1995-06-13 Sunquest Information Systems, Inc. Automatic management system for speech recognition processes
FI97919C (fi) 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
US5335276A (en) * 1992-12-16 1994-08-02 Texas Instruments Incorporated Communication system and methods for enhanced information transfer
CA2115210C (en) * 1993-04-21 1997-09-23 Joseph C. Andreshak Interactive computer system recognizing spoken commands
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
DK0718823T3 (da) * 1994-12-23 2001-01-29 Siemens Ag Fremgangsmåde til konvertering af ved brug af tale indlæste informationer til maskinlæsbare data
JPH08202386A (ja) * 1995-01-23 1996-08-09 Sony Corp 音声認識方法、音声認識装置、およびナビゲーション装置
EP0746136A3 (en) 1995-06-02 1999-06-23 Nokia Mobile Phones Ltd. Automatic credit card calling system
FI111893B (fi) 1995-06-02 2003-09-30 Nokia Corp Menetelmä ja laite puhelimen ohjaamiseksi komennoilla
US5544654A (en) * 1995-06-06 1996-08-13 Acuson Corporation Voice control of a medical ultrasound scanning machine
DE69531052T2 (de) 1995-09-29 2004-04-01 Nokia Corp. Telekommunikationsverfahren und eine zu seiner Durchführung geeignete Vorrichtung
JPH09116940A (ja) * 1995-10-19 1997-05-02 Matsushita Electric Ind Co Ltd コンピュータ・電話統合システム
US5692032A (en) 1995-11-27 1997-11-25 Nokia Mobile Phones Ltd. Mobile terminal having one key user message acknowledgment function
US6055333A (en) * 1995-12-28 2000-04-25 Motorola, Inc. Handwriting recognition method and apparatus having multiple selectable dictionaries
US5794142A (en) 1996-01-29 1998-08-11 Nokia Mobile Phones Limited Mobile terminal having network services activation through the use of point-to-point short message service
GB2314726B (en) 1996-06-28 2000-07-12 Nokia Mobile Phones Ltd User interface
US6009336A (en) * 1996-07-10 1999-12-28 Motorola, Inc. Hand-held radiotelephone having a detachable display
US5870683A (en) 1996-09-18 1999-02-09 Nokia Mobile Phones Limited Mobile station having method and apparatus for displaying user-selectable animation sequence
US5878351A (en) 1996-11-07 1999-03-02 Nokia Mobile Phones Limited Methods and apparatus for providing delayed transmission of SMS delivery acknowledgement, manual acknowledgement and SMS messages
US6084951A (en) * 1997-04-23 2000-07-04 Nortel Networks Corporation Iconized name list
DE19742054A1 (de) * 1997-09-24 1999-04-01 Philips Patentverwaltung Eingabesystem wenigstens für Orts- und/oder Straßennamen
US6438523B1 (en) * 1998-05-20 2002-08-20 John A. Oberteuffer Processing handwritten and hand-drawn input and speech input
US6401065B1 (en) * 1999-06-17 2002-06-04 International Business Machines Corporation Intelligent keyboard interface with use of human language processing

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60158496A (ja) * 1984-01-30 1985-08-19 株式会社東芝 音声認識装置
JPH05119793A (ja) * 1991-10-25 1993-05-18 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
JPH06124097A (ja) * 1992-10-13 1994-05-06 Hitachi Ltd 携帯型端末装置
JPH06208389A (ja) * 1993-01-13 1994-07-26 Canon Inc 情報処理方法及び装置
JPH07265430A (ja) * 1993-04-21 1995-10-17 Kazuyuki Ikeda 自動麻酔記録装置
JPH07311656A (ja) * 1994-05-17 1995-11-28 Toshiba Corp マルチモーダル文字入力装置
JPH10124291A (ja) * 1996-10-17 1998-05-15 Casio Comput Co Ltd 移動端末音声認識通信システム

Also Published As

Publication number Publication date
FI981154A (fi) 1999-11-26
DE69923253D1 (de) 2005-02-24
JP2011175265A (ja) 2011-09-08
JP2000056792A (ja) 2000-02-25
US6694295B2 (en) 2004-02-17
EP0961263A2 (en) 1999-12-01
JP5048174B2 (ja) 2012-10-17
US20020032567A1 (en) 2002-03-14
DE69923253T2 (de) 2006-01-05
EP0961263A3 (en) 2000-01-05
EP0961263B1 (en) 2005-01-19
FI981154A0 (fi) 1998-05-25

Similar Documents

Publication Publication Date Title
JP5048174B2 (ja) ユーザの発話を認識するための方法及び装置
TWI296793B (en) Speech recognition assisted autocompletion of composite characters
KR101109265B1 (ko) 텍스트 입력 방법
KR100996212B1 (ko) 음성인식을 위한 방법, 시스템 및 프로그램
KR101586890B1 (ko) 입력 처리 방법 및 장치
JP4468264B2 (ja) 多言語による名称の音声認識のための方法とシステム
US20020103644A1 (en) Speech auto-completion for portable devices
JP2006023860A (ja) 情報閲覧装置、情報閲覧プログラム、情報閲覧プログラム記録媒体及び情報閲覧システム
KR101545881B1 (ko) 휴대 단말기의 입력 처리 장치 및 방법
JP2011254553A (ja) 小型キーパッド用日本語入力メカニズム
JP2002116793A (ja) データ入力システム及びその方法
US9928084B2 (en) Electronic device and method for activating application
KR100919227B1 (ko) 네비게이션 시스템에 이용되는 음성 인식 방법 및 장치
CN110827815B (zh) 一种语音识别方法、终端、系统以及计算机存储介质
KR100664144B1 (ko) 이동통신 단말기의 상용구 입력 방법
KR20050014979A (ko) 이동통신 단말기에서의 문자 입력 지원 방법 및 이를 위한이동통신 단말기
JP2002041277A (ja) 情報処理装置およびWebブラウザ制御プログラムを記録した記録媒体
KR20060063420A (ko) 휴대단말기에서의 음성인식방법 및 이를 구비한 휴대단말기
JP2004295017A (ja) マルチモーダルシステムおよび音声入力方法
WO2011037230A1 (ja) 電子機器及びアプリケーションの起動方法
KR20050051239A (ko) 이동통신 단말기에서의 음성에 의한 키명령어 입력 방법
JP2009037433A (ja) ナンバーボイスブラウザ、およびナンバーボイスブラウザの制御方法
JP2002268798A (ja) 単語認識装置およびこれを用いた機能指示装置、携帯電話装置並びに単語認識プログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150318

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150414