JP2004213016A - 音声認識方法及び装置 - Google Patents

音声認識方法及び装置 Download PDF

Info

Publication number
JP2004213016A
JP2004213016A JP2004000411A JP2004000411A JP2004213016A JP 2004213016 A JP2004213016 A JP 2004213016A JP 2004000411 A JP2004000411 A JP 2004000411A JP 2004000411 A JP2004000411 A JP 2004000411A JP 2004213016 A JP2004213016 A JP 2004213016A
Authority
JP
Japan
Prior art keywords
word
alternative
waiting time
user
selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004000411A
Other languages
English (en)
Other versions
JP4643911B2 (ja
Inventor
Seung-Myung Chung
勝 寧 鄭
Myung-Hyun Yoo
明 鉉 柳
Jay-Woo Kim
載 ▲祐▼ 金
Joon-Ah Park
俊 我 朴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2004213016A publication Critical patent/JP2004213016A/ja
Application granted granted Critical
Publication of JP4643911B2 publication Critical patent/JP4643911B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 音声認識方法及び装置を提供する。
【解決手段】 (a)ユーザーが発話した音声を入力する段階と、(b)前記入力される音声を認識して類似度順序によって所定数の認識単語を生成する段階と、(c)前記所定数の認識単語が所定の順序によって羅列された代案リストに対して所定の待ち時間の間にユーザーの選択変更がない場合、現在カーソルが位置する代案単語を最終の認識単語として決定する段階と、を含む音声認識方法。これにより、音声認識結果、複数の代案よりなるリストに対するユーザーの選択によって、最終の認識単語を決定するプロセスを適応的に変更することによって音声認識性能を向上させうる。
【選択図】 図1

Description

本発明は音声認識に係り、特に音声認識の結果与えられる複数の代案単語リストからユーザーが選択することによって最終の認識単語を決定するプロセスを適応的に変更することによって音声認識性能を向上させることができる音声認識方法及び装置に関する。
音声認識技術とは、人間の音声をコンピュータが分析してこれを認識または理解する技術をいう。人間の音声は発音時に口つき及び舌の位置変化によって特定の周波数を有するが、音声認識技術は発声された音声を電気信号に変換した後、音声信号の周波数特性を抽出して発音を認識する。最近はこのような音声認識技術が電話ダイヤリング、おもちゃ制御、語学学習または家電機器制御など多様な分野に応用されている。
ところが、音声認識技術の発展にかかわらず、実際の音声認識環境における周辺の騷音のために、現在の技術ではまだ100%認識成功率が保障されてはいない。したがって、音声認識作業でエラーが頻繁に発生する。このような作業のエラー発生率を減らすための方便として、音声認識器の認識結果に対してユーザーに確認を要求するか、音声認識器の認識結果によって複数の代案よりなるリストをユーザーに提示することによって、ユーザーの確認または選択によって最終の認識単語を決定する方法が使われている。
このような方法と関連した従来技術としては、特許文献1、特許文献2、特許文献3、特許文献4、特許文献5がある。特許文献1は最も効率的に検索された有力な代案単語を提示し、有力な代案が間違った場合に次の代案単語を提示する方式により正しい認識結果を探す技術である。この技術によれば、ユーザーはシステムにより提示される一連のはい/いいえの質問にいちいち応答しなければならず、次の質問でいかなる単語が出るか知らされていない状態が維持される。特許文献2及び特許文献3は、音声認識結果に対する代案単語を羅列し、羅列された代案に対してグラフィックユーザーインターフェースまたは音声によるユーザーの選択によって認識結果を決定する技術である。この技術によれば、ユーザーは発話以後にいかなる場合でも正しい代案単語を選択する別途の操作を行わねばならない。特許文献4は最善の認識結果に基づいてユーザー発話を一応文字に変換し、変換された文字をユーザーが検討する過程で以前に考慮された認識結果の代案単語を照会及び選択して修正する技術である。この技術は円滑な作業方式を提案しているが、ユーザーがリアルタイムでこのようなシステムを使用する場合、認識結果を目でみながら同時に文章を生成しなければならない。特許文献5は一連の音声認識作業中に特定発話に対する不明確な認識結果を確定するにおいて、その以後の発話に対する認識結果を参照して代案単語を自動的に選択する技術である。
前記のように、従来はユーザーの音声に対して正確な認識結果が導出されても少なくとも1回のユーザー確認または選択のような付加作業が行わねばならず、確認作業が行われない場合には最終の認識単語を決定するのにかかる時間が無制限的に長くなる短所がある。
米国特許第4866778号公報 米国特許第5027406号公報 米国特許第5884258号公報 米国特許第6314397号公報 米国特許第6347296号公報
したがって、本発明が解決しようとする技術的課題は、音声認識結果、複数の代案よりなるリストに対してユーザーの選択がない場合、一定の待ち時間経過後に最初の代案単語を最終の認識単語として決定し、ユーザーの選択がある場合に選択された代案単語を最終の認識単語として決定するか、再調整された待ち時間経過後に選択された代案単語を最終の認識単語として決定する音声認識方法を提供することである。
本発明が解決しようとする他の技術的課題は、前記音声認識方法を実現するのに最も適した装置を提供することである。
前記技術的課題を達成するために本発明による音声認識方法は、(a)ユーザーが発話した音声を入力する段階と、(b)前記入力される音声を認識して類似度順序によって所定数の認識単語を生成する段階と、(c)前記所定数の認識単語が所定の順序によって羅列された代案リストに対して所定の待ち時間の間にユーザーの選択変更がない場合、現在カーソルが位置する代案単語を最終の認識単語として決定する段階と、を含む。
前記音声認識方法は、(d)前記所定の待ち時間の間にユーザーの選択変更がある場合、前記待ち時間を再調整して前記(b)段階に復帰する段階をさらに含むか、(d)前記所定の待ち時間の間にユーザーの選択変更がある場合、ユーザーが選択した代案単語を最終の認識単語として決定する段階をさらに含むことが望ましい。
前記他の技術的課題を達成するために本発明による音声認識装置は、ユーザーが発話した音声を入力する音声入力部と、前記入力される音声を認識して類似度順序によって所定数の認識単語を生成する音声認識部と、前記所定数の認識単語が所定の順序によって羅列された代案リストに対して所定の待ち時間の間にユーザーの選択変更がない場合、現在カーソルが位置している代案単語を最終の認識単語として決定する後処理部と、を含む。
また、前記後処理部は、前記音声認識部で生成された所定数の認識単語が所定の順序によって羅列された代案リストが含まれたグラフィックユーザーインターフェース用ウィンドウを生成するウィンドウ生成部と、前記グラフィックユーザーインターフェース用ウィンドウがディスプレイされた後、現在カーソルが移動している代案単語を最終の認識単語として決定するまでの待ち時間を設定する待ち時間設定部と、所定の待ち時間の間に前記ディスプレイされた代案リストに対するユーザーの選択変更がない場合、前記代案リストのうち現在カーソルが位置している最初の代案単語を最終の認識単語として決定し、前記所定の待ち時間の間にユーザーの選択変更がある場合、前記待ち時間を再調整し、再調整された待ち時間の間に再度ユーザーの選択変更がない場合にユーザーが選択した代案単語を最終の認識単語として決定する最終の認識単語決定部と、を具備する。
また、前記後処理部は、前記音声認識部で生成された所定数の認識単語が所定の順序によって羅列された代案リストが含まれたグラフィックユーザーインターフェース用ウィンドウを生成するウィンドウ生成部と、前記グラフィックユーザーインターフェース用ウィンドウがディスプレイされた後、現在カーソルが移動している代案単語を最終の認識単語として決定するまでの待ち時間を設定する待ち時間設定部と、所定の待ち時間の間に前記ディスプレイされた代案リストに対するユーザーの選択変更がない場合、前記代案リストのうち現在カーソルが位置している最初の代案単語を最終の認識単語として決定し、前記所定の待ち時間の間にユーザーの選択変更がある場合、ユーザーが選択した代案単語を最終の認識単語として決定する最終の認識単語決定部と、を具備する。
本発明によれば、劣悪な音声認識環境でユーザーの付加作業及び心理的な圧迫を最小化させつつも、音声命令を通した作業の最終成功率を極大化させることによって作業の効率性を向上させることができる。
また本発明によれば、一定の待ち時間の間にユーザーの選択変更が行なわれない場合に自動的に後続作業を行うことによって音声認識のために要求されるユーザーのボタン操作回数を最小化できることにより、ユーザーに便宜を提供してシステムに対する満足度を増大させるだけでなく、ユーザー別に適応的に調整された待ち時間を割当てることによって音声認識により実行される作業の処理速度を速めることができる。
以下、本発明の実施例について添付した図面を参照して詳細に説明する。
図1は本発明の一実施例による音声認識装置の構成を示したブロック図である。本実施例による音声認識装置は、音声入力部11、音声認識部13及び後処理部15よりなる。
図1を参照すれば、音声入力部11はマイクロホンよりなり、ユーザーが発声した音声を入力し、入力された音声に対して不要な雑音信号を除去し、所定レベルに増幅させて音声認識部13に提供する。
音声認識部13は、音声入力部11から入力される音声の開始点及び終了点を検出して入力された音声の前後にある黙音区間を除外した音声区間での特徴データを抽出した後、リアルタイムでベクトル量子化を行う。以後、特徴データを利用してデータベース(DB)に登録された単語に対して類似度が最も類似した単語を選定するビタビ(viterbi)探索を行う。この時、隠れマルコフモデル(Hidden Markov Model:HMM)を利用できるが、現在入力された音声の特徴データと認識対象候補単語に対してあらかじめ訓練して構築したHMMの特徴データとを比較し、特徴データの差を利用して最も類似した候補単語を決定する。音声認識部13でビタビ検索が終了した後認識結果として、類似度順序によって入力音声と最も類似した所定数、ここでは3つの単語を決定して後処理部15に提供する。
後処理部15は、音声認識部13の認識結果を入力として認識結果を文字信号に変換し、変換された文字信号を類似度順序によって羅列したグラフィックユーザーインターフェース用ウィンドウを生成する。グラフィックユーザーインターフェース用ウィンドウの一例は図9に図示されたような形態を有し、ウィンドウ91には“最初の代案、ここでは‘タンサクキ’を実行中です”というメッセージが現れる領域92、タイムベルト93が表示される領域93、及び代案リストが現れる領域94を含む。生成されたウィンドウ91は、あらかじめ設定された待ち時間に該当するタイムベルト93が全部なくなるまで画面上にディスプレイされ、待ち時間以内にユーザーから別途のキーまたはボタン入力がない場合、最初の代案単語を最終の認識単語として決定する。一方、待ち時間以内にユーザーから代案選択用キーまたはボタンが入力されれば、後述する図7または図8に図示された過程を通じて最終の認識単語を決定する。
図2は、図1において後処理部15の細部的な構成を示したブロック図であって、待ち時間設定部21、熟練度管理部22、熟練度DB 23、ウィンドウ生成部24、エラーパターン管理部25、エラーパターンDB 26及び最終の認識単語決定部27よりなる。
図2を参照すれば、待ち時間設定部21はグラフィックユーザーインターフェース用ウィンドウ91がディスプレイされた後に現在カーソルが移動している代案単語を最終の認識単語として決定するまでの待ち時間を設定する。待ち時間はグラフィックユーザーインターフェース用ウィンドウ91でタイムベルト93により表示される。待ち時間は代案リストのうちあらゆる代案に対して待ち時間を同一に付与するか、類似度の高い代案から低い代案順序によって待ち時間を別々に付与することもある。また、あらゆるユーザーに対して一律的に同じ待ち時間を付与するか、音声認識装置を扱うユーザーの熟練度によって音声認識装置付き機器のユーザー別に相異なる待ち時間を付与することもある。待ち時間設定部21で設定された待ち時間は待ち時間設定部21に入力された音声認識部13の音声認識結果と共にウィンドウ生成部24に提供される。
熟練度管理部22は、熟練度DB 23に保存された熟練度による選択時間に所定の余裕時間を付加した値を待ち時間として再調整して待ち時間設定部21に供給する。熟練度管理部22は後述する図6に図示された過程を通じて待ち時間を再調整する。ここで、待ち時間はあらゆる代案に同一に適用になる待ち時間または類似度順序によって差別的に付与される待ち時間を称する。
熟練度DB 23は、熟練度によって相異なる選択時間を対応させてDB化したものである。ここで、熟練度はグラフィックユーザーインターフェース用ウィンドウがディスプレイされた後、最終の認識単語を決定するまでかかる選択時間に反比例する変数であって、所定回数に対してかかる選択時間を平均した値をユーザー別熟練度として決定する。
ウィンドウ生成部24は、図9に図示されたように、現在進行状況を知らせるメッセージ領域92、待ち時間設定部21で設定した待ち時間に該当するタイムベルト93及び音声認識部13の音声認識結果を類似度順序によって羅列した代案リスト93を含むグラフィックユーザーインターフェース用ウィンドウ91を生成する。この時、代案リスト93の代案羅列順序は、類似度だけでなく以前の音声認識ヒストリーで現れたエラーパターンを反映して決定できる。
エラーパターン管理部25は、音声認識部13により最初の代案として採択された認識単語及び最終の認識単語決定部27から提供される最終の認識単語を入力とし、2つの認識単語の組み合わせがエラーパターンDB 26に保存されている場合、音声認識部13を通じてウィンドウ生成部24に提供された認識結果に対するスコアを調整してウィンドウ生成部24に提供する。すると、ウィンドウ生成部24では調整されたスコアを基準として代案リスト94の羅列順序を変更する。例えば、最初の代案として採択された認識単語が“恋(コイ)”であり、最終決定された認識単語が“コーヒー”である場合“コーヒー”に所定の加重値を付与する。その結果、音声認識部13での“コイ”が最初の代案として決定されてもウィンドウ生成部24では“コーヒー”を“コイ”より高い順位に羅列できる。
エラーパターンDB 26は、音声認識部13により最初の代案として採択された認識単語と最終的に決定された認識単語とが相異なる場合、これをエラーパターンとして保存し、エラーパターンテーブルの一例は図4に図示されたように認識結果、最初の代案認識単語41、最終の認識単語42、ユーザーの発話特徴1ないしn 43、発話性向44、及びエラー発生回数、すなわち、ヒストリーn、45よりなる。
最終の認識単語決定部27は、ウィンドウ生成部24で生成されたグラフィックユーザーインターフェース用ウィンドウ91に示した代案リスト94に対して、タイムベルト93により表示される待ち時間の間にユーザーの付加作業が行われるかどうかによって最終の認識単語を決定する。すなわち、ウィンドウ91がディスプレイされた後、待ち時間以内にユーザーから別途のキーまたはボタン入力がない場合、現在カーソルが位置している最初の代案単語を最終の認識単語として決定する。一方、待ち時間以内にユーザーから代案選択用キーまたはボタンが入力されれば、後述する図7または図8に図示された過程を通じて最終の認識単語を決定する。
図3は、図2においてエラーパターン管理部25でエラーパターンDB 24をアップデートする過程を説明するフローチャートである。
図3を参照すれば、31段階では最終の認識単語決定部27から提供される最初の代案認識単語と最終の認識単語との組み合わせがエラーパターンDB 26に含まれているかどうかを判断し、最初の代案認識単語と最終の認識単語との組み合わせがエラーパターンDB 26に含まれていない場合に本フローチャートを終了する。
32段階では前記31段階での判断結果、最初の代案認識単語と最終の認識単語との組み合わせがエラーパターンDB 26に含まれている場合、発話特徴差値を算出する。発話特徴差値は、該当エラーパターンに対してエラーパターンDB 26に保存されたユーザー発話特徴1ないしn 43と現在入力された音声の各発話特徴間の差に対して絶対値を取った値を全部加算した値を意味する。
33段階では前記32段階で求められた発話特徴差値とアップデートのための所定の基準値である第1しきい値とを比較し、発話特徴差値が第1しきい値より大きいかまたは同じ場合には本フローチャートを終了する。ここで、第1しきい値は実験的にまたはシミュレーションを通じて最適の値に設定できる。34段階では前記33段階での比較結果、発話特徴差値が第1しきい値より小さな場合、すなわち、エラーが該当エラーパターンのような理由、例えば風邪にひいて、または朝に声がつぶれて、または周囲がうるさくて発生したと判断される場合には、現在音声の発話特徴1ないしnを含んで発話特徴1ないしnの各平均値を算出して発話性向44をアップデートし、35段階ではヒストリーnの値を1増加させてヒストリー45をアップデートする。
図5は、図2においてエラーパターン管理部25で代案羅列順序を変更する過程を説明するフローチャートである。
図5を参照すれば、51段階では音声認識部13を通じてウィンドウ生成部24に提供された後、表1に図示されたような認識結果及びスコアを参照して最初の代案認識単語と2番目の代案認識単語との組み合わせや、最初の代案認識単語と3番目の代案認識単語との組み合わせがエラーパターンDB 26にエラーパターンとして含まれているかどうかを判断し、これら組み合わせがエラーパターンDB 26に含まれていない場合に本フローチャートを終了する。この時、認識結果を3順位まで示す場合を例示する。
Figure 2004213016
52段階では前記51段階での判断結果、これら組み合わせがエラーパターンDB 26に含まれている場合、各組み合わせに対して発話特徴1ないしnの差値を算出する。図3と同様に、発話特徴差値はエラーパターンDB 26に保存された各組み合わせでのユーザー発話特徴1ないしn 43と現在入力された音声の各発話特徴間の差に対して絶対値を取った値を全部加算した値を意味する。
53段階では、前記52段階で算出された発話特徴差値を順序変更のための第2しきい値と比較し、発話特徴差値が第2しきい値より大きいかまたは同じ場合、すなわち、エラーが該当エラーパターンのような理由により発生しなかったと判断される場合、本フローチャートを終了する。ここで、第2しきい値は実験的にまたはシミュレーションを通じて最適の値に設定できる。54段階では前記53段階での比較結果、発話特徴差値が第2しきい値より小さな場合、すなわち、エラーが該当エラーパターンのような理由により発生したと判断される場合、該当代案のスコアを修正する。例えば、エラーパターンDB 26に図4のようなエラーパターンテーブルが保存されており、すなわち、最初の対案認識単語と最終の認識単語として3番目の対案認識単語との組み合わせがエラーパターンに含まれており、加重値を0.4と設定した場合、前記表1の認識結果及びスコアは次の表2のように変更される。ここで、修正されたスコア9.2は元のスコア8に加重値0.4とヒストリー3とを積算した値を加算することによって算出される。
Figure 2004213016
一方、図3ないし図5に適用されたユーザーの発話特徴1ないしn 43を説明すれば、音声認識部13で音声を分析しながら生成される情報すなわち、一部は音声認識の結果判定に使われ、一部は参照資料としてのみ使われる情報を使用するか、別途の方法により測定された次のような情報を使用する。
第1に、該当数の音節を発話するにかかる時間により発話速度を定義し、第2に、ハードウェアに指定されているマイクボリュームに比べて過度に小さいかまたは大きい声のために生じるエラーの原因である声の大きさを定義する。例えば、小さな声の場合には騷音に埋められ、大きい声の場合にはハードウェアが収容できない部分があって信号の歪曲を発生させる。第3に、音声入力がない状況または音節間の空白時に測定される該当状況下での基本騷音の程度として、音声対騷音比率(SNR)を定義する。第4に、風邪、朝に発生する発声機関の異常による音声の一部変移有無が分かる特定状況での声つぶれ状態を定義する。その他に多様な発話特徴が使われる。
図6は、図2において熟練度管理部22で待ち時間を調整する過程を説明するフローチャートである。
図6を参照すれば、61段階では熟練度DB 23に保存された熟練度別選択時間のうち初期値として割当てられた選択時間から現在の最終の認識単語決定にかかる時間を引いた値により選択時間差値を算出する。
62段階では、前記61段階で求められた選択時間差値を待ち時間変更のための所定の基準値である第3しきい値と比較し、選択時間差値が第3しきい値より大きい場合、すなわち与えられた選択時間がユーザーが選択を決定できる時間に比べて十分に長いと判断される場合には選択時間を修正する(63段階)。ここで、第3しきい値は実験的にまたはシミュレーションを通じて最適の値に設定できる。前記63段階で修正された選択時間は、熟練度DB 23に保存されていた選択時間から選択時間差値に所定の加重値を積算した値を減算することにより算出される。例えば、熟練度DB 23に保存されていた選択時間を0.8秒、選択時間差値を0.1秒、加重値を0.1とする場合、修正された選択時間は0.79秒となる。修正された選択時間は熟練度DB 23に保存されて該当ユーザーの選択時間をアップデートする。
64段階では前記62段階での比較結果、選択時間差値が第3しきい値より小さいかまたは同じ場合すなわち、ユーザーの最終選択が選択時間終了以後にシステムのタイムアウトにより定められた場合に選択時間差値を所定の余裕時間と比較し、選択時間差値が余裕時間より大きいかまたは同じ場合に本フローチャートを終了する。
65段階では前記64段階での比較結果、選択時間差値が余裕時間より小さな場合に選択時間を修正する。前記65段階で修正された選択時間は、熟練度DB 23に保存されていた選択時間に所定の付加時間を加算することによって算出される。例えば、熟練度DB 23に保存されていた選択時間を0.8秒、付加時間を0.02秒とする場合、修正された選択時間は0.82秒となる。修正された選択時間は熟練度DB 23に保存されて該当ユーザーの選択時間をアップデートする。付加時間は認識エラーの可能性がある場合に次の使用時の潜在的なエラーを防止するために付加する時間であって、ここでは0.02秒を例とするものである。
66段階では前記63段階または前記65段階で修正された選択時間に所定の余裕時間を加算することによって該当ユーザーの待ち時間を算出して待ち時間設定部21に提供する。余裕時間はユーザーの意図と関係なく選択しないように余裕を有する時間であって、ここでは0.3秒を例とした。
図7は本発明による音声認識方法の第1実施例を説明するフローチャートであって、代案リストディスプレイ段階(71段階)、ユーザー選択変更がない場合に対する処理段階(72、73及び78段階)及びユーザー選択変更がある場合に対する処理段階(74ないし78段階)よりなる。
図7を参照すれば、71段階では音声認識部13の音声認識結果による代案リスト94を含むウィンドウ91をディスプレイする。本発明ではウィンドウ91がディスプレイされる瞬間には代案リスト94でカーソルが常に最初の代案に位置すると設定し、ウィンドウ91がディスプレイされる瞬間からタイムベルト93が進まれる。72段階では、ユーザーからの別途のキーまたはボタン入力なしに待ち時間設定部21で設定された初期待ち時間が経過したかどうかを判断する。
73段階では前記72段階での判断結果、初期待ち時間が経過した場合に現在カーソルが位置した最初の代案単語を最終の認識単語として決定し、認識単語に該当する機能を行う(78段階)。一方、74段階では前記72段階での判断結果、初期待ち時間が経過しない場合にユーザーから別途のキーまたはボタン入力により選択変更が行なわれたかどうかを判断する。
75段階では前記74段階での判断結果、ユーザーの選択変更が行なわれた場合、待ち時間を再調整する。この時、再調整される待ち時間は初期待ち時間と同一であるか、代案羅列順序によって相異なる。一方、前記74段階での判断結果、ユーザー選択変更が行なわれていない場合に76段階に移行する。例えば、図9において‘ダンセイシュウキ(弾性周期)’にユーザーが選択を変更した場合、ウィンドウ91のメッセージ領域92では“ダンセイシュウキを実行中です”というメッセージと共に再調整された待ち時間によるタイムベルト93が作動する。
76段階では、前記75段階で再調整された待ち時間または初期待ち時間が経過したかどうかを判断し、再調整された待ち時間または初期待ち時間が経過していない場合に前記74段階に復帰して再びユーザーの選択変更が行なわれるかどうかを判断する。一方、前記76段階での判断結果、再調整された待ち時間または初期待ち時間が経過した場合、ユーザーの選択変更により現在カーソルが位置した代案単語を最終の認識単語として決定し、認識単語に該当する機能を行う(78段階)。
図8は本発明による音声認識方法の第2実施例を説明するフローチャートであって、代案リストディスプレイ段階(81段階)、ユーザー選択変更がない場合に対する処理段階(82ないし86段階)及びユーザー選択変更がある場合に対する処理段階(84ないし86段階)よりなる。
図8を参照すれば、81段階では音声認識部13の音声認識結果による代案リスト94を含むウィンドウ91をディスプレイする。ウィンドウ91がディスプレイされる瞬間からタイムベルト93が進まれる。82段階ではユーザーからの別途のキーまたはボタン入力なしに待ち時間設定部21で設定された初期待ち時間が経過したかどうかを判断する。
83段階では前記82段階での判断結果、初期待ち時間が経過した場合に現在カーソルが位置した最初の代案単語を最終の認識単語として決定し、認識単語に該当する機能を行う(86段階)。一方、84段階では前記82段階での判断結果、初期待ち時間が経過していない場合、ユーザーから別途のキーまたはボタン入力により選択変更が行なわれたかどうかを判断する。
85段階では前記84段階での判断結果、ユーザーの選択変更が行なわれた場合、ユーザーの選択変更により現在カーソルが位置した代案単語を最終の認識単語として決定し、認識単語に該当する機能を行う(86段階)。一方、前記84段階での判断結果、ユーザー選択変更が行なわれていない場合に82段階に復帰する。
次に、多様な認識環境下で作業成功率及び付加作業回数について、既存の音声認識方法と本発明による音声認識方法とを比較した結果は次の表3に示された通りである。
Figure 2004213016
表3を参照すれば、既存方式1は代案単語を提示しない方式であり、既存方式2は最善の代案に対してユーザーが可否を決定する方式であり、既存方式3は認識結果に対する一連の代案リストのうちユーザーが一つを選択する方式である。表3に示されたデータは、90%認識環境は一般事務室の騷音環境、70%認識環境は車両の高速道路運行の騷音環境をいい、認識対象単語リストが無限大であり、リストに含まれた単語間の類似度が相等しいという仮定下で算出されたものである。表3によれば、本発明による音声認識方法を適用する場合、付加作業が行なわれない場合の初期作業成功率に加えて付加作業を繰り返すほど最終の作業成功率を極大化させることが分かる。
一方、前記一本発明はまた、コンピュータで再生できる記録媒体にコンピュータが再生できるコードとして具現することができる。例えば、音声認識方法はユーザーが発話した音声に対する音声認識結果、所定数の単語を所定の順序によって羅列された代案リストをディスプレイする第1プログラム、及び所定の待ち時間の間に前記ディスプレイされた代案リストに対するユーザーの選択変更があったかどうかを判断し、前記所定の待ち時間の間にユーザーの選択変更がない場合、前記代案リストのうち現在カーソルが位置している代案単語を最終の認識単語として決定し、前記所定の待ち時間の間にユーザーの選択変更がある場合に前記待ち時間を再調整した後、再調整された待ち時間の間に再度ユーザーの選択変更があるかどうかを判断して、ユーザーの選択変更がない場合にユーザーが選択した代案単語を最終の認識単語として決定する第2プログラムを記録したコンピュータが再生できる記録媒体により具現可能である。ここで、第2プログラムは所定の待ち時間の間に前記ディスプレイされた代案リストに対するユーザーの選択変更があったかどうかを判断して、前記所定の待ち時間の間にユーザーの選択変更がない場合、前記代案リストのうち現在カーソルが位置している代案単語を最終の認識単語として決定し、前記所定の待ち時間の間にユーザーの選択変更がある場合、ユーザーが選択した代案単語を最終の認識単語として決定する機能を具備するものに代えられる。
コンピュータが再生できる記録媒体はコンピュータシステムによって再生できるデータが保存されるあらゆる記録装置を含む。コンピュータが再生できる記録媒体の例としてはROM、RAM、CD−ROM、磁気テープ、フロッピーディスク、光データ保存装置などがあり、またキャリヤウェーブ(例えば、インターネットを通した伝送)の形で具現されることも含む。また、コンピュータが再生できる記録媒体はネットワークに連結されたコンピュータシステムに分散され、分散方式でコンピュータが再生できるコードが保存されて実行される。そして、本発明を具現するための機能的なプログラム、コード及びコードセグメントは本発明が属する技術分野のプログラマーにより容易に推論される。
以上、図面及び明細書で最適の実施例が開示された。ここで特定の用語が使われたが、これは単に本発明を説明するための目的で使われたものであって意味限定や特許請求の範囲に記載された本発明の範囲を制限するために使われたものではない。したがって、当業者ならばこれより多様な変形及び均等な他の実施例が可能であるという点が理解できる。したがって、本発明の真の技術的保護範囲は特許請求の範囲の技術的思想により定められねばならない。
また、本発明による音声認識方法及び装置はパソコン、携帯電話やPDA(Personal Digital Assistant)のような個人用移動通信機器などの多様なフラットフォームに適用されて、音声認識による作業成功率を向上させうる。
本発明の一実施例による音声認識装置の構成を示したブロック図である。 図1において後処理部の細部的な構成を示したブロック図である。 図2においてエラーパターン管理部でエラーパターンDBをアップデートする過程を説明するフローチャートである。 図2においてエラーパターンDBの一例を示したテーブルである。 図2においてエラーパターン管理部で代案羅列順序を変更する過程を説明するフローチャートである。 図2において熟練度管理部で待ち時間を調整する過程を説明するフローチャートである。 本発明による音声認識方法の第1実施例を説明するフローチャートである。 本発明による音声認識方法の第2実施例を説明するフローチャートである。 本発明によって生成されるグラフィックユーザーインターフェースの一例を示した図面である。
符号の説明
11 音声入力部
13 音声認識部
15 後処理部

Claims (25)

  1. (a)ユーザーが発話した音声を入力する段階と、
    (b)前記入力される音声を認識して類似度順序によって所定数の認識単語を生成する段階と、
    (c)前記所定数の認識単語が所定の順序によって羅列された代案リストに対して所定の待ち時間の間にユーザーの選択変更がない場合、現在カーソルが位置する代案単語を最終の認識単語として決定する段階と、を含むことを特徴とする音声認識方法。
  2. 前記方法は、
    (d)前記所定の待ち時間の間にユーザーの選択変更がある場合、前記待ち時間を再調整する段階をさらに含むことを特徴とする請求項1に記載の音声認識方法。
  3. 前記方法は、
    (d)前記所定の待ち時間の間にユーザーの選択変更がある場合、ユーザーが選択した代案単語を最終の認識単語として決定する段階をさらに含むことを特徴とする請求項1に記載の音声認識方法。
  4. 前記(c)段階は、
    (c1)前記音声認識結果による最初の代案認識単語と最終の認識単語との組み合わせを利用してエラーパターンをアップデートする段階と、
    (c2)前記エラーパターンを利用して前記代案リストの羅列順序を再調整する段階と、をさらに含むことを特徴とする請求項1に記載の音声認識方法。
  5. 前記(c1)段階は、
    (c11)前記音声認識結果による最初の代案認識単語と最終の認識単語との組み合わせが所定のエラーパターンデータベースに含まれている場合、少なくとも一つの発話特徴差値を算出する段階と、
    (c12)前記(c11)段階で得られた発話特徴差値と所定の第1しきい値とを比較する段階と、
    (c13)前記(c12)段階での比較結果、前記発話特徴差値が第1しきい値より小さな場合、現在入力された音声の発話特徴を含んで各発話特徴の平均値を算出して発話性向をアップデートし、該当パターンのヒストリーの値を1増加させてヒストリーをアップデートする段階と、を含むことを特徴とする請求項4に記載の音声認識方法。
  6. 前記(c2)段階は、
    (c21)前記音声認識結果による最初の代案単語と第2の代案単語との組み合わせと、最初の代案単語と第3の代案単語との組み合わせのうち少なくとも一つが所定のエラーパターンデータベースに含まれている場合、各組み合わせに対して少なくとも一つの発話特徴差値を算出する段階と、
    (c22)前記(c21)段階で得られた各組合わせの発話特徴差値を所定の第2しきい値と比較する段階と、
    (c23)前記(c22)段階での比較結果、各組み合わせの前記発話特徴差値が第2しきい値より小さな場合、該当組み合わせに含まれた代案単語のスコアを修正する段階と、を含むことを特徴とする請求項4に記載の音声認識方法。
  7. 前記修正されたスコアは、元のスコアに所定の加重値と該当パターンのヒストリーとを積算した値を加算することによって算出されることを特徴とする請求項6に記載の音声認識方法。
  8. 前記方法は(d)ユーザーの熟練度によって待ち時間を調整する段階をさらに含むことを特徴とする請求項1に記載の音声認識方法。
  9. 前記(d)段階は、
    (d1)所定の熟練度データベースに保存された所定選択時間から現在の最終の認識単語決定にかかった時間を減算した値により選択時間差値を算出する段階と、
    (d2)前記(d1)段階で得られた選択時間差値を所定の第3しきい値と比較する段階と、
    (d3)前記(d2)段階での比較結果、選択時間差値が第3しきい値より大きい場合に選択時間を修正する段階と、
    (d4)前記(d2)段階での比較結果、選択時間差値が第3しきい値より小さいか同じ場合に選択時間差値を所定の余裕時間と比較する段階と、
    (d5)前記(d4)段階での比較結果、選択時間差値が余裕時間より小さな場合に選択時間を修正する段階と、
    (d6)前記(d3)段階または前記(d5)段階で修正された選択時間に所定の余裕時間を加算することによって該当ユーザーの待ち時間を算出する段階と、を含む請求項8に記載の音声認識方法。
  10. 前記(d3)段階では前記熟練度データベースに保存されていた選択時間から選択時間差値に所定の加重値を積算した値を減算することにより修正された選択時間を算出することを特徴とする請求項9に記載の音声認識方法。
  11. 前記(d5)段階では前記熟練度データベースに保存されていた選択時間に所定の付加時間を加算することによって修正された選択時間を算出することを特徴とする請求項9に記載の音声認識方法。
  12. 前記待ち時間は前記代案リストに羅列されたあらゆる代案単語に対して同じ値で付与される請求項1に記載の音声認識方法。
  13. 前記待ち時間は前記代案リストに羅列された代案単語の順序によって異なる値で付与される請求項1に記載の音声認識方法。
  14. ユーザーが発話した音声に対する音声認識結果、所定数の単語が所定の順序によって羅列された代案リストをディスプレイする第1プログラムと、
    所定の待ち時間の間に前記ディスプレイされた代案リストに対するユーザーの選択変更があったかどうかを判断し、前記所定の待ち時間の間にユーザーの選択変更がない場合、前記代案リストのうち現在カーソルが位置している代案単語を最終の認識単語として決定する第2プログラムを記録したコンピュータが再生できる記録媒体。
  15. 前記第2プログラムは、前記所定の待ち時間の間にユーザーの選択変更がある場合、前記待ち時間を再調整した後、再調整された待ち時間の間に再びユーザーの選択変更があるかどうかを判断してユーザーの選択変更がない場合にユーザーが選択した代案単語を最終の認識単語として決定する機能をさらに具備する請求項14に記載のコンピュータが再生できる記録媒体。
  16. 前記第2プログラムは、前記所定の待ち時間の間にユーザーの選択変更がある場合、ユーザーが選択した代案単語を最終の認識単語として決定する機能をさらに具備する請求項14に記載のコンピュータが再生できる記録媒体。
  17. ユーザーが発話した音声を入力する音声入力部と、
    前記入力される音声を認識して類似度順序によって所定数の認識単語を生成する音声認識部と、
    前記所定数の認識単語が所定の順序によって羅列された代案リストに対して所定の待ち時間の間にユーザーの選択変更がない場合、現在カーソルが位置している代案単語を最終の認識単語として決定する後処理部と、を含むことを特徴とする音声認識装置。
  18. 前記後処理部は、
    前記音声認識部で生成された所定数の認識単語が所定の順序によって羅列された代案リストが含まれたグラフィックユーザーインターフェース用ウィンドウを生成するウィンドウ生成部と、
    前記グラフィックユーザーインターフェース用ウィンドウがディスプレイされた後、現在カーソルが移動している代案単語を最終の認識単語として決定するまでの待ち時間を設定する待ち時間設定部と、
    所定の待ち時間の間に前記ディスプレイされた代案リストに対するユーザーの選択変更がない場合、前記代案リストのうち現在カーソルが位置している最初の代案単語を最終の認識単語として決定し、前記所定の待ち時間の間にユーザーの選択変更がある場合、前記待ち時間を再調整し、再調整された待ち時間の間に再度ユーザーの選択変更がない場合にユーザーが選択した代案単語を最終の認識単語として決定する最終の認識単語決定部と、を具備する請求項17に記載の音声認識装置。
  19. 前記後処理部は、
    前記音声認識部で生成された所定数の認識単語が所定の順序によって羅列された代案リストが含まれたグラフィックユーザーインターフェース用ウィンドウを生成するウィンドウ生成部と、
    前記グラフィックユーザーインターフェース用ウィンドウがディスプレイされた後、現在カーソルが移動している代案単語を最終の認識単語として決定するまでの待ち時間を設定する待ち時間設定部と、
    所定の待ち時間の間に前記ディスプレイされた代案リストに対するユーザーの選択変更がない場合、前記代案リストのうち現在カーソルが位置している最初の代案単語を最終の認識単語として決定し、前記所定の待ち時間の間にユーザーの選択変更がある場合、ユーザーが選択した代案単語を最終の認識単語として決定する最終の認識単語決定部と、を具備することを特徴とする請求項17に記載の音声認識装置。
  20. 前記後処理部は、
    前記音声認識部で最初の代案として採択された認識単語、前記最終の認識単語決定部から提供される最終の認識単語、少なくとも一つ以上のユーザー発話特徴、発話性向、及びヒストリーをデータベース化したエラーパターンデータベースと、
    前記音声認識部から提供される音声認識結果及びスコアを入力とし、前記エラーパターンデータベースを参照して前記エラーパターンに該当する認識単語のスコアを調整し、前記代案リストの羅列順序を変更して前記ウィンドウ生成部に提供するエラーパターン管理部と、をさらに含むことを特徴とする請求項18に記載の音声認識装置。
  21. 前記後処理部は、
    熟練度により相異なる選択時間を対応させてデータベース化した熟練度データベースと、
    前記熟練度データベースに保存された熟練度による選択時間に所定の余裕時間を付加した値を待ち時間として再調整して前記待ち時間設定部に供給する熟練度管理部と、をさらに含むことを特徴とする請求項18に記載の音声認識装置。
  22. 前記後処理部は、
    熟練度によって相異なる選択時間を対応させてデータベース化した熟練度データベースと、
    前記熟練度データベースに保存された熟練度による選択時間に所定の余裕時間を付加した値を待ち時間として再調整して前記待ち時間設定部に供給する熟練度管理部と、をさらに含むことを特徴とする請求項20に記載の音声認識装置。
  23. 前記待ち時間はユーザーの熟練度によって決定されることを特徴とする請求項18に記載の音声認識装置。
  24. 前記再調整された待ち時間は前記代案リストに羅列されたあらゆる代案に対して同じ値で付与されることを特徴とする請求項18に記載の音声認識装置。
  25. 前記再調整された待ち時間は前記代案リストに羅列された代案の順序によって異なる値で付与されることを特徴とする請求項18に記載の音声認識装置。
JP2004000411A 2002-12-31 2004-01-05 音声認識方法及び装置 Expired - Fee Related JP4643911B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020087943A KR100668297B1 (ko) 2002-12-31 2002-12-31 음성인식방법 및 장치

Publications (2)

Publication Number Publication Date
JP2004213016A true JP2004213016A (ja) 2004-07-29
JP4643911B2 JP4643911B2 (ja) 2011-03-02

Family

ID=32501464

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004000411A Expired - Fee Related JP4643911B2 (ja) 2002-12-31 2004-01-05 音声認識方法及び装置

Country Status (5)

Country Link
US (1) US7680658B2 (ja)
EP (1) EP1435605B1 (ja)
JP (1) JP4643911B2 (ja)
KR (1) KR100668297B1 (ja)
DE (1) DE60309822T2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006068123A1 (ja) * 2004-12-21 2006-06-29 Matsushita Electric Industrial Co., Ltd. 音声による選択装置、及び選択方法
JP2009514020A (ja) * 2005-10-28 2009-04-02 マイクロソフト コーポレーション モバイルデバイスにおける音声および代替入力手法の組み合わせ
JP2011232668A (ja) * 2010-04-30 2011-11-17 Clarion Co Ltd 音声認識機能を備えたナビゲーション装置およびその検出結果提示方法
US9304737B2 (en) 2013-01-23 2016-04-05 Lg Electronics Inc. Electronic device and method of controlling the same
KR102309505B1 (ko) * 2021-02-10 2021-10-06 김재성 음성인식 및 인공지능의 학습을 이용한 개인별 맞춤형 보완대체 의사소통 장치 및 그 방법

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7346509B2 (en) * 2002-09-27 2008-03-18 Callminer, Inc. Software for statistical analysis of speech
WO2006016308A1 (en) * 2004-08-06 2006-02-16 Philips Intellectual Property & Standards Gmbh A method for a system of performing a dialogue communication with a user
US8725505B2 (en) * 2004-10-22 2014-05-13 Microsoft Corporation Verb error recovery in speech recognition
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
US7580377B2 (en) * 2006-02-16 2009-08-25 Honeywell International Inc. Systems and method of datalink auditory communications for air traffic control
JP2007286356A (ja) * 2006-04-17 2007-11-01 Funai Electric Co Ltd 電子機器
JP2007293595A (ja) * 2006-04-25 2007-11-08 Canon Inc 情報処理装置及び情報処理方法
US20080091426A1 (en) * 2006-10-12 2008-04-17 Rod Rempel Adaptive context for automatic speech recognition systems
US8355913B2 (en) * 2006-11-03 2013-01-15 Nokia Corporation Speech recognition with adjustable timeout period
US20080114597A1 (en) * 2006-11-14 2008-05-15 Evgeny Karpov Method and apparatus
KR101422020B1 (ko) * 2007-11-27 2014-07-23 엘지전자 주식회사 음성 인식 방법 및 장치
US8468019B2 (en) * 2008-01-31 2013-06-18 Qnx Software Systems Limited Adaptive noise modeling speech recognition system
DE102008021954A1 (de) * 2008-02-29 2009-09-03 Navigon Ag Verfahren zum Betrieb eines elektronischen Assistenzsystems
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
DE102009025530B4 (de) 2009-06-19 2019-05-23 Volkswagen Ag Verfahren zur Bedienung eines Fahrzeugs mittels eines automatisierten Sprachdialogs sowie entsprechend ausgestaltetes Sprachdialogsystem und Fahrzeug
KR20110010939A (ko) * 2009-07-27 2011-02-08 삼성전자주식회사 휴대용 단말기에서 음성 인식 성능을 향상시키기 위한 장치 및 방법
DE102009058151B4 (de) 2009-12-12 2020-08-20 Volkswagen Ag Verfahren zum Betreiben eines Sprachdialogsystems mit semantischer Bewertung und Sprachdialogsystem dazu
US8494852B2 (en) * 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
KR101897492B1 (ko) * 2011-06-07 2018-09-13 삼성전자주식회사 디스플레이 장치 및 이의 하이퍼링크 실행 방법 및 음성 인식 방법
DE102011106271B4 (de) * 2011-07-01 2013-05-08 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Bereitstellen einer Sprachschnittstelle, insbesondere in einem Fahrzeug
US8825493B2 (en) * 2011-07-18 2014-09-02 At&T Intellectual Property I, L.P. Method and apparatus for social network communication over a media network
CN102323858B (zh) * 2011-08-29 2016-04-13 上海量明科技发展有限公司 识别输入时修改项的输入方法、终端及系统
US20130132079A1 (en) * 2011-11-17 2013-05-23 Microsoft Corporation Interactive speech recognition
KR101732137B1 (ko) * 2013-01-07 2017-05-02 삼성전자주식회사 원격 제어 장치 및 전력 제어 방법
US10055681B2 (en) * 2013-10-31 2018-08-21 Verint Americas Inc. Mapping actions and objects to tasks
US9413891B2 (en) 2014-01-08 2016-08-09 Callminer, Inc. Real-time conversational analytics facility
KR102117082B1 (ko) 2014-12-29 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR102396983B1 (ko) 2015-01-02 2022-05-12 삼성전자주식회사 문법 교정 방법 및 장치
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
JP2018116206A (ja) * 2017-01-20 2018-07-26 アルパイン株式会社 音声認識装置、音声認識方法及び音声認識システム
KR102391298B1 (ko) * 2017-04-24 2022-04-28 삼성전자주식회사 음성 인식 서비스를 제공하는 전자 장치 및 그 방법
KR102406718B1 (ko) 2017-07-19 2022-06-10 삼성전자주식회사 컨텍스트 정보에 기반하여 음성 입력을 수신하는 지속 기간을 결정하는 전자 장치 및 시스템
KR102412469B1 (ko) 2017-08-01 2022-06-23 삼성디스플레이 주식회사 색변환 표시판 및 이를 포함하는 표시 장치
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
KR102550932B1 (ko) 2017-12-29 2023-07-04 삼성전자주식회사 음성 인식 모델의 개인화 방법 및 장치
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) * 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
CN110347996B (zh) * 2019-07-15 2023-06-20 北京百度网讯科技有限公司 文字的修改方法、装置、电子设备及存储介质
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN111028830B (zh) * 2019-12-26 2022-07-15 大众问问(北京)信息科技有限公司 一种本地热词库更新方法、装置及设备
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
JPH0950291A (ja) * 1995-08-04 1997-02-18 Sony Corp 音声認識装置及びナビゲーシヨン装置
JPH1091309A (ja) * 1996-09-12 1998-04-10 Toshiba Corp 情報入出力装置及び情報入出力方法
JP2000348141A (ja) * 1999-06-08 2000-12-15 Toshiba Corp 入力情報の予測方法と装置、ならびにプログラム記憶媒体
WO2001075555A2 (en) * 2000-03-06 2001-10-11 Conita Technologies, Inc. Personal virtual assistant

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US486678A (en) * 1892-11-22 Child s carriage
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5329609A (en) * 1990-07-31 1994-07-12 Fujitsu Limited Recognition apparatus with function of displaying plural recognition candidates
JPH0535293A (ja) * 1991-08-01 1993-02-12 Fujitsu Ltd 音声認識装置における認識候補数設定方式
GB2292500A (en) * 1994-08-19 1996-02-21 Ibm Voice response system
US5754176A (en) * 1995-10-02 1998-05-19 Ast Research, Inc. Pop-up help system for a computer graphical user interface
US5884258A (en) * 1996-10-31 1999-03-16 Microsoft Corporation Method and system for editing phrases during continuous speech recognition
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
US5909667A (en) * 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text
US6233560B1 (en) 1998-12-16 2001-05-15 International Business Machines Corporation Method and apparatus for presenting proximal feedback in voice command systems
US6314397B1 (en) * 1999-04-13 2001-11-06 International Business Machines Corp. Method and apparatus for propagating corrections in speech recognition software
US6347296B1 (en) * 1999-06-23 2002-02-12 International Business Machines Corp. Correcting speech recognition without first presenting alternatives
KR100330504B1 (ko) 2000-04-29 2002-04-03 정명식 위치 지시자 자동 이동 제어 방법
DE60202453T2 (de) * 2001-03-29 2006-01-19 Koninklijke Philips Electronics N.V. Synchronisierung eines audio- und eines text-cursors während der editierung
US6839667B2 (en) * 2001-05-16 2005-01-04 International Business Machines Corporation Method of speech recognition by presenting N-best word candidates
US20030191629A1 (en) * 2002-02-04 2003-10-09 Shinichi Yoshizawa Interface apparatus and task control method for assisting in the operation of a device using recognition technology

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
JPH0950291A (ja) * 1995-08-04 1997-02-18 Sony Corp 音声認識装置及びナビゲーシヨン装置
JPH1091309A (ja) * 1996-09-12 1998-04-10 Toshiba Corp 情報入出力装置及び情報入出力方法
JP2000348141A (ja) * 1999-06-08 2000-12-15 Toshiba Corp 入力情報の予測方法と装置、ならびにプログラム記憶媒体
WO2001075555A2 (en) * 2000-03-06 2001-10-11 Conita Technologies, Inc. Personal virtual assistant

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006068123A1 (ja) * 2004-12-21 2006-06-29 Matsushita Electric Industrial Co., Ltd. 音声による選択装置、及び選択方法
US7698134B2 (en) 2004-12-21 2010-04-13 Panasonic Corporation Device in which selection is activated by voice and method in which selection is activated by voice
JP2009514020A (ja) * 2005-10-28 2009-04-02 マイクロソフト コーポレーション モバイルデバイスにおける音声および代替入力手法の組み合わせ
JP2011232668A (ja) * 2010-04-30 2011-11-17 Clarion Co Ltd 音声認識機能を備えたナビゲーション装置およびその検出結果提示方法
US9304737B2 (en) 2013-01-23 2016-04-05 Lg Electronics Inc. Electronic device and method of controlling the same
KR102309505B1 (ko) * 2021-02-10 2021-10-06 김재성 음성인식 및 인공지능의 학습을 이용한 개인별 맞춤형 보완대체 의사소통 장치 및 그 방법

Also Published As

Publication number Publication date
KR100668297B1 (ko) 2007-01-12
JP4643911B2 (ja) 2011-03-02
US7680658B2 (en) 2010-03-16
EP1435605B1 (en) 2006-11-22
KR20040061659A (ko) 2004-07-07
DE60309822T2 (de) 2007-10-11
US20040153321A1 (en) 2004-08-05
EP1435605A2 (en) 2004-07-07
DE60309822D1 (de) 2007-01-04
EP1435605A3 (en) 2005-05-04

Similar Documents

Publication Publication Date Title
JP4643911B2 (ja) 音声認識方法及び装置
US7386454B2 (en) Natural error handling in speech recognition
CN1280782C (zh) 给用户提供声音反馈的可扩展语音识别系统
JP3282075B2 (ja) 連続音声認識において句読点を自動的に生成する装置および方法
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US7716049B2 (en) Method, apparatus and computer program product for providing adaptive language model scaling
EP0965978A1 (en) Non-interactive enrollment in speech recognition
US6988069B2 (en) Reduced unit database generation based on cost information
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
US6931374B2 (en) Method of speech recognition using variational inference with switching state space models
KR20050076697A (ko) 컴퓨터 구현 음성 인식 시스템 및 이 시스템으로 학습하는방법
JP4354299B2 (ja) 事例検索プログラム、事例検索方法及び事例検索装置
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
KR20060109865A (ko) 음성인식방법 및 장치
Lee et al. Voice access of global information for broad-band wireless: technologies of today and challenges of tomorrow
CA2597826C (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
US20220399030A1 (en) Systems and Methods for Voice Based Audio and Text Alignment
EP3910626A1 (en) Presentation control
Furui Toward robust speech recognition and understanding
JP2000010588A (ja) 音声認識方法及び装置
EP1594120A1 (en) Method for building hidden Markov speech models
JP2001296884A (ja) 音声認識装置および方法
Satink The adaptive presentation assistant using grammar-based recognition to support the process of presenting
EP1581927A2 (en) Voice recognition system and method

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061107

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20061113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101109

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101203

R150 Certificate of patent or registration of utility model

Ref document number: 4643911

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131210

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees