JP2006251800A - ユーザ適応型の音声認識方法及び音声認識装置 - Google Patents

ユーザ適応型の音声認識方法及び音声認識装置 Download PDF

Info

Publication number
JP2006251800A
JP2006251800A JP2006060671A JP2006060671A JP2006251800A JP 2006251800 A JP2006251800 A JP 2006251800A JP 2006060671 A JP2006060671 A JP 2006060671A JP 2006060671 A JP2006060671 A JP 2006060671A JP 2006251800 A JP2006251800 A JP 2006251800A
Authority
JP
Japan
Prior art keywords
reliability
recognition
user
group
equal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006060671A
Other languages
English (en)
Other versions
JP4709663B2 (ja
Inventor
Jung-Eun Kim
貞 恩 金
Jeong-Su Kim
金 正 壽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2006251800A publication Critical patent/JP2006251800A/ja
Application granted granted Critical
Publication of JP4709663B2 publication Critical patent/JP4709663B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Machine Translation (AREA)

Abstract

【課題】ユーザ適応型の音声認識方法及び音声認識装置を提供する。
【解決手段】ユーザから入力された音声の認識結果による認識候補の信頼度を計算する信頼度計算部130と、前記認識候補についてユーザに確認した結果と前記計算した認識候補の信頼度とを利用して、ユーザに適応した新たな閾値を設定する閾値設定部140と、前記計算した認識候補の信頼度が前記設定した新たな閾値以上であれば、前記認識候補を音声認識結果として出力する制御部150と、を含むユーザ適応型の音声認識装置。これにより、音声認識結果に対するユーザの確認過程を減らしつつ音声認識の成功率を高めることができる。
【選択図】図1

Description

本発明は、音声認識方法及び音声認識装置に係り、より詳細には、ユーザに適応した新たな閾値を使用して認識候補に対するユーザの確認応答を行うか否かを制御するユーザ適応型の音声認識方法及び音声認識装置に関する。
音声認識とは、与えられた音声信号から特徴を抽出し、抽出された特徴にパターン認識アルゴリズムを適用した後、発話者がいかなる音素列又は単語列を発話して発生した音声信号であるかを推定する一連の過程と定義できる。
このような音声認識技術が適用された機器(例えば、携帯電話、PDA、カーナビゲーションシステム、その他の家電機器など)に対しては、ユーザの発話を通じて制御命令を入力することができる。
例えば、音声認識機能を持つカーナビゲーションシステムを使用する場合、ユーザは宛先を検索するために数回のボタン入力作業を行う代わりに宛先の地名を発話することによって簡便に宛先についての情報を得ることができる。
しかし、ユーザの多様な発音特性などの理由で、音声認識装置の音声認識率には限界がある。このため、従来の音声認識技術として、ユーザから入力された音声に対する認識を行って音声認識結果として出力される可能性を持つ認識候補をユーザに提供して、ユーザに認識の成否を確認させるものがある。
例えば、音声認識技術が適用された音声認識装置が、ユーザから入力された音声を‘ソウル駅’と認識したならば、音声認識装置は、ユーザに‘ソウル駅が正しいですか?’という質問をする。ユーザは、音声認識装置の質問に肯定又は否定の応答を入力することによって、自分が発話した音声が正しく認識されたか否かを音声認識装置に確認させる。
ユーザから肯定応答が入力されれば、音声認識装置は音声認識が成功したと判断し、該当認識候補を音声認識結果としてアプリケーションに伝達する。
しかし、このような従来技術は、音声認識結果ごとにユーザの確認作業を要請するために、ユーザに不便さを招く。
一方、特許文献1は、認識候補に対する信頼度を計算して信頼度が閾値以上である場合、ユーザの確認過程を経ずに該当認識候補を音声認識結果としてアプリケーションに出力する技術について開示している。
しかし、特許文献1によっても、ユーザごとに発音特性に差があるので、あらゆるユーザに均一な閾値を適用すれば、ユーザによって発話回数の減少効果が発生しない場合がある。このような場合には、ユーザが大部分の認識候補に対して確認作業を行わねばならないという不便さが依然として残る。
したがって、ユーザの発話回数を減らしつつ音声認識の成功率を高めることができる技術が要求される。
米国特許第6567778号明細書
したがって、本発明の目的は、ユーザに適応した新たな閾値を設定することによって、音声認識結果に対するユーザの確認作業を減らしつつ音声認識の成功率を高めることである。
なお、本発明の目的は、前記の目的に制限されず、ここで言及されていない他の目的は後記する実施の形態の記載から当業者が明確に理解することができる。
前記目的を達成するために、本発明の実施形態によるユーザ適応型音声認識方法は、ユーザから入力された音声の認識結果による認識候補の信頼度を計算するステップと、前記認識候補についてユーザに確認した結果と前記計算した認識候補の信頼度とを利用して、ユーザに適応した新たな閾値を設定するステップと、前記計算した認識候補の信頼度が前記設定した新たな閾値以上であれば、前記認識候補を音声認識結果として出力するステップと、を含んで構成される。
前記新たな閾値を設定するステップは、前記認識候補についてユーザに確認した結果、ユーザが正解であると応答した認識候補を第1グループに分類し、ユーザが不正解であると応答した認識候補を第2グループに分類するステップと、前記第1グループに分類された認識候補の信頼度が分布する第1信頼度区間と、前記第2グループに分類された認識候補の信頼度が分布する第2信頼度区間とが重畳しない場合、前記第2グループに分類された認識候補の信頼度のうち最も高い信頼度以上であり、前記第1グループに分類された認識候補の信頼度のうち最も低い信頼度以下である範囲内の値を持つように前記新たな閾値を計算するステップと、を含むことが好ましい。
前記新たな閾値は、前記第1グループに分類された認識候補の信頼度のうち最も低い信頼度と、前記第2グループに分類された認識候補の信頼度のうち最も高い信頼度との平均値であることが好ましい。
前記第1信頼度区間と前記第2信頼度区間とが重畳する場合、前記第1グループに分類された認識候補の信頼度のうち最も低い信頼度以上であり、前記第2グループに分類された認識候補の信頼度のうち最も高い信頼度以下である範囲内の値を持つように、前記新たな閾値を計算するステップをさらに含むことが好ましい。
前記新たな閾値は、所定の信頼度範囲以内に含まれ、前記信頼度範囲は、前記第1グループに分類された認識候補のうち前記信頼度範囲の下限値未満の信頼度を持つ認識候補の数と、前記第2グループに分類された認識候補のうち前記信頼度範囲の上限値以上の信頼度を持つ認識候補の数との割合を所定の割合に最も近い割合にする範囲であることが好ましい。
前記新たな閾値は、前記信頼度範囲の上限値以上の信頼度を持つ認識候補の信頼度のうち最も低い信頼度と、前記信頼度範囲の下限値以下の信頼度を持つ認識候補の信頼度のうち最も高い信頼度との平均値であることが好ましい。
前記新たな閾値を設定するステップは、前記ユーザから入力された音声の入力回数が所定の閾値回数以上である場合に行われることが好ましい。
前記目的を達成するために、本発明の実施形態によるユーザ適応型音声認識装置は、ユーザから入力された音声の認識結果による認識候補の信頼度を計算する信頼度計算部と、前記認識候補についてユーザに確認した結果と前記計算した認識候補の信頼度とを利用して、ユーザに適応した新たな閾値を設定する閾値設定部と、前記計算した認識候補の信頼度が前記設定した新たな閾値以上であれば、前記認識候補を音声認識結果として出力する制御部と、を含んで構成される。
前記閾値設定部は、前記認識候補についてユーザに確認した結果、ユーザが正解であると応答した認識候補を第1グループに分類し、ユーザが不正解であると応答した認識候補を第2グループに分類する分類部と、前記第1グループに分類された認識候補の信頼度が分布する第1信頼度区間と、前記第2グループに分類された認識候補の信頼度が分布する第2信頼度区間とが重畳しない場合、前記第2グループに分類された認識候補の信頼度のうち最も高い信頼度以上であり、前記第1グループに分類された認識候補の信頼度のうち最も低い信頼度以下である範囲内の値を持つように前記新たな閾値を計算する閾値計算部と、を含むことが好ましい。
前記新たな閾値は、前記第1グループに分類された認識候補の信頼度のうち最も低い信頼度と、前記第2グループに分類された認識候補の信頼度のうち最も高い信頼度との平均値であることが好ましい。
前記閾値計算部は、前記第1信頼度区間と前記第2信頼度区間とが重畳する場合、前記第1グループに分類された認識候補の信頼度のうち最も低い信頼度以上であり、前記第2グループに分類された認識候補の信頼度のうち最も高い信頼度以下である範囲内の値を持つように、前記新たな閾値を計算するステップをさらに含むことが好ましい。
前記新たな閾値は、所定の信頼度範囲以内に含まれ、前記信頼度範囲は、前記第1グループに分類された認識候補のうち前記信頼度範囲の下限値未満の信頼度を持つ認識候補の数と、前記第2グループに分類された認識候補のうち前記信頼度範囲の上限値以上の信頼度を持つ認識候補の数との割合を所定の割合に最も近い割合にする範囲であることが好ましい。
前記新たな閾値は、前記信頼度範囲の上限値以上の信頼度を持つ認識候補の信頼度のうち最も低い信頼度と、前記信頼度範囲の下限値以下の信頼度を持つ認識候補の信頼度のうち最も高い信頼度との平均値であることが好ましい。
前記閾値設定部は、前記ユーザから入力された音声の入力回数が所定の閾値回数以上である場合に前記新たな閾値を設定することが好ましい。
その他の実施の形態の具体的な事項は、発明を実施するための最良の形態の説明及び添付した図面に含まれている。
本発明に係るユーザ適応型の音声認識方法及び音声認識装置によれば、音声認識結果に対するユーザの確認過程を減らしつつ音声認識の成功率を高めることができる。
本発明の効果及び特徴、そしてこれを達成する方法は添付した図面に基づいて詳細に後記する実施形態を参照すれば明確になる。しかし、本発明は以下で開示する実施形態に限定されるものではなく、この実施形態から外れて多様な形で具現できる。また、本明細書で説明する実施形態は本発明の開示を完全にし、本発明が属する技術分野で当業者が本発明の範囲を完全に理解するために提供されるものであり、本発明は特許請求の範囲及び発明の詳細な説明によってのみ定義される。なお、明細書全体に亘って同一の参照符号は同一の構成要素を示す。
以下、添付した図面を参照して本発明の望ましい実施形態を詳細に説明する。
図1は、本発明の一実施形態によるユーザ適応型の音声認識装置を示すブロック図である。
図1に示した音声認識装置は、特徴抽出部110、認識部120、信頼度計算部130、閾値設定部140及び制御部150を備える。また、図1に示した音声認識装置は、ディスプレイ部160、音声合成部170及びスピーカ部180をさらに備える。
特徴抽出部110は、ユーザから入力される音声信号の特徴を抽出する。特徴抽出とは、音声認識に有効な成分を音声信号から取り出すことをいい、一般的に情報の圧縮、次元減少過程と関連する。音声認識のためにLPC(Linear Predictive Coding)ケプストラム(cepstrum)、PLP(Perceptual Linear Prediction)ケプストラム、MFCC(Mel Frequency Cepstral Coefficient)、差分ケプストラム、フィルタバンクエネルギー、差分エネルギーなどの特徴を用いることができる。
認識部120は、ユーザから入力された音声に対して音声認識作業を行い、それにより、音声認識結果として出力される可能性を持つ認識候補を出力する。例えば、認識部120は、所定の音響モデルを参照して、特徴抽出部110により抽出された音声信号の特徴によって認識可能な単語を検索し、検索された単語を認識候補として出力することができる。
音声認識のための音響モデルの単位には、音素(phoneme)、ダイホン(diphone)、トライホン(triphone)、キンホン(quinphone)、音節(syllable)、単語(word)などがある。一例として、音響モデルは、文字と音素の単位及び各音素の単位の特徴についての情報でもよい。本発明で音響モデルは、隠れマルコフモデル(Hidden Markov Model;以下、HMM)を基盤とすることが望ましい。
また、認識部120は、入力された音声を認識するために発音モデル及び言語モデルをさらに参照することができる。
発音モデルは、標準発音と定義される代表発音を使用して一単語当り一つの発音を割り当てる単純発音モデルや、許容発音、なまり、及びアクセントを考慮できる多重発音モデルや、各発音の確率を考慮する統計的発音モデルや、音素基盤の辞書式(Lexical)発音モデルなどを用いることができる。
言語モデルは、連続音声認識のために使用される文法を意味する。言語モデルを定義できる文法の例として、FSN(Finite State Network)、CFG(Context−Free Grammar)のような形式言語のための文法や、n−gramのような統計的な文法を挙げられる。このうちn−gramは、直前のn−1個の単語から次に現れる単語の確率を定義する文法であり、その種類には、バイグラム、トライグラム、4−グラムなどがある。
したがって、認識部120は、実施形態によって、個々の単語だけでなくユーザから入力された音声を通じて構成される文章に対する認識候補を出力することもある。
信頼度計算部130は、認識部120により出力された認識候補の信頼度を計算する。本発明において信頼度とは、認識部120から出力された認識候補が有効な(正しい)音声認識結果である確率を表す。例えば、信頼度は、認識候補である音素や単語以外の他の音素や単語を意味する音声などが発話される確率の相対値を意味してもよい。
信頼度を計算するための一例として、音素モデル及び反音素モデルを使うことができる。音素モデルは、ある音声で実際に発話された音素を抽出し、抽出された音素を調整することによって生成されるHMMである。また、反音素モデルは、実際に発話された音素に類似した音素の集合である類似音素集合(Cohort Set)を調整して生成するHMMを意味する。
音素モデル及び反音素モデルを使用して信頼度を計算する場合、信頼度計算部130は、特徴抽出部110により抽出された特徴と最も類似した音素を音素モデルで検索し、反音素モデルにおける検索された音素の類似度を計算する。その後、信頼度計算部130は、音素モデルに対する類似度と反音素モデルに対する類似度との差を求め、それを所定の関数に適用させることによって信頼度を計算することができる。
閾値設定部140は、認識候補に対するユーザの確認結果及び各認識候補の信頼度を利用して、音声認識装置を使用するユーザに適応した新たな閾値(以下、新たな閾値という)を設定する。閾値設定部140についての具体的な説明は、図2ないし図5Bを参照して後記する。
制御部150は、新たな閾値が設定されたか否かによって、認識部120から出力された認識候補についてユーザに確認応答を行うか否かを決定する。
もし、新たな閾値が設定されていなければ、制御部150は、認識部120から出力された認識候補をユーザに提供し、ユーザは認識候補に対する確認応答を入力する。この場合、ユーザが認識候補は正解である(正しい)と確認し応答すれば、制御部160は、該当認識候補を音声認識結果として出力する。
一方、新たな閾値が設定されている場合、制御部150は、認識部120から出力された認識候補の信頼度を新たな閾値と比較する。
比較した結果信頼度が新たな閾値以上であれば、制御部150は、認識候補を音声認識結果として出力する。この場合、制御部150は、認識候補に対してユーザの確認を受けなくても認識候補を音声認識結果として出力することができる。
しかし、信頼度と新たな閾値とを比較した結果、信頼度が新たな閾値未満であれば、制御部150は、認識候補をユーザに提供し、ユーザから認識候補についての確認応答を受ける。これは、新たな閾値が設定されていない場合と同様に行うことができる。
制御部150から出力された認識結果は、アプリケーション210に送られ特定のサービスを提供するために使用される。例えば、図示された音声認識装置がカーナビゲーションシステムに使われるならば、認識結果は、地図検索サービスを提供するアプリケーションに送ることができる。
図2は、本発明の一実施形態による閾値設定部をより具体的に示すブロック図である。
図示された閾値設定部140は、判断部310、分類部320、閾値計算部330及び保存部340を備える。
判断部310は、認識候補の信頼度を初期閾値と比較して、認識候補を正解と不正解とに分類する。すなわち、信頼度が初期閾値以上である認識候補は、ユーザから入力された音声に対する認識が成功である(正しい)ことを意味する正解に分類され、信頼度が初期閾値未満である認識候補は、ユーザから入力された音声に対する認識が失敗である(正しくない)ことを意味する不正解に分類される。初期閾値は、音声認識結果を使用するアプリケーションの特性によってあらかじめ設定することができる。判断部310により分類された認識候補の信頼度の分布についての一例を図3に図示した。図3で初期閾値は、2.0と設定されている。
分類部320は、各認識候補に対してユーザが確認した結果、正解と応答した認識候補を第1グループに分類し、ユーザが確認した結果、不正解と応答した認識候補を第2グループに分類する。したがって、第1グループには、判断部310では不正解に分類されたが、分類部320ではユーザが確認した結果によって実際には正解であると分類された認識候補(以下、誤った不正解(false reject)という)が含まれ、第2グループには、判断部310では正解に分類されたが、分類部320ではユーザが確認した結果によって実際には不正解であると分類された認識候補(以下、誤った正解(false acceptance)という)が含まれる場合がある。
図3に図示された認識候補に対する分類部320の分類作業の結果の例を、図4A及び図4Bに図示した。図4A及び図4Bで水平座標軸上に図示された数字は、各認識候補の信頼度の一例を示す。図4Aの例で、認識候補420及び430は、誤った不正解である。また、図4Bの例で、認識候補510及び520は、誤った不正解であり、認識候補530及び550は、誤った正解である。
一方、分類部320により分類された認識候補及び認識候補の信頼度は保存部340に保存される。また、認識候補に対するユーザの確認結果は、制御部150から伝達してもよい。
閾値計算部330は、分類部320の認識候補の分類結果及び認識候補の信頼度によって、ユーザに適応した新たな閾値を計算する。閾値計算部330による新たな閾値計算は、音声を入力した全回数(ユーザの発話回数)が所定の閾値回数以上である場合に行われることが望ましい。閾値計算を行うか否かの基準になる閾値回数は、音声認識結果を使用するアプリケーションの特性によって変更可能である。例えば、音声認識において、高い精度を要求するアプリケーションであればあるほど、閾値回数を高く設定することができる。
閾値計算部330は、第1グループに分類された認識候補の信頼度が分布する区間(以下、第1信頼度区間という)と、第2グループに分類された認識候補の信頼度が分布する区間(以下、第2信頼度区間という)とが重畳しない場合、第1信頼度区間と第2信頼度区間との境界の範囲内の値を持つ新たな閾値を計算する。
より具体的には、閾値計算部330により計算される新たな閾値は、第1グループに分類された認識候補の信頼度のうち最も低い信頼度以下であり、第2グループに分類された認識候補の信頼度のうち最も高い信頼度以上である値を持つ。例えば、認識候補が、図4Aに示すように分類された場合、新たな閾値は、認識候補410の信頼度と認識候補420の信頼度との間の値を持つように計算することができる。
閾値計算部330は、第1グループに分類された認識候補の信頼度のうち最も低い信頼度と、第2グループに分類された認識候補の信頼度のうち最も高い信頼度との平均値で新たな閾値を計算することが望ましい。例えば、図4Aに図示された例で新たな閾値を、認識候補410の信頼度と認識候補420の信頼度との平均値にすることができる。
一方、第1信頼度区間と第2信頼度区間とが重畳する場合には、新たな閾値を計算するための他の方法が必要である。
信頼度計算アルゴリズムが完全でないなどの原因によって、図4Bに示すように、第1信頼度区間と第2信頼度区間とが明確に分類されずに重畳する場合、閾値計算部330は、第1信頼度区間と第2信頼度区間とが重畳する範囲内の値を持つ新たな閾値を計算することができる。
より具体的には、閾値計算部330により計算される新たな閾値は、第1グループに分類された認識候補の信頼度のうち最も低い信頼度以上であり、第2グループに分類された認識候補の信頼度のうち最も高い信頼度以下である値を持つことができる。例えば、認識候補が図4Bに示すように分類された場合、新たな閾値は、認識候補510の信頼度と認識候補550の信頼度との間の値を持つように計算することができる。
一方、新たな閾値は、誤った正解及び誤った不正解の数を減少させることができる値を持つことが望ましい。しかし、一般的に新たな閾値の数値が高くなればなるほど誤った不正解の数が増加し、新たな閾値の数値が低くなるほど誤った正解の数が増加する。したがって、閾値計算部330は、新たな閾値を基準として判断部310が保存部340に保存された認識候補に対して正解か又は不正解かを再び判断する場合、誤った正解と誤った不正解との割合が所定の割合に最も近い割合で分布するように新たな閾値を計算する。
すなわち、閾値計算部330は、第1グループに分類された認識候補のうち新たな閾値未満の信頼度を持つ認識候補の数と、第2グループに分類された認識候補のうち新たな閾値以上の信頼度を持つ認識候補の数との割合が所定の割合に最も近い割合になるように、新たな閾値を計算する。
このような条件を満足できる値は複数で存在しうる。例えば、後述する図5Aの例で新たな閾値は、認識候補510及び認識候補520の信頼度の間の区間に含まれる値のうちの一つに決定することができる。
したがって、新たな閾値は、所定の信頼度範囲内に含まれるが、このときの所定の信頼度範囲は、第1グループに分類された認識候補のうち信頼度範囲の下限値未満の信頼度を持つ認識候補の数と、第2グループに分類された認識候補のうち信頼度範囲の上限値以上の信頼度を持つ認識候補の数との割合を、所定の割合に最も近い割合にする範囲であることが望ましい。
新たな閾値は、前述した条件を満足させる信頼度範囲の上限値以上の信頼度を持つ認識候補の信頼度のうち最も低い信頼度と、該当信頼度範囲の下限値以下の信頼度を持つ認識候補の信頼度のうち最も高い信頼度との平均値にすることがより望ましい。例えば、後述する図5Aの例で閾値計算部330により計算される新たな閾値は、認識候補510の信頼度と認識候補520の信頼度との平均値でもよい。
一方、音声認識結果を使用するアプリケーションによって誤った正解及び誤った不正解がアプリケーションの性能に影響を及ぼす程度が異なる場合があるので、所定の割合はアプリケーションの特性によってあらかじめ設定することができる。
例えば、アプリケーションの特性上、誤った正解より誤った不正解の数を減らすことがより重要であれば、誤った正解より誤った不正解の比重の低い割合を設定することができる。すなわち、誤った正解と誤った不正解との総数のうち誤った不正解の割合が20%であることが望ましいならば、誤った正解と誤った不正解との割合が4:1になるように所定の割合を設定することができる。
もし、図4Bに図示された例のように、認識候補が分類された状態で、誤った正解と誤った不正解との割合が2:1になるように所定の割合が設定されている場合、閾値計算部330により計算された新たな閾値は、認識候補510の信頼度と認識候補520の信頼度との間の値を持つことができる。
この場合、図4Bに図示された認識候補に対して、判断部310が新たな閾値を基準に正解と不正解とを分類するならば、認識候補520は正解に分類できる。その結果、図5Aに示すように、誤った正解(認識候補530及び550)と誤った不正解(認識候補510)との割合が2:1になる。
一方、図4Bに図示された例のように認識候補が分類された状態で、誤った正解と誤った不正解との比重が1:2になるように所定の割合が設定されているならば、閾値計算部330により計算された閾値は、認識候補530の信頼度と認識候補540の信頼度との間の数値を持つことができる。この場合、図4Bに図示された認識候補に対して、判断部310が新たな閾値を基準に正解と不正解とを分類するならば、認識候補530は不正解に分類できる。その結果、図5Bに示すように誤った正解(認識候補550)と誤った不正解(認識候補510及び520)との割合が1:2になる。
このように閾値回数に対応する十分な回数の音声入力による認識候補の信頼度を利用してユーザに適応する新たな閾値を設定すれば、以後に入力されるユーザの発話に対する誤った正解と誤った不正解との割合は、統計的に所定の割合を維持する。
以下、図6及び図7を参照して本発明の実施形態によるユーザ適応型の音声認識装置の動作過程について説明する。
図6は、本発明の一実施形態によるユーザ適応型の音声認識方法を示すフローチャートである。
最初のユーザから音声が入力されれば(S110)、特徴抽出部110は入力された音声の特徴を抽出する(S115)。その後、認識部120は、ユーザから入力された音声より認識可能な認識候補を出力し(S120)、信頼度計算部130は、出力された認識候補に対する信頼度を計算する(S125)。
このとき、制御部150は、閾値設定部140により新たな閾値が設定されたか否かを判断する(S130)。
新たな閾値が設定された場合、制御部150は、信頼度計算部130により計算された信頼度を新たな閾値と比較する(S135)。
比較した結果、信頼度が新たな閾値未満であれば、制御部150は認識候補をユーザに提供する(S140)。この時、認識候補は、ディスプレイ部160を通じてユーザに視覚的に提供されるか、音声合成部170及びスピーカ部180を通じてユーザに聴覚的に提供される場合もある。
例えば、音声認識機能を持つカーナビゲーションシステムにおいて、宛先を検索するため、ユーザの音声入力に対する音声認識を実行した結果、認識部120から‘ソウル駅’という単語が認識候補として出力された場合、制御部150は、ディスプレイ部160を通じて‘ソウル駅が正しいですか?’という文章をユーザに示すことができる。あるいは、制御部150は、音声合成部170を通じて‘ソウル駅が正しいですか?’という音声を合成し、合成された音声をスピーカ部180を通じてユーザに出力することができる。
その後、制御部150は、認識候補に対するユーザの確認応答を受け取る(S145)。ユーザの確認応答はキーボード又はタッチスクリーンなどのユーザ入力部(図示せず)やユーザの音声を通じて入力してもよい。ユーザの応答が音声を通じて入力される場合、特徴抽出部110及び認識部120によりユーザの応答が肯定応答(認識候補が正解であると応答)であるか、又は否定応答(認識候補が不正解であると応答)であるかを認識した後、制御部150に伝えてもよい。
この時、制御部150は、ユーザに提供した認識候補についてユーザが正解であると応答したか否かを判断し(S150)、認識候補が正解であると応答した場合、該当認識候補を音声認識結果として出力する(S155)。例えば、カーナビゲーションで宛先検索のために音声認識結果による認識候補が‘ソウル駅’であり、これをユーザに提供した結果(例えば‘ソウル駅が正しいですか?’という質問をユーザに出力してもよい)、‘ソウル駅’という認識候補が正解であると応答されれば、制御部150は、‘ソウル駅’という単語を宛先検索アプリケーションに出力する。この時、宛先検索アプリケーションは、地図データで‘ソウル駅’を検索し、ユーザに現在位置からソウル駅までの車両運行経路、車両運行に要する時間などを提供する。
しかし、ユーザに提供された認識候補が不正解であると応答されれば、制御部150は、ディスプレイ部160や音声合成部170及びスピーカ部180を通じてユーザに音声認識に失敗したことを知らせ、音声の再入力を要求することができる(S160)。
一方、ステップS135の判断結果、信頼度が新たな閾値以上である場合、制御部150は、認識候補に対するユーザの確認応答過程を経ずに、該当認識候補を音声認識の結果として出力することができる(S155)。
ステップS140ないしステップS160の過程は、ステップS130の判断結果新たな閾値が設定されていない場合にも同様に行うことができる。
一方、ステップS130の判断結果、新たな閾値が設定されていない場合、閾値設定部140は、認識候補に対するユーザの確認結果及び各認識候補の信頼度を利用してユーザに適応する新たな閾値を設定するが、これを図7を参照しながら説明する。
図7は、本発明の一実施形態による新たな閾値設定過程を示すフローチャートである。
図6のステップS130での判断結果、新たな閾値が設定されていない場合、判断部310は、認識候補の信頼度を初期閾値と比較する(S210)。この時、判断部310は、初期閾値以上の信頼度を持つ認識候補を正解に分類し、初期閾値未満の信頼度を持つ認識候補を不正解に分類する。
一方、分類部320は、認識候補をステップS140でユーザに提供した結果、ユーザが正解であると応答すれば(S220)該当認識候補を第1グループに分類する(S230)。しかし、ユーザが不正解であると応答すれば、分類部320は、該当認識候補を第2グループに分類する(S240)。この時、分類部320により分類された認識候補及び認識候補の信頼度は保存部340に保存される。
音声入力回数が閾値回数以上であれば(S250)、閾値計算部330は新たな閾値を計算する。
閾値の計算時に、まず閾値計算部330は、第1信頼度区間と第2信頼度区間とが重畳するか否かを判断する(S260)。
もし、第1信頼度区間と第2信頼度区間とが重畳していなければ、閾値計算部330は、第1信頼度区間と第2信頼度区間との境界の範囲内の値を持つ新たな閾値を計算する(S270)。より具体的には、閾値計算部330は、第1グループに分類された認識候補の信頼度のうち最も低い信頼度以下であり、第2グループに分類された認識候補の信頼度のうち最も高い信頼度以上である値を持つように新たな閾値を計算する。閾値計算部330は、第1グループに分類された認識候補の信頼度のうち最も低い信頼度と、第2グループに分類された認識候補の信頼度のうち最も高い信頼度との平均値を新たな閾値として計算することが望ましい。
しかし、ステップS260の判断結果、第1信頼度区間と第2信頼度区間とが重畳すれば、閾値計算部330は、第1信頼度区間と第2信頼度区間とが重畳する範囲内の値を持つ新たな閾値を計算することができる(S280)。より具体的には、閾値計算部330により計算される新たな閾値は、第1グループに分類された認識候補の信頼度のうち最も低い信頼度以上であり、第2グループに分類された認識候補の信頼度のうち最も高い信頼度以下である値を持つことができる。新たな閾値は所定の信頼度範囲以内に含まれるが、このときの所定の信頼度範囲は、第1グループに分類された認識候補のうち信頼度範囲の下限値未満の信頼度を持つ認識候補の数と、第2グループに分類された認識候補のうち信頼度範囲の上限値以上の信頼度を持つ認識候補の数との割合を、所定の割合に最も近い割合にする範囲であることが望ましい。さらに、新たな閾値は、前述した条件を満足させる信頼度範囲の上限値以上の信頼度を持つ認識候補の信頼度のうち最も低い信頼度と、該当信頼度範囲の下限値以下の信頼度を持つ認識候補の信頼度のうち最も高い信頼度との平均値であることがより望ましい。
以上、添付図を参照して本発明の実施例を説明したが、本発明が属する技術分野の当業者であれば本発明がその技術的思想や必須特徴を変更せずとも他の具体的な形で実施することができるということが理解できるであろう。したがって、前述した実施例はすべての面で例示的なものであって、限定的なものではないと理解すべきである。
本発明は、携帯電話、PDA、カーナビゲーションシステム、その他の家電機器などに好適に用いられる。
本発明の一実施形態によるユーザ適応型の音声認識装置を示すブロック図である。 本発明の一実施形態による閾値設定部をさらに具体的に示すブロック図である。 本発明の一実施形態による判断部により正解と不正解とに分類された認識候補の分布を示す図面である。 本発明の一実施形態による分類部により分類された認識候補の分布の一例を示す図面である。 本発明の一実施形態による分類部により分類された認識候補の分布の一例を示す図面である。 本発明の一実施形態による新たな閾値を基準に分類された認識候補の分布の一例を示す図面である。 本発明の一実施形態による新たな閾値を基準に分類された認識候補の分布の一例を示す図面である。 本発明の一実施形態によるユーザ適応型の音声認識方法を示すフローチャートである。 本発明の一実施形態による新たな閾値設定過程を示すフローチャートである。
符号の説明
110 特徴抽出部
120 認識部
130 信頼度計算部
140 閾値設定部
310 判断部
320 分類部
330 閾値計算部
340 保存部

Claims (14)

  1. ユーザから入力された音声の認識結果による認識候補の信頼度を計算するステップと、
    前記認識候補についてユーザに確認した結果と前記計算した認識候補の信頼度とを利用して、ユーザに適応した新たな閾値を設定するステップと、
    前記計算した認識候補の信頼度が前記設定した新たな閾値以上であれば、前記認識候補を音声認識結果として出力するステップと、を含むことを特徴とするユーザ適応型の音声認識方法。
  2. 前記新たな閾値を設定するステップは、
    前記認識候補についてユーザに確認した結果、ユーザが正解であると応答した認識候補を第1グループに分類し、ユーザが不正解であると応答した認識候補を第2グループに分類するステップと、
    前記第1グループに分類された認識候補の信頼度が分布する第1信頼度区間と、前記第2グループに分類された認識候補の信頼度が分布する第2信頼度区間とが重畳しない場合、前記第2グループに分類された認識候補の信頼度のうち最も高い信頼度以上であり、前記第1グループに分類された認識候補の信頼度のうち最も低い信頼度以下である範囲内の値を持つように前記新たな閾値を計算するステップと、を含むことを特徴とする請求項1に記載のユーザ適応型の音声認識方法。
  3. 前記新たな閾値は、前記第1グループに分類された認識候補の信頼度のうち最も低い信頼度と、前記第2グループに分類された認識候補の信頼度のうち最も高い信頼度との平均値であることを特徴とする請求項2に記載のユーザ適応型の音声認識方法。
  4. 前記第1信頼度区間と前記第2信頼度区間とが重畳する場合、前記第1グループに分類された認識候補の信頼度のうち最も低い信頼度以上であり、前記第2グループに分類された認識候補の信頼度のうち最も高い信頼度以下である範囲内の値を持つように、前記新たな閾値を計算するステップをさらに含むことを特徴とする請求項2に記載のユーザ適応型の音声認識方法。
  5. 前記新たな閾値は、所定の信頼度範囲以内に含まれ、前記信頼度範囲は、前記第1グループに分類された認識候補のうち前記信頼度範囲の下限値未満の信頼度を持つ認識候補の数と、前記第2グループに分類された認識候補のうち前記信頼度範囲の上限値以上の信頼度を持つ認識候補の数との割合を所定の割合に最も近い割合にする範囲で計算されることを特徴とする請求項4に記載のユーザ適応型の音声認識方法。
  6. 前記新たな閾値は、前記信頼度範囲の上限値以上の信頼度を持つ認識候補の信頼度のうち最も低い信頼度と、前記信頼度範囲の下限値以下の信頼度を持つ認識候補の信頼度のうち最も高い信頼度との平均値であることを特徴とする請求項5に記載のユーザ適応型の音声認識方法。
  7. 前記新たな閾値を設定するステップは、前記ユーザから入力された音声の入力回数が所定の閾値回数以上である場合に行われることを特徴とする請求項1に記載のユーザ適応型の音声認識方法。
  8. ユーザから入力された音声の認識結果による認識候補の信頼度を計算する信頼度計算部と、
    前記認識候補についてユーザに確認した結果と前記計算した認識候補の信頼度とを利用して、ユーザに適応した新たな閾値を設定する閾値設定部と、
    前記計算した認識候補の信頼度が前記設定した新たな閾値以上であれば、前記認識候補を音声認識結果として出力する制御部と、を備えることを特徴とするユーザ適応型の音声認識装置。
  9. 前記閾値設定部は、
    前記認識候補についてユーザに確認した結果、ユーザが正解であると応答した認識候補を第1グループに分類し、ユーザが不正解であると応答した認識候補を第2グループに分類する分類部と、
    前記第1グループに分類された認識候補の信頼度が分布する第1信頼度区間と、前記第2グループに分類された認識候補の信頼度が分布する第2信頼度区間とが重畳しない場合、前記第2グループに分類された認識候補の信頼度のうち最も高い信頼度以上であり、前記第1グループに分類された認識候補の信頼度のうち最も低い信頼度以下である範囲内の値を持つように前記新たな閾値を計算する閾値計算部と、を備えることを特徴とする請求項8に記載のユーザ適応型の音声認識装置。
  10. 前記新たな閾値は、前記第1グループに分類された認識候補の信頼度のうち最も低い信頼度と、前記第2グループに分類された認識候補の信頼度のうち最も高い信頼度との平均値であることを特徴とする請求項9に記載のユーザ適応型の音声認識装置。
  11. 前記閾値計算部は、前記第1信頼度区間と前記第2信頼度区間とが重畳する場合、前記第1グループに分類された認識候補の信頼度のうち最も低い信頼度以上であり、前記第2グループに分類された認識候補の信頼度のうち最も高い信頼度以下である範囲内の値を持つように、前記新たな閾値を計算するステップをさらに含むことを特徴とする請求項9に記載のユーザ適応型の音声認識装置。
  12. 前記新たな閾値は、所定の信頼度範囲以内に含まれ、前記信頼度範囲は、前記第1グループに分類された認識候補のうち前記信頼度範囲の下限値未満の信頼度を持つ認識候補の数と、前記第2グループに分類された認識候補のうち前記信頼度範囲の上限値以上の信頼度を持つ認識候補の数との割合を所定の割合に最も近い割合にする範囲で計算されることを特徴とする請求項11に記載のユーザ適応型の音声認識装置。
  13. 前記新たな閾値は、前記信頼度範囲の上限値以上の信頼度を持つ認識候補の信頼度のうち最も低い信頼度と、前記信頼度範囲の下限値以下の信頼度を持つ認識候補の信頼度のうち最も高い信頼度との平均値であることを特徴とする請求項12に記載のユーザ適応型の音声認識装置。
  14. 前記閾値設定部は、前記ユーザから入力された音声の入力回数が所定の閾値回数以上である場合に前記新たな閾値を設定することを特徴とする請求項8に記載のユーザ適応型の音声認識装置。
JP2006060671A 2005-03-07 2006-03-07 ユーザ適応型の音声認識方法及び音声認識装置 Active JP4709663B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2005-0018786 2005-03-07
KR1020050018786A KR100679044B1 (ko) 2005-03-07 2005-03-07 사용자 적응형 음성 인식 방법 및 장치

Publications (2)

Publication Number Publication Date
JP2006251800A true JP2006251800A (ja) 2006-09-21
JP4709663B2 JP4709663B2 (ja) 2011-06-22

Family

ID=36945180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006060671A Active JP4709663B2 (ja) 2005-03-07 2006-03-07 ユーザ適応型の音声認識方法及び音声認識装置

Country Status (3)

Country Link
US (1) US7996218B2 (ja)
JP (1) JP4709663B2 (ja)
KR (1) KR100679044B1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010528770A (ja) * 2007-06-05 2010-08-26 アルコン リフラクティブホライズンズ,インコーポレイティド 屈折レーザー外科処置のためのノモグラム、アプリケーション・システム、及び方法
JP2011017818A (ja) * 2009-07-08 2011-01-27 Nippon Telegr & Teleph Corp <Ntt> 音声単位別尤度比モデル作成装置、音声単位別尤度比モデル作成方法、音声認識信頼度算出装置、音声認識信頼度算出方法、プログラム
JP2016505893A (ja) * 2012-12-31 2016-02-25 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声入力を実現する方法および装置

Families Citing this family (185)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7812986B2 (en) 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US8856108B2 (en) * 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US10192279B1 (en) 2007-07-11 2019-01-29 Ricoh Co., Ltd. Indexed document modification sharing with mixed media reality
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US8156116B2 (en) 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US8838591B2 (en) 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US7702673B2 (en) 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US9373029B2 (en) 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US8949287B2 (en) 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US8965145B2 (en) 2006-07-31 2015-02-24 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US8825682B2 (en) * 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US8176054B2 (en) 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US7945099B2 (en) * 2005-05-09 2011-05-17 Like.Com System and method for use of images with recognition analysis
US7660468B2 (en) * 2005-05-09 2010-02-09 Like.Com System and method for enabling image searching using manual enrichment, classification, and/or segmentation
US20080177640A1 (en) 2005-05-09 2008-07-24 Salih Burak Gokturk System and method for using image analysis and search in e-commerce
US7657126B2 (en) 2005-05-09 2010-02-02 Like.Com System and method for search portions of objects in images and features thereof
US7519200B2 (en) * 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition
US7783135B2 (en) 2005-05-09 2010-08-24 Like.Com System and method for providing objectified image renderings using recognition information from images
US8732025B2 (en) 2005-05-09 2014-05-20 Google Inc. System and method for enabling image recognition and searching of remote content on display
US7760917B2 (en) * 2005-05-09 2010-07-20 Like.Com Computer-implemented method for performing similarity searches
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9690979B2 (en) 2006-03-12 2017-06-27 Google Inc. Techniques for enabling or establishing the use of face recognition algorithms
US8571272B2 (en) * 2006-03-12 2013-10-29 Google Inc. Techniques for enabling or establishing the use of face recognition algorithms
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US8201076B2 (en) 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
US9020966B2 (en) 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9423996B2 (en) * 2007-05-03 2016-08-23 Ian Cummings Vehicle navigation user interface customization methods
CN101689364B (zh) * 2007-07-09 2011-11-23 富士通株式会社 声音识别装置和声音识别方法
US8416981B2 (en) 2007-07-29 2013-04-09 Google Inc. System and method for displaying contextual supplemental content based on image content
KR100933946B1 (ko) * 2007-10-29 2009-12-28 연세대학교 산학협력단 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터추출 방법 및 이를 이용한 화자 인식 시스템
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8239203B2 (en) * 2008-04-15 2012-08-07 Nuance Communications, Inc. Adaptive confidence thresholds for speech recognition
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
KR101056511B1 (ko) 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
JP2010008601A (ja) * 2008-06-25 2010-01-14 Fujitsu Ltd 案内情報表示装置、案内情報表示方法及びプログラム
JP5389168B2 (ja) * 2008-07-14 2014-01-15 グーグル インコーポレイテッド 関心がもたれる別のコンテンツアイテムを識別するための検索規準に対して補足コンテンツアイテムを用いるためのシステム及び方法
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) * 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
KR101217524B1 (ko) * 2008-12-22 2013-01-18 한국전자통신연구원 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치
US20100180127A1 (en) * 2009-01-14 2010-07-15 Motorola, Inc. Biometric authentication based upon usage history
US8370151B2 (en) 2009-01-15 2013-02-05 K-Nfb Reading Technology, Inc. Systems and methods for multiple voice document narration
US10088976B2 (en) 2009-01-15 2018-10-02 Em Acquisition Corp., Inc. Systems and methods for multiple voice document narration
US8954328B2 (en) * 2009-01-15 2015-02-10 K-Nfb Reading Technology, Inc. Systems and methods for document narration with multiple characters having multiple moods
US20100313141A1 (en) * 2009-06-03 2010-12-09 Tianli Yu System and Method for Learning User Genres and Styles and for Matching Products to User Preferences
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
TWI421857B (zh) * 2009-12-29 2014-01-01 Ind Tech Res Inst 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP5533042B2 (ja) * 2010-03-04 2014-06-25 富士通株式会社 音声検索装置、音声検索方法、プログラム及び記録媒体
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
US9263034B1 (en) * 2010-07-13 2016-02-16 Google Inc. Adapting enhanced acoustic models
US8639508B2 (en) * 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
US9899021B1 (en) * 2013-12-20 2018-02-20 Amazon Technologies, Inc. Stochastic modeling of user interactions with a detection system
US10540979B2 (en) * 2014-04-17 2020-01-21 Qualcomm Incorporated User interface for secure access to a device using speaker verification
CN104142909B (zh) * 2014-05-07 2016-04-27 腾讯科技(深圳)有限公司 一种汉字注音方法及装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9384738B2 (en) * 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US20160063990A1 (en) * 2014-08-26 2016-03-03 Honeywell International Inc. Methods and apparatus for interpreting clipped speech using speech recognition
KR102357321B1 (ko) 2014-08-27 2022-02-03 삼성전자주식회사 음성 인식이 가능한 디스플레이 장치 및 방법
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9953644B2 (en) 2014-12-01 2018-04-24 At&T Intellectual Property I, L.P. Targeted clarification questions in speech recognition with concept presence score and concept correctness score
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9997161B2 (en) * 2015-09-11 2018-06-12 Microsoft Technology Licensing, Llc Automatic speech recognition confidence classifier
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN106653010B (zh) * 2015-11-03 2020-07-24 络达科技股份有限公司 电子装置及其透过语音辨识唤醒的方法
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10706852B2 (en) 2015-11-13 2020-07-07 Microsoft Technology Licensing, Llc Confidence features for automated speech recognition arbitration
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
WO2017104272A1 (ja) * 2015-12-18 2017-06-22 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10169319B2 (en) * 2016-09-27 2019-01-01 International Business Machines Corporation System, method and computer program product for improving dialog service quality via user feedback
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
KR102348593B1 (ko) * 2017-10-26 2022-01-06 삼성에스디에스 주식회사 기계 학습 기반의 객체 검출 방법 및 그 장치
TWI682385B (zh) * 2018-03-16 2020-01-11 緯創資通股份有限公司 語音服務控制裝置及其方法
WO2019216461A1 (ko) * 2018-05-10 2019-11-14 주식회사 시스트란인터내셔널 인공지능 서비스 방법 및 이를 위한 장치
US11087748B2 (en) * 2018-05-11 2021-08-10 Google Llc Adaptive interface in a voice-activated network
KR20200007496A (ko) * 2018-07-13 2020-01-22 삼성전자주식회사 개인화 ASR(automatic speech recognition) 모델을 생성하는 전자 장치 및 이를 동작하는 방법
US11170770B2 (en) * 2018-08-03 2021-11-09 International Business Machines Corporation Dynamic adjustment of response thresholds in a dialogue system
CN110111775B (zh) * 2019-05-17 2021-06-22 腾讯科技(深圳)有限公司 一种流式语音识别方法、装置、设备及存储介质
CN114303186A (zh) 2019-08-21 2022-04-08 杜比实验室特许公司 用于在语音合成中适配人类说话者嵌入的系统和方法
WO2021149923A1 (ko) * 2020-01-20 2021-07-29 주식회사 씨오티커넥티드 영상 검색 제공 방법 및 장치
US11620993B2 (en) * 2021-06-09 2023-04-04 Merlyn Mind, Inc. Multimodal intent entity resolver

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0432900A (ja) * 1990-05-29 1992-02-04 Ricoh Co Ltd 音声認識装置
JPH1185189A (ja) * 1997-09-10 1999-03-30 Hitachi Ltd 音声認識装置
JP2000122689A (ja) * 1998-10-20 2000-04-28 Mitsubishi Electric Corp 話者適応化装置及び音声認識装置
JP2000181482A (ja) * 1998-12-17 2000-06-30 Sony Internatl Europ Gmbh 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法
JP2001013991A (ja) * 1999-06-30 2001-01-19 Toshiba Corp 音声認識支援方法及び音声認識システム
JP2004325635A (ja) * 2003-04-23 2004-11-18 Sharp Corp 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5305244B2 (en) * 1992-04-06 1997-09-23 Computer Products & Services I Hands-free user-supported portable computer
US5732187A (en) 1993-09-27 1998-03-24 Texas Instruments Incorporated Speaker-dependent speech recognition using speaker independent models
US5559925A (en) * 1994-06-24 1996-09-24 Apple Computer, Inc. Determining the useability of input signals in a data recognition system
US6567778B1 (en) 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
KR100277105B1 (ko) 1998-02-27 2001-01-15 윤종용 음성 인식 데이터 결정 장치 및 방법
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
EP1378886A1 (en) * 2002-07-02 2004-01-07 Ubicall Communications en abrégé "UbiCall" S.A. Speech recognition device
US7788103B2 (en) * 2004-10-18 2010-08-31 Nuance Communications, Inc. Random confirmation in speech based systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0432900A (ja) * 1990-05-29 1992-02-04 Ricoh Co Ltd 音声認識装置
JPH1185189A (ja) * 1997-09-10 1999-03-30 Hitachi Ltd 音声認識装置
JP2000122689A (ja) * 1998-10-20 2000-04-28 Mitsubishi Electric Corp 話者適応化装置及び音声認識装置
JP2000181482A (ja) * 1998-12-17 2000-06-30 Sony Internatl Europ Gmbh 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法
JP2001013991A (ja) * 1999-06-30 2001-01-19 Toshiba Corp 音声認識支援方法及び音声認識システム
JP2004325635A (ja) * 2003-04-23 2004-11-18 Sharp Corp 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010528770A (ja) * 2007-06-05 2010-08-26 アルコン リフラクティブホライズンズ,インコーポレイティド 屈折レーザー外科処置のためのノモグラム、アプリケーション・システム、及び方法
JP2011017818A (ja) * 2009-07-08 2011-01-27 Nippon Telegr & Teleph Corp <Ntt> 音声単位別尤度比モデル作成装置、音声単位別尤度比モデル作成方法、音声認識信頼度算出装置、音声認識信頼度算出方法、プログラム
JP2016505893A (ja) * 2012-12-31 2016-02-25 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声入力を実現する方法および装置

Also Published As

Publication number Publication date
US20060200347A1 (en) 2006-09-07
KR100679044B1 (ko) 2007-02-06
JP4709663B2 (ja) 2011-06-22
US7996218B2 (en) 2011-08-09
KR20060097895A (ko) 2006-09-18

Similar Documents

Publication Publication Date Title
JP4709663B2 (ja) ユーザ適応型の音声認識方法及び音声認識装置
US10074363B2 (en) Method and apparatus for keyword speech recognition
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US8280733B2 (en) Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections
US9159319B1 (en) Keyword spotting with competitor models
US7401017B2 (en) Adaptive multi-pass speech recognition system
US7275034B2 (en) Word-specific acoustic models in a speech recognition system
EP2048655B1 (en) Context sensitive multi-stage speech recognition
KR100679042B1 (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
EP1936606B1 (en) Multi-stage speech recognition
EP2308042B1 (en) Method and device for generating vocabulary entries from acoustic data
JP2008009153A (ja) 音声対話システム
US20150310853A1 (en) Systems and methods for speech artifact compensation in speech recognition systems
JP2000099087A (ja) 言語音声モデルを適応させる方法及び音声認識システム
CN108806691B (zh) 语音识别方法及系统
EP1213706B1 (en) Method for online adaptation of pronunciation dictionaries
JP3444108B2 (ja) 音声認識装置
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
KR100622019B1 (ko) 음성 인터페이스 시스템 및 방법
KR20060098673A (ko) 음성 인식 방법 및 장치
KR100474253B1 (ko) 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체
JP2003044085A (ja) コマンド入力機能つきディクテーション装置
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JPH08248975A (ja) 標準パターン学習装置およびこの装置を使用した音声認識装置
Kai et al. Comparison of continuous speech recognition systems with unknown‐word processing for speech disfluencies

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20061101

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100810

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100813

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100910

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100915

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101102

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110318

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250