JP2006251800A

JP2006251800A - ユーザ適応型の音声認識方法及び音声認識装置

Info

Publication number: JP2006251800A
Application number: JP2006060671A
Authority: JP
Inventors: Jung-Eun Kim; 貞恩金; Jeong-Su Kim; 金　正　壽
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2005-03-07
Filing date: 2006-03-07
Publication date: 2006-09-21
Anticipated expiration: 2026-03-07
Also published as: US20060200347A1; KR100679044B1; JP4709663B2; US7996218B2; KR20060097895A

Abstract

【課題】ユーザ適応型の音声認識方法及び音声認識装置を提供する。
【解決手段】ユーザから入力された音声の認識結果による認識候補の信頼度を計算する信頼度計算部１３０と、前記認識候補についてユーザに確認した結果と前記計算した認識候補の信頼度とを利用して、ユーザに適応した新たな閾値を設定する閾値設定部１４０と、前記計算した認識候補の信頼度が前記設定した新たな閾値以上であれば、前記認識候補を音声認識結果として出力する制御部１５０と、を含むユーザ適応型の音声認識装置。これにより、音声認識結果に対するユーザの確認過程を減らしつつ音声認識の成功率を高めることができる。
【選択図】図１

Description

本発明は、音声認識方法及び音声認識装置に係り、より詳細には、ユーザに適応した新たな閾値を使用して認識候補に対するユーザの確認応答を行うか否かを制御するユーザ適応型の音声認識方法及び音声認識装置に関する。

音声認識とは、与えられた音声信号から特徴を抽出し、抽出された特徴にパターン認識アルゴリズムを適用した後、発話者がいかなる音素列又は単語列を発話して発生した音声信号であるかを推定する一連の過程と定義できる。

このような音声認識技術が適用された機器（例えば、携帯電話、ＰＤＡ、カーナビゲーションシステム、その他の家電機器など）に対しては、ユーザの発話を通じて制御命令を入力することができる。

例えば、音声認識機能を持つカーナビゲーションシステムを使用する場合、ユーザは宛先を検索するために数回のボタン入力作業を行う代わりに宛先の地名を発話することによって簡便に宛先についての情報を得ることができる。

しかし、ユーザの多様な発音特性などの理由で、音声認識装置の音声認識率には限界がある。このため、従来の音声認識技術として、ユーザから入力された音声に対する認識を行って音声認識結果として出力される可能性を持つ認識候補をユーザに提供して、ユーザに認識の成否を確認させるものがある。

例えば、音声認識技術が適用された音声認識装置が、ユーザから入力された音声を‘ソウル駅’と認識したならば、音声認識装置は、ユーザに‘ソウル駅が正しいですか？’という質問をする。ユーザは、音声認識装置の質問に肯定又は否定の応答を入力することによって、自分が発話した音声が正しく認識されたか否かを音声認識装置に確認させる。

ユーザから肯定応答が入力されれば、音声認識装置は音声認識が成功したと判断し、該当認識候補を音声認識結果としてアプリケーションに伝達する。

しかし、このような従来技術は、音声認識結果ごとにユーザの確認作業を要請するために、ユーザに不便さを招く。

一方、特許文献１は、認識候補に対する信頼度を計算して信頼度が閾値以上である場合、ユーザの確認過程を経ずに該当認識候補を音声認識結果としてアプリケーションに出力する技術について開示している。

しかし、特許文献１によっても、ユーザごとに発音特性に差があるので、あらゆるユーザに均一な閾値を適用すれば、ユーザによって発話回数の減少効果が発生しない場合がある。このような場合には、ユーザが大部分の認識候補に対して確認作業を行わねばならないという不便さが依然として残る。

したがって、ユーザの発話回数を減らしつつ音声認識の成功率を高めることができる技術が要求される。
米国特許第６５６７７７８号明細書

したがって、本発明の目的は、ユーザに適応した新たな閾値を設定することによって、音声認識結果に対するユーザの確認作業を減らしつつ音声認識の成功率を高めることである。

なお、本発明の目的は、前記の目的に制限されず、ここで言及されていない他の目的は後記する実施の形態の記載から当業者が明確に理解することができる。

前記目的を達成するために、本発明の実施形態によるユーザ適応型音声認識方法は、ユーザから入力された音声の認識結果による認識候補の信頼度を計算するステップと、前記認識候補についてユーザに確認した結果と前記計算した認識候補の信頼度とを利用して、ユーザに適応した新たな閾値を設定するステップと、前記計算した認識候補の信頼度が前記設定した新たな閾値以上であれば、前記認識候補を音声認識結果として出力するステップと、を含んで構成される。

前記新たな閾値を設定するステップは、前記認識候補についてユーザに確認した結果、ユーザが正解であると応答した認識候補を第１グループに分類し、ユーザが不正解であると応答した認識候補を第２グループに分類するステップと、前記第１グループに分類された認識候補の信頼度が分布する第１信頼度区間と、前記第２グループに分類された認識候補の信頼度が分布する第２信頼度区間とが重畳しない場合、前記第２グループに分類された認識候補の信頼度のうち最も高い信頼度以上であり、前記第１グループに分類された認識候補の信頼度のうち最も低い信頼度以下である範囲内の値を持つように前記新たな閾値を計算するステップと、を含むことが好ましい。

前記新たな閾値は、前記第１グループに分類された認識候補の信頼度のうち最も低い信頼度と、前記第２グループに分類された認識候補の信頼度のうち最も高い信頼度との平均値であることが好ましい。

前記第１信頼度区間と前記第２信頼度区間とが重畳する場合、前記第１グループに分類された認識候補の信頼度のうち最も低い信頼度以上であり、前記第２グループに分類された認識候補の信頼度のうち最も高い信頼度以下である範囲内の値を持つように、前記新たな閾値を計算するステップをさらに含むことが好ましい。

前記新たな閾値は、所定の信頼度範囲以内に含まれ、前記信頼度範囲は、前記第１グループに分類された認識候補のうち前記信頼度範囲の下限値未満の信頼度を持つ認識候補の数と、前記第２グループに分類された認識候補のうち前記信頼度範囲の上限値以上の信頼度を持つ認識候補の数との割合を所定の割合に最も近い割合にする範囲であることが好ましい。

前記新たな閾値は、前記信頼度範囲の上限値以上の信頼度を持つ認識候補の信頼度のうち最も低い信頼度と、前記信頼度範囲の下限値以下の信頼度を持つ認識候補の信頼度のうち最も高い信頼度との平均値であることが好ましい。

前記新たな閾値を設定するステップは、前記ユーザから入力された音声の入力回数が所定の閾値回数以上である場合に行われることが好ましい。

前記目的を達成するために、本発明の実施形態によるユーザ適応型音声認識装置は、ユーザから入力された音声の認識結果による認識候補の信頼度を計算する信頼度計算部と、前記認識候補についてユーザに確認した結果と前記計算した認識候補の信頼度とを利用して、ユーザに適応した新たな閾値を設定する閾値設定部と、前記計算した認識候補の信頼度が前記設定した新たな閾値以上であれば、前記認識候補を音声認識結果として出力する制御部と、を含んで構成される。

前記閾値設定部は、前記認識候補についてユーザに確認した結果、ユーザが正解であると応答した認識候補を第１グループに分類し、ユーザが不正解であると応答した認識候補を第２グループに分類する分類部と、前記第１グループに分類された認識候補の信頼度が分布する第１信頼度区間と、前記第２グループに分類された認識候補の信頼度が分布する第２信頼度区間とが重畳しない場合、前記第２グループに分類された認識候補の信頼度のうち最も高い信頼度以上であり、前記第１グループに分類された認識候補の信頼度のうち最も低い信頼度以下である範囲内の値を持つように前記新たな閾値を計算する閾値計算部と、を含むことが好ましい。

前記閾値計算部は、前記第１信頼度区間と前記第２信頼度区間とが重畳する場合、前記第１グループに分類された認識候補の信頼度のうち最も低い信頼度以上であり、前記第２グループに分類された認識候補の信頼度のうち最も高い信頼度以下である範囲内の値を持つように、前記新たな閾値を計算するステップをさらに含むことが好ましい。

前記閾値設定部は、前記ユーザから入力された音声の入力回数が所定の閾値回数以上である場合に前記新たな閾値を設定することが好ましい。

その他の実施の形態の具体的な事項は、発明を実施するための最良の形態の説明及び添付した図面に含まれている。

本発明に係るユーザ適応型の音声認識方法及び音声認識装置によれば、音声認識結果に対するユーザの確認過程を減らしつつ音声認識の成功率を高めることができる。

本発明の効果及び特徴、そしてこれを達成する方法は添付した図面に基づいて詳細に後記する実施形態を参照すれば明確になる。しかし、本発明は以下で開示する実施形態に限定されるものではなく、この実施形態から外れて多様な形で具現できる。また、本明細書で説明する実施形態は本発明の開示を完全にし、本発明が属する技術分野で当業者が本発明の範囲を完全に理解するために提供されるものであり、本発明は特許請求の範囲及び発明の詳細な説明によってのみ定義される。なお、明細書全体に亘って同一の参照符号は同一の構成要素を示す。

以下、添付した図面を参照して本発明の望ましい実施形態を詳細に説明する。

図１は、本発明の一実施形態によるユーザ適応型の音声認識装置を示すブロック図である。

図１に示した音声認識装置は、特徴抽出部１１０、認識部１２０、信頼度計算部１３０、閾値設定部１４０及び制御部１５０を備える。また、図１に示した音声認識装置は、ディスプレイ部１６０、音声合成部１７０及びスピーカ部１８０をさらに備える。

特徴抽出部１１０は、ユーザから入力される音声信号の特徴を抽出する。特徴抽出とは、音声認識に有効な成分を音声信号から取り出すことをいい、一般的に情報の圧縮、次元減少過程と関連する。音声認識のためにＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）ケプストラム（ｃｅｐｓｔｒｕｍ）、ＰＬＰ（ＰｅｒｃｅｐｔｕａｌＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）ケプストラム、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）、差分ケプストラム、フィルタバンクエネルギー、差分エネルギーなどの特徴を用いることができる。

認識部１２０は、ユーザから入力された音声に対して音声認識作業を行い、それにより、音声認識結果として出力される可能性を持つ認識候補を出力する。例えば、認識部１２０は、所定の音響モデルを参照して、特徴抽出部１１０により抽出された音声信号の特徴によって認識可能な単語を検索し、検索された単語を認識候補として出力することができる。

音声認識のための音響モデルの単位には、音素（ｐｈｏｎｅｍｅ）、ダイホン（ｄｉｐｈｏｎｅ）、トライホン（ｔｒｉｐｈｏｎｅ）、キンホン（ｑｕｉｎｐｈｏｎｅ）、音節（ｓｙｌｌａｂｌｅ）、単語（ｗｏｒｄ）などがある。一例として、音響モデルは、文字と音素の単位及び各音素の単位の特徴についての情報でもよい。本発明で音響モデルは、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ；以下、ＨＭＭ）を基盤とすることが望ましい。

また、認識部１２０は、入力された音声を認識するために発音モデル及び言語モデルをさらに参照することができる。

発音モデルは、標準発音と定義される代表発音を使用して一単語当り一つの発音を割り当てる単純発音モデルや、許容発音、なまり、及びアクセントを考慮できる多重発音モデルや、各発音の確率を考慮する統計的発音モデルや、音素基盤の辞書式（Ｌｅｘｉｃａｌ）発音モデルなどを用いることができる。

言語モデルは、連続音声認識のために使用される文法を意味する。言語モデルを定義できる文法の例として、ＦＳＮ（ＦｉｎｉｔｅＳｔａｔｅＮｅｔｗｏｒｋ）、ＣＦＧ（Ｃｏｎｔｅｘｔ−ＦｒｅｅＧｒａｍｍａｒ）のような形式言語のための文法や、ｎ−ｇｒａｍのような統計的な文法を挙げられる。このうちｎ−ｇｒａｍは、直前のｎ−１個の単語から次に現れる単語の確率を定義する文法であり、その種類には、バイグラム、トライグラム、４−グラムなどがある。

したがって、認識部１２０は、実施形態によって、個々の単語だけでなくユーザから入力された音声を通じて構成される文章に対する認識候補を出力することもある。

信頼度計算部１３０は、認識部１２０により出力された認識候補の信頼度を計算する。本発明において信頼度とは、認識部１２０から出力された認識候補が有効な（正しい）音声認識結果である確率を表す。例えば、信頼度は、認識候補である音素や単語以外の他の音素や単語を意味する音声などが発話される確率の相対値を意味してもよい。

信頼度を計算するための一例として、音素モデル及び反音素モデルを使うことができる。音素モデルは、ある音声で実際に発話された音素を抽出し、抽出された音素を調整することによって生成されるＨＭＭである。また、反音素モデルは、実際に発話された音素に類似した音素の集合である類似音素集合（ＣｏｈｏｒｔＳｅｔ）を調整して生成するＨＭＭを意味する。

音素モデル及び反音素モデルを使用して信頼度を計算する場合、信頼度計算部１３０は、特徴抽出部１１０により抽出された特徴と最も類似した音素を音素モデルで検索し、反音素モデルにおける検索された音素の類似度を計算する。その後、信頼度計算部１３０は、音素モデルに対する類似度と反音素モデルに対する類似度との差を求め、それを所定の関数に適用させることによって信頼度を計算することができる。

閾値設定部１４０は、認識候補に対するユーザの確認結果及び各認識候補の信頼度を利用して、音声認識装置を使用するユーザに適応した新たな閾値（以下、新たな閾値という）を設定する。閾値設定部１４０についての具体的な説明は、図２ないし図５Ｂを参照して後記する。

制御部１５０は、新たな閾値が設定されたか否かによって、認識部１２０から出力された認識候補についてユーザに確認応答を行うか否かを決定する。

もし、新たな閾値が設定されていなければ、制御部１５０は、認識部１２０から出力された認識候補をユーザに提供し、ユーザは認識候補に対する確認応答を入力する。この場合、ユーザが認識候補は正解である（正しい）と確認し応答すれば、制御部１６０は、該当認識候補を音声認識結果として出力する。

一方、新たな閾値が設定されている場合、制御部１５０は、認識部１２０から出力された認識候補の信頼度を新たな閾値と比較する。

比較した結果信頼度が新たな閾値以上であれば、制御部１５０は、認識候補を音声認識結果として出力する。この場合、制御部１５０は、認識候補に対してユーザの確認を受けなくても認識候補を音声認識結果として出力することができる。

しかし、信頼度と新たな閾値とを比較した結果、信頼度が新たな閾値未満であれば、制御部１５０は、認識候補をユーザに提供し、ユーザから認識候補についての確認応答を受ける。これは、新たな閾値が設定されていない場合と同様に行うことができる。

制御部１５０から出力された認識結果は、アプリケーション２１０に送られ特定のサービスを提供するために使用される。例えば、図示された音声認識装置がカーナビゲーションシステムに使われるならば、認識結果は、地図検索サービスを提供するアプリケーションに送ることができる。

図２は、本発明の一実施形態による閾値設定部をより具体的に示すブロック図である。

図示された閾値設定部１４０は、判断部３１０、分類部３２０、閾値計算部３３０及び保存部３４０を備える。

判断部３１０は、認識候補の信頼度を初期閾値と比較して、認識候補を正解と不正解とに分類する。すなわち、信頼度が初期閾値以上である認識候補は、ユーザから入力された音声に対する認識が成功である（正しい）ことを意味する正解に分類され、信頼度が初期閾値未満である認識候補は、ユーザから入力された音声に対する認識が失敗である(正しくない)ことを意味する不正解に分類される。初期閾値は、音声認識結果を使用するアプリケーションの特性によってあらかじめ設定することができる。判断部３１０により分類された認識候補の信頼度の分布についての一例を図３に図示した。図３で初期閾値は、２．０と設定されている。

分類部３２０は、各認識候補に対してユーザが確認した結果、正解と応答した認識候補を第１グループに分類し、ユーザが確認した結果、不正解と応答した認識候補を第２グループに分類する。したがって、第１グループには、判断部３１０では不正解に分類されたが、分類部３２０ではユーザが確認した結果によって実際には正解であると分類された認識候補（以下、誤った不正解（ｆａｌｓｅｒｅｊｅｃｔ）という）が含まれ、第２グループには、判断部３１０では正解に分類されたが、分類部３２０ではユーザが確認した結果によって実際には不正解であると分類された認識候補（以下、誤った正解（ｆａｌｓｅａｃｃｅｐｔａｎｃｅ）という）が含まれる場合がある。

図３に図示された認識候補に対する分類部３２０の分類作業の結果の例を、図４Ａ及び図４Ｂに図示した。図４Ａ及び図４Ｂで水平座標軸上に図示された数字は、各認識候補の信頼度の一例を示す。図４Ａの例で、認識候補４２０及び４３０は、誤った不正解である。また、図４Ｂの例で、認識候補５１０及び５２０は、誤った不正解であり、認識候補５３０及び５５０は、誤った正解である。

一方、分類部３２０により分類された認識候補及び認識候補の信頼度は保存部３４０に保存される。また、認識候補に対するユーザの確認結果は、制御部１５０から伝達してもよい。

閾値計算部３３０は、分類部３２０の認識候補の分類結果及び認識候補の信頼度によって、ユーザに適応した新たな閾値を計算する。閾値計算部３３０による新たな閾値計算は、音声を入力した全回数（ユーザの発話回数）が所定の閾値回数以上である場合に行われることが望ましい。閾値計算を行うか否かの基準になる閾値回数は、音声認識結果を使用するアプリケーションの特性によって変更可能である。例えば、音声認識において、高い精度を要求するアプリケーションであればあるほど、閾値回数を高く設定することができる。

閾値計算部３３０は、第１グループに分類された認識候補の信頼度が分布する区間（以下、第１信頼度区間という）と、第２グループに分類された認識候補の信頼度が分布する区間（以下、第２信頼度区間という）とが重畳しない場合、第１信頼度区間と第２信頼度区間との境界の範囲内の値を持つ新たな閾値を計算する。

より具体的には、閾値計算部３３０により計算される新たな閾値は、第１グループに分類された認識候補の信頼度のうち最も低い信頼度以下であり、第２グループに分類された認識候補の信頼度のうち最も高い信頼度以上である値を持つ。例えば、認識候補が、図４Ａに示すように分類された場合、新たな閾値は、認識候補４１０の信頼度と認識候補４２０の信頼度との間の値を持つように計算することができる。

閾値計算部３３０は、第１グループに分類された認識候補の信頼度のうち最も低い信頼度と、第２グループに分類された認識候補の信頼度のうち最も高い信頼度との平均値で新たな閾値を計算することが望ましい。例えば、図４Ａに図示された例で新たな閾値を、認識候補４１０の信頼度と認識候補４２０の信頼度との平均値にすることができる。

一方、第１信頼度区間と第２信頼度区間とが重畳する場合には、新たな閾値を計算するための他の方法が必要である。

信頼度計算アルゴリズムが完全でないなどの原因によって、図４Ｂに示すように、第１信頼度区間と第２信頼度区間とが明確に分類されずに重畳する場合、閾値計算部３３０は、第１信頼度区間と第２信頼度区間とが重畳する範囲内の値を持つ新たな閾値を計算することができる。

より具体的には、閾値計算部３３０により計算される新たな閾値は、第１グループに分類された認識候補の信頼度のうち最も低い信頼度以上であり、第２グループに分類された認識候補の信頼度のうち最も高い信頼度以下である値を持つことができる。例えば、認識候補が図４Ｂに示すように分類された場合、新たな閾値は、認識候補５１０の信頼度と認識候補５５０の信頼度との間の値を持つように計算することができる。

一方、新たな閾値は、誤った正解及び誤った不正解の数を減少させることができる値を持つことが望ましい。しかし、一般的に新たな閾値の数値が高くなればなるほど誤った不正解の数が増加し、新たな閾値の数値が低くなるほど誤った正解の数が増加する。したがって、閾値計算部３３０は、新たな閾値を基準として判断部３１０が保存部３４０に保存された認識候補に対して正解か又は不正解かを再び判断する場合、誤った正解と誤った不正解との割合が所定の割合に最も近い割合で分布するように新たな閾値を計算する。

すなわち、閾値計算部３３０は、第１グループに分類された認識候補のうち新たな閾値未満の信頼度を持つ認識候補の数と、第２グループに分類された認識候補のうち新たな閾値以上の信頼度を持つ認識候補の数との割合が所定の割合に最も近い割合になるように、新たな閾値を計算する。

このような条件を満足できる値は複数で存在しうる。例えば、後述する図５Ａの例で新たな閾値は、認識候補５１０及び認識候補５２０の信頼度の間の区間に含まれる値のうちの一つに決定することができる。

したがって、新たな閾値は、所定の信頼度範囲内に含まれるが、このときの所定の信頼度範囲は、第１グループに分類された認識候補のうち信頼度範囲の下限値未満の信頼度を持つ認識候補の数と、第２グループに分類された認識候補のうち信頼度範囲の上限値以上の信頼度を持つ認識候補の数との割合を、所定の割合に最も近い割合にする範囲であることが望ましい。

新たな閾値は、前述した条件を満足させる信頼度範囲の上限値以上の信頼度を持つ認識候補の信頼度のうち最も低い信頼度と、該当信頼度範囲の下限値以下の信頼度を持つ認識候補の信頼度のうち最も高い信頼度との平均値にすることがより望ましい。例えば、後述する図５Ａの例で閾値計算部３３０により計算される新たな閾値は、認識候補５１０の信頼度と認識候補５２０の信頼度との平均値でもよい。

一方、音声認識結果を使用するアプリケーションによって誤った正解及び誤った不正解がアプリケーションの性能に影響を及ぼす程度が異なる場合があるので、所定の割合はアプリケーションの特性によってあらかじめ設定することができる。

例えば、アプリケーションの特性上、誤った正解より誤った不正解の数を減らすことがより重要であれば、誤った正解より誤った不正解の比重の低い割合を設定することができる。すなわち、誤った正解と誤った不正解との総数のうち誤った不正解の割合が２０％であることが望ましいならば、誤った正解と誤った不正解との割合が４：１になるように所定の割合を設定することができる。

もし、図４Ｂに図示された例のように、認識候補が分類された状態で、誤った正解と誤った不正解との割合が２：１になるように所定の割合が設定されている場合、閾値計算部３３０により計算された新たな閾値は、認識候補５１０の信頼度と認識候補５２０の信頼度との間の値を持つことができる。

この場合、図４Ｂに図示された認識候補に対して、判断部３１０が新たな閾値を基準に正解と不正解とを分類するならば、認識候補５２０は正解に分類できる。その結果、図５Ａに示すように、誤った正解（認識候補５３０及び５５０）と誤った不正解（認識候補５１０）との割合が２：１になる。

一方、図４Ｂに図示された例のように認識候補が分類された状態で、誤った正解と誤った不正解との比重が１：２になるように所定の割合が設定されているならば、閾値計算部３３０により計算された閾値は、認識候補５３０の信頼度と認識候補５４０の信頼度との間の数値を持つことができる。この場合、図４Ｂに図示された認識候補に対して、判断部３１０が新たな閾値を基準に正解と不正解とを分類するならば、認識候補５３０は不正解に分類できる。その結果、図５Ｂに示すように誤った正解（認識候補５５０）と誤った不正解（認識候補５１０及び５２０）との割合が１：２になる。

このように閾値回数に対応する十分な回数の音声入力による認識候補の信頼度を利用してユーザに適応する新たな閾値を設定すれば、以後に入力されるユーザの発話に対する誤った正解と誤った不正解との割合は、統計的に所定の割合を維持する。

以下、図６及び図７を参照して本発明の実施形態によるユーザ適応型の音声認識装置の動作過程について説明する。

図６は、本発明の一実施形態によるユーザ適応型の音声認識方法を示すフローチャートである。

最初のユーザから音声が入力されれば（Ｓ１１０）、特徴抽出部１１０は入力された音声の特徴を抽出する（Ｓ１１５）。その後、認識部１２０は、ユーザから入力された音声より認識可能な認識候補を出力し（Ｓ１２０）、信頼度計算部１３０は、出力された認識候補に対する信頼度を計算する（Ｓ１２５）。

このとき、制御部１５０は、閾値設定部１４０により新たな閾値が設定されたか否かを判断する（Ｓ１３０）。

新たな閾値が設定された場合、制御部１５０は、信頼度計算部１３０により計算された信頼度を新たな閾値と比較する（Ｓ１３５）。

比較した結果、信頼度が新たな閾値未満であれば、制御部１５０は認識候補をユーザに提供する（Ｓ１４０）。この時、認識候補は、ディスプレイ部１６０を通じてユーザに視覚的に提供されるか、音声合成部１７０及びスピーカ部１８０を通じてユーザに聴覚的に提供される場合もある。

例えば、音声認識機能を持つカーナビゲーションシステムにおいて、宛先を検索するため、ユーザの音声入力に対する音声認識を実行した結果、認識部１２０から‘ソウル駅’という単語が認識候補として出力された場合、制御部１５０は、ディスプレイ部１６０を通じて‘ソウル駅が正しいですか？’という文章をユーザに示すことができる。あるいは、制御部１５０は、音声合成部１７０を通じて‘ソウル駅が正しいですか？’という音声を合成し、合成された音声をスピーカ部１８０を通じてユーザに出力することができる。

その後、制御部１５０は、認識候補に対するユーザの確認応答を受け取る（Ｓ１４５）。ユーザの確認応答はキーボード又はタッチスクリーンなどのユーザ入力部（図示せず）やユーザの音声を通じて入力してもよい。ユーザの応答が音声を通じて入力される場合、特徴抽出部１１０及び認識部１２０によりユーザの応答が肯定応答（認識候補が正解であると応答）であるか、又は否定応答（認識候補が不正解であると応答）であるかを認識した後、制御部１５０に伝えてもよい。

この時、制御部１５０は、ユーザに提供した認識候補についてユーザが正解であると応答したか否かを判断し（Ｓ１５０）、認識候補が正解であると応答した場合、該当認識候補を音声認識結果として出力する（Ｓ１５５）。例えば、カーナビゲーションで宛先検索のために音声認識結果による認識候補が‘ソウル駅’であり、これをユーザに提供した結果（例えば‘ソウル駅が正しいですか？’という質問をユーザに出力してもよい）、‘ソウル駅’という認識候補が正解であると応答されれば、制御部１５０は、‘ソウル駅’という単語を宛先検索アプリケーションに出力する。この時、宛先検索アプリケーションは、地図データで‘ソウル駅’を検索し、ユーザに現在位置からソウル駅までの車両運行経路、車両運行に要する時間などを提供する。

しかし、ユーザに提供された認識候補が不正解であると応答されれば、制御部１５０は、ディスプレイ部１６０や音声合成部１７０及びスピーカ部１８０を通じてユーザに音声認識に失敗したことを知らせ、音声の再入力を要求することができる（Ｓ１６０）。

一方、ステップＳ１３５の判断結果、信頼度が新たな閾値以上である場合、制御部１５０は、認識候補に対するユーザの確認応答過程を経ずに、該当認識候補を音声認識の結果として出力することができる（Ｓ１５５）。

ステップＳ１４０ないしステップＳ１６０の過程は、ステップＳ１３０の判断結果新たな閾値が設定されていない場合にも同様に行うことができる。

一方、ステップＳ１３０の判断結果、新たな閾値が設定されていない場合、閾値設定部１４０は、認識候補に対するユーザの確認結果及び各認識候補の信頼度を利用してユーザに適応する新たな閾値を設定するが、これを図７を参照しながら説明する。

図７は、本発明の一実施形態による新たな閾値設定過程を示すフローチャートである。

図６のステップＳ１３０での判断結果、新たな閾値が設定されていない場合、判断部３１０は、認識候補の信頼度を初期閾値と比較する（Ｓ２１０）。この時、判断部３１０は、初期閾値以上の信頼度を持つ認識候補を正解に分類し、初期閾値未満の信頼度を持つ認識候補を不正解に分類する。

一方、分類部３２０は、認識候補をステップＳ１４０でユーザに提供した結果、ユーザが正解であると応答すれば（Ｓ２２０）該当認識候補を第１グループに分類する（Ｓ２３０）。しかし、ユーザが不正解であると応答すれば、分類部３２０は、該当認識候補を第２グループに分類する（Ｓ２４０）。この時、分類部３２０により分類された認識候補及び認識候補の信頼度は保存部３４０に保存される。

音声入力回数が閾値回数以上であれば（Ｓ２５０）、閾値計算部３３０は新たな閾値を計算する。

閾値の計算時に、まず閾値計算部３３０は、第１信頼度区間と第２信頼度区間とが重畳するか否かを判断する（Ｓ２６０）。

もし、第１信頼度区間と第２信頼度区間とが重畳していなければ、閾値計算部３３０は、第１信頼度区間と第２信頼度区間との境界の範囲内の値を持つ新たな閾値を計算する（Ｓ２７０）。より具体的には、閾値計算部３３０は、第１グループに分類された認識候補の信頼度のうち最も低い信頼度以下であり、第２グループに分類された認識候補の信頼度のうち最も高い信頼度以上である値を持つように新たな閾値を計算する。閾値計算部３３０は、第１グループに分類された認識候補の信頼度のうち最も低い信頼度と、第２グループに分類された認識候補の信頼度のうち最も高い信頼度との平均値を新たな閾値として計算することが望ましい。

しかし、ステップＳ２６０の判断結果、第１信頼度区間と第２信頼度区間とが重畳すれば、閾値計算部３３０は、第１信頼度区間と第２信頼度区間とが重畳する範囲内の値を持つ新たな閾値を計算することができる（Ｓ２８０）。より具体的には、閾値計算部３３０により計算される新たな閾値は、第１グループに分類された認識候補の信頼度のうち最も低い信頼度以上であり、第２グループに分類された認識候補の信頼度のうち最も高い信頼度以下である値を持つことができる。新たな閾値は所定の信頼度範囲以内に含まれるが、このときの所定の信頼度範囲は、第１グループに分類された認識候補のうち信頼度範囲の下限値未満の信頼度を持つ認識候補の数と、第２グループに分類された認識候補のうち信頼度範囲の上限値以上の信頼度を持つ認識候補の数との割合を、所定の割合に最も近い割合にする範囲であることが望ましい。さらに、新たな閾値は、前述した条件を満足させる信頼度範囲の上限値以上の信頼度を持つ認識候補の信頼度のうち最も低い信頼度と、該当信頼度範囲の下限値以下の信頼度を持つ認識候補の信頼度のうち最も高い信頼度との平均値であることがより望ましい。

以上、添付図を参照して本発明の実施例を説明したが、本発明が属する技術分野の当業者であれば本発明がその技術的思想や必須特徴を変更せずとも他の具体的な形で実施することができるということが理解できるであろう。したがって、前述した実施例はすべての面で例示的なものであって、限定的なものではないと理解すべきである。

本発明は、携帯電話、ＰＤＡ、カーナビゲーションシステム、その他の家電機器などに好適に用いられる。

本発明の一実施形態によるユーザ適応型の音声認識装置を示すブロック図である。本発明の一実施形態による閾値設定部をさらに具体的に示すブロック図である。本発明の一実施形態による判断部により正解と不正解とに分類された認識候補の分布を示す図面である。本発明の一実施形態による分類部により分類された認識候補の分布の一例を示す図面である。本発明の一実施形態による分類部により分類された認識候補の分布の一例を示す図面である。本発明の一実施形態による新たな閾値を基準に分類された認識候補の分布の一例を示す図面である。本発明の一実施形態による新たな閾値を基準に分類された認識候補の分布の一例を示す図面である。本発明の一実施形態によるユーザ適応型の音声認識方法を示すフローチャートである。本発明の一実施形態による新たな閾値設定過程を示すフローチャートである。

符号の説明

１１０特徴抽出部
１２０認識部
１３０信頼度計算部
１４０閾値設定部
３１０判断部
３２０分類部
３３０閾値計算部
３４０保存部

Claims

ユーザから入力された音声の認識結果による認識候補の信頼度を計算するステップと、
前記認識候補についてユーザに確認した結果と前記計算した認識候補の信頼度とを利用して、ユーザに適応した新たな閾値を設定するステップと、
前記計算した認識候補の信頼度が前記設定した新たな閾値以上であれば、前記認識候補を音声認識結果として出力するステップと、を含むことを特徴とするユーザ適応型の音声認識方法。
前記新たな閾値を設定するステップは、
前記認識候補についてユーザに確認した結果、ユーザが正解であると応答した認識候補を第１グループに分類し、ユーザが不正解であると応答した認識候補を第２グループに分類するステップと、
前記第１グループに分類された認識候補の信頼度が分布する第１信頼度区間と、前記第２グループに分類された認識候補の信頼度が分布する第２信頼度区間とが重畳しない場合、前記第２グループに分類された認識候補の信頼度のうち最も高い信頼度以上であり、前記第１グループに分類された認識候補の信頼度のうち最も低い信頼度以下である範囲内の値を持つように前記新たな閾値を計算するステップと、を含むことを特徴とする請求項１に記載のユーザ適応型の音声認識方法。
前記新たな閾値は、前記第１グループに分類された認識候補の信頼度のうち最も低い信頼度と、前記第２グループに分類された認識候補の信頼度のうち最も高い信頼度との平均値であることを特徴とする請求項２に記載のユーザ適応型の音声認識方法。
前記第１信頼度区間と前記第２信頼度区間とが重畳する場合、前記第１グループに分類された認識候補の信頼度のうち最も低い信頼度以上であり、前記第２グループに分類された認識候補の信頼度のうち最も高い信頼度以下である範囲内の値を持つように、前記新たな閾値を計算するステップをさらに含むことを特徴とする請求項２に記載のユーザ適応型の音声認識方法。
前記新たな閾値は、所定の信頼度範囲以内に含まれ、前記信頼度範囲は、前記第１グループに分類された認識候補のうち前記信頼度範囲の下限値未満の信頼度を持つ認識候補の数と、前記第２グループに分類された認識候補のうち前記信頼度範囲の上限値以上の信頼度を持つ認識候補の数との割合を所定の割合に最も近い割合にする範囲で計算されることを特徴とする請求項４に記載のユーザ適応型の音声認識方法。
前記新たな閾値は、前記信頼度範囲の上限値以上の信頼度を持つ認識候補の信頼度のうち最も低い信頼度と、前記信頼度範囲の下限値以下の信頼度を持つ認識候補の信頼度のうち最も高い信頼度との平均値であることを特徴とする請求項５に記載のユーザ適応型の音声認識方法。
前記新たな閾値を設定するステップは、前記ユーザから入力された音声の入力回数が所定の閾値回数以上である場合に行われることを特徴とする請求項１に記載のユーザ適応型の音声認識方法。
ユーザから入力された音声の認識結果による認識候補の信頼度を計算する信頼度計算部と、
前記認識候補についてユーザに確認した結果と前記計算した認識候補の信頼度とを利用して、ユーザに適応した新たな閾値を設定する閾値設定部と、
前記計算した認識候補の信頼度が前記設定した新たな閾値以上であれば、前記認識候補を音声認識結果として出力する制御部と、を備えることを特徴とするユーザ適応型の音声認識装置。
前記閾値設定部は、
前記認識候補についてユーザに確認した結果、ユーザが正解であると応答した認識候補を第１グループに分類し、ユーザが不正解であると応答した認識候補を第２グループに分類する分類部と、
前記第１グループに分類された認識候補の信頼度が分布する第１信頼度区間と、前記第２グループに分類された認識候補の信頼度が分布する第２信頼度区間とが重畳しない場合、前記第２グループに分類された認識候補の信頼度のうち最も高い信頼度以上であり、前記第１グループに分類された認識候補の信頼度のうち最も低い信頼度以下である範囲内の値を持つように前記新たな閾値を計算する閾値計算部と、を備えることを特徴とする請求項８に記載のユーザ適応型の音声認識装置。
前記新たな閾値は、前記第１グループに分類された認識候補の信頼度のうち最も低い信頼度と、前記第２グループに分類された認識候補の信頼度のうち最も高い信頼度との平均値であることを特徴とする請求項９に記載のユーザ適応型の音声認識装置。
前記閾値計算部は、前記第１信頼度区間と前記第２信頼度区間とが重畳する場合、前記第１グループに分類された認識候補の信頼度のうち最も低い信頼度以上であり、前記第２グループに分類された認識候補の信頼度のうち最も高い信頼度以下である範囲内の値を持つように、前記新たな閾値を計算するステップをさらに含むことを特徴とする請求項９に記載のユーザ適応型の音声認識装置。
前記新たな閾値は、所定の信頼度範囲以内に含まれ、前記信頼度範囲は、前記第１グループに分類された認識候補のうち前記信頼度範囲の下限値未満の信頼度を持つ認識候補の数と、前記第２グループに分類された認識候補のうち前記信頼度範囲の上限値以上の信頼度を持つ認識候補の数との割合を所定の割合に最も近い割合にする範囲で計算されることを特徴とする請求項１１に記載のユーザ適応型の音声認識装置。
前記新たな閾値は、前記信頼度範囲の上限値以上の信頼度を持つ認識候補の信頼度のうち最も低い信頼度と、前記信頼度範囲の下限値以下の信頼度を持つ認識候補の信頼度のうち最も高い信頼度との平均値であることを特徴とする請求項１２に記載のユーザ適応型の音声認識装置。
前記閾値設定部は、前記ユーザから入力された音声の入力回数が所定の閾値回数以上である場合に前記新たな閾値を設定することを特徴とする請求項８に記載のユーザ適応型の音声認識装置。