JP2000181482A - 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法 - Google Patents

音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法

Info

Publication number
JP2000181482A
JP2000181482A JP11352260A JP35226099A JP2000181482A JP 2000181482 A JP2000181482 A JP 2000181482A JP 11352260 A JP11352260 A JP 11352260A JP 35226099 A JP35226099 A JP 35226099A JP 2000181482 A JP2000181482 A JP 2000181482A
Authority
JP
Japan
Prior art keywords
utterance
adaptation
speech recognition
recognition device
received
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11352260A
Other languages
English (en)
Inventor
Goronjii Silke
ゴロンジー シルケ
Konpe Ralf
コンペ ラルフ
Buchner Peter
ブフナー ペーター
Naoto Iwahashi
直人 岩橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Sony Corp
Original Assignee
Sony International Europe GmbH
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony International Europe GmbH, Sony Corp filed Critical Sony International Europe GmbH
Publication of JP2000181482A publication Critical patent/JP2000181482A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 音声認識装置の認識率を高めることができ
る。 【解決手段】 D/A変換器12は、マイクロフォンか
らのアナログ音声信号をディジタル音声信号に変換し、
特徴抽出器スイッチ13は、ディジタル音声信号から特
徴ベクトルを抽出する。認識器14は、利用者の発話
を、特徴ベクトルと、話者適応モデル及び/又は話者独
立モデルの集合に基づいて認識し、適応器17は、認識
結果が供給され、話者適応モデルの集合を生成及び/又
は適応させる。判定器21は、任意の受信された単語
を、話者適応モデルの集合の生成及び/又は適応のため
に用いるか否かを示す信号を適応器17に供給する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置、自
動音声認識(Automatic Speech Recognition:ARS)
装置の非教示及び/又はオンライン適応方法、及び非教
示又はオンライン適応の実行方法に関する。
【0002】
【従来の技術】従来の音声認識装置は、任意の音声セグ
メント(speech segment)の音響特性(acoustic proper
ties)をモデル化した統計的な分布(statistical distr
ibution)を利用している。これらの音響特性は、特徴
ベクトル(feature vectors)にエンコードされる。例
えば、各音素(phoneme)に対して1つのガウス分布を
得ることができる。これらの分布は、状態に関連付けら
れる。(確率的な)状態遷移ネットワーク、例えば隠れ
マルコフモデル(Hidden Markov Model:以下、HMM
sという。)は、状態の連続及び特徴ベクトルの連続の
確率を定義する。状態を進める毎に、音声信号のフレー
ム、例えば音声信号の10ms分をカバーする1つの特
徴ベクトルが生成される。
【0003】このような音声認識装置の確率パラメータ
は、話者特定(Speaker Dependent:SD)方式では単
一話者が発した多量の音声データを用い、又は話者独立
(Speaker Independent:SI)方式では多くの話者が発
した多量の音声データを用いて学習される。
【0004】話者適応法(Speaker Adaptation:SA)
は、話者独立(SI)方式の認識率を高める目的で広く
利用されている。従来の話者特定(SD)方式は、話者
独立(SI)方式に比べてはるかに高い認識率が得られ
る。しかし、多くの場合、単一話者から自動音声認識装
置が学習するのに十分なデータを得ることは容易でな
い。このことは、民生用機器においては、さして必要と
されないかもしれない。この認識率におけるミスマッチ
を解決するべく、話者独立(SI)方式において、話者
特定(SD)方式に近い認識率が得られるように、話者
適応アルゴリズムが広く用いられているが、話者特定
(SD)方式に近い認識率が得られるのは、話者特定デ
ータの断片(fraction)を用いる場合のみである。これ
らの音声認識装置は、最初は話者独立モデルを用い、そ
の後、話者の音響特性により一致するように適応が用い
られる。
【0005】適応は、一般的には、教示(supervised)
によって行われる。すなわち、音声認識装置は、発せら
れた発話(words)が分かると、それらを認識する。こ
れによって、セグメント単位の分布(segment-specific
distributions)の時間的な配列(time alignment)が
得られる。実際の特徴ベクトルと対応する分布のパラメ
ータの違い(mismatch)が、適応の基礎となる。教示に
よる適応(supervisedadaptation)では、新しい話者が
音声認識装置を実際に使用する前に、新しい話者毎の適
応授業(セッション)が必要とされる。
【0006】図5は、従来の音声認識装置の構成を示す
ブロック図である。話者が発した発話(utterance)
は、マイクロフォン31によって受信され、A/D変換
器32によってディジタル信号に変換される。A/D変
換器32には特徴抽出器33が接続されており、特徴抽
出器33は、例えばミリ秒毎に特徴ベクトルを抽出す
る。この特徴ベクトルは、音声認識装置を学習させるた
めに用いられ、また、学習の後においては話者特定モデ
ルを最初に適応させるために用いられ、音声認識装置が
使用されている間は発話を認識するために用いられる。
【0007】特徴抽出器33は、切換スイッチ34の選
択接点aに接続されている。この切換スイッチ34の非
選択接点cには学習器35が接続され、非選択接点bに
は認識器37が接続されている。学習器35は、隠れマ
ルコフモデルを用いて動作し、話者独立(SI)方式の
HMMs集合を生成する。話者独立(SI)方式のHM
Ms集合は、通常、自動音声認識装置の製造業者が予め
不特定多数の話者から得たものであり、データベースと
して予めストレージ装置36に記憶されている。
【0008】音声認識装置がSIモデルの集合をロード
すると、切換スイッチ34の選択接点aと非選択接点b
が接続され、特徴抽出器33によって抽出された特徴ベ
クトルが認識器37に供給される。すなわち、音声認識
装置は、利用者によって使用され、その利用者に適応さ
れる。そして、認識器37は、抽出された特徴ベクトル
と話者独立モデルの集合に基づいて、認識結果を算出す
る。認識器37は、適応器38に接続されており、適応
器38は、それぞれの話者に適応させる間、話者適応モ
デルの集合を算出して、ストレージ装置39に記憶す
る。その後も、認識器37は、抽出された特徴ベクトル
と話者適応モデルの集合に基づいて、認識結果を算出す
る。そして、音声認識装置の特定の話者に対する認識性
能を高めるために、話者適応モデルの集合の適応が繰り
返し実行される。
【0009】話者適応の技術では、一般的に、隠れマル
コフモデルのパラメータを、新しい話者の音響特性に適
合するように変更する。この処理は、一般的には、上述
のようにバッチ処理(batch)又はオフライン処理(off
-line)で行われる。すなわち、話者は、自動音声認識
装置を用いて認識を行わせる前に、所定の文章(text)
を読み上げる必要があり、読み上げられた文章は、適応
を行うために処理される。そして、この処理が終了した
後、音声認識装置は認識のために用いることができる。
このモードは、教示適応(supervised adaptation)と
呼ばれ、文章が音声認識装置にとって既知のものであ
り、音声信号を文章に対応するモデルに無理矢理配列し
て、認識に用いる。
【0010】ところで、殆どの種類の民生用機器に対し
ては、非教示又はオンライン方式(unsupervised or on
-line method)の方がより適している。この場合、適応
は、音声認識装置が使用されている最中に行われる。認
識された発話は、適応のために用いられ、また、変更さ
れたモデルは、次の発話の認識のために用いられる。こ
の場合、読み上げられる文章は、音声認識装置には未知
のものであるので、認識された発話が代わりに用いられ
る。
【0011】ヨーロッパ特許出願公開番号076381
6A2号において、HMM学習の最適化規準(optimiza
tion criterium)として、尤度尺度(confidence measu
res)を用いることが提案されている。この尤度尺度
は、認識結果を「多分正しい(probably correct)」又
は「多分正しくない(probably incorrect)」のいずれ
かに分類するために用いられる追加的な知識源(knowle
dge source)である。したがって、尤度尺度は、最もよ
く認識されたn個の単語列(word strings)を検証する
ために用いられ、また、検証処理の結果、すなわちロス
関数(loss function)の微分(derivation)は、モデ
ルを学習するための最適化規準として用いられる。この
場合、全ての発話は学習のために用いられ、この方法
は、紛らわしい発話の尤度(likelihood)における違い
を最大にするために用いられる。なお、この公報は、音
声認識装置を利用する前に行うHMM学習しか言及して
いない。
【0012】一方、ヨーロッパ特許出願公開番号077
6532A2号には、「しまった(oops)」という所定
のキーワードを発した後、利用者がタイプ入力によって
誤認識された発話を訂正したり、音声認識装置自身が誤
認識の訂正を試みる方法が開示されている。いずれの場
合にも、音声認識装置は、単語又は単語列を誤認識した
とに、音声モデルを学習し、適応を行うのみである。
【0013】
【発明が解決しようとする課題】話者独立隠れマルコフ
モデルの適応を用いる音声認識装置において、HMMs
は、新たな各発話の後、又は発話の一部の後でも、確実
に更新されなければならない。また、自動音声認識装置
に入力される単語は、何度も繰り返されるものではな
く、自動音声認識装置にとって既知のものではない。し
たがって、適応させる話者の数は限られており、すなわ
ち一度に利用できる適応データは僅かであり、また、認
識器の出力は正しい単語であると仮定しなければならな
いので、話者独立の自動音声認識装置の性能によっては
誤認識が生ずるといった問題がある。そして、これらの
単語は、適応のために用いられ、それらが誤認識された
ものであるときは、適応アルゴリズムによって、モデル
が悪い方に変更されしまう。このようなことが繰り返し
起こると、認識性能は大幅に低下する。
【0014】本発明の目的は、上述した従来の問題点を
解決することができる、非教示及び/又はオンライン適
応を用いた音声認識装置、自動音声認識装置の非教示及
び/又はオンライン適応方法、及び非教示又はオンライ
ン適応の実行方法を提供することである。
【0015】
【課題を解決するための手段】本発明に係る自動音声認
識装置の非教示及び/又はオンライン適応方法では、受
信された発話又は発話の一部を用いた適応度合が、上記
受信された発話又は発話の一部の認識結果の信頼度に基
づいている。
【0016】また、本発明に係る音声認識装置は、利用
者の発話を受信して、アナログ信号を出力するマイクロ
フォンと、アナログ信号をディジタル信号に変換するア
ナログ/ディジタル変換手段と、ディジタル信号から、
受信された利用者の発話の特徴ベクトルを抽出する特徴
抽出手段と、受信された利用者の発話を、特徴ベクトル
と、話者適応モデル及び/又は話者独立モデルの集合と
に基づいて認識する認識手段と、話者適応モデルの集合
を生成及び/又は適応させる適応手段と、任意の受信さ
れた単語を、話者適応モデルの集合の生成及び/又は適
応のために用いるか否かを示す信号を適応手段に供給す
る判定手段を備える。
【0017】
【発明の実施の形態】以下、本発明に係る音声認識装
置、自動音声認識装置の非教示及び/又はオンライン適
応方法、及び非教示又はオンライン適応の実行方法につ
いて、図面を参照しながら説明する。
【0018】図2は、誤認識された単語(word)の適応
を防ぎ、適応度合(grade of adaptation)を決定する
ために尤度尺度(confidence measures)を用いる本発
明を適用した適応方法を示す図である。この適応方法
は、ステップS1から始まる無限ループとして繰り返し
実行される。
【0019】ステップS1において、話者の発話(utte
rance)は、従来の音声認識装置と同様に認識される。
ステップS2において、尤度尺度(confidence measure
s)が、ステップS1の結果に対して適用される。この
ステップS2において、尤度尺度が、認識結果がどの程
度の信頼度(reliability)を有するかを計るのに用い
られる。尤度尺度が所定の閾値未満であるときは、認識
された単語は信頼度が低いとみなされ、適応に用いられ
ることはなく、適応処理は再びステップS1に戻り、次
の利用者の発話の認識が行われる。一方、尤度尺度が所
定の閾値以上のときは、認識結果は信頼度が高いとみな
されて、処理が次の利用者の発話を認識するためのステ
ップS1に戻る前に、認識結果は、ステップS3におけ
る適応のために用いられる。
【0020】本発明に基づく尤度尺度を計算するため
に、1つの又は幾つかの特徴が、認識仮説(recognitio
n hypothesis)及び/又は音声信号から抽出される。そ
して、これらの特徴に基づいて、音素(phoneme)/単
語(word)/句(phrase)が正しく又は正しくなく認識
されたかで分類される。この判定は、ハードデシジョン
(hard decision)ではないが、受信された発話の正確
さのある確率(probability)が計算される。この判定
は、例えばニューラルネットワーク(neural network)
又は入力としての特徴を有し、幾つかの内部パラメータ
に基づいた尤度尺度を計算する判定ツリー(decision t
ree)に基づくものである。
【0021】ニューラルネットワークを尤度尺度の計算
に用いるときは、出力、すなわち尤度尺度は、典型的に
は0から1の間の値をとる。この値が1に近ければ近い
ほど、音素/単語/発話又はそれらの連続は、正しく認
識されている。したがって、所定の閾値としては0〜1
までの値が定義され、尤度尺度がこの閾値以上のとき
は、認識結果が正しいものに分類される。
【0022】尤度尺度を計算する際の基礎となる特徴
は、認識結果から抽出され、又は認識結果に基づいた音
声信号から直接計算される。このような特徴は、例えば
相対的なn−最良認識仮説(n-best recognition hypot
heses)の評価点(score)、HMM状態の継続時間(HM
M state duration)、認識された単語の基礎をなす認識
された音素の継続時間、又は区分可能性(segment prob
ability)等である。後者の2つは、幾つかのフレーム
を含む音声セグメント全体によって与えられる単語仮説
(word hypothesis)中に含まれるこのような音素の確
率を決定する確率モデル(stochastic model)によっ
て、計算される。
【0023】そして、尤度尺度は、適応度合を決定する
ためにも直接用いることができる。いうまでもなく、尤
度尺度を求める一番簡単な方法は、唯一の特徴、例えば
認識中にHMMsによって得られる評価点を抽出し、閾
値に基づいて単語が正しく認識されたか否かを判定する
ことである。この場合、適応度合は常に一定となる。
【0024】ところで、固定の閾値の代わりに、尤度尺
度を、ステップS3において実行される適応度合を決定
する重みを計算するために、用いるようにしてもよい。
【0025】また、適応を行う際に、例えば、判定に用
いられる閾値が、音声信号から抽出された特徴に依存し
てどのように適応されるかに基づき、他のパラメータを
変更するようにしてもよい。
【0026】HMMモデルの話者適応を行う際、話者適
応が尤度尺度の特徴に影響を与えるので、問題が生じ
る。そこで、特徴を標準化して、特徴がHMMモデルの
このような変更に対しても不変であるようにするか、若
しくは尤度尺度又は尤度尺度を比較するための閾値の特
徴又はパラメータをオンラインで自動的に適応させる必
要がある。この適応は、尤度尺度の正確さのような規準
を最適化する公式的なアルゴリズムに基づいている。後
者は、ビジョン(vision)、解釈(interpretation)、
韻律(prosody)のモデルにおいて決定される利用者の
反応に基づいて、評価される。
【0027】また、尤度尺度は、ユーザの発話全体に対
するのみならず、適応において常に拒絶されるとは限ら
ない発話全体の単語形式(word-wise)又は音素形式(p
honeme-wise)にも、すなわち誤認識された1つの単語
又は誤認識された音素を含む単語にも適用することがで
きる。また、尤度尺度は、他の任意の長さの音声セグメ
ントにも適用することができる。
【0028】尤度尺度によって導かれるこのような適応
では、例えば単語が誤認されたことを自動音声認識装置
に通知する等の利用者からの行動(action)を必要とし
ない。したがって、発話又は単語が誤認識され、適応度
合が、正しく認識される結果の確率に依存するという事
実には関わりなく、利用者が発した全ての発話又は全て
の単語が適応に用いられるのではないので、この適応方
法は、自動音声認識装置の非教示又はオンライン適応に
おいて、従来の自動音声認識装置よりも、かなり高い認
識率が得られる。
【0029】図3は、本発明を適用した他の適応方法を
示す図である。図2に示すように、1つの発話、1つの
単語又は複数の単語が適応に用いられるかを決定するた
めに、ダイアログ履歴(dialog history)が用いられ
る。
【0030】ダイアログ方式では、利用者の反応が、認
識された言葉が正しいか否かを示すことがしばしばあ
る。利用者のこのような反応を判定する方法を図3に示
す。この適応方法は、図2に示す適応方法と同様、ステ
ップS11から始まる無限ループとして繰り返し実行さ
れる。
【0031】ステップS11において、利用者の発話#
iが、従来の自動音声認識装置と同様に認識される。ス
テップS12において、認識結果が解釈され、発話#i
の前に発せられた発話#i−1に対する自動音声認識装
置の応答に利用者が満足したかが判定される。例えば、
このような発話#i−lが「テレビの電源を入れよ」で
あったが、自動音声認識装置が何らかの理由で「ラジオ
の電源を入れよ」と認識し、ラジオの電源が投入された
とする。利用者は、この誤りに気づき、次に「ラジオで
はなく、テレビだ。」又は「違う、私はテレビと言っ
た」と発声する(発話#i)。ステップS12におい
て、この場合、自動音声認識装置は、発話#iに基づ
き、前に認識された発話は、誤認識であり、適応に用い
てはならないと解釈する。ステップS13において、利
用者の発話#i−lが適応に用いられることが中止さ
れ、自動音声認識装置は、ステップS12の直後に実行
されるステップS14の処理を行わない。ステップS1
4における自動音声認識装置の動作又は応答の後、ステ
ップS15において、iの値がインクリメント(i=i
+1)される。そして、ステップS11に戻り、利用者
の次の発話#iが認識される。
【0032】ステップS12において、利用者が満足し
たか否かの判定に、発話の表現方法又は解釈の結果は別
にして、利用者の感情的状態に関する情報、例えば抑揚
(intonation)及び/又は韻律(prosody)を用いるよ
うにしてもよい。抑揚及び/又は韻律を用いて発話を解
釈することによって、自動音声認識装置は、前に認識さ
れた発話が誤認識されたことを識別するための特別な反
応を必要とはしない。例えば、利用者が、前の発話が誤
認識された後に、怒った口調で「テレビの電源を入れ
よ。」と言った場合、自動音声認識装置は、利用者は方
針を変更していないが、前に認識された指示は誤認識さ
れたものとして、適応には用いないものとする。
【0033】また、例えばコンピュータとそれに接続さ
れたビデオカメラ等の視覚演算処理装置(visual compu
tation system)によって得られる利用者及び/又は利
用者の顔の静止画(picture)又は動画(video sequenc
e)に基づいて、例えば仕草(mimic)等の利用者の反応
を、認識された発話を検証するために用いることもでき
る。
【0034】この場合、自動音声認識装置が外部(Back
ground)の音声又は雑音に基づいて幾つかの言葉を認識
しても、利用者の仕草によって、利用者が怒っている
か、驚いているか、口を閉ざしているかを判定すること
ができる。
【0035】このような利用者の反応の1つ又はそれら
の組合せ、並びに反応の強さに基づいて、適応度合を決
定することができる。尤度尺度の場合と同様、閾値を設
定したハードデシジョンによって、適応度合を一定にす
るようにしてもよい。
【0036】図4は、本発明を適用した他の適応方法を
示す図である。図4に示すように、自動音声認識装置
は、話者適応モデルの性能が余りにも悪い場合には、初
期の話者独立(speaker independent:SI)モデルに
戻るようになっている。
【0037】この場合、誤認識された単語を用いて適応
を(繰り返し)行うと、又は新しい話者が自動音声認識
装置を利用すると、自動音声認識装置の認識性能は低下
する。したがって、自動音声認識装置は、元の話者独立
モデルに戻る。この適応方法は、図2及び図4に示す適
応方法と同様に、並列に実行されるステップS21及び
ステップS23から始まる無限ループとして繰り返し実
行される。
【0038】すなわち、ステップS21において、利用
者の発話は、話者適応モデルを用いて認識され、一方、
ステップS23において、同じ利用者の発話は、初期の
話者独立モデルを用いて認識される。いずれの認識結果
に対しても、それぞれステップS22とステップS24
において尤度尺度が適用される。ステップS25におい
て、例えば両方の尤度尺度の結果が比較され、ステップ
S26における初期の話者独立モデルを用いた適応を再
開するか、ステップS27における話者適応モデルを用
いた適応を行うかが決定された後、ステップS21及び
ステップS23において、利用者の次の発話が並列して
認識される。
【0039】この適応方法は、両方の認識結果を比較す
るために尤度尺度を用いることには限定されない。自動
音声認識装置が、利用者の他の反応、例えば各発話の前
及び/又は後のある時点での利用者の振る舞い、若しく
は抑揚及び/又は韻律を用いるようにすることもでき
る。また、自動音声認識装置が、利用者に対していずれ
のモデルを使用するか、又はいずれの認識結果が正しい
のかを判断するように問い合わせ、各モデルの集合を用
いて、その後の認識及び適応を行うようにしてもよい。
【0040】したがって、元のモデルを保存するととも
に、例えば適応処理がある回数行われた後、又は音声が
中断した後のそれらの性能を、適応されたものと比較す
ることによって、話者独立モデル及び/又は尤度尺度を
用いた認識結果が、話者適応モデルの性能が初期の話者
独立モデルの性能に劣ることを示すときは、音声認識装
置は、初期の話者独立モデルを用いるとともに、適応を
再開する。それによって、認識率が(極端に)低下する
ことなく、向上するか同じレベルを維持することを保証
することができる。この適応方法を用いることにより、
利用者は、その音声によって自動音声認識装置を人間が
するのと同じように動かすことができるので、その期待
は正確に満足される。
【0041】また、話者適応モデル(speaker adapted
model)を、認識率が(極端に)低下しないことを確実
に保証するために、話者独立モデルと比較するだけでは
なく、最新の話者適応モデルを従来の話者適応モデルと
比較して、最も認識性能の高いモデルを選択し、その話
者適応モデルに基づいた適応を行うようにしてもよい。
【0042】なお、非教示又はオンライン適応モードに
おいて、誤認識された単語又は文(sentence)を用いて
適応が行われるのを防止するために、本発明を適用した
上述の4つの適応方法を、全て又は幾つかを組み合わせ
るようにしてもよい。これらの適応方法によって、認識
された単語又は認識された発話を用いて適応を行うか否
かが制御される。また、認識率が(極端に)低下しない
ことが保証される。上述したように、提案したアルゴリ
ズムは、適応方法そのものには依存するものではなく、
すなわちいずれの話者適応アルゴリズムとも組み合わせ
ることができる。
【0043】すなわち、本発明では、認識結果がどの程
度信頼度があるかを示すある種の量が用いられる。そし
て、自動音声認識装置の適応は、認識結果の信頼度に基
づいている。したがって、本発明に係る自動音声認識の
適応方法は、教示する利用者又は適応のための固定され
た語彙の集合を必要としないので、半教示型話者適応と
呼ばれる。
【0044】認識の信頼度が高いときは、発話を特定の
話者に対する適応のため用いることができるが、認識の
信頼度が低いときは、モデルが悪い方向に変更されるの
を防ぐために、発話は廃棄される。その代わり、信頼度
に依存して、適応の度合を決定する重みを計算すること
ができる。
【0045】図1は、非教示又はオンライン話者適応を
行う適応方法の1つ又は複数を用い、本発明を適用した
音声認識装置の具体的な構成を示すブロック図である。
【0046】図1に示す自動音声認識装置は、図5に示
す従来の自動音声認識装置とは対照的に、従来の自動音
声認識装置の学習器35のような学習器、又はそれに類
似した回路を備えていない。なお、本発明に関しては、
学習は適応に関係なく行われることから、学習器がない
ことによって、本発明に係る自動音声認識装置が限定さ
れるものではない。すなわち、特徴抽出器13の後段
に、適応/認識モードと学習モードとを切り換える切換
スイッチを設け、特徴抽出器13からの特徴ベクトルを
各モードに応じて選択的に認識器14と学習器(図示せ
ず)に供給し、学習器がストレージ装置15に記憶され
ている話者独立モジュールの集合にをアクセスするよう
にしてもよい。
【0047】図1は、本発明に基づく半教示話者適応
(semi-supervised speaker adaptation)に用いられる
自動音声認識装置の一部を示すものである。
【0048】A/D変換器12は、マイクロフォン11
によって生成されたアナログ音声信号をディジタル信号
に変換して、特徴抽出器13に供給し、特徴抽出器13
は、ディジタル音声信号から特徴ベクトルを例えば10
ミリ秒毎に抽出する。抽出された特徴ベクトルは、認識
器14に供給され、認識器14は、話者独立モデルの集
合が記憶されているストレージ装置15、話者適応モデ
ルの集合が記憶されているストレージ装置16、及びM
AP又はMLLR等の適応方法を用い、話者独立モデル
の集合を適応させることによって話者適応モデルの集合
を生成する話者適応器17にアクセスする。すなわち、
話者適応器17は、話者適応モデルの集合を記憶するた
めに用いられるストレージ装置16を介し、ストレージ
装置15に記憶されている話者独立モデルの集合にアク
セスする。
【0049】本発明を適用した自動音声認識装置では、
認識器14は、上述したように1つの音素、幾つかの音
素、1つの単語、幾つかの単語又は発話全体が適応に用
いられるべきかを決定するために、その認識結果を両方
の方法を実行する音素抽出器18及び解釈器19に供給
する。すなわち、認識器14は、認識結果を尤度尺度器
23に供給し、尤度尺度器23は、上述したように、尤
度尺度を計算する。これらの音素抽出器18〜尤度尺度
器23は、それぞれの結果を判定器21に供給し、判定
器21は、これらに結果に基づいて、上述した1つの音
素、幾つかの音素、1つの単語、幾つかの単語又は発話
全体を用いて適応を行うかを判定し、判定結果を話者適
応器17に供給する。話者適応器17は、この判定結果
に基づき、音素、幾つかの音素、1つの単語、幾つかの
単語又は発話全体を用いて、話者適応モデルを適応さ
せ、又は適応させない。また、判定器21は、ある発話
に対応する利用者の視覚的振る舞い、すなわち利用者の
自覚的な感情状態、例えば怒り又は驚き、若しくは認識
された発話の全てが利用者によるものか、又は別の誰か
が言ったものか示す、ある特定の音声に対応した利用者
の視覚的行為、すなわち感情的状態を視覚的に示す視覚
器22からの出力信号が供給される。
【0050】検証器20は、認識器14から両方の結
果、すなわち話者適応モデルの集合に基づく結果と話者
独立モデルに基づく結果が供給され、この自動音声認識
装置が話者独立モデルと話者適応モデルのいずれを用い
るかを決定する。検証器20の結果は、判定器21に供
給され、判定器21は、決定の結果に基づき、いずれか
のモデルの集合を用いて、認識を行い、認識結果を音素
抽出器18、解釈器19及び尤度尺度器23に供給する
かを制御する制御信号を認識器14に供給する。
【0051】適応に発話又は発話の一部のみを用いるか
を決定するために閾値を変化させることは別として、判
定器21に入力される特徴は適応することができ、又は
判定器21のパラメータも適応することができる。
【0052】また、判定器21は、話者適応器17にお
いて実行されるべき適応度合を決定するために、上述し
た1つの音素、幾つかの音素、1つの単語、幾つかの単
語又は発話全体の尤度を判定する。また、音素抽出器1
8、解釈器19、検証器20及び尤度尺度器23で用い
られるパラメータは、上述したように、動的に変化す
る。また、判定器21は、話者適応モデルがよりよく機
能するときは、直ちに話者独立モデルに切り換えるので
はなく、この決定の前に、さらに幾つかの発話を持つよ
うにしてもよい。
【0053】以上の説明でも明らかなように、判定器2
1は、発話又は発話の一部の尤度尺度(いずれのパラメ
ータ又は特徴は適応可能である)、利用者が発した発話
又は発話の一部の音韻に関する情報、発せられた発話の
文脈(context)に基づいて決定された利用者の反応の
解釈、利用者の視覚的振る舞いの解釈、及び適応度合を
決定するための利用者の検証結果が供給される。なお、
本発明は、上述した具体例に限定されるものではなく、
例えば、これらの情報の一部に基づいて、決定を行うよ
うにしてもよい。
【0054】
【発明の効果】以上の説明からも明らかなように、本発
明に係る自動音声認識装置の非教示及び/又はオンライ
ン適応方法では、受信された発話又は発話の一部を用い
た適応度合が、上記受信された発話又は発話の一部の認
識結果の信頼度に基づいている。これにより、誤認識さ
れた発話が適応に用いられて、適応モデルが悪い方に変
更されることを防ぐことができる。すなわち、自動音声
認識装置の認識率が極端に低下するのを防ぐことができ
る。
【図面の簡単な説明】
【図1】本発明を適用した音声認識装置の具体的な構成
を示すブロック図である。
【図2】本発明を適用した適応方法を説明するためのフ
ローチャートである。
【図3】本発明を適用した適応方法を説明するためのフ
ローチャートである。
【図4】本発明を適用した適応方法を説明するためのフ
ローチャートである。
【図5】従来の音声認識装置の構成を示すブロック図で
ある。
【符号の説明】
11 マイクロフォン、12 A/D変換器、13 特
徴抽出器、14 認識器、15,16 ストレージ装
置、17 適応器、18 音素抽出器、19 解釈器、
20 検証器、21 判定器、22 視覚器
───────────────────────────────────────────────────── フロントページの続き (72)発明者 シルケ ゴロンジー ドイツ連邦共和国 ディー−70736 フェ ルバッハシュトゥットゥガルター シュト ラーセ 106 ソニー インターナショナ ル (ヨーロッパ) ゲゼルシャフト ミ ット ベシュレンクテル ハフツングシュ トゥットゥガルト テクノロジーセンター 内 (72)発明者 ラルフ コンペ ドイツ連邦共和国 ディー−70736 フェ ルバッハシュトゥットゥガルター シュト ラーセ 106 ソニー インターナショナ ル (ヨーロッパ) ゲゼルシャフト ミ ット ベシュレンクテル ハフツングシュ トゥットゥガルト テクノロジーセンター 内 (72)発明者 ペーター ブフナー ドイツ連邦共和国 ディー−70736 フェ ルバッハシュトゥットゥガルター シュト ラーセ 106 ソニー インターナショナ ル (ヨーロッパ) ゲゼルシャフト ミ ット ベシュレンクテル ハフツングシュ トゥットゥガルト テクノロジーセンター 内 (72)発明者 岩橋 直人 東京都品川区東五反田3−14−13 ソニー コンピュータサイエンス研究所内

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 自動音声認識装置の非教示及び/又はオ
    ンライン適応方法において、 受信された発話又は発話の一部を用いた適応度合が、上
    記受信された発話又は発話の一部の認識結果の信頼度に
    基づいている自動音声認識装置の非教示及び/又はオン
    ライン適応方法。
  2. 【請求項2】 上記受信された発話又は発話の一部は、
    上記認識結果の信頼度が閾値以上であるときに、適応に
    用いられ、上記認識結果の信頼度が上記閾値未満のとき
    は、廃棄されることを特徴とする請求項1に記載の自動
    音声認識装置の非教示及び/又はオンライン適応方法。
  3. 【請求項3】 上記閾値は、固定値又は動的に変化する
    ことを特徴とする請求項1又は2に記載の自動音声認識
    装置の非教示及び/又はオンライン適応方法。
  4. 【請求項4】 上記受信された発話又は発話の一部の認
    識結果の信頼度は、尤度尺度に基づいて計られることを
    特徴とする請求項1乃至3のいずれか1項に記載の自動
    音声認識装置の非教示及び/又はオンライン適応方法。
  5. 【請求項5】 上記尤度尺度の基礎となるパラメータ及
    び/又は特徴は、適応的であることを特徴とする請求項
    4に記載の自動音声認識装置の非教示及び/又はオンラ
    イン適応方法。
  6. 【請求項6】 上記尤度尺度は、上記受信された各発話
    又は発話の一部に対する尤度の評価点に基づいて、発
    話、単語又は音素から算出されることを特徴とする請求
    項4又は5に記載の自動音声認識装置の非教示及び/又
    はオンライン適応方法。
  7. 【請求項7】 上記尤度の評価点は、上記受信された発
    話又は発話の一部の認識結果の信頼度の度合を決定する
    ことを特徴とする請求項6に記載の自動音声認識装置の
    非教示及び/又はオンライン適応方法。
  8. 【請求項8】 上記受信された発話又は発話の一部の認
    識結果の信頼度の度合は、上記発話の話者の反応に基づ
    いて計られることを特徴とする請求項1乃至7のいずれ
    か1項に記載の自動音声認識装置の非教示及び/又はオ
    ンライン適応方法。
  9. 【請求項9】 上記反応は、視覚演算処理装置によって
    得られる利用者及び/又は利用者の顔の静止画又は動画
    に基づいて、決定されることを特徴とする請求項8に記
    載の非自動音声認識装置の非教示及び/又はオンライン
    適応方法。
  10. 【請求項10】 上記尤度尺度は、上記発話を発した話
    者の感情的状態に依存することを特徴とする請求項8又
    は9に記載の自動音声認識装置の非教示及び/又はオン
    ライン適応方法。
  11. 【請求項11】 上記反応は、上記発話又は発話の一部
    の後に受信された発話又は発話の一部を認識及び解釈す
    ることによって決定されることを特徴とする請求項8乃
    至10のいずれか1項に記載の自動音声認識装置の非教
    示及び/又はオンライン適応方法。
  12. 【請求項12】 上記受信された発話又は発話の一部の
    後に受信された発話又は発話の一部を検証して、前に受
    信された発話の認識が正しいか否かの反応を生成するこ
    とを特徴とする請求項11に記載の自動音声認識装置の
    非教示及び/又はオンライン適応方法。
  13. 【請求項13】 上記反応は、上記受信された発話又は
    発話の一部の後に受信された発話又は発話の一部につい
    ての第2の情報を解釈することによって、決定されるこ
    とを特徴とする請求項10乃至14のいずれか1項に記
    載の自動音声認識装置の非教示及び/又はオンライン適
    応方法。
  14. 【請求項14】 上記受信された発話又は発話の一部の
    後に受信された発話又は発話の一部についての第2の情
    報は、上記受信された発話又は発話の一部の後に受信さ
    れた発話又は発話の一部の抑揚及び/又は韻律であるこ
    とを特徴とする請求項13に記載の自動音声認識装置の
    非教示及び/又はオンライン適応方法。
  15. 【請求項15】 上記パラメータの初期集合が記憶され
    ていることを特徴とする請求項14に記載の非教示又は
    オンライン適応の実行方法。
  16. 【請求項16】 上記自動音声認識装置の認識性能は、
    上記記憶されている初期のパラメータに基づく実際の認
    識結果と、最新のパラメータに基づく認識結果を比較す
    ることによって、判定されることを特徴とする請求項1
    4又は15に記載の非教示又はオンライン適応の実行方
    法。
  17. 【請求項17】 上記自動音声認識装置の認識性能は、
    隠れマルコフモデルの適応を用いて判定されることを特
    徴とする請求項1乃至24のいずれか1項に記載の非教
    示又はオンライン適応の実行方法。
  18. 【請求項18】 非教示及び/又はオンライン適応を有
    する音声認識装置において、 利用者の発話を受信して、アナログ信号を出力するマイ
    クロフォンと、 上記マイクロフォンに接続され、上記アナログ信号をデ
    ィジタル信号に変換するアナログ/ディジタル変換手段
    と、 上記アナログ/ディジタル変換手段に接続され、上記デ
    ィジタル信号から、上記受信された利用者の発話の特徴
    ベクトルを抽出する特徴抽出手段と、 上記特徴抽出手段に接続され、上記受信された利用者の
    発話を、上記特徴ベクトルと、話者適応モデル及び/又
    は話者独立モデルの集合に基づいて認識する認識手段
    と、 上記認識手段から認識結果が供給され、上記話者適応モ
    デルの集合を生成及び/又は適応させる適応手段と、 上記認識手段に接続され、任意の受信された単語を、上
    記話者適応モデルの集合の生成及び/又は適応のために
    用いるか否かを示す信号を上記適応手段に供給する判定
    手段を備える音声認識装置。
  19. 【請求項19】 上記判定手段から適応手段に供給され
    る信号は、上記適応手段によって上記任意の受信された
    単語に基づき設定された上記話者適応モデルの適応度合
    を示すことを特徴とする請求項18に記載の音声認識装
    置。
  20. 【請求項20】 上記判定手段から適応手段に供給され
    る信号は、上記認識手段と判定手段間に接続された音素
    抽出手段によって生成された第1の制御信号に基づいて
    生成されることを特徴とする請求項18又は19に記載
    の音声認識装置。
  21. 【請求項21】 上記判定手段から適応手段に供給され
    る信号は、上記認識手段と判定手段間に接続された解釈
    手段によって生成された第2の制御信号に基づいて生成
    されることを特徴とする請求項18乃至20のいずれか
    1項に記載の音声認識装置。
  22. 【請求項22】 上記判定手段から適応手段に供給され
    る信号は、上記認識手段と判定手段間に接続された検証
    手段によって生成された第3の制御信号に基づいて生成
    されることを特徴とする請求項18乃至21のいずれか
    1項に記載の音声認識装置。
  23. 【請求項23】 上記判定手段から適応手段に供給され
    る信号は、上記認識手段と判定手段間に接続された尤度
    尺度手段によって生成された第4の制御信号に基づいて
    生成されることを特徴とする請求項18乃至21のいず
    れか1項に記載の音声認識装置。
  24. 【請求項24】 上記判定手段から適応手段に供給され
    る信号は、上記判定手段に接続された視覚手段によって
    生成された第5の制御信号に基づいて生成されることを
    特徴とする請求項18乃至21のいずれか1項に記載の
    音声認識装置。
JP11352260A 1998-12-17 1999-12-10 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法 Withdrawn JP2000181482A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP98124024.5 1998-12-17
EP98124024A EP1011094B1 (en) 1998-12-17 1998-12-17 Semi-supervised speaker adaption

Publications (1)

Publication Number Publication Date
JP2000181482A true JP2000181482A (ja) 2000-06-30

Family

ID=8233165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11352260A Withdrawn JP2000181482A (ja) 1998-12-17 1999-12-10 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法

Country Status (6)

Country Link
US (1) US6799162B1 (ja)
EP (2) EP1426923B1 (ja)
JP (1) JP2000181482A (ja)
KR (1) KR100697961B1 (ja)
CN (1) CN1248192C (ja)
DE (2) DE69833987T2 (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251800A (ja) * 2005-03-07 2006-09-21 Samsung Electronics Co Ltd ユーザ適応型の音声認識方法及び音声認識装置
JP2007248730A (ja) * 2006-03-15 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
KR100762588B1 (ko) * 2001-06-26 2007-10-01 엘지전자 주식회사 화자적응과 오입력 거절을 결합한 음성인식 방법
JP2008077099A (ja) * 2001-03-28 2008-04-03 Qualcomm Inc 話し手に暗黙的に順応する技術を用いた音声認識システム
JP2009532744A (ja) * 2006-04-03 2009-09-10 ヴォコレクト・インコーポレーテッド 音声認識システムにモデルを適合させるための方法およびシステム
US8374870B2 (en) 2005-02-04 2013-02-12 Vocollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US8612235B2 (en) 2005-02-04 2013-12-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
JP2014092750A (ja) * 2012-11-06 2014-05-19 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置とその方法とプログラム
US8756059B2 (en) 2005-02-04 2014-06-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8868421B2 (en) 2005-02-04 2014-10-21 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
JP2018156418A (ja) * 2017-03-17 2018-10-04 ヤフー株式会社 修正装置、修正方法および修正プログラム
JP2022045228A (ja) * 2020-09-08 2022-03-18 株式会社東芝 音声認識装置、方法およびプログラム
US11837253B2 (en) 2016-07-27 2023-12-05 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001100781A (ja) 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
US7580836B1 (en) * 2000-06-15 2009-08-25 Intel Corporation Speaker adaptation using weighted feedback
EP1205906B1 (en) * 2000-11-07 2003-05-07 Telefonaktiebolaget L M Ericsson (Publ) Reference templates adaptation for speech recognition
GB2375211A (en) * 2001-05-02 2002-11-06 Vox Generation Ltd Adaptive learning in speech recognition
DE10122828A1 (de) * 2001-05-11 2002-11-14 Philips Corp Intellectual Pty Verfahren zum Training oder zur Adaption eines Spracherkenners
JP4947861B2 (ja) * 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
US7031918B2 (en) * 2002-03-20 2006-04-18 Microsoft Corporation Generating a task-adapted acoustic model from one or more supervised and/or unsupervised corpora
US20030212761A1 (en) * 2002-05-10 2003-11-13 Microsoft Corporation Process kernel
US7191130B1 (en) * 2002-09-27 2007-03-13 Nuance Communications Method and system for automatically optimizing recognition configuration parameters for speech recognition systems
US7340396B2 (en) * 2003-02-18 2008-03-04 Motorola, Inc. Method and apparatus for providing a speaker adapted speech recognition model set
US7835910B1 (en) * 2003-05-29 2010-11-16 At&T Intellectual Property Ii, L.P. Exploiting unlabeled utterances for spoken language understanding
KR100612840B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
EP1723636A1 (de) 2004-03-12 2006-11-22 Siemens Aktiengesellschaft Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen
US7818175B2 (en) * 2004-07-30 2010-10-19 Dictaphone Corporation System and method for report level confidence
JP4456537B2 (ja) * 2004-09-14 2010-04-28 本田技研工業株式会社 情報伝達装置
US7558389B2 (en) * 2004-10-01 2009-07-07 At&T Intellectual Property Ii, L.P. Method and system of generating a speech signal with overlayed random frequency signal
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
CN100458913C (zh) * 2005-01-24 2009-02-04 乐金电子(惠州)有限公司 语音识别系统的发音验证方法
US7895039B2 (en) 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
DE102005010285A1 (de) * 2005-03-01 2006-09-07 Deutsche Telekom Ag Verfahren und System zur Spracherkennung
US7734471B2 (en) * 2005-03-08 2010-06-08 Microsoft Corporation Online learning for dialog systems
US7885817B2 (en) * 2005-03-08 2011-02-08 Microsoft Corporation Easy generation and automatic training of spoken dialog systems using text-to-speech
US7707131B2 (en) 2005-03-08 2010-04-27 Microsoft Corporation Thompson strategy based online reinforcement learning system for action selection
US20060206333A1 (en) * 2005-03-08 2006-09-14 Microsoft Corporation Speaker-dependent dialog adaptation
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US8265933B2 (en) * 2005-12-22 2012-09-11 Nuance Communications, Inc. Speech recognition system for providing voice recognition services using a conversational language model
US8762148B2 (en) * 2006-02-27 2014-06-24 Nec Corporation Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program
US7788205B2 (en) * 2006-05-12 2010-08-31 International Business Machines Corporation Using stochastic models to diagnose and predict complex system problems
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8423364B2 (en) * 2007-02-20 2013-04-16 Microsoft Corporation Generic framework for large-margin MCE training in speech recognition
US8856002B2 (en) * 2007-04-12 2014-10-07 International Business Machines Corporation Distance metrics for universal pattern processing tasks
US8386254B2 (en) * 2007-05-04 2013-02-26 Nuance Communications, Inc. Multi-class constrained maximum likelihood linear regression
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
KR101556594B1 (ko) * 2009-01-14 2015-10-01 삼성전자 주식회사 신호처리장치 및 신호처리장치에서의 음성 인식 방법
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9026444B2 (en) 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
US8612364B2 (en) * 2009-10-29 2013-12-17 Xerox Corporation Method for categorizing linked documents by co-trained label expansion
US9218807B2 (en) * 2010-01-08 2015-12-22 Nuance Communications, Inc. Calibration of a speech recognition engine using validated text
JP5633042B2 (ja) * 2010-01-28 2014-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識ロボット
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
JP5494468B2 (ja) * 2010-12-27 2014-05-14 富士通株式会社 状態検出装置、状態検出方法および状態検出のためのプログラム
US9390445B2 (en) 2012-03-05 2016-07-12 Visa International Service Association Authentication using biometric technology through a consumer device
TWI466101B (zh) * 2012-05-18 2014-12-21 Asustek Comp Inc 語音識別方法及系統
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
CN103578468B (zh) * 2012-08-01 2017-06-27 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20140082157A (ko) * 2012-12-24 2014-07-02 한국전자통신연구원 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
US8694315B1 (en) * 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
CN104143330A (zh) * 2013-05-07 2014-11-12 佳能株式会社 语音识别方法和语音识别系统
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) * 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9589560B1 (en) * 2013-12-19 2017-03-07 Amazon Technologies, Inc. Estimating false rejection rate in a detection system
KR102225404B1 (ko) * 2014-05-23 2021-03-09 삼성전자주식회사 디바이스 정보를 이용하는 음성인식 방법 및 장치
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10269342B2 (en) 2014-10-29 2019-04-23 Hand Held Products, Inc. Method and system for recognizing speech using wildcards in an expected response
US9984685B2 (en) 2014-11-07 2018-05-29 Hand Held Products, Inc. Concatenated expected responses for speech recognition using expected response boundaries to determine corresponding hypothesis boundaries
KR102199246B1 (ko) * 2014-11-18 2021-01-07 에스케이텔레콤 주식회사 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN110164431B (zh) * 2018-11-15 2023-01-06 腾讯科技(深圳)有限公司 一种音频数据处理方法及装置、存储介质
KR20210144384A (ko) 2020-05-22 2021-11-30 송문선 산화와 환원에 의한 질소산화물과 배가스 처리 시스템
CN113782005B (zh) * 2021-01-18 2024-03-01 北京沃东天骏信息技术有限公司 语音识别方法及装置、存储介质及电子设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4618984A (en) * 1983-06-08 1986-10-21 International Business Machines Corporation Adaptive automatic discrete utterance recognition
JPS62239231A (ja) 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
US5127055A (en) * 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
US5040213A (en) * 1989-01-27 1991-08-13 Ricoh Company, Ltd. Method of renewing reference pattern stored in dictionary
JPH0636156B2 (ja) * 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
US5144672A (en) * 1989-10-05 1992-09-01 Ricoh Company, Ltd. Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
US5920837A (en) * 1992-11-13 1999-07-06 Dragon Systems, Inc. Word recognition system which stores two models for some words and allows selective deletion of one such model
US5559926A (en) * 1993-12-22 1996-09-24 Lucent Technologies Inc. Speech recognition training using bio-signals
US5586171A (en) * 1994-07-07 1996-12-17 Bell Atlantic Network Services, Inc. Selection of a voice recognition data base responsive to video data
JPH08202388A (ja) * 1995-01-24 1996-08-09 Omron Corp 音声認識装置及び音声認識方法
US5842168A (en) * 1995-08-21 1998-11-24 Seiko Epson Corporation Cartridge-based, interactive speech recognition device with response-creation capability
US5737489A (en) 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
US5794189A (en) 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
DE19708184A1 (de) 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
US6260013B1 (en) * 1997-03-14 2001-07-10 Lernout & Hauspie Speech Products N.V. Speech recognition system employing discriminatively trained models
US5970239A (en) * 1997-08-11 1999-10-19 International Business Machines Corporation Apparatus and method for performing model estimation utilizing a discriminant measure

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4546555B2 (ja) * 2001-03-28 2010-09-15 クゥアルコム・インコーポレイテッド 話し手に暗黙的に順応する技術を用いた音声認識システム
JP2008077099A (ja) * 2001-03-28 2008-04-03 Qualcomm Inc 話し手に暗黙的に順応する技術を用いた音声認識システム
JP2008203876A (ja) * 2001-03-28 2008-09-04 Qualcomm Inc 話し手に暗黙的に順応する技術を用いた音声認識システム
JP4546512B2 (ja) * 2001-03-28 2010-09-15 クゥアルコム・インコーポレイテッド 話し手に暗黙的に順応する技術を用いた音声認識システム
JP2010211221A (ja) * 2001-03-28 2010-09-24 Qualcomm Inc 話し手に暗黙的に順応する技術を用いた音声認識システム
KR100762588B1 (ko) * 2001-06-26 2007-10-01 엘지전자 주식회사 화자적응과 오입력 거절을 결합한 음성인식 방법
US10068566B2 (en) 2005-02-04 2018-09-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US9928829B2 (en) 2005-02-04 2018-03-27 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
US8612235B2 (en) 2005-02-04 2013-12-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US9202458B2 (en) 2005-02-04 2015-12-01 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US8868421B2 (en) 2005-02-04 2014-10-21 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
US8756059B2 (en) 2005-02-04 2014-06-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8374870B2 (en) 2005-02-04 2013-02-12 Vocollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
JP4709663B2 (ja) * 2005-03-07 2011-06-22 三星電子株式会社 ユーザ適応型の音声認識方法及び音声認識装置
JP2006251800A (ja) * 2005-03-07 2006-09-21 Samsung Electronics Co Ltd ユーザ適応型の音声認識方法及び音声認識装置
US7996218B2 (en) 2005-03-07 2011-08-09 Samsung Electronics Co., Ltd. User adaptive speech recognition method and apparatus
JP4594885B2 (ja) * 2006-03-15 2010-12-08 日本電信電話株式会社 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
JP2007248730A (ja) * 2006-03-15 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
JP2009532744A (ja) * 2006-04-03 2009-09-10 ヴォコレクト・インコーポレーテッド 音声認識システムにモデルを適合させるための方法およびシステム
US11810545B2 (en) 2011-05-20 2023-11-07 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9697818B2 (en) 2011-05-20 2017-07-04 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US11817078B2 (en) 2011-05-20 2023-11-14 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
JP2014092750A (ja) * 2012-11-06 2014-05-19 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置とその方法とプログラム
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US11837253B2 (en) 2016-07-27 2023-12-05 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
JP2018156418A (ja) * 2017-03-17 2018-10-04 ヤフー株式会社 修正装置、修正方法および修正プログラム
JP2022045228A (ja) * 2020-09-08 2022-03-18 株式会社東芝 音声認識装置、方法およびプログラム
JP7395446B2 (ja) 2020-09-08 2023-12-11 株式会社東芝 音声認識装置、方法およびプログラム

Also Published As

Publication number Publication date
EP1426923A1 (en) 2004-06-09
KR100697961B1 (ko) 2007-03-23
DE69829187T2 (de) 2005-12-29
DE69829187D1 (de) 2005-04-07
EP1011094B1 (en) 2005-03-02
CN1264888A (zh) 2000-08-30
EP1426923B1 (en) 2006-03-29
DE69833987T2 (de) 2006-11-16
CN1248192C (zh) 2006-03-29
EP1011094A1 (en) 2000-06-21
US6799162B1 (en) 2004-09-28
KR20000067829A (ko) 2000-11-25
DE69833987D1 (de) 2006-05-18

Similar Documents

Publication Publication Date Title
JP2000181482A (ja) 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US4618984A (en) Adaptive automatic discrete utterance recognition
EP0907949B1 (en) Method and system for dynamically adjusted training for speech recognition
JP4546555B2 (ja) 話し手に暗黙的に順応する技術を用いた音声認識システム
US20090119103A1 (en) Speaker recognition system
US6317711B1 (en) Speech segment detection and word recognition
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
KR20120054845A (ko) 로봇의 음성인식방법
JP2000214880A (ja) 音声認識方法及び音声認識装置
JP3876703B2 (ja) 音声認識のための話者学習装置及び方法
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
KR20200129007A (ko) 발화검증 장치 및 발화검증 방법
JP4638970B2 (ja) 音声認識装置の適応化方法
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
KR100940641B1 (ko) 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법
KR100586045B1 (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
JPH06175678A (ja) 音声認識装置
JP2545961B2 (ja) 音声認識用学習方式
JP2005004018A (ja) 音声認識装置
Lee Robust recognition of fast speech
Ma Connectionist vector quantization in automatic speech recognition
JPH0756592A (ja) 音声認識装置
JPH06175684A (ja) 連続音声認識方法および装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070306