JPH11338489A - 音声認識装置および音声認識方法および記録媒体 - Google Patents

音声認識装置および音声認識方法および記録媒体

Info

Publication number
JPH11338489A
JPH11338489A JP10161393A JP16139398A JPH11338489A JP H11338489 A JPH11338489 A JP H11338489A JP 10161393 A JP10161393 A JP 10161393A JP 16139398 A JP16139398 A JP 16139398A JP H11338489 A JPH11338489 A JP H11338489A
Authority
JP
Japan
Prior art keywords
speech recognition
recognition model
speech
parameter
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10161393A
Other languages
English (en)
Inventor
Yoshinaga Kato
喜永 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP10161393A priority Critical patent/JPH11338489A/ja
Publication of JPH11338489A publication Critical patent/JPH11338489A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 認識処理を行ないながら話者適応を逐次的に
行なうことが可能であって、さらに、正解候補と他の候
補との分類誤りの結果を、比較的簡単な形式を用いて、
スポッティング閾値の調整に直接反映することにより、
話者によらずに認識精度を向上させることの可能な音声
認識装置および音声認識方法および記録媒体を提供す
る。 【解決手段】 音声認識モデルについてのパラメータ
は、認識モデルのモデルパラメータおよび/またはスポ
ッティングに用いる閾値であり、パラメータ調整手段9
は、装置の使用者が入力した音声の特徴パターンを用い
て、認識結果として判定された語に対応する音声認識モ
デルのモデルパラメータおよび/またはスポッティング
に用いる閾値を調整する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法および記録媒体に関する。
【0002】
【従来の技術】従来、音声認識の分野において、発話音
声中から重要な語だけを認識する手法はスポッティング
手法として知られている。このスポッティング手法を採
用することにより、不用語を伴う発声に対しても認識対
象語を正しく認識する可能性を高め、使用者に対し発話
制約に関する負担を軽減し、使いやすい音声認識装置を
提供できる。
【0003】音声認識装置に用いる認識モデルとして
は、対象とする話者により特定話者型と不特定話者型と
にわけることができる。特定話者型は、個々の使用者の
音声だけを対象として認識モデルを設計するものであ
り、他人の音声を考慮する必要がないので、認識の精度
を上げやすく、モデルの規模も一般に不特定話者型に比
べて小さくて済む。ただし、装置を使用する前に予め使
用者の音声を登録しておく必要がある。
【0004】一方、不特定話者型は、音声の登録なしに
装置を使用することができるが、話者を特定しないの
で、認識モデルの規模は大きくなる傾向にある。また、
モデルのパラメータを調整するには、多数の話者により
発声した音声データが必要となる。
【0005】音声認識装置の使い勝手の点からは、音声
登録の手間が省ける不特定話者型が望ましい。しかしな
がら、不特定話者型の認識装置は基本的に未知の話者を
扱うことになるので、話者によっては認識性能の低下が
懸念される。これは、認識モデルのパラメータ調整に用
いた音声データ数の不足により、未知の話者の特性を捉
えることが不十分であるためと考えられる。従って、性
能の低い話者に対する救済方法を考慮しておかないと、
該当した話者にとって扱いにくい装置となってしまう。
【0006】
【発明が解決しようとする課題】この問題を解決するた
めに、文献1「L.Rabiner他,“Fundamentals of speec
h recognition,”Prentice-Hall International,Inc.(1
993)」などに示されているような話者適応が知られてい
る。これは、使用者の音声を用いて、話者特性を不特定
話者モデルのパラメータに反映する方法である。従っ
て、認識装置の初期性能が悪くても、本方法を用いるこ
とにより改善することが可能である。
【0007】一方、スポッティング時の湧き出しを防ぐ
ためには、信頼できる得点が得られなければ、リジェク
トを行なう方法が知られている。これは、音声パターン
を測ったときに得られた得点が、予め設定されている所
定の閾値以下であれば適用される。なお、閾値は、通常
定数であり、実験的に求めるのが一般的である。
【0008】ところが、実験時に使用した話者と実際に
使用する話者とが異なる場合や、収録環境が異なる場合
には、予め設定しておいた閾値がうまく働かなくなる可
能性がある。その場合は、閾値が大き過ぎれば正しい発
話であってもリジェクトされ、また、小さ過ぎれば、不
必要に湧き出しが生じることになる。
【0009】そのため、上記閾値を可変にし、話者適応
時に調整可能とすることが望ましい。閾値を調整する手
段として、正解モデルと他の類似モデルとの識別境界を
訓練することが考えられる。すなわち、入力音声パター
ンに対して正解モデルと他のモデルとがどの程度離れて
いるかを直接測り、分類誤りが最小になるように閾値を
調整すればよい。
【0010】さらに、適応用の音声データを獲得する際
に、装置の使用前に音声の登録を行なうことは使用者に
とって負担である。そこで、認識処理を行なっている最
中に適応処理も同時に行なえることが望ましい。さら
に、この場合には、使用者に話者適応用の音声データを
事前に登録してもらう必要がないので、認識装置を使用
しながら性能を高めることも可能である。そのために
は、逐次的に認識モデルのパラメータを調整することが
可能な簡便な手段が必要となる。
【0011】分類誤りが最小となる基準を用いたスポッ
ティングとして、文献2「T.Komori他“A novel spotti
ng-based approach to continuous speech recognitio
n:Minimum error classification of keyword-sequence
s,”J.Acoust.Soc.Jpn(E)(1995.5)」による例が報告さ
れている。これは、複数の重要単語列を分類するための
調整法であり、調整対象には閾値も含まれている。しか
しながら、この方法は、大語彙を対象とし、閾値は照合
対象の候補を絞り込むための棄却関数を定義するのに用
いられている。従って、話者適応時の調整手段として用
いられていない。また、閾値を含む棄却関数は複雑な形
式を持っているため、簡単化された実装について述べら
れており、閾値に関する具体的な実装については述べら
れていない。
【0012】本発明は、認識処理を行ないながら話者適
応を逐次的に行なうことが可能であって、さらに、正解
候補と他の候補との分類誤りの結果を、比較的簡単な形
式を用いて、スポッティング閾値の調整に直接反映する
ことにより、話者によらずに認識精度を向上させること
の可能な音声認識装置および音声認識方法および記録媒
体を提供することを目的としている。
【0013】
【課題を解決するための手段】上記目的を達成するため
に、請求項1,請求項4,請求項7記載の発明は、入力
音声の特徴を分析する特徴分析手段と、音声認識モデル
を設計する認識モデル設計手段と、所定のパラメータを
記憶するパラメータ記憶手段と、入力した言語を記憶す
る言語記憶手段と、言語記憶手段に記憶された言語を有
限状態網に変換する手段と、有限状態網を記憶する有限
状態網記憶手段と、有限状態網の弧に対応づけられた音
声認識モデルをパラメータ記憶手段からパラメータの形
で選択取得する認識モデル選択手段と、特徴分析手段に
より得られた特徴パターン中に重要単語が存在する可能
性を、認識モデル選択手段によって選択された音声認識
モデルで測るスポッティング手段と、音声認識モデルに
ついてのパラメータを調整するパラメータ調整手段とを
備えており、音声認識モデルについてのパラメータは、
認識モデルのモデルパラメータおよび/またはスポッテ
ィングに用いる閾値であり、パラメータ調整手段は、装
置の使用者が入力した音声の特徴パターンを用いて、認
識結果として判定された語に対応する音声認識モデルの
モデルパラメータおよび/またはスポッティングに用い
る閾値を調整することを特徴としている。
【0014】また、請求項2,請求項5,請求項8記載
の発明は、請求項1,請求項4,請求項7記載の音声認
識装置において、パラメータ調整手段は、入力された音
声の特徴パターンに対し、認識結果として判定された語
に対応する音声認識モデルで測った得点と、競合する語
に対応する他の音声認識モデルで測った得点との誤分類
測度から得られた損失を一次微分可能な連続関数で表現
し、該損失の勾配を求めることによって、誤分類が最小
になるように、音声認識モデルのモデルパラメータを調
整することを特徴としている。
【0015】また、請求項3,請求項6,請求項9記載
の発明は、請求項1,請求項4,請求項7記載の音声認
識装置において、パラメータ調整手段は、入力された音
声の特徴パターンに対し、認識結果として判定された語
に対応する音声認識モデルで測った得点と、競合する語
に対応する他の音声認識モデルで測った得点との誤分類
測度から得られた損失を一次微分可能な連続関数で表現
し、該損失の勾配を求めることによって、誤分類が最小
になるように、スポッティングに用いる閾値を調整する
ことを特徴としている。
【0016】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図1は本発明に係る音声認識装置の
構成例を示す図である。図1を参照すると、この音声認
識装置は、音声が入出力する音声入出力手段100と、
入力音声の特徴を分析する特徴分析手段1と、音声認識
モデル(音素モデル)を設計する認識モデル設計手段2
と、所定のパラメータを記憶するパラメータ記憶手段3
と、入力した言語(テキスト)を記憶する言語記憶手段4
と、言語を有限状態網に変換する有限状態網変換手段5
と、有限状態網を記憶する有限状態網記憶手段20−
1,20−2と、有限状態網の弧に対応付けられた音声
認識モデル(音素モデル)を選択する認識モデル選択手段
6と、特徴分析手段1により得られた特徴パターン中に
重要単語が存在する可能性を、認識モデル選択手段6に
よって選択された音声認識モデルで測るスポッティング
手段7と、比較器8と、パラメータ調整手段9と、スイ
ッチS1と、スイッチS2と、スイッチS3と、テキス
ト規則音声合成器10とを備えている。
【0017】ここで、音声入出力手段100は、例えば
電話機として構成されており、送受話器などの音声入出
力装置51と、電話番号記憶手段52と、発呼装置53
とが備わっている。
【0018】また、パラメータ記憶手段3に格納されて
いるパラメータΛは、不特定話者を対象として認識でき
るように、パラメータ調整手段9により予め調整されて
いるとする。また、図1では、2つの有限状態網記憶手
段20−1,20−2が設けられているが、これは、認
識タスクの対象により、スイッチS2によって、いずれ
か一方の有限状態網記憶手段を切り換えて使用すること
を表している。
【0019】次に、図1の音声認識装置の処理動作につ
いて説明する。ここでは、全認識対象語の中で、s番目
の単語をΩsとする。なお、単語Ωsは、キーボードなど
の入力手段により言語記憶手段4にかななどのテキスト
情報として記憶しておく。先ず、単語Ωsに対応する言
語モデルは、有限状態網変換手段5により、言語記憶手
段4に格納されたテキスト情報から、有限状態網に変換
される。有限状態網記憶手段20−1または20−2に
は、G(・)を用いて次のように表現された網ωsが記憶
される。
【0020】
【数1】G(Ωs)→ωs
【0021】有限状態網の遷移規則は、次式に従う。
【0022】
【数2】δ(φ,νs i)=ψ
【0023】数2は、状態φから認識単位νs iを伴なっ
て状態ψに遷移することを意味している。ここで、δ
は、遷移の集合である。有限状態網は、総数V個の中に
含まれる認識単位νs i,(1,…,i,…,V)を選択
し、合成して設計されるものとする。
【0024】図2には、地名を表わす“そうじゃ(総
社)”を有限状態網に展開した例を示す。図2におい
て、円は状態を表わし、状態間の弧に示されている記号
は、遷移に伴なう認識単位を示している。ここでは、認
識単位として音素を採用している。この音素に対応する
認識モデルは、認識モデル設計手段2によって作成され
る。さらに、作成した認識モデルを表現するモデルパラ
メータおよびスポッティングに用いる閾値を、パラメー
タ記憶手段3に記憶しておく。すなわち、パラメータ記
憶手段3には、有限状態網の弧に対応づけられた音声認
識モデルがパラメータの形で記憶され、パラメータ記憶
手段3に記憶されるパラメータは、認識モデルのモデル
パラメータとスポッティングに用いる閾値である。音声
特徴パターンを測る音素モデルは、パラメータ記憶手段
3に記憶されているパラメータを、認識モデル選択手段
6により選択することによって得られる。認識モデル選
択手段6では、有限状態網の音素を指標として、パラメ
ータ記憶手段3に問い合わせることにより、所望の音素
モデルのパラメータを選択することができる。
【0025】認識時の処理動作は次のようになされる。
すなわち、認識時には、図1のスイッチS1をオフにし
(開き)、スイッチS2を有限状態網記憶手段20−1,
20−2のいずれか一方に接続し、スイッチS3を言語
記憶手段4に接続する。また、スポッティング手段7に
は、認識モデル選択手段6で選択されたモデルパラメー
タとスポッティングに用いる閾値とが、認識モデル選択
手段6から与えられるとする。この状態で、利用者は、
電話機100の音声入出力装置51から音声を入力す
る。電話機100の音声入出力装置51から入力された
音声は、特徴分析手段1によって分析されて特徴パター
ンx=(xm)(1,…,m,…,M)に変換される。ここ
で、分析には、前述の文献1などで詳述されているよう
な手法を用いることができる。例えば、入力音声信号か
ら6次元のメルケプストラム係数およびパワーの一次差
分を抽出し、特徴パターンとすることができる。この
際、分析条件として、例えば、標本化周波数:8kH
z、高域強調:一次差分、256点ハミング窓、更新周
期:16ms、LPC分析次数:20とすることができ
る。分析は上記に限られたものではなく、周波数分析な
ど他のどのような手法を用いてもよい。この特徴パター
ンxから、s番目の単語をスポッティング手段7により
スポッティングしたときの得点C(x,ωs)を、次式で
表わす。
【0026】
【数3】
【0027】ここで、右辺のθ(ms,me)は、ms,me
をそれぞれ単語が存在する位置の始端,終端とする照合
経路を表わす。このように、スポッティング手段7によ
って各単語の得点C(x,ωs)が得られるとき、スポッ
ティング手段7で得られた各単語の得点とその存在位置
を比較器8へ送り、得点の大きい順に比較器8内に記憶
しておく。全ての単語に対して同様の処理を繰り返し行
ない、比較器8に記憶された得点のうち、得点C(x,
ωs)が最大となる単語Ωsを認識結果とし、その指標s
を言語記憶手段4に送る。言語記憶手段4では、認識結
果の指標と一致するテキストをテキスト規則音声合成器
10に送る。テキスト規則音声合成器10では、テキス
トの内容を表す音声波形を生成し、電話機100の音声
入出力装置51に送り、音声入出力装置51から音声出
力することにより、利用者は、認識結果を音声により確
認することができる。
【0028】次に、スポッティングに用いる閾値と認識
モデルのモデルパラメータとのパラメータを話者適応す
る方法について述べる。適応処理動作は、パラメータ調
整手段9によって行なわれる。すなわち、前述の認識処
理の後に、先ず、スイッチS1をオン(閉)にする。な
お、ここでは、説明の便宜上、認識の状態を表わすパラ
メータに関して平滑な連続関数形式を定義する。すなわ
ち、音声特徴パターンを測るために、ここでは、連続関
数gαを判別関数として定義する。この判別関数の定義
では、gαの値が大きいほど、入力音声パターンは単語
αに属する可能性が高いことを表わす。判別関数によっ
ては、これとは逆に、判別関数の値が小さいほど入力音
声パターンは単語αに属する可能性が高くなるように設
定してもよい。ここでは、判別関数gαを次式のように
定義する。
【0029】
【数4】
【0030】ここで、gα(x,Λ)は、音声特徴パター
ンxと認識モデルのパラメータΛとが与えられた時の単
語αに対する判別関数である。また、C(x,ωα)は、
音声特徴パターンxとα番目のモデルに対するスポッテ
ィング得点であり、この得点は、認識時に、スポッティ
ング手段7によって計算されている。
【0031】スポッティング得点(判別関数の値)が求ま
ったら、パラメータ調整手段9は、スポッティング得点
(判別関数の値)より誤分類測度を計算する。なお、誤分
類測度dα(x,Λ)は、次式のように表わされる。
【0032】
【数5】
【0033】ここで、βは、α以外で最も判別関数値が
大きくなる単語であり、各単語α,βの得点gα(x,
Λ),gβ(x,Λ)は、比較器8で得られる。数5の誤
分類測度dα(x,Λ)が負の時には、xが正しく分類さ
れたことを示し、誤分類測度dα(x,Λ)が正の時に
は、誤分類されたことを示す。数5からわかるように、
誤分類測度は、xが属する単語に関する判別関数値gα
と、それ以外で最もxに近い単語に関する判別関数値g
βとの差を表わしている。
【0034】図3は、パラメータ調整手段9の具体例を
示す図である。図3の例では、パラメータ調整手段9
は、誤分類測度計算器11と、損失計算器12と、モデ
ルパラメータ修正量計算器13と、モデルパラメータ更
新器14と、閾値修正量計算器15と、閾値更新器16
とを有している。
【0035】図3のような構成では、比較器8で、単語
α,βの得点を得られるので、誤分類測度計算器11に
て数5の誤分類測度dα(x,Λ)が求まる。次に、次式
に示すように、平滑に近似した損失lα(x,Λ)を損失
計算器12により求める。
【0036】
【数6】
【0037】次いで、損失を減らすようにパラメータΛ
を修正する。すなわち、パラメータΛの修正量ΔΛを以
下のように計算する。
【0038】
【数7】
【0039】ここで、ηは、正の小さな定数である。調
整後におけるパラメータをΛ'とすれば、調整規則は以
下の式で表すことができる。
【0040】
【数8】Λ'=Λ+ΔΛ
【0041】パラメータのこのような調整処理は、認識
モデル選択手段6により選択されているスポッティング
の閾値とモデルパラメータとのパラメータに対して適用
される。具体的に、図3のスイッチS4を閉じるとモデ
ルパラメータを調整することができる。また、図3のス
イッチS5を閉じると閾値を調製することができる。こ
のように、パラメータの調整量(修整量)をパラメータ調
整手段9により数7のように計算し、パラメータ記憶手
段3に記憶されているパラメータ(閾値とモデルパラメ
ータ)を数8に従って更新する。このような更新処理を
繰り返し実行することで、閾値とモデルパラメータを装
置の利用者(使用話者)に適応して調整することができ
る。
【0042】次に、パラメータ調整法の詳細について述
べる。そのため、以下では本発明における認識モデルが
どのようなパラメータで表現され、照合されるかを説明
する。なお、数4では、Cを、単語に対する得点として
扱ったが、この例では、認識単位を音素としているの
で、α番目の単語を構成する音素モデルwα i
(wα in),(1,…,n,…,Nα)に対する得点をC
r(x,wα i)として以下のように再定義する。
【0043】
【数9】
【0044】数9の右辺は、音素モデルとして、特に継
続時間長制御型状態遷移モデルを用いた例を表わしてい
る。ここで、cn(・,・)は、継続時間長制御型状態遷
移モデルのn番目の状態に対応する音声セグメント(部
分パターン)との得点を表す。継続時間長制御型状態遷
移モデルの詳しい説明は、文献3「室井哲也 他,“継
続時間制御型状態遷移モデルを用いた単語音声認識,”
信学論(D−II)(1989.11)」に記載されている。継続時
間長制御型状態遷移モデルの各状態は、照合時に入力音
声パターンのセグメントに対応づけられ、この照合に
は、文献3に記載されている照合アルゴリズムを用いれ
ばよい。cn(・,・)は、さらに次のように展開でき
る。
【0045】
【数10】
【0046】ここで、Lは、認識モデルの各状態におけ
る特徴パラメータと入力音声パターンとの局所得点であ
る。また、xm=(xmi)は、フレーム番号mにおける入
力音声ベクトルである。また、r(n)は、n番目の状態
に対応づけられるセグメントの最終フレーム番号であ
る。ここで、rα(0)=mα s−1,rα(N)=mα e
ある。
【0047】また、Tα nは、各状態がもつ閾値であ
り、正数である。一方、Jは、認識モデルの各状態の継
続時間長と、各状態に対応づけられた音声部分パターン
の時間長lα nとの間の距離である。なお、時間長lα n
は次式で表わされる。
【0048】
【数11】
【0049】また、vα nは、数10の右辺第2項に関
する重みであり、値が大きいほど数10において継続時
間長制御によるペナルティを重視した得点となる。ま
た、本発明では、隠れマルコフモデルと同様に、混合モ
デルの枠組も導入可能である。
【0050】また、LおよびJをさらに展開すると、そ
れぞれ次式のようになる。
【0051】
【数12】
【0052】
【数13】
【0053】μα n,σα nは、それぞれ、音声パターン
の特徴量に関する平均と分散である。また、τα n,ζ
α nは、それぞれ状態の継続長に関する平均と分散であ
る。
【0054】数7に従い、認識モデルの各パラメータに
関して偏微分する。数6は、関数の内部に数5を内包
し、数5は、その関数の内部に数4を内包している。従
って、パラメータに関する勾配は、損失から識別関数へ
と鎖則を用いて求めることができる。
【0055】より具体的に、図3のスイッチS5を閉じ
ると閾値を調整することができる。すなわち、閾値修正
量計算器15で、閾値の修正量を求め、閾値更新器16
で閾値が更新される。更新された閾値は、パラメータ記
憶手段3で以前の値を書き換えて格納される。スイッチ
S5を閉じたときの閾値Tγ nは以下のように調整され
る。
【0056】
【数14】
【0057】同様にして、図3のスイッチS4を閉じる
と認識モデルのモデルパラメータを調整することができ
る。すなわち、モデルパラメータ修正量計算器13で、
修正量を求め、モデルパラメータ更新器14で各モデル
のパラメータが更新される。更新されたモデルパラメー
タは、パラメータ記憶手段で以前の値を書き換えて格納
される。各モデルのモデルパラメータは、以下のように
調整される。
【0058】
【数15】
【0059】
【数16】
【0060】
【数17】
【0061】
【数18】
【0062】
【数19】
【0063】ここで、xξ(n)kは状態遷移モデルの第n
状態に対応づけられたフレーム特徴パターンの第k次元
目の要素を示す。S4,S5のスイッチは同時に閉じる
ことも可能である。その場合は、閾値とモデルパラメー
タとの両方を調整することができる。また、どちらかの
スイッチを選択して閉じることにより、所望のパラメー
タを調整することが可能である。
【0064】これまでに述べてきたように認識モデルの
調整は、スイッチS1を閉じることにより行なわれる
が、その時、正解の単語とそれ以外で最も正解に近い単
語がどれであるかをパラメータ調整手段9に知らせる必
要がある。以下では、音声認識を用いてこれらの単語の
特定を行なう例を述べる。ここでは、相手先の名前を発
声することによって相手先に電話をかけることを考え
る。図1の有限状態網記憶手段20−1、有限状態網記
憶手段20−2には、それぞれ、例えば、電話をかける
相手名(例えば「かとう」、「やまだ」など)、電話操作
に関する命令語(例えば、「だいやる」、「つぎのこう
ほ」など)を、有限状態網として記述しておく。有限状
態網記憶手段20−1に記憶されている単語網には指標
をつけ、電話番号記憶手段52に記憶されている相手先
電話番号と対応させておく。また、比較器8も図4に示
すように、有限状態網記憶手段20−1の単語群を認識
する場合の比較には比較器8−1を用い、有限状態網記
憶手段20−2には比較器8−2を用いるようにする。
【0065】相手先を呼び出すときには、スイッチS1
を開にし(オフにし)、スイッチS2を有限状態網記憶手
段20−1に接続し、また、スイッチS3を言語記憶手
段4に接続し、また、スイッチS6を比較器8−1に接
続する。この場合、上述したような認識処理により、電
話機100の音声入出力装置(送話器)51から入力され
た利用者音声に対して最も得点の高い相手先名を音声入
出力装置(受話器)51より聞くことができる。この時点
で、スイッチS2を有限状態網記憶手段20−2に接続
し、またスイッチS6を比較器8−2に接続する。も
し、上記の認識結果が正しければ、その後、利用者が
「だいやる」と発声することで、有限状態網記憶手段2
0−2に記憶されている命令用の単語網を用いて、同様
の認識処理が行なわれ、比較器8−2において最も得点
の高い単語が「だいやる」であったならば、スイッチS
3を電話番号記憶手段52に接続し、スイッチS6を再
び比較器8−1に接続し、スイッチS1を閉じる(オン
にする)。電話番号記憶手段52では、比較器8−1で
第1番目の候補であった正解の単語の指標を電話番号記
憶手段52に送り、対応する電話番号が検索される。そ
の後、発呼装置53を使って、検索された電話番号で相
手先へ電話をかけることができる。一方、パラメータ調
整手段9には、正解の単語と第2位の候補に関する認識
結果の情報が送られ、パラメータ調整手段9では、前述
したように閾値や対応するモデルパラメータを調整し、
話者適応が行なわれる。その後、スイッチS1を開く
(オフにする)ことで一連の処理が完了する。
【0066】また、上記の認識結果が間違っていた場合
(すなわち、電話機100の音声入出力装置(送話器)5
1から入力された利用者音声に対して最も得点の高い相
手先名を音声入出力装置(受話器)51より聞いて、これ
が間違っていた場合)には、利用者が「つぎのこうほ」
と発声することで、これが認識されて、比較器8−1に
記憶されていた第2位以降の候補を音声により出力す
る。正解の認識結果が現れるまで「つぎのこうほ」の発
声を繰り返し、上述の処理を繰り返す。正解の認識結果
が現われたら、その後、「だいやる」と発声し、これが
認識されたら、スイッチS3を電話番号記憶手段52に
接続し、スイッチS6を再び比較器8−1に接続し、ス
イッチS1を閉じる(オンにする)。電話番号記憶手段5
2では、比較器8−1において正解であった第n番目の
候補の指標を電話番号記憶手段52に送り、対応する電
話番号が検索される。その後、発呼装置53を使って、
検索された電話番号で相手先へ電話をかけることができ
る。一方、パラメータ調整手段9には、第n位であった
正解の単語と第1位であった正解以外で最も得点の高い
競合候補に関する認識結果の情報が送られ、パラメータ
調整手段9では、前述したように閾値や対応するモデル
パラメータを調整することにより話者適応が行なわれ
る。
【0067】このような操作により、認識と同時に話者
適応も行なわれ、事前に使用者の音声を登録する必要が
なくなる。
【0068】以上に述べた処理によって、モデルパラメ
ータや閾値のパラメータは、話者の特性に合わせて書き
換えられるが、使用者が替わったり、使用環境の変化な
どの理由により、変更したパラメータをリセットしたい
ときがある。図5はこのような場合を考慮した音声認識
装置の構成例を示す図であり、図5の音声認識装置で
は、パラメータ記憶手段3内に、2つのパラメータ記憶
領域3−1,3−2を用意し、パラメータ記憶領域3−
2には、ROMなどの書き換えられない記憶領域を設け
る一方、パラメータ記憶領域3−1には、RAMなどの
書き換え可能な記憶領域を設けておき、パラメータ記憶
領域3−2には、初期状態である予め作成しておいた不
特定話者認識用のパラメータを格納しておく。記憶領域
3−1では、これまで述べたような調整により話者適応
をする度にパラメータの内容が書き換わる。そして、ボ
タンPBを押すことによって記憶領域3−2の内容を記
憶領域3−1へ転送できるようにしておくことで、いつ
でもパラメータの内容を初期状態に戻すことができる。
なお、ボタンPBは、電話機100に設けられている各
種のプッシュボタンのうちのいずれかに対応させておけ
ばよい。
【0069】上述した本発明を要約すると、第1の実施
形態として、入力音声の特徴を分析する特徴分析手段
と、音声認識モデルを設計する認識モデル設計手段と、
有限状態網の弧に対応づけられた音声認識モデルがパラ
メータの形で記憶されるパラメータ記憶手段と、入力し
た言語を記憶する言語記憶手段と、言語記憶手段に記憶
された言語を有限状態網に変換する手段と、有限状態網
を記憶する有限状態網記憶手段と、有限状態網の弧に対
応づけられた音声認識モデルをパラメータ記憶手段から
パラメータの形で選択取得する認識モデル選択手段と、
特徴分析手段により得られた特徴パターン中に重要単語
が存在する可能性を、認識モデル選択手段によって選択
された音声認識モデルで測るスポッティング手段と、音
声認識モデルについてのパラメータを調整するパラメー
タ調整手段とを備えており、音声認識モデルについての
パラメータは、認識モデルのモデルパラメータおよび/
またはスポッティングに用いる閾値であり、パラメータ
調整手段は、装置の使用者が入力した音声の特徴パター
ンを用いて、認識結果として判定された語に対応する音
声認識モデルのモデルパラメータおよび/またはスポッ
ティングに用いる閾値を調整することを特徴としてい
る。
【0070】また、第2の実施形態として、上記第1の
実施形態の音声認識装置において、パラメータ調整手段
は、入力された音声の特徴パターンに対し、認識結果と
して判定された語に対応する音声認識モデルで測った得
点と、競合する語に対応する他の音声認識モデルで測っ
た得点との誤分類測度から得られた損失を一次微分可能
な連続関数で表現し、該損失の勾配を求めることによっ
て、誤分類が最小になるように、音声認識モデルのモデ
ルパラメータを調整することを特徴としている。
【0071】また、第3の実施形態として、上記第1の
実施形態の音声認識装置において、パラメータ調整手段
は、入力された音声の特徴パターンに対し、認識結果と
して判定された語に対応する音声認識モデルで測った得
点と、競合する語に対応する他の音声認識モデルで測っ
た得点との誤分類測度から得られた損失を一次微分可能
な連続関数で表現し、該損失の勾配を求めることによっ
て、誤分類が最小になるように、スポッティングに用い
る閾値を調整することを特徴としている。
【0072】このように、第1,第2,第3の実施形態
では、装置の使用者が入力した音声の特徴パターンを用
いて、認識結果として判定された語に対応する音声認識
モデルのモデルパラメータおよび/またはスポッティン
グに用いる閾値を調整するので、認識モデルのパラメー
タを使用者の特性や使用環境に適応し、認識精度を改善
することができる。
【0073】また、第1の実施形態の音声認識装置にお
いて、入力した音声に対して認識結果として判定された
語が正解の場合に、第2の実施形態および/または第3
の実施形態の処理を行なうことができる。この際、認識
結果として判定された語を規則音声合成処理により応答
することができる。このとき、応答が正解を表す内容で
あった場合は、処理の開始命令を表す入力音声パターン
を音声認識し、当該の命令が受理された場合に、第1,
第2または第3の実施形態の処理を行なうことができ
る。これにより、認識装置を使用しながら話者適応を逐
次的に行ない、利用者の負担を軽減することが可能であ
る。
【0074】また、第1,第2または第3の実施形態の
音声認識装置において、調整対象となる音声認識モデル
のパラメータを別の記憶領域に確保した後に、当該パラ
メータの調整を行なうことができる。
【0075】また、第1,第2または第3の実施形態の
音声認識装置において、調整された音声認識モデルのパ
ラメータを上記別の記憶領域に確保しておいたパラメー
タに書き換えることもできる。これにより、使用話者や
使用環境が変化しても安定した認識精度を得ることがで
きる。
【0076】なお、上述した説明からわかるように、ス
ポッティングの得点は数3により計算される。数3の右
辺Cθ(x,ωs)をさらに展開していくと最終的に数1
0に示した部分得点を計算することになる。数10に
は、閾値Tn αが組み込まれており、従って、閾値はス
ポッティングの得点に反映される。閾値がスポッティン
グの得点に、どのように影響するのかを図6に基づいて
説明する。
【0077】図6はある認識モデルで音声パターンを測
ったときに、その局所得点が時間とともに変化する様子
を示す図である。図6において、横軸線は符号の境界
で、上にあれば正であり、下の場合は負である。理想的
なスポッティングとは、符号が正である間を検出した区
間とし、得点をその区間の面積で算出することになる。
図6では、一つの認識モデルの例しか示していないが、
実際には認識候補となるモデルの数だけ音声パターンを
測ることになる。これらの中から最も得点の高い候補が
認識結果になる。ここで、閾値を変化させてみる。閾値
が比較的大きいThでは、スポッティングが行なわれる
が、小さいTh’の場合には、得点が正になる領域がな
いため、検出されない。従って、閾値が大きすぎると不
必要な区間も検出する「湧き出し」と呼ばれる問題が起
こり、小さすぎると実際には正解があるのに反応しない
「拒絶」の問題が起こる。閾値を適切に調整することは
非常に重要であり、本発明では、この閾値の調整を認識
処理の間に行なう。すなわち、調整手段9は、長い区間
の候補が正解であった場合には、閾値をさらに大きくし
てより得点が大きくなるように調整する。逆に短い区間
の候補が正解であった場合には、閾値を小さくして長い
区間の候補が湧き出してこないようにしている。このよ
うに、閾値は、スポッティングにおいて(得点の計算に
おいて)、上述したように用いられている。
【0078】また、上述した本発明の音声認識装置およ
び音声認識方法は、例えばワークステーションなどで実
現することも可能であり、ハードウェアとしては、例え
ば図7に示すように、全体を制御するCPU31、CP
U31の制御プログラムなどが記憶されているROM3
2、CPU31の作業領域として使用されるRAM3
3、データを記憶しておくハードディスク34などを備
えていればよい。
【0079】また、このような音声認識装置としての機
能は、例えばソフトウェアパッケージ(CD−ROMな
どの情報記録媒体)の形態で提供することができる。す
なわち、本発明は、ワークステーション、パーソナルコ
ンピュータなどの汎用計算機に情報記録媒体に記録され
たプログラムを読み込ませて、計算機のもつハードウェ
ア構成で、所定の処理を実行することが可能である。記
録媒体は、CD−ROMに限られるものではなく、RO
M、RAM、フレキシブルディスク、メモリカードなど
が用いられてもよい。媒体に記録されたプログラムは、
ハードウェアシステムに組み込まれている記憶装置、例
えばハードディスクにインストールすることにより、こ
のプログラムを実行して音声認識装置としての機能を実
現することができる。
【0080】また、上述の例において、状態遷移モデル
とは、いくつか提案されている音声認識モデルのうちの
1つを指し、本発明において、認識モデルとは、状態遷
移モデルのみならず、他の認識モデルも含む広義な語と
して用いられている。
【0081】
【発明の効果】以上に説明したように、請求項1乃至請
求項9記載の発明によれば、認識モデルのパラメータを
使用者の特性や使用環境に適応し、認識精度を改善する
ことができる。
【図面の簡単な説明】
【図1】本発明に係る音声認識装置の構成例を示す図で
ある。
【図2】有限状態網の例を示す図である。
【図3】パラメータ調整手段の具体例を示す図である。
【図4】図1の比較器の構成例を示す図である。
【図5】図1のパラメータ記憶手段の構成例を示す図で
ある。
【図6】認識モデルで音声パターンを測ったときに、そ
の局所得点が時間とともに変化する様子を示す図であ
る。
【図7】本発明に係る音声認識装置のハードウェア構成
例を示す図である。
【符号の説明】
1 特徴分析手段 2 認識モデル設計手段 3 パラメータ記憶手段 3−1,3−2 パラメータ記憶領域 4 言語記憶手段 5 有限状態網変換手段 6 認識モデル選択手段 7 スポッティング手段 8,8−1,8−2 比較器 9 パラメータ調整手段 11 誤分類測度計算器 12 損失計算器 13 モデルパラメータ修正量計算器 14 モデルパラメータ更新器 15 閾値修正量計算器 16 閾値更新器 20−1,20−2 有限状態網記憶手段 31 CPU 32 ROM 33 RAM 34 ハードディスク 51 音声入出力装置 52 電話番号記憶手段 53 発呼装置 100 電話機

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 入力音声の特徴を分析する特徴分析手段
    と、音声認識モデルを設計する認識モデル設計手段と、
    有限状態網の弧に対応づけられた音声認識モデルがパラ
    メータの形で記憶されるパラメータ記憶手段と、入力し
    た言語を記憶する言語記憶手段と、言語記憶手段に記憶
    された言語を有限状態網に変換する手段と、前記有限状
    態網を記憶する有限状態網記憶手段と、前記有限状態網
    の弧に対応づけられた前記音声認識モデルをパラメータ
    記憶手段からパラメータの形で選択取得する認識モデル
    選択手段と、前記特徴分析手段により得られた特徴パタ
    ーン中に重要単語が存在する可能性を、前記認識モデル
    選択手段によって選択された音声認識モデルで測るスポ
    ッティング手段と、音声認識モデルについてのパラメー
    タを調整するパラメータ調整手段とを備えており、前記
    音声認識モデルについてのパラメータは、認識モデルの
    モデルパラメータおよび/またはスポッティングに用い
    る閾値であり、前記パラメータ調整手段は、装置の使用
    者が入力した音声の特徴パターンを用いて、認識結果と
    して判定された語に対応する音声認識モデルのモデルパ
    ラメータおよび/またはスポッティングに用いる閾値を
    調整することを特徴とする音声認識装置。
  2. 【請求項2】 請求項1記載の音声認識装置において、
    前記パラメータ調整手段は、入力された音声の特徴パタ
    ーンに対し、認識結果として判定された語に対応する前
    記音声認識モデルで測った得点と、競合する語に対応す
    る他の音声認識モデルで測った得点との誤分類測度から
    得られた損失を一次微分可能な連続関数で表現し、該損
    失の勾配を求めることによって、誤分類が最小になるよ
    うに、前記音声認識モデルのモデルパラメータを調整す
    ることを特徴とする音声認識装置。
  3. 【請求項3】 請求項1記載の音声認識装置において、
    前記パラメータ調整手段は、入力された音声の特徴パタ
    ーンに対し、認識結果として判定された語に対応する前
    記音声認識モデルで測った得点と、競合する語に対応す
    る他の音声認識モデルで測った得点との誤分類測度から
    得られた損失を一次微分可能な連続関数で表現し、該損
    失の勾配を求めることによって、誤分類が最小になるよ
    うに、スポッティングに用いる閾値を調整することを特
    徴とする音声認識装置。
  4. 【請求項4】 音声認識モデルを認識モデル設計手段で
    設計し、認識モデルについての所定のパラメータをパラ
    メータ記憶手段に記憶し、また、入力した言語を有限状
    態網に変換して、前記有限状態網を記憶し、前記有限状
    態網の弧に対応づけられた前記音声認識モデルをパラメ
    ータ記憶手段からパラメータの形で認識モデル選択手段
    により選択取得し、入力音声の特徴を分析する特徴分析
    手段により得られた特徴パターン中に重要単語が存在す
    る可能性を、前記認識モデル選択手段によって選択され
    た音声認識モデルでスポッティングにより測るようにな
    っており、音声認識モデルについてのパラメータは、認
    識モデルのモデルパラメータおよび/またはスポッティ
    ングに用いる閾値であり、装置の使用者が入力した音声
    の特徴パターンを用いて、認識結果として判定された語
    に対応する音声認識モデルのモデルパラメータおよび/
    またはスポッティングに用いる閾値を調整することを特
    徴とする音声認識方法。
  5. 【請求項5】 請求項4記載の音声認識方法において、
    前記パラメータの調整は、入力された音声の特徴パター
    ンに対し、認識結果として判定された語に対応する前記
    音声認識モデルで測った得点と、競合する語に対応する
    他の音声認識モデルで測った得点との誤分類測度から得
    られた損失を一次微分可能な連続関数で表現し、該損失
    の勾配を求めることによって、誤分類が最小になるよう
    に、前記音声認識モデルのモデルパラメータを調整する
    ことによってなされることを特徴とする音声認識方法。
  6. 【請求項6】 請求項4記載の音声認識方法において、
    前記パラメータの調整は、入力された音声の特徴パター
    ンに対し、認識結果として判定された語に対応する前記
    音声認識モデルで測った得点と、競合する語に対応する
    他の音声認識モデルで測った得点との誤分類測度から得
    られた損失を一次微分可能な連続関数で表現し、該損失
    の勾配を求めることによって、誤分類が最小になるよう
    に、スポッティングに用いる閾値を調整することによっ
    てなされることを特徴とする音声認識方法。
  7. 【請求項7】 入力音声の特徴を分析する特徴分析手段
    と、音声認識モデルを設計する認識モデル設計手段と、
    所定のパラメータを記憶するパラメータ記憶手段と、入
    力した言語を記憶する手段と、言語を有限状態網に変換
    する手段と、前記有限状態網を記憶する手段と、前記有
    限状態網の弧に対応づけられた前記音声認識モデルをパ
    ラメータ記憶手段からパラメータの形で選択取得する認
    識モデル選択手段と、前記特徴分析手段により得られた
    特徴パターン中に重要単語が存在する可能性を、前記認
    識モデル選択手段によって選択された音声認識モデルで
    測るスポッティング手段と、音声認識モデルについての
    パラメータを調整するパラメータ調整手段とを備えてお
    り、前記音声認識モデルについてのパラメータは、認識
    モデルのモデルパラメータおよび/またはスポッティン
    グに用いる閾値であり、前記パラメータ調整手段は、装
    置の使用者が入力した音声の特徴パターンを用いて、認
    識結果として判定された語に対応する音声認識モデルの
    モデルパラメータおよび/またはスポッティングに用い
    る閾値を調整することを特徴とする音声認識装置を記録
    した記録媒体。
  8. 【請求項8】 請求項7記載の記録媒体において、前記
    パラメータ調整手段は、入力された音声の特徴パターン
    に対し、認識結果として判定された語に対応する前記音
    声認識モデルで測った得点と、競合する語に対応する他
    の音声認識モデルで測った得点との誤分類測度から得ら
    れた損失を一次微分可能な連続関数で表現し、該損失の
    勾配を求めることによって、誤分類が最小になるよう
    に、前記音声認識モデルのモデルパラメータを調整する
    ことを特徴とする音声認識装置を記録した記録媒体。
  9. 【請求項9】 請求項7記載の記録媒体において、前記
    パラメータ調整手段は、入力された音声の特徴パターン
    に対し、認識結果として判定された語に対応する前記音
    声認識モデルで測った得点と、競合する語に対応する他
    の音声認識モデルで測った得点との誤分類測度から得ら
    れた損失を一次微分可能な連続関数で表現し、該損失の
    勾配を求めることによって、誤分類が最小になるよう
    に、スポッティングに用いる閾値を調整することを特徴
    とする音声認識装置を記録した記録媒体。
JP10161393A 1998-05-25 1998-05-25 音声認識装置および音声認識方法および記録媒体 Pending JPH11338489A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10161393A JPH11338489A (ja) 1998-05-25 1998-05-25 音声認識装置および音声認識方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10161393A JPH11338489A (ja) 1998-05-25 1998-05-25 音声認識装置および音声認識方法および記録媒体

Publications (1)

Publication Number Publication Date
JPH11338489A true JPH11338489A (ja) 1999-12-10

Family

ID=15734248

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10161393A Pending JPH11338489A (ja) 1998-05-25 1998-05-25 音声認識装置および音声認識方法および記録媒体

Country Status (1)

Country Link
JP (1) JPH11338489A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113412514A (zh) * 2019-07-09 2021-09-17 谷歌有限责任公司 用于设备上语音识别模型的训练的文本片段的设备上语音合成

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113412514A (zh) * 2019-07-09 2021-09-17 谷歌有限责任公司 用于设备上语音识别模型的训练的文本片段的设备上语音合成
US11978432B2 (en) 2019-07-09 2024-05-07 Google Llc On-device speech synthesis of textual segments for training of on-device speech recognition model

Similar Documents

Publication Publication Date Title
Juang et al. Hidden Markov models for speech recognition
JP4109063B2 (ja) 音声認識装置及び音声認識方法
AU751310B2 (en) Speech recognition system employing discriminatively trained models
EP1701338B1 (en) Speech recognition method
JP5134751B2 (ja) 連続音声認識における識別訓練された混合モデル
US20100268535A1 (en) Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
JP2003022087A (ja) 音声認識方法
JPH0422276B2 (ja)
US20030023438A1 (en) Method and system for the training of parameters of a pattern recognition system, each parameter being associated with exactly one realization variant of a pattern from an inventory
KR20050083547A (ko) 음성 처리 장치 및 방법, 기록 매체와 프로그램
JPH0962291A (ja) 記述長最小基準を用いたパターン適応化方式
Shen et al. Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP2009237336A (ja) 音声認識装置及び音声認識プログラム
JPH11338489A (ja) 音声認識装置および音声認識方法および記録媒体
JPH08123469A (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JP4048473B2 (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
Kim et al. Deleted strategy for MMI-based HMM training
JP2008107408A (ja) 音声認識装置
JPH08211887A (ja) 発声変形音声認識装置及び音声認識方法
JP2002082688A (ja) 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体
JPH0619497A (ja) 音声認識方法
JPH09160586A (ja) ヒドン・マルコフ・モデルの学習方法
JPH08211893A (ja) 音声認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070507

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070830