JP4778613B2

JP4778613B2 - スピーチプロセシング

Info

Publication number: JP4778613B2
Application number: JP2000577651A
Authority: JP
Inventors: ハント，メルヴィン，ジョン
Original assignee: ドラゴンシステムズユーケーリサーチアンドデヴェロプメントリミテッド
Priority date: 1998-10-16
Filing date: 1999-10-15
Publication date: 2011-09-21
Anticipated expiration: 2019-10-15
Also published as: ATE241845T1; CA2346967A1; EP1121685A1; EP1121685B1; DE69908396D1; GB9822529D0; DE69908396T2; WO2000023984A1; AU6479499A; JP2002528753A

Description

【０００１】
本発明は種々の量の騒音を含む環境に遭遇する話者のスピーチレベルを予測する方法及び装置に関する。
【０００２】
これに限るわけではないが本発明は特にスピーチ認識に用いる装置と方法に関する。
【０００３】
自動スピーチ認識の中心的プロセスは認識されるべきスピーチの若干の表示とスピーチ音又は言葉或はその他のユニットの対応する基準モデルのセットとの間の比較にある。認識器に表示されるスピーチ信号レベルが該モデルによって期待されているものに近似していることが重要である。
【０００４】
スピーチ音は本来的な音の大きさに変化があるので全体的スピーチレベルの測定は平凡なプロセスではない。十分な量のスピーチのサンプルを取り上げてスピーチ音間に生じる変化を平均化するか、レベルが測定される発声を音声内容が同じ人の若干の既知レベルの発声と比較するとかが必要である。この第２の方法においては音声の同じスピーチ音が比較され得るが測定される発声の内容の情報を必要とする。
【０００５】
本発明においては騒音環境にあるスピーチ信号のレベルの変化はその環境騒音レベルを測定し、そしてロンバート (Lombart) 効果として知られている現象を用いて大体のスピーチレベルを決定することにより見積ることが出来ると分かった。
【０００６】
ロンバート効果とは人が騒音下にあるときはその人のスピーチの声が段段と大きく変わる現象である。自動スピーチ認識システムにおいてロンバート効果を調節しないときは、認識すべきスピーチのレベルと期待していたレベルとの間にミスマッチが生ずる。原理的にはこれはスピーチレベルを観察し認識器内増幅器の利得を調節してレベル変動を補償することが出来る。しかしある場合にはこれは現実的な構成ではない。例えば、自動車にあっては騒音は速度変化とか路面変化とか、窓が降ろされているとかにより、ある発声から他の発声へと変化する。前の発声に基づく利得設定はこのときは不適となる。ある場合には、発声が完了するまで待ち,話のレベルを測定し、記録された発声を調節してこのレベルに標準化し、このときだけ認識器へと送ることが出来る。しかし、このプロセスは認識の反応を遅らせることになり多くの適用例で受け入れられない。
【０００７】
本発明は一つの視点として、色々なレベルの騒音がある環境におかれた話者のスピーチレベルを予測する装置であって、該環境の騒音を測定する手段と、及びこの測定騒音レベルを用いて該発声のスピーチレベルを予測する処理手段とよりなるスピーチレベル予測装置を提起する。
【０００８】
この装置においては話者がいる場所の騒音レベルが発声間に変化し話者のスピーチレベルがロンバート効果に基づき上昇したり下降したりし、そして装置がスピーチレベルを予測する。このスピーチレベルは発声に隣接の騒音を測定し、そして定常騒音のレベル測定が全く簡単で短い騒音サンプルでなされることにより合理的な精度で予測出来る。本装置はスピーチレベルの測定値と、前の又は標準化した発声に関する対応する騒音レベルをも用いることが好ましい。
【０００９】
周囲の騒音レベルは単語や句の発声中でも前でも後でも測定出来、発声の時間的至近に測定をなし、測定と実際の発声との間に騒音レベルが相当にずれることに起因するスピーチレベルの予測が不正確になるおそれを減らすのが好ましい。
【００１０】
測定手段については発声直前の騒音レベルを測定し、スピーチレベルの予測はその後ではなく発声がなされながら或はその前に決定される。或は又測定は発声の後でもよい。
【００１１】
本装置は発声ごとに決定するように働く手段を含むのが好ましく、この発声
ピリオドは上記騒音レベルを測定する第１のピリオドと上記発声がなされている間である第２ピリオドとよりなる。
【００１２】
然して、好ましい実施態様においては、本発明は使用者入力装置(スイッチ等)、とタイマと制御手段とを含み、上記第１の騒音測定ピリオド、及び第２のスピーチ測定及び或は記録ピリオドを決定し、第1のピリオドの終わりが上記使用者に示されるのが好ましい。
【００１３】
特に好ましい本発明の視点としては,本装置が話者による１つ或はそれ以上の発声に感じ、上記測定装置が上記発声毎に優勢な騒音レベルを測定し、一連の騒音測定値を作り、更に上記装置は発声のスピーチレベルを測定する手段を含み、上記プロセス手段は上記騒音測定値の少なくとも２つと直前発声のスピーチレベルの測定値とを用い、最新の発声のスピーチレベルの予測を作ることである。
【００１４】
１つの例においては騒音が発声直前に測定されプロセス装置手段が次の式に基づき発声（１）のスピーチレベルを予測する。
【数３】

【００１５】
但しＳ₀は発声直前のスピーチレベル、Ｎ₁、Ｎ₀はスピーチレベルが予測されようとしている発声の直前の優勢な騒音レベルと、次の直前の騒音レベル、ｆ（ｘ）は話者がその話者のスピーチレベルにあるときの騒音レベルの変化に関する関数である。
【００１６】
この関数は単調増加関数であるのが好ましく,簡単な場合は、掛け算係数が１以下である。この係数は代表的には０から０．６までの範囲の正の値であり１つの例としては０．３２である。
【００１７】
或はまた、この関数は騒音レベル差のもっと複雑な関数でもある。同様にこの関数は変形して２つ以上の騒音レベル測定を考慮に入れるようにしてもよく、多数の前の発声のスピーチレベルに関する情報とこれに関連する騒音レベルとを寄せ集めて次の発声のスピーチレベルを予測する。
【００１８】
他の視点においては本発明はスピーチ認識即ちプロセス装置を提起し、これは上記した予測装置を含み、認識プロセシングの前にスピーチ信号の利得調節に用いる。
【００１９】
更に別の視点によれば、本発明は色々なレベルの騒音がある環境におかれた話者のスピーチレベルを予測する方法であって、
該環境の騒音レベルを測定し、
この測定騒音レベルを処理してスピーチレベルを予測値を作る予測方法を提起する。
【００２０】
また別の視点によれば、本発明は、スピーチ認識器または処理システムの利得を調節する方法であって、上記した方法で得たスピーチレベルの予測に基づきスピーチ信号の利得を調節する方法を提起する。
【００２１】
本発明は上述した通りであるが、上述した特徴或は次の説明との組合わせの発明まで拡張することができる。
【００２２】
本発明は色々な方法で実施せられるが、その例として次の１実施形態を図面を用いて説明する。
【００２３】
図示の実施形態は環境騒音レベルの変化の情報、及びこれのスピーチレベルへの影響の情報とを与えスピーチ認識器で認識されるべき次の発声におけるスピーチレベルを予測するシステムを示す。単１の発声の時間の騒音レベル変化は発声と発声との間に生ずる変化と比べ比較的小さいものとし、また騒音が短時間で十分な定常性を有し、このレベルが簡単なサンプルで計測できるものとする。
【００２４】
図1を説明すると、このスピーチ認識システムはマイクロホン１０を具備し、その出力が１４においてアナログからデジタルに変換する前に１２において音声処理を受ける。このデジタル信号はデジタル利得装置１６を経てプロセサ１８に至るがこれには認識器２０とスピーチレベル予想器２２とが組み込まれる。
【００２５】
このスピーチ認識器はどんな形式のものでもよく、適当な認識器は当業技術にとってよく知られたものである。プロセサ１８は使用者入力装置として働くスイッチ２４からの入力を受け、音響発生器２６を経て警報音を発生する。
【００２６】
図示のシステムは騒音レベルが変化する騒音環境内で使用するように意図されたものである。使用に際して、使用者は彼の発声を認識させたいときはスイッチ２４を閉じることによりシステムを喚起する。プロセサはこのとき発声フレームを決定するが、このフレームは環境騒音をサンプルし、音響発生器２６から警報音を発し使用者に話をしてよいことを示す第１の短時間ピリオドと、スピーチ信号がサンプルされ、認識器２０へこれが送られる第２のピリオドとより成る。第２のピリオドは第１ピリオドより長く、最も長い発声でも含みうる十分な長さである。第２のピリオドを決めるには、設定によりこの時間を設ける以外にいろいろな手法がある。例えば使用者がボタンを押したまま保持するとかボタンを再び押すとかこのピリオドの長さを使用者が決めることが出来る。或は、プロセサが沈黙時間を聞き取ったり、発声の言葉の分析に基づきコマンドの終わりを類推するようにしてもよい。更にスイッチを利用する代わりに発声フレームの開始を使用者コードで示してもよい。
【００２７】
スピーチレベルが騒音レベルと共に変化するのは公知であるから騒音レベルから発声におけるスピーチレベルの変化を予想するのは可能である。スピーチと騒音レベルＳ₀、Ｎ₀（ｄｂ）は１つの騒音条件でプロセサにより測定される。次の発声の第1ピリオドにあり且つ認識されるべき発声開始直前における新たな騒音レベルＮ₁もプロセサで計測される。２つの騒音レベルの差Ｎ₀―Ｎ₁がそれから決定され、前の発声のスピーチレベルＳ₀の情報と共にプロセサに用いられ新たな発声のスピーチレベルＳ₁を予測する。ここで、
【数４】

【００２８】
と書き表せるが、Ｓ₁´はＳ₁の予測値、ｆ（ｘ）は話者のスピーチレベルに対する話者の耳における騒音レベルの変化に関する関数である。最も簡単な構成においてはこの関数は１以下の係数であるが、騒音レベル差のもっと複雑な関数でもあり得る。実際には１つの適用例においてスピーチレベルの良好な結果が代表的に０．３の掛け算係数を用いて達成されると経験的に計測しているが、０から０．６までの係数でもある程度の改善をもたらす。これは全話者にとって同じと考えられるが、各話者ごとに別々に予想も出来る。
【００２９】
基準たるスピーチと騒音レベルＳ₀、Ｎ₀各々の計測は測定誤差を伴うものであるから多数の前の発声と騒音予測値からＳ₁の予測に貢献する情報とを集合することが好ましい。上記したＳ１´の計算は多数の前の発声の平均で置き換えることも出来る。これは単純な平均或は重みつき平均であり、この重みは色々な基準発声とＳ₁との差のような係数と色々な基準発声の相対的時間との時間差のような係数とによって定まる。例えば計算には何らかの時間効果を勘案する。例えば特定の環境騒音にさらされた時、話者のスピーチレベルは最初より上昇し、それから一時的フィルタ効果において下降することがわかっている。
【００３０】
新たな発声のスピーチレベルが決定されるとプロセサが信号の利得を制御する。この利得は色々な点で調節せられるが、信号がまだアナログ状態にあるときに調節されたり或はデジタル利得装置１６によって示されるようにデジタルスケールで達成される。更に別のやり方としてはスピーチ認識器においてＦＦＴ値（fast fourier transform）を取り扱うことである。もしセプストラム（cepstrum）が計算されるならば係数Ｃ₀に適当な定数を加えることにより信号の大きさが定められる。更に別な構成においては、システムが実効的なスピーチレベルを調節することによりスピーチレベルの増加、減少を補償してもよい。
【００３１】
利得は単にバックグランド騒音レベル以外のファクタを考慮してもよく例えばスペクトル構造を考慮することが出来る。
【００３２】
認識器の出力はいかなる便利な態様で使ってもよく、例えば装置に対して人が口で言うコマンドを発するように使ってもよい。
【図面の簡単な説明】
【図１】本発明によるスピーチレベル予測を含んだスピーチ認識器のブロックダイヤグラムである。

Claims

色々なレベルの騒音がある環境におかれた話者の発声のスピーチレベルを予測する装置であって、該環境の騒音を測定する手段、及びこの測定騒音レベルを用いて該発声のスピーチレベルを予測する処理手段とよりなり、該測定手段が隣接の発声の環境騒音レベルを測定する、装置において、
該測定手段を隣接の発声前に働かす手段と、
連続した発声における各発声について、上記環境騒音レベルを測定する第１の時間ピリオドと発声がなされている第２の時間ピリオドとよりなる発声時間ピリオドを決定するように働く手段と、をさらに含み、該処理手段が、第１の時間ピリオドと第２の時間ピリオドとの間の騒音測定値の計算できる差に基づいて、適切なスピーチレベルを予測する、
ことを特徴とするスピーチレベル予測装置。
本装置の使用者用の入力装置と、タイマと、上記第１並びに第２の時間ピリオドを決定する制御手段と、及び上記第１時間ピリオドの終わりを使用者に指示する手段とを含むことを特徴とする請求項１に記載のスピーチレベル予測装置。
上記予測装置が話者の1つ以上の次々の発声を測定するように働き、上記測定手段は各発声における環境騒音レベルを測定し、一連の騒音値を作るように働き、また上記予測装置は発声のスピーチレベルを測定する手段を含み、そして上記処理手段は少なくとも２つの騒音値と発声直前のスピーチレベルを表す値とをもって次の発声のスピーチレベルを予測することを特徴とする請求項２に記載のスピーチレベル予測装置。
上記測定手段が発声前の環境騒音レベルを測定するようにされ、上記処理装置が次の式に基づき発声のスピーチレベルＳ₁’を予測することを特徴とする請求項３に記載のスピーチレベル予測装置。

但しＳ₀…直前の発声のスピーチレベル、
Ｎ₁…スピーチレベルを予測しようとしている直前の発声における直前の騒音レベル、
Ｎ ₀ …Ｎ ₁ に該当する発声の直前の発声における直前の騒音レベル、
ｆ（ｘ）…話者が話者のスピーチレベルにある時の騒音レベルの変動に関する関数。
上記処理装置が次の式に基づきスピーチレベルＳ₁’を予測することを特徴とする請求項４に記載のスピーチレベル予測装置。

但しＫは定数である。
Ｋ＞１であることを特徴とする請求項５に記載のスピーチレベル予測装置。
Kが0より上から０．６以下にあることを特徴とする請求項５に記載のスピーチレベル予測装置。
騒音環境で用いられるスピーチ認識装置にして、認識しようとしているスピーチ発声を表すデータを受けこれを処理し、上記スピーチ発声の語彙内容を表したりこれに基づくデータを出力するスピーチ認識手段を含み、該スピーチ認識装置はスピーチ発声のレベルを調節するレベル調節手段を含み、さらに本認識装置は上記スピーチ発声中またはその前の上記環境騒音のレベルを測定する手段、この測定された環境騒音レベルを用い、上記スピーチ発声のレベルを予測する処理手段、及び該予測に基づき上記レベル制御手段を調節する手段、連続した発声における各発声について、上記環境騒音レベルを測定する第１の時間ピリオドと発声がなされている第２の時間ピリオドとよりなる発声時間ピリオドを決定するように働く手段を含み、該処理手段が、第１の時間ピリオドと第２の時間ピリオドとの間の騒音測定値の計算できる差に基づいて、適切なスピーチレベルを予測する、ことを特徴とするスピーチ認識装置。
色々なレベルの騒音がある環境におかれた話者の発声のスピーチレベルを予測する方法であって、該環境の騒音レベルを測定し、この測定騒音レベルを処理して該発声のスピーチレベルを予測し、さらに、連続した発声における各発声について、上記環境騒音レベルを測定する第１の時間ピリオドと発声がなされている第２の時間ピリオドとよりなる発声時間ピリオドを決定し、第１の時間ピリオドと第２の時間ピリオドとの間の騒音測定値の計算できる差に基づいて、適切なスピーチレベルを予測することを含む処理をすることを特徴とするスピーチレベル予測方法。
連続した発声における各発声について、上記環境騒音レベルの複数の測定が行われ、環境騒音レベルの上記測定に対応する１つ或は複数の発声のスピーチレベルの測定と共に用いて発声の適切なスピーチレベルを予測することを特徴とする請求項９に記載のスピーチレベル予測方法。
色々なレベルの騒音がある環境におけるスピーチ認識器または処理システムの利得を調節する方法であって、スピーチレベルの予測に基づきスピーチ信号の利得を調節し、該予測は上記環境騒音レベルの測定によって得られ、そして、上記測定された騒音レベルを処理して上記発声のスピーチレベルの予測をなし、さらに、連続した発声における各発声について、上記環境騒音レベルを測定する第１の時間ピリオドと発声がなされている第２の時間ピリオドとよりなる発声時間ピリオドを決定し、第１の時間ピリオドと第２の時間ピリオドとの間の騒音測定値の計算できる差に基づいて、適切なスピーチレベルを予測することを含む処理をすることを特徴とするスピーチ認識または処理システムの利得を調節する方法。