JP2003263193A

JP2003263193A - 音声認識システムで話者の交代を自動検出する方法

Info

Publication number: JP2003263193A
Application number: JP2003056314A
Authority: JP
Inventors: Fritz Class; クラスフリッツ; Udo Haiber; ハイバーウード; Alfred Kaltenmeier; カルテンマイアーアルフレート
Original assignee: DaimlerChrysler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2002-03-02
Filing date: 2003-03-03
Publication date: 2003-09-19
Also published as: DE10209324C1; US20030187645A1; EP1345208A2; EP1345208A3

Abstract

(57)【要約】【課題】システムの動作中に話者が交代したか否か、
またはその時点での話者に対する（話者に依存する）デ
ータセットが適切であるか否かを自動的に識別できる方
法を提供する。【解決手段】話者から独立したコードブックのほか少
なくとも１つの話者に依存するコードブックを設け、音
声認識システムによりベクトル量子化を用いて話者から
独立したコードブックおよび話者に依存するコードブッ
クと音声信号とを相関させ、当該の相関に基づいて話者
の同一性を判別する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識システムで
話者の交代を自動検出する方法に関する。

【０００２】

【従来の技術】自動的な音声認識手段はこんにち簡易な
バージョンが既に製品化されて使用されている。例えば
機器の制御および操作、または電話をベースとした案内
システムなどである。こうした音声認識システムは一般
に話者に依存しない識別を行う方式で構成されている。
すなわち任意の全てのユーザが特別なトレーニングフェ
ーズなしにシステムを利用できるよう、認容されている
語彙または命令に相応に構成されているのである。こう
した話者からの独立性はラボにおけるシステムの基礎ト
レーニングにおいてきわめて多くの話者が厖大な数の語
彙を用いて対話試験を行うことにより達成される。

【０００３】さらに、オンラインでアプリケーションが
アクチュアルになっている最中に音声認識システムを話
者と設備（マイクロフォン、アンプ、空間）とに関する
固有の条件へ適応化する手法が用いられている。こうし
た適応化の手法はスーパーバイズの付く場合でも付かな
い場合でも使用することができる。

【０００４】スーパーバイズなしの適応化とは、音声認
識システムについてユーザが意識することなくつねにア
クチュアルな状況へ適応化が行われることを意味する。
このためには一般にステップウィンドウが使用され、所
定の時間にわたって滑らかにシステムの所定のパラメー
タが追従制御される。ステップウィンドウの時定数（し
ばしば忘却レートとも称される）により適応化速度が定
められる。

【０００５】スーパーバイズ付きの適応化では、ユーザ
はトレーニングフェーズにおいて明示的に、システムに
よって（音響的または光学的に）設定されている語彙ま
たは文章を意図的に話さなければならない。こうした入
力（対話試験）から話者に特有のパラメータがシステム
内で形成され、後に最適化される。スーパーバイズ付き
の適応化の手法はしばしば話者から独立した基本システ
ムがきわめて劣悪な識別率しか有さず、しかもスーパー
バイズなしの適応化によっても大した改善が得られない
話者に適用される。こうしたスーパーバイズ付きの適応
化はもちろん一度行われれば充分であり、当該の固有ユ
ーザがシステムを用いる場合には相応に特有のデータセ
ットを毎回使用することができる。

【０００６】２つの手法、すなわちスーパーバイズ付き
の適応化およびスーパーバイズなしの適応化では、話者
特有のパラメータセットが基本パラメータに加えて記憶
される。現実の多くのアプリケーションで、例えば“車
両内での音声サービス”などの場合に、ユーザが比較的
しばしば交代するという問題が発生する。全ユーザまた
は数回利用するユーザに対して話者に特有のデータセッ
トを設定する場合、その時点でのユーザに対して適切な
データセットが使用されているかどうかという問題が発
生する。もちろんシステムの新規スタート時には問い合
わせによりこれを行うことができる。ただしきわめて煩
雑でユーザフレンドリでない手法しか存在しないにもか
かわらず、話者の交代はしばしば発生する状況である。
システムが作動しているあいだ新たなリスタートは不可
能である。

【０００７】

【非特許文献１】Huang Xuedong D., Y.Ariki, M.A.Jac
k, "Hidden Markov models for speech recognition",
Edinburgh information technology series, Edinburgh
University Press, Scottland, 1990

【０００８】

【発明が解決しようとする課題】本発明の課題は、シス
テムの動作中に話者が交代したか否か、またはその時点
での話者に対する（話者に依存する）データセットが適
切であるか否かを自動的に識別できる方法を提供するこ
とである。

【０００９】

【課題を解決するための手段】この課題は、話者から独
立したコードブックのほか少なくとも１つの話者に依存
するコードブックを設け、音声認識システムによりベク
トル量子化を用いて話者から独立したコードブックおよ
び話者に依存するコードブックと音声信号とを相関さ
せ、当該の相関に基づいて話者の同一性を判別すること
により解決される。

【００１０】

【発明の実施の形態】本発明の課題は、いわゆるセミコ
ンティニュアス隠れマルコフモデルＳＣＨＭＭに基づい
ている（前掲の文献を参照）。セミコンティニュアス隠
れマルコフモデルに基づくクラス分類に関連して、ｎ次
の正規分布から成るコードブックが形成される。この場
合それぞれの正規分布は平均値ベクトルμおよびその共
変マトリクスＫにより表される。話者の適応化を行う際
には一般に、こうした正規分布のパラメータ、すなわち
平均値ベクトルおよび／または共変マトリクスが話者ご
とに固有に変更される。これらの話者固有のデータセッ
トは話者から独立したコードブックに相応するいわゆる
ベースラインデータセットに加えて記憶される。本発明
の手段では音声認識システムはベクトル量子化を用いて
話者から独立したコードブックおよび話者に依存するコ
ードブックと音声信号とを相関させる。この相関に基づ
いて音声認識システムでは音声信号を該当するコードブ
ックに割り当て、これにより話者の同一性を判別する
（個人識別する）ことができる。

【００１１】本発明の有利な方法により、話者の交代は
もっぱら音声信号のみで検出され、その際に従来技術で
使用されているような話者識別手段を用いなくて済むよ
うになる。従来の解決手段は話者の識別または話者の認
証のために、話者識別システムと同時に個別の識別シス
テムをアクティブにしなければならないという欠点を有
していた。しかし２つのシステムを使用するのは煩雑で
あり、コスト上の理由からも実際的でない。

【００１２】本発明の対象として、直接に音声信号から
導出されたパラメータを用いて話者の交代があったか否
かを識別する手法も考察される。有利には同じステップ
で記憶されているクラシフィケータのパラメータセット
（コードブック）のうちいずれがその時点での話者での
音声認識に対して最適であるかを識別することもでき
る。

【００１３】上述の話者適応化の手法では、有利には、
話者固有のコードブックにおいて正規分布のパラメー
タ、すなわち平均値および／または共変マトリクスが話
者から独立したコードブックに対して変更される。話者
固有のデータセット（話者に依存するコードブック）は
この場合いわゆるベースラインデータセット（話者から
独立したコードブック）に加えて記憶される。

【００１４】こうした識別システムのアプリケーション
フェーズでは、いわゆるベクトル量子化が行われる。こ
れは音声信号から計算される特徴ベクトルを正規分布へ
クラシフィケーションするものである。このクラシフィ
ケーションはコードブックの各正規分布に対する特徴ベ
クトルの“確率値”ｐ（ｘ，ｋ）を送出する。

【００１５】

【実施例】以下に実施例のシナリオに則して本発明の方
法の原理を詳細に説明する。

【００１６】話者から独立したコードブック１は図では
パラメータμ_１，．．．，μ_４（平均値ベクトル）とこ
れに属する共変マトリクスＫ_１，．．．，Ｋ_４とを備え
たそれぞれ４つの正規分布（“標準コードブック”）か
ら成る。適応化フェーズで話者がシステムを事後的にト
レーニングする。その際に標準コードブックの平均値ベ
クトルおよび共変マトリクスは修正され、新たな話者固
有の平均値μ’_１，．．．，μ’_４を備えた話者に依存
するコードブック２が形成される。このように後でトレ
ーニングされたコードブック２（または新たな平均値ベ
クトル）が付加的に記憶される。

【００１７】認識システムのアプリケーションフェーズ
では例えば２つのコードブックが存在する。１つは話者
から独立した識別のための標準コードブック１であり、
もう１つは話者に依存して後からトレーニングされたコ
ードブック２である。基本的にはもちろん任意の数の後
からトレーニングされたコードブックを設けることがで
き、その際にも本発明の方法を変更する必要はない。音
声信号から得られた各特徴ベクトルＸごとに２つのコー
ドブックの全ての正規分布へのクラシフィケーション
（いわゆる“ベクトル量子化”）が行われる。この実施
例では標準コードブック１に対して第１の正規分布の確
率値ｐ（Ｘ，１）＝０．２、第２の値ｐ（Ｘ，２）＝
０．６、第３の値ｐ（Ｘ，３）＝０．１、第４の値ｐ
（Ｘ，４）＝０．１が得られる。相応に後からトレーニ
ングされたコードブック２に対しては、例えばｐ（Ｘ，
１）＝０．３、ｐ（Ｘ，２）＝０．４、ｐ（Ｘ，３）＝
０．１、ｐ（Ｘ，４）＝０．２が得られる。

【００１８】通常の場合、小さな確率値を排除するため
に閾値が使用される。この実施例ではこの閾値は０．１
５である。これは標準コードブック１の確率値ｐ（Ｘ，
１）＝０．２およびｐ（Ｘ，２）＝０．６と、後からト
レーニングされたコードブック２のｐ（Ｘ，１）＝０．
３、ｐ（Ｘ，２）＝０．４およびｐ（Ｘ，４）＝０．２
とが閾値を上回り、後の考察に関連してくることを意味
する。次のステップとして

【００１９】

【数２】

【００２０】にしたがって“合計１”への正規化が行わ
れる。ここでＮは閾値を上回る確率値の個数である。こ
の実施例では標準コードブック１でＮ＝２であり、後か
らトレーニングされたコードブック２でＮ＝３である。
ｋはコードブック内の正規分布を表しており、これが相
応の確率値へ割り当てられる。式の最初の部分、すなわ
ち

【００２１】

【数３】

【００２２】はいわゆる正規化係数Ｆである。

【００２３】したがって各コードブックに対して固有の
正規化係数が得られ、この実施例ではコードブック１に対して：Ｆ_{ｓｔｎｄｒｄ}＝１．２５コードブック２に対して：Ｆ_{ｎａｃｈｔｒ}＝１．１１である。

【００２４】正規化係数Ｆはここでは次のように解釈さ
れる。特徴ベクトルが平均してコードブックの正規分布
に近づくにつれて、すなわちこのベクトルに対する確率
が大きくなるにつれて、当該のコードブックがその時点
の話者に相応する度合が大きくなる。式（２）から理解
されるように、正規化係数は確率値が大きくなるにつれ
て小さくなる。この実施例では後からのトレーニングに
関連する話者が判別される。

【００２５】つまり話者の交代の判別基準は式（２）に
したがう正規化係数である。

【００２６】本発明の特徴は次の点である。

【００２７】１．個々の特徴ベクトルについて識別動作
の全期間にわたって判別を行うが、ここで有利には判別
は順次かつきわめて迅速に行われる。これにより本発明
の方法の動作はリアルタイムで可能となる。

【００２８】２．話者の第１の表現（語または文）に対
して判別を行うだけでよい。その後の判別は省略され
る。すなわち所定の時間範囲にわたって、例えば大きな
会話休止にいたるまでのあいだ、第１の表現に割り当て
られたコードブックのみが用いられる。

【図面の簡単な説明】

【図１】話者の交代の識別に利用される２つのコードブ
ックを示す図である。

【符号の説明】

μ_１〜μ_４、μ’_１〜μ’_４平均値ベクトルＫ_１〜Ｋ_４共変マトリクスＸ特徴ベクトル

フロントページの続き (72)発明者ウードハイバードイツ連邦共和国ウルムフィルショフシュトラーセ 14／５ (72)発明者アルフレートカルテンマイアードイツ連邦共和国ウルムブーヘンラントヴェーク 223 Ｆターム(参考） 5D015 AA03 HH23

Claims

【特許請求の範囲】

【請求項１】ｎ次の正規分布から成る話者から独立し
たコードブックを有しており、隠れマルコフモデルに基
づいて動作する音声認識システムで話者の交代を自動検
出する方法において、話者から独立したコードブックのほか少なくとも１つの
話者に依存するコードブックを設け、音声認識システムによりベクトル量子化を用いて話者か
ら独立したコードブックおよび話者に依存するコードブ
ックと音声信号とを相関させ、当該の相関に基づいて話者の同一性を判別することを特
徴とする音声認識システムで話者の交代を自動検出する
方法。
【請求項２】ベクトル量子化で得られた確率値のうち
予め定められた閾値を上回るもののみを相関に用いる、
請求項１記載の方法。
【請求項３】相関の前にベクトル量子化で得られた確
率値から各コードブックに対して正規化係数Ｆを【数１】にしたがって計算する、請求項１または２記載の方法。
【請求項４】音声信号に関して最小の正規化係数Ｆを
有するコードブックを当該の音声信号に帰属するものと
して割り当てる、請求項３記載の方法。
【請求項５】連続的にリアルタイム手段にしたがって
音声信号における話者の交代を探索する、請求項１から
４までのいずれか１項記載の方法。
【請求項６】音声信号の部分シーケンスのみに関連し
て話者の同一性判別を行い、ここから得られた選択を全
シーケンスにわたって保持する、請求項１から４までの
いずれか１項記載の方法。
【請求項７】当該の部分シーケンスを語頭または文頭
に関連づける、請求項６記載の方法。