JP2003263193A - 音声認識システムで話者の交代を自動検出する方法 - Google Patents
音声認識システムで話者の交代を自動検出する方法Info
- Publication number
- JP2003263193A JP2003263193A JP2003056314A JP2003056314A JP2003263193A JP 2003263193 A JP2003263193 A JP 2003263193A JP 2003056314 A JP2003056314 A JP 2003056314A JP 2003056314 A JP2003056314 A JP 2003056314A JP 2003263193 A JP2003263193 A JP 2003263193A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- codebook
- recognition system
- independent
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000001514 detection method Methods 0.000 title 1
- 239000013598 vector Substances 0.000 claims abstract description 21
- 230000001419 dependent effect Effects 0.000 claims abstract description 11
- 238000013139 quantization Methods 0.000 claims abstract description 8
- 238000009826 distribution Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 8
- 230000000717 retained effect Effects 0.000 claims 1
- 230000006978 adaptation Effects 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
Abstract
(57)【要約】
【課題】 システムの動作中に話者が交代したか否か、
またはその時点での話者に対する(話者に依存する)デ
ータセットが適切であるか否かを自動的に識別できる方
法を提供する。 【解決手段】 話者から独立したコードブックのほか少
なくとも1つの話者に依存するコードブックを設け、音
声認識システムによりベクトル量子化を用いて話者から
独立したコードブックおよび話者に依存するコードブッ
クと音声信号とを相関させ、当該の相関に基づいて話者
の同一性を判別する。
またはその時点での話者に対する(話者に依存する)デ
ータセットが適切であるか否かを自動的に識別できる方
法を提供する。 【解決手段】 話者から独立したコードブックのほか少
なくとも1つの話者に依存するコードブックを設け、音
声認識システムによりベクトル量子化を用いて話者から
独立したコードブックおよび話者に依存するコードブッ
クと音声信号とを相関させ、当該の相関に基づいて話者
の同一性を判別する。
Description
【0001】
【発明の属する技術分野】本発明は音声認識システムで
話者の交代を自動検出する方法に関する。
話者の交代を自動検出する方法に関する。
【0002】
【従来の技術】自動的な音声認識手段はこんにち簡易な
バージョンが既に製品化されて使用されている。例えば
機器の制御および操作、または電話をベースとした案内
システムなどである。こうした音声認識システムは一般
に話者に依存しない識別を行う方式で構成されている。
すなわち任意の全てのユーザが特別なトレーニングフェ
ーズなしにシステムを利用できるよう、認容されている
語彙または命令に相応に構成されているのである。こう
した話者からの独立性はラボにおけるシステムの基礎ト
レーニングにおいてきわめて多くの話者が厖大な数の語
彙を用いて対話試験を行うことにより達成される。
バージョンが既に製品化されて使用されている。例えば
機器の制御および操作、または電話をベースとした案内
システムなどである。こうした音声認識システムは一般
に話者に依存しない識別を行う方式で構成されている。
すなわち任意の全てのユーザが特別なトレーニングフェ
ーズなしにシステムを利用できるよう、認容されている
語彙または命令に相応に構成されているのである。こう
した話者からの独立性はラボにおけるシステムの基礎ト
レーニングにおいてきわめて多くの話者が厖大な数の語
彙を用いて対話試験を行うことにより達成される。
【0003】さらに、オンラインでアプリケーションが
アクチュアルになっている最中に音声認識システムを話
者と設備(マイクロフォン、アンプ、空間)とに関する
固有の条件へ適応化する手法が用いられている。こうし
た適応化の手法はスーパーバイズの付く場合でも付かな
い場合でも使用することができる。
アクチュアルになっている最中に音声認識システムを話
者と設備(マイクロフォン、アンプ、空間)とに関する
固有の条件へ適応化する手法が用いられている。こうし
た適応化の手法はスーパーバイズの付く場合でも付かな
い場合でも使用することができる。
【0004】スーパーバイズなしの適応化とは、音声認
識システムについてユーザが意識することなくつねにア
クチュアルな状況へ適応化が行われることを意味する。
このためには一般にステップウィンドウが使用され、所
定の時間にわたって滑らかにシステムの所定のパラメー
タが追従制御される。ステップウィンドウの時定数(し
ばしば忘却レートとも称される)により適応化速度が定
められる。
識システムについてユーザが意識することなくつねにア
クチュアルな状況へ適応化が行われることを意味する。
このためには一般にステップウィンドウが使用され、所
定の時間にわたって滑らかにシステムの所定のパラメー
タが追従制御される。ステップウィンドウの時定数(し
ばしば忘却レートとも称される)により適応化速度が定
められる。
【0005】スーパーバイズ付きの適応化では、ユーザ
はトレーニングフェーズにおいて明示的に、システムに
よって(音響的または光学的に)設定されている語彙ま
たは文章を意図的に話さなければならない。こうした入
力(対話試験)から話者に特有のパラメータがシステム
内で形成され、後に最適化される。スーパーバイズ付き
の適応化の手法はしばしば話者から独立した基本システ
ムがきわめて劣悪な識別率しか有さず、しかもスーパー
バイズなしの適応化によっても大した改善が得られない
話者に適用される。こうしたスーパーバイズ付きの適応
化はもちろん一度行われれば充分であり、当該の固有ユ
ーザがシステムを用いる場合には相応に特有のデータセ
ットを毎回使用することができる。
はトレーニングフェーズにおいて明示的に、システムに
よって(音響的または光学的に)設定されている語彙ま
たは文章を意図的に話さなければならない。こうした入
力(対話試験)から話者に特有のパラメータがシステム
内で形成され、後に最適化される。スーパーバイズ付き
の適応化の手法はしばしば話者から独立した基本システ
ムがきわめて劣悪な識別率しか有さず、しかもスーパー
バイズなしの適応化によっても大した改善が得られない
話者に適用される。こうしたスーパーバイズ付きの適応
化はもちろん一度行われれば充分であり、当該の固有ユ
ーザがシステムを用いる場合には相応に特有のデータセ
ットを毎回使用することができる。
【0006】2つの手法、すなわちスーパーバイズ付き
の適応化およびスーパーバイズなしの適応化では、話者
特有のパラメータセットが基本パラメータに加えて記憶
される。現実の多くのアプリケーションで、例えば“車
両内での音声サービス”などの場合に、ユーザが比較的
しばしば交代するという問題が発生する。全ユーザまた
は数回利用するユーザに対して話者に特有のデータセッ
トを設定する場合、その時点でのユーザに対して適切な
データセットが使用されているかどうかという問題が発
生する。もちろんシステムの新規スタート時には問い合
わせによりこれを行うことができる。ただしきわめて煩
雑でユーザフレンドリでない手法しか存在しないにもか
かわらず、話者の交代はしばしば発生する状況である。
システムが作動しているあいだ新たなリスタートは不可
能である。
の適応化およびスーパーバイズなしの適応化では、話者
特有のパラメータセットが基本パラメータに加えて記憶
される。現実の多くのアプリケーションで、例えば“車
両内での音声サービス”などの場合に、ユーザが比較的
しばしば交代するという問題が発生する。全ユーザまた
は数回利用するユーザに対して話者に特有のデータセッ
トを設定する場合、その時点でのユーザに対して適切な
データセットが使用されているかどうかという問題が発
生する。もちろんシステムの新規スタート時には問い合
わせによりこれを行うことができる。ただしきわめて煩
雑でユーザフレンドリでない手法しか存在しないにもか
かわらず、話者の交代はしばしば発生する状況である。
システムが作動しているあいだ新たなリスタートは不可
能である。
【0007】
【非特許文献1】Huang Xuedong D., Y.Ariki, M.A.Jac
k, "Hidden Markov models for speech recognition",
Edinburgh information technology series, Edinburgh
University Press, Scottland, 1990
k, "Hidden Markov models for speech recognition",
Edinburgh information technology series, Edinburgh
University Press, Scottland, 1990
【0008】
【発明が解決しようとする課題】本発明の課題は、シス
テムの動作中に話者が交代したか否か、またはその時点
での話者に対する(話者に依存する)データセットが適
切であるか否かを自動的に識別できる方法を提供するこ
とである。
テムの動作中に話者が交代したか否か、またはその時点
での話者に対する(話者に依存する)データセットが適
切であるか否かを自動的に識別できる方法を提供するこ
とである。
【0009】
【課題を解決するための手段】この課題は、話者から独
立したコードブックのほか少なくとも1つの話者に依存
するコードブックを設け、音声認識システムによりベク
トル量子化を用いて話者から独立したコードブックおよ
び話者に依存するコードブックと音声信号とを相関さ
せ、当該の相関に基づいて話者の同一性を判別すること
により解決される。
立したコードブックのほか少なくとも1つの話者に依存
するコードブックを設け、音声認識システムによりベク
トル量子化を用いて話者から独立したコードブックおよ
び話者に依存するコードブックと音声信号とを相関さ
せ、当該の相関に基づいて話者の同一性を判別すること
により解決される。
【0010】
【発明の実施の形態】本発明の課題は、いわゆるセミコ
ンティニュアス隠れマルコフモデルSCHMMに基づい
ている(前掲の文献を参照)。セミコンティニュアス隠
れマルコフモデルに基づくクラス分類に関連して、n次
の正規分布から成るコードブックが形成される。この場
合それぞれの正規分布は平均値ベクトルμおよびその共
変マトリクスKにより表される。話者の適応化を行う際
には一般に、こうした正規分布のパラメータ、すなわち
平均値ベクトルおよび/または共変マトリクスが話者ご
とに固有に変更される。これらの話者固有のデータセッ
トは話者から独立したコードブックに相応するいわゆる
ベースラインデータセットに加えて記憶される。本発明
の手段では音声認識システムはベクトル量子化を用いて
話者から独立したコードブックおよび話者に依存するコ
ードブックと音声信号とを相関させる。この相関に基づ
いて音声認識システムでは音声信号を該当するコードブ
ックに割り当て、これにより話者の同一性を判別する
(個人識別する)ことができる。
ンティニュアス隠れマルコフモデルSCHMMに基づい
ている(前掲の文献を参照)。セミコンティニュアス隠
れマルコフモデルに基づくクラス分類に関連して、n次
の正規分布から成るコードブックが形成される。この場
合それぞれの正規分布は平均値ベクトルμおよびその共
変マトリクスKにより表される。話者の適応化を行う際
には一般に、こうした正規分布のパラメータ、すなわち
平均値ベクトルおよび/または共変マトリクスが話者ご
とに固有に変更される。これらの話者固有のデータセッ
トは話者から独立したコードブックに相応するいわゆる
ベースラインデータセットに加えて記憶される。本発明
の手段では音声認識システムはベクトル量子化を用いて
話者から独立したコードブックおよび話者に依存するコ
ードブックと音声信号とを相関させる。この相関に基づ
いて音声認識システムでは音声信号を該当するコードブ
ックに割り当て、これにより話者の同一性を判別する
(個人識別する)ことができる。
【0011】本発明の有利な方法により、話者の交代は
もっぱら音声信号のみで検出され、その際に従来技術で
使用されているような話者識別手段を用いなくて済むよ
うになる。従来の解決手段は話者の識別または話者の認
証のために、話者識別システムと同時に個別の識別シス
テムをアクティブにしなければならないという欠点を有
していた。しかし2つのシステムを使用するのは煩雑で
あり、コスト上の理由からも実際的でない。
もっぱら音声信号のみで検出され、その際に従来技術で
使用されているような話者識別手段を用いなくて済むよ
うになる。従来の解決手段は話者の識別または話者の認
証のために、話者識別システムと同時に個別の識別シス
テムをアクティブにしなければならないという欠点を有
していた。しかし2つのシステムを使用するのは煩雑で
あり、コスト上の理由からも実際的でない。
【0012】本発明の対象として、直接に音声信号から
導出されたパラメータを用いて話者の交代があったか否
かを識別する手法も考察される。有利には同じステップ
で記憶されているクラシフィケータのパラメータセット
(コードブック)のうちいずれがその時点での話者での
音声認識に対して最適であるかを識別することもでき
る。
導出されたパラメータを用いて話者の交代があったか否
かを識別する手法も考察される。有利には同じステップ
で記憶されているクラシフィケータのパラメータセット
(コードブック)のうちいずれがその時点での話者での
音声認識に対して最適であるかを識別することもでき
る。
【0013】上述の話者適応化の手法では、有利には、
話者固有のコードブックにおいて正規分布のパラメー
タ、すなわち平均値および/または共変マトリクスが話
者から独立したコードブックに対して変更される。話者
固有のデータセット(話者に依存するコードブック)は
この場合いわゆるベースラインデータセット(話者から
独立したコードブック)に加えて記憶される。
話者固有のコードブックにおいて正規分布のパラメー
タ、すなわち平均値および/または共変マトリクスが話
者から独立したコードブックに対して変更される。話者
固有のデータセット(話者に依存するコードブック)は
この場合いわゆるベースラインデータセット(話者から
独立したコードブック)に加えて記憶される。
【0014】こうした識別システムのアプリケーション
フェーズでは、いわゆるベクトル量子化が行われる。こ
れは音声信号から計算される特徴ベクトルを正規分布へ
クラシフィケーションするものである。このクラシフィ
ケーションはコードブックの各正規分布に対する特徴ベ
クトルの“確率値”p(x,k)を送出する。
フェーズでは、いわゆるベクトル量子化が行われる。こ
れは音声信号から計算される特徴ベクトルを正規分布へ
クラシフィケーションするものである。このクラシフィ
ケーションはコードブックの各正規分布に対する特徴ベ
クトルの“確率値”p(x,k)を送出する。
【0015】
【実施例】以下に実施例のシナリオに則して本発明の方
法の原理を詳細に説明する。
法の原理を詳細に説明する。
【0016】話者から独立したコードブック1は図では
パラメータμ1,...,μ4(平均値ベクトル)とこ
れに属する共変マトリクスK1,...,K4とを備え
たそれぞれ4つの正規分布(“標準コードブック”)か
ら成る。適応化フェーズで話者がシステムを事後的にト
レーニングする。その際に標準コードブックの平均値ベ
クトルおよび共変マトリクスは修正され、新たな話者固
有の平均値μ’1,...,μ’4を備えた話者に依存
するコードブック2が形成される。このように後でトレ
ーニングされたコードブック2(または新たな平均値ベ
クトル)が付加的に記憶される。
パラメータμ1,...,μ4(平均値ベクトル)とこ
れに属する共変マトリクスK1,...,K4とを備え
たそれぞれ4つの正規分布(“標準コードブック”)か
ら成る。適応化フェーズで話者がシステムを事後的にト
レーニングする。その際に標準コードブックの平均値ベ
クトルおよび共変マトリクスは修正され、新たな話者固
有の平均値μ’1,...,μ’4を備えた話者に依存
するコードブック2が形成される。このように後でトレ
ーニングされたコードブック2(または新たな平均値ベ
クトル)が付加的に記憶される。
【0017】認識システムのアプリケーションフェーズ
では例えば2つのコードブックが存在する。1つは話者
から独立した識別のための標準コードブック1であり、
もう1つは話者に依存して後からトレーニングされたコ
ードブック2である。基本的にはもちろん任意の数の後
からトレーニングされたコードブックを設けることがで
き、その際にも本発明の方法を変更する必要はない。音
声信号から得られた各特徴ベクトルXごとに2つのコー
ドブックの全ての正規分布へのクラシフィケーション
(いわゆる“ベクトル量子化”)が行われる。この実施
例では標準コードブック1に対して第1の正規分布の確
率値p(X,1)=0.2、第2の値p(X,2)=
0.6、第3の値p(X,3)=0.1、第4の値p
(X,4)=0.1が得られる。相応に後からトレーニ
ングされたコードブック2に対しては、例えばp(X,
1)=0.3、p(X,2)=0.4、p(X,3)=
0.1、p(X,4)=0.2が得られる。
では例えば2つのコードブックが存在する。1つは話者
から独立した識別のための標準コードブック1であり、
もう1つは話者に依存して後からトレーニングされたコ
ードブック2である。基本的にはもちろん任意の数の後
からトレーニングされたコードブックを設けることがで
き、その際にも本発明の方法を変更する必要はない。音
声信号から得られた各特徴ベクトルXごとに2つのコー
ドブックの全ての正規分布へのクラシフィケーション
(いわゆる“ベクトル量子化”)が行われる。この実施
例では標準コードブック1に対して第1の正規分布の確
率値p(X,1)=0.2、第2の値p(X,2)=
0.6、第3の値p(X,3)=0.1、第4の値p
(X,4)=0.1が得られる。相応に後からトレーニ
ングされたコードブック2に対しては、例えばp(X,
1)=0.3、p(X,2)=0.4、p(X,3)=
0.1、p(X,4)=0.2が得られる。
【0018】通常の場合、小さな確率値を排除するため
に閾値が使用される。この実施例ではこの閾値は0.1
5である。これは標準コードブック1の確率値p(X,
1)=0.2およびp(X,2)=0.6と、後からト
レーニングされたコードブック2のp(X,1)=0.
3、p(X,2)=0.4およびp(X,4)=0.2
とが閾値を上回り、後の考察に関連してくることを意味
する。次のステップとして
に閾値が使用される。この実施例ではこの閾値は0.1
5である。これは標準コードブック1の確率値p(X,
1)=0.2およびp(X,2)=0.6と、後からト
レーニングされたコードブック2のp(X,1)=0.
3、p(X,2)=0.4およびp(X,4)=0.2
とが閾値を上回り、後の考察に関連してくることを意味
する。次のステップとして
【0019】
【数2】
【0020】にしたがって“合計1”への正規化が行わ
れる。ここでNは閾値を上回る確率値の個数である。こ
の実施例では標準コードブック1でN=2であり、後か
らトレーニングされたコードブック2でN=3である。
kはコードブック内の正規分布を表しており、これが相
応の確率値へ割り当てられる。式の最初の部分、すなわ
ち
れる。ここでNは閾値を上回る確率値の個数である。こ
の実施例では標準コードブック1でN=2であり、後か
らトレーニングされたコードブック2でN=3である。
kはコードブック内の正規分布を表しており、これが相
応の確率値へ割り当てられる。式の最初の部分、すなわ
ち
【0021】
【数3】
【0022】はいわゆる正規化係数Fである。
【0023】したがって各コードブックに対して固有の
正規化係数が得られ、この実施例では コードブック1に対して:Fstndrd=1.25 コードブック2に対して:Fnachtr=1.11 である。
正規化係数が得られ、この実施例では コードブック1に対して:Fstndrd=1.25 コードブック2に対して:Fnachtr=1.11 である。
【0024】正規化係数Fはここでは次のように解釈さ
れる。特徴ベクトルが平均してコードブックの正規分布
に近づくにつれて、すなわちこのベクトルに対する確率
が大きくなるにつれて、当該のコードブックがその時点
の話者に相応する度合が大きくなる。式(2)から理解
されるように、正規化係数は確率値が大きくなるにつれ
て小さくなる。この実施例では後からのトレーニングに
関連する話者が判別される。
れる。特徴ベクトルが平均してコードブックの正規分布
に近づくにつれて、すなわちこのベクトルに対する確率
が大きくなるにつれて、当該のコードブックがその時点
の話者に相応する度合が大きくなる。式(2)から理解
されるように、正規化係数は確率値が大きくなるにつれ
て小さくなる。この実施例では後からのトレーニングに
関連する話者が判別される。
【0025】つまり話者の交代の判別基準は式(2)に
したがう正規化係数である。
したがう正規化係数である。
【0026】本発明の特徴は次の点である。
【0027】1.個々の特徴ベクトルについて識別動作
の全期間にわたって判別を行うが、ここで有利には判別
は順次かつきわめて迅速に行われる。これにより本発明
の方法の動作はリアルタイムで可能となる。
の全期間にわたって判別を行うが、ここで有利には判別
は順次かつきわめて迅速に行われる。これにより本発明
の方法の動作はリアルタイムで可能となる。
【0028】2.話者の第1の表現(語または文)に対
して判別を行うだけでよい。その後の判別は省略され
る。すなわち所定の時間範囲にわたって、例えば大きな
会話休止にいたるまでのあいだ、第1の表現に割り当て
られたコードブックのみが用いられる。
して判別を行うだけでよい。その後の判別は省略され
る。すなわち所定の時間範囲にわたって、例えば大きな
会話休止にいたるまでのあいだ、第1の表現に割り当て
られたコードブックのみが用いられる。
【図1】話者の交代の識別に利用される2つのコードブ
ックを示す図である。
ックを示す図である。
μ1〜μ4、μ’1〜μ’4 平均値ベクトル
K1〜K4 共変マトリクス
X 特徴ベクトル
フロントページの続き
(72)発明者 ウード ハイバー
ドイツ連邦共和国 ウルム フィルショフ
シュトラーセ 14/5
(72)発明者 アルフレート カルテンマイアー
ドイツ連邦共和国 ウルム ブーヘンラン
トヴェーク 223
Fターム(参考) 5D015 AA03 HH23
Claims (7)
- 【請求項1】 n次の正規分布から成る話者から独立し
たコードブックを有しており、隠れマルコフモデルに基
づいて動作する音声認識システムで話者の交代を自動検
出する方法において、 話者から独立したコードブックのほか少なくとも1つの
話者に依存するコードブックを設け、 音声認識システムによりベクトル量子化を用いて話者か
ら独立したコードブックおよび話者に依存するコードブ
ックと音声信号とを相関させ、 当該の相関に基づいて話者の同一性を判別することを特
徴とする音声認識システムで話者の交代を自動検出する
方法。 - 【請求項2】 ベクトル量子化で得られた確率値のうち
予め定められた閾値を上回るもののみを相関に用いる、
請求項1記載の方法。 - 【請求項3】 相関の前にベクトル量子化で得られた確
率値から各コードブックに対して正規化係数Fを 【数1】 にしたがって計算する、請求項1または2記載の方法。 - 【請求項4】 音声信号に関して最小の正規化係数Fを
有するコードブックを当該の音声信号に帰属するものと
して割り当てる、請求項3記載の方法。 - 【請求項5】 連続的にリアルタイム手段にしたがって
音声信号における話者の交代を探索する、請求項1から
4までのいずれか1項記載の方法。 - 【請求項6】 音声信号の部分シーケンスのみに関連し
て話者の同一性判別を行い、ここから得られた選択を全
シーケンスにわたって保持する、請求項1から4までの
いずれか1項記載の方法。 - 【請求項7】 当該の部分シーケンスを語頭または文頭
に関連づける、請求項6記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10209324.5 | 2002-03-02 | ||
DE10209324A DE10209324C1 (de) | 2002-03-02 | 2002-03-02 | Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003263193A true JP2003263193A (ja) | 2003-09-19 |
Family
ID=7714003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003056314A Pending JP2003263193A (ja) | 2002-03-02 | 2003-03-03 | 音声認識システムで話者の交代を自動検出する方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20030187645A1 (ja) |
EP (1) | EP1345208A3 (ja) |
JP (1) | JP2003263193A (ja) |
DE (1) | DE10209324C1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004030054A1 (de) * | 2004-06-22 | 2006-01-12 | Bayerische Motoren Werke Ag | Verfahren zur sprecherabhängigen Spracherkennung in einem Kraftfahrzeug |
DE102008024258A1 (de) * | 2008-05-20 | 2009-11-26 | Siemens Aktiengesellschaft | Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung |
DE102008024257A1 (de) * | 2008-05-20 | 2009-11-26 | Siemens Aktiengesellschaft | Verfahren zur Sprecheridentifikation bei einer Spracherkennung |
EP2161718B1 (en) * | 2008-09-03 | 2011-08-31 | Harman Becker Automotive Systems GmbH | Speech recognition |
EP2189976B1 (en) | 2008-11-21 | 2012-10-24 | Nuance Communications, Inc. | Method for adapting a codebook for speech recognition |
EP2216775B1 (en) | 2009-02-05 | 2012-11-21 | Nuance Communications, Inc. | Speaker recognition |
US9767793B2 (en) | 2012-06-08 | 2017-09-19 | Nvoq Incorporated | Apparatus and methods using a pattern matching speech recognition engine to train a natural language speech recognition engine |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5144672A (en) * | 1989-10-05 | 1992-09-01 | Ricoh Company, Ltd. | Speech recognition apparatus including speaker-independent dictionary and speaker-dependent |
DE4300159C2 (de) * | 1993-01-07 | 1995-04-27 | Lars Dipl Ing Knohl | Verfahren zur gegenseitigen Abbildung von Merkmalsräumen |
US5913192A (en) * | 1997-08-22 | 1999-06-15 | At&T Corp | Speaker identification with user-selected password phrases |
DE19944325A1 (de) * | 1999-09-15 | 2001-03-22 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Spracherkennung |
-
2002
- 2002-03-02 DE DE10209324A patent/DE10209324C1/de not_active Expired - Fee Related
-
2003
- 2003-03-03 JP JP2003056314A patent/JP2003263193A/ja active Pending
- 2003-03-03 US US10/378,517 patent/US20030187645A1/en not_active Abandoned
- 2003-03-03 EP EP03004363A patent/EP1345208A3/de not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
DE10209324C1 (de) | 2002-10-31 |
US20030187645A1 (en) | 2003-10-02 |
EP1345208A2 (de) | 2003-09-17 |
EP1345208A3 (de) | 2004-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11295748B2 (en) | Speaker identification with ultra-short speech segments for far and near field voice assistance applications | |
EP3553773B1 (en) | Training and testing utterance-based frameworks | |
JP6350148B2 (ja) | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム | |
US9401140B1 (en) | Unsupervised acoustic model training | |
KR100679051B1 (ko) | 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법 | |
KR100697961B1 (ko) | 반-지시된 화자 적응 | |
EP2048656B1 (en) | Speaker recognition | |
JP4369132B2 (ja) | 話者音声のバックグランド学習 | |
US6029124A (en) | Sequential, nonparametric speech recognition and speaker identification | |
US7813927B2 (en) | Method and apparatus for training a text independent speaker recognition system using speech data with text labels | |
US8249867B2 (en) | Microphone array based speech recognition system and target speech extracting method of the system | |
KR100766761B1 (ko) | 화자-독립형 보이스 인식 시스템용 보이스 템플릿을구성하는 방법 및 장치 | |
EP1022725B1 (en) | Selection of acoustic models using speaker verification | |
JP2008175955A (ja) | インデキシング装置、方法及びプログラム | |
KR101888058B1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 | |
KR20010102549A (ko) | 화자 인식 방법 및 장치 | |
KR101618512B1 (ko) | 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법 | |
US20200126556A1 (en) | Robust start-end point detection algorithm using neural network | |
KR20200105589A (ko) | 음성 감정 인식 방법 및 시스템 | |
Liu et al. | An investigation into speaker informed DNN front-end for LVCSR | |
JP2003263193A (ja) | 音声認識システムで話者の交代を自動検出する方法 | |
KR102098956B1 (ko) | 음성인식장치 및 음성인식방법 | |
CN114303186A (zh) | 用于在语音合成中适配人类说话者嵌入的系统和方法 | |
Principi et al. | Power normalized cepstral coefficients based supervectors and i-vectors for small vocabulary speech recognition | |
US11250853B2 (en) | Sarcasm-sensitive spoken dialog system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090409 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091106 |