JP2003263193A - 音声認識システムで話者の交代を自動検出する方法 - Google Patents

音声認識システムで話者の交代を自動検出する方法

Info

Publication number
JP2003263193A
JP2003263193A JP2003056314A JP2003056314A JP2003263193A JP 2003263193 A JP2003263193 A JP 2003263193A JP 2003056314 A JP2003056314 A JP 2003056314A JP 2003056314 A JP2003056314 A JP 2003056314A JP 2003263193 A JP2003263193 A JP 2003263193A
Authority
JP
Japan
Prior art keywords
speaker
codebook
recognition system
independent
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003056314A
Other languages
English (en)
Inventor
Fritz Class
クラス フリッツ
Udo Haiber
ハイバー ウード
Alfred Kaltenmeier
カルテンマイアー アルフレート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mercedes Benz Group AG
Original Assignee
DaimlerChrysler AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DaimlerChrysler AG filed Critical DaimlerChrysler AG
Publication of JP2003263193A publication Critical patent/JP2003263193A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification

Abstract

(57)【要約】 【課題】 システムの動作中に話者が交代したか否か、
またはその時点での話者に対する(話者に依存する)デ
ータセットが適切であるか否かを自動的に識別できる方
法を提供する。 【解決手段】 話者から独立したコードブックのほか少
なくとも1つの話者に依存するコードブックを設け、音
声認識システムによりベクトル量子化を用いて話者から
独立したコードブックおよび話者に依存するコードブッ
クと音声信号とを相関させ、当該の相関に基づいて話者
の同一性を判別する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識システムで
話者の交代を自動検出する方法に関する。
【0002】
【従来の技術】自動的な音声認識手段はこんにち簡易な
バージョンが既に製品化されて使用されている。例えば
機器の制御および操作、または電話をベースとした案内
システムなどである。こうした音声認識システムは一般
に話者に依存しない識別を行う方式で構成されている。
すなわち任意の全てのユーザが特別なトレーニングフェ
ーズなしにシステムを利用できるよう、認容されている
語彙または命令に相応に構成されているのである。こう
した話者からの独立性はラボにおけるシステムの基礎ト
レーニングにおいてきわめて多くの話者が厖大な数の語
彙を用いて対話試験を行うことにより達成される。
【0003】さらに、オンラインでアプリケーションが
アクチュアルになっている最中に音声認識システムを話
者と設備(マイクロフォン、アンプ、空間)とに関する
固有の条件へ適応化する手法が用いられている。こうし
た適応化の手法はスーパーバイズの付く場合でも付かな
い場合でも使用することができる。
【0004】スーパーバイズなしの適応化とは、音声認
識システムについてユーザが意識することなくつねにア
クチュアルな状況へ適応化が行われることを意味する。
このためには一般にステップウィンドウが使用され、所
定の時間にわたって滑らかにシステムの所定のパラメー
タが追従制御される。ステップウィンドウの時定数(し
ばしば忘却レートとも称される)により適応化速度が定
められる。
【0005】スーパーバイズ付きの適応化では、ユーザ
はトレーニングフェーズにおいて明示的に、システムに
よって(音響的または光学的に)設定されている語彙ま
たは文章を意図的に話さなければならない。こうした入
力(対話試験)から話者に特有のパラメータがシステム
内で形成され、後に最適化される。スーパーバイズ付き
の適応化の手法はしばしば話者から独立した基本システ
ムがきわめて劣悪な識別率しか有さず、しかもスーパー
バイズなしの適応化によっても大した改善が得られない
話者に適用される。こうしたスーパーバイズ付きの適応
化はもちろん一度行われれば充分であり、当該の固有ユ
ーザがシステムを用いる場合には相応に特有のデータセ
ットを毎回使用することができる。
【0006】2つの手法、すなわちスーパーバイズ付き
の適応化およびスーパーバイズなしの適応化では、話者
特有のパラメータセットが基本パラメータに加えて記憶
される。現実の多くのアプリケーションで、例えば“車
両内での音声サービス”などの場合に、ユーザが比較的
しばしば交代するという問題が発生する。全ユーザまた
は数回利用するユーザに対して話者に特有のデータセッ
トを設定する場合、その時点でのユーザに対して適切な
データセットが使用されているかどうかという問題が発
生する。もちろんシステムの新規スタート時には問い合
わせによりこれを行うことができる。ただしきわめて煩
雑でユーザフレンドリでない手法しか存在しないにもか
かわらず、話者の交代はしばしば発生する状況である。
システムが作動しているあいだ新たなリスタートは不可
能である。
【0007】
【非特許文献1】Huang Xuedong D., Y.Ariki, M.A.Jac
k, "Hidden Markov models for speech recognition",
Edinburgh information technology series, Edinburgh
University Press, Scottland, 1990
【0008】
【発明が解決しようとする課題】本発明の課題は、シス
テムの動作中に話者が交代したか否か、またはその時点
での話者に対する(話者に依存する)データセットが適
切であるか否かを自動的に識別できる方法を提供するこ
とである。
【0009】
【課題を解決するための手段】この課題は、話者から独
立したコードブックのほか少なくとも1つの話者に依存
するコードブックを設け、音声認識システムによりベク
トル量子化を用いて話者から独立したコードブックおよ
び話者に依存するコードブックと音声信号とを相関さ
せ、当該の相関に基づいて話者の同一性を判別すること
により解決される。
【0010】
【発明の実施の形態】本発明の課題は、いわゆるセミコ
ンティニュアス隠れマルコフモデルSCHMMに基づい
ている(前掲の文献を参照)。セミコンティニュアス隠
れマルコフモデルに基づくクラス分類に関連して、n次
の正規分布から成るコードブックが形成される。この場
合それぞれの正規分布は平均値ベクトルμおよびその共
変マトリクスKにより表される。話者の適応化を行う際
には一般に、こうした正規分布のパラメータ、すなわち
平均値ベクトルおよび/または共変マトリクスが話者ご
とに固有に変更される。これらの話者固有のデータセッ
トは話者から独立したコードブックに相応するいわゆる
ベースラインデータセットに加えて記憶される。本発明
の手段では音声認識システムはベクトル量子化を用いて
話者から独立したコードブックおよび話者に依存するコ
ードブックと音声信号とを相関させる。この相関に基づ
いて音声認識システムでは音声信号を該当するコードブ
ックに割り当て、これにより話者の同一性を判別する
(個人識別する)ことができる。
【0011】本発明の有利な方法により、話者の交代は
もっぱら音声信号のみで検出され、その際に従来技術で
使用されているような話者識別手段を用いなくて済むよ
うになる。従来の解決手段は話者の識別または話者の認
証のために、話者識別システムと同時に個別の識別シス
テムをアクティブにしなければならないという欠点を有
していた。しかし2つのシステムを使用するのは煩雑で
あり、コスト上の理由からも実際的でない。
【0012】本発明の対象として、直接に音声信号から
導出されたパラメータを用いて話者の交代があったか否
かを識別する手法も考察される。有利には同じステップ
で記憶されているクラシフィケータのパラメータセット
(コードブック)のうちいずれがその時点での話者での
音声認識に対して最適であるかを識別することもでき
る。
【0013】上述の話者適応化の手法では、有利には、
話者固有のコードブックにおいて正規分布のパラメー
タ、すなわち平均値および/または共変マトリクスが話
者から独立したコードブックに対して変更される。話者
固有のデータセット(話者に依存するコードブック)は
この場合いわゆるベースラインデータセット(話者から
独立したコードブック)に加えて記憶される。
【0014】こうした識別システムのアプリケーション
フェーズでは、いわゆるベクトル量子化が行われる。こ
れは音声信号から計算される特徴ベクトルを正規分布へ
クラシフィケーションするものである。このクラシフィ
ケーションはコードブックの各正規分布に対する特徴ベ
クトルの“確率値”p(x,k)を送出する。
【0015】
【実施例】以下に実施例のシナリオに則して本発明の方
法の原理を詳細に説明する。
【0016】話者から独立したコードブック1は図では
パラメータμ,...,μ(平均値ベクトル)とこ
れに属する共変マトリクスK,...,Kとを備え
たそれぞれ4つの正規分布(“標準コードブック”)か
ら成る。適応化フェーズで話者がシステムを事後的にト
レーニングする。その際に標準コードブックの平均値ベ
クトルおよび共変マトリクスは修正され、新たな話者固
有の平均値μ’,...,μ’を備えた話者に依存
するコードブック2が形成される。このように後でトレ
ーニングされたコードブック2(または新たな平均値ベ
クトル)が付加的に記憶される。
【0017】認識システムのアプリケーションフェーズ
では例えば2つのコードブックが存在する。1つは話者
から独立した識別のための標準コードブック1であり、
もう1つは話者に依存して後からトレーニングされたコ
ードブック2である。基本的にはもちろん任意の数の後
からトレーニングされたコードブックを設けることがで
き、その際にも本発明の方法を変更する必要はない。音
声信号から得られた各特徴ベクトルXごとに2つのコー
ドブックの全ての正規分布へのクラシフィケーション
(いわゆる“ベクトル量子化”)が行われる。この実施
例では標準コードブック1に対して第1の正規分布の確
率値p(X,1)=0.2、第2の値p(X,2)=
0.6、第3の値p(X,3)=0.1、第4の値p
(X,4)=0.1が得られる。相応に後からトレーニ
ングされたコードブック2に対しては、例えばp(X,
1)=0.3、p(X,2)=0.4、p(X,3)=
0.1、p(X,4)=0.2が得られる。
【0018】通常の場合、小さな確率値を排除するため
に閾値が使用される。この実施例ではこの閾値は0.1
5である。これは標準コードブック1の確率値p(X,
1)=0.2およびp(X,2)=0.6と、後からト
レーニングされたコードブック2のp(X,1)=0.
3、p(X,2)=0.4およびp(X,4)=0.2
とが閾値を上回り、後の考察に関連してくることを意味
する。次のステップとして
【0019】
【数2】
【0020】にしたがって“合計1”への正規化が行わ
れる。ここでNは閾値を上回る確率値の個数である。こ
の実施例では標準コードブック1でN=2であり、後か
らトレーニングされたコードブック2でN=3である。
kはコードブック内の正規分布を表しており、これが相
応の確率値へ割り当てられる。式の最初の部分、すなわ
【0021】
【数3】
【0022】はいわゆる正規化係数Fである。
【0023】したがって各コードブックに対して固有の
正規化係数が得られ、この実施例では コードブック1に対して:Fstndrd=1.25 コードブック2に対して:Fnachtr=1.11 である。
【0024】正規化係数Fはここでは次のように解釈さ
れる。特徴ベクトルが平均してコードブックの正規分布
に近づくにつれて、すなわちこのベクトルに対する確率
が大きくなるにつれて、当該のコードブックがその時点
の話者に相応する度合が大きくなる。式(2)から理解
されるように、正規化係数は確率値が大きくなるにつれ
て小さくなる。この実施例では後からのトレーニングに
関連する話者が判別される。
【0025】つまり話者の交代の判別基準は式(2)に
したがう正規化係数である。
【0026】本発明の特徴は次の点である。
【0027】1.個々の特徴ベクトルについて識別動作
の全期間にわたって判別を行うが、ここで有利には判別
は順次かつきわめて迅速に行われる。これにより本発明
の方法の動作はリアルタイムで可能となる。
【0028】2.話者の第1の表現(語または文)に対
して判別を行うだけでよい。その後の判別は省略され
る。すなわち所定の時間範囲にわたって、例えば大きな
会話休止にいたるまでのあいだ、第1の表現に割り当て
られたコードブックのみが用いられる。
【図面の簡単な説明】
【図1】話者の交代の識別に利用される2つのコードブ
ックを示す図である。
【符号の説明】
μ〜μ、μ’〜μ’ 平均値ベクトル K〜K 共変マトリクス X 特徴ベクトル
フロントページの続き (72)発明者 ウード ハイバー ドイツ連邦共和国 ウルム フィルショフ シュトラーセ 14/5 (72)発明者 アルフレート カルテンマイアー ドイツ連邦共和国 ウルム ブーヘンラン トヴェーク 223 Fターム(参考) 5D015 AA03 HH23

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 n次の正規分布から成る話者から独立し
    たコードブックを有しており、隠れマルコフモデルに基
    づいて動作する音声認識システムで話者の交代を自動検
    出する方法において、 話者から独立したコードブックのほか少なくとも1つの
    話者に依存するコードブックを設け、 音声認識システムによりベクトル量子化を用いて話者か
    ら独立したコードブックおよび話者に依存するコードブ
    ックと音声信号とを相関させ、 当該の相関に基づいて話者の同一性を判別することを特
    徴とする音声認識システムで話者の交代を自動検出する
    方法。
  2. 【請求項2】 ベクトル量子化で得られた確率値のうち
    予め定められた閾値を上回るもののみを相関に用いる、
    請求項1記載の方法。
  3. 【請求項3】 相関の前にベクトル量子化で得られた確
    率値から各コードブックに対して正規化係数Fを 【数1】 にしたがって計算する、請求項1または2記載の方法。
  4. 【請求項4】 音声信号に関して最小の正規化係数Fを
    有するコードブックを当該の音声信号に帰属するものと
    して割り当てる、請求項3記載の方法。
  5. 【請求項5】 連続的にリアルタイム手段にしたがって
    音声信号における話者の交代を探索する、請求項1から
    4までのいずれか1項記載の方法。
  6. 【請求項6】 音声信号の部分シーケンスのみに関連し
    て話者の同一性判別を行い、ここから得られた選択を全
    シーケンスにわたって保持する、請求項1から4までの
    いずれか1項記載の方法。
  7. 【請求項7】 当該の部分シーケンスを語頭または文頭
    に関連づける、請求項6記載の方法。
JP2003056314A 2002-03-02 2003-03-03 音声認識システムで話者の交代を自動検出する方法 Pending JP2003263193A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10209324.5 2002-03-02
DE10209324A DE10209324C1 (de) 2002-03-02 2002-03-02 Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen

Publications (1)

Publication Number Publication Date
JP2003263193A true JP2003263193A (ja) 2003-09-19

Family

ID=7714003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003056314A Pending JP2003263193A (ja) 2002-03-02 2003-03-03 音声認識システムで話者の交代を自動検出する方法

Country Status (4)

Country Link
US (1) US20030187645A1 (ja)
EP (1) EP1345208A3 (ja)
JP (1) JP2003263193A (ja)
DE (1) DE10209324C1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004030054A1 (de) * 2004-06-22 2006-01-12 Bayerische Motoren Werke Ag Verfahren zur sprecherabhängigen Spracherkennung in einem Kraftfahrzeug
DE102008024258A1 (de) * 2008-05-20 2009-11-26 Siemens Aktiengesellschaft Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung
DE102008024257A1 (de) * 2008-05-20 2009-11-26 Siemens Aktiengesellschaft Verfahren zur Sprecheridentifikation bei einer Spracherkennung
EP2161718B1 (en) * 2008-09-03 2011-08-31 Harman Becker Automotive Systems GmbH Speech recognition
EP2189976B1 (en) 2008-11-21 2012-10-24 Nuance Communications, Inc. Method for adapting a codebook for speech recognition
EP2216775B1 (en) 2009-02-05 2012-11-21 Nuance Communications, Inc. Speaker recognition
US9767793B2 (en) 2012-06-08 2017-09-19 Nvoq Incorporated Apparatus and methods using a pattern matching speech recognition engine to train a natural language speech recognition engine

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5144672A (en) * 1989-10-05 1992-09-01 Ricoh Company, Ltd. Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
DE4300159C2 (de) * 1993-01-07 1995-04-27 Lars Dipl Ing Knohl Verfahren zur gegenseitigen Abbildung von Merkmalsräumen
US5913192A (en) * 1997-08-22 1999-06-15 At&T Corp Speaker identification with user-selected password phrases
DE19944325A1 (de) * 1999-09-15 2001-03-22 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Spracherkennung

Also Published As

Publication number Publication date
DE10209324C1 (de) 2002-10-31
US20030187645A1 (en) 2003-10-02
EP1345208A2 (de) 2003-09-17
EP1345208A3 (de) 2004-12-22

Similar Documents

Publication Publication Date Title
US11295748B2 (en) Speaker identification with ultra-short speech segments for far and near field voice assistance applications
EP3553773B1 (en) Training and testing utterance-based frameworks
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
US9401140B1 (en) Unsupervised acoustic model training
KR100679051B1 (ko) 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법
KR100697961B1 (ko) 반-지시된 화자 적응
EP2048656B1 (en) Speaker recognition
JP4369132B2 (ja) 話者音声のバックグランド学習
US6029124A (en) Sequential, nonparametric speech recognition and speaker identification
US7813927B2 (en) Method and apparatus for training a text independent speaker recognition system using speech data with text labels
US8249867B2 (en) Microphone array based speech recognition system and target speech extracting method of the system
KR100766761B1 (ko) 화자-독립형 보이스 인식 시스템용 보이스 템플릿을구성하는 방법 및 장치
EP1022725B1 (en) Selection of acoustic models using speaker verification
JP2008175955A (ja) インデキシング装置、方法及びプログラム
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
KR20010102549A (ko) 화자 인식 방법 및 장치
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
US20200126556A1 (en) Robust start-end point detection algorithm using neural network
KR20200105589A (ko) 음성 감정 인식 방법 및 시스템
Liu et al. An investigation into speaker informed DNN front-end for LVCSR
JP2003263193A (ja) 音声認識システムで話者の交代を自動検出する方法
KR102098956B1 (ko) 음성인식장치 및 음성인식방법
CN114303186A (zh) 用于在语音合成中适配人类说话者嵌入的系统和方法
Principi et al. Power normalized cepstral coefficients based supervectors and i-vectors for small vocabulary speech recognition
US11250853B2 (en) Sarcasm-sensitive spoken dialog system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090409

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091106