JPH05204394A

JPH05204394A - ワードスポッティング法

Info

Publication number: JPH05204394A
Application number: JP4244401A
Authority: JP
Inventors: D Wilcox Lynn; ディーウィルコックスリン; Marcia A Bush; エイブッシュマーシア
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1991-09-19
Filing date: 1992-09-14
Publication date: 1993-08-13
Anticipated expiration: 2018-08-11
Also published as: US5199077A; EP0533491A3; EP0533491A2; DE69225371D1; JP3434838B2; EP0533491B1; DE69225371T2

Abstract

(57)【要約】【目的】音声編集または索引付けの目的で、前に録音
された音声の中の同じ話者または別の話者が話したキー
ワードを見つけ出す方法を提供する。【構成】本方法は、隠れマルコフモデル（ＨＭＭ）に
基づいており、話者が動的にキーワードを指定し、キー
ワードの１回の繰り返しでＨＭＭを訓練することができ
る。連続する音声の前に録音されたサンプルから得た訓
練されたＨＭＭを使用して、非キーワード音声をモデル
化する。【効果】ワードスポッティング装置は音声メールやマル
チメディアドキュメントの編集などの対話型応用や、１
人の話者のオーディオまたはビデオ録音におけるキーワ
ード索引付けに使用することができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置、より詳
細には、隠れマルコフモデル（hidden Markov models；
以下、ＨＭＭと略す）に基づくワードスポッティング法
および装置に関するものである。

【０００２】

【従来の技術】音声認識は、コンピュータで制御された
音声認識装置の能力である。ワードスポッティング（単
語を見つけ出すこと）法は、音声認識技術の応用であっ
て、流暢な話し言葉の文脈の中でキーワードまたは語句
を見つけ出す技法である。

【０００３】音声認識の応用分野においてＨＭＭを使用
するワードスポッティング法は、この分野ではよく知ら
れている。たとえば、以下に挙げた文献を参照された
い。

【０００４】J.R. Rohlicek, W.Russel, S. Roukos, H.
Gish,“Continuous Hidden Markov Modeling for Spea
ker-Independent Word Spotting ”. Proc. of the In
t.Conf. on Acoustics, Speech and Signal Processin
g, Glasgow, Scotland, May1989, pp. 627〜630 ；

【０００５】R.C. Rose, D.B.Paul, “A Hidden Markov
Model Based Keyword Recognition System”. Proc. o
f the Int. Conf. on Acoustics, Speech and Signal P
rocessing, April 1990, pp. 129 〜132 ；

【０００６】J.G. Wilpon, L.R. Rabiner, C.H. Lee,
E.R. Goldman, “Automatic Recognition of Keywords
in Unconstrained Speech Using Hidden Markov Model
s”. IEEE Trans. on Acoustics, Speech and Signal P
rocessing, Vol. 38, Nov.11, November 1990, pp. 187
0 〜1878;

【０００７】L.R. Bahl, P.F. Brown, P.V. de Souza,
R.L. Mercer, M.A. Picheny,“Acoustic Markov Models
Used in the Tangora Speech Recognition System”.
Proc. of the Int. Conf. on Acoustics, Speech and S
ignal Processing, New York, April 1988, pp. 497 〜
500 ；

【０００８】J.G. Wilpon, C.H. Lee, L.R. Rabiner,
“Application of Hidden Markov Models for Recognit
ion of a Limited Set of words in Unconstrained Spe
ech”. Proceedings of the International Conference
on Acoustics, Speech andSignal Processing, Vol.1,
pp.254 〜257 , Glasgow, Scotland, May 1989 ：

【０００９】本発明の装置は、話者の話した言葉をモデ
ル化するため隠れマルコフモデル（ＨＭＭ）を使用する
必要がある。ＨＭＭは、対応付けられた出力をもつ一組
の状態から成っている。ここで、状態の出力とは音を記
述する特徴ベクトルである。状態間の遷移確率により、
一連の音をモデル化することができる。本発明において
は、ＨＭＭについての状態は、音のクラスタすなわち音
響単位に対応する。キーワードは、状態すなわち音響単
位の特定の順番列としてモデル化される。非キーワード
の音声は、これらの単位の任意の順番列としてモデル化
される。

【００１０】従来の話者依存ワードスポッティング装置
は、以下の諸文献に記載されているように、動的時間ワ
ーピング（dynamic time warping) を使用するテンプレ
ート照合に基づいていた。

【００１１】R.W. Christiansen, C.k. Rushforth, “D
etecting and Locating Key Words in Continuous Spee
ch Using Linear Predictive Coding”. IEEE Trans. o
nAcoustics, Speech and Signal Processing, Vol. ASS
P-25, No. 5, October 1977, pp. 361〜367;

【００１２】A.L. Higgens, R.E. Wohlford,“Keyword
Recognition Using Template Concatenation”. Proc.
of the Int. Conf. on Acoustics, Speech and Signal
Processing, Tampa,Florida,March 1985, pp. 1233〜12
36；

【００１３】C.S. Myers, L.R. Rabiner, A.E.Rosenber
g,“An Investigation of the Use of Dynamic Time Wa
rping for word Spotting and Connected Speech Recog
niton ”. Proc. of the Int. Conf. on Acoustics, Sp
eech and Signal Processing, Denver, Colorado, Apri
l 1980, pp. 173 〜177 ；

【００１４】これらの技法は、ワードスポッティングの
仕事に適用できるけれども、話し速度、文の前後関係、
等のため、キーワードの複数回の復唱に対応付けられた
音響的変異性をモデル化する場合は、ＨＭＭよりも劣
る。ＨＭＭは、さらに、より複雑なＤＴＷベース装置に
使われているフィラー（filler) テンプレートよりも、
非キーワードの音声をモデル化するふさわしい手段を提
供する（Higgens 他の論文（March 1985) を参照された
い）。

【００１５】

【発明が解決しようとする課題】本発明の第１目的は、
話者によって前に録音された音声の中の同一話者が話し
たキーワードを見つけ出す方法および装置を提供するこ
とである。

【００１６】本発明の第２の目的は、音声編集および索
引付けの目的で、前に録音された音声の中のキーワード
を見つけ出すことである。

【００１７】本発明の第３の目的は、訓練のためおおむ
ねキーワードを１回復唱するだけ済むワードスポッティ
ング装置を提供することである。

【００１８】本発明の第４の目的は、２人の話者が知ら
れている場合において、別の話者によって前に録音され
た音声の中の使用者が話したキーワードを見つけ出すこ
とである。

【００１９】

【課題を解決するための手段】ここで説明するワードス
ポッティング法は、ＨＭＭを使用して、連続する音声の
文脈の中の使用者が定義した任意のキーワードをモデル
化する。ＨＭＭの訓練は、前に挙げた Rose 他の文献
（April 1990）に記載されているように、一定の話者に
関する統計量を学習し、背景音声に関するモデルを得る
静的段階と、装置の使用中にキーワードの訓練が行われ
る動的段階の、２つの段階から成っている。静的訓練段
階のためのデータは、話者の音声の任意のセグメントか
ら成っている。動的訓練段階は、おおむねキーワードを
１回繰り返すだけでよいという点で新規であり、従っ
て、キーワード訓練とワードスポッティングとの間には
区別がない。訓練用発声からキーワードＨＭＭを作り出
す方法は、 Bahl 他の論文（April 1988）に記載されて
いるように、フェノニック（fenonic)基本形を構成する
場合に使用される方法と幾つかの類似点がある。以下、
モデル訓練について詳細に説明する。

【００２０】連続する音声の中のキーワードの位置を決
定する探索技法は、「順方向−逆方向探索」であり、 R
ohlicek 他の論文( May 1989) に記載されているよう
に、順方向確率（forward probabilities) のピークを
使用して、可能性あるキーワードのエンドポイントを検
出する。次に、逆方向確率（backward probabilities)
を使用して、キーワードを確認するためのスコアを計算
し、キーワードのスタートポイントの位置を決定する。
確認スコアは、背景音声のための事後確率（postiori)
のピークに対応する誤り検出を防止するのに役に立つ。
Rose 他の論文（April 1990) に記載されているよう
に、確認スコアは、部分的に後戻りする Viterbi 探索
に対し、ポストプロセッサとして使用されるスコアに似
ている。しかし、キーワードを仮定するときだけ後戻り
する必要があるという点で、この確認スコアは、計算効
率がより高い。次に、順方向−逆方向探索技法を詳しく
説明する。

【００２１】本発明の一特徴に従って、この技法は、ワ
ードプロッティングに使用する確率を正規化するため、
非キーワードすなわち背景音声のＨＭＭを使用する。こ
の技法は、話者がキーワードを１回復唱した後、次に説
明する別の特徴と共同して、記録媒体の中の単語を高い
確率で見つけ出すはずである。しかし、もし装置がその
単語を見つけるのに失敗すれば、本発明のもう１つの特
徴に従って、その単語の２回目の繰り返しを使用し、た
とえば周知の Baum-Welch 訓練法を用いて作った最初の
単語モデルを更新する、すなわち改良することができ
る。

【００２２】本発明の好ましい実施例に従って、話者の
録音された１分以上の音声を分析して、ベクトル量子化
コードブックを作ることが好ましい。このコードブック
は、録音された音声（索引付けが要求されている）か
ら、あるいは同一話者の録音された音声の別のサンプル
から作ることができる。このコードブックは、各コード
ワードに対応付けられたデータの平均と、共変量マトリ
ックス（covariance matrices)とから成る。コードブッ
クは、既知のファジィｃ平均クラスタ分析法を用いて作
ることが好ましい。ファジィｃ平均クラスタ分析法は、
データが混合ガウス分布から成ると仮定して、各コード
ワードの平均および共変量マトリックスについて最尤推
定（maximum likelihood estimates）を概算する。別の
方法を使用して、コードブックを作成することもできる
であろう。

【００２３】見つけ出す単語の隠れマルコフモデル（Ｈ
ＭＭ）は、次のやり方で作られる。話された単語は、前
もって作成されたコードブックに従って量子化される。
量子化順番列の各独自のコードワードは、ＨＭＭの中の
状態を決める。その状態の出力分布は、そのコードワー
ドに対応付けられた平均と共変量マトリックスをもつガ
ウス分布である。モデルの状態の遷移確率は、同じ訓練
用の発声に既知の Baum-Welch アルゴリズムを使用して
訓練される。

【００２４】ワードスポッティングに使用する確率を正
規化するため、非キーワード音声のＨＭＭが作られる。
このモデルは、各コードワードが前に述べたように対応
付けられたガウス出力分布をもつ状態を表すようにし、
すべての状態間の遷移を許すことによって作られる。代
わりに、コードブックを作成するため用いたデータから
決定された bigram 確率（すなわち、コードワード間の
遷移確率）によって、状態間の遷移に重みを付けること
ができる。

【００２５】本発明の方法を実施する際、見つけ出す単
語のＨＭＭの最終状態の事後確率がしきい値を越えたと
き、単語の位置を仮定する。このしきい値は、単語を誤
って検出することに対する、見つけた単語の位置をみの
がすことの重要性に応じて、変更することができる。

【００２６】本発明と従来の方法との相違点を調べるみ
る別の方法は、本発明の原理と、前に挙げた Rose 他の
論文（April 1990) に記載されている原理とを比較する
ことである。

【００２７】Rose の方法は、キーワードの考えられる
スタートポイントとエンドポイントを見つけるために動
的プログラミングを使用している。一般に、動的プログ
ラミングは、順方向パスで、各時間フレームごとに各状
態にある確率を計算することによって進行する。次に、
逆方向パスで（全順方向パスが終了したとき始まる）、
最も可能性ある状態の順番列が決定される。最も可能性
ある状態の順番列がキーワードの状態から成る場合、最
も可能性ある状態の順番列が、時間間隔としてキーワー
ドのエンドポイントを決定する。 Rose は、発声の終わ
りまで後戻りするのを待つのとは異なり、頻繁に後戻り
をする修正動的プログラミングを使用している。これは
ある程度遅れを緩和するが、頻繁な後戻り（これは部分
バックトレースとして知られる。 Brown et al., Proc.
of the Int. Conf. on Acoustics, Speech and Signal
Processing, Paris, France, May 1982, pp.1629 〜16
32参照）は、計算上の要請である。キーワードのエンド
ポイントが決定された後、スコアを計算するために別の
計算が必要である。

【００２８】対照的に、本発明の装置は、キーワードの
エンドポイントを仮定するときだけ後戻りをする。ま
た、後戻りの間にスコアが計算されるので、余分の計算
は不要である。

【００２９】従って、本発明の装置においては、順方向
探索で確率のピーク（キーワードの仮定エンドポイント
を表す）が見つかると直ちに、後戻りが始まる。典型的
な順方向探索においては、正しい単語のほかに、多数の
正しくない単語が現れるであろう。たとえば、もし録音
された発声が単語“ｆｅｅ”と“ｔｒｅｅ”を含んでお
り、キーワードが“ｔｒｅｅ”であれば、キーワード
“ｔｒｅｅ”のエンド状態の事後確率のピークは、おそ
らく、録音された発声の中の“ｔｒｅｅ”と同様に、
“ｆｅｅ”の後に現れるであろう。これらのピークが所
定のしきい値を越えていると仮定すると、各単語の後に
逆方向探索が始まり、そのスタートポイントが決定さ
れ、スコアが計算されるであろう。おそらく、単語の最
初の部分の違いにより、“ｆｅｅ”のスコアは“ｔｒｅ
ｅ”のスコアより小さいであろう。このスコアを使用し
て、正しくないキーワード“ｆｅｅ”を拒絶することが
できるであろう。

【００３０】留意すべき重要なことは、背景ＨＭＭは、
単語のＨＭＭとしてでなく、音のＨＭＭとして作られる
ことである。これらは言語学者が使用する発音単位「音
素」とは異なるので、「音響単位（acoustic unit)」と
呼ぶほうが好ましい。

【００３１】後で説明するように、装置は、単音節語よ
りも複音節語を見つけ出す場合によい結果が得られる。

【００３２】これらの技法に以下の修正を施したものを
使用して、異なる話者の録音された音声の中から使用者
が話したキーワードを見つけ出すことができる。最初
に、前に述べたように、録音された音声の話者について
コードブックを作成することができる。しかし、このコ
ードブックと使用者の音声との対応付けをしなければな
らない。これは、使用者から訓練用音声のセグメント
（１分以上）を得て、 S.Furui,“Unsupervised Speake
r Adaptation Method Based on Hiearchical Clusterin
g”ICASSP, Glasgow, Scotland, May 1989, pp. 286〜2
89 に記載されている既知の方法を使用して行われる。

【００３３】本発明のワードスポッティング装置の重要
な応用は、録音された音声の索引付けのほかに、特に音
声メール、口述、あるいはオーディオドキュメントな
ど、録音された音声の対話型音声編集である。使用者は
ワードスポッティング装置を使用して、録音された音声
の中の特定の単語を見つけ出し、削除したり、置換した
り、あるいは挿入したりして、編集操作をすることがで
きる。また、ワードスポッティング装置は、長いオーデ
ィオドキュメントの索引付けを効率よく、自動的に行う
ことができる。本発明の装置は、１人の話者または対の
話者に制限されるが、語彙の数に制限はない。

【００３４】以下、本発明のワードスポッティング装置
を実際にどのように使用するかを、添付図面を参照して
実例で詳細に説明する。

【００３５】

【実施例】訓練は、一般に２つの段階が必要である。第
１段階は、一定の話者に関する統計量を学習し、背景音
声のモデルを得る静的段階である（前に挙げた Rose 他
の文献(April 1990)を参照されたい）。第２段階は、装
置を使用しながら、キーワードの訓練を行う動的段階で
ある。

【００３６】ワードスポッテング装置を訓練する第１段
階においては、ＨＭＭの出力分布に関する統計量が学習
される。これらの統計量は、そのあと、話者の音声の背
景モデルを作るときに使用される。この段階の訓練用デ
ータは、話者の音声の任意のセグメントから成ってい
る。背景ＨＭＭおよびキーワードＨＭＭの両方におい
て、隠れマルコフモデル（ＨＭＭ）のすべての状態は、
ガウス出力分布をもつと仮定する。ガウス出力分布の統
計量は、 J.C. Bezdek, J.C. Dunn,“Optmal FuzzyPart
itions: A Heuristic for Estimating the Parameters
in a Mixture of Normal Distributions ”．IEEE Tran
s. on Commputers, August 1975, pp. 835〜838 、およ
び R.O. Duda, P.E. Hart, Pattern Classification an
d Scene Analysis, Jone Wiley and Sons, Inc. New Yo
rk, 1973 に記載されているように、訓練用データに対
しファジィｃ平均クラスタ分析を使用して学習され、混
合されたガウス出力分布のパラメータが推定される。代
わりに、通常のｋ平均を使用することもできる。各クラ
スタは、ガウス分布（その平均はクラスタの中心であ
る）と共変量マトリックスによって特徴が記述される。
クラスタ分析アルゴリズムは、サンプルがクラスタ内に
ある確率によって重みが付けられたサンプルによってク
ラスタの統計量が更新されることを除いて、標準ベクト
ル量子化クラスタ分析アルゴリズム（R.M. Gray,“Vect
or Quantization ”, IEEE ASSP Magazine, April 198
4, pp.4〜29 参照) と似ている。上記の確率は、ガウ
ス分布を仮定することによって得られる。平均および共
変量マトリックスを学習するためのファジィクラスタ分
析は、クラスタ分析に利用できるデータの量が限られて
いるときに役に立つ。以下、このファジィクラスタ分析
について詳しく説明する。

【００３７】背景ＨＭＭは、状態を並列に接続して作ら
れる（各ガウス分布ごとに１つの状態）。図１の（ａ）
は、典型的な背景モデルを示す。左側の最初の空白状態
からＭ個のガウス出力発生状態のそれぞれへ、遷移が存
在する。遷移確率ｐ_iは状態ｉの事前確率（prior prob
abilitｙ) に対応する。自己遷移確率ｄ_iは状態ｉの持
続時間をモデル化している。 L.R. Rabiner,“A Tutori
al on Hidden MarkovModels and Selected Application
s in Speech Recognition”. Proc. of the IEEE, Vol.
77, No. 2, February 1989, pp. 257 〜285 に記載さ
れているように、標準 Baum-Welch 訓練アルゴリズムに
よるクラスタ分析のため使用された同一データについ
て、遷移確率が訓練される。この訓練において、ガウス
出力統計量は更新されない。

【００３８】上記の代わりに、別の背景ＨＭＭも考えら
れる。たとえば、状態から、bigramネットワーク（たと
えば、Kai-Fu Lee Phd Thesis 1988, Carnegie Mellon,
Large-Vocabulary Speaker-Independent Continuous S
peech Recognition: The SPHINX System を参照された
い）を作って、同じように訓練することができるであろ
う。

【００３９】訓練の第２段階においては、クラスタ分析
から得たガウス出力分布に関する情報を用いて、キーワ
ードの１回の繰り返しから、キーワードのＨＭＭが作ら
れる。キーワードＨＭＭの状態は、Bahl 他の論文（Ap
ril 1988) に記載されているように、ベクトル量子化と
訓練用発声によって得られる。同じクラスタすなわち同
じガウス出力分布に一致する隣接フレームはつぶされ
る。図１の（ｂ）は、典型的なキーワードＨＭＭを示
す。ここでは、 F. Jelinek,“Continuous SpeechRecog
nition by Statistical Method ”. Proc. of the IEE
E, Vol. 64, No. 4,April 1976, pp. 532〜556 に記載
されている“ left to right Bakis”モデルを想定して
いるので、各状態は自己遷移と、次の２つの後続の状態
への遷移とを有している。キーワードＨＭＭは、続い
て、同じ発声を用いて再訓練される。このケースでは、
Baum-Welch 訓練のとき、ガウス出力分布の平均のほ
か、遷移確率も更新される。共変量マトリックスは、１
回の発声によって与えられたデータの量が限られている
ので、更新されない。

【００４０】本発明に従ってキーワードを見つけ出すた
め使用するＨＭＭネットワークは、図１の（ｃ）に示す
ように、背景ＨＭＭとキーワードＨＭＭを並列に接続し
たものである。探索法は、前記ネットワークを通る順方
向探索で、キーワードと場所を仮定し、続いて、各ネッ
トワークを個別に通る逆方向探索で、キーワードを確認
し、そしてスタートポイントの位置を見つける。順方向
探索は、 Rohlicek 他の論文 (May 1989) に記載されて
いるものと同じであり、キーワードのエンド状態の事後
確率（posteriori probability) のピークの位置を探し
出す。次に、標準 Baum-Welch ( Rabiner Tutoral の論
文 (Februray 1989)参照) の順方向確率α_t（ｉ）が時
間的に同期して計算され、これを使用して、時間ｔにお
けるキーワードのエンド状態ｅの事後確率Ｐ( Ｓ_t) が
計算される。事後確率Ｐ( Ｓ_t)は数式１によって表さ
れる。

【００４１】Ｐ(Ｓ_t＝ｅ｜Ｘ₁…Ｘ_t)＝α_t(ｉ)/Σ_jα_t（ｊ）（１）

【００４２】上記数式１において、Ｓ_tは時間ｔにおけ
る状態であり、Ｘ_tは時間ｔにおける出力である。次
に、既知のピーク検出器を使用して、事後確率のピーク
（キーワードの末端に一致していることがある）の位置
が探し出される。

【００４３】順方向探索がキーワードエンド状態確率の
ピークを検出した時間ｔ_eに、即座に逆方向探索が始ま
る。標準 Baum-Welch 逆方向確率ｂ_t（ｊ) を使用し
て、キーワードＨＭＭおよび背景ＨＭＭの尤度（likeih
ood ) が別個に計算される。従って、キーワードＨＭＭ
と背景ＨＭＭについて２組の逆方向確率が計算される。
これらの確率は、仮定された終了時間ｔ_eから始まり、
逆方向に帰納的に計算される。

【００４４】時間ｔで始まり時間ｔ_eで終わるキーワー
ドについての持続時間正規化キーワード尤度Ｌ
^key（ｔ，ｔ_e）は、数式２で表される。

【００４５】Ｌ^key(t,t_e) ＝P(Ｘ_t…Ｘ_te｜keyword)¹/(t_e−t)＝b_t(ｓ)¹/(t_e−ｔ）（２）

【００４６】上記数式２において、ｓはキーワードのス
タート状態である。次に、持続時間正規化背景尤度Ｌ
^back（ｔ，ｔ_e）が同様に計算される。考えられる開始
時間ｔから仮定された終了時間ｔ_eまでのキーワードの
スコアＳ（ｔ，ｔ_e）は、持続時間正規化キーワード尤
度と、持続時間正規化キーワード尤度と持続時間正規化
背景尤度の和との比であり、数式３で表される。これ
は、動的プログラミングで見つけたキーワードセグメン
トを事後処理するためのスコア計算と似ている（ Rose
他の論文(April 1990)に使用されている）。

【００４７】ｓ(t,t_e) ＝Ｌ^key/(Ｌ^key＋Ｌ^back). （３）

【００４８】キーワードの開始時間ｔ_Sは、スコアＳ
（ｔ，ｔ_e）を最大にするように選定される。ここで、
キーワードの持続時間は訓練用発声のそれの 0.5 〜
1.5 倍であると仮定しているので、Ｎを訓練用発声の
持続時間とすれば、開始時間ｔ_Sは、数式４で表され
る。

【００４９】

【数１】

【００５０】次の例は、本発明のワードスポッティング
装置の訓練および動作を明らかにするのに役立つであろ
う。以下、図２〜図４に示した幾つかの一般的アルゴリ
ズムを参照して説明する。

【００５１】一般に、図２のアルゴリズムにおいて、同
じ話者の発声を分析して、ベクトル量子化コードブック
を作成する（ブロック２０）。このコードブックから、
一連の音響単位として非キーワード音声を表すＨＭＭを
１コードワードにつき１つ作る（ブロック２１）。この
ＨＭＭを前に述べたように改良し、更新する（ブロック
２２）。通常のエンドポイント検出器を用いて、話され
たキーワードのエンドポイントを検出する（ブロック２
３）。エンドポイント検出器は、基本的に、キーワード
発声の始めおよび終りの無音を削除する。

【００５２】同様な過程で、キーワードを表すＨＭＭを
作る（ブロック２４）。キーワードＨＭＭを作り、そし
て非キーワードおよびキーワード音声の組合せＨＭＭを
作ったら直ちに、録音された発声の終わりまで順方向パ
スを開始し、キーワードのそれに一致する発声の流れの
中の候補エンドポイントを仮定する。これを使用して、
入力された音声特徴（ブロック２５）から可能性ある候
補を識別する（ブロック２６）。可能性ある候補を示す
ピークを検出したら、図１の（ｃ）のネットワークを通
して後戻りし、同時に、前に述べたように、類似の度合
いを表すスコアを計算する（ブロック２７）。もし所定
のスコア（しきい値）を越えたら、候補および（また
は）その場所を出力し（ブロック２８）、さもなければ
分岐２９を経由して、次の可能性あるキーワード候補に
ついて上記過程を繰り返す。

【００５３】より詳細に述べると、最初に、音声を規則
正しい間隔でディジタル化して、特徴ベクトルを計算す
る。たとえば、毎秒 8000 サンプルの割合で音声を抽出
することによってディジタル化して、１０ミリ秒ごとに
１２の cepstral 係数から成る特徴を計算することがで
きる。（ cepstral 係数は短時間スペクトルの特徴を記
述する手段である。別のスペクトル推定も考えられる。
たとえば、ＤＦＴを使用することもできるであろう。）
これは標準の既知の手法を使用する。

【００５４】訓練のため、使用者の音声の任意のセグメ
ント（たとえば、１分間まは２分間）が必要である。図
３に示すように、特徴抽出を実施して一連の特徴ベクト
ルを求める。既知のｋ平均クラスタ分析アルゴリズムの
変形を用いて、訓練のときこれらの特徴ベクトルをクラ
スタ分析する（ブロック３５）。このクラスタ分析によ
り、一組のＭクラスタ３６が得られる（たとえば、Ｍ＝
６４）。各クラスタには、そのクラスタ内のサンプルの
平均と共変量マトリックスが対応付けられている。図５
は、２次元特徴から得られる一組の８クラスタを示す。

【００５５】次に、上のクラスタに基づいて、代りの非
キーワード隠れマルコフモデル（ＨＭＭ）を、次のよう
にして作る（ブロック３７）。最初に、各クラスタを、
代わりのＨＭＭ内の状態に対応付ける。その状態の出力
分布は、対応付けられたクラスタの平均と共変量マトリ
ックスをもつガウス出力分布である。次に、図６の参照
番号４９で示すように、出力発生状態を並列ネットワー
クに入れる。作られた最初の空白状態５０はそれぞれの
出力発生状態へ遷移する。対応付けられた遷移確率は、
クラスタの事前確率に一致する。出力状態は各クラスタ
の持続時間をモデル化する自己遷移を有する。次に、引
用した論文に記載されているように、訓練用データにつ
いて標準 Baum-Welch 訓練技法を使用して、ＨＭＭに遷
移確率を学習させる。同様に、代わりの bigram ＨＭＭ
を作ることができる。

【００５６】装置を訓練し（ブロック３８）、代わりの
背景ＨＭＭを作った後、見つけ出すキーワードを話すこ
とによって、ワードスポッティングを行う。図４に、キ
ーワードのＨＭＭを作るやり方を示す。最初に、標準エ
ンドポイント検出アルゴリズムを用いて、キーワードの
エンドポイントを決定し、特徴抽出を行う（ブロック４
１）。次に、各特徴ベクトルを、最も近いクラスタに従
ってラベル付けすることにより量子化する（ブロック４
２）。ここで、最も近いクラスタとは、ガウス分布によ
って計算された特徴ベクトルを発生させる最も有望なク
ラスタである。次に、キーワードＨＭＭを訓練すなわち
改良する（ブロック４３）。１人の話者の場合には、キ
ーワードＨＭＭは、 Baum-Welch 訓練法を用いて改良さ
れ、出力分布について、遷移確率と平均ベクトルの両方
が更新される。また、たとえば、最初の反復の後、装置
がキーワードをみのがした場合など、追加の訓練ベクト
ルにより更新することもできる。２人の話者の場合に
は、遷移確率のみが更新される。

【００５７】図７は、キーワード“tree”に対応するか
も知れない一連の特徴ベクトルの理想的な量子化順番列
を示す。キーワードＨＭＭは、各独自の量子化クラスタ
ごとに一状態（“４”，“３”，“６”で示す）を作る
ことによって得られる。図８は、図７の量子化順番列に
ついて作られたＨＭＭ６０を示す。各状態は、自己遷移
６１と、次の状態への遷移６２、および状態を飛び越す
遷移６３を有する。次に、便宜上、“Ｓ”で表示した最
初の空白のノードと“Ｅ”で表示した最後のノードを加
える。最後に、標準 Baum-Welch 訓練を行って、遷移確
率を推定し、各状態についてガウス分布の平均値ベクト
ルを更新する。訓練には、キーワードの同じ発生を使用
する。

【００５８】次に、キーワードＨＭＭを、図３に示した
前の訓練から学んだ非キーワードＨＭＭと併合する（図
４のブロック７０）。併合されたネットワークを図９に
示す。続いて、そこからキーワードを見つけ出すべきで
ある入力音声について、特徴ベクトルを計算する。各連
続する特徴ベクトルについて、図９に参照番号８０で示
した併合ネットワークを使用して、キーワードエンド状
態“Ｅ”である事後確率を計算することにより、入力音
声中のキーワードの有望な位置を見つける。事後確率の
ピークは、キーワードのエンドポイントの有望な位置を
表す。図１０は、単語“fee ”とキーワード“tree”を
含む入力音声の量子化を示す。図中、数字１，．．．７
は異なる量子化レベルを示す。図１１は、事後確率のピ
ークを示す。キーワード“tree”だけでなく、単語“fe
e ”についてもエンド状態確率にピークが存在すること
に注目されたい。図１１に示すように、録音された発声
は、コンピュータには量子化を表す記号の流れとして見
えるが、ピーク（参照番号８２，８３で示す）を生じさ
せるものは、図８に示したキーワードに対する音声の類
似度であることに注目されたい。

【００５９】たとえば、位置８２，８３でエンド状態確
率のピークを検出するたびに、本発明に従って、逆方向
探索を開始し、キーワードの可能性ある開始時間を探し
出し、スコアを計算する。スコアは、代わりのＨＭＭが
提案した開始時間および終了時間に関するデータにどの
程度うまく適合するかに対し、キーワードＨＭＭがその
データにどの程度うまく適合するかの尺度である。スコ
アは、各特徴ベクトルについて、提案したエンドポイン
トから始まり、キーワードＨＭＭを作るために用いたキ
ーワードの繰返しの長さの 1.5 倍までの所まで後向き
に計算される。キーワードのスコアが最大である時間
（参照番号８４，８５で示してある）がキーワードのス
タートポイントである。図１２は、図１１からの予想エ
ンドポイントの逆方向探索を示す。実例の場合、“fee
”に対応する音声の部分のスコアは６０であったのに
対し、キーワード“tree”のスコアは９０であった。

【００６０】キーワードの開始時間および終了時間に対
応付けられたスコアを使用して、誤り検出率（false al
arm rate) に対する正しいキーワード検出の確率を制御
することができる。高しきい値は、誤り検出率を下げる
であろうが、キーワード検出の確率を下げるかも知れな
い。他方、低しきい値はキーワード検出の確率を高める
と同時に、誤り検出率も高めるであろう。たとえば、し
きい値を５０とすれば、単語“fee ”とキーワード“tr
ee”がキーワードとして検出されるが、しきい値を９５
にずれば、キーワード“tree”をみのがす結果が生じる
であろう。しきい値を７５にすれば、キーワード“tre
e”が正しく理解され、かつ単語“fee ”を拒絶する。
使用者が選定することができるしきい値は、おそらく仕
事によって決定されるべきであり、装置の性能を最適に
するように使用者が調整することができる。

【００６１】キーワードが検出され、出力されると（す
なわち、キーワードの位置が指示されると）、装置は録
音された音声の次の例へ自動的に進み、すべての一致す
るキーワードとそれらの位置が出力されてしまうまで、
ブロック２６で始まる図２のアルゴリズムを繰り返す。

【００６２】以上説明したワードスポッティング技法
を、DARPA Resouce Management Database (P.Price, W.
M. Fisher, J. Bernstein, D.S. Pallett,“The DARPA
1000-Word Resouce Management Database for Continuo
us Speech Recognition ”,Proc. of the Int. Conf. o
n Acoustics, Speech and Signal Processing, New Yor
k, April 1988, pp. 651〜654 参照) の話者依存訓練部
分に基づいて、６人の話者について試験した。データベ
ースは、 1000-word naval resouce managementtask
からの文で構成されている。語彙の中の船名から一組の
２５キーワードを選択した。そのデータを８kHz までダ
ウンサンプルした。１０ミリ秒ごとにプリエンファシス
データについて、１２の cepstral 係数のベクトルを計
算した。

【００６３】１０の迅速適応文を使用して訓練し、各話
者について背景モデルを得た。 600の話者依存訓練文に
ついて、ワードスポッティングを行った。キーワード訓
練のため、各キーワードの１回の繰返しを手動で抽出し
た。このラベル付けを除いて、文の綴りの正しい発音記
号書換え文のみが利用可能であった。従って、キーワー
ドを含むことがわかっている文で検出された場合には、
キーワードは正しく検出されたものと仮定した。

【００６４】図１３は、文中に存在していないときキー
ワードを検出する確率の関数として、実際に文中に出現
したキーワードを検出する確率のグラフを示す、この曲
線は、数式３のキーワードのスコアのしきい値を変える
ことによって得た。この曲線は、６人の話者にわたって
平均した性能を表している。文における誤り検出の確率
が 0.1 の場合、正しいキーワード検出の確率は 0.94
である。

【００６５】これらの統計量は、データベースの本質の
ために、文ごとの性能に基づいている。他の装置は、検
出の確率を、１時間当たり１キーワードの誤り検出の関
数として報告している(J.G. Wilpon, L.G. Miller, P.
Modi, “Improvements and Applications for Key Word
Recognition Using Hidden Markov Modeling Techniqu
es”,Proc. of the Int. Conf. on Acoustics, Speech
and Signal Processing, Tronto,Canada, May 1991, p
p. 309 〜312 参照) 。文は３〜５秒で変わるので、誤
り検出／文の結果に 900 を掛けることによって、１時
間当たり１キーワード当たりの誤り検出へ近似変換し
た。たとえば、誤り検出率が１時間当たり１キーワード
当たり１４の誤り検出のとき、正しいキーワード検出確
率が 0.76 であった。

【００６６】さらに、キーワード内の音節の数の関数と
して装置の性能を試験した。図１４は、１語当たりの音
節の数が１，２，３，および４以上の場合の結果を示
す。曲線は、検出確率がキーワード内の音節の数と共に
増大することを示している。また、同じ検出確率の場
合、音節の数が増加すると、誤り検出が下がる。従っ
て、0.9 の検出確率の場合、４以上の音節をもつ単語
は、１文当たり 0.01 の誤り検出確率を有するのに対
し、２音節の単語の場合、誤り検出確率は 0.06 へ増大
する。

【００６７】音声編集および索引付けに使用することを
意図したワードスポッティング装置を実証し、評価し
た。装置の重要な特徴は、訓練が容易であること、キー
ワードの語彙が任意であること、キーワードのエンドポ
イントを見つけて確認する方法が効率的であること、お
よび装置の動作中のキーワードの発声がおおむね１回だ
けであることである。

【００６８】多くの音節をもつキーワードを使用するこ
とにより、キーワードの検出がより向上し、誤り検出率
がより低くなることを、実験データが示している。音声
編集や索引付けに使用する場合、キーワードの語彙に関
する制限は比較的少ない。このことは、音声編集や索引
付けに使用する場合、使用者が単語の代わりに語句を使
用することによって装置の性能を最適にできることを示
唆している。

【００６９】図１５は、本発明のワードスポッティング
装置を音声編集に使用した場合のブロック図である。使
用者は、口述した音声メッセージを８７の所である形式
の通常の音声記録装置８８に入力すると仮定する。口述
が終わった後、使用者はメッセージの中で、たとえば、
提案した集合時間または場所について間違いをしたこと
に気がつく。そのとき、使用者は、その間違いを探し出
すため全録音の再生を終わりまで行う必要はなく、間違
った単語または語句、すなわちキーワードを８９の所で
コンピュータ９２に入力する。コンピュータは、その情
報を前に述べたように処理して、最終的に所定のしきい
値より大きいスコアを記録した音響単位の位置を見つけ
る。その時点で、コンピュータは、通常の指示器９０た
とえばディスプレイに、見つけ出した単語または語句の
位置を指示するか、または見つけ出した単語または語句
に近い場所に音声録音を置くことができる。そこで、使
用者は適切に命令して前に録音したメッセージを削除し
たり、編集したり、置換することができる。キーワード
を１回発声するだけで装置がほとんどいつでも動作する
ということは、本発明を音声編集に応用するとき特に役
に立つ。

【００７０】コンピュータ９２は、録音された発声の話
者からの音声サンプル（その音声サンプルから背景ＨＭ
Ｍを作ることができる）を装置内に前もって格納してお
かなければならない。代わりに、実際の音声録音自身か
らサンプルを作るように、コンピュータを簡単にプログ
ラムすることができる。

【００７１】最良の結果を得るには、録音をするため使
用した音声は、ワードスポッティングをしている使用者
の音声と同じであるべきである。しかし、原則として、
このことは好ましいが、絶対に必要ではない。異なる音
声がキーワードを話す場合には、録音した音声の特徴ベ
クトルと使用者の音声の特徴ベクトルが正しく一致して
いるという条件で、装置はそのキーワードを見つけるこ
とができるであろうが、性能はおそらく低下するであろ
う。コードブックを対応付ける技法は、前に引用した F
urui の論文に記載されている。

【００７２】以上、好ましい実施例について発明を説明
したが、発明の真の精神および発明の範囲の中で多くの
変更や修正をなすことができることは、この分野の専門
家には明らかであろう。したがって、特許請求の範囲に
記載した発明は、上に述べた構造の厳密な細部に限定に
限定されるものではなく、上記の変更や修正は特許請求
の範囲に含まれるものとする。

【図面の簡単な説明】

【図１】（ａ）は、典型的な背景ＨＭＭである。（ｂ）
は、典型的なキーワードＨＭＭである。（ｃ）は、本発
明に従ってキーワードを見つけるため用いた典型的なＨ
ＭＭネットワークである。

【図２】本発明を実施するため使用する第１アルゴリズ
ムである。

【図３】本発明を実施するため使用する第２アルゴリズ
ムである。

【図４】本発明を実施するため使用する第３アルゴリズ
ムである。

【図５】典型的なクラスタ分析の分布を示す図である。

【図６】ＨＭＭの典型的な並列ネットワークを示す図で
ある。

【図７】見本キーワードの量子化順番列である。

【図８】前記キーワードのための典型的なＨＭＭであ
る。

【図９】典型的なキーワードと非キーワード音声の併合
ＨＭＭである。

【図１０】キーワード“tree”と非キーワード“fee ”
を含む音声の量子化順番列である。

【図１１】キーワードのエンド状態の事後確率のピーク
を示す図である。

【図１２】ピーク位置から始まる逆方向スコアを示す図
である。

【図１３】本発明のワードスポッティング装置を実際に
使用した結果を示すグラフである。

【図１４】単語内の音節の数が１，２，３および４以上
の場合の結果を示す、図１３に類似するグラフである。

【図１５】音声編集に本発明のワードスポッティング装
置を使用した場合のブロック図である。

【符号の説明】ｄ₁，ｄ₂，．．ｄ_M 自己遷移確率ｐ₁，ｐ₂，．．ｐ_M 遷移確率Ｓ開始状態Ｅ終了状態１，２，．．．．Ｍ状態６０ＨＭＭ６１自己遷移６２次の状態への遷移６３状態を飛び越す遷移８７入力８８音声記録装置８９入力９０指示装置９２コンピュータ

───────────────────────────────────────────────────── フロントページの続き (72)発明者マーシアエイブッシュアメリカ合衆国カリフォルニア州 94002 ヘルモントウェンバリードライヴ 2720

Claims

【特許請求の範囲】

【請求項１】１回話されたキーワードを用いて、録音
された発声の中のキーワードを見つけ出す方法であっ
て、録音された発声の声の特徴を表す第１モデルを作るステ
ップ、キーワードを１回だけ話すステップ、見つけ出す前記キーワードの特徴を表す第２モデルを作
るステップ、発声を入力し、キーワードのエンド状態の事後確率のピ
ークを探し出すステップ、前記ピークを探し出すステップにおいて、もしピークが
見つかれば、発声の終わりまで後戻りして、キーワード
についてスコアを計算するステップ、および前記スコアが所定のしきい値を越えたら、発声の中のキ
ーワードが見つかったことを指示するステップ、から成
ることを特徴とする方法。