JPH07104780A

JPH07104780A - 不特定話者連続音声認識方法

Info

Publication number: JPH07104780A
Application number: JP5247835A
Authority: JP
Inventors: Koichi Yamaguchi; 耕市山口; Shigeki Sagayama; 茂樹嵯峨山
Original assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Priority date: 1993-10-04
Filing date: 1993-10-04
Publication date: 1995-04-21
Anticipated expiration: 2014-06-14
Also published as: JP2905674B2

Abstract

(57)【要約】【目的】従来例に比較して計算量を軽減することがで
き、しかも音声認識率を大幅に改善することができる不
特定話者連続音声認識方法を提供する。【構成】複数ｍ人の話者に対応して複数ｍ個の発声内
容の仮説が存在し、その後各仮説は話者毎にそれぞれ時
間経過につれて成長させた音素解析木を用いて、入力さ
れた１人の話者の発声内容に基づいて発声内容と話者の
２方向を同時にサーチの対象としてビームサーチしなが
ら音声認識を連続的に実行し、音声認識動作中に計算さ
れた尤度が所定のしきい値以上のときはこれ以降の尤度
計算を行い認識候補として残す一方、それ以外のとき
は、尤度がしきい値未満となった枝に接続される１つ又
は複数の枝を枝刈りしてこれ以降認識候補として残さな
いで尤度の計算を行わず、音素解析木の終端部において
最大の尤度又は所定値以上の尤度を有する発声内容と話
者とを同時に音声認識結果として決定する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、不特定話者の音声を連
続に認識する不特定話者連続音声認識方法に関する。

【０００２】

【従来の技術及び発明が解決しようとする課題】従来の
不特定話者音声認識システム（以下、第１の従来例とい
う。）が、例えば、Madeleine Bates et al.: “Design
and Performance of HARC, The BBN Spoken Language
Understanding System",Proc.ICSLP-92, pp.241-244(19
92年)に開示されている。この第１の従来例において
は、「不特定話者音響モデル」が用いられ、多数の話者
の音声データを混合してしばしば学習に用いることが多
いために、広がり過ぎた混合分布によって認識性能が劣
化する恐れがある。また、ユーザは音声の登録なしに使
えるという利点がある反面、認識しにくい話者に対して
性能を改善することができないという欠点がある。

【０００３】また、英語の母音認識を行う方法（以下、
第２の従来例という。）が、P.Niyogi and V.W.Zue:
“Correlation Analysis of Vowels and their Applica
tion to Speech Recognition", Proc.Eurospeech-91, p
p.1253-1256(1991年)に開示されている。この第２の従
来例においては、母音の相関的な解析を音素認識に適用
しているが、文法を用いて連続音声認識を行っていな
い。

【０００４】さらに、入力された話者音声に対して、１
つの男子音響モデルと１つの女子音響モデルとを用いて
音声認識処理を並列に実行し、入力音声の最後において
最高の音声認識スコアを有した認識候補を認識結果とす
る方法（以下、第３の従来例という。）が、例えば、V.
Abrash et al.,“Connectionist Gender Adaptationin
a Hybrid Neural Network/Hidden Markov Model Speech
Recognition System", Proc.ICSLP-92, pp.911-914(19
92年)において開示されている。この第３の従来例にお
いては、音響モデルを２種類しか用いていないために、
不特定話者音響モデルのような広がり過ぎた音響モデル
による認識性能の劣化が考えられる。また、複数の音響
モデルを用いて音声認識処理を並列に実行する方法（以
下、話者並列方法という。）を用いているために計算量
が大きくなり、認識効率が比較的悪いという問題点があ
った。

【０００５】上記話者並列方法において、標準パターン
を話者Ｓ_i毎に設定してそれぞれ音声認識とビームサー
チとを並列に実行させ、入力音声の最後に最も高いスコ
アの仮説を認識結果とすることが考えられる。図３にこ
の話者並列方法を用いた従来の不特定話者認識モードに
おける音素解析木を示す。図中、各々の枝に沿って記さ
れたアルファベットは予測・照合された音素を表す。図
３の音素解析木を用いて音声認識を実行する装置におい
ては、各枝毎に複数人分の話者の尤度を予め記憶してお
り、複数人分のモデルに対して最尤度を計算するために
は、最後の音声まですなわち音素解析木の最右側の端部
まで並列にすべての複数人分のモデルに対する計算を実
行する必要があるため、計算量が大きくなり、認識効率
が悪くなるという問題点があった。

【０００６】本発明の目的は以上の問題点を解決し、従
来例に比較して計算量を軽減することができ、しかも音
声認識率を大幅に改善することができる不特定話者連続
音声認識方法を提供することにある。

【０００７】

【課題を解決するための手段】本発明者は、入力される
発声音声は不特定話者の発声音声であっても、その話者
は発声を通じて同一であることに着目して以下に示す本
発明を発明した。本発明に係る請求項１記載の不特定話
者連続音声認識方法は、不特定話者の音声を連続的に認
識する不特定話者連続音声認識方法であって、複数ｍ人
の話者に対応して複数ｍ個の発声内容の仮説が存在し、
その後各仮説は話者毎にそれぞれ時間経過につれて成長
させた音素解析木を用いて、入力された１人の話者の発
声内容に基づいて発声内容と話者の２方向を同時にサー
チの対象としてビームサーチしながら音声認識を連続的
に実行し、上記音声認識動作中に計算された尤度が所定
のしきい値以上のときはこれ以降の尤度計算を行い認識
候補として残す一方、所定のしきい値未満となったとき
は、尤度がしきい値未満となった枝に接続される１つ又
は複数の枝を枝刈りしてこれ以降認識候補として残さな
いで尤度の計算を行わず、上記音素解析木の終端部にお
いて最大の尤度又は所定値以上の尤度を有する発声内容
と話者とを同時に音声認識結果として決定することを特
徴とする。

【０００８】また、請求項２記載の不特定話者連続音声
認識方法は、請求項１記載の不特定話者連続音声認識方
法において、上記音声認識動作中又は完了後は、最大の
尤度を有する話者を選出し、選出した話者を標準話者と
して話者モデルに対して話者適応することを特徴とす
る。さらに、請求項３記載の不特定話者連続音声認識方
法は、請求項１記載の不特定話者連続音声認識方法にお
いて、上記音声認識動作中又は完了後は、所定の上位複
数個の尤度を有する話者を選出し、選出した話者群を標
準話者群として話者モデルに対して話者適応することを
特徴とする。また、請求項４記載の不特定話者連続音声
認識方法は、請求項１記載の不特定話者連続音声認識方
法において、上記音声認識動作完了後に、最大の尤度を
有する１人の話者の発声内容を選出し、選出した発声内
容を教師信号として用いて話者モデルに対して話者適応
することを特徴とする。さらに、請求項５記載の話者識
別方法は、請求項１記載の不特定話者連続音声認識方
法、上記音声認識動作完了後に、最大の尤度を有する１
人の話者の発声内容を選出し、選出した１人の話者を入
力話者として判断することによって話者識別することを
特徴とする。

【０００９】

【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。本実施例の不特定話者連続音声認識方
法は、図２にその一例を示す音素解析木上のビームサー
チする方法を用いて、発声内容と話者の２方向をサーチ
の対象とし、尤度が最大である発声内容と話者とを同時
に決定して音声認識することを特徴とする。音声認識動
作中に計算された尤度が所定のしきい値未満となったと
きは、尤度がしきい値未満となった枝に接続される図２
の右方向の１つ又は複数の枝を枝刈りする。そして、上
記音素解析木の終端部において最大の尤度又は所定値以
上の尤度を有する発声内容と話者とを同時に音声認識結
果として決定する。

【００１０】本実施例の不特定話者連続音声認識方法に
ついて説明するために、まず、定式化を行う。１つの発
話が多数の話者の声で構成されることは現実にはほとん
どあり得ない。すなわち、音声認識システムの対象が不
特定話者であっても、１つの文や単語列などの中ではす
べての音素は同一の話者によって発声されるという制約
がある。この原理的な制約を「話者一貫性原理」と呼
ぶ。

【００１１】まず、話者一貫性原理の数学的定式化を行
なう。ｗを単語列ｗ＝ｗ₁，ｗ₂，…，ｗ_nとおく。音響
パラメータの時系列ｙが与えられたならば、音声認識処
理は次の数１を満足する最大の尤度を有する単語列（最
尤単語列）ｗａを見付けることである。ここで、「ｗ
ａ」の「ａ」は最大尤度を示す添字である。

【数１】ここで、右辺のｍａｘは単語列ｗに関して確率Ｐ（ｗ｜
ｙ）の最大のものを表わす。Ｐ（ｗ｜ｙ）は音響パラメ
ータの時系列ｙが与えられたときに単語列ｗが見つかる
確率であり、Ｐ（ｗａ｜ｙ）は、単語列ｗに関する確率
Ｐ（ｗ｜ｙ）の中で最大（ｍａｘ）の確率を有する最尤
単語列ｗａの確率である。

【００１２】ここで、１つの文や単語列などの中ではす
べての音素は同一の話者によって発声されるという上記
話者一貫性原理を、数１に適用すると次の数２を得る。

【数２】

【００１３】ここで、右辺のｍａｘは単語列ｗとｉ番目
の話者Ｓ_ｉに関する確率Ｐ（ｗ，Ｓ_i｜ｙ）の最大のも
のを表わす。Ｓ_iは第ｉ番目の話者（ｉは１，２，…，
ｍのいずれかである。）を表す。上記数２の右辺をベイ
ズの定理を用いて書き換えることによって次の数３を得
る。

【数３】Ｐ（ｗ，Ｓ_i｜ｙ）＝Ｐ（ｙ｜ｗ，Ｓ_i）Ｐ（ｗ）Ｐ（Ｓ_i）／Ｐ（ｙ）ここで、Ｐ（Ｓ_i）は入力話者が第ｉ番目の話者である
先験確率である。本実施例において、確率Ｐ（ｗ）は、
好ましくは０．１に設定する。また、不特定話者音声認
識タスクを対象としているので、Ｐ（Ｓ_i）はすべての
話者（ｉ＝１，２，…，ｍ）に対して等確率とする。

【００１４】上記数２と数３から、音声認識処理の目的
は積Ｐ（ｗ）Ｐ（Ｓ_i）Ｐ（ｙ｜ｗ，Ｓ_i）を最大にする
単語列ｗａおよび話者Ｓａを見付けることに相当するの
で、次の数４を得る。

【数４】

【００１５】ここで、右辺のｍａｘは、単語列ｗとｉ番
目の話者Ｓ_iに関する｛Ｐ（ｗ）Ｐ（Ｓ_i）Ｐ（ｙ｜ｗ，
Ｓ_i）｝の最大のものを表わす。Ｐ（ｙ｜ｗ，Ｓ_i）は単
語列ｗがある話者（ｉ番目の話者）Ｓ_ｉによって制限さ
れていることを意味する。すなわち、本方法は発話内容
の単語列ｗに加え、話者｛Ｓ_i｝も探索の対象とする。
認識動作完了とともに、選出された最大の尤度を有する
話者が、以後の話者適応で使うのに適した標準話者Ｓａ
として選出される。

【００１６】上記話者一貫性原理の別の定式化も可能で
あって、最終的な尤度はすべての話者を対象とすること
によって、次の数５を得る。

【数５】

【００１７】ここで、右辺のΣはｉ＝１からｍまでの代
数和である。数５は、すべての話者による寄与を考慮に
入れているということを意味する。数５の場合において
は、ビームサーチのときに枝刈りされて出て来ないパス
が出てくるので、最大の尤度の単語列のみならず、別の
話者方向を加えて別のパスも加算してサーチする。この
場合、最大の尤度を有する話者Ｓｍは別途求める必要が
ある。

【００１８】以上に述べた話者バージング方法を、図１
に示すＳＳＳ（Successive State Splitting：逐次状態
分割法）−ＬＲ（left-to-right rightmost型）不特定
話者連続音声認識装置に適用する。この装置は、メモリ
１１に格納された隠れマルコフ網（以下、ＨＭ網とい
う。）と呼ばれる音素環境依存型の効率のよいＨＭＭの
表現形式を用いている。また、上記ＳＳＳにおいては、
音素の特徴空間上に割り当てられた確率的定常信号源
（状態）の間の確率的な遷移により音声パラメータの時
間的な推移を表現した確率モデルに対して、尤度最大化
の基準に基づいて個々の状態をコンテキスト方向又は時
間方向へ分割するという操作を繰り返すことによって、
モデルの精密化を逐次的に実行する。

【００１９】図１において、話者の発声音声はマイクロ
ホン１に入力されて音声信号に変換された後、特徴抽出
部２に入力される。特徴抽出部２は、入力された音声信
号をＡ／Ｄ変換した後、例えばＬＰＣ分析を実行し、対
数パワー、１６次ケプストラム係数、Δ対数パワー及び
１６次Δケプストラム係数を含む３４次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ３を介して音素照合部４に入力される。

【００２０】音素照合部４に接続されるＨＭ網メモリ１
１内のＨＭ網は、各状態をノードとする複数のネットワ
ークとして表され、各状態はそれぞれ以下の情報を有す
る。（ａ）状態番号（ｂ）受理可能なコンテキストクラス（ｃ）先行状態、及び後続状態のリスト（ｄ）出力確率密度分布のパラメータ（ｅ）自己遷移確率及び後続状態への遷移確率

【００２１】なお、本実施例において、話者パージング
のためのＨＭ網は、各分布がどの話者に由来するかを特
定する必要があるため、所定の話者混合ＨＭ網を変換し
て作成する。ここで、出力確率密度関数は３４次元の対
角共分散行列をもつ混合ガウス分布であり、各分布はあ
る特定の話者のサンプルを用いて学習されている。

【００２２】音素照合部４は、音素コンテキスト依存型
ＬＲパーザ（以下、ＬＲパーザという。）５からの音素
照合要求に応じて音素照合処理を実行する。このとき
に、ＬＲパーザ５からは、音素照合区間及び照合対象音
素とその前後の音素から成る音素コンテキスト情報が渡
される。音素照合部４は、受け取った音素コンテキスト
情報に基づいてそのようなコンテキストを受理すること
ができるＨＭ網上の状態を、先行状態リストと後続状態
リストの制約内で連結することによって、１つのモデル
が選択される。そして、このモデルを用いて音素照合区
間内のデータに対する尤度が計算され、この尤度の値が
音素照合スコアとしてＬＲパーザ５に返される。このと
きに用いられるモデルは、隠れマルコフモデル（以下、
ＨＭＭという。）と等価であるために、尤度の計算には
通常のＨＭＭで用いられている前向きパスアルゴリズム
をそのまま使用する。

【００２３】文脈自由文法データベースメモリ２０内の
所定の文脈自由文法（ＣＦＧ）を公知の通り自動的に変
換してＬＲテーブルを作成してＬＲテーブルメモリ１３
に格納される。ＬＲパーザ５は、例えば音素継続時間長
モデルを含む話者モデルメモリ１２と上記ＬＲテーブル
とを参照して、入力された音素予測データについて左か
ら右方向に、後戻りなしに処理する。構文的にあいまい
さがある場合は、スタックを分割してすべての候補の解
析が平行して処理される。ＬＲパーザ５は、ＬＲテーブ
ルメモリ１３内のＬＲテーブルから次にくる音素を予測
して音素予測データを音素照合部４に出力する。これに
応答して、音素照合部４は、その音素に対応するＨＭ網
メモリ１１内の情報を参照して照合し、その尤度を音声
認識スコアとしてＬＲパーザ５に戻し、順次音素を連接
していくことにより、連続音声の認識を行っている。複
数の音素が予測された場合は、これらすべての存在をチ
ェックし、ビームサーチの方法により、部分的な音声認
識の尤度の高い部分木を残すという枝刈りを行って高速
処理を実現する。入力された話者音声の最後まで処理し
た後、詳細後述するように、全体の尤度が最大のもの又
は所定の上位複数個のものを認識結果データ又は結果候
補データとして出力する。

【００２４】本実施例の連続音声認識装置においては、
音素解析木上のビームサーチを採用している。図２は話
者パージング認識モードにおける音素解析木を示し、各
々の枝に沿って記されたアルファベットは予測・照合さ
れた音素を表わす。ビームサーチによってある話者の仮
説がすべて枝刈りされてしまうことがあるため、数５は
近似的にしか用いることができない。従って、本実施例
の実際の装置では数４を採用する。まず最初に複数ｍ人
の話者Ｓ_i（ｉ＝１，２，…，ｍ）に対応してｍ個の仮
説が存在する。その後、各仮説は話者毎にそれぞれ音素
に同期にして成長し、ビームサーチにより枝刈りされ
る。すなわち、認識動作中に計算された尤度が所定のし
きい値以上のときはこれ以降の尤度計算を行い認識候補
として残すが、一方、所定のしきい値未満となったとき
は、尤度がしきい値未満となった枝に接続される図２の
右方向の１つ又は複数の枝を枝刈りして、これ以降、認
識候補として残さず、尤度の計算を行わない。そして、
上記音素解析木の終端部において最大の尤度又は所定値
以上の尤度を有する発声内容と話者を同時に音声認識結
果として決定する。本実施例においては、音素解析木は
音素に同期して成長されているが、これに限らず、時間
軸のフレームに同期して成長させてもよい。

【００２５】従って、本実施例においては、発声内容と
話者の２方向を同時にサーチの対象とし、最大の尤度の
発声内容と話者を同時に決定することを特徴とし、上述
のように、ビームサーチによって発声内容と話者の２方
向の仮説を枝刈りする。

【００２６】また、音声認識動作中又は完了後は、最大
の尤度の話者を選出し、選出された話者を標準話者とし
て話者適応してもよい。話者適応は、具体的には、入力
話者の発声音声の少量の音声データを用いて以下のよう
に行われる。標準話者の特徴ベクトルを入力話者の特徴
ベクトル空間へ写像する移動ベクトルをＨＭＭの学習に
より求め、この写像を用いて話者適応を行う。この方法
は、この写像の連続性と滑らかさを仮定することによ
り、少量の音声データによる話者適応の高精度化を実現
している。すなわち。学習により移動ベクトルが得られ
なかった特徴ベクトルについては、近傍の特徴ベクトル
をもちいて内挿する。また、データ不足に対しては、得
られた移動ベクトルに平滑化を施す。さらに、尤度が所
定の上位複数個の話者を選出し、音声認識動作中又は完
了後は、選出された話者群を標準話者群として話者適応
してもよい。

【００２７】本実施例の方法は、認識結果の最尤単語列
ｗａを利用することができる点から、本方法は、言語制
約を取り入れた教師信号なしの話者適応装置に適用する
ことができる。また、最大の尤度の１人の話者の発声内
容を選出し、認識動作完了後に、選出された発声内容を
教師信号として用いて話者適応してもよい。さらに、最
大の尤度の１人の話者の発声内容を選出し、認識動作完
了後に、選出された１人の話者を入力話者として判断す
ることによって話者識別してもよく、これにより話者識
別装置を構成してもよい。

【００２８】本発明者は、本実施例の図１に示す装置を
用いて文節単位でシミュレーションを行い、本発明に係
る話者パージング方法と、従来技術の不特定話者法、及
び第３の従来例の話者並列方法との認識性能を比較し
た。

【００２９】まず、当該シミュレーションの条件は以下
の通りである。評価話者は１２名（男性５名、女性７
名）であり、評価データは３４５文節からなる「国際会
議予約タスク」を用いた。従って、全データ数は４，１
４０文節となる。文脈自由文法のルール数は２，８１３
であり、音素パープレキシティは３．３であった。ＨＭ
網の状態数は２００であり、混合数は２０であった。ビ
ーム幅は最大１，２００に設定した。なお、話者並列方
法ではビーム幅２，４００でも行なっており、このとき
の１話者あたりのビーム幅はそれぞれ６０と１２０に相
当する。

【００３０】次いで、ＨＭ網は以下のようにして作成し
た。まず初期モデルとして１７０名（男性８５名、女性
８５名）分の特定話者ＨＭ網を作成した。次に、この１
７０名分のＨＭ網からクラスタリングによって２０個の
ＨＭ網（男性１１名、女性９名）を選出した。最後に各
クラスタに属するメンバーの話者のサンプルを用いて、
ＶＦＳ法によって再学習することで話者クラスタＨＭ網
を作成し、それらを話者混合して不特定話者ＨＭ網とし
た。

【００３１】上記３つの方法による認識結果を表１に示
す。この結果では、不特定話者を、話者パージング法は
わずかに上回った程度である。本発明で用いた話者一貫
性原理は、対象とする話者の種類が多い場合に有効であ
ると考えられ、また話者パージング方法を用いた方が有
意に上回っている評価話者も存在することから、今後、
本方式の本質的な有効性が明らかになると期待できる。
一方、話者並列方法は話者毎の仮説に対してビームサー
チを行なうため、枝刈りの効率が悪く、無駄な話者の仮
説が生き残っていることが多い。従って、ビーム幅を
２，４００に設定してもなお、本発明の話者パージング
方法と従来技術の不特定話者に及ばない。

【００３２】

【表１】文節認識率（％） ─────────────────────────────────── 方法不特定話者話者パージング話者並列話者並列 ─────────────────────────────────── ビーム幅１２００１２００１２００２４００１位８３．３８３．９６２．３７６．１１位〜５位９４．９９５．２７０．５８６．１ ───────────────────────────────────

【００３３】上記シミュレーションにおいては、文節単
位で音声認識を行っているが、これに限らず、文単位又
は複数の文単位で音声認識を行ってもよい。

【００３４】以上説明したように、不特定話者の発声で
あっても、話者は発声を通して同一である点に着眼した
不特定話者連続音声認識方法である「話者パージング」
方法を発明した。本発明者による上記ＳＳＳ−ＬＲ連続
音声認識装置上で不特定話者音声認識シミュレーション
を行ない、従来技術の不特定話者法との認識性能を比較
した。今回のような小規模の実験においては不特定話者
法の認識率をわずかに上回った程度であったが、本発明
の方法は、将来、対象とする話者のバラエティが広い場
合にその効果を発揮し、音声認識率を大幅に改善するこ
とができると考えられる。

【００３５】本発明に係る本実施例の不特定話者連続音
声認識方法は、以下の特有の利点を有する。（ａ）順位の低い仮説しかもたない話者は枝刈りされ、
その時点から以後その話者の尤度は計算する必要がなく
なり、ＨＭＭのフレーム尤度計算量が削減でき、これに
よって高速に処理することができる。例えば、２０個の
話者クラスタをもつ音響モデルのとき、標準話者として
１個の話者クラスタ（話者クラスタとは、複数の話者を
含む１つのグループをいう。）を採用したならば尤度計
算量は１／２０になる。（ｂ）話者適応機能を用いることにより、話者の音響モ
デルを入力話者に効率よく適応させるとともに、不特定
話者モードでは認識しにくい話者に効果的に対処させる
ことができる。さらに、話者適応のための教師信号とし
て認識動作完了後に選出した尤度最大の発声内容を用い
ることにより、「教師なし話者適応」が実現することが
できる。（ｃ）従来の不特定話者音声認識システムは、「不特定
話者音響モデル」が用いられ、多数の話者の音声データ
を混合して学習に用いたために、広がり過ぎた混合分布
によって認識性能の劣化を有していた。これに対して、
本実施例では、多数の話者の音声データを混合して学習
する必要がないために、認識性能の劣化を回避すること
ができ、これによって、高い認識性能を得ることができ
る。

【００３６】

【発明の効果】以上詳述したように本発明によれば、不
特定話者の音声を連続的に認識する不特定話者連続音声
認識方法であって、複数ｍ人の話者に対応して複数ｍ個
の発声内容の仮説が存在し、その後各仮説は話者毎にそ
れぞれ時間経過につれて成長させた音素解析木を用い
て、入力された１人の話者の発声内容に基づいて発声内
容と話者の２方向を同時にサーチの対象としてビームサ
ーチしながら音声認識を連続的に実行し、上記音声認識
動作中に計算された尤度が所定のしきい値以上のときは
これ以降の尤度計算を行い認識候補として残す一方、所
定のしきい値未満となったときは、尤度がしきい値未満
となった枝に接続される１つ又は複数の枝を枝刈りして
これ以降認識候補として残さないで尤度の計算を行わ
ず、上記音素解析木の終端部において最大の尤度又は所
定値以上の尤度を有する発声内容と話者とを同時に音声
認識結果として決定する。従って、本発明は以下の特有
の効果を有する。（ａ）順位の低い仮説しかもたない話者は枝刈りされ、
その時点から以後その話者の尤度は計算する必要がなく
なり、ＨＭＭのフレーム尤度計算量が削減できる。これ
によって、高速に処理することができる。（ｂ）従来の不特定話者音声認識システムは、「不特定
話者音響モデル」が用いられ、多数の話者の音声データ
を混合して学習に用いたために、広がり過ぎた混合分布
によって認識性能の劣化を有していた。これに対して、
本発明では、多数の話者の音声データを混合して学習す
る必要がないために、認識性能の劣化を回避することが
でき、これによって、高い認識性能を得ることができ
る。

【図面の簡単な説明】

【図１】本発明に係る一実施例である不特定話者音声
認識装置のブロック図である。

【図２】本実施例における話者パージング認識モード
における音素解析木を示す図である。

【図３】従来例における不特定話者認識モードにおけ
る音素解析木を示す図である。

【符号の説明】

１…マイクロホン、２…特徴抽出部、３…バッファメモリ、４…音素照合部、５…ＬＲパーザ、１１…隠れマルコフ網メモリ、１２…話者モデルメモリ、１３…ＬＲテーブルメモリ、２０…文脈自由文法データベースメモリ。

Claims

【特許請求の範囲】

【請求項１】不特定話者の音声を連続的に認識する不
特定話者連続音声認識方法であって、複数ｍ人の話者に対応して複数ｍ個の発声内容の仮説が
存在し、その後各仮説は話者毎にそれぞれ時間経過につ
れて成長させた音素解析木を用いて、入力された１人の
話者の発声内容に基づいて発声内容と話者の２方向を同
時にサーチの対象としてビームサーチしながら音声認識
を連続的に実行し、上記音声認識動作中に計算された尤度が所定のしきい値
以上のときはこれ以降の尤度計算を行い認識候補として
残す一方、所定のしきい値未満となったときは、尤度が
しきい値未満となった枝に接続される１つ又は複数の枝
を枝刈りしてこれ以降認識候補として残さないで尤度の
計算を行わず、上記音素解析木の終端部において最大の
尤度又は所定値以上の尤度を有する発声内容と話者とを
同時に音声認識結果として決定することを特徴とする不
特定話者連続音声認識方法。
【請求項２】上記音声認識動作中又は完了後は、最大
の尤度を有する話者を選出し、選出した話者を標準話者
として話者モデルに対して話者適応することを特徴とす
る請求項１記載の不特定話者連続音声認識方法。
【請求項３】上記音声認識動作中又は完了後は、所定
の上位複数個の尤度を有する話者を選出し、選出した話
者群を標準話者群として話者モデルに対して話者適応す
ることを特徴とする請求項１記載の不特定話者連続音声
認識方法。
【請求項４】上記音声認識動作完了後に、最大の尤度
を有する１人の話者の発声内容を選出し、選出した発声
内容を教師信号として用いて話者モデルに対して話者適
応することを特徴とする請求項１記載の不特定話者連続
音声認識方法。
【請求項５】請求項１記載の不特定話者連続音声認識
方法において、上記音声認識動作完了後に、最大の尤度を有する１人の
話者の発声内容を選出し、選出した１人の話者を入力話
者として判断することによって話者識別することを特徴
とする話者識別方法。