JPH07104780A - 不特定話者連続音声認識方法 - Google Patents

不特定話者連続音声認識方法

Info

Publication number
JPH07104780A
JPH07104780A JP5247835A JP24783593A JPH07104780A JP H07104780 A JPH07104780 A JP H07104780A JP 5247835 A JP5247835 A JP 5247835A JP 24783593 A JP24783593 A JP 24783593A JP H07104780 A JPH07104780 A JP H07104780A
Authority
JP
Japan
Prior art keywords
speaker
likelihood
voice recognition
phoneme
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5247835A
Other languages
English (en)
Other versions
JP2905674B2 (ja
Inventor
Koichi Yamaguchi
耕市 山口
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP5247835A priority Critical patent/JP2905674B2/ja
Publication of JPH07104780A publication Critical patent/JPH07104780A/ja
Application granted granted Critical
Publication of JP2905674B2 publication Critical patent/JP2905674B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 従来例に比較して計算量を軽減することがで
き、しかも音声認識率を大幅に改善することができる不
特定話者連続音声認識方法を提供する。 【構成】 複数m人の話者に対応して複数m個の発声内
容の仮説が存在し、その後各仮説は話者毎にそれぞれ時
間経過につれて成長させた音素解析木を用いて、入力さ
れた1人の話者の発声内容に基づいて発声内容と話者の
2方向を同時にサーチの対象としてビームサーチしなが
ら音声認識を連続的に実行し、音声認識動作中に計算さ
れた尤度が所定のしきい値以上のときはこれ以降の尤度
計算を行い認識候補として残す一方、それ以外のとき
は、尤度がしきい値未満となった枝に接続される1つ又
は複数の枝を枝刈りしてこれ以降認識候補として残さな
いで尤度の計算を行わず、音素解析木の終端部において
最大の尤度又は所定値以上の尤度を有する発声内容と話
者とを同時に音声認識結果として決定する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、不特定話者の音声を連
続に認識する不特定話者連続音声認識方法に関する。
【0002】
【従来の技術及び発明が解決しようとする課題】従来の
不特定話者音声認識システム(以下、第1の従来例とい
う。)が、例えば、Madeleine Bates et al.: “Design
and Performance of HARC, The BBN Spoken Language
Understanding System",Proc.ICSLP-92, pp.241-244(19
92年)に開示されている。この第1の従来例において
は、「不特定話者音響モデル」が用いられ、多数の話者
の音声データを混合してしばしば学習に用いることが多
いために、広がり過ぎた混合分布によって認識性能が劣
化する恐れがある。また、ユーザは音声の登録なしに使
えるという利点がある反面、認識しにくい話者に対して
性能を改善することができないという欠点がある。
【0003】また、英語の母音認識を行う方法(以下、
第2の従来例という。)が、P.Niyogi and V.W.Zue:
“Correlation Analysis of Vowels and their Applica
tion to Speech Recognition", Proc.Eurospeech-91, p
p.1253-1256(1991年)に開示されている。この第2の従
来例においては、母音の相関的な解析を音素認識に適用
しているが、文法を用いて連続音声認識を行っていな
い。
【0004】さらに、入力された話者音声に対して、1
つの男子音響モデルと1つの女子音響モデルとを用いて
音声認識処理を並列に実行し、入力音声の最後において
最高の音声認識スコアを有した認識候補を認識結果とす
る方法(以下、第3の従来例という。)が、例えば、V.
Abrash et al.,“Connectionist Gender Adaptationin
a Hybrid Neural Network/Hidden Markov Model Speech
Recognition System", Proc.ICSLP-92, pp.911-914(19
92年)において開示されている。この第3の従来例にお
いては、音響モデルを2種類しか用いていないために、
不特定話者音響モデルのような広がり過ぎた音響モデル
による認識性能の劣化が考えられる。また、複数の音響
モデルを用いて音声認識処理を並列に実行する方法(以
下、話者並列方法という。)を用いているために計算量
が大きくなり、認識効率が比較的悪いという問題点があ
った。
【0005】上記話者並列方法において、標準パターン
を話者Si毎に設定してそれぞれ音声認識とビームサー
チとを並列に実行させ、入力音声の最後に最も高いスコ
アの仮説を認識結果とすることが考えられる。図3にこ
の話者並列方法を用いた従来の不特定話者認識モードに
おける音素解析木を示す。図中、各々の枝に沿って記さ
れたアルファベットは予測・照合された音素を表す。図
3の音素解析木を用いて音声認識を実行する装置におい
ては、各枝毎に複数人分の話者の尤度を予め記憶してお
り、複数人分のモデルに対して最尤度を計算するために
は、最後の音声まですなわち音素解析木の最右側の端部
まで並列にすべての複数人分のモデルに対する計算を実
行する必要があるため、計算量が大きくなり、認識効率
が悪くなるという問題点があった。
【0006】本発明の目的は以上の問題点を解決し、従
来例に比較して計算量を軽減することができ、しかも音
声認識率を大幅に改善することができる不特定話者連続
音声認識方法を提供することにある。
【0007】
【課題を解決するための手段】本発明者は、入力される
発声音声は不特定話者の発声音声であっても、その話者
は発声を通じて同一であることに着目して以下に示す本
発明を発明した。本発明に係る請求項1記載の不特定話
者連続音声認識方法は、不特定話者の音声を連続的に認
識する不特定話者連続音声認識方法であって、複数m人
の話者に対応して複数m個の発声内容の仮説が存在し、
その後各仮説は話者毎にそれぞれ時間経過につれて成長
させた音素解析木を用いて、入力された1人の話者の発
声内容に基づいて発声内容と話者の2方向を同時にサー
チの対象としてビームサーチしながら音声認識を連続的
に実行し、上記音声認識動作中に計算された尤度が所定
のしきい値以上のときはこれ以降の尤度計算を行い認識
候補として残す一方、所定のしきい値未満となったとき
は、尤度がしきい値未満となった枝に接続される1つ又
は複数の枝を枝刈りしてこれ以降認識候補として残さな
いで尤度の計算を行わず、上記音素解析木の終端部にお
いて最大の尤度又は所定値以上の尤度を有する発声内容
と話者とを同時に音声認識結果として決定することを特
徴とする。
【0008】また、請求項2記載の不特定話者連続音声
認識方法は、請求項1記載の不特定話者連続音声認識方
法において、上記音声認識動作中又は完了後は、最大の
尤度を有する話者を選出し、選出した話者を標準話者と
して話者モデルに対して話者適応することを特徴とす
る。さらに、請求項3記載の不特定話者連続音声認識方
法は、請求項1記載の不特定話者連続音声認識方法にお
いて、上記音声認識動作中又は完了後は、所定の上位複
数個の尤度を有する話者を選出し、選出した話者群を標
準話者群として話者モデルに対して話者適応することを
特徴とする。また、請求項4記載の不特定話者連続音声
認識方法は、請求項1記載の不特定話者連続音声認識方
法において、上記音声認識動作完了後に、最大の尤度を
有する1人の話者の発声内容を選出し、選出した発声内
容を教師信号として用いて話者モデルに対して話者適応
することを特徴とする。さらに、請求項5記載の話者識
別方法は、請求項1記載の不特定話者連続音声認識方
法、上記音声認識動作完了後に、最大の尤度を有する1
人の話者の発声内容を選出し、選出した1人の話者を入
力話者として判断することによって話者識別することを
特徴とする。
【0009】
【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。本実施例の不特定話者連続音声認識方
法は、図2にその一例を示す音素解析木上のビームサー
チする方法を用いて、発声内容と話者の2方向をサーチ
の対象とし、尤度が最大である発声内容と話者とを同時
に決定して音声認識することを特徴とする。音声認識動
作中に計算された尤度が所定のしきい値未満となったと
きは、尤度がしきい値未満となった枝に接続される図2
の右方向の1つ又は複数の枝を枝刈りする。そして、上
記音素解析木の終端部において最大の尤度又は所定値以
上の尤度を有する発声内容と話者とを同時に音声認識結
果として決定する。
【0010】本実施例の不特定話者連続音声認識方法に
ついて説明するために、まず、定式化を行う。1つの発
話が多数の話者の声で構成されることは現実にはほとん
どあり得ない。すなわち、音声認識システムの対象が不
特定話者であっても、1つの文や単語列などの中ではす
べての音素は同一の話者によって発声されるという制約
がある。この原理的な制約を「話者一貫性原理」と呼
ぶ。
【0011】まず、話者一貫性原理の数学的定式化を行
なう。wを単語列w=w1,w2,…,wnとおく。音響
パラメータの時系列yが与えられたならば、音声認識処
理は次の数1を満足する最大の尤度を有する単語列(最
尤単語列)waを見付けることである。ここで、「w
a」の「a」は最大尤度を示す添字である。
【数1】 ここで、右辺のmaxは単語列wに関して確率P(w|
y)の最大のものを表わす。P(w|y)は音響パラメ
ータの時系列yが与えられたときに単語列wが見つかる
確率であり、P(wa|y)は、単語列wに関する確率
P(w|y)の中で最大(max)の確率を有する最尤
単語列waの確率である。
【0012】ここで、1つの文や単語列などの中ではす
べての音素は同一の話者によって発声されるという上記
話者一貫性原理を、数1に適用すると次の数2を得る。
【数2】
【0013】ここで、右辺のmaxは単語列wとi番目
の話者Sに関する確率P(w,Si|y)の最大のも
のを表わす。Siは第i番目の話者(iは1,2,…,
mのいずれかである。)を表す。上記数2の右辺をベイ
ズの定理を用いて書き換えることによって次の数3を得
る。
【数3】 P(w,Si|y)=P(y|w,Si)P(w)P(Si)/P(y) ここで、P(Si)は入力話者が第i番目の話者である
先験確率である。本実施例において、確率P(w)は、
好ましくは0.1に設定する。また、不特定話者音声認
識タスクを対象としているので、P(Si)はすべての
話者(i=1,2,…,m)に対して等確率とする。
【0014】上記数2と数3から、音声認識処理の目的
は積P(w)P(Si)P(y|w,Si)を最大にする
単語列waおよび話者Saを見付けることに相当するの
で、次の数4を得る。
【数4】
【0015】ここで、右辺のmaxは、単語列wとi番
目の話者Siに関する{P(w)P(Si)P(y|w,
i)}の最大のものを表わす。P(y|w,Si)は単
語列wがある話者(i番目の話者)Sによって制限さ
れていることを意味する。すなわち、本方法は発話内容
の単語列wに加え、話者{Si}も探索の対象とする。
認識動作完了とともに、選出された最大の尤度を有する
話者が、以後の話者適応で使うのに適した標準話者Sa
として選出される。
【0016】上記話者一貫性原理の別の定式化も可能で
あって、最終的な尤度はすべての話者を対象とすること
によって、次の数5を得る。
【数5】
【0017】ここで、右辺のΣはi=1からmまでの代
数和である。数5は、すべての話者による寄与を考慮に
入れているということを意味する。数5の場合において
は、ビームサーチのときに枝刈りされて出て来ないパス
が出てくるので、最大の尤度の単語列のみならず、別の
話者方向を加えて別のパスも加算してサーチする。この
場合、最大の尤度を有する話者Smは別途求める必要が
ある。
【0018】以上に述べた話者バージング方法を、図1
に示すSSS(Successive State Splitting:逐次状態
分割法)−LR(left-to-right rightmost型)不特定
話者連続音声認識装置に適用する。この装置は、メモリ
11に格納された隠れマルコフ網(以下、HM網とい
う。)と呼ばれる音素環境依存型の効率のよいHMMの
表現形式を用いている。また、上記SSSにおいては、
音素の特徴空間上に割り当てられた確率的定常信号源
(状態)の間の確率的な遷移により音声パラメータの時
間的な推移を表現した確率モデルに対して、尤度最大化
の基準に基づいて個々の状態をコンテキスト方向又は時
間方向へ分割するという操作を繰り返すことによって、
モデルの精密化を逐次的に実行する。
【0019】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して音素照合部4に入力される。
【0020】音素照合部4に接続されるHM網メモリ1
1内のHM網は、各状態をノードとする複数のネットワ
ークとして表され、各状態はそれぞれ以下の情報を有す
る。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率
【0021】なお、本実施例において、話者パージング
のためのHM網は、各分布がどの話者に由来するかを特
定する必要があるため、所定の話者混合HM網を変換し
て作成する。ここで、出力確率密度関数は34次元の対
角共分散行列をもつ混合ガウス分布であり、各分布はあ
る特定の話者のサンプルを用いて学習されている。
【0022】音素照合部4は、音素コンテキスト依存型
LRパーザ(以下、LRパーザという。)5からの音素
照合要求に応じて音素照合処理を実行する。このとき
に、LRパーザ5からは、音素照合区間及び照合対象音
素とその前後の音素から成る音素コンテキスト情報が渡
される。音素照合部4は、受け取った音素コンテキスト
情報に基づいてそのようなコンテキストを受理すること
ができるHM網上の状態を、先行状態リストと後続状態
リストの制約内で連結することによって、1つのモデル
が選択される。そして、このモデルを用いて音素照合区
間内のデータに対する尤度が計算され、この尤度の値が
音素照合スコアとしてLRパーザ5に返される。このと
きに用いられるモデルは、隠れマルコフモデル(以下、
HMMという。)と等価であるために、尤度の計算には
通常のHMMで用いられている前向きパスアルゴリズム
をそのまま使用する。
【0023】文脈自由文法データベースメモリ20内の
所定の文脈自由文法(CFG)を公知の通り自動的に変
換してLRテーブルを作成してLRテーブルメモリ13
に格納される。LRパーザ5は、例えば音素継続時間長
モデルを含む話者モデルメモリ12と上記LRテーブル
とを参照して、入力された音素予測データについて左か
ら右方向に、後戻りなしに処理する。構文的にあいまい
さがある場合は、スタックを分割してすべての候補の解
析が平行して処理される。LRパーザ5は、LRテーブ
ルメモリ13内のLRテーブルから次にくる音素を予測
して音素予測データを音素照合部4に出力する。これに
応答して、音素照合部4は、その音素に対応するHM網
メモリ11内の情報を参照して照合し、その尤度を音声
認識スコアとしてLRパーザ5に戻し、順次音素を連接
していくことにより、連続音声の認識を行っている。複
数の音素が予測された場合は、これらすべての存在をチ
ェックし、ビームサーチの方法により、部分的な音声認
識の尤度の高い部分木を残すという枝刈りを行って高速
処理を実現する。入力された話者音声の最後まで処理し
た後、詳細後述するように、全体の尤度が最大のもの又
は所定の上位複数個のものを認識結果データ又は結果候
補データとして出力する。
【0024】本実施例の連続音声認識装置においては、
音素解析木上のビームサーチを採用している。図2は話
者パージング認識モードにおける音素解析木を示し、各
々の枝に沿って記されたアルファベットは予測・照合さ
れた音素を表わす。ビームサーチによってある話者の仮
説がすべて枝刈りされてしまうことがあるため、数5は
近似的にしか用いることができない。従って、本実施例
の実際の装置では数4を採用する。まず最初に複数m人
の話者Si(i=1,2,…,m)に対応してm個の仮
説が存在する。その後、各仮説は話者毎にそれぞれ音素
に同期にして成長し、ビームサーチにより枝刈りされ
る。すなわち、認識動作中に計算された尤度が所定のし
きい値以上のときはこれ以降の尤度計算を行い認識候補
として残すが、一方、所定のしきい値未満となったとき
は、尤度がしきい値未満となった枝に接続される図2の
右方向の1つ又は複数の枝を枝刈りして、これ以降、認
識候補として残さず、尤度の計算を行わない。そして、
上記音素解析木の終端部において最大の尤度又は所定値
以上の尤度を有する発声内容と話者を同時に音声認識結
果として決定する。本実施例においては、音素解析木は
音素に同期して成長されているが、これに限らず、時間
軸のフレームに同期して成長させてもよい。
【0025】従って、本実施例においては、発声内容と
話者の2方向を同時にサーチの対象とし、最大の尤度の
発声内容と話者を同時に決定することを特徴とし、上述
のように、ビームサーチによって発声内容と話者の2方
向の仮説を枝刈りする。
【0026】また、音声認識動作中又は完了後は、最大
の尤度の話者を選出し、選出された話者を標準話者とし
て話者適応してもよい。話者適応は、具体的には、入力
話者の発声音声の少量の音声データを用いて以下のよう
に行われる。標準話者の特徴ベクトルを入力話者の特徴
ベクトル空間へ写像する移動ベクトルをHMMの学習に
より求め、この写像を用いて話者適応を行う。この方法
は、この写像の連続性と滑らかさを仮定することによ
り、少量の音声データによる話者適応の高精度化を実現
している。すなわち。学習により移動ベクトルが得られ
なかった特徴ベクトルについては、近傍の特徴ベクトル
をもちいて内挿する。また、データ不足に対しては、得
られた移動ベクトルに平滑化を施す。さらに、尤度が所
定の上位複数個の話者を選出し、音声認識動作中又は完
了後は、選出された話者群を標準話者群として話者適応
してもよい。
【0027】本実施例の方法は、認識結果の最尤単語列
waを利用することができる点から、本方法は、言語制
約を取り入れた教師信号なしの話者適応装置に適用する
ことができる。また、最大の尤度の1人の話者の発声内
容を選出し、認識動作完了後に、選出された発声内容を
教師信号として用いて話者適応してもよい。さらに、最
大の尤度の1人の話者の発声内容を選出し、認識動作完
了後に、選出された1人の話者を入力話者として判断す
ることによって話者識別してもよく、これにより話者識
別装置を構成してもよい。
【0028】本発明者は、本実施例の図1に示す装置を
用いて文節単位でシミュレーションを行い、本発明に係
る話者パージング方法と、従来技術の不特定話者法、及
び第3の従来例の話者並列方法との認識性能を比較し
た。
【0029】まず、当該シミュレーションの条件は以下
の通りである。評価話者は12名(男性5名、女性7
名)であり、評価データは345文節からなる「国際会
議予約タスク」を用いた。従って、全データ数は4,1
40文節となる。文脈自由文法のルール数は2,813
であり、音素パープレキシティは3.3であった。HM
網の状態数は200であり、混合数は20であった。ビ
ーム幅は最大1,200に設定した。なお、話者並列方
法ではビーム幅2,400でも行なっており、このとき
の1話者あたりのビーム幅はそれぞれ60と120に相
当する。
【0030】次いで、HM網は以下のようにして作成し
た。まず初期モデルとして170名(男性85名、女性
85名)分の特定話者HM網を作成した。次に、この1
70名分のHM網からクラスタリングによって20個の
HM網(男性11名、女性9名)を選出した。最後に各
クラスタに属するメンバーの話者のサンプルを用いて、
VFS法によって再学習することで話者クラスタHM網
を作成し、それらを話者混合して不特定話者HM網とし
た。
【0031】上記3つの方法による認識結果を表1に示
す。この結果では、不特定話者を、話者パージング法は
わずかに上回った程度である。本発明で用いた話者一貫
性原理は、対象とする話者の種類が多い場合に有効であ
ると考えられ、また話者パージング方法を用いた方が有
意に上回っている評価話者も存在することから、今後、
本方式の本質的な有効性が明らかになると期待できる。
一方、話者並列方法は話者毎の仮説に対してビームサー
チを行なうため、枝刈りの効率が悪く、無駄な話者の仮
説が生き残っていることが多い。従って、ビーム幅を
2,400に設定してもなお、本発明の話者パージング
方法と従来技術の不特定話者に及ばない。
【0032】
【表1】 文節認識率(%) ─────────────────────────────────── 方法 不特定話者 話者パージング 話者並列 話者並列 ─────────────────────────────────── ビーム幅 1200 1200 1200 2400 1位 83.3 83.9 62.3 76.1 1位〜5位 94.9 95.2 70.5 86.1 ───────────────────────────────────
【0033】上記シミュレーションにおいては、文節単
位で音声認識を行っているが、これに限らず、文単位又
は複数の文単位で音声認識を行ってもよい。
【0034】以上説明したように、不特定話者の発声で
あっても、話者は発声を通して同一である点に着眼した
不特定話者連続音声認識方法である「話者パージング」
方法を発明した。本発明者による上記SSS−LR連続
音声認識装置上で不特定話者音声認識シミュレーション
を行ない、従来技術の不特定話者法との認識性能を比較
した。今回のような小規模の実験においては不特定話者
法の認識率をわずかに上回った程度であったが、本発明
の方法は、将来、対象とする話者のバラエティが広い場
合にその効果を発揮し、音声認識率を大幅に改善するこ
とができると考えられる。
【0035】本発明に係る本実施例の不特定話者連続音
声認識方法は、以下の特有の利点を有する。 (a)順位の低い仮説しかもたない話者は枝刈りされ、
その時点から以後その話者の尤度は計算する必要がなく
なり、HMMのフレーム尤度計算量が削減でき、これに
よって高速に処理することができる。例えば、20個の
話者クラスタをもつ音響モデルのとき、標準話者として
1個の話者クラスタ(話者クラスタとは、複数の話者を
含む1つのグループをいう。)を採用したならば尤度計
算量は1/20になる。 (b)話者適応機能を用いることにより、話者の音響モ
デルを入力話者に効率よく適応させるとともに、不特定
話者モードでは認識しにくい話者に効果的に対処させる
ことができる。さらに、話者適応のための教師信号とし
て認識動作完了後に選出した尤度最大の発声内容を用い
ることにより、「教師なし話者適応」が実現することが
できる。 (c)従来の不特定話者音声認識システムは、「不特定
話者音響モデル」が用いられ、多数の話者の音声データ
を混合して学習に用いたために、広がり過ぎた混合分布
によって認識性能の劣化を有していた。これに対して、
本実施例では、多数の話者の音声データを混合して学習
する必要がないために、認識性能の劣化を回避すること
ができ、これによって、高い認識性能を得ることができ
る。
【0036】
【発明の効果】以上詳述したように本発明によれば、不
特定話者の音声を連続的に認識する不特定話者連続音声
認識方法であって、複数m人の話者に対応して複数m個
の発声内容の仮説が存在し、その後各仮説は話者毎にそ
れぞれ時間経過につれて成長させた音素解析木を用い
て、入力された1人の話者の発声内容に基づいて発声内
容と話者の2方向を同時にサーチの対象としてビームサ
ーチしながら音声認識を連続的に実行し、上記音声認識
動作中に計算された尤度が所定のしきい値以上のときは
これ以降の尤度計算を行い認識候補として残す一方、所
定のしきい値未満となったときは、尤度がしきい値未満
となった枝に接続される1つ又は複数の枝を枝刈りして
これ以降認識候補として残さないで尤度の計算を行わ
ず、上記音素解析木の終端部において最大の尤度又は所
定値以上の尤度を有する発声内容と話者とを同時に音声
認識結果として決定する。従って、本発明は以下の特有
の効果を有する。 (a)順位の低い仮説しかもたない話者は枝刈りされ、
その時点から以後その話者の尤度は計算する必要がなく
なり、HMMのフレーム尤度計算量が削減できる。これ
によって、高速に処理することができる。 (b)従来の不特定話者音声認識システムは、「不特定
話者音響モデル」が用いられ、多数の話者の音声データ
を混合して学習に用いたために、広がり過ぎた混合分布
によって認識性能の劣化を有していた。これに対して、
本発明では、多数の話者の音声データを混合して学習す
る必要がないために、認識性能の劣化を回避することが
でき、これによって、高い認識性能を得ることができ
る。
【図面の簡単な説明】
【図1】 本発明に係る一実施例である不特定話者音声
認識装置のブロック図である。
【図2】 本実施例における話者パージング認識モード
における音素解析木を示す図である。
【図3】 従来例における不特定話者認識モードにおけ
る音素解析木を示す図である。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3…バッファメモリ、 4…音素照合部、 5…LRパーザ、 11…隠れマルコフ網メモリ、 12…話者モデルメモリ、 13…LRテーブルメモリ、 20…文脈自由文法データベースメモリ。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 不特定話者の音声を連続的に認識する不
    特定話者連続音声認識方法であって、 複数m人の話者に対応して複数m個の発声内容の仮説が
    存在し、その後各仮説は話者毎にそれぞれ時間経過につ
    れて成長させた音素解析木を用いて、入力された1人の
    話者の発声内容に基づいて発声内容と話者の2方向を同
    時にサーチの対象としてビームサーチしながら音声認識
    を連続的に実行し、 上記音声認識動作中に計算された尤度が所定のしきい値
    以上のときはこれ以降の尤度計算を行い認識候補として
    残す一方、所定のしきい値未満となったときは、尤度が
    しきい値未満となった枝に接続される1つ又は複数の枝
    を枝刈りしてこれ以降認識候補として残さないで尤度の
    計算を行わず、上記音素解析木の終端部において最大の
    尤度又は所定値以上の尤度を有する発声内容と話者とを
    同時に音声認識結果として決定することを特徴とする不
    特定話者連続音声認識方法。
  2. 【請求項2】 上記音声認識動作中又は完了後は、最大
    の尤度を有する話者を選出し、選出した話者を標準話者
    として話者モデルに対して話者適応することを特徴とす
    る請求項1記載の不特定話者連続音声認識方法。
  3. 【請求項3】 上記音声認識動作中又は完了後は、所定
    の上位複数個の尤度を有する話者を選出し、選出した話
    者群を標準話者群として話者モデルに対して話者適応す
    ることを特徴とする請求項1記載の不特定話者連続音声
    認識方法。
  4. 【請求項4】 上記音声認識動作完了後に、最大の尤度
    を有する1人の話者の発声内容を選出し、選出した発声
    内容を教師信号として用いて話者モデルに対して話者適
    応することを特徴とする請求項1記載の不特定話者連続
    音声認識方法。
  5. 【請求項5】 請求項1記載の不特定話者連続音声認識
    方法において、 上記音声認識動作完了後に、最大の尤度を有する1人の
    話者の発声内容を選出し、選出した1人の話者を入力話
    者として判断することによって話者識別することを特徴
    とする話者識別方法。
JP5247835A 1993-10-04 1993-10-04 不特定話者連続音声認識方法 Expired - Lifetime JP2905674B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5247835A JP2905674B2 (ja) 1993-10-04 1993-10-04 不特定話者連続音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5247835A JP2905674B2 (ja) 1993-10-04 1993-10-04 不特定話者連続音声認識方法

Publications (2)

Publication Number Publication Date
JPH07104780A true JPH07104780A (ja) 1995-04-21
JP2905674B2 JP2905674B2 (ja) 1999-06-14

Family

ID=17169391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5247835A Expired - Lifetime JP2905674B2 (ja) 1993-10-04 1993-10-04 不特定話者連続音声認識方法

Country Status (1)

Country Link
JP (1) JP2905674B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001051690A (ja) * 1999-08-16 2001-02-23 Nec Corp パターン認識装置
JP2001083984A (ja) * 1999-09-09 2001-03-30 Alpine Electronics Inc インタフェース装置
US6484141B1 (en) 1998-12-04 2002-11-19 Nec Corporation Continuous speech recognition apparatus and method
JP2003515778A (ja) * 1999-12-02 2003-05-07 トムソン ライセンシング ソシエテ アノニム 別々の言語モデルによる音声認識方法及び装置
JP2010540976A (ja) * 2007-10-04 2010-12-24 株式会社東芝 自動音声認識の方法および装置
US8682668B2 (en) 2008-05-16 2014-03-25 Nec Corporation Language model score look-ahead value imparting device, language model score look-ahead value imparting method, and program storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02300798A (ja) * 1989-05-15 1990-12-12 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識装置におけるビーム制御方式
JPH04324499A (ja) * 1991-04-24 1992-11-13 Sharp Corp 音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02300798A (ja) * 1989-05-15 1990-12-12 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識装置におけるビーム制御方式
JPH04324499A (ja) * 1991-04-24 1992-11-13 Sharp Corp 音声認識装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6484141B1 (en) 1998-12-04 2002-11-19 Nec Corporation Continuous speech recognition apparatus and method
JP2001051690A (ja) * 1999-08-16 2001-02-23 Nec Corp パターン認識装置
JP2001083984A (ja) * 1999-09-09 2001-03-30 Alpine Electronics Inc インタフェース装置
JP2003515778A (ja) * 1999-12-02 2003-05-07 トムソン ライセンシング ソシエテ アノニム 別々の言語モデルによる音声認識方法及び装置
JP2010540976A (ja) * 2007-10-04 2010-12-24 株式会社東芝 自動音声認識の方法および装置
US8682668B2 (en) 2008-05-16 2014-03-25 Nec Corporation Language model score look-ahead value imparting device, language model score look-ahead value imparting method, and program storage medium

Also Published As

Publication number Publication date
JP2905674B2 (ja) 1999-06-14

Similar Documents

Publication Publication Date Title
JP2965537B2 (ja) 話者クラスタリング処理装置及び音声認識装置
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
CN114333768A (zh) 语音检测方法、装置、设备和存储介质
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP2003208195A5 (ja)
JP2905674B2 (ja) 不特定話者連続音声認識方法
JP3176210B2 (ja) 音声認識方法及び音声認識装置
Huang et al. A fast algorithm for large vocabulary keyword spotting application
JP2852210B2 (ja) 不特定話者モデル作成装置及び音声認識装置
JP2871420B2 (ja) 音声対話システム
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
JPH08110792A (ja) 話者適応化装置及び音声認識装置
JP3104900B2 (ja) 音声認識方法
JP3039399B2 (ja) 非母国語音声認識装置
JP2938865B1 (ja) 音声認識装置
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
JP3035239B2 (ja) 話者正規化装置、話者適応化装置及び音声認識装置
JP3873418B2 (ja) 音声スポッティング装置
JP2888781B2 (ja) 話者適応化装置及び音声認識装置
JP2005091504A (ja) 音声認識装置
Tachibana et al. Frame-level AnyBoost for LVCSR with the MMI criterion
JP3439700B2 (ja) 音響モデル学習装置、音響モデル変換装置及び音声認識装置
JP2875179B2 (ja) 話者適応化装置及び音声認識装置
JPH08123468A (ja) 不特定話者モデル作成装置及び音声認識装置