JP2000347685A

JP2000347685A - 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法

Info

Publication number: JP2000347685A
Application number: JP11156741A
Authority: JP
Inventors: Tadashi Suzuki; 鈴木　　忠
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-06-03
Filing date: 1999-06-03
Publication date: 2000-12-15
Anticipated expiration: 2019-06-03
Also published as: JP3892173B2

Abstract

(57)【要約】【課題】英語の単語音声を正しく発声しない場合で
も、精度の高い音声認識を実現する。【解決手段】再クラスタリング手段１１は、第２の単
語モデル１０９により、単語音声データ１０３に対しク
ラスタリングを行い隣接する単語音声データを見つけ、
隣接する単語音声データに対する尤度をペナルティとし
て考慮して、単語モデル群１０８に対するクラスタリン
グを行い、このクラスタリングにおけるセントロイドと
して選択したときの平均尤度を最大にする第３の単語モ
デル１１１を出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、任意の外国語に
ついて、これを母国語としない話者が発声した音声を対
象として認識を行う音声認識装置及び音声認識方法と、
この音声認識装置に用いる音声モデルを作成する音声モ
デル作成装置及び音声モデル作成方法に関するものであ
る。

【０００２】

【従来の技術】図２は文献「日本人英語の発話様態を考
慮した英語音声連続認識の検討」（鈴木忠、阿部芳春、
中島邦男、日本音響学会平成１０年度秋季研究発表会講
演論文集Ｉ，ｐ１５１−１５２，１９９８年９月）に示
されている、従来の日本人英語の音声認識装置の構成を
示すブロック図である。図において、１は音声信号入力
端、２は音声信号入力端１より入力される音声信号１０
１に対し音響分析を行い特徴ベクトル時系列１０２を出
力する音響分析手段、３は音響分析手段２において求め
られた特徴ベクトル時系列１０２の出力先を切り替える
切り替えスイッチである。

【０００３】また、図２において、４は切り替えスイッ
チ３の出力先の一つであり、音響分析手段２で求められ
た特徴ベクトル時系列１０２を入力して、音声信号１０
１の各単語区間に対応する特徴ベクトル時系列を切り出
して、単語音声データ１０３として出力する単語データ
切り出し手段、５は外国語の音響モデル１０４，つまり
認識対象となる音声を母国語とする複数の話者が発声し
た音声データにより学習した音響モデル１０４を格納し
ている音響モデルメモリ、６は単語データ切り出し手段
４が出力した単語音声データ１０３に対し、音響モデル
メモリ５に格納されている外国語の音響モデル１０４を
用いて音素タイプライタ処理（連続音素認識）を行い、
音素ラベル系列１０５を出力する連続音素認識手段であ
る。

【０００４】さらに、図２において、７は連続音素認識
手段６が出力した音素ラベル系列１０５に従い、音響モ
デルメモリ５に格納されている外国語の音響モデル１０
４を接続して、第１の単語モデル１０６を生成する単語
モデル生成手段であり、８は単語データ切り出し手段４
から出力された各単語の単語音声データ１０３を用い
て、単語モデル生成手段７が生成した第１の単語モデル
１０６にネイティブ話者の単語モデル１０７を加えた単
語モデル群１０８に対して、クラスタリングを行い、こ
のクラスタリングにおけるセントロイド（代表値）とし
て選択したときの平均尤度を最大にする第２の単語モデ
ル１０９を出力するクラスタリング手段である。

【０００５】さらに、図２において、９はクラスタリン
グ手段８が出力した第２の単語モデル１０９を格納する
単語モデルメモリ、１０は切り替えスイッチ３の出力先
の一つであり、単語モデルメモリ９に格納されている第
２の単語モデル１０９を用いて、音響分析手段２から出
力された認識対象となる音声を母国語としない話者によ
る特徴ベクトル時系列１０２に対して連続音声認識を行
い、認識結果１１０を出力する連続音声認識手段であ
る。

【０００６】次に動作について説明する。ここでは、外
国語として英語を例に取り、音響モデル１０４として英
語の疑似音素単位のＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏ
ｖＭｏｄｅｌ，隠れマルコフモデル）を用いた場合を
説明する。各音響モデル１０４は、英語を母国語とする
複数の話者が発声した音声データを用いて学習されたも
のである。最初、英語連続音声認識に用いる第２の単語
モデル１０９を作成するために、切り替えスイッチ３を
ａ側に入れておく。

【０００７】英語を母国語としない話者が発声した発声
内容既知の英語連続音声による音声信号１０１は、音声
信号入力端１より入力され、音響分析手段２において分
析フレームごとに音響分析処理が施されて特徴ベクトル
時系列１０２が出力される。音響分析手段２が出力した
特徴ベクトル時系列１０２は、切り替えスイッチ３を経
由して単語データ切り出し手段４に入力される。

【０００８】単語データ切り出し手段４では、英語連続
音声の特徴ベクトル時系列１０２から、該英語連続音声
を構成する各単語音声に対応する特徴ベクトル時系列を
抽出し、単語音声データ１０３として出力する。単語音
声データ１０３は、１つ以上の英語連続音声の特徴ベク
トル時系列について求められ、｛Ｔｋ（ｎ）｜ｎ＝
１．．．Ｎｋ｝（ただし、ｋ＝１．．．Ｋ）が出力され
る。ここで、ｋは単語カテゴリナンバーで、単語カテゴ
リ数はＫ個、Ｎｋはカテゴリナンバーｋの単語について
の単語音声データの数である。

【０００９】音響モデルメモリ５には、英語を母国語と
する複数の話者が発声した音声データにより学習した疑
似音素単位のＨＭＭが、音響モデル１０４として格納さ
れており、連続音素認識手段６は、この音響モデル１０
４を用いて、単語データ切り出し手段４が出力した単語
音声データ１０３に対して音素タイプライタ処理（連続
音素認識）を行う。すなわち、疑似音素単位のＨＭＭが
全接続可能で、かつ１回以上任意の回数接続できるモデ
ルとの照合を行い、単語音声データ１０３に対し最も尤
度が高くなるＨＭＭの系列を求め、このＨＭＭの系列に
対応する疑似音素単位の音素ラベル系列１０５を出力す
る。

【００１０】単語モデル生成手段７は、音素ラベル系列
１０５を入力して、この音素ラベル系列１０５に従っ
て、音響モデルメモリ５に格納されている疑似音素単位
のＨＭＭを接続し、第１の単語モデル１０６として出力
する。すなわち、Ｔｋ（ｎ）で示される、ある単語音声
データ１０３に対する音素ラベル系列１０５が、ｓ−ｉ
−ｂ−ｕ−ｍ−ｎのように６個の疑似音素単位のラベル
の系列であるならば、各ラベルに対応する疑似音素単位
のＨＭＭを音響モデルメモリ５から読み出し、Ｌｅｆｔ
−ｔｏ−ｒｉｇｈｔにＨＭＭを並べて、Ｐｋ（ｎ）で示
される第１の単語モデル１０６を出力する。

【００１１】これにより、英語を母国語としない話者が
発声した英語音声における単語の発話様態を、英語を母
国語とする話者の音声データで学習した疑似音素単位の
ＨＭＭの系列で表現した第１の単語モデル１０６が生成
されることとなる。このような処理を、全てのカテゴリ
ｋと各カテゴリのｎ＝１．．．Ｎｋについて行う。

【００１２】クラスタリング手段８は、単語データ切り
出し手段４から出力された単語音声データ１０３を用い
て、単語モデル生成手段７から出力された第１の単語モ
デル１０６に、各単語カテゴリについて英語を母国語と
する話者の該単語音声の発話様態を表すネイティブ話者
単語モデル１０７を加えた単語モデル群１０８に対して
クラスタリングを行う。ネイティブ話者単語モデル１０
７としては、例えば、英語辞書に記載されているような
発音記号を表すような疑似音素単位の系列に沿って疑似
音素単位のＨＭＭをＬｅｆｔ−ｔｏ−ｒｉｇｈｔに接続
したモデルを用いている。

【００１３】クラスタリング手段８における単語モデル
群１０８のクラスタリングは、単語カテゴリごとに行わ
れる。クラスタリングを行う単語のカテゴリナンバーを
ｋとすれば、クラスタリングの対象となる単語モデルの
数は、単語音声データ１０３の｛Ｔｋ（ｎ）｜ｎ＝
１．．．Ｎｋ｝に対応して単語モデル生成手段７により
生成された第１の単語モデル１０６の｛Ｐｋ（ｎ）｜ｎ
＝１．．．Ｎｋ｝に、ネイティブ話者単語モデル１０７
のＰｋ，ｎａｔｉｖｅを加えた（Ｎｋ＋１）個である。

【００１４】このＮｋ＋１個の単語モデル群１０８の
｛Ｐｋ（１），Ｐｋ（２）．．．Ｐｋ（Ｎｋ），Ｐｋ，
ｎａｔｉｖｅ｝から、任意のＭ個の単語モデル｛Ｐ^k
（ｍ）｜ｍ＝１．．．Ｍ｝を、クラスタリングにおける
セントロイド（各クラスタリングの代表値）として選択
したときの平均尤度Ｌａｖｅを次の（１）式で定義す
る。

【００１５】

【数１】

【００１６】ここで、Ｌ（Ｔｋ（ｎ），Ｐ^k （ｍ））
は、単語音声データ１０３のＴｋ（ｎ）と任意のＭ個の
単語モデルＰ^k （ｍ）とのマッチング尤度である。この
（１）式の平均尤度Ｌａｖｅを最大にする単語モデル
｛Ｐ^k （ｍ）｜ｍ＝１．．．Ｍ｝が、カテゴリｋの第２
の単語モデル１０９として単語モデルメモリ９に出力さ
れる。これにより求められた単語モデル｛Ｐｋ（ｍ）｜
ｍ＝１．．．Ｍ｝は、単語音声データ１０３の｛Ｔｋ
（ｎ）｜ｎ＝１．．．Ｎｋ｝の発話様態を代表するＭ個
の単語モデルとなる。このような処理を全てのｋについ
て行うことで、全てのカテゴリの単語について、それぞ
れＭ個の単語モデルが求められ、第２の単語モデル１０
９として単語モデルメモリ９に格納される。

【００１７】第２の単語モデル１０９が求められ単語モ
デルメモリ９に格納されると、切り替えスイッチ３はｂ
側に入れられる。音声信号入力端１より入力される認識
対象となる音声を母国語としない話者が発声した発声内
容未知の音声信号１０１は、音響分析手段２において音
響分析され、得られた特徴ベクトル時系列１０２は、切
り替えスイッチ３を介して連続音声認識手段１０に入力
される。連続音声認識手段１０は、単語モデルメモリ９
に格納されている第２の単語モデル１０９を用いて音声
認識処理を行い、その認識結果１１０を出力する。

【００１８】

【発明が解決しようとする課題】従来の音声認識装置は
以上のように構成されているので、英語を母国語としな
い話者が発声した英語連続音声における単語モデルを求
める時に、その単語カテゴリに含まれる単語音声データ
１０３だけを使って第２の単語モデル１０９を選ぶよう
になっていた。

【００１９】図３は従来の音声認識装置により、ある単
語カテゴリＡの単語音声データ１０３と第２の単語モデ
ル１０９を、模式的に２次元で表現した特徴ベクトル時
系列空間上にプロットしたものである。第２の単語モデ
ル１０９は、特徴ベクトル時系列では表されないため、
その元となった単語音声データ１０３の特徴ベクトル時
系列１０２で代用しているものとする。図３において、
●はカテゴリＡに属する単語音声データ１０３，×はク
ラスタリング手段８において、Ｍ＝４の時に求められた
第２の単語モデル１０９を表している。破線は、特徴ベ
クトル時系列空間上に占めるカテゴリＡの単語音声の空
間である。実線は、各第２の単語モデル１０９との尤度
がある値をとる特徴ベクトル時系列空間上の範囲を表し
ている。

【００２０】従来の音声認識装置では、あるカテゴリに
含まれる複数個の単語音声データ１０３に対する平均尤
度を最大にする単語モデルを選択するように動作するた
め、図３のように、実線が囲う範囲がカテゴリＡの占め
る空間より外にでてしまう可能性があった。すると、図
４のようにカテゴリＡに隣接するカテゴリＢの単語音声
データ（図中の◇や◆）１０３に対して、カテゴリＢに
ついてクラスタリング手段８で求められた第２の単語モ
デル（図中の＋）１０９に対する尤度より、カテゴリＡ
の第２の単語モデル１０９に対する尤度の方が高くなる
ような領域（図中の斜線部）が生じてしまい、この領域
に含まれるような単語音声データ（図中の◆）１０３が
含まれるようなカテゴリＢの連続音声の認識に、誤りが
発生しやすくなるという課題があった。

【００２１】これは、英語を母国語としない話者が発声
したあるカテゴリの単語音声には、そのカテゴリとして
正しく発声されていないような音声データが含まれてし
まうことがあり、クラスタリングにおいて、そのような
音声データも含めて平均尤度を最大にする第２の単語モ
デル１０９を求めていることが原因となっていた。

【００２２】この発明は、上記のような課題を解決する
ためになされたもので、隣接する他の単語カテゴリに属
する単語音声データ１０３との尤度を利用した再クラス
タリングにより単語モデルを求めることで、精度の高い
音声認識を実現する音声認識装置及び音声認識方法、並
びに音声モデル作成装置及び音声モデル作成方法を得る
ことを目的とする。

【００２３】

【課題を解決するための手段】この発明に係る音声認識
装置は、入力された音声信号に対して音響分析を行い特
徴ベクトル時系列を出力する音響分析手段と、この音響
分析手段から出力された、認識対象となる音声を母国語
としない話者による特徴ベクトル時系列を入力して、上
記音声信号の各単語区間に対応する特徴ベクトルを切り
出して、単語音声データとして出力する単語データ切り
出し手段と、認識対象となる音声を母国語とする複数の
話者が発声した音声データにより学習した音響モデルを
格納している音響モデルメモリと、この音響モデルメモ
リに格納されている音響モデルを用いて、上記単語デー
タ切り出し手段から出力された単語音声データに対し
て、連続音素認識を行い音素ラベル系列を出力する連続
音素認識手段と、この連続音素認識手段から出力される
音素ラベル系列に従い、上記音響モデルメモリに格納さ
れている音響モデルを接続して、第１の単語モデルを生
成する単語モデル生成手段と、上記単語データ切り出し
手段から出力された単語音声データを用いて、上記単語
モデル生成手段により生成された第１の単語モデルに、
認識対象となる音声を母国語とする話者の発話様態を表
すネイティブ話者単語モデルを加えた単語モデル群に対
してクラスタリングを行い、このクラスタリングにおけ
るセントロイドとして選択したときの平均尤度を最大に
する第２の単語モデルを出力するクラスタリング手段
と、このクラスタリング手段から出力される第２の単語
モデルにより、上記単語データ切り出し手段から出力さ
れた単語音声データに対してクラスタリングを行うこと
で隣接する単語音声データを見つけ、この隣接する単語
音声データに対する尤度をペナルティとして考慮して、
上記単語モデル群に対するクラスタリングを行い、この
クラスタリングにおけるセントロイドとして選択したと
きの平均尤度を最大にする第３の単語モデルを出力する
再クラスタリング手段と、この再クラスタリング手段か
ら出力される第３の単語モデルを格納する単語モデルメ
モリと、この単語モデルメモリに格納されている第３の
単語モデルを用いて、上記音響分析手段から出力された
認識対象となる音声を母国語としない話者による特徴ベ
クトル時系列に対して連続音声認識を行う連続音声認識
手段とを備えたものである。

【００２４】この発明に係る音声モデル作成装置は、認
識対象となる音声を母国語としない話者の音声信号に対
して音響分析を行い特徴ベクトル時系列を出力する音響
分析手段と、この音響分析手段から出力された特徴ベク
トル時系列を入力して、上記音声信号の各単語区間に対
応する特徴ベクトルを切り出して、単語音声データとし
て出力する単語データ切り出し手段と、認識対象となる
音声を母国語とする複数の話者が発声した音声データに
より学習した音響モデルを格納している音響モデルメモ
リと、この音響モデルメモリに格納されている音響モデ
ルを用いて、上記単語データ切り出し手段から出力され
た単語音声データに対して、連続音素認識を行い音素ラ
ベル系列を出力する連続音素認識手段と、この連続音素
認識手段から出力される音素ラベル系列に従い、上記音
響モデルメモリに格納されている音響モデルを接続し
て、第１の単語モデルを生成する単語モデル生成手段
と、上記単語データ切り出し手段から出力された単語音
声データを用いて、上記単語モデル生成手段により生成
された第１の単語モデルに、認識対象となる音声を母国
語とする話者の発話様態を表すネイティブ話者単語モデ
ルを加えた単語モデル群に対してクラスタリングを行
い、このクラスタリングにおけるセントロイドとして選
択したときの平均尤度を最大にする第２の単語モデルを
出力するクラスタリング手段と、このクラスタリング手
段から出力される第２の単語モデルにより、上記単語デ
ータ切り出し手段から出力された単語音声データに対し
てクラスタリングを行うことで隣接する単語音声データ
を見つけ、この隣接する単語音声データに対する尤度を
ペナルティとして考慮して、上記単語モデル群に対する
クラスタリングを行い、このクラスタリングにおけるセ
ントロイドとして選択したときの平均尤度を最大にする
第３の単語モデルを出力する再クラスタリング手段と、
この再クラスタリング手段から出力される第３の単語モ
デルを格納する単語モデルメモリとを備えたものであ
る。

【００２５】この発明に係る音声認識方法は、認識対象
となる音声を母国語としない話者による音声信号に対し
て音響分析を行い特徴ベクトル時系列を出力する第１の
ステップと、上記特徴ベクトル時系列を入力して、上記
音声信号の各単語区間に対応する特徴ベクトルを切り出
して、単語音声データとして出力する第２のステップ
と、認識対象となる音声を母国語とする複数の話者が発
声した音声データにより学習した音響モデルを用いて、
上記単語音声データに対して、連続音素認識を行い音素
ラベル系列を出力する第３のステップと、上記音素ラベ
ル系列に従い上記音響モデルを接続して、第１の単語モ
デルを生成する第４のステップと、上記単語音声データ
を用いて、上記第１の単語モデルに、認識対象となる音
声を母国語とする話者の発話様態を表すネイティブ話者
単語モデルを加えた単語モデル群に対してクラスタリン
グを行い、このクラスタリングにおけるセントロイドと
して選択したときの平均尤度を最大にする第２の単語モ
デルを出力する第５のステップと、上記第２の単語モデ
ルにより、上記単語音声データに対してクラスタリング
を行うことで隣接する単語音声データを見つけ、この隣
接する単語音声データに対する尤度をペナルティとして
考慮して、上記単語モデル群に対するクラスタリングを
行い、このクラスタリングにおけるセントロイドとして
選択したときの平均尤度を最大にする第３の単語モデル
を出力する第６のステップと、上記第３の単語モデルを
格納する第７のステップと、格納されている上記第３の
単語モデルを用いて、認識対象となる音声を母国語とし
ない話者による特徴ベクトル時系列に対して連続音声認
識を行う第８のステップとを備えたものである。

【００２６】この発明に係る音声モデル作成方法は、認
識対象となる音声を母国語としない話者による音声信号
に対して音響分析を行い特徴ベクトル時系列を出力する
第１のステップと、上記特徴ベクトル時系列を入力し
て、上記音声信号の各単語区間に対応する特徴ベクトル
を切り出して、単語音声データとして出力する第２のス
テップと、認識対象となる音声を母国語とする複数の話
者が発声した音声データにより学習した音響モデルを用
いて、上記単語音声データに対して、連続音素認識を行
い音素ラベル系列を出力する第３のステップと、上記音
素ラベル系列に従い上記音響モデルを接続して、第１の
単語モデルを生成する第４のステップと、上記単語音声
データを用いて、上記第１の単語モデルに、認識対象と
なる音声を母国語とする話者の発話様態を表すネイティ
ブ話者単語モデルを加えた単語モデル群に対してクラス
タリングを行い、このクラスタリングにおけるセントロ
イドとして選択したときの平均尤度を最大にする第２の
単語モデルを出力する第５のステップと、上記第２の単
語モデルにより、上記単語音声データに対してクラスタ
リングを行うことで隣接する単語音声データを見つけ、
この隣接する単語音声データに対する尤度をペナルティ
として考慮して、上記単語モデル群に対するクラスタリ
ングを行い、このクラスタリングにおけるセントロイド
として選択したときの平均尤度を最大にする第３の単語
モデルを出力する第６のステップと、上記第３の単語モ
デルを格納する第７のステップとを備えたものである。

【００２７】

【発明の実施の形態】以下、この発明の実施の一形態を
説明する。実施の形態１．図１はこの発明の実施の形態１による音
声認識装置の構成を示すブロック図である。図におい
て、１１は再クラスタリング手段であり、クラスタリン
グ手段８から出力される第２の単語モデル１０９によ
り、単語データ切り出し手段４から出力された単語音声
データ１０３に対してクラスタリングを行うことで隣接
する単語音声データを見つけ、この隣接する単語音声デ
ータに対する尤度をペナルティとして考慮して、単語モ
デル群１０８に対するクラスタリングを行い、このクラ
スタリングにおけるセントロイドとして選択したときの
平均尤度を最大にする第３の単語モデル１１１を出力す
る。その他の構成要素は、従来の図２に示すものと同一
である。

【００２８】次に動作について説明する。従来例と同様
に、外国語として英語を例に取り、音響モデル１０４と
して英語の疑似音素単位のＨＭＭを用いた場合を説明す
る。各音響モデル１０４は、英語を母国語とする複数の
話者が発声した音声データを用いて学習されたものであ
る。ネイティブ話者単語モデル１０７も、従来例と同様
に、例えば英語辞書に記載されているような発音記号に
対応するような疑似音素単位の系列に従って、疑似音素
単位のＨＭＭをＬｅｆｔ−ｔｏ−ｒｉｇｈｔに接続した
モデルを用いる。

【００２９】再クラスタリング手段１１は、まず、単語
データ切り出し手段４が出力した単語音声データ１０３
の｛Ｔｋ（ｎ）｜ｎ＝１．．．Ｎｋ｝（ただし、ｋ＝
１．．．Ｋ）に対し、クラスタリング手段８が出力した
第２の単語モデル１０９の｛Ｐｋ（ｍ）｜ｍ＝１．．．
Ｍ｝（ただし、ｋ＝１…Ｋ）によるクラスタリングを行
い、各単語音声データ１０３のＴｋ（ｎ）に対する単語
クラスデータＣｋ（ｎ）を求める。この処理は次の
（２）式で表される。この（２）式において、Ｌ（Ｔｋ
（ｎ），Ｐ^j （ｉ））は、単語音声データ１０３のＴｋ
（ｎ）と単語モデルＰ ^j （ｉ）とのマッチング尤度であ
る。

【００３０】

【数２】

【００３１】この式は、すなわち、単語音声データ１０
３のＴｋ（ｎ）に対してもっとも尤度が高くなる単語モ
デルを｛Ｐ^j （ｉ）｜ｉ＝１．．．Ｍ，ｊ＝１．．．
Ｋ｝の中から求め、その単語モデルが属する単語カテゴ
リナンバーｊをＴｋ（ｎ）に対する単語クラスデータＣ
ｋ（ｎ）とするものである。これにより、図４における
記号◆の単語音声データ１０３については、カテゴリＡ
の単語カテゴリナンバーが単語クラスデータとして与え
られることとなる。

【００３２】ついで、再クラスタリング手段１１は、単
語モデル生成手段７が出力した第１の単語モデル１０６
にネイティブ話者単語モデル１０７を加えた単語モデル
群１０８に対してクラスタリングを行う。この処理は上
記クラスタリング手段８と同様に単語カテゴリ毎に行わ
れる。

【００３３】クラスタリング手段８と同様に、クラスタ
リングを行う単語のカテゴリナンバをｋとすれば、クラ
スタリングの対象となる単語モデルは、単語音声データ
１０３の｛Ｔｋ（ｎ）｜ｎ＝１．．．Ｎｋ｝に対応し
て、単語モデル生成手段７により生成された第１の単語
モデル１０６の｛Ｐｋ（ｎ）｜ｎ＝１．．．Ｎｋ｝に、
ネイティブ話者単語モデル１０７のＰｋ，ｎａｔｉｖｅ
を加えたＮｋ＋１個の単語モデル群１０８の｛Ｐｋ
（１），Ｐｋ（２）．．．Ｐｋ（Ｎｋ），Ｐｋ，ｎａｔ
ｉｖｅ｝である。

【００３４】クラスタリング手段８では、カテゴリナン
バｋに対する単語音声データ１０３の｛Ｔｋ（ｎ）｜ｎ
＝１．．．Ｎｋ｝を用いて、上記Ｎｋ＋１個の単語モデ
ルのクラスタリングを行っていたが、再クラスタリング
手段１１では、カテゴリナンバｋ以外の隣接する単語音
声データ（以後、隣接するカテゴリ外単語音声データと
称する）も併用してクラスタリングを行う。隣接するカ
テゴリ外単語音声データは、カテゴリナンバｋ以外の単
語音声データ１０３において、上記の（２）式で示され
る単語クラスデータＣｋ（ｎ）がカテゴリナンバｋと一
致する単語音声データ１０３で定義され、その集合を
｛Ｔｏ（ｉ）｜ｉ＝１．．．Ｎｏ｝（ただしＮｏは集合
の要素数）と表す。

【００３５】クラスタリングの対象であるＮｋ＋１個の
単語モデル群１０８の｛Ｐｋ（１），Ｐｋ（２）．．．
Ｐｋ（Ｎｋ），Ｐｋ，ｎａｔｉｖｅ｝から、任意のＭ個
の単語モデル｛Ｐ^k （ｍ）｜ｍ＝１．．．Ｍ｝を、クラ
スタリングにおけるセントロイドとして選択したときの
ペナルティ付き平均尤度Ｌ^p ａｖｅを、次の（３）式で
定義する。

【００３６】

【数３】

【００３７】ここで、ｗはカテゴリ外単語音声データか
ら計算されるペナルティに対する重みで、０より大きい
正値をとる。この式の右辺第一項は、クラスタリング手
段８と同じ平均尤度の式である。そして、第二項が隣接
するカテゴリ外単語音声データによるペナルティとなっ
ている。このペナルティは、隣接するカテゴリ外単語音
声データを、選択された単語モデル｛Ｐ^k （ｍ）｜ｍ＝
１．．．Ｍ｝でクラスタリングしたときの、隣接するカ
テゴリ外単語音声データに対する平均尤度に、重みｗを
かけたものとなっており、隣接するカテゴリ外単語音声
データに対する尤度が高い単語モデルほどペナルティが
大きくなる。

【００３８】再クラスタリング手段１１は、全てのカテ
ゴリｋについて、このペナルティ付き平均尤度Ｌ^p ａｖ
ｅを最大にするＭ個の単語モデルを求め、単語カテゴリ
ｋに対する第３の単語モデル１１１として、単語モデル
メモリ９に出力する。再クラスタリング手段１１以外の
構成要素の動作は、従来例と同一である。

【００３９】以上述べたように、ペナルティ付き平均尤
度を最大にするＭ個の単語モデル｛Ｐ^k （ｍ）｜ｍ＝
１．．．Ｍ｝を、カテゴリｋの第３の単語モデル１１１
として単語モデルメモリ９に出力する再クラスタリング
手段１１を持つことで、単語カテゴリｋに隣接する別の
単語カテゴリにおいて、カテゴリナンバｋと同じ単語ク
ラスデータを付された単語音声データに対する尤度を小
さくするような第３の単語モデル１１１が求められる。

【００４０】図４でいえば、カテゴリＡの単語モデル
が、斜線部中のカテゴリＢの単語音声データ（図中の
◆）に対する尤度を小さくするように決定されるように
なる。すなわち、カテゴリＡの範囲を示す破線から、外
にはみ出すような実線の範囲をとる単語モデルが選択さ
れにくくなり、従来の音声認識装置で問題になっていた
誤認識を減らすことが可能になる。

【００４１】なお、この実施の形態は、対象とする外国
語を英語に限定するものではなく、母国語以外の言語を
対象とした音声認識装置であれば、どのような言語であ
ってもかまわない。同様に、音響モデル１０４として用
いるものが、英語の疑似音素単位のＨＭＭに限定される
ものでもない。また、音声モデルとして第３の単語モデ
ル１１１を作成しているが、作成する音声モデルは単語
モデルに限定されるものではなく、別の音声単位、例え
ば音節や文節等であってもかまわない。

【００４２】上記の図１は音声認識装置としての構成を
示しているが、図１から切り替えスイッチ３と連続音声
認識手段１０を除いた構成は、音声認識装置に使用され
る音声モデル（単語モデルメモリ９に格納されている各
単語モデルの集合）を作成する音声モデル作成装置とし
て実現することも可能である。

【００４３】以上のように、この実施の形態１によれ
ば、再クラスタリング手段１１が、ペナルティ付き平均
尤度を最大にするＭ個の単語モデル｛Ｐ^k （ｍ）｜ｍ＝
１．．．Ｍ｝を、カテゴリｋの第３の単語モデル１１１
として単語モデルメモリ９に出力することにより、図４
の斜線部の領域に含まれる単語音声データ１０３（図中
の◆）のカテゴリＢの連続音声に対して、すなわち、認
識対象となる音声を母国語としない話者が発声したある
カテゴリの単語音声に正しく発声されていないような音
声データが含まれている場合でも、精度の高い音声モデ
ルの作成と精度の高い音声認識を実現することができる
という効果が得られる。

【００４４】

【発明の効果】以上のように、この発明によれば、入力
された音声信号に対して音響分析を行い特徴ベクトル時
系列を出力する音響分析手段と、この音響分析手段から
出力された、認識対象となる音声を母国語としない話者
による特徴ベクトル時系列を入力して、音声信号の各単
語区間に対応する特徴ベクトルを切り出して、単語音声
データとして出力する単語データ切り出し手段と、認識
対象となる音声を母国語とする複数の話者が発声した音
声データにより学習した音響モデルを格納している音響
モデルメモリと、この音響モデルメモリに格納されてい
る音響モデルを用いて、単語データ切り出し手段から出
力された単語音声データに対して、連続音素認識を行い
音素ラベル系列を出力する連続音素認識手段と、連続音
素認識手段から出力される音素ラベル系列に従い、音響
モデルメモリに格納されている音響モデルを接続して、
第１の単語モデルを生成する単語モデル生成手段と、単
語データ切り出し手段から出力された単語音声データを
用いて、単語モデル生成手段により生成された第１の単
語モデルに、認識対象となる音声を母国語とする話者の
発話様態を表すネイティブ話者単語モデルを加えた単語
モデル群に対してクラスタリングを行い、このクラスタ
リングにおけるセントロイドとして選択したときの平均
尤度を最大にする第２の単語モデルを出力するクラスタ
リング手段と、クラスタリング手段から出力される第２
の単語モデルにより、単語データ切り出し手段から出力
された単語音声データに対してクラスタリングを行うこ
とで隣接する単語音声データを見つけ、この隣接する単
語音声データに対する尤度をペナルティとして考慮し
て、単語モデル群に対するクラスタリングを行い、この
クラスタリングにおけるセントロイドとして選択したと
きの平均尤度を最大にする第３の単語モデルを出力する
再クラスタリング手段と、再クラスタリング手段から出
力される第３の単語モデルを格納する単語モデルメモリ
と、単語モデルメモリに格納されている第３の単語モデ
ルを用いて、音響分析手段から出力された認識対象とな
る音声を母国語としない話者による特徴ベクトル時系列
に対して連続音声認識を行う連続音声認識手段とを備え
たことにより、認識対象となる音声を母国語としない話
者が発声したあるカテゴリの単語音声に、正しく発声さ
れていないような音声データが含まれている場合でも、
精度の高い音声認識を実現することができるという効果
がある。

【００４５】この発明によれば、認識対象となる音声を
母国語としない話者の音声信号に対して音響分析を行い
特徴ベクトル時系列を出力する音響分析手段と、この音
響分析手段から出力された特徴ベクトル時系列を入力し
て、音声信号の各単語区間に対応する特徴ベクトルを切
り出して、単語音声データとして出力する単語データ切
り出し手段と、認識対象となる音声を母国語とする複数
の話者が発声した音声データにより学習した音響モデル
を格納している音響モデルメモリと、この音響モデルメ
モリに格納されている音響モデルを用いて、単語データ
切り出し手段から出力された単語音声データに対して、
連続音素認識を行い音素ラベル系列を出力する連続音素
認識手段と、この連続音素認識手段から出力される音素
ラベル系列に従い、音響モデルメモリに格納されている
音響モデルを接続して、第１の単語モデルを生成する単
語モデル生成手段と、単語データ切り出し手段から出力
された単語音声データを用いて、単語モデル生成手段に
より生成された第１の単語モデルに、認識対象となる音
声を母国語とする話者の発話様態を表すネイティブ話者
単語モデルを加えた単語モデル群に対してクラスタリン
グを行い、このクラスタリングにおけるセントロイドと
して選択したときの平均尤度を最大にする第２の単語モ
デルを出力するクラスタリング手段と、このクラスタリ
ング手段から出力される第２の単語モデルにより、単語
データ切り出し手段から出力された単語音声データに対
してクラスタリングを行うことで隣接する単語音声デー
タを見つけ、この隣接する単語音声データに対する尤度
をペナルティとして考慮して、単語モデル群に対するク
ラスタリングを行い、このクラスタリングにおけるセン
トロイドとして選択したときの平均尤度を最大にする第
３の単語モデルを出力する再クラスタリング手段と、こ
の再クラスタリング手段から出力される第３の単語モデ
ルを格納する単語モデルメモリとを備えたことにより、
認識対象となる音声を母国語としない話者が発声したあ
るカテゴリの単語音声に、正しく発声されていないよう
な音声データが含まれている場合でも、精度の高い音声
認識を行える音声モデルを作成することができるという
効果がある。

【図面の簡単な説明】

【図１】この発明の実施の形態１による音声認識装置
の構成を示すブロック図である。

【図２】従来の音声認識装置の構成を示すブロック図
である。

【図３】単語カテゴリの単語音声データと単語モデル
を、模式的に２次元で表現した特徴ベクトル時系列空間
上にプロットした図である。

【図４】単語カテゴリの単語音声データと単語モデル
を、模式的に２次元で表現した特徴ベクトル時系列空間
上にプロットした図である。

【符号の説明】

２音響分析手段、４単語データ切り出し手段、５
音響モデルメモリ、６連続音素認識手段、７単語モデ
ル生成手段、８クラスタリング手段、９単語モデルメ
モリ、１０連続音声認識手段、１１再クラスタリン
グ手段、１０１音声信号、１０２特徴ベクトル時系
列、１０３単語音声データ、１０４音響モデル、１
０５音素ラベル系列、１０６第１の単語モデル、１
０７ネイティブ話者単語モデル、１０８単語モデル
群、１０９第２の単語モデル、１１１第３の単語モ
デル。

Claims

【特許請求の範囲】

【請求項１】入力された音声信号に対して音響分析を
行い特徴ベクトル時系列を出力する音響分析手段と、この音響分析手段から出力された、認識対象となる音声
を母国語としない話者による特徴ベクトル時系列を入力
して、上記音声信号の各単語区間に対応する特徴ベクト
ルを切り出して、単語音声データとして出力する単語デ
ータ切り出し手段と、認識対象となる音声を母国語とする複数の話者が発声し
た音声データにより学習した音響モデルを格納している
音響モデルメモリと、この音響モデルメモリに格納されている音響モデルを用
いて、上記単語データ切り出し手段から出力された単語
音声データに対して、連続音素認識を行い音素ラベル系
列を出力する連続音素認識手段と、この連続音素認識手段から出力される音素ラベル系列に
従い、上記音響モデルメモリに格納されている音響モデ
ルを接続して、第１の単語モデルを生成する単語モデル
生成手段と、上記単語データ切り出し手段から出力された単語音声デ
ータを用いて、上記単語モデル生成手段により生成され
た第１の単語モデルに、認識対象となる音声を母国語と
する話者の発話様態を表すネイティブ話者単語モデルを
加えた単語モデル群に対してクラスタリングを行い、こ
のクラスタリングにおけるセントロイドとして選択した
ときの平均尤度を最大にする第２の単語モデルを出力す
るクラスタリング手段と、このクラスタリング手段から出力される第２の単語モデ
ルにより、上記単語データ切り出し手段から出力された
単語音声データに対してクラスタリングを行うことで隣
接する単語音声データを見つけ、この隣接する単語音声
データに対する尤度をペナルティとして考慮して、上記
単語モデル群に対するクラスタリングを行い、このクラ
スタリングにおけるセントロイドとして選択したときの
平均尤度を最大にする第３の単語モデルを出力する再ク
ラスタリング手段と、この再クラスタリング手段から出力される第３の単語モ
デルを格納する単語モデルメモリと、この単語モデルメモリに格納されている第３の単語モデ
ルを用いて、上記音響分析手段から出力された認識対象
となる音声を母国語としない話者による特徴ベクトル時
系列に対して連続音声認識を行う連続音声認識手段とを
備えたことを特徴とする音声認識装置。
【請求項２】認識対象となる音声を母国語としない話
者の音声信号に対して音響分析を行い特徴ベクトル時系
列を出力する音響分析手段と、この音響分析手段から出力された特徴ベクトル時系列を
入力して、上記音声信号の各単語区間に対応する特徴ベ
クトルを切り出して、単語音声データとして出力する単
語データ切り出し手段と、認識対象となる音声を母国語とする複数の話者が発声し
た音声データにより学習した音響モデルを格納している
音響モデルメモリと、この音響モデルメモリに格納されている音響モデルを用
いて、上記単語データ切り出し手段から出力された単語
音声データに対して、連続音素認識を行い音素ラベル系
列を出力する連続音素認識手段と、この連続音素認識手段から出力される音素ラベル系列に
従い、上記音響モデルメモリに格納されている音響モデ
ルを接続して、第１の単語モデルを生成する単語モデル
生成手段と、上記単語データ切り出し手段から出力された単語音声デ
ータを用いて、上記単語モデル生成手段により生成され
た第１の単語モデルに、認識対象となる音声を母国語と
する話者の発話様態を表すネイティブ話者単語モデルを
加えた単語モデル群に対してクラスタリングを行い、こ
のクラスタリングにおけるセントロイドとして選択した
ときの平均尤度を最大にする第２の単語モデルを出力す
るクラスタリング手段と、このクラスタリング手段から出力される第２の単語モデ
ルにより、上記単語データ切り出し手段から出力された
単語音声データに対してクラスタリングを行うことで隣
接する単語音声データを見つけ、この隣接する単語音声
データに対する尤度をペナルティとして考慮して、上記
単語モデル群に対するクラスタリングを行い、このクラ
スタリングにおけるセントロイドとして選択したときの
平均尤度を最大にする第３の単語モデルを出力する再ク
ラスタリング手段と、この再クラスタリング手段から出力される第３の単語モ
デルを格納する単語モデルメモリとを備えたことを特徴
とする音声モデル作成装置。
【請求項３】認識対象となる音声を母国語としない話
者による音声信号に対して音響分析を行い特徴ベクトル
時系列を出力する第１のステップと、上記特徴ベクトル時系列を入力して、上記音声信号の各
単語区間に対応する特徴ベクトルを切り出して、単語音
声データとして出力する第２のステップと、認識対象となる音声を母国語とする複数の話者が発声し
た音声データにより学習した音響モデルを用いて、上記
単語音声データに対して、連続音素認識を行い音素ラベ
ル系列を出力する第３のステップと、上記音素ラベル系列に従い上記音響モデルを接続して、
第１の単語モデルを生成する第４のステップと、上記単語音声データを用いて、上記第１の単語モデル
に、認識対象となる音声を母国語とする話者の発話様態
を表すネイティブ話者単語モデルを加えた単語モデル群
に対してクラスタリングを行い、このクラスタリングに
おけるセントロイドとして選択したときの平均尤度を最
大にする第２の単語モデルを出力する第５のステップ
と、上記第２の単語モデルにより、上記単語音声データに対
してクラスタリングを行うことで隣接する単語音声デー
タを見つけ、この隣接する単語音声データに対する尤度
をペナルティとして考慮して、上記単語モデル群に対す
るクラスタリングを行い、このクラスタリングにおける
セントロイドとして選択したときの平均尤度を最大にす
る第３の単語モデルを出力する第６のステップと、上記第３の単語モデルを格納する第７のステップと、格納されている上記第３の単語モデルを用いて、認識対
象となる音声を母国語としない話者による特徴ベクトル
時系列に対して連続音声認識を行う第８のステップとを
備えたことを特徴とする音声認識方法。
【請求項４】認識対象となる音声を母国語としない話
者による音声信号に対して音響分析を行い特徴ベクトル
時系列を出力する第１のステップと、上記特徴ベクトル時系列を入力して、上記音声信号の各
単語区間に対応する特徴ベクトルを切り出して、単語音
声データとして出力する第２のステップと、認識対象となる音声を母国語とする複数の話者が発声し
た音声データにより学習した音響モデルを用いて、上記
単語音声データに対して、連続音素認識を行い音素ラベ
ル系列を出力する第３のステップと、上記音素ラベル系列に従い上記音響モデルを接続して、
第１の単語モデルを生成する第４のステップと、上記単語音声データを用いて、上記第１の単語モデル
に、認識対象となる音声を母国語とする話者の発話様態
を表すネイティブ話者単語モデルを加えた単語モデル群
に対してクラスタリングを行い、このクラスタリングに
おけるセントロイドとして選択したときの平均尤度を最
大にする第２の単語モデルを出力する第５のステップ
と、上記第２の単語モデルにより、上記単語音声データに対
してクラスタリングを行うことで隣接する単語音声デー
タを見つけ、この隣接する単語音声データに対する尤度
をペナルティとして考慮して、上記単語モデル群に対す
るクラスタリングを行い、このクラスタリングにおける
セントロイドとして選択したときの平均尤度を最大にす
る第３の単語モデルを出力する第６のステップと、上記第３の単語モデルを格納する第７のステップとを備
えたことを特徴とする音声モデル作成方法。