JP3892173B2

JP3892173B2 - 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法

Info

Publication number: JP3892173B2
Application number: JP15674199A
Authority: JP
Inventors: 鈴木　　忠
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-06-03
Filing date: 1999-06-03
Publication date: 2007-03-14
Anticipated expiration: 2019-06-03
Also published as: JP2000347685A

Description

【０００１】
【発明の属する技術分野】
この発明は、任意の外国語について、これを母国語としない話者が発声した音声を対象として認識を行う音声認識装置及び音声認識方法と、この音声認識装置に用いる音声モデルを作成する音声モデル作成装置及び音声モデル作成方法に関するものである。
【０００２】
【従来の技術】
図２は文献「日本人英語の発話様態を考慮した英語音声連続認識の検討」（鈴木忠、阿部芳春、中島邦男、日本音響学会平成１０年度秋季研究発表会講演論文集Ｉ，ｐ１５１−１５２，１９９８年９月）に示されている、従来の日本人英語の音声認識装置の構成を示すブロック図である。図において、１は音声信号入力端、２は音声信号入力端１より入力される音声信号１０１に対し音響分析を行い特徴ベクトル時系列１０２を出力する音響分析手段、３は音響分析手段２において求められた特徴ベクトル時系列１０２の出力先を切り替える切り替えスイッチである。
【０００３】
また、図２において、４は切り替えスイッチ３の出力先の一つであり、音響分析手段２で求められた特徴ベクトル時系列１０２を入力して、音声信号１０１の各単語区間に対応する特徴ベクトル時系列を切り出して、単語音声データ１０３として出力する単語データ切り出し手段、５は外国語の音響モデル１０４，つまり認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデル１０４を格納している音響モデルメモリ、６は単語データ切り出し手段４が出力した単語音声データ１０３に対し、音響モデルメモリ５に格納されている外国語の音響モデル１０４を用いて音素タイプライタ処理（連続音素認識）を行い、音素ラベル系列１０５を出力する連続音素認識手段である。
【０００４】
さらに、図２において、７は連続音素認識手段６が出力した音素ラベル系列１０５に従い、音響モデルメモリ５に格納されている外国語の音響モデル１０４を接続して、第１の単語モデル１０６を生成する単語モデル生成手段であり、８は単語データ切り出し手段４から出力された各単語の単語音声データ１０３を用いて、単語モデル生成手段７が生成した第１の単語モデル１０６にネイティブ話者の単語モデル１０７を加えた単語モデル群１０８に対して、クラスタリングを行い、このクラスタリングにおけるセントロイド（代表値）として選択したときの平均尤度を最大にする第２の単語モデル１０９を出力するクラスタリング手段である。
【０００５】
さらに、図２において、９はクラスタリング手段８が出力した第２の単語モデル１０９を格納する単語モデルメモリ、１０は切り替えスイッチ３の出力先の一つであり、単語モデルメモリ９に格納されている第２の単語モデル１０９を用いて、音響分析手段２から出力された認識対象となる音声を母国語としない話者による特徴ベクトル時系列１０２に対して連続音声認識を行い、認識結果１１０を出力する連続音声認識手段である。
【０００６】
次に動作について説明する。
ここでは、外国語として英語を例に取り、音響モデル１０４として英語の疑似音素単位のＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，隠れマルコフモデル）を用いた場合を説明する。各音響モデル１０４は、英語を母国語とする複数の話者が発声した音声データを用いて学習されたものである。最初、英語連続音声認識に用いる第２の単語モデル１０９を作成するために、切り替えスイッチ３をａ側に入れておく。
【０００７】
英語を母国語としない話者が発声した発声内容既知の英語連続音声による音声信号１０１は、音声信号入力端１より入力され、音響分析手段２において分析フレームごとに音響分析処理が施されて特徴ベクトル時系列１０２が出力される。音響分析手段２が出力した特徴ベクトル時系列１０２は、切り替えスイッチ３を経由して単語データ切り出し手段４に入力される。
【０００８】
単語データ切り出し手段４では、英語連続音声の特徴ベクトル時系列１０２から、該英語連続音声を構成する各単語音声に対応する特徴ベクトル時系列を抽出し、単語音声データ１０３として出力する。単語音声データ１０３は、１つ以上の英語連続音声の特徴ベクトル時系列について求められ、｛Ｔｋ（ｎ）｜ｎ＝１．．．Ｎｋ｝（ただし、ｋ＝１．．．Ｋ）が出力される。ここで、ｋは単語カテゴリナンバーで、単語カテゴリ数はＫ個、Ｎｋはカテゴリナンバーｋの単語についての単語音声データの数である。
【０００９】
音響モデルメモリ５には、英語を母国語とする複数の話者が発声した音声データにより学習した疑似音素単位のＨＭＭが、音響モデル１０４として格納されており、連続音素認識手段６は、この音響モデル１０４を用いて、単語データ切り出し手段４が出力した単語音声データ１０３に対して音素タイプライタ処理（連続音素認識）を行う。すなわち、疑似音素単位のＨＭＭが全接続可能で、かつ１回以上任意の回数接続できるモデルとの照合を行い、単語音声データ１０３に対し最も尤度が高くなるＨＭＭの系列を求め、このＨＭＭの系列に対応する疑似音素単位の音素ラベル系列１０５を出力する。
【００１０】
単語モデル生成手段７は、音素ラベル系列１０５を入力して、この音素ラベル系列１０５に従って、音響モデルメモリ５に格納されている疑似音素単位のＨＭＭを接続し、第１の単語モデル１０６として出力する。すなわち、Ｔｋ（ｎ）で示される、ある単語音声データ１０３に対する音素ラベル系列１０５が、ｓ−ｉ−ｂ−ｕ−ｍ−ｎのように６個の疑似音素単位のラベルの系列であるならば、各ラベルに対応する疑似音素単位のＨＭＭを音響モデルメモリ５から読み出し、Ｌｅｆｔ−ｔｏ−ｒｉｇｈｔにＨＭＭを並べて、Ｐｋ（ｎ）で示される第１の単語モデル１０６を出力する。
【００１１】
これにより、英語を母国語としない話者が発声した英語音声における単語の発話様態を、英語を母国語とする話者の音声データで学習した疑似音素単位のＨＭＭの系列で表現した第１の単語モデル１０６が生成されることとなる。このような処理を、全てのカテゴリｋと各カテゴリのｎ＝１．．．Ｎｋについて行う。
【００１２】
クラスタリング手段８は、単語データ切り出し手段４から出力された単語音声データ１０３を用いて、単語モデル生成手段７から出力された第１の単語モデル１０６に、各単語カテゴリについて英語を母国語とする話者の該単語音声の発話様態を表すネイティブ話者単語モデル１０７を加えた単語モデル群１０８に対してクラスタリングを行う。ネイティブ話者単語モデル１０７としては、例えば、英語辞書に記載されているような発音記号を表すような疑似音素単位の系列に沿って疑似音素単位のＨＭＭをＬｅｆｔ−ｔｏ−ｒｉｇｈｔに接続したモデルを用いている。
【００１３】
クラスタリング手段８における単語モデル群１０８のクラスタリングは、単語カテゴリごとに行われる。クラスタリングを行う単語のカテゴリナンバーをｋとすれば、クラスタリングの対象となる単語モデルの数は、単語音声データ１０３の｛Ｔｋ（ｎ）｜ｎ＝１．．．Ｎｋ｝に対応して単語モデル生成手段７により生成された第１の単語モデル１０６の｛Ｐｋ（ｎ）｜ｎ＝１．．．Ｎｋ｝に、ネイティブ話者単語モデル１０７のＰｋ，ｎａｔｉｖｅを加えた（Ｎｋ＋１）個である。
【００１４】
このＮｋ＋１個の単語モデル群１０８の｛Ｐｋ（１），Ｐｋ（２）．．．Ｐｋ（Ｎｋ），Ｐｋ，ｎａｔｉｖｅ｝から、任意のＭ個の単語モデル｛Ｐ^k （ｍ）｜ｍ＝１．．．Ｍ｝を、クラスタリングにおけるセントロイド（各クラスタリングの代表値）として選択したときの平均尤度Ｌａｖｅを次の（１）式で定義する。
【００１５】
【数１】

【００１６】
ここで、Ｌ（Ｔｋ（ｎ），Ｐ^k （ｍ））は、単語音声データ１０３のＴｋ（ｎ）と任意のＭ個の単語モデルＰ^k （ｍ）とのマッチング尤度である。この（１）式の平均尤度Ｌａｖｅを最大にする単語モデル｛Ｐ^k （ｍ）｜ｍ＝１．．．Ｍ｝が、カテゴリｋの第２の単語モデル１０９として単語モデルメモリ９に出力される。これにより求められた単語モデル｛Ｐｋ（ｍ）｜ｍ＝１．．．Ｍ｝は、単語音声データ１０３の｛Ｔｋ（ｎ）｜ｎ＝１．．．Ｎｋ｝の発話様態を代表するＭ個の単語モデルとなる。このような処理を全てのｋについて行うことで、全てのカテゴリの単語について、それぞれＭ個の単語モデルが求められ、第２の単語モデル１０９として単語モデルメモリ９に格納される。
【００１７】
第２の単語モデル１０９が求められ単語モデルメモリ９に格納されると、切り替えスイッチ３はｂ側に入れられる。音声信号入力端１より入力される認識対象となる音声を母国語としない話者が発声した発声内容未知の音声信号１０１は、音響分析手段２において音響分析され、得られた特徴ベクトル時系列１０２は、切り替えスイッチ３を介して連続音声認識手段１０に入力される。連続音声認識手段１０は、単語モデルメモリ９に格納されている第２の単語モデル１０９を用いて音声認識処理を行い、その認識結果１１０を出力する。
【００１８】
【発明が解決しようとする課題】
従来の音声認識装置は以上のように構成されているので、英語を母国語としない話者が発声した英語連続音声における単語モデルを求める時に、その単語カテゴリに含まれる単語音声データ１０３だけを使って第２の単語モデル１０９を選ぶようになっていた。
【００１９】
図３は従来の音声認識装置により、ある単語カテゴリＡの単語音声データ１０３と第２の単語モデル１０９を、模式的に２次元で表現した特徴ベクトル時系列空間上にプロットしたものである。第２の単語モデル１０９は、特徴ベクトル時系列では表されないため、その元となった単語音声データ１０３の特徴ベクトル時系列１０２で代用しているものとする。図３において、●はカテゴリＡに属する単語音声データ１０３，×はクラスタリング手段８において、Ｍ＝４の時に求められた第２の単語モデル１０９を表している。破線は、特徴ベクトル時系列空間上に占めるカテゴリＡの単語音声の空間である。実線は、各第２の単語モデル１０９との尤度がある値をとる特徴ベクトル時系列空間上の範囲を表している。
【００２０】
従来の音声認識装置では、あるカテゴリに含まれる複数個の単語音声データ１０３に対する平均尤度を最大にする単語モデルを選択するように動作するため、図３のように、実線が囲う範囲がカテゴリＡの占める空間より外にでてしまう可能性があった。すると、図４のようにカテゴリＡに隣接するカテゴリＢの単語音声データ（図中の◇や◆）１０３に対して、カテゴリＢについてクラスタリング手段８で求められた第２の単語モデル（図中の＋）１０９に対する尤度より、カテゴリＡの第２の単語モデル１０９に対する尤度の方が高くなるような領域（図中の斜線部）が生じてしまい、この領域に含まれるような単語音声データ（図中の◆）１０３が含まれるようなカテゴリＢの連続音声の認識に、誤りが発生しやすくなるという課題があった。
【００２１】
これは、英語を母国語としない話者が発声したあるカテゴリの単語音声には、そのカテゴリとして正しく発声されていないような音声データが含まれてしまうことがあり、クラスタリングにおいて、そのような音声データも含めて平均尤度を最大にする第２の単語モデル１０９を求めていることが原因となっていた。
【００２２】
この発明は、上記のような課題を解決するためになされたもので、隣接する他の単語カテゴリに属する単語音声データ１０３との尤度を利用した再クラスタリングにより単語モデルを求めることで、精度の高い音声認識を実現する音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法を得ることを目的とする。
【００２３】
【課題を解決するための手段】
この発明に係る音声認識装置は、入力された音声信号に対して音響分析を行い特徴ベクトル時系列を出力する音響分析手段と、この音響分析手段から出力された、認識対象となる音声を母国語としない話者による特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する単語データ切り出し手段と、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを格納している音響モデルメモリと、この音響モデルメモリに格納されている音響モデルを用いて、上記単語データ切り出し手段から出力された単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する連続音素認識手段と、この連続音素認識手段から出力される音素ラベル系列に従い、上記音響モデルメモリに格納されている音響モデルを接続して、第１の単語モデルを生成する単語モデル生成手段と、上記単語データ切り出し手段から出力された単語音声データを用いて、上記単語モデル生成手段により生成された第１の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第２の単語モデルを出力するクラスタリング手段と、このクラスタリング手段から出力される第２の単語モデルにより、上記単語データ切り出し手段から出力された単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第３の単語モデルを出力する再クラスタリング手段と、この再クラスタリング手段から出力される第３の単語モデルを格納する単語モデルメモリと、この単語モデルメモリに格納されている第３の単語モデルを用いて、上記音響分析手段から出力された認識対象となる音声を母国語としない話者による特徴ベクトル時系列に対して連続音声認識を行う連続音声認識手段とを備えたものである。
【００２４】
この発明に係る音声モデル作成装置は、認識対象となる音声を母国語としない話者の音声信号に対して音響分析を行い特徴ベクトル時系列を出力する音響分析手段と、この音響分析手段から出力された特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する単語データ切り出し手段と、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを格納している音響モデルメモリと、この音響モデルメモリに格納されている音響モデルを用いて、上記単語データ切り出し手段から出力された単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する連続音素認識手段と、この連続音素認識手段から出力される音素ラベル系列に従い、上記音響モデルメモリに格納されている音響モデルを接続して、第１の単語モデルを生成する単語モデル生成手段と、上記単語データ切り出し手段から出力された単語音声データを用いて、上記単語モデル生成手段により生成された第１の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第２の単語モデルを出力するクラスタリング手段と、このクラスタリング手段から出力される第２の単語モデルにより、上記単語データ切り出し手段から出力された単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第３の単語モデルを出力する再クラスタリング手段と、この再クラスタリング手段から出力される第３の単語モデルを格納する単語モデルメモリとを備えたものである。
【００２５】
この発明に係る音声認識方法は、認識対象となる音声を母国語としない話者による音声信号に対して音響分析を行い特徴ベクトル時系列を出力する第１のステップと、上記特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する第２のステップと、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを用いて、上記単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する第３のステップと、上記音素ラベル系列に従い上記音響モデルを接続して、第１の単語モデルを生成する第４のステップと、上記単語音声データを用いて、上記第１の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第２の単語モデルを出力する第５のステップと、上記第２の単語モデルにより、上記単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第３の単語モデルを出力する第６のステップと、上記第３の単語モデルを格納する第７のステップと、格納されている上記第３の単語モデルを用いて、認識対象となる音声を母国語としない話者による特徴ベクトル時系列に対して連続音声認識を行う第８のステップとを備えたものである。
【００２６】
この発明に係る音声モデル作成方法は、認識対象となる音声を母国語としない話者による音声信号に対して音響分析を行い特徴ベクトル時系列を出力する第１のステップと、上記特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する第２のステップと、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを用いて、上記単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する第３のステップと、上記音素ラベル系列に従い上記音響モデルを接続して、第１の単語モデルを生成する第４のステップと、上記単語音声データを用いて、上記第１の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第２の単語モデルを出力する第５のステップと、上記第２の単語モデルにより、上記単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第３の単語モデルを出力する第６のステップと、上記第３の単語モデルを格納する第７のステップとを備えたものである。
【００２７】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態１．
図１はこの発明の実施の形態１による音声認識装置の構成を示すブロック図である。図において、１１は再クラスタリング手段であり、クラスタリング手段８から出力される第２の単語モデル１０９により、単語データ切り出し手段４から出力された単語音声データ１０３に対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、単語モデル群１０８に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第３の単語モデル１１１を出力する。その他の構成要素は、従来の図２に示すものと同一である。
【００２８】
次に動作について説明する。
従来例と同様に、外国語として英語を例に取り、音響モデル１０４として英語の疑似音素単位のＨＭＭを用いた場合を説明する。各音響モデル１０４は、英語を母国語とする複数の話者が発声した音声データを用いて学習されたものである。ネイティブ話者単語モデル１０７も、従来例と同様に、例えば英語辞書に記載されているような発音記号に対応するような疑似音素単位の系列に従って、疑似音素単位のＨＭＭをＬｅｆｔ−ｔｏ−ｒｉｇｈｔに接続したモデルを用いる。
【００２９】
再クラスタリング手段１１は、まず、単語データ切り出し手段４が出力した単語音声データ１０３の｛Ｔｋ（ｎ）｜ｎ＝１．．．Ｎｋ｝（ただし、ｋ＝１．．．Ｋ）に対し、クラスタリング手段８が出力した第２の単語モデル１０９の｛Ｐｋ（ｍ）｜ｍ＝１．．．Ｍ｝（ただし、ｋ＝１…Ｋ）によるクラスタリングを行い、各単語音声データ１０３のＴｋ（ｎ）に対する単語クラスデータＣｋ（ｎ）を求める。この処理は次の（２）式で表される。この（２）式において、Ｌ（Ｔｋ（ｎ），Ｐ^j （ｉ））は、単語音声データ１０３のＴｋ（ｎ）と単語モデルＰ^j （ｉ）とのマッチング尤度である。
【００３０】
【数２】

【００３１】
この式は、すなわち、単語音声データ１０３のＴｋ（ｎ）に対してもっとも尤度が高くなる単語モデルを｛Ｐ^j （ｉ）｜ｉ＝１．．．Ｍ，ｊ＝１．．．Ｋ｝の中から求め、その単語モデルが属する単語カテゴリナンバーｊをＴｋ（ｎ）に対する単語クラスデータＣｋ（ｎ）とするものである。これにより、図４における記号◆の単語音声データ１０３については、カテゴリＡの単語カテゴリナンバーが単語クラスデータとして与えられることとなる。
【００３２】
ついで、再クラスタリング手段１１は、単語モデル生成手段７が出力した第１の単語モデル１０６にネイティブ話者単語モデル１０７を加えた単語モデル群１０８に対してクラスタリングを行う。この処理は上記クラスタリング手段８と同様に単語カテゴリ毎に行われる。
【００３３】
クラスタリング手段８と同様に、クラスタリングを行う単語のカテゴリナンバをｋとすれば、クラスタリングの対象となる単語モデルは、単語音声データ１０３の｛Ｔｋ（ｎ）｜ｎ＝１．．．Ｎｋ｝に対応して、単語モデル生成手段７により生成された第１の単語モデル１０６の｛Ｐｋ（ｎ）｜ｎ＝１．．．Ｎｋ｝に、ネイティブ話者単語モデル１０７のＰｋ，ｎａｔｉｖｅを加えたＮｋ＋１個の単語モデル群１０８の｛Ｐｋ（１），Ｐｋ（２）．．．Ｐｋ（Ｎｋ），Ｐｋ，ｎａｔｉｖｅ｝である。
【００３４】
クラスタリング手段８では、カテゴリナンバｋに対する単語音声データ１０３の｛Ｔｋ（ｎ）｜ｎ＝１．．．Ｎｋ｝を用いて、上記Ｎｋ＋１個の単語モデルのクラスタリングを行っていたが、再クラスタリング手段１１では、カテゴリナンバｋ以外の隣接する単語音声データ（以後、隣接するカテゴリ外単語音声データと称する）も併用してクラスタリングを行う。隣接するカテゴリ外単語音声データは、カテゴリナンバｋ以外の単語音声データ１０３において、上記の（２）式で示される単語クラスデータＣｋ（ｎ）がカテゴリナンバｋと一致する単語音声データ１０３で定義され、その集合を｛Ｔｏ（ｉ）｜ｉ＝１．．．Ｎｏ｝（ただしＮｏは集合の要素数）と表す。
【００３５】
クラスタリングの対象であるＮｋ＋１個の単語モデル群１０８の｛Ｐｋ（１），Ｐｋ（２）．．．Ｐｋ（Ｎｋ），Ｐｋ，ｎａｔｉｖｅ｝から、任意のＭ個の単語モデル｛Ｐ^k （ｍ）｜ｍ＝１．．．Ｍ｝を、クラスタリングにおけるセントロイドとして選択したときのペナルティ付き平均尤度Ｌ^p ａｖｅを、次の（３）式で定義する。
【００３６】
【数３】

【００３７】
ここで、ｗはカテゴリ外単語音声データから計算されるペナルティに対する重みで、０より大きい正値をとる。この式の右辺第一項は、クラスタリング手段８と同じ平均尤度の式である。そして、第二項が隣接するカテゴリ外単語音声データによるペナルティとなっている。このペナルティは、隣接するカテゴリ外単語音声データを、選択された単語モデル｛Ｐ^k （ｍ）｜ｍ＝１．．．Ｍ｝でクラスタリングしたときの、隣接するカテゴリ外単語音声データに対する平均尤度に、重みｗをかけたものとなっており、隣接するカテゴリ外単語音声データに対する尤度が高い単語モデルほどペナルティが大きくなる。
【００３８】
再クラスタリング手段１１は、全てのカテゴリｋについて、このペナルティ付き平均尤度Ｌ^p ａｖｅを最大にするＭ個の単語モデルを求め、単語カテゴリｋに対する第３の単語モデル１１１として、単語モデルメモリ９に出力する。再クラスタリング手段１１以外の構成要素の動作は、従来例と同一である。
【００３９】
以上述べたように、ペナルティ付き平均尤度を最大にするＭ個の単語モデル｛Ｐ^k （ｍ）｜ｍ＝１．．．Ｍ｝を、カテゴリｋの第３の単語モデル１１１として単語モデルメモリ９に出力する再クラスタリング手段１１を持つことで、単語カテゴリｋに隣接する別の単語カテゴリにおいて、カテゴリナンバｋと同じ単語クラスデータを付された単語音声データに対する尤度を小さくするような第３の単語モデル１１１が求められる。
【００４０】
図４でいえば、カテゴリＡの単語モデルが、斜線部中のカテゴリＢの単語音声データ（図中の◆）に対する尤度を小さくするように決定されるようになる。すなわち、カテゴリＡの範囲を示す破線から、外にはみ出すような実線の範囲をとる単語モデルが選択されにくくなり、従来の音声認識装置で問題になっていた誤認識を減らすことが可能になる。
【００４１】
なお、この実施の形態は、対象とする外国語を英語に限定するものではなく、母国語以外の言語を対象とした音声認識装置であれば、どのような言語であってもかまわない。同様に、音響モデル１０４として用いるものが、英語の疑似音素単位のＨＭＭに限定されるものでもない。また、音声モデルとして第３の単語モデル１１１を作成しているが、作成する音声モデルは単語モデルに限定されるものではなく、別の音声単位、例えば音節や文節等であってもかまわない。
【００４２】
上記の図１は音声認識装置としての構成を示しているが、図１から切り替えスイッチ３と連続音声認識手段１０を除いた構成は、音声認識装置に使用される音声モデル（単語モデルメモリ９に格納されている各単語モデルの集合）を作成する音声モデル作成装置として実現することも可能である。
【００４３】
以上のように、この実施の形態１によれば、再クラスタリング手段１１が、ペナルティ付き平均尤度を最大にするＭ個の単語モデル｛Ｐ^k （ｍ）｜ｍ＝１．．．Ｍ｝を、カテゴリｋの第３の単語モデル１１１として単語モデルメモリ９に出力することにより、図４の斜線部の領域に含まれる単語音声データ１０３（図中の◆）のカテゴリＢの連続音声に対して、すなわち、認識対象となる音声を母国語としない話者が発声したあるカテゴリの単語音声に正しく発声されていないような音声データが含まれている場合でも、精度の高い音声モデルの作成と精度の高い音声認識を実現することができるという効果が得られる。
【００４４】
【発明の効果】
以上のように、この発明によれば、入力された音声信号に対して音響分析を行い特徴ベクトル時系列を出力する音響分析手段と、この音響分析手段から出力された、認識対象となる音声を母国語としない話者による特徴ベクトル時系列を入力して、音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する単語データ切り出し手段と、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを格納している音響モデルメモリと、この音響モデルメモリに格納されている音響モデルを用いて、単語データ切り出し手段から出力された単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する連続音素認識手段と、連続音素認識手段から出力される音素ラベル系列に従い、音響モデルメモリに格納されている音響モデルを接続して、第１の単語モデルを生成する単語モデル生成手段と、単語データ切り出し手段から出力された単語音声データを用いて、単語モデル生成手段により生成された第１の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第２の単語モデルを出力するクラスタリング手段と、クラスタリング手段から出力される第２の単語モデルにより、単語データ切り出し手段から出力された単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第３の単語モデルを出力する再クラスタリング手段と、再クラスタリング手段から出力される第３の単語モデルを格納する単語モデルメモリと、単語モデルメモリに格納されている第３の単語モデルを用いて、音響分析手段から出力された認識対象となる音声を母国語としない話者による特徴ベクトル時系列に対して連続音声認識を行う連続音声認識手段とを備えたことにより、認識対象となる音声を母国語としない話者が発声したあるカテゴリの単語音声に、正しく発声されていないような音声データが含まれている場合でも、精度の高い音声認識を実現することができるという効果がある。
【００４５】
この発明によれば、認識対象となる音声を母国語としない話者の音声信号に対して音響分析を行い特徴ベクトル時系列を出力する音響分析手段と、この音響分析手段から出力された特徴ベクトル時系列を入力して、音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する単語データ切り出し手段と、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを格納している音響モデルメモリと、この音響モデルメモリに格納されている音響モデルを用いて、単語データ切り出し手段から出力された単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する連続音素認識手段と、この連続音素認識手段から出力される音素ラベル系列に従い、音響モデルメモリに格納されている音響モデルを接続して、第１の単語モデルを生成する単語モデル生成手段と、単語データ切り出し手段から出力された単語音声データを用いて、単語モデル生成手段により生成された第１の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第２の単語モデルを出力するクラスタリング手段と、このクラスタリング手段から出力される第２の単語モデルにより、単語データ切り出し手段から出力された単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第３の単語モデルを出力する再クラスタリング手段と、この再クラスタリング手段から出力される第３の単語モデルを格納する単語モデルメモリとを備えたことにより、認識対象となる音声を母国語としない話者が発声したあるカテゴリの単語音声に、正しく発声されていないような音声データが含まれている場合でも、精度の高い音声認識を行える音声モデルを作成することができるという効果がある。
【図面の簡単な説明】
【図１】この発明の実施の形態１による音声認識装置の構成を示すブロック図である。
【図２】従来の音声認識装置の構成を示すブロック図である。
【図３】単語カテゴリの単語音声データと単語モデルを、模式的に２次元で表現した特徴ベクトル時系列空間上にプロットした図である。
【図４】単語カテゴリの単語音声データと単語モデルを、模式的に２次元で表現した特徴ベクトル時系列空間上にプロットした図である。
【符号の説明】
２音響分析手段、４単語データ切り出し手段、５音響モデルメモリ、６連続音素認識手段、７単語モデル生成手段、８クラスタリング手段、９単語モデルメモリ、１０連続音声認識手段、１１再クラスタリング手段、１０１音声信号、１０２特徴ベクトル時系列、１０３単語音声データ、１０４音響モデル、１０５音素ラベル系列、１０６第１の単語モデル、１０７ネイティブ話者単語モデル、１０８単語モデル群、１０９第２の単語モデル、１１１第３の単語モデル。

Claims

入力された音声信号に対して音響分析を行い特徴ベクトル時系列を出力する音響分析手段と、
この音響分析手段から出力された、認識対象となる音声を母国語としない話者による特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する単語データ切り出し手段と、
認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを格納している音響モデルメモリと、
この音響モデルメモリに格納されている音響モデルを用いて、上記単語データ切り出し手段から出力された単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する連続音素認識手段と、
この連続音素認識手段から出力される音素ラベル系列に従い、上記音響モデルメモリに格納されている音響モデルを接続して、第１の単語モデルを生成する単語モデル生成手段と、
上記単語データ切り出し手段から出力された単語音声データを用いて、上記単語モデル生成手段により生成された第１の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第２の単語モデルを出力するクラスタリング手段と、
このクラスタリング手段から出力される第２の単語モデルにより、上記単語データ切り出し手段から出力された単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第３の単語モデルを出力する再クラスタリング手段と、
この再クラスタリング手段から出力される第３の単語モデルを格納する単語モデルメモリと、
この単語モデルメモリに格納されている第３の単語モデルを用いて、上記音響分析手段から出力された認識対象となる音声を母国語としない話者による特徴ベクトル時系列に対して連続音声認識を行う連続音声認識手段と
を備えたことを特徴とする音声認識装置。
認識対象となる音声を母国語としない話者の音声信号に対して音響分析を行い特徴ベクトル時系列を出力する音響分析手段と、
この音響分析手段から出力された特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する単語データ切り出し手段と、
認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを格納している音響モデルメモリと、
この音響モデルメモリに格納されている音響モデルを用いて、上記単語データ切り出し手段から出力された単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する連続音素認識手段と、
この連続音素認識手段から出力される音素ラベル系列に従い、上記音響モデルメモリに格納されている音響モデルを接続して、第１の単語モデルを生成する単語モデル生成手段と、
上記単語データ切り出し手段から出力された単語音声データを用いて、上記単語モデル生成手段により生成された第１の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第２の単語モデルを出力するクラスタリング手段と、
このクラスタリング手段から出力される第２の単語モデルにより、上記単語データ切り出し手段から出力された単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第３の単語モデルを出力する再クラスタリング手段と、
この再クラスタリング手段から出力される第３の単語モデルを格納する単語モデルメモリと
を備えたことを特徴とする音声モデル作成装置。
認識対象となる音声を母国語としない話者による音声信号に対して音響分析を行い特徴ベクトル時系列を出力する第１のステップと、
上記特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する第２のステップと、
認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを用いて、上記単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する第３のステップと、
上記音素ラベル系列に従い上記音響モデルを接続して、第１の単語モデルを生成する第４のステップと、
上記単語音声データを用いて、上記第１の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第２の単語モデルを出力する第５のステップと、
上記第２の単語モデルにより、上記単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第３の単語モデルを出力する第６のステップと、
上記第３の単語モデルを格納する第７のステップと、
格納されている上記第３の単語モデルを用いて、認識対象となる音声を母国語としない話者による特徴ベクトル時系列に対して連続音声認識を行う第８のステップと
を備えたことを特徴とする音声認識方法。
認識対象となる音声を母国語としない話者による音声信号に対して音響分析を行い特徴ベクトル時系列を出力する第１のステップと、
上記特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する第２のステップと、
認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを用いて、上記単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する第３のステップと、
上記音素ラベル系列に従い上記音響モデルを接続して、第１の単語モデルを生成する第４のステップと、
上記単語音声データを用いて、上記第１の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第２の単語モデルを出力する第５のステップと、
上記第２の単語モデルにより、上記単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第３の単語モデルを出力する第６のステップと、
上記第３の単語モデルを格納する第７のステップと
を備えたことを特徴とする音声モデル作成方法。