JP3892173B2 - 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法 - Google Patents
音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法 Download PDFInfo
- Publication number
- JP3892173B2 JP3892173B2 JP15674199A JP15674199A JP3892173B2 JP 3892173 B2 JP3892173 B2 JP 3892173B2 JP 15674199 A JP15674199 A JP 15674199A JP 15674199 A JP15674199 A JP 15674199A JP 3892173 B2 JP3892173 B2 JP 3892173B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech
- model
- clustering
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
この発明は、任意の外国語について、これを母国語としない話者が発声した音声を対象として認識を行う音声認識装置及び音声認識方法と、この音声認識装置に用いる音声モデルを作成する音声モデル作成装置及び音声モデル作成方法に関するものである。
【0002】
【従来の技術】
図2は文献「日本人英語の発話様態を考慮した英語音声連続認識の検討」(鈴木忠、阿部芳春、中島邦男、日本音響学会平成10年度秋季研究発表会講演論文集I,p151−152,1998年9月)に示されている、従来の日本人英語の音声認識装置の構成を示すブロック図である。図において、1は音声信号入力端、2は音声信号入力端1より入力される音声信号101に対し音響分析を行い特徴ベクトル時系列102を出力する音響分析手段、3は音響分析手段2において求められた特徴ベクトル時系列102の出力先を切り替える切り替えスイッチである。
【0003】
また、図2において、4は切り替えスイッチ3の出力先の一つであり、音響分析手段2で求められた特徴ベクトル時系列102を入力して、音声信号101の各単語区間に対応する特徴ベクトル時系列を切り出して、単語音声データ103として出力する単語データ切り出し手段、5は外国語の音響モデル104,つまり認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデル104を格納している音響モデルメモリ、6は単語データ切り出し手段4が出力した単語音声データ103に対し、音響モデルメモリ5に格納されている外国語の音響モデル104を用いて音素タイプライタ処理(連続音素認識)を行い、音素ラベル系列105を出力する連続音素認識手段である。
【0004】
さらに、図2において、7は連続音素認識手段6が出力した音素ラベル系列105に従い、音響モデルメモリ5に格納されている外国語の音響モデル104を接続して、第1の単語モデル106を生成する単語モデル生成手段であり、8は単語データ切り出し手段4から出力された各単語の単語音声データ103を用いて、単語モデル生成手段7が生成した第1の単語モデル106にネイティブ話者の単語モデル107を加えた単語モデル群108に対して、クラスタリングを行い、このクラスタリングにおけるセントロイド(代表値)として選択したときの平均尤度を最大にする第2の単語モデル109を出力するクラスタリング手段である。
【0005】
さらに、図2において、9はクラスタリング手段8が出力した第2の単語モデル109を格納する単語モデルメモリ、10は切り替えスイッチ3の出力先の一つであり、単語モデルメモリ9に格納されている第2の単語モデル109を用いて、音響分析手段2から出力された認識対象となる音声を母国語としない話者による特徴ベクトル時系列102に対して連続音声認識を行い、認識結果110を出力する連続音声認識手段である。
【0006】
次に動作について説明する。
ここでは、外国語として英語を例に取り、音響モデル104として英語の疑似音素単位のHMM(Hidden Markov Model,隠れマルコフモデル)を用いた場合を説明する。各音響モデル104は、英語を母国語とする複数の話者が発声した音声データを用いて学習されたものである。最初、英語連続音声認識に用いる第2の単語モデル109を作成するために、切り替えスイッチ3をa側に入れておく。
【0007】
英語を母国語としない話者が発声した発声内容既知の英語連続音声による音声信号101は、音声信号入力端1より入力され、音響分析手段2において分析フレームごとに音響分析処理が施されて特徴ベクトル時系列102が出力される。音響分析手段2が出力した特徴ベクトル時系列102は、切り替えスイッチ3を経由して単語データ切り出し手段4に入力される。
【0008】
単語データ切り出し手段4では、英語連続音声の特徴ベクトル時系列102から、該英語連続音声を構成する各単語音声に対応する特徴ベクトル時系列を抽出し、単語音声データ103として出力する。単語音声データ103は、1つ以上の英語連続音声の特徴ベクトル時系列について求められ、{Tk(n)|n=1...Nk}(ただし、k=1...K)が出力される。ここで、kは単語カテゴリナンバーで、単語カテゴリ数はK個、Nkはカテゴリナンバーkの単語についての単語音声データの数である。
【0009】
音響モデルメモリ5には、英語を母国語とする複数の話者が発声した音声データにより学習した疑似音素単位のHMMが、音響モデル104として格納されており、連続音素認識手段6は、この音響モデル104を用いて、単語データ切り出し手段4が出力した単語音声データ103に対して音素タイプライタ処理(連続音素認識)を行う。すなわち、疑似音素単位のHMMが全接続可能で、かつ1回以上任意の回数接続できるモデルとの照合を行い、単語音声データ103に対し最も尤度が高くなるHMMの系列を求め、このHMMの系列に対応する疑似音素単位の音素ラベル系列105を出力する。
【0010】
単語モデル生成手段7は、音素ラベル系列105を入力して、この音素ラベル系列105に従って、音響モデルメモリ5に格納されている疑似音素単位のHMMを接続し、第1の単語モデル106として出力する。すなわち、Tk(n)で示される、ある単語音声データ103に対する音素ラベル系列105が、s−i−b−u−m−nのように6個の疑似音素単位のラベルの系列であるならば、各ラベルに対応する疑似音素単位のHMMを音響モデルメモリ5から読み出し、Left−to−rightにHMMを並べて、Pk(n)で示される第1の単語モデル106を出力する。
【0011】
これにより、英語を母国語としない話者が発声した英語音声における単語の発話様態を、英語を母国語とする話者の音声データで学習した疑似音素単位のHMMの系列で表現した第1の単語モデル106が生成されることとなる。このような処理を、全てのカテゴリkと各カテゴリのn=1...Nkについて行う。
【0012】
クラスタリング手段8は、単語データ切り出し手段4から出力された単語音声データ103を用いて、単語モデル生成手段7から出力された第1の単語モデル106に、各単語カテゴリについて英語を母国語とする話者の該単語音声の発話様態を表すネイティブ話者単語モデル107を加えた単語モデル群108に対してクラスタリングを行う。ネイティブ話者単語モデル107としては、例えば、英語辞書に記載されているような発音記号を表すような疑似音素単位の系列に沿って疑似音素単位のHMMをLeft−to−rightに接続したモデルを用いている。
【0013】
クラスタリング手段8における単語モデル群108のクラスタリングは、単語カテゴリごとに行われる。クラスタリングを行う単語のカテゴリナンバーをkとすれば、クラスタリングの対象となる単語モデルの数は、単語音声データ103の{Tk(n)|n=1...Nk}に対応して単語モデル生成手段7により生成された第1の単語モデル106の{Pk(n)|n=1...Nk}に、ネイティブ話者単語モデル107のPk,nativeを加えた(Nk+1)個である。
【0014】
このNk+1個の単語モデル群108の{Pk(1),Pk(2)...Pk(Nk),Pk,native}から、任意のM個の単語モデル{Pk (m)|m=1...M}を、クラスタリングにおけるセントロイド(各クラスタリングの代表値)として選択したときの平均尤度Laveを次の(1)式で定義する。
【0015】
【数1】
【0016】
ここで、L(Tk(n),Pk (m))は、単語音声データ103のTk(n)と任意のM個の単語モデルPk (m)とのマッチング尤度である。この(1)式の平均尤度Laveを最大にする単語モデル{Pk (m)|m=1...M}が、カテゴリkの第2の単語モデル109として単語モデルメモリ9に出力される。これにより求められた単語モデル{Pk(m)|m=1...M}は、単語音声データ103の{Tk(n)|n=1...Nk}の発話様態を代表するM個の単語モデルとなる。このような処理を全てのkについて行うことで、全てのカテゴリの単語について、それぞれM個の単語モデルが求められ、第2の単語モデル109として単語モデルメモリ9に格納される。
【0017】
第2の単語モデル109が求められ単語モデルメモリ9に格納されると、切り替えスイッチ3はb側に入れられる。音声信号入力端1より入力される認識対象となる音声を母国語としない話者が発声した発声内容未知の音声信号101は、音響分析手段2において音響分析され、得られた特徴ベクトル時系列102は、切り替えスイッチ3を介して連続音声認識手段10に入力される。連続音声認識手段10は、単語モデルメモリ9に格納されている第2の単語モデル109を用いて音声認識処理を行い、その認識結果110を出力する。
【0018】
【発明が解決しようとする課題】
従来の音声認識装置は以上のように構成されているので、英語を母国語としない話者が発声した英語連続音声における単語モデルを求める時に、その単語カテゴリに含まれる単語音声データ103だけを使って第2の単語モデル109を選ぶようになっていた。
【0019】
図3は従来の音声認識装置により、ある単語カテゴリAの単語音声データ103と第2の単語モデル109を、模式的に2次元で表現した特徴ベクトル時系列空間上にプロットしたものである。第2の単語モデル109は、特徴ベクトル時系列では表されないため、その元となった単語音声データ103の特徴ベクトル時系列102で代用しているものとする。図3において、●はカテゴリAに属する単語音声データ103,×はクラスタリング手段8において、M=4の時に求められた第2の単語モデル109を表している。破線は、特徴ベクトル時系列空間上に占めるカテゴリAの単語音声の空間である。実線は、各第2の単語モデル109との尤度がある値をとる特徴ベクトル時系列空間上の範囲を表している。
【0020】
従来の音声認識装置では、あるカテゴリに含まれる複数個の単語音声データ103に対する平均尤度を最大にする単語モデルを選択するように動作するため、図3のように、実線が囲う範囲がカテゴリAの占める空間より外にでてしまう可能性があった。すると、図4のようにカテゴリAに隣接するカテゴリBの単語音声データ(図中の◇や◆)103に対して、カテゴリBについてクラスタリング手段8で求められた第2の単語モデル(図中の+)109に対する尤度より、カテゴリAの第2の単語モデル109に対する尤度の方が高くなるような領域(図中の斜線部)が生じてしまい、この領域に含まれるような単語音声データ(図中の◆)103が含まれるようなカテゴリBの連続音声の認識に、誤りが発生しやすくなるという課題があった。
【0021】
これは、英語を母国語としない話者が発声したあるカテゴリの単語音声には、そのカテゴリとして正しく発声されていないような音声データが含まれてしまうことがあり、クラスタリングにおいて、そのような音声データも含めて平均尤度を最大にする第2の単語モデル109を求めていることが原因となっていた。
【0022】
この発明は、上記のような課題を解決するためになされたもので、隣接する他の単語カテゴリに属する単語音声データ103との尤度を利用した再クラスタリングにより単語モデルを求めることで、精度の高い音声認識を実現する音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法を得ることを目的とする。
【0023】
【課題を解決するための手段】
この発明に係る音声認識装置は、入力された音声信号に対して音響分析を行い特徴ベクトル時系列を出力する音響分析手段と、この音響分析手段から出力された、認識対象となる音声を母国語としない話者による特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する単語データ切り出し手段と、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを格納している音響モデルメモリと、この音響モデルメモリに格納されている音響モデルを用いて、上記単語データ切り出し手段から出力された単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する連続音素認識手段と、この連続音素認識手段から出力される音素ラベル系列に従い、上記音響モデルメモリに格納されている音響モデルを接続して、第1の単語モデルを生成する単語モデル生成手段と、上記単語データ切り出し手段から出力された単語音声データを用いて、上記単語モデル生成手段により生成された第1の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第2の単語モデルを出力するクラスタリング手段と、このクラスタリング手段から出力される第2の単語モデルにより、上記単語データ切り出し手段から出力された単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデルを出力する再クラスタリング手段と、この再クラスタリング手段から出力される第3の単語モデルを格納する単語モデルメモリと、この単語モデルメモリに格納されている第3の単語モデルを用いて、上記音響分析手段から出力された認識対象となる音声を母国語としない話者による特徴ベクトル時系列に対して連続音声認識を行う連続音声認識手段とを備えたものである。
【0024】
この発明に係る音声モデル作成装置は、認識対象となる音声を母国語としない話者の音声信号に対して音響分析を行い特徴ベクトル時系列を出力する音響分析手段と、この音響分析手段から出力された特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する単語データ切り出し手段と、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを格納している音響モデルメモリと、この音響モデルメモリに格納されている音響モデルを用いて、上記単語データ切り出し手段から出力された単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する連続音素認識手段と、この連続音素認識手段から出力される音素ラベル系列に従い、上記音響モデルメモリに格納されている音響モデルを接続して、第1の単語モデルを生成する単語モデル生成手段と、上記単語データ切り出し手段から出力された単語音声データを用いて、上記単語モデル生成手段により生成された第1の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第2の単語モデルを出力するクラスタリング手段と、このクラスタリング手段から出力される第2の単語モデルにより、上記単語データ切り出し手段から出力された単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデルを出力する再クラスタリング手段と、この再クラスタリング手段から出力される第3の単語モデルを格納する単語モデルメモリとを備えたものである。
【0025】
この発明に係る音声認識方法は、認識対象となる音声を母国語としない話者による音声信号に対して音響分析を行い特徴ベクトル時系列を出力する第1のステップと、上記特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する第2のステップと、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを用いて、上記単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する第3のステップと、上記音素ラベル系列に従い上記音響モデルを接続して、第1の単語モデルを生成する第4のステップと、上記単語音声データを用いて、上記第1の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第2の単語モデルを出力する第5のステップと、上記第2の単語モデルにより、上記単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデルを出力する第6のステップと、上記第3の単語モデルを格納する第7のステップと、格納されている上記第3の単語モデルを用いて、認識対象となる音声を母国語としない話者による特徴ベクトル時系列に対して連続音声認識を行う第8のステップとを備えたものである。
【0026】
この発明に係る音声モデル作成方法は、認識対象となる音声を母国語としない話者による音声信号に対して音響分析を行い特徴ベクトル時系列を出力する第1のステップと、上記特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する第2のステップと、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを用いて、上記単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する第3のステップと、上記音素ラベル系列に従い上記音響モデルを接続して、第1の単語モデルを生成する第4のステップと、上記単語音声データを用いて、上記第1の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第2の単語モデルを出力する第5のステップと、上記第2の単語モデルにより、上記単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデルを出力する第6のステップと、上記第3の単語モデルを格納する第7のステップとを備えたものである。
【0027】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による音声認識装置の構成を示すブロック図である。図において、11は再クラスタリング手段であり、クラスタリング手段8から出力される第2の単語モデル109により、単語データ切り出し手段4から出力された単語音声データ103に対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、単語モデル群108に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデル111を出力する。その他の構成要素は、従来の図2に示すものと同一である。
【0028】
次に動作について説明する。
従来例と同様に、外国語として英語を例に取り、音響モデル104として英語の疑似音素単位のHMMを用いた場合を説明する。各音響モデル104は、英語を母国語とする複数の話者が発声した音声データを用いて学習されたものである。ネイティブ話者単語モデル107も、従来例と同様に、例えば英語辞書に記載されているような発音記号に対応するような疑似音素単位の系列に従って、疑似音素単位のHMMをLeft−to−rightに接続したモデルを用いる。
【0029】
再クラスタリング手段11は、まず、単語データ切り出し手段4が出力した単語音声データ103の{Tk(n)|n=1...Nk}(ただし、k=1...K)に対し、クラスタリング手段8が出力した第2の単語モデル109の{Pk(m)|m=1...M}(ただし、k=1…K)によるクラスタリングを行い、各単語音声データ103のTk(n)に対する単語クラスデータCk(n)を求める。この処理は次の(2)式で表される。この(2)式において、L(Tk(n),Pj (i))は、単語音声データ103のTk(n)と単語モデルPj (i)とのマッチング尤度である。
【0030】
【数2】
【0031】
この式は、すなわち、単語音声データ103のTk(n)に対してもっとも尤度が高くなる単語モデルを{Pj (i)|i=1...M,j=1...K}の中から求め、その単語モデルが属する単語カテゴリナンバーjをTk(n)に対する単語クラスデータCk(n)とするものである。これにより、図4における記号◆の単語音声データ103については、カテゴリAの単語カテゴリナンバーが単語クラスデータとして与えられることとなる。
【0032】
ついで、再クラスタリング手段11は、単語モデル生成手段7が出力した第1の単語モデル106にネイティブ話者単語モデル107を加えた単語モデル群108に対してクラスタリングを行う。この処理は上記クラスタリング手段8と同様に単語カテゴリ毎に行われる。
【0033】
クラスタリング手段8と同様に、クラスタリングを行う単語のカテゴリナンバをkとすれば、クラスタリングの対象となる単語モデルは、単語音声データ103の{Tk(n)|n=1...Nk}に対応して、単語モデル生成手段7により生成された第1の単語モデル106の{Pk(n)|n=1...Nk}に、ネイティブ話者単語モデル107のPk,nativeを加えたNk+1個の単語モデル群108の{Pk(1),Pk(2)...Pk(Nk),Pk,native}である。
【0034】
クラスタリング手段8では、カテゴリナンバkに対する単語音声データ103の{Tk(n)|n=1...Nk}を用いて、上記Nk+1個の単語モデルのクラスタリングを行っていたが、再クラスタリング手段11では、カテゴリナンバk以外の隣接する単語音声データ(以後、隣接するカテゴリ外単語音声データと称する)も併用してクラスタリングを行う。隣接するカテゴリ外単語音声データは、カテゴリナンバk以外の単語音声データ103において、上記の(2)式で示される単語クラスデータCk(n)がカテゴリナンバkと一致する単語音声データ103で定義され、その集合を{To(i)|i=1...No}(ただしNoは集合の要素数)と表す。
【0035】
クラスタリングの対象であるNk+1個の単語モデル群108の{Pk(1),Pk(2)...Pk(Nk),Pk,native}から、任意のM個の単語モデル{Pk (m)|m=1...M}を、クラスタリングにおけるセントロイドとして選択したときのペナルティ付き平均尤度Lp aveを、次の(3)式で定義する。
【0036】
【数3】
【0037】
ここで、wはカテゴリ外単語音声データから計算されるペナルティに対する重みで、0より大きい正値をとる。この式の右辺第一項は、クラスタリング手段8と同じ平均尤度の式である。そして、第二項が隣接するカテゴリ外単語音声データによるペナルティとなっている。このペナルティは、隣接するカテゴリ外単語音声データを、選択された単語モデル{Pk (m)|m=1...M}でクラスタリングしたときの、隣接するカテゴリ外単語音声データに対する平均尤度に、重みwをかけたものとなっており、隣接するカテゴリ外単語音声データに対する尤度が高い単語モデルほどペナルティが大きくなる。
【0038】
再クラスタリング手段11は、全てのカテゴリkについて、このペナルティ付き平均尤度Lp aveを最大にするM個の単語モデルを求め、単語カテゴリkに対する第3の単語モデル111として、単語モデルメモリ9に出力する。再クラスタリング手段11以外の構成要素の動作は、従来例と同一である。
【0039】
以上述べたように、ペナルティ付き平均尤度を最大にするM個の単語モデル{Pk (m)|m=1...M}を、カテゴリkの第3の単語モデル111として単語モデルメモリ9に出力する再クラスタリング手段11を持つことで、単語カテゴリkに隣接する別の単語カテゴリにおいて、カテゴリナンバkと同じ単語クラスデータを付された単語音声データに対する尤度を小さくするような第3の単語モデル111が求められる。
【0040】
図4でいえば、カテゴリAの単語モデルが、斜線部中のカテゴリBの単語音声データ(図中の◆)に対する尤度を小さくするように決定されるようになる。すなわち、カテゴリAの範囲を示す破線から、外にはみ出すような実線の範囲をとる単語モデルが選択されにくくなり、従来の音声認識装置で問題になっていた誤認識を減らすことが可能になる。
【0041】
なお、この実施の形態は、対象とする外国語を英語に限定するものではなく、母国語以外の言語を対象とした音声認識装置であれば、どのような言語であってもかまわない。同様に、音響モデル104として用いるものが、英語の疑似音素単位のHMMに限定されるものでもない。また、音声モデルとして第3の単語モデル111を作成しているが、作成する音声モデルは単語モデルに限定されるものではなく、別の音声単位、例えば音節や文節等であってもかまわない。
【0042】
上記の図1は音声認識装置としての構成を示しているが、図1から切り替えスイッチ3と連続音声認識手段10を除いた構成は、音声認識装置に使用される音声モデル(単語モデルメモリ9に格納されている各単語モデルの集合)を作成する音声モデル作成装置として実現することも可能である。
【0043】
以上のように、この実施の形態1によれば、再クラスタリング手段11が、ペナルティ付き平均尤度を最大にするM個の単語モデル{Pk (m)|m=1...M}を、カテゴリkの第3の単語モデル111として単語モデルメモリ9に出力することにより、図4の斜線部の領域に含まれる単語音声データ103(図中の◆)のカテゴリBの連続音声に対して、すなわち、認識対象となる音声を母国語としない話者が発声したあるカテゴリの単語音声に正しく発声されていないような音声データが含まれている場合でも、精度の高い音声モデルの作成と精度の高い音声認識を実現することができるという効果が得られる。
【0044】
【発明の効果】
以上のように、この発明によれば、入力された音声信号に対して音響分析を行い特徴ベクトル時系列を出力する音響分析手段と、この音響分析手段から出力された、認識対象となる音声を母国語としない話者による特徴ベクトル時系列を入力して、音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する単語データ切り出し手段と、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを格納している音響モデルメモリと、この音響モデルメモリに格納されている音響モデルを用いて、単語データ切り出し手段から出力された単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する連続音素認識手段と、連続音素認識手段から出力される音素ラベル系列に従い、音響モデルメモリに格納されている音響モデルを接続して、第1の単語モデルを生成する単語モデル生成手段と、単語データ切り出し手段から出力された単語音声データを用いて、単語モデル生成手段により生成された第1の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第2の単語モデルを出力するクラスタリング手段と、クラスタリング手段から出力される第2の単語モデルにより、単語データ切り出し手段から出力された単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデルを出力する再クラスタリング手段と、再クラスタリング手段から出力される第3の単語モデルを格納する単語モデルメモリと、単語モデルメモリに格納されている第3の単語モデルを用いて、音響分析手段から出力された認識対象となる音声を母国語としない話者による特徴ベクトル時系列に対して連続音声認識を行う連続音声認識手段とを備えたことにより、認識対象となる音声を母国語としない話者が発声したあるカテゴリの単語音声に、正しく発声されていないような音声データが含まれている場合でも、精度の高い音声認識を実現することができるという効果がある。
【0045】
この発明によれば、認識対象となる音声を母国語としない話者の音声信号に対して音響分析を行い特徴ベクトル時系列を出力する音響分析手段と、この音響分析手段から出力された特徴ベクトル時系列を入力して、音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する単語データ切り出し手段と、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを格納している音響モデルメモリと、この音響モデルメモリに格納されている音響モデルを用いて、単語データ切り出し手段から出力された単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する連続音素認識手段と、この連続音素認識手段から出力される音素ラベル系列に従い、音響モデルメモリに格納されている音響モデルを接続して、第1の単語モデルを生成する単語モデル生成手段と、単語データ切り出し手段から出力された単語音声データを用いて、単語モデル生成手段により生成された第1の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第2の単語モデルを出力するクラスタリング手段と、このクラスタリング手段から出力される第2の単語モデルにより、単語データ切り出し手段から出力された単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデルを出力する再クラスタリング手段と、この再クラスタリング手段から出力される第3の単語モデルを格納する単語モデルメモリとを備えたことにより、認識対象となる音声を母国語としない話者が発声したあるカテゴリの単語音声に、正しく発声されていないような音声データが含まれている場合でも、精度の高い音声認識を行える音声モデルを作成することができるという効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声認識装置の構成を示すブロック図である。
【図2】 従来の音声認識装置の構成を示すブロック図である。
【図3】 単語カテゴリの単語音声データと単語モデルを、模式的に2次元で表現した特徴ベクトル時系列空間上にプロットした図である。
【図4】 単語カテゴリの単語音声データと単語モデルを、模式的に2次元で表現した特徴ベクトル時系列空間上にプロットした図である。
【符号の説明】
2 音響分析手段、4 単語データ切り出し手段、5 音響モデルメモリ、6連続音素認識手段、7 単語モデル生成手段、8 クラスタリング手段、9 単語モデルメモリ、10 連続音声認識手段、11 再クラスタリング手段、101 音声信号、102 特徴ベクトル時系列、103 単語音声データ、104 音響モデル、105 音素ラベル系列、106 第1の単語モデル、107ネイティブ話者単語モデル、108 単語モデル群、109 第2の単語モデル、111 第3の単語モデル。
【発明の属する技術分野】
この発明は、任意の外国語について、これを母国語としない話者が発声した音声を対象として認識を行う音声認識装置及び音声認識方法と、この音声認識装置に用いる音声モデルを作成する音声モデル作成装置及び音声モデル作成方法に関するものである。
【0002】
【従来の技術】
図2は文献「日本人英語の発話様態を考慮した英語音声連続認識の検討」(鈴木忠、阿部芳春、中島邦男、日本音響学会平成10年度秋季研究発表会講演論文集I,p151−152,1998年9月)に示されている、従来の日本人英語の音声認識装置の構成を示すブロック図である。図において、1は音声信号入力端、2は音声信号入力端1より入力される音声信号101に対し音響分析を行い特徴ベクトル時系列102を出力する音響分析手段、3は音響分析手段2において求められた特徴ベクトル時系列102の出力先を切り替える切り替えスイッチである。
【0003】
また、図2において、4は切り替えスイッチ3の出力先の一つであり、音響分析手段2で求められた特徴ベクトル時系列102を入力して、音声信号101の各単語区間に対応する特徴ベクトル時系列を切り出して、単語音声データ103として出力する単語データ切り出し手段、5は外国語の音響モデル104,つまり認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデル104を格納している音響モデルメモリ、6は単語データ切り出し手段4が出力した単語音声データ103に対し、音響モデルメモリ5に格納されている外国語の音響モデル104を用いて音素タイプライタ処理(連続音素認識)を行い、音素ラベル系列105を出力する連続音素認識手段である。
【0004】
さらに、図2において、7は連続音素認識手段6が出力した音素ラベル系列105に従い、音響モデルメモリ5に格納されている外国語の音響モデル104を接続して、第1の単語モデル106を生成する単語モデル生成手段であり、8は単語データ切り出し手段4から出力された各単語の単語音声データ103を用いて、単語モデル生成手段7が生成した第1の単語モデル106にネイティブ話者の単語モデル107を加えた単語モデル群108に対して、クラスタリングを行い、このクラスタリングにおけるセントロイド(代表値)として選択したときの平均尤度を最大にする第2の単語モデル109を出力するクラスタリング手段である。
【0005】
さらに、図2において、9はクラスタリング手段8が出力した第2の単語モデル109を格納する単語モデルメモリ、10は切り替えスイッチ3の出力先の一つであり、単語モデルメモリ9に格納されている第2の単語モデル109を用いて、音響分析手段2から出力された認識対象となる音声を母国語としない話者による特徴ベクトル時系列102に対して連続音声認識を行い、認識結果110を出力する連続音声認識手段である。
【0006】
次に動作について説明する。
ここでは、外国語として英語を例に取り、音響モデル104として英語の疑似音素単位のHMM(Hidden Markov Model,隠れマルコフモデル)を用いた場合を説明する。各音響モデル104は、英語を母国語とする複数の話者が発声した音声データを用いて学習されたものである。最初、英語連続音声認識に用いる第2の単語モデル109を作成するために、切り替えスイッチ3をa側に入れておく。
【0007】
英語を母国語としない話者が発声した発声内容既知の英語連続音声による音声信号101は、音声信号入力端1より入力され、音響分析手段2において分析フレームごとに音響分析処理が施されて特徴ベクトル時系列102が出力される。音響分析手段2が出力した特徴ベクトル時系列102は、切り替えスイッチ3を経由して単語データ切り出し手段4に入力される。
【0008】
単語データ切り出し手段4では、英語連続音声の特徴ベクトル時系列102から、該英語連続音声を構成する各単語音声に対応する特徴ベクトル時系列を抽出し、単語音声データ103として出力する。単語音声データ103は、1つ以上の英語連続音声の特徴ベクトル時系列について求められ、{Tk(n)|n=1...Nk}(ただし、k=1...K)が出力される。ここで、kは単語カテゴリナンバーで、単語カテゴリ数はK個、Nkはカテゴリナンバーkの単語についての単語音声データの数である。
【0009】
音響モデルメモリ5には、英語を母国語とする複数の話者が発声した音声データにより学習した疑似音素単位のHMMが、音響モデル104として格納されており、連続音素認識手段6は、この音響モデル104を用いて、単語データ切り出し手段4が出力した単語音声データ103に対して音素タイプライタ処理(連続音素認識)を行う。すなわち、疑似音素単位のHMMが全接続可能で、かつ1回以上任意の回数接続できるモデルとの照合を行い、単語音声データ103に対し最も尤度が高くなるHMMの系列を求め、このHMMの系列に対応する疑似音素単位の音素ラベル系列105を出力する。
【0010】
単語モデル生成手段7は、音素ラベル系列105を入力して、この音素ラベル系列105に従って、音響モデルメモリ5に格納されている疑似音素単位のHMMを接続し、第1の単語モデル106として出力する。すなわち、Tk(n)で示される、ある単語音声データ103に対する音素ラベル系列105が、s−i−b−u−m−nのように6個の疑似音素単位のラベルの系列であるならば、各ラベルに対応する疑似音素単位のHMMを音響モデルメモリ5から読み出し、Left−to−rightにHMMを並べて、Pk(n)で示される第1の単語モデル106を出力する。
【0011】
これにより、英語を母国語としない話者が発声した英語音声における単語の発話様態を、英語を母国語とする話者の音声データで学習した疑似音素単位のHMMの系列で表現した第1の単語モデル106が生成されることとなる。このような処理を、全てのカテゴリkと各カテゴリのn=1...Nkについて行う。
【0012】
クラスタリング手段8は、単語データ切り出し手段4から出力された単語音声データ103を用いて、単語モデル生成手段7から出力された第1の単語モデル106に、各単語カテゴリについて英語を母国語とする話者の該単語音声の発話様態を表すネイティブ話者単語モデル107を加えた単語モデル群108に対してクラスタリングを行う。ネイティブ話者単語モデル107としては、例えば、英語辞書に記載されているような発音記号を表すような疑似音素単位の系列に沿って疑似音素単位のHMMをLeft−to−rightに接続したモデルを用いている。
【0013】
クラスタリング手段8における単語モデル群108のクラスタリングは、単語カテゴリごとに行われる。クラスタリングを行う単語のカテゴリナンバーをkとすれば、クラスタリングの対象となる単語モデルの数は、単語音声データ103の{Tk(n)|n=1...Nk}に対応して単語モデル生成手段7により生成された第1の単語モデル106の{Pk(n)|n=1...Nk}に、ネイティブ話者単語モデル107のPk,nativeを加えた(Nk+1)個である。
【0014】
このNk+1個の単語モデル群108の{Pk(1),Pk(2)...Pk(Nk),Pk,native}から、任意のM個の単語モデル{Pk (m)|m=1...M}を、クラスタリングにおけるセントロイド(各クラスタリングの代表値)として選択したときの平均尤度Laveを次の(1)式で定義する。
【0015】
【数1】
【0016】
ここで、L(Tk(n),Pk (m))は、単語音声データ103のTk(n)と任意のM個の単語モデルPk (m)とのマッチング尤度である。この(1)式の平均尤度Laveを最大にする単語モデル{Pk (m)|m=1...M}が、カテゴリkの第2の単語モデル109として単語モデルメモリ9に出力される。これにより求められた単語モデル{Pk(m)|m=1...M}は、単語音声データ103の{Tk(n)|n=1...Nk}の発話様態を代表するM個の単語モデルとなる。このような処理を全てのkについて行うことで、全てのカテゴリの単語について、それぞれM個の単語モデルが求められ、第2の単語モデル109として単語モデルメモリ9に格納される。
【0017】
第2の単語モデル109が求められ単語モデルメモリ9に格納されると、切り替えスイッチ3はb側に入れられる。音声信号入力端1より入力される認識対象となる音声を母国語としない話者が発声した発声内容未知の音声信号101は、音響分析手段2において音響分析され、得られた特徴ベクトル時系列102は、切り替えスイッチ3を介して連続音声認識手段10に入力される。連続音声認識手段10は、単語モデルメモリ9に格納されている第2の単語モデル109を用いて音声認識処理を行い、その認識結果110を出力する。
【0018】
【発明が解決しようとする課題】
従来の音声認識装置は以上のように構成されているので、英語を母国語としない話者が発声した英語連続音声における単語モデルを求める時に、その単語カテゴリに含まれる単語音声データ103だけを使って第2の単語モデル109を選ぶようになっていた。
【0019】
図3は従来の音声認識装置により、ある単語カテゴリAの単語音声データ103と第2の単語モデル109を、模式的に2次元で表現した特徴ベクトル時系列空間上にプロットしたものである。第2の単語モデル109は、特徴ベクトル時系列では表されないため、その元となった単語音声データ103の特徴ベクトル時系列102で代用しているものとする。図3において、●はカテゴリAに属する単語音声データ103,×はクラスタリング手段8において、M=4の時に求められた第2の単語モデル109を表している。破線は、特徴ベクトル時系列空間上に占めるカテゴリAの単語音声の空間である。実線は、各第2の単語モデル109との尤度がある値をとる特徴ベクトル時系列空間上の範囲を表している。
【0020】
従来の音声認識装置では、あるカテゴリに含まれる複数個の単語音声データ103に対する平均尤度を最大にする単語モデルを選択するように動作するため、図3のように、実線が囲う範囲がカテゴリAの占める空間より外にでてしまう可能性があった。すると、図4のようにカテゴリAに隣接するカテゴリBの単語音声データ(図中の◇や◆)103に対して、カテゴリBについてクラスタリング手段8で求められた第2の単語モデル(図中の+)109に対する尤度より、カテゴリAの第2の単語モデル109に対する尤度の方が高くなるような領域(図中の斜線部)が生じてしまい、この領域に含まれるような単語音声データ(図中の◆)103が含まれるようなカテゴリBの連続音声の認識に、誤りが発生しやすくなるという課題があった。
【0021】
これは、英語を母国語としない話者が発声したあるカテゴリの単語音声には、そのカテゴリとして正しく発声されていないような音声データが含まれてしまうことがあり、クラスタリングにおいて、そのような音声データも含めて平均尤度を最大にする第2の単語モデル109を求めていることが原因となっていた。
【0022】
この発明は、上記のような課題を解決するためになされたもので、隣接する他の単語カテゴリに属する単語音声データ103との尤度を利用した再クラスタリングにより単語モデルを求めることで、精度の高い音声認識を実現する音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法を得ることを目的とする。
【0023】
【課題を解決するための手段】
この発明に係る音声認識装置は、入力された音声信号に対して音響分析を行い特徴ベクトル時系列を出力する音響分析手段と、この音響分析手段から出力された、認識対象となる音声を母国語としない話者による特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する単語データ切り出し手段と、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを格納している音響モデルメモリと、この音響モデルメモリに格納されている音響モデルを用いて、上記単語データ切り出し手段から出力された単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する連続音素認識手段と、この連続音素認識手段から出力される音素ラベル系列に従い、上記音響モデルメモリに格納されている音響モデルを接続して、第1の単語モデルを生成する単語モデル生成手段と、上記単語データ切り出し手段から出力された単語音声データを用いて、上記単語モデル生成手段により生成された第1の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第2の単語モデルを出力するクラスタリング手段と、このクラスタリング手段から出力される第2の単語モデルにより、上記単語データ切り出し手段から出力された単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデルを出力する再クラスタリング手段と、この再クラスタリング手段から出力される第3の単語モデルを格納する単語モデルメモリと、この単語モデルメモリに格納されている第3の単語モデルを用いて、上記音響分析手段から出力された認識対象となる音声を母国語としない話者による特徴ベクトル時系列に対して連続音声認識を行う連続音声認識手段とを備えたものである。
【0024】
この発明に係る音声モデル作成装置は、認識対象となる音声を母国語としない話者の音声信号に対して音響分析を行い特徴ベクトル時系列を出力する音響分析手段と、この音響分析手段から出力された特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する単語データ切り出し手段と、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを格納している音響モデルメモリと、この音響モデルメモリに格納されている音響モデルを用いて、上記単語データ切り出し手段から出力された単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する連続音素認識手段と、この連続音素認識手段から出力される音素ラベル系列に従い、上記音響モデルメモリに格納されている音響モデルを接続して、第1の単語モデルを生成する単語モデル生成手段と、上記単語データ切り出し手段から出力された単語音声データを用いて、上記単語モデル生成手段により生成された第1の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第2の単語モデルを出力するクラスタリング手段と、このクラスタリング手段から出力される第2の単語モデルにより、上記単語データ切り出し手段から出力された単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデルを出力する再クラスタリング手段と、この再クラスタリング手段から出力される第3の単語モデルを格納する単語モデルメモリとを備えたものである。
【0025】
この発明に係る音声認識方法は、認識対象となる音声を母国語としない話者による音声信号に対して音響分析を行い特徴ベクトル時系列を出力する第1のステップと、上記特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する第2のステップと、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを用いて、上記単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する第3のステップと、上記音素ラベル系列に従い上記音響モデルを接続して、第1の単語モデルを生成する第4のステップと、上記単語音声データを用いて、上記第1の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第2の単語モデルを出力する第5のステップと、上記第2の単語モデルにより、上記単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデルを出力する第6のステップと、上記第3の単語モデルを格納する第7のステップと、格納されている上記第3の単語モデルを用いて、認識対象となる音声を母国語としない話者による特徴ベクトル時系列に対して連続音声認識を行う第8のステップとを備えたものである。
【0026】
この発明に係る音声モデル作成方法は、認識対象となる音声を母国語としない話者による音声信号に対して音響分析を行い特徴ベクトル時系列を出力する第1のステップと、上記特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する第2のステップと、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを用いて、上記単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する第3のステップと、上記音素ラベル系列に従い上記音響モデルを接続して、第1の単語モデルを生成する第4のステップと、上記単語音声データを用いて、上記第1の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第2の単語モデルを出力する第5のステップと、上記第2の単語モデルにより、上記単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデルを出力する第6のステップと、上記第3の単語モデルを格納する第7のステップとを備えたものである。
【0027】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による音声認識装置の構成を示すブロック図である。図において、11は再クラスタリング手段であり、クラスタリング手段8から出力される第2の単語モデル109により、単語データ切り出し手段4から出力された単語音声データ103に対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、単語モデル群108に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデル111を出力する。その他の構成要素は、従来の図2に示すものと同一である。
【0028】
次に動作について説明する。
従来例と同様に、外国語として英語を例に取り、音響モデル104として英語の疑似音素単位のHMMを用いた場合を説明する。各音響モデル104は、英語を母国語とする複数の話者が発声した音声データを用いて学習されたものである。ネイティブ話者単語モデル107も、従来例と同様に、例えば英語辞書に記載されているような発音記号に対応するような疑似音素単位の系列に従って、疑似音素単位のHMMをLeft−to−rightに接続したモデルを用いる。
【0029】
再クラスタリング手段11は、まず、単語データ切り出し手段4が出力した単語音声データ103の{Tk(n)|n=1...Nk}(ただし、k=1...K)に対し、クラスタリング手段8が出力した第2の単語モデル109の{Pk(m)|m=1...M}(ただし、k=1…K)によるクラスタリングを行い、各単語音声データ103のTk(n)に対する単語クラスデータCk(n)を求める。この処理は次の(2)式で表される。この(2)式において、L(Tk(n),Pj (i))は、単語音声データ103のTk(n)と単語モデルPj (i)とのマッチング尤度である。
【0030】
【数2】
【0031】
この式は、すなわち、単語音声データ103のTk(n)に対してもっとも尤度が高くなる単語モデルを{Pj (i)|i=1...M,j=1...K}の中から求め、その単語モデルが属する単語カテゴリナンバーjをTk(n)に対する単語クラスデータCk(n)とするものである。これにより、図4における記号◆の単語音声データ103については、カテゴリAの単語カテゴリナンバーが単語クラスデータとして与えられることとなる。
【0032】
ついで、再クラスタリング手段11は、単語モデル生成手段7が出力した第1の単語モデル106にネイティブ話者単語モデル107を加えた単語モデル群108に対してクラスタリングを行う。この処理は上記クラスタリング手段8と同様に単語カテゴリ毎に行われる。
【0033】
クラスタリング手段8と同様に、クラスタリングを行う単語のカテゴリナンバをkとすれば、クラスタリングの対象となる単語モデルは、単語音声データ103の{Tk(n)|n=1...Nk}に対応して、単語モデル生成手段7により生成された第1の単語モデル106の{Pk(n)|n=1...Nk}に、ネイティブ話者単語モデル107のPk,nativeを加えたNk+1個の単語モデル群108の{Pk(1),Pk(2)...Pk(Nk),Pk,native}である。
【0034】
クラスタリング手段8では、カテゴリナンバkに対する単語音声データ103の{Tk(n)|n=1...Nk}を用いて、上記Nk+1個の単語モデルのクラスタリングを行っていたが、再クラスタリング手段11では、カテゴリナンバk以外の隣接する単語音声データ(以後、隣接するカテゴリ外単語音声データと称する)も併用してクラスタリングを行う。隣接するカテゴリ外単語音声データは、カテゴリナンバk以外の単語音声データ103において、上記の(2)式で示される単語クラスデータCk(n)がカテゴリナンバkと一致する単語音声データ103で定義され、その集合を{To(i)|i=1...No}(ただしNoは集合の要素数)と表す。
【0035】
クラスタリングの対象であるNk+1個の単語モデル群108の{Pk(1),Pk(2)...Pk(Nk),Pk,native}から、任意のM個の単語モデル{Pk (m)|m=1...M}を、クラスタリングにおけるセントロイドとして選択したときのペナルティ付き平均尤度Lp aveを、次の(3)式で定義する。
【0036】
【数3】
【0037】
ここで、wはカテゴリ外単語音声データから計算されるペナルティに対する重みで、0より大きい正値をとる。この式の右辺第一項は、クラスタリング手段8と同じ平均尤度の式である。そして、第二項が隣接するカテゴリ外単語音声データによるペナルティとなっている。このペナルティは、隣接するカテゴリ外単語音声データを、選択された単語モデル{Pk (m)|m=1...M}でクラスタリングしたときの、隣接するカテゴリ外単語音声データに対する平均尤度に、重みwをかけたものとなっており、隣接するカテゴリ外単語音声データに対する尤度が高い単語モデルほどペナルティが大きくなる。
【0038】
再クラスタリング手段11は、全てのカテゴリkについて、このペナルティ付き平均尤度Lp aveを最大にするM個の単語モデルを求め、単語カテゴリkに対する第3の単語モデル111として、単語モデルメモリ9に出力する。再クラスタリング手段11以外の構成要素の動作は、従来例と同一である。
【0039】
以上述べたように、ペナルティ付き平均尤度を最大にするM個の単語モデル{Pk (m)|m=1...M}を、カテゴリkの第3の単語モデル111として単語モデルメモリ9に出力する再クラスタリング手段11を持つことで、単語カテゴリkに隣接する別の単語カテゴリにおいて、カテゴリナンバkと同じ単語クラスデータを付された単語音声データに対する尤度を小さくするような第3の単語モデル111が求められる。
【0040】
図4でいえば、カテゴリAの単語モデルが、斜線部中のカテゴリBの単語音声データ(図中の◆)に対する尤度を小さくするように決定されるようになる。すなわち、カテゴリAの範囲を示す破線から、外にはみ出すような実線の範囲をとる単語モデルが選択されにくくなり、従来の音声認識装置で問題になっていた誤認識を減らすことが可能になる。
【0041】
なお、この実施の形態は、対象とする外国語を英語に限定するものではなく、母国語以外の言語を対象とした音声認識装置であれば、どのような言語であってもかまわない。同様に、音響モデル104として用いるものが、英語の疑似音素単位のHMMに限定されるものでもない。また、音声モデルとして第3の単語モデル111を作成しているが、作成する音声モデルは単語モデルに限定されるものではなく、別の音声単位、例えば音節や文節等であってもかまわない。
【0042】
上記の図1は音声認識装置としての構成を示しているが、図1から切り替えスイッチ3と連続音声認識手段10を除いた構成は、音声認識装置に使用される音声モデル(単語モデルメモリ9に格納されている各単語モデルの集合)を作成する音声モデル作成装置として実現することも可能である。
【0043】
以上のように、この実施の形態1によれば、再クラスタリング手段11が、ペナルティ付き平均尤度を最大にするM個の単語モデル{Pk (m)|m=1...M}を、カテゴリkの第3の単語モデル111として単語モデルメモリ9に出力することにより、図4の斜線部の領域に含まれる単語音声データ103(図中の◆)のカテゴリBの連続音声に対して、すなわち、認識対象となる音声を母国語としない話者が発声したあるカテゴリの単語音声に正しく発声されていないような音声データが含まれている場合でも、精度の高い音声モデルの作成と精度の高い音声認識を実現することができるという効果が得られる。
【0044】
【発明の効果】
以上のように、この発明によれば、入力された音声信号に対して音響分析を行い特徴ベクトル時系列を出力する音響分析手段と、この音響分析手段から出力された、認識対象となる音声を母国語としない話者による特徴ベクトル時系列を入力して、音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する単語データ切り出し手段と、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを格納している音響モデルメモリと、この音響モデルメモリに格納されている音響モデルを用いて、単語データ切り出し手段から出力された単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する連続音素認識手段と、連続音素認識手段から出力される音素ラベル系列に従い、音響モデルメモリに格納されている音響モデルを接続して、第1の単語モデルを生成する単語モデル生成手段と、単語データ切り出し手段から出力された単語音声データを用いて、単語モデル生成手段により生成された第1の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第2の単語モデルを出力するクラスタリング手段と、クラスタリング手段から出力される第2の単語モデルにより、単語データ切り出し手段から出力された単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデルを出力する再クラスタリング手段と、再クラスタリング手段から出力される第3の単語モデルを格納する単語モデルメモリと、単語モデルメモリに格納されている第3の単語モデルを用いて、音響分析手段から出力された認識対象となる音声を母国語としない話者による特徴ベクトル時系列に対して連続音声認識を行う連続音声認識手段とを備えたことにより、認識対象となる音声を母国語としない話者が発声したあるカテゴリの単語音声に、正しく発声されていないような音声データが含まれている場合でも、精度の高い音声認識を実現することができるという効果がある。
【0045】
この発明によれば、認識対象となる音声を母国語としない話者の音声信号に対して音響分析を行い特徴ベクトル時系列を出力する音響分析手段と、この音響分析手段から出力された特徴ベクトル時系列を入力して、音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する単語データ切り出し手段と、認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを格納している音響モデルメモリと、この音響モデルメモリに格納されている音響モデルを用いて、単語データ切り出し手段から出力された単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する連続音素認識手段と、この連続音素認識手段から出力される音素ラベル系列に従い、音響モデルメモリに格納されている音響モデルを接続して、第1の単語モデルを生成する単語モデル生成手段と、単語データ切り出し手段から出力された単語音声データを用いて、単語モデル生成手段により生成された第1の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第2の単語モデルを出力するクラスタリング手段と、このクラスタリング手段から出力される第2の単語モデルにより、単語データ切り出し手段から出力された単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデルを出力する再クラスタリング手段と、この再クラスタリング手段から出力される第3の単語モデルを格納する単語モデルメモリとを備えたことにより、認識対象となる音声を母国語としない話者が発声したあるカテゴリの単語音声に、正しく発声されていないような音声データが含まれている場合でも、精度の高い音声認識を行える音声モデルを作成することができるという効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声認識装置の構成を示すブロック図である。
【図2】 従来の音声認識装置の構成を示すブロック図である。
【図3】 単語カテゴリの単語音声データと単語モデルを、模式的に2次元で表現した特徴ベクトル時系列空間上にプロットした図である。
【図4】 単語カテゴリの単語音声データと単語モデルを、模式的に2次元で表現した特徴ベクトル時系列空間上にプロットした図である。
【符号の説明】
2 音響分析手段、4 単語データ切り出し手段、5 音響モデルメモリ、6連続音素認識手段、7 単語モデル生成手段、8 クラスタリング手段、9 単語モデルメモリ、10 連続音声認識手段、11 再クラスタリング手段、101 音声信号、102 特徴ベクトル時系列、103 単語音声データ、104 音響モデル、105 音素ラベル系列、106 第1の単語モデル、107ネイティブ話者単語モデル、108 単語モデル群、109 第2の単語モデル、111 第3の単語モデル。
Claims (4)
- 入力された音声信号に対して音響分析を行い特徴ベクトル時系列を出力する音響分析手段と、
この音響分析手段から出力された、認識対象となる音声を母国語としない話者による特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する単語データ切り出し手段と、
認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを格納している音響モデルメモリと、
この音響モデルメモリに格納されている音響モデルを用いて、上記単語データ切り出し手段から出力された単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する連続音素認識手段と、
この連続音素認識手段から出力される音素ラベル系列に従い、上記音響モデルメモリに格納されている音響モデルを接続して、第1の単語モデルを生成する単語モデル生成手段と、
上記単語データ切り出し手段から出力された単語音声データを用いて、上記単語モデル生成手段により生成された第1の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第2の単語モデルを出力するクラスタリング手段と、
このクラスタリング手段から出力される第2の単語モデルにより、上記単語データ切り出し手段から出力された単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデルを出力する再クラスタリング手段と、
この再クラスタリング手段から出力される第3の単語モデルを格納する単語モデルメモリと、
この単語モデルメモリに格納されている第3の単語モデルを用いて、上記音響分析手段から出力された認識対象となる音声を母国語としない話者による特徴ベクトル時系列に対して連続音声認識を行う連続音声認識手段と
を備えたことを特徴とする音声認識装置。 - 認識対象となる音声を母国語としない話者の音声信号に対して音響分析を行い特徴ベクトル時系列を出力する音響分析手段と、
この音響分析手段から出力された特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する単語データ切り出し手段と、
認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを格納している音響モデルメモリと、
この音響モデルメモリに格納されている音響モデルを用いて、上記単語データ切り出し手段から出力された単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する連続音素認識手段と、
この連続音素認識手段から出力される音素ラベル系列に従い、上記音響モデルメモリに格納されている音響モデルを接続して、第1の単語モデルを生成する単語モデル生成手段と、
上記単語データ切り出し手段から出力された単語音声データを用いて、上記単語モデル生成手段により生成された第1の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第2の単語モデルを出力するクラスタリング手段と、
このクラスタリング手段から出力される第2の単語モデルにより、上記単語データ切り出し手段から出力された単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデルを出力する再クラスタリング手段と、
この再クラスタリング手段から出力される第3の単語モデルを格納する単語モデルメモリと
を備えたことを特徴とする音声モデル作成装置。 - 認識対象となる音声を母国語としない話者による音声信号に対して音響分析を行い特徴ベクトル時系列を出力する第1のステップと、
上記特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する第2のステップと、
認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを用いて、上記単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する第3のステップと、
上記音素ラベル系列に従い上記音響モデルを接続して、第1の単語モデルを生成する第4のステップと、
上記単語音声データを用いて、上記第1の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第2の単語モデルを出力する第5のステップと、
上記第2の単語モデルにより、上記単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデルを出力する第6のステップと、
上記第3の単語モデルを格納する第7のステップと、
格納されている上記第3の単語モデルを用いて、認識対象となる音声を母国語としない話者による特徴ベクトル時系列に対して連続音声認識を行う第8のステップと
を備えたことを特徴とする音声認識方法。 - 認識対象となる音声を母国語としない話者による音声信号に対して音響分析を行い特徴ベクトル時系列を出力する第1のステップと、
上記特徴ベクトル時系列を入力して、上記音声信号の各単語区間に対応する特徴ベクトルを切り出して、単語音声データとして出力する第2のステップと、
認識対象となる音声を母国語とする複数の話者が発声した音声データにより学習した音響モデルを用いて、上記単語音声データに対して、連続音素認識を行い音素ラベル系列を出力する第3のステップと、
上記音素ラベル系列に従い上記音響モデルを接続して、第1の単語モデルを生成する第4のステップと、
上記単語音声データを用いて、上記第1の単語モデルに、認識対象となる音声を母国語とする話者の発話様態を表すネイティブ話者単語モデルを加えた単語モデル群に対してクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第2の単語モデルを出力する第5のステップと、
上記第2の単語モデルにより、上記単語音声データに対してクラスタリングを行うことで隣接する単語音声データを見つけ、この隣接する単語音声データに対する尤度をペナルティとして考慮して、上記単語モデル群に対するクラスタリングを行い、このクラスタリングにおけるセントロイドとして選択したときの平均尤度を最大にする第3の単語モデルを出力する第6のステップと、
上記第3の単語モデルを格納する第7のステップと
を備えたことを特徴とする音声モデル作成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15674199A JP3892173B2 (ja) | 1999-06-03 | 1999-06-03 | 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15674199A JP3892173B2 (ja) | 1999-06-03 | 1999-06-03 | 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000347685A JP2000347685A (ja) | 2000-12-15 |
JP3892173B2 true JP3892173B2 (ja) | 2007-03-14 |
Family
ID=15634313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15674199A Expired - Fee Related JP3892173B2 (ja) | 1999-06-03 | 1999-06-03 | 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3892173B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5091202B2 (ja) * | 2009-08-03 | 2012-12-05 | 黎 自奮 | サンプルを用いずあらゆる言語を識別可能な識別方法 |
US11928430B2 (en) * | 2019-09-12 | 2024-03-12 | Oracle International Corporation | Detecting unrelated utterances in a chatbot system |
CN112908317B (zh) * | 2019-12-04 | 2023-04-07 | 中国科学院深圳先进技术研究院 | 一种针对认知障碍的语音识别系统 |
-
1999
- 1999-06-03 JP JP15674199A patent/JP3892173B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000347685A (ja) | 2000-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
US6542866B1 (en) | Speech recognition method and apparatus utilizing multiple feature streams | |
Eide | Distinctive features for use in an automatic speech recognition system | |
Aggarwal et al. | Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I) | |
JPH06110493A (ja) | 音声モデルの構成方法及び音声認識装置 | |
US7653541B2 (en) | Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech | |
US6502072B2 (en) | Two-tier noise rejection in speech recognition | |
CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
US20080065371A1 (en) | Conversation System and Conversation Software | |
JP2007240589A (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
JP3660512B2 (ja) | 音声認識方法、その装置及びプログラム記録媒体 | |
Manjunath et al. | Development of phonetic engine for Indian languages: Bengali and Oriya | |
US20030023436A1 (en) | Speech recognition using discriminant features | |
JP3892173B2 (ja) | 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法 | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
JP2002372988A (ja) | 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法 | |
Lei et al. | DBN-based multi-stream models for Mandarin toneme recognition | |
JP3456444B2 (ja) | 音声判定装置及び方法並びに記録媒体 | |
JP4236502B2 (ja) | 音声認識装置 | |
JP2000099084A (ja) | 音声認識方法及びその装置 | |
JPH10254350A (ja) | 音声認識装置 | |
JP2001100780A (ja) | 音声モデル作成装置,音声認識装置,音声モデル作成方法及び音声認識方法 | |
JPH11288297A (ja) | 音声認識装置 | |
JPH08123468A (ja) | 不特定話者モデル作成装置及び音声認識装置 | |
Liu et al. | An lvcsr based reading miscue detection system using knowledge of reference and error patterns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040922 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061025 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061206 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |