JPH11288294A

JPH11288294A - 音声認識装置

Info

Publication number: JPH11288294A
Application number: JP10091116A
Authority: JP
Inventors: Koji Akatsuka; 浩二赤塚
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 1998-04-03
Filing date: 1998-04-03
Publication date: 1999-10-19
Anticipated expiration: 2018-04-03
Also published as: JP3767876B2

Abstract

(57)【要約】【課題】簡単な構成で、不特定話者の発話の多様性に
対しても高性能を維持することができて、誤認識を低減
させた音声認識装置を得る。【解決手段】音声信号を周波数分析して得た周波数ス
ペクトルを、時間軸に沿って順次求めて時系列データ群
に変換する周波数分析器２と、複数の学習話者から発話
された音声に基づく音声信号が入力された周波数分析手
段からの出力時系列データを予め定めた時間窓で切り出
す部分周波数−時間パターン作成器３と、このパターン
作成器３によって切り出された時系列データ群を用いて
主成分分析を行う主成分分析器４と、主成分分析により
得た低次の主成分を基底として入力時系列データを低次
の時系列データに圧縮する特徴抽出フィルタ５とを備え
て音声認識装置が構成される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、不特定話者から離
散的に発話された音声を自動的に認識する音声認識装置
に関する。

【０００２】

【従来の技術】複数の不特定話者からの音声を誤認識せ
ずに認識する従来の音声認識装置の多くは、種々の周波
数分析手法を用いて音声信号に対してある程度の周波数
解像度を有する周波数分析を行って周波数−時間の符号
系列に変換し、出現が予想される音素の隠れマルコフモ
デルを用意し、さらにこのように容易した隠れマルコフ
モデルを多くの話者からの発話音声によって学習させて
予め用意しておく。

【０００３】この学習済みの隠れマルコフモデルを用い
て、不特定話者から発話された音声に基づく周波数−時
間の符号系列の部分区間を、すべての音素モデルと照合
することによって音素系列の候補の時系列に変換し、こ
の音素の時系列が最も良く表される単語を認識結果とし
て出力するようになされている。

【０００４】

【発明が解決しようとする課題】しかしながら、従来の
音声認識装置では、不特定話者の発話の多様性に対応し
て高性能な音声認識特性を維持するための隠れマルコフ
モデルの学習に多くの学習データを必要とし、隠れマル
コフモデルで音素を精密に特定するためにある程度の周
波数分析の解像度、すなわち、ある程度の大きさのベク
トル次数を必要とするという問題があった。

【０００５】この結果、隠れマルコフモデルの学習時と
音素特定時の演算負荷が重く、さらに単語の認識過程に
置いて少なくとも音素照合と単語照合の二段階の照合演
算処理を必要とするという問題点があった。

【０００６】本発明は、簡単な構成で、不特定話者の発
話の多様性に対しても高性能を維持することができて、
誤認識を低減させた音声認識装置を提供することを目的
とする。

【０００７】

【課題を解決するための手段】このようなことから本発
明に係る音声認識装置は、音声信号を周波数分析して得
た周波数スペクトルを、時間軸に沿って順次求めて時系
列データ群に変換する周波数分析手段（例えば、図１に
おける周波数分析器２）と、複数の学習話者から発話さ
れた音声に基づく音声信号が入力された前記周波数分析
手段からの出力時系列データを予め定めた時間窓で切り
出す切り出し手段（例えば、図１における部分周波数−
時間パターン作成器３）と、この切り出し手段によって
切り出された時系列データ群を用いて主成分分析を行う
主成分分析手段（例えば、図１における主成分分析器
４）と、主成分分析により得た低次の主成分を基底とし
て入力時系列データを低次の時系列データに圧縮する特
徴抽出フィルタ手段（例えば、図１における特徴抽出フ
ィルタ５）とを備えて構成される。

【０００８】さらに、この音声認識装置では、特徴抽出
フィルタ手段に用いる基底は、各主成分の時間窓の中央
付近の周波数軸方向の成分で構成されるとともに、この
基底の時間軸方向の窓サイズはこれら各主成分の時間軸
方向の幅よりも小さく、複数の学習話者から発話された
音声に基づく低次の時系列データと不特定話者から発話
された音声に基づく低次の時系列データとを照合し、こ
の照合結果に基づいて音声認識を行う。ここで、主成分
のうち低次主成分は音声の識別的特徴に多く含まれる成
分の固有空間を定義しており、時系列データに基づく周
波数−時間パターンの中に最も多く含まれる部分の特徴
を表しているので、音声信号に含まれる学習話者の個人
性に基づく成分や認識に悪影響を及ぼすと考えられるノ
イズ成分は低次成分に含まれず、音声認識が正確とな
る。

【０００９】また、特徴抽出フィルタ手段に用いる基底
の時間軸方向の窓サイズは各主成分の時間軸方向の幅よ
りも小さく設定されるため、音声信号の音素を区切るラ
ベル位置の精度が多少悪くてもこれを吸収できる。さら
に、各音素の特徴は時間軸方向における各音素の中央部
に存在する可能性が高いため、時間窓の中央が各音素の
中央に一致するように設定すれば、情報の欠落を最小限
に抑えることができ、より正確な音声認識が可能とな
る。

【００１０】なお、周波数分析手段によって求められる
出力時系列データの周波数軸を、メルスケール等の対数
スケールで表示するのが好ましい。一般的に、音声にお
ける高い周波数領域では話者の違いによる特徴の変動が
大きく、低い周波数領域ではこの変動が小さい。周波数
軸を対数スケールとすれば、高い周波数領域における話
者の違いよる特徴変動を抑えるとともに低い周波数領域
での特徴を大きくすることにより、話者の違いによる特
徴変動に対して、音声認識装置が鈍感となり、話者の相
違に対して認識率を向上させることができる。

【００１１】

【発明の実施の形態】以下、本発明に係る音声認識装置
の好ましい実施形態について図面を参照して以下に説明
する。図１に本発明の一実施形態に係る音声認識装置の
構成を模式ブロック図を用いて示している。この図にお
いて、作用の理解を容易にするために、同一の構成要素
であっても異なる音声信号ラインに使用する構成要素は
重複して示している。図１において二重枠の構成要素が
これに当たり、同一符号は同一の構成手段であることを
示している。

【００１２】この音声認識装置１は、複数の学習話者か
ら発せられる発話音声に基づき学習話者の音素に対する
特徴を抽出し、抽出した特徴を基底とする特徴抽出フィ
ルタを作成する特徴抽出フィルタ作成部Ａと、複数の学
習話者の発話、例えば単語の音声信号に基づく情報を特
徴抽出フィルタに供給し、特徴抽出フィルタによって前
記情報を圧縮して照合用低次圧縮時系列データ群を生成
する照合時系列データ作成部Ｂと、入力された不特定話
者からの音声信号を特徴抽出フィルタに供給して、特徴
抽出フィルタによって圧縮した時系列データを生成し、
この時系列データを照合用低次圧縮時系列データと照合
して音声認識結果を出力する不特定話者音声認識部Ｃと
を備えている。

【００１３】特徴抽出フィルタ作成部Ａは、複数の学習
話者から発話された音声（以下、学習音声群とも称す）
の周波数スペクトルの時間的変化を示すため、複数の学
習話者から発話された音声に基づく音声信号を周波数分
析して得た周波数スペクトルを、時間軸に沿って順次求
めた時系列データ群（周波数−時間の時系列データ群）
に変換する周波数分析器２と、周波数分析器２によって
変換された前記複数の学習話者からの音声に基づく周波
数−時間の時系列データ群から小さな時間窓の範囲にお
ける部分周波数−時間の時系列データを切り出す部分周
波数−時間パターン作成器３と、部分周波数−時間パタ
ーン生成器３によって切り出された複数の部分周波数−
時間の時系列データを用いて主成分分析を行う主成分分
析器４と、主成分分析器４による主成分分析結果の低次
主成分を基底にする特徴抽出フィルタ５とを備えて、複
数の学習話者から学習話者の音素に対する特徴を抽出す
る。

【００１４】照合時系列データ作成部Ｂは照合用低次圧
縮時系列データ記憶器６を備え、複数の学習話者から発
話された単語音声の周波数スペクトルの時間的変化を示
すため、複数の学習話者から発話された前記単語音声の
音声信号を周波数分析器２によって周波数分析して得た
周波数スペクトルを、時間軸に沿って順次求めた周波数
−時間の時系列データ群に変換し、変換された周波数−
時間の時系列データ群を特徴抽出フィルタ５に送出し、
特徴抽出フィルタ５にて周波数−時間の時系列データを
次元圧縮して照合用低次圧縮時系列データ群を得て、照
合用低次圧縮時系列データ記憶器６に記憶させる。

【００１５】不特定話者音声認識部Ｃは時系列データ照
合器７を備え、不特定話者から発話された音声の周波数
スペクトルの時間的変化を示すため、不特定話者から発
話された音声に基づく音声信号を周波数分析器２によっ
て周波数分析して得た周波数スペクトルを、時間軸に沿
って順次求めた周波数−時間の時系列データ群に変換
し、変換された周波数−時間の時系列データ群を特徴抽
出フィルタ５に送出し、特徴抽出フィルタ５にて周波数
−時間の時系列データを次元圧縮して時系列データ群を
得て、時系列データ群と照合用低次圧縮時系列データ記
憶器６から読み出した照合用低次圧縮時系列データとを
時系列データ照合器７にて照合し、照合用低次圧縮時系
列データ群中から、時系列データ群に最も近いものを求
め、照合結果に基づいて不特定話者からの発声音声に基
づく言葉を認識する。

【００１６】次に、周波数分析器２、部分周波数−時間
パターン作成器３、主成分分析器４、特徴抽出フィルタ
５のそれぞれについて具体的に説明する。

【００１７】周波数分析器２では、入力信号がＡ／Ｄ変
換され、Ａ／Ｄ変換された音声信号に対して、高域強調
処理がなされ、高域強調処理されたＡ／Ｄ変換音声信号
に対して時間窓としてハニング窓をかけて、短時間の音
声信号を切り出し、切り出した短時間音声信号をフーリ
エ変換を行うことで、周波数展開を行い、線形の周波数
軸を対数尺度に近いメルスケールに変換する。この処理
を時間軸に沿って繰り返すことで、音声スペクトルの時
間的変化を示すための周波数−時間の時系列データに変
換される。したがって、周波数分析器２では、入力音声
のサウンドスペクトルパターンに実質的に展開される。
以下、この周波数−時間の時系列データの周波数軸方向
の点数をＮで表すことにする。

【００１８】この周波数分析手法に応じて特徴抽出フィ
ルタ５を作成すれば、音声情報の欠落が少ない。また、
周波数分析に応じて特徴抽出フィルタ５を作成したとき
に音声情報に欠落がないような他の周波数分析手法によ
っても良い。従って、周波数分析器２による方法によれ
ば、さらにベクトル次数の少ない周波数−時間パターン
やケプストラム等にも適用することができる。この結
果、周波数−時間の時系列データ群によって実質的に音
声信号の周波数−時間パターンが示される。

【００１９】部分周波数−時間パターン作成器３では、
周波数分析器２から出力される周波数−時間の時系列デ
ータ群中から、所定の小さな時間窓の範囲における周波
数−時間の時系列データが切り出される。このため、部
分周波数−時間パターン作成器３から出力される周波数
−時間の時系列データに基づく音声の周波数−時間パタ
ーンは、周波数分析器２から出力される周波数−時間の
時系列データに基づく音声の周波数−時間パターンの一
部分であって、部分周波数−時間パターンであるといえ
る。

【００２０】特徴抽出フィルタ５は、周波数−時間の時
系列データからの情報の欠落を最小限に抑え、情報圧縮
した時系列データを作成する。本例では情報の圧縮に主
成分分析を用いている。

【００２１】さらに詳細に、例えば、９名の異なる学習
話者の共通した１００語の発話データを学習音声信号群
として用いた場合の例を説明する。

【００２２】この場合、会話データには、単語音声信号
区間中の発話音素と、発話音素の音声信号の時間軸上に
おける開始点と終了点とに対応が付けられたラベルデー
タとが予め設定されている。例えば、図３（Ａ）に示す
ように、音素Ｅに対する開始点の時間ラベルａ、音素Ｅ
に対する終了点の時間ラベルであり且つ音素Ｆに対する
開始点の時間ラベルである時間ラベルｂ、音素Ｆに対す
る終了点の時間ラベルｃを持っている。なお、図３
（Ａ）における横軸は時間で、縦軸が周波数であり、各
周波数の強度スペクトルが紙面に垂直な値で表され、い
わゆる三次元グラフとなるデータを構成している。

【００２３】部分周波数−時間パターン作成器３は、周
波数分析器２から出力される周波数−時間の時系列デー
タをラベルデータとともに、時間軸上の音素の中心位
置、図３（Ａ）に示す例では（ａ＋ｂ）／２、（ｂ＋
ｃ）／２を求め、この中心位置を中心に時間窓部分の周
波数−時間の時系列データを切り出す。

【００２４】すなわち、学習音声信号群に対して、部分
周波数−時間パターン作成器３によって、例えば、３０
ｍｓの時間窓Ｄで切り出しを行い、部分周波数−時間の
時系列データ群を作成する。部分周波数−時間パターン
作成器３によって作成された部分周波数−時間の時系列
データの時間窓Ｄによる切り出しは、図３（Ｂ）に示す
ように、音素Ｅに対しては時間ラベルａと時間ラベルｂ
との間の中央に時間窓Ｄが来るように、［｛（ａ＋ｂ）
／２｝−（Ｄ／２）］の位置から［｛（ａ＋ｂ）／２＋
（Ｄ／２）］の位置までが切り出され、音素Ｅに対して
は時間ラベルｂと時間ラベルｃとの中央に時間窓Ｄが来
るように、［｛（ｂ＋ｃ）／２｝−（Ｄ／２）］の位置
から［｛（ｂ＋ｃ）／２＋（Ｄ／２）］の位置までが切
り出される。

【００２５】この切り出し処理を同じ音素のラベル区間
について行うことによって、同じ音素の周波数−時間の
時系列データを複数集めることができる。同じ音素を複
数集めた周波数−時間の時系列データの平均値を求め、
これを部分周波数−時間の時系列データとする。この部
分周波数−時間の時系列データを音素毎に作成すること
によって部分周波数−時間の時系列データ群が作成され
る。この部分周波数−時間の時系列データ群の作成処理
により、このように各音素の時間長さより短い時間窓に
よる切り出しを行えば、各音素のラベル区間のラベル時
刻の精度の悪さを吸収できる。また、音素のラベル区間
における音素毎の特徴は、ラベル区間のほぼ中央に存在
する可能性が高いため、開始および終了ラベルの中央に
時間窓の中心が位置するようにして切り出しを行うこと
により情報の欠落を最小限に抑えることができる。

【００２６】この時間窓による切り出し処理を、時間軸
方向の特徴変化の少ない音素毎、すなわち、比較的定常
的な音素毎に行っても良い。

【００２７】この部分周波数−時間の時系列データ群か
ら、主成分分析器４によって主成分が求められるが、こ
れについて図４に基づいて説明する。図４においては、
部分周波数−時間の時系列データをパターンと略記して
ある。

【００２８】切り出された音素Ａの部分周波数−時間の
時系列データ群、音素Ｂの部分周波数−時間の時系列デ
ータ群、・・・、音素Ｚの部分周波数−時間の時系列デ
ータ群は図４（Ａ）に模式的に示すように発話データに
含まれる各音素のパターンからなり、それぞれ複数のパ
ターンを有している。そして、各音素Ａ〜Ｚについての
部分周波数−時間の時系列データ群の平均値が求められ
る。その結果、音素Ａの部分周波数−時間の時系列デー
タ群の平均値、音素Ｂの部分周波数−時間の時系列デー
タ群の平均値、・・・、音素Ｚの部分周波数−時間の時
系列データ群の平均値が、図４（Ｂ）に模式的に示す如
く得られる。

【００２９】各音素Ａ〜Ｚの部分周波数−時間の時系列
データの平均値は主成分分析器４によって、図４（Ｃ）
に模式的に示すように、主成分分析が行われる。主成分
分析の結果、図４（Ｄ）に模式的に示すように、第１主
成分、第２主成分、・・・、第Ｋ主成分が求められる。
主成分を求める場合のサンプルデータ数は、そのサンプ
ルデータを定義するベクトル次数より多く必要である。
したがって、音素Ａから音素Ｚの個数が、部分周波数−
時間の時系列データの次元数よりも少ない場合、各音素
毎に求めた平均値に近い部分周波数−時間の時系列デー
タを数個ずつ求め、これを図４（Ｂ）に示す各音素のパ
ターンの平均値の代わりに用いても良い。

【００３０】すなわち、主成分分析ではサンプルデータ
空間のベクトル次元数と同数の次元数の主成分が求めら
れ、サンプルデータの分散が最も多い軸を決める主成分
を第１主成分、分散が２番目に大きい軸を決める主成分
を第２主成分、以下同様に第Ｋ主成分が決まる。

【００３１】主成分分析器４では分散の大きい第１主成
分から順次分散が減少する第５番目の主成分を低次主成
分として用いている。すなわち、情報の損失量の最小か
ら最大の方向へ五つの主成分を低次主成分として用い
る。従って、主成分のうちの低次主成分は部分周波数−
時間の時系列データ群の特徴に多く含まれる成分の固有
空間を定義しており、音声信号の周波数−時間の時系列
データに基づく周波数−時間パターンの中に最も含まれ
る部分の特徴を表している。すなわち、音声信号に含ま
れる学習話者の個人性に基づく成分や認識に悪影響を及
ぼすと考えられるノイズ成分は、低次主成分には含まれ
ていないと考えられる。

【００３２】特徴抽出フィルタ５では、この低次主成分
を基底として用いて、例えば五つの第１〜第５低次主成
分ベクトルδ１ｉ〜δ５ｉを特徴抽出フィルタ５の基底
として用い、周波数分析器２から出力される周波数−時
間の時系列データの各時刻における周波数−時間の時系
列データと、第１〜第５低次主成分ベクトルδ１ｉ〜δ
５ｉとの間で相関値を求める。この各低次主成分毎の相
関値出力をチャンネルとも称する。この相関値を各チャ
ンネル毎に正規化して、五つのチャンネルのフィルタ出
力とする。

【００３３】上記からも明らかなように、特徴抽出フィ
ルタ５は五つの低次主成分の場合を例に示せば、図２に
示すように、時間窓幅点数ｄｔの周波数分析結果のＮ×
ｄｔ次元ベクトルＸｉと各低次主成分ベクトルδ１ｉ〜
δ５ｉとの積和演算を各時刻において積和演算器５１１
〜５１５にてそれぞれ入力Ｎ×ｄｔ次元ベクトルに対し
て行って、各積和演算器５１１〜５１５からの出力を、
正規化器５２１〜５２５によってそれぞれレベルを正規
化して、正規化された各正規化器５２１〜５２５からの
出力を各チャンネルの出力として送出する。

【００３４】次に、照合用低次圧縮時系列データ群の作
成について説明する。各単語の学習音声信号が周波数分
析器２に供給されて、学習音声信号に基づく周波数−時
間の時系列データが作成される。この周波数−時間の時
系列データが既に学習音声信号群における音素に対して
求めておいた低次主成分を基底とする特徴抽出フィルタ
５に供給され、特徴抽出フィルタ５において次元圧縮さ
れて特徴抽出フィルタ５の各チャンネルから時系列デー
タが出力され、この時系列データが照合用低次圧縮時系
列データとされる。

【００３５】このように作成された照合用低次圧縮時系
列データの構造は、図５に示すように構成され、それぞ
れ学習音声の発話者による同じ単語の学習音声による場
合の照合用低次圧縮時系列データであり、９名の話者に
よる１００単語に対する場合には９００個の照合用低次
圧縮時系列データ群が得られ、照合用低次圧縮時系列デ
ータ群の各要素は学習音声信号の各発話単語名とそれに
対応する照合用低次圧縮時系列データの対で構成され
る。この照合用低次圧縮時系列データ群は照合用低次圧
縮時系列データ記憶器６に記憶される。

【００３６】上記のように照合用低次圧縮時系列データ
が照合用低次圧縮時系列データ記憶器６に記憶させてあ
る状態で、不特定話者からの音声認識が行われる。不特
定話者からの入力音声信号は周波数分析器２によって周
波数分析され、既に学習音声信号群からの音声信号に基
づいて予め特徴抽出フィルタ作成部Ａで求められた特徴
抽出フィルタ５に供給されて、特徴抽出フィルタ５にお
いて次元圧縮処理がなされて、時系列データに変換され
る。

【００３７】不特定話者からの音声信号に基づく時系列
データは、学習音声信号群に基づいて照合時系列データ
作成部Ｂで求められた照合用低次圧縮時系列データ群と
の間で時系列データ照合器７において照合されて、不特
定話者からの音声信号に基づく時系列データに最も近い
照合用低次圧縮時系列データが照合用低次圧縮時系列デ
ータ群中から選び出され、選び出された照合用低次圧縮
時系列データに対する発話単語名が認識結果として出力
される。

【００３８】次に、本実施形態における時系列データ照
合器７をＤＰ（dynamic programming)法を用いた照合の
場合を例に説明する。

【００３９】ＤＰ法は、入力時系列データと予め記憶さ
れた時系列データ群の間で、非線形に時間伸縮すること
で時間正規化を行い対応付けを行う照合法である。この
方法によれば、入力時系列データと予め記憶された各時
系列データの間の時間正規化後の距離が定義され、この
距離が最小である時系列データが入力時系列データを最
も良く表すものとし、認識結果とするものである。本実
施形態では、このＤＰ法が不特定話者からの音声信号に
基づく時系列データと照合用低次圧縮時系列データとの
間に適用されて、時間正規化後の最小距離を持つ照合用
低次圧縮時系列データに対応させた単語名が出力され
る。

【００４０】次に本実施の形態に基づく評価実験結果に
ついて説明する。ここではテストサンプルとして、話者
１０名分の４９２単語の離散発生単語データベースを用
いて、この内の１００単語及び４９２単語を用いた場合
の評価結果について、以下に記す。

【００４１】最初、評価単語数を１００単語にした場合
の評価結果について記載する。テスト話者１名を除く９
名の話者の発話データを学習音声信号群として用いて特
徴抽出フィルタ作成部Ａで特徴抽出フィルタ５を作成し
た。サンプルとして用いた音素は母音、破裂音、摩擦
音、鼻音であり、部分周波数−時間パターン作成器３を
用いて、話者毎に部分周波数−時間の時系列データを求
め、この部分周波数−時間の時系列データから主成分分
析器３で主成分を求め、この主成分のうち、低次主成分
の第８主成分までを用いた。

【００４２】時系列データ照合器７で用いる照合用低次
圧縮時系列データ群は、前記テスト話者１名を除く９名
の話者の発話データを学習音声信号群として、上記特徴
抽出フィルタ５を用いた照合時系列データ作成部Ｂで９
００個の照合用低次圧縮時系列データを求めた。評価実
験では、テスト話者を変えながら行い、その都度、特徴
抽出フィルタ５を求め直し、照合用低次圧縮時系列デー
タを作成し直した。

【００４３】一方、特徴抽出フィルター５の出力チャン
ネル数は２から８間で変化させた。周波数軸点数Ｎを６
４，３０ｍｓに相当する時間窓幅点数ｄｔを６に設定し
た場合の認識結果を図６に示す。周波数軸点数Ｎを６
４，特徴抽出フィルターに用いる規定を時間窓の中央付
近の時間窓幅点数ｄｔを１に設定した場合の認識結果を
図７に示す。いずれの手法でも、特徴抽出フィルターの
チャンネル数を５チャンネルに設定した場合、どの話者
に対しても、９６％以上の認識率であった。特徴抽出フ
ィルターに用いる規定の時間窓幅点数ｄｔを１に設定し
た場合、積和演算の計算負荷は１／６倍に軽減される
が、それでも、認識性能は同等維持できる。周波数軸点
数Ｎを３２、時間窓幅点数ｄｔを６に設定した場合の認
識結果を図８に示す。周波数軸点数Ｎを３２、特徴抽出
フィルターに用いる基底を時間窓の中央付近の時間窓幅
点数ｄｔを１に設定した場合の認識結果を図９に示す。
周波数軸点数Ｎを３２に設定した場合でも、５チャンネ
ルに設定した場合、どの話者に対しても、認識率９５％
以上を確保している。

【００４４】次に、評価単語数を４９２単語にした場合
の評価結果について、周波数軸点数Ｎを６４、５ｍｓに
相当する時間窓幅点数ｄｔを１、特徴抽出フィルターの
チャンネル数を５チャンネルに設定した場合の認識結果
を図１０に示す。どの話者に対しても９０％以上の認識
率、話者平均の認識率が９４．６７％と、本手法は、語
彙数増に対してもある程度の認識性能を維持できた。

【００４５】

【発明の効果】以上説明したように、本発明によれば、
特徴抽出のための演算も、且つ照合のための処理も簡単
なため、その構成は簡単であり、不特定話者の発話に対
しても誤認識が少なく、音声認識をすることができると
いう効果が得られる。さらに、本発明の装置では、特徴
抽出フィルタ手段に用いる基底は、各主成分の時間窓の
中央付近の周波数軸方向の成分で構成されるとともに、
この基底の時間軸方向の窓サイズはこれら各主成分の時
間軸方向の幅よりも小さく、複数の学習話者から発話さ
れた音声に基づく低次の時系列データと不特定話者から
発話された音声に基づく低次の時系列データとを照合
し、この照合結果に基づいて音声認識を行う。ここで、
主成分のうち低次主成分は時系列データ群の特徴に多く
含まれる成分の固有空間を定義しており、時系列データ
に基づく周波数−時間パターンの中に最も多く含まれる
部分の特徴を表しているので、音声信号に含まれる学習
話者の個人性に基づく成分や認識に悪影響を及ぼすと考
えられるノイズ成分は低次成分に含まれず、音声認識が
正確となる。

【００４６】また、特徴抽出フィルタ手段に用いる基底
の時間軸方向の窓サイズは各主成分の時間軸方向の幅よ
りも小さく設定されるため、音声信号の音素を区切るラ
ベル位置の精度が多少悪くてもこれを吸収できる。さら
に、各音素の特徴は時間軸方向における各音素の中央部
に存在する可能性が高いため、時間窓の中央が各音素の
中央に一致するように設定すれば、情報の欠落を最小限
に抑えることができ、より正確な音声認識が可能とな
る。

【００４７】なお、周波数分析手段によって求められる
出力時系列データの周波数軸を、メルスケール等の対数
スケールで表示するのが好ましい。一般的に、音声にお
ける高い周波数領域では話者の違いによる特徴の変動が
大きく、低い周波数領域ではこの変動が小さい。周波数
軸を対数スケールとすれば、高い周波数領域における話
者の違いよる特徴変動を抑えるとともに低い周波数領域
での特徴を大きくすることにより、話者の違いによる特
徴変動に対して、音声認識装置が鈍感となり、話者の相
違に対して認識率を向上させることができる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る音声認識装置の構成
を示す模式ブロック図である。

【図２】本発明の一実施形態に係る音声認識装置におけ
る特徴抽出フィルタの構成を示すブロック図である。

【図３】本発明の一実施形態に係る音声認識装置におけ
る部分周波数−時間パターン作成器の作用の説明に供す
る模式図である。

【図４】本発明の一実施形態に係る音声認識装置におけ
る部分周波数−時間パターン作成器および主成分分析器
の作用の説明に供する模式図である。

【図５】本発明の一実施形態に係る音声認識装置におけ
る照合用低次圧縮時系列データの構造の一例を示す模式
図である。

【図６】本発明の一実施形態に係る音声認識装置による
音声認識結果（認識率）を示すグラフである。

【図７】本発明の一実施形態に係る音声認識装置による
音声認識結果（認識率）を示すグラフである。

【図８】本発明の一実施形態に係る音声認識装置による
音声認識結果（認識率）を示すグラフである。

【図９】本発明の一実施形態に係る音声認識装置による
音声認識結果（認識率）を示すグラフである。

【図１０】本発明の一実施形態に係る音声認識装置によ
る音声認識結果（認識率）を示すグラフである。

【符号の説明】

Ａ特徴抽出フィルタ作成部Ｂ照合時系列データ作成部Ｃ不特定話者音声認識部１音声認識装置２周波数分析器（周波数分析手段）３部分周波数−時間パターン作成器（切り出し手段）４主成分分析器（主成分分析手段）５特徴抽出フィルタ（特徴抽出フィルタ手段）６照合用低次圧縮時系列データ記憶器７時系列データ照合器

Claims

【特許請求の範囲】

【請求項１】音声信号を周波数分析して得た周波数ス
ペクトルを、時間軸に沿って順次求めて時系列データ群
に変換する周波数分析手段と、複数の学習話者から発話された音声に基づく音声信号が
入力された前記周波数分析手段からの出力時系列データ
を予め定めた時間窓で切り出す切り出し手段と、この切り出し手段によって切り出された時系列データ群
を用いて主成分分析を行う主成分分析手段と、前記主成分分析により得た低次の主成分を基底として入
力時系列データを低次の時系列データに圧縮する特徴抽
出フィルタ手段とを備え、前記特徴抽出フィルタ手段に用いる前記基底は各主成分
の時間窓の中央付近の周波数軸方向の成分で構成される
とともに、前記基底の時間軸方向の窓サイズはこれら各
主成分の時間軸方向の幅よりも小さく、前記複数の学習話者から発話された音声に基づく低次の
時系列データと不特定話者から発話された音声に基づく
低次の時系列データとを照合し、この照合結果に基づい
て音声認識を行うことを特徴とする音声認識装置。
【請求項２】前記周波数分析手段によって求められる
出力時系列データの周波数軸が、メルスケール等の対数
スケールで表示されることを特徴とする請求項１に記載
の音声認識装置。