JPH11288294A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH11288294A
JPH11288294A JP10091116A JP9111698A JPH11288294A JP H11288294 A JPH11288294 A JP H11288294A JP 10091116 A JP10091116 A JP 10091116A JP 9111698 A JP9111698 A JP 9111698A JP H11288294 A JPH11288294 A JP H11288294A
Authority
JP
Japan
Prior art keywords
time
series data
frequency
principal component
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10091116A
Other languages
English (en)
Other versions
JP3767876B2 (ja
Inventor
Koji Akatsuka
浩二 赤塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP09111698A priority Critical patent/JP3767876B2/ja
Publication of JPH11288294A publication Critical patent/JPH11288294A/ja
Application granted granted Critical
Publication of JP3767876B2 publication Critical patent/JP3767876B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 簡単な構成で、不特定話者の発話の多様性に
対しても高性能を維持することができて、誤認識を低減
させた音声認識装置を得る。 【解決手段】 音声信号を周波数分析して得た周波数ス
ペクトルを、時間軸に沿って順次求めて時系列データ群
に変換する周波数分析器2と、複数の学習話者から発話
された音声に基づく音声信号が入力された周波数分析手
段からの出力時系列データを予め定めた時間窓で切り出
す部分周波数−時間パターン作成器3と、このパターン
作成器3によって切り出された時系列データ群を用いて
主成分分析を行う主成分分析器4と、主成分分析により
得た低次の主成分を基底として入力時系列データを低次
の時系列データに圧縮する特徴抽出フィルタ5とを備え
て音声認識装置が構成される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、不特定話者から離
散的に発話された音声を自動的に認識する音声認識装置
に関する。
【0002】
【従来の技術】複数の不特定話者からの音声を誤認識せ
ずに認識する従来の音声認識装置の多くは、種々の周波
数分析手法を用いて音声信号に対してある程度の周波数
解像度を有する周波数分析を行って周波数−時間の符号
系列に変換し、出現が予想される音素の隠れマルコフモ
デルを用意し、さらにこのように容易した隠れマルコフ
モデルを多くの話者からの発話音声によって学習させて
予め用意しておく。
【0003】この学習済みの隠れマルコフモデルを用い
て、不特定話者から発話された音声に基づく周波数−時
間の符号系列の部分区間を、すべての音素モデルと照合
することによって音素系列の候補の時系列に変換し、こ
の音素の時系列が最も良く表される単語を認識結果とし
て出力するようになされている。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
音声認識装置では、不特定話者の発話の多様性に対応し
て高性能な音声認識特性を維持するための隠れマルコフ
モデルの学習に多くの学習データを必要とし、隠れマル
コフモデルで音素を精密に特定するためにある程度の周
波数分析の解像度、すなわち、ある程度の大きさのベク
トル次数を必要とするという問題があった。
【0005】この結果、隠れマルコフモデルの学習時と
音素特定時の演算負荷が重く、さらに単語の認識過程に
置いて少なくとも音素照合と単語照合の二段階の照合演
算処理を必要とするという問題点があった。
【0006】本発明は、簡単な構成で、不特定話者の発
話の多様性に対しても高性能を維持することができて、
誤認識を低減させた音声認識装置を提供することを目的
とする。
【0007】
【課題を解決するための手段】このようなことから本発
明に係る音声認識装置は、音声信号を周波数分析して得
た周波数スペクトルを、時間軸に沿って順次求めて時系
列データ群に変換する周波数分析手段(例えば、図1に
おける周波数分析器2)と、複数の学習話者から発話さ
れた音声に基づく音声信号が入力された前記周波数分析
手段からの出力時系列データを予め定めた時間窓で切り
出す切り出し手段(例えば、図1における部分周波数−
時間パターン作成器3)と、この切り出し手段によって
切り出された時系列データ群を用いて主成分分析を行う
主成分分析手段(例えば、図1における主成分分析器
4)と、主成分分析により得た低次の主成分を基底とし
て入力時系列データを低次の時系列データに圧縮する特
徴抽出フィルタ手段(例えば、図1における特徴抽出フ
ィルタ5)とを備えて構成される。
【0008】さらに、この音声認識装置では、特徴抽出
フィルタ手段に用いる基底は、各主成分の時間窓の中央
付近の周波数軸方向の成分で構成されるとともに、この
基底の時間軸方向の窓サイズはこれら各主成分の時間軸
方向の幅よりも小さく、複数の学習話者から発話された
音声に基づく低次の時系列データと不特定話者から発話
された音声に基づく低次の時系列データとを照合し、こ
の照合結果に基づいて音声認識を行う。ここで、主成分
のうち低次主成分は音声の識別的特徴に多く含まれる成
分の固有空間を定義しており、時系列データに基づく周
波数−時間パターンの中に最も多く含まれる部分の特徴
を表しているので、音声信号に含まれる学習話者の個人
性に基づく成分や認識に悪影響を及ぼすと考えられるノ
イズ成分は低次成分に含まれず、音声認識が正確とな
る。
【0009】また、特徴抽出フィルタ手段に用いる基底
の時間軸方向の窓サイズは各主成分の時間軸方向の幅よ
りも小さく設定されるため、音声信号の音素を区切るラ
ベル位置の精度が多少悪くてもこれを吸収できる。さら
に、各音素の特徴は時間軸方向における各音素の中央部
に存在する可能性が高いため、時間窓の中央が各音素の
中央に一致するように設定すれば、情報の欠落を最小限
に抑えることができ、より正確な音声認識が可能とな
る。
【0010】なお、周波数分析手段によって求められる
出力時系列データの周波数軸を、メルスケール等の対数
スケールで表示するのが好ましい。一般的に、音声にお
ける高い周波数領域では話者の違いによる特徴の変動が
大きく、低い周波数領域ではこの変動が小さい。周波数
軸を対数スケールとすれば、高い周波数領域における話
者の違いよる特徴変動を抑えるとともに低い周波数領域
での特徴を大きくすることにより、話者の違いによる特
徴変動に対して、音声認識装置が鈍感となり、話者の相
違に対して認識率を向上させることができる。
【0011】
【発明の実施の形態】以下、本発明に係る音声認識装置
の好ましい実施形態について図面を参照して以下に説明
する。図1に本発明の一実施形態に係る音声認識装置の
構成を模式ブロック図を用いて示している。この図にお
いて、作用の理解を容易にするために、同一の構成要素
であっても異なる音声信号ラインに使用する構成要素は
重複して示している。図1において二重枠の構成要素が
これに当たり、同一符号は同一の構成手段であることを
示している。
【0012】この音声認識装置1は、複数の学習話者か
ら発せられる発話音声に基づき学習話者の音素に対する
特徴を抽出し、抽出した特徴を基底とする特徴抽出フィ
ルタを作成する特徴抽出フィルタ作成部Aと、複数の学
習話者の発話、例えば単語の音声信号に基づく情報を特
徴抽出フィルタに供給し、特徴抽出フィルタによって前
記情報を圧縮して照合用低次圧縮時系列データ群を生成
する照合時系列データ作成部Bと、入力された不特定話
者からの音声信号を特徴抽出フィルタに供給して、特徴
抽出フィルタによって圧縮した時系列データを生成し、
この時系列データを照合用低次圧縮時系列データと照合
して音声認識結果を出力する不特定話者音声認識部Cと
を備えている。
【0013】特徴抽出フィルタ作成部Aは、複数の学習
話者から発話された音声(以下、学習音声群とも称す)
の周波数スペクトルの時間的変化を示すため、複数の学
習話者から発話された音声に基づく音声信号を周波数分
析して得た周波数スペクトルを、時間軸に沿って順次求
めた時系列データ群(周波数−時間の時系列データ群)
に変換する周波数分析器2と、周波数分析器2によって
変換された前記複数の学習話者からの音声に基づく周波
数−時間の時系列データ群から小さな時間窓の範囲にお
ける部分周波数−時間の時系列データを切り出す部分周
波数−時間パターン作成器3と、部分周波数−時間パタ
ーン生成器3によって切り出された複数の部分周波数−
時間の時系列データを用いて主成分分析を行う主成分分
析器4と、主成分分析器4による主成分分析結果の低次
主成分を基底にする特徴抽出フィルタ5とを備えて、複
数の学習話者から学習話者の音素に対する特徴を抽出す
る。
【0014】照合時系列データ作成部Bは照合用低次圧
縮時系列データ記憶器6を備え、複数の学習話者から発
話された単語音声の周波数スペクトルの時間的変化を示
すため、複数の学習話者から発話された前記単語音声の
音声信号を周波数分析器2によって周波数分析して得た
周波数スペクトルを、時間軸に沿って順次求めた周波数
−時間の時系列データ群に変換し、変換された周波数−
時間の時系列データ群を特徴抽出フィルタ5に送出し、
特徴抽出フィルタ5にて周波数−時間の時系列データを
次元圧縮して照合用低次圧縮時系列データ群を得て、照
合用低次圧縮時系列データ記憶器6に記憶させる。
【0015】不特定話者音声認識部Cは時系列データ照
合器7を備え、不特定話者から発話された音声の周波数
スペクトルの時間的変化を示すため、不特定話者から発
話された音声に基づく音声信号を周波数分析器2によっ
て周波数分析して得た周波数スペクトルを、時間軸に沿
って順次求めた周波数−時間の時系列データ群に変換
し、変換された周波数−時間の時系列データ群を特徴抽
出フィルタ5に送出し、特徴抽出フィルタ5にて周波数
−時間の時系列データを次元圧縮して時系列データ群を
得て、時系列データ群と照合用低次圧縮時系列データ記
憶器6から読み出した照合用低次圧縮時系列データとを
時系列データ照合器7にて照合し、照合用低次圧縮時系
列データ群中から、時系列データ群に最も近いものを求
め、照合結果に基づいて不特定話者からの発声音声に基
づく言葉を認識する。
【0016】次に、周波数分析器2、部分周波数−時間
パターン作成器3、主成分分析器4、特徴抽出フィルタ
5のそれぞれについて具体的に説明する。
【0017】周波数分析器2では、入力信号がA/D変
換され、A/D変換された音声信号に対して、高域強調
処理がなされ、高域強調処理されたA/D変換音声信号
に対して時間窓としてハニング窓をかけて、短時間の音
声信号を切り出し、切り出した短時間音声信号をフーリ
エ変換を行うことで、周波数展開を行い、線形の周波数
軸を対数尺度に近いメルスケールに変換する。この処理
を時間軸に沿って繰り返すことで、音声スペクトルの時
間的変化を示すための周波数−時間の時系列データに変
換される。したがって、周波数分析器2では、入力音声
のサウンドスペクトルパターンに実質的に展開される。
以下、この周波数−時間の時系列データの周波数軸方向
の点数をNで表すことにする。
【0018】この周波数分析手法に応じて特徴抽出フィ
ルタ5を作成すれば、音声情報の欠落が少ない。また、
周波数分析に応じて特徴抽出フィルタ5を作成したとき
に音声情報に欠落がないような他の周波数分析手法によ
っても良い。従って、周波数分析器2による方法によれ
ば、さらにベクトル次数の少ない周波数−時間パターン
やケプストラム等にも適用することができる。この結
果、周波数−時間の時系列データ群によって実質的に音
声信号の周波数−時間パターンが示される。
【0019】部分周波数−時間パターン作成器3では、
周波数分析器2から出力される周波数−時間の時系列デ
ータ群中から、所定の小さな時間窓の範囲における周波
数−時間の時系列データが切り出される。このため、部
分周波数−時間パターン作成器3から出力される周波数
−時間の時系列データに基づく音声の周波数−時間パタ
ーンは、周波数分析器2から出力される周波数−時間の
時系列データに基づく音声の周波数−時間パターンの一
部分であって、部分周波数−時間パターンであるといえ
る。
【0020】特徴抽出フィルタ5は、周波数−時間の時
系列データからの情報の欠落を最小限に抑え、情報圧縮
した時系列データを作成する。本例では情報の圧縮に主
成分分析を用いている。
【0021】さらに詳細に、例えば、9名の異なる学習
話者の共通した100語の発話データを学習音声信号群
として用いた場合の例を説明する。
【0022】この場合、会話データには、単語音声信号
区間中の発話音素と、発話音素の音声信号の時間軸上に
おける開始点と終了点とに対応が付けられたラベルデー
タとが予め設定されている。例えば、図3(A)に示す
ように、音素Eに対する開始点の時間ラベルa、音素E
に対する終了点の時間ラベルであり且つ音素Fに対する
開始点の時間ラベルである時間ラベルb、音素Fに対す
る終了点の時間ラベルcを持っている。なお、図3
(A)における横軸は時間で、縦軸が周波数であり、各
周波数の強度スペクトルが紙面に垂直な値で表され、い
わゆる三次元グラフとなるデータを構成している。
【0023】部分周波数−時間パターン作成器3は、周
波数分析器2から出力される周波数−時間の時系列デー
タをラベルデータとともに、時間軸上の音素の中心位
置、図3(A)に示す例では(a+b)/2、(b+
c)/2を求め、この中心位置を中心に時間窓部分の周
波数−時間の時系列データを切り出す。
【0024】すなわち、学習音声信号群に対して、部分
周波数−時間パターン作成器3によって、例えば、30
msの時間窓Dで切り出しを行い、部分周波数−時間の
時系列データ群を作成する。部分周波数−時間パターン
作成器3によって作成された部分周波数−時間の時系列
データの時間窓Dによる切り出しは、図3(B)に示す
ように、音素Eに対しては時間ラベルaと時間ラベルb
との間の中央に時間窓Dが来るように、[{(a+b)
/2}−(D/2)]の位置から[{(a+b)/2+
(D/2)]の位置までが切り出され、音素Eに対して
は時間ラベルbと時間ラベルcとの中央に時間窓Dが来
るように、[{(b+c)/2}−(D/2)]の位置
から[{(b+c)/2+(D/2)]の位置までが切
り出される。
【0025】この切り出し処理を同じ音素のラベル区間
について行うことによって、同じ音素の周波数−時間の
時系列データを複数集めることができる。同じ音素を複
数集めた周波数−時間の時系列データの平均値を求め、
これを部分周波数−時間の時系列データとする。この部
分周波数−時間の時系列データを音素毎に作成すること
によって部分周波数−時間の時系列データ群が作成され
る。この部分周波数−時間の時系列データ群の作成処理
により、このように各音素の時間長さより短い時間窓に
よる切り出しを行えば、各音素のラベル区間のラベル時
刻の精度の悪さを吸収できる。また、音素のラベル区間
における音素毎の特徴は、ラベル区間のほぼ中央に存在
する可能性が高いため、開始および終了ラベルの中央に
時間窓の中心が位置するようにして切り出しを行うこと
により情報の欠落を最小限に抑えることができる。
【0026】この時間窓による切り出し処理を、時間軸
方向の特徴変化の少ない音素毎、すなわち、比較的定常
的な音素毎に行っても良い。
【0027】この部分周波数−時間の時系列データ群か
ら、主成分分析器4によって主成分が求められるが、こ
れについて図4に基づいて説明する。図4においては、
部分周波数−時間の時系列データをパターンと略記して
ある。
【0028】切り出された音素Aの部分周波数−時間の
時系列データ群、音素Bの部分周波数−時間の時系列デ
ータ群、・・・、音素Zの部分周波数−時間の時系列デ
ータ群は図4(A)に模式的に示すように発話データに
含まれる各音素のパターンからなり、それぞれ複数のパ
ターンを有している。そして、各音素A〜Zについての
部分周波数−時間の時系列データ群の平均値が求められ
る。その結果、音素Aの部分周波数−時間の時系列デー
タ群の平均値、音素Bの部分周波数−時間の時系列デー
タ群の平均値、・・・、音素Zの部分周波数−時間の時
系列データ群の平均値が、図4(B)に模式的に示す如
く得られる。
【0029】各音素A〜Zの部分周波数−時間の時系列
データの平均値は主成分分析器4によって、図4(C)
に模式的に示すように、主成分分析が行われる。主成分
分析の結果、図4(D)に模式的に示すように、第1主
成分、第2主成分、・・・、第K主成分が求められる。
主成分を求める場合のサンプルデータ数は、そのサンプ
ルデータを定義するベクトル次数より多く必要である。
したがって、音素Aから音素Zの個数が、部分周波数−
時間の時系列データの次元数よりも少ない場合、各音素
毎に求めた平均値に近い部分周波数−時間の時系列デー
タを数個ずつ求め、これを図4(B)に示す各音素のパ
ターンの平均値の代わりに用いても良い。
【0030】すなわち、主成分分析ではサンプルデータ
空間のベクトル次元数と同数の次元数の主成分が求めら
れ、サンプルデータの分散が最も多い軸を決める主成分
を第1主成分、分散が2番目に大きい軸を決める主成分
を第2主成分、以下同様に第K主成分が決まる。
【0031】主成分分析器4では分散の大きい第1主成
分から順次分散が減少する第5番目の主成分を低次主成
分として用いている。すなわち、情報の損失量の最小か
ら最大の方向へ五つの主成分を低次主成分として用い
る。従って、主成分のうちの低次主成分は部分周波数−
時間の時系列データ群の特徴に多く含まれる成分の固有
空間を定義しており、音声信号の周波数−時間の時系列
データに基づく周波数−時間パターンの中に最も含まれ
る部分の特徴を表している。すなわち、音声信号に含ま
れる学習話者の個人性に基づく成分や認識に悪影響を及
ぼすと考えられるノイズ成分は、低次主成分には含まれ
ていないと考えられる。
【0032】特徴抽出フィルタ5では、この低次主成分
を基底として用いて、例えば五つの第1〜第5低次主成
分ベクトルδ1i〜δ5iを特徴抽出フィルタ5の基底
として用い、周波数分析器2から出力される周波数−時
間の時系列データの各時刻における周波数−時間の時系
列データと、第1〜第5低次主成分ベクトルδ1i〜δ
5iとの間で相関値を求める。この各低次主成分毎の相
関値出力をチャンネルとも称する。この相関値を各チャ
ンネル毎に正規化して、五つのチャンネルのフィルタ出
力とする。
【0033】上記からも明らかなように、特徴抽出フィ
ルタ5は五つの低次主成分の場合を例に示せば、図2に
示すように、時間窓幅点数dtの周波数分析結果のN×
dt次元ベクトルXiと各低次主成分ベクトルδ1i〜
δ5iとの積和演算を各時刻において積和演算器511
〜515にてそれぞれ入力N×dt次元ベクトルに対し
て行って、各積和演算器511〜515からの出力を、
正規化器521〜525によってそれぞれレベルを正規
化して、正規化された各正規化器521〜525からの
出力を各チャンネルの出力として送出する。
【0034】次に、照合用低次圧縮時系列データ群の作
成について説明する。各単語の学習音声信号が周波数分
析器2に供給されて、学習音声信号に基づく周波数−時
間の時系列データが作成される。この周波数−時間の時
系列データが既に学習音声信号群における音素に対して
求めておいた低次主成分を基底とする特徴抽出フィルタ
5に供給され、特徴抽出フィルタ5において次元圧縮さ
れて特徴抽出フィルタ5の各チャンネルから時系列デー
タが出力され、この時系列データが照合用低次圧縮時系
列データとされる。
【0035】このように作成された照合用低次圧縮時系
列データの構造は、図5に示すように構成され、それぞ
れ学習音声の発話者による同じ単語の学習音声による場
合の照合用低次圧縮時系列データであり、9名の話者に
よる100単語に対する場合には900個の照合用低次
圧縮時系列データ群が得られ、照合用低次圧縮時系列デ
ータ群の各要素は学習音声信号の各発話単語名とそれに
対応する照合用低次圧縮時系列データの対で構成され
る。この照合用低次圧縮時系列データ群は照合用低次圧
縮時系列データ記憶器6に記憶される。
【0036】上記のように照合用低次圧縮時系列データ
が照合用低次圧縮時系列データ記憶器6に記憶させてあ
る状態で、不特定話者からの音声認識が行われる。不特
定話者からの入力音声信号は周波数分析器2によって周
波数分析され、既に学習音声信号群からの音声信号に基
づいて予め特徴抽出フィルタ作成部Aで求められた特徴
抽出フィルタ5に供給されて、特徴抽出フィルタ5にお
いて次元圧縮処理がなされて、時系列データに変換され
る。
【0037】不特定話者からの音声信号に基づく時系列
データは、学習音声信号群に基づいて照合時系列データ
作成部Bで求められた照合用低次圧縮時系列データ群と
の間で時系列データ照合器7において照合されて、不特
定話者からの音声信号に基づく時系列データに最も近い
照合用低次圧縮時系列データが照合用低次圧縮時系列デ
ータ群中から選び出され、選び出された照合用低次圧縮
時系列データに対する発話単語名が認識結果として出力
される。
【0038】次に、本実施形態における時系列データ照
合器7をDP(dynamic programming)法を用いた照合の
場合を例に説明する。
【0039】DP法は、入力時系列データと予め記憶さ
れた時系列データ群の間で、非線形に時間伸縮すること
で時間正規化を行い対応付けを行う照合法である。この
方法によれば、入力時系列データと予め記憶された各時
系列データの間の時間正規化後の距離が定義され、この
距離が最小である時系列データが入力時系列データを最
も良く表すものとし、認識結果とするものである。本実
施形態では、このDP法が不特定話者からの音声信号に
基づく時系列データと照合用低次圧縮時系列データとの
間に適用されて、時間正規化後の最小距離を持つ照合用
低次圧縮時系列データに対応させた単語名が出力され
る。
【0040】次に本実施の形態に基づく評価実験結果に
ついて説明する。ここではテストサンプルとして、話者
10名分の492単語の離散発生単語データベースを用
いて、この内の100単語及び492単語を用いた場合
の評価結果について、以下に記す。
【0041】最初、評価単語数を100単語にした場合
の評価結果について記載する。テスト話者1名を除く9
名の話者の発話データを学習音声信号群として用いて特
徴抽出フィルタ作成部Aで特徴抽出フィルタ5を作成し
た。サンプルとして用いた音素は母音、破裂音、摩擦
音、鼻音であり、部分周波数−時間パターン作成器3を
用いて、話者毎に部分周波数−時間の時系列データを求
め、この部分周波数−時間の時系列データから主成分分
析器3で主成分を求め、この主成分のうち、低次主成分
の第8主成分までを用いた。
【0042】時系列データ照合器7で用いる照合用低次
圧縮時系列データ群は、前記テスト話者1名を除く9名
の話者の発話データを学習音声信号群として、上記特徴
抽出フィルタ5を用いた照合時系列データ作成部Bで9
00個の照合用低次圧縮時系列データを求めた。評価実
験では、テスト話者を変えながら行い、その都度、特徴
抽出フィルタ5を求め直し、照合用低次圧縮時系列デー
タを作成し直した。
【0043】一方、特徴抽出フィルター5の出力チャン
ネル数は2から8間で変化させた。周波数軸点数Nを6
4,30msに相当する時間窓幅点数dtを6に設定し
た場合の認識結果を図6に示す。周波数軸点数Nを6
4,特徴抽出フィルターに用いる規定を時間窓の中央付
近の時間窓幅点数dtを1に設定した場合の認識結果を
図7に示す。いずれの手法でも、特徴抽出フィルターの
チャンネル数を5チャンネルに設定した場合、どの話者
に対しても、96%以上の認識率であった。特徴抽出フ
ィルターに用いる規定の時間窓幅点数dtを1に設定し
た場合、積和演算の計算負荷は1/6倍に軽減される
が、それでも、認識性能は同等維持できる。周波数軸点
数Nを32、時間窓幅点数dtを6に設定した場合の認
識結果を図8に示す。周波数軸点数Nを32、特徴抽出
フィルターに用いる基底を時間窓の中央付近の時間窓幅
点数dtを1に設定した場合の認識結果を図9に示す。
周波数軸点数Nを32に設定した場合でも、5チャンネ
ルに設定した場合、どの話者に対しても、認識率95%
以上を確保している。
【0044】次に、評価単語数を492単語にした場合
の評価結果について、周波数軸点数Nを64、5msに
相当する時間窓幅点数dtを1、特徴抽出フィルターの
チャンネル数を5チャンネルに設定した場合の認識結果
を図10に示す。どの話者に対しても90%以上の認識
率、話者平均の認識率が94.67%と、本手法は、語
彙数増に対してもある程度の認識性能を維持できた。
【0045】
【発明の効果】以上説明したように、本発明によれば、
特徴抽出のための演算も、且つ照合のための処理も簡単
なため、その構成は簡単であり、不特定話者の発話に対
しても誤認識が少なく、音声認識をすることができると
いう効果が得られる。さらに、本発明の装置では、特徴
抽出フィルタ手段に用いる基底は、各主成分の時間窓の
中央付近の周波数軸方向の成分で構成されるとともに、
この基底の時間軸方向の窓サイズはこれら各主成分の時
間軸方向の幅よりも小さく、複数の学習話者から発話さ
れた音声に基づく低次の時系列データと不特定話者から
発話された音声に基づく低次の時系列データとを照合
し、この照合結果に基づいて音声認識を行う。ここで、
主成分のうち低次主成分は時系列データ群の特徴に多く
含まれる成分の固有空間を定義しており、時系列データ
に基づく周波数−時間パターンの中に最も多く含まれる
部分の特徴を表しているので、音声信号に含まれる学習
話者の個人性に基づく成分や認識に悪影響を及ぼすと考
えられるノイズ成分は低次成分に含まれず、音声認識が
正確となる。
【0046】また、特徴抽出フィルタ手段に用いる基底
の時間軸方向の窓サイズは各主成分の時間軸方向の幅よ
りも小さく設定されるため、音声信号の音素を区切るラ
ベル位置の精度が多少悪くてもこれを吸収できる。さら
に、各音素の特徴は時間軸方向における各音素の中央部
に存在する可能性が高いため、時間窓の中央が各音素の
中央に一致するように設定すれば、情報の欠落を最小限
に抑えることができ、より正確な音声認識が可能とな
る。
【0047】なお、周波数分析手段によって求められる
出力時系列データの周波数軸を、メルスケール等の対数
スケールで表示するのが好ましい。一般的に、音声にお
ける高い周波数領域では話者の違いによる特徴の変動が
大きく、低い周波数領域ではこの変動が小さい。周波数
軸を対数スケールとすれば、高い周波数領域における話
者の違いよる特徴変動を抑えるとともに低い周波数領域
での特徴を大きくすることにより、話者の違いによる特
徴変動に対して、音声認識装置が鈍感となり、話者の相
違に対して認識率を向上させることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声認識装置の構成
を示す模式ブロック図である。
【図2】本発明の一実施形態に係る音声認識装置におけ
る特徴抽出フィルタの構成を示すブロック図である。
【図3】本発明の一実施形態に係る音声認識装置におけ
る部分周波数−時間パターン作成器の作用の説明に供す
る模式図である。
【図4】本発明の一実施形態に係る音声認識装置におけ
る部分周波数−時間パターン作成器および主成分分析器
の作用の説明に供する模式図である。
【図5】本発明の一実施形態に係る音声認識装置におけ
る照合用低次圧縮時系列データの構造の一例を示す模式
図である。
【図6】本発明の一実施形態に係る音声認識装置による
音声認識結果(認識率)を示すグラフである。
【図7】本発明の一実施形態に係る音声認識装置による
音声認識結果(認識率)を示すグラフである。
【図8】本発明の一実施形態に係る音声認識装置による
音声認識結果(認識率)を示すグラフである。
【図9】本発明の一実施形態に係る音声認識装置による
音声認識結果(認識率)を示すグラフである。
【図10】本発明の一実施形態に係る音声認識装置によ
る音声認識結果(認識率)を示すグラフである。
【符号の説明】
A 特徴抽出フィルタ作成部 B 照合時系列データ作成部 C 不特定話者音声認識部 1 音声認識装置 2 周波数分析器(周波数分析手段) 3 部分周波数−時間パターン作成器(切り出し手段) 4 主成分分析器(主成分分析手段) 5 特徴抽出フィルタ(特徴抽出フィルタ手段) 6 照合用低次圧縮時系列データ記憶器 7 時系列データ照合器

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 音声信号を周波数分析して得た周波数ス
    ペクトルを、時間軸に沿って順次求めて時系列データ群
    に変換する周波数分析手段と、 複数の学習話者から発話された音声に基づく音声信号が
    入力された前記周波数分析手段からの出力時系列データ
    を予め定めた時間窓で切り出す切り出し手段と、 この切り出し手段によって切り出された時系列データ群
    を用いて主成分分析を行う主成分分析手段と、 前記主成分分析により得た低次の主成分を基底として入
    力時系列データを低次の時系列データに圧縮する特徴抽
    出フィルタ手段とを備え、 前記特徴抽出フィルタ手段に用いる前記基底は各主成分
    の時間窓の中央付近の周波数軸方向の成分で構成される
    とともに、前記基底の時間軸方向の窓サイズはこれら各
    主成分の時間軸方向の幅よりも小さく、 前記複数の学習話者から発話された音声に基づく低次の
    時系列データと不特定話者から発話された音声に基づく
    低次の時系列データとを照合し、この照合結果に基づい
    て音声認識を行うことを特徴とする音声認識装置。
  2. 【請求項2】 前記周波数分析手段によって求められる
    出力時系列データの周波数軸が、メルスケール等の対数
    スケールで表示されることを特徴とする請求項1に記載
    の音声認識装置。
JP09111698A 1998-04-03 1998-04-03 音声認識装置 Expired - Fee Related JP3767876B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09111698A JP3767876B2 (ja) 1998-04-03 1998-04-03 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09111698A JP3767876B2 (ja) 1998-04-03 1998-04-03 音声認識装置

Publications (2)

Publication Number Publication Date
JPH11288294A true JPH11288294A (ja) 1999-10-19
JP3767876B2 JP3767876B2 (ja) 2006-04-19

Family

ID=14017559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09111698A Expired - Fee Related JP3767876B2 (ja) 1998-04-03 1998-04-03 音声認識装置

Country Status (1)

Country Link
JP (1) JP3767876B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005083890A1 (ja) * 2004-02-26 2005-09-09 Mitsubishi Denki Kabushiki Kaisha 時系列データ次元圧縮装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005083890A1 (ja) * 2004-02-26 2005-09-09 Mitsubishi Denki Kabushiki Kaisha 時系列データ次元圧縮装置

Also Published As

Publication number Publication date
JP3767876B2 (ja) 2006-04-19

Similar Documents

Publication Publication Date Title
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2823469B2 (ja) 文脈依存型音声認識装置および方法
JPH05216490A (ja) 音声コード化装置及び方法並びに音声認識装置及び方法
JPH0535299A (ja) 音声符号化方法及び装置
Shariah et al. Human computer interaction using isolated-words speech recognition technology
Paulo et al. DTW-based phonetic alignment using multiple acoustic features.
Thalengala et al. Study of sub-word acoustical models for Kannada isolated word recognition system
Unnibhavi et al. LPC based speech recognition for Kannada vowels
JP3081108B2 (ja) 話者分類処理装置及び方法
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
Deiv et al. Automatic gender identification for hindi speech recognition
Ananthakrishna et al. Kannada word recognition system using HTK
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JP3905620B2 (ja) 音声認識装置
JP3767876B2 (ja) 音声認識装置
JPH0766734A (ja) 音声コーディング装置および方法
Lingam Speaker based language independent isolated speech recognition system
JP2943473B2 (ja) 音声認識方法
JP4226273B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP3866171B2 (ja) 音素決定方法、その装置及びプログラム
JP2010145784A (ja) 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム
JP2003295887A (ja) 音声認識方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060130

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100210

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100210

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110210

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110210

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120210

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130210

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130210

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140210

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees