JPH1165589A

JPH1165589A - 音声認識装置

Info

Publication number: JPH1165589A
Application number: JP9323027A
Authority: JP
Inventors: Koji Akatsuka; 浩二赤塚
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 1997-06-10
Filing date: 1997-11-25
Publication date: 1999-03-09
Anticipated expiration: 2017-11-25
Also published as: JP3905620B2

Abstract

(57)【要約】【課題】簡単な横成で、不特定話者の発話の多様性に対
しても高性能を維持することができて、誤認識を低減さ
せた音声認識装置を提供する。【解決手段】音声信号を周波数分析して得た周波数スペ
クトルを、時間軸に沿って順次求めて時系列データ群に
変換する周波数分析器２に、複数の学習話者からの音声
信号が入力されたとき周波数分析器２から出力される時
系列データを部分周波数−時間パターン作成器３によっ
て予め定めた時間窓で切り出し、切り出された時系列デ
ータ群を主成分分析器４によって主成分分析した主成分
に基づき入力時系列データを低次の時系列データに特徴
抽出フィルタ５にて圧縮する。複数の学習話者からの音
声信号を低次の時系列データに圧縮した参照用低次圧縮
時系列データと、不特定話者からの音声信号を圧縮した
低次の時系列データとを照合して、照合結果に基づいて
不特定話者からの音声を認識する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、不特定話者から離
散的に発話された音声を自動的に認識する音声認識装置
に関する。

【０００２】

【従来の技術】複数の不特定話者からの音声を誤認識せ
ずに認識する従来の音声認識装置の多くは、種々の周波
数分析手法を用いて音声信号に対してある程度の周波数
解像度を有する周波数分析を行って周波数−時間の符号
系列に変換し、出現が予想される音素の数の隠れマルコ
フモデルを用意し、さらに該用意した隠れマルコフモデ
ルを多くの話者からの発話音声によって学習させて予め
用意しておく。

【０００３】この学習済みの隠れマルコフモデルを用い
て、不特定話者から発話された音声に基づく周波数−時
間の符号系列の部分区間を、全ての音素モデルと照合す
ることによって音素系列の候補の時系列に変換し、この
音素の時系列が最もよく表される単語を認識結果として
出力するようになされている。

【０００４】

【発明が解決しようとする課題】しかしながら、従来の
音声認識装置では、不特定話者の発話の多様性に対応し
て高性能な音声認識特性を維持するための隠れマルコフ
モデルの学習に多くの学習データを必要とし、隠れマル
コフモデルで音素を精密に特定するためにある程度の周
波数分析の解像度、すなわち、ある程度の大きさのベク
トル次数を必要とするという問題点があった。

【０００５】この結果、隠れマルコフモデルの学習時と
音素特定時の演算負荷が重く、さらに単語の認識過程に
おいて少なくとも音素照合と単語照合の２段階の照合演
算処理を必要とするという問題点があった。

【０００６】本発明は、簡単な横成で、不特定話者の発
話の多様性に対しても高性能を維持することができて、
誤認識を低減させた音声認識装置を提供することを目的
とする。

【０００７】

【課題を解決するための手段】本発明にかかる音声認識
装置は、音声信号を周波数分析して得た周波数スペクト
ルを、時間軸に沿って順次求めて時系列データ群に変換
する周波数分析手段と、複数の学習話者から発話された
音声に基づく音声信号が入力された前記周波数分析手段
からの出力時系列データを予め定めた時間窓で切り出す
切り出し手段と、前記切り出し手段によって切り出され
た時系列データ群を用いて主成分分析を行う主成分分析
手段と、前記主成分分析により得た主成分に基づき入力
時系列データを低次の時系列データに圧縮する特徴抽出
フィルタ手段とを備え、前記複数の学習話者から発話さ
れた音声に基づく低次の時系列データを参照用低次時系
列データとし、該参照用低次時系列データと不特定話者
から発話された音声に基づく低次の時系列データとを照
合して照合結果に基づいて音声認識をすることを特徴と
する。

【０００８】本発明にかかる音声認識装置は、複数の学
習話者から発話された音声に基づく音声信号が周波数分
析手段に入力されて時系列データ群に変換され、周波数
分析手段によって変換された時系列データが切り出し手
段によって予め定めた時間窓で切り出され、切り出し手
段によって切り出された時系列データ群を用いて主成分
分析手段によって主成分分析され、主成分分析により得
られた主成分に基づき特徴抽出フィルタ手段にて入力時
系列データが低次の時系列データに圧縮される。複数の
学習話者から発話された音声に基づく低次の時系列デー
タが参照用低次時系列データとされて、不特定話者から
発話された音声に基づく低次の時系列データと照合され
て、照合結果に基づいて不特定話者から発話された音声
に対する音声認識がなされる。

【０００９】

【発明の実施の形態】以下、本発明にかかる音声認識装
置を実施の一形態によって説明する。

【００１０】図１は本発明の実施の一形態にかかる音声
認識装置の構成を示す模式ブロック図である。

【００１１】図１の模式ブロック図において、作用の理
解を容易にするために、同一の構成要素であっても異な
る音声信号ラインに使用する構成要素は重複して示して
あって、図１において２重枠の構成要素がこれに当た
り、同一符号は同一の構成手段を示している。

【００１２】本発明の実施の一形態にかかる音声認識装
置１は、複数の学習話者から発せられる発話音声に基づ
き学習話者の音素に対する特徴を抽出し、抽出した特徴
に基づいて特徴抽出フィルタを作成する特徴抽出フィル
タ作成部αと、複数の学習話者の発話たとえば単語の音
声信号に基づく情報を特徴抽出フィルタに供給し、特徴
抽出フィルタによって前記情報を圧縮して照合用低次圧
縮時系列データ群を生成する照合時系列データ作成部β
と、入力された不特定話者からの音声信号を特徴抽出フ
ィルタに供給して、特徴抽出フィルタによって圧縮した
時系列データを生成し、該時系列データを照合用低次圧
縮時系列データと照合して音声認識結果を出力する不特
定話者音声認識部γとを備えている。

【００１３】特徴抽出フィルタ作成部αは、複数の学習
話者から発話された音声（以下、学習音声群とも記す）
の周波数スペクトルの時間的変化を示すため、複数の学
習話者から発話された音声に基づく音声信号を周波数分
析して得た周波数スペクトルを、時間軸に沿って順次求
めた時系列データ群（周波数−時間の時系列データ群）
に変換する周波数分析器２と、周波数分析器２によって
変換された前記複数の学習話者からの音声に基づく周波
数−時間の時系列データ群から小さな時間窓の範囲にお
ける部分周波数−時間の時系列データを切り出す部分周
波数−時間パターン作成器３と、部分周波数−時間パタ
ーン生成器３によって切り出された複数の部分周波数−
時間の時系列データを用いて主成分分析を行う主成分分
析器４と、主成分分析器４による主成分分析結果の低次
主成分において、周波数軸方向には低い周波数部分を用
い、かつ時間軸方向には時間窓の中央部のみを用いて畳
み込み積分を行う特徴抽出フィルタ５を備えて、複数の
学習話者からの発話音声から学習話者の音素に対する特
徴を抽出する。

【００１４】照合時系列データ作成部βは照合用低次圧
縮時系列データ記憶器６を備え、複数の学習話者から発
話された単語音声の周波数スペクトルの時間的変化を示
すため、複数の学習話者から発話された前記単語音声の
音声信号を周波数分析器２によって周波数分析して得た
周波数スペクトルを、時間軸に沿って順次求めた周波数
−時間の時系列データ群に変換し、変換された周波数−
時間の時系列データ群を特徴抽出フィルタ５に送出し、
特徴抽出フィルタ５にて周波数−時間の時系列データを
次元圧縮して照合用低次圧縮時系列データ群を得て、照
合用低次圧縮時系列データ記憶器６に記憶させる。

【００１５】不特定話者音声認識部γは時系列データ照
合器７を備え、不特定話者から発話された音声の周波数
スペクトルの時間的変化を示すため、不特定話者から発
話された音声に基づく音声信号を周波数分析器２によっ
て周波数分析して得た周波数スペクトルを、時間軸に沿
って順次求めた周波数−時間の時系列データ群に変換
し、変換された周波数−時間の時系列データ群を特徴抽
出フィルタ５に送出し、特徴抽出フィルタ５にて周波数
−時間の時系列データを次元圧縮して時系列データ群を
得て、時系列データ群と照合用低次圧縮時系列データ記
憶器６から読み出した照合用低次圧縮時系列データとを
時系列データ照合器７にて照合し、照合用低次圧縮時系
列データ群中から、時系列データ群に最も近いものを求
め、照合結果に基づいて不特定話者からの発生音声に基
づく言葉を認識する。

【００１６】次に周波数分析器２、部分周波数−時間パ
ターン作成器３、主成分分析器４、特徴抽出フィルタ５
のそれぞれについて具体的に説明する。

【００１７】周波数分析器２では、入力音声信号がＡ／
Ｄ変換され、Ａ／Ｄ変換された音声信号に対して高域強
調処理がなされ、高域処理されたＡ／Ｄ変換音声信号に
対して時間窓としてのハニング窓がかけられ、線形予測
（ＬＰＣ）分析によってＬＰＣ係数が求められ、このＬ
ＰＣ係数に対してフーリエ変換が行われて、周波数スペ
クトルが求められ、これを時間軸に沿って逐次求めるこ
とで、音声スペクトルの時間的変化を示すための周波数
−時間の時系列データに変換される。したがって周波数
分析器２では入力音声のサウンドスペクトルパターンで
ある周波数−時間パターンに実質的に展開されることに
なる。なおこの場合、周波数−時間の時系列データの各
時刻における周波数−時間の時系列データはＮ次ベクト
ルＸｉである。

【００１８】この周波数分析法に応じて特徴抽出フィル
タ５を作成すれば、音声情報の欠落が少ない。また、周
波数分析法に応じて特徴抽出フィルタ５を作成したとき
に音声情報に欠落がないような他の周波数分析法によっ
てもよい。したがって、周波数分析器２による方法によ
れば、所謂ＬＰＣスペクトル包絡による方法よりも、さ
らにベクトル次数の少ない周波数−時間パターンにも適
用することができる。この結果、周波数−時間の時系列
データ群によって実質的に音声信号の周波数−時間パタ
ーンが示される。

【００１９】部分周波数−時間パターン作成器３では、
周波数分析器２から出力される周波数−時間の時系列デ
ータ群中から、所定の小さな時間窓の範囲における周波
数−時間の時系列データが切り出される。このため、部
分周波数−時間パターン作成器３から出力される周波数
−時間の時系列データに基づく音声の周波数−時間パタ
ーンは、周波数分析器２から出力される周波数−時間の
時系列データに基づく音声の周波数−時間パターンの一
部分であって、部分周波数−時間パターンであるといえ
る。

【００２０】特徴抽出フィルタ５は、周波数−時間の時
系列データから情報の欠落を最小限に抑え、情報圧縮し
た時系列データを作成する。本例では情報の圧縮に主成
分分析を用いている。さらに詳細には部分周波数−時間
パターンをサンプルデータとして主成分分析を行った結
果の主成分のうち低次主成分において、周波数軸方向に
は低い周波数部分を用い、かつ時間軸方向には時間窓の
中央部分のみを用いて、畳み込み積分を行っている。

【００２１】さらに詳細に、例えば９名の異なる学習話
者の共通した１００語の発話データを学習音声信号群と
して用いた場合の例を説明する。

【００２２】この場合、発話データには、単語音声信号
区間中の発話音素と、発話音素の音声信号の時間軸上に
おける開始点と終了点とに対応がつけられたラベルデー
タとを持っているものとする。例えば図３（Ａ）に示す
ように、音素Ｅに対する開始点の時間ラベルａ、音素Ｅ
に対する終了点の時間ラベルでありかつ音素Ｆに対する
開始点の時間ラベルである時間ラベルｂ、音素Ｆに対す
る終了点の時間ラベルｃを持っている。

【００２３】部分周波数−時間パターン作成器３は、周
波数分析器２から出力される周波数−時間の時系列デー
タをラベルデータと共に、時間抽上の音素の中心位置、
図３（Ａ）に示す例では（ａ＋ｂ）／２、（ｂ＋ｃ）／
２を求め、この中心位置を中心に時間窓部分の周波数−
時間の時系列データを切り出す。

【００２４】すなわち、学習音声信号群に対して、部分
周波数−時間パターン作成器３によって、例えば３０ｍ
ｓの時間窓Ｄで切り出しを行い、部分周波数−時間の時
系列データ群を作成する。部分周波数−時間パターン作
成器３によって作成された部分周波数−時間の時系列デ
ータの時間窓Ｄによる切り出しは、図３（Ｂ）に示すよ
うに、音素Ｅに対しては時間ラベルａと時間ラベルｂと
の間の中央に時間窓Ｄがくるように、［｛（ａ＋ｂ）／
２｝−（Ｄ／２）］の位置から［｛（ａ＋ｂ）／２｝＋
（Ｄ／２）］の位置までが切り出され、音素Ｆに対して
は時間ラベルｂと時間ラベルｃとの間の中央に時間窓Ｄ
がくるように、［｛（ｂ＋ｃ）／２｝−（Ｄ／２）］の
位置から［｛（ｂ＋ｃ）／２｝＋（Ｄ／２）］の位置ま
でが切り出される。

【００２５】この切り出し処理を同じ音素のラベル区間
について行うことによって、同じ音素の周波数−時間の
時系列データを複数集めることができる。同じ音素の複
数集めた周波数−時間の時系列データの平均値を求め、
これを部分周波数−時間の時系列データとする。この部
分周波数−時間の時系列データを音素毎に作成すること
によって部分周波数−時間の時系列データ群が作成され
る。

【００２６】また、この切り出し処理を変化の少ない音
素毎、すなわち比較的定常的な音素毎に行ってもよい。

【００２７】この部分周波数−時間の時系列データ群か
ら、主成分分析器４によって主成分が求められる。

【００２８】部分周波数−時間の時系列データから主成
分分析器４による主成分の出力までの作用について図４
に基づいて説明する。図４においては、部分周波数−時
間の時系列データをパターンと略記してある。

【００２９】切り出された音素Ａの部分周波数−時間の
時系列データ群、音素Ｂの部分周波数−時間の時系列デ
ータ群、……、音素Ｚの部分周波数−時間の時系列デー
タ群は図４（Ａ）に模式的に示す如くであり、各音素Ａ
〜Ｚについての部分周波数−時間の時系列データ群の平
均値が求められる。音素Ａの部分周波数−時間の時系列
データ群の平均値、音素Ｂの部分周波数−時間の時系列
データ群の平均値、……、音素Ｚの部分周波数−時間の
時系列データ群の平均値は図４（Ｂ）に模式的に示す如
くである。

【００３０】各音素Ａ〜Ｚの部分周波数−時間の時系列
データの平均値は主成分分析器４によって、図４（Ｃ）
に模式的に示すように、主成分分析が行われる。主成分
分析の結果、図４（Ｄ）に模式的に示すように、第１主
成分、第２主成分、……、第Ｋ主成分（Ｚ＞Ｋ）が求め
られる。

【００３１】すなわち、主成分分析ではサンプルデータ
空間のベクトル次元数と同数の次元数の主成分が求めら
れ、サンプルデータの分散が最も多い軸を決める主成分
を第１主成分、分散が２番目に大きい軸を決める主成分
を第２主成分、以下同様に第Ｋ主成分が決まる。

【００３２】主成分の内の低次主成分は部分周波数−時
間の時系列データ群の特徴に多く含まれる成分の固有空
間を定義しており、音声信号の周波数−時間の時系列デ
ータに基づく周波数−時間パターン中に最も含まれる部
分の特徴を表している。そこで、音声信号に含まれる学
習話者の個人性に基づく成分や認識に悪影響を及ぼすと
考えられるノイズ成分は、低次主成分には含まれていな
いと考えられる。

【００３３】特徴抽出フィルタ５では、部分周波数−時
間パターンをサンプルデータとして、主成分分析を行っ
た結果の低次主成分において、周波数軸方向には低い周
波数部分を用い、かつ時間軸方向には時間窓Ｄの中央部
分のみを用いて畳み込み積分を行う。この畳み込み積分
を行うベクトルを特徴抽出ベクトルとも記す。

【００３４】例えば、２つの特徴抽出ベクトルの場合
は、第１主成分ベクトルの周波数軸方向には低い周波数
部分を用い、かつ時間軸方向には時間窓Ｄの中央部分の
みを用いて畳み込み積分を行うものを第１特徴抽出ベク
トルδ１ｉ、第２主成分ベクトルの周波数軸方向には低
い周波数部分を用い、かつ時間軸方向には時間窓Ｄの中
央部分のみを用いて畳み込み積分を行うものを第２特徴
抽出ベクトルδ２ｉと呼ぶことにする。

【００３５】この第１、第２特徴抽出ベクトルδ１ｉ、
δ２ｉを特徴抽出フィルタ５で用い、周波数分析器２か
ら出力される周波数−時間時系列データの各時刻におけ
る周波数−時間の時系列データと、第１、第２特徴抽出
ベクトルδ１ｉ、δ２ｉとの間で相関値を求める。この
各特徴抽出ベクトル毎の相関値出力をチャンネル出力と
も記す。この相関値出力を各チャンネル毎に正規化して
２チャンネルフィルタ出力とする。

【００３６】上記から明らかなように、特徴抽出フィル
タ５は２つの特徴抽出ベクトルδ１ｉ、δ２ｉで構成さ
れる場合を例に示せば、図２に示すように、周波数分析
結果のＮ次ベクトルＸｉと第１、第２の特徴抽出ベクト
ルδ１ｉ、δ２ｉとの積和演算を各時刻について積和演
算器５１１、５１２にてそれぞれ入力のＮ次ベクトルＸ
ｉに対して行って、各積和演算器５１１、５１２からの
出力を、正規化器５２１、５２２によってそれぞれにレ
ベルを正規化し、正規化された各正規化器５２１、５２
２からの出力を各チャンネルの出力として送出する。

【００３７】次に、照合用低次圧縮時系列データ群の作
成について説明する。

【００３８】各単語の学習音声信号が周波数分析器２に
供給されて、学習音声信号に基づく周波数−時間の時系
列データが作成される。この周波数−時間の時系列デー
タが既に学習音声信号群における音素に対して求めてお
いた低次主成分を基底とする特徴抽出フィルタ５に供給
され、特徴抽出フィルタ５において次元圧縮されて特徴
抽出フィルタ５の各チャンネルから時系列データが出力
され、この時系列データが照合用低次圧縮時系列データ
群とされる。

【００３９】このように作成された照合用低次圧縮時系
列データ群の構造は、図５に示すごとくであって、図５
（Ａ）、（Ｂ）、（Ｃ）はそれぞれ学習音声の発話者、
例えばａ′、ｂ′、ｃ′による同じ単語の学習音声によ
る場合の照合用低次圧縮時系列データ群であって、９名
の話者による１００単語に対する場合には９００個の照
合用低次圧縮時系列データ群が得られ、照合用低次圧縮
時系列データ群の各要素は学習音声信号の各発話単語名
とそれに対応する照合用低次圧縮時系列データの対で構
成される。この照合用低次圧縮時系列データ群は照合用
低次圧縮時系列データ記憶器６に記憶される。

【００４０】上記のように照合用低次圧縮時系列データ
群が照合用低次圧縮時系列データ記憶器６に記憶させて
ある状態で、不特定話者からの音声認識が行われる。不
特定話者からの音声信号は周波数分析器２によって周波
数分析され、既に学習音声信号群からの音声信号に基づ
いて予め特徴抽出フィルタ作成部αで求められた特徴抽
出フィルタ５に供給されて、特徴抽出フィルタ５におい
て次元圧縮処理がなされて、時系列データに変換され
る。

【００４１】不特定話者からの音声信号に基づく時系列
データは、学習音声信号群に基づいて照合時系列データ
作成部βで求められた照合用低次圧縮時系列データ群と
の間で時系列データ照合器７において照合されて、不特
定話者からの音声信号に基づく時系列データに最も近い
照合用低次圧縮時系列データが照合用低次圧縮時系列デ
ータ群の中から選び出され、選び出された照合用低次圧
縮時系列データに対する発話単語名が認識結果として出
力される。

【００４２】次に、本実施の形態における時系列データ
照合器７について、ＤＰ（dynamicprogramming ）法を
用いた照合の場合を例に説明する。

【００４３】ＤＰ法は、入力時系列データとあらかじめ
記憶された各時系列データ群との間で、非線形に時間伸
縮することで時間正規化を行い対応づけを行う照合法で
ある。この方法によれば、入力時系列データと予め記憶
された各時系列データとの間の時間正規化後の距離が定
義され、この距離が最小である時系列データが入力時系
列データを最もよく表すものとし、認識結果とするもの
である。本実施の形態では、このＤＰ法が不特定話者か
らの音声信号に基づく時系列データと照合用低次圧縮時
系列データとの間に適用されて、時間正規化後の最小距
離を持つ照合用低次圧縮時系列データに対応させた単語
名が出力される。

【００４４】次に、本実施の形態に基づく評価実験結果
について説明する。ここでは、テストサンプルとして、
話者認定評価用データベースの１０名の話者の１００単
語を用いた。

【００４５】テスト話者１名を除く９名の話者の発話デ
ータを学習音声信号群として用いて特徴抽出フィルタ作
成部αで特徴抽出フィルタ５を作成した。サンプルとし
て用いた音素は母音、破裂音、摩擦音、鼻音であり、部
分周波数−時間パターン作成器３を用いて、話者毎に部
分周波数−時間の時系列データを求め、この部分周波数
−時間の時系列データから主成分分析器４で主成分を求
め、この主成分のうち、第１、第２主成分において、周
波数軸方向には４．５ｋＨｚ以下の低い周波数部分で、
時間軸方向には時間窓Ｄの中央部分の１単位時間分のみ
の部分を用いて特徴抽出ベクトルδ１ｉ、δ２ｉとして
用いた。この特徴抽出ベクトルδ１ｉ、δ２ｉの形状の
一例を、横軸に周波数を縦軸に重み係数をとった場合を
図６に示す。

【００４６】時系列データ照合器７で用いる照合用低次
圧縮時系列データ群は、前記テスト話者１名を除く９名
の話者の発話データを学習音声信号群として、上記特徴
抽出フィルタ５を用いた照合時系列データ作成部βで９
００個の照合用低次圧縮時系列データを求めた。評価実
験では、テスト話者を変えながら行い、その都度、特徴
抽出フィルタ５を求め直し、照合用低次圧縮時系列デー
タを作成し直した。

【００４７】次に本発明の一実施の形態にかかる音声認
識装置の変形例について説明する。

【００４８】主成分の内の低次主成分は部分周波数−時
間の時系列データ群の特徴に多く含まれる成分の固有空
間を定義しており、音声信号の周波数−時間の時系列デ
ータに基づく周波数−時間パターン中に最も含まれる部
分の特徴を表して、音声信号に含まれる学習話者の個人
性に基づく成分や認識に悪影響を及ぼすと考えられるノ
イズ成分は、低次主成分には含まれていないと考えられ
ることは前記のとおりである。

【００４９】このため、本変形例では特徴抽出フィルタ
５における特徴抽出ベクトルδ１ｉ、δ２ｉに代わって
分散の大きい第１主成分から順次分散が減少する第４番
目の主成分を特徴抽出ベクトルとして用いてもよく、例
えば、情報の損失量の最小から最大の方向へ４つの主成
分を低次主成分として用いてもよい。

【００５０】上記の４つの主成分を低次主成分として用
いたときの本変形例における特徴抽出フイルタでは、上
記の低次主成分を基底として用いて、例えば４つの第
１、第２、第３、第４低次主成分ベクトルδ１ｉ′、δ
２ｉ′、δ３ｉ′、δ４ｉ′を特徴抽出フィルタの基底
として用い、周波数分析器２から出力される周波数−時
間の時系列データの各時刻における周波数−時間の時系
列データと第１、第２、第３、第４低次主成分ベクトル
δ１ｉ′、δ２ｉ′、δ３ｉ′、δ４ｉ′との間で相関
値を求める。この各低次主成分ごとの相関値出力をチャ
ンネルとも記す。この相関値を各チャンネルごとに正規
化して、４チャンネルのフィルタ出力とする。

【００５１】上記からも明らかなように、この変形例の
場合の特徴抽出フィルタは４つの低次主成分の場合を例
に示せば、図７に示すように、周波数分析結果のＮ次ベ
クトルＸｉと各低次主成分ベクトルδ１ｉ′、δ２
ｉ′、δ３ｉ′、δ４ｉ′との積和演算を各時刻におい
て積和演算器５１１′、５１２′、５１３′、５１４′
にてそれぞれ入力Ｎ次ベクトルＸｉに対して行って、各
積和演算器５１１′、５１２′、５１３′、５１４′か
らの出力を、正規化器５２１′、５２２′、５２３′、
５２４′によってそれぞれ各別にレベルを正規化して、
正規化された各正規化器５２１′、５２２′、５２
３′、５２４′からの出力を各チャンネルの出力として
送出する。

【００５２】次に、照合用低次圧縮時系列データ群の作
成について説明する。

【００５３】各単語の学習音声信号が周波数分析器２に
供給されて、学習音声信号に基づく周波数−時間の時系
列データが作成される。この周波数−時間の時系列デー
タが既に学習音声信号群における音素に対して求めてお
いた低次主成分を基底とする特徴抽出フィルタ５に供給
され、特徴抽出フィルタ５において次元圧縮されて特徴
抽出フィルタ５の各チャンネルから時系列データが出力
され、この時系列データが照合用低次圧縮時系列データ
とされる。

【００５４】このように作成された本変形例における照
合用低次時系列データの構成は、図８に示すごとくであ
って、図５（Ａ）、（Ｂ）、（Ｃ）、（Ｄ）はそれぞれ
学習音声の発話者、例えばａ′、ｂ′、ｃ′、ｄ′によ
る同じ単語の学習音声による場合の照合用低次圧縮時系
列データであって、９名の話者による１００単語に対す
る場合には９００個の照合用低次圧縮時系列データ群が
得られ、照合用低次圧縮時系列データ群の各要素は学習
音声信号の各発話単語名とそれに対応する照合用低次圧
縮時系列データの対で構成される。この照合用低次圧縮
時系列データ群は照合用低次圧縮時系列データ記憶器６
に記憶される。

【００５５】その他については、図６に示す特徴抽出ベ
クトルδ１ｉ、δ２ｉの形状以外は、上記した本発明の
実施形態の一形態にかかる音声認識の場合と同様であ
る。

【００５６】上記した本発明の実施の一形態にかかる音
声認識装置１において、２チャンネルに設定して特徴抽
出フィルタ５に図６に示した特徴抽出ベクトルδ１ｉ、
δ２ｉを用いた場合と、前記変形例において説明した低
次の４つの主成分分析結果を用いて３チャンネルに設定
した特徴抽出フィルタを用いた場合の音声認識結果を図
９に示す。

【００５７】図９において、ａは前者すなわち２チャン
ネルに設定して特徴抽出フィルタ５に図６に示した特徴
抽出ベクトルを用いた場合の認識結果を示し、ｂは後者
すなわち低次の４つの主成分分析結果を用いて３チャン
ネルに設定した特徴抽出フィルタを用いた場合の認識結
果を示している。両者共良好な認識結果が得られている
が、前者の方がさらによいことが判る。

【００５８】主成分分析を行うため、周波数分析の際の
切り出しの周波数、時間窓Ｄは０〜８ｋＨｚ、３０ｍｓ
ｅｃ幅であり、本変形例においては周波数は８ｋＨｚ
（３２点）、時間窓Ｄは３０ｍｓｅｃ（＝５ｍｓｅｃ×
６、６単位時間）であるのに対し、一実施の形態では周
波数は０〜４．５ｋＨｚ（１８点）であり、時間窓Ｄは
５ｍｓｅｃ（１単位時間）であって、周波数はほぼ１／
２であり、時間幅は１／６である。これは、音声認識の
ために定常的に安定な、周波数範囲かつ時間幅の部分を
切り出すのであるが、０〜４．５ｋＨｚ、５ｍｓｅｃの
範囲でも十分に音声の話者依存性の少ない特徴を抽出す
ることができることが判ったためである。

【００５９】したがって、一単位時間当たりの音声の特
徴抽出のために必要とする計算量は、一実施の形態では
周波数で１８点、時間軸で１点であるため合計１８回の
乗算が必要であったのに対し、変形例では周波数で３２
点、時間軸で６点で合計１９２回の乗算を必要とし、一
実施の形態の場合、一単位時間の低次圧縮にかかる計算
速度は変形例の場合の１／１０．６倍に短縮されて、大
幅な計算量の削減が図れ、かつ同程度以上の良好な音声
認識結果が得られている。

【００６０】さらに、参照時系列ベクトルを記憶してお
くためのメモリの記憶容量も、用いるチャンネル数が一
実施の形態の場合は２チャンネル、変形例の場合は３チ
ャンネルのために、一実施の形態の場合では２／３倍に
削減できることになる。

【００６１】

【発明の効果】以上説明したように、本発明に係る音声
認識装置によれば、特徴抽出のための演算も、かつ照合
のための処理も簡単なため、その構成は簡単ですみ、か
つ不特定話者の多様性に対しても誤認識が少なく、音声
認識をすることができるという効果が得られる。さら
に、本発明によれば、音声の特徴抽出に必要な計算量の
削減と、照合に必要な計算量の削減と参照時系列ベクト
ルを記憶しておくためのメモリー容量を削減しつつ、良
好な音声認識特性を得ることができるという効果が得ら
れる。

【図面の簡単な説明】

【図１】本発明の一実施の形態にかかる音声認識装置の
構成を示す模式ブロック図である。

【図２】本発明の一実施の形態にかかる音声認識装置に
おける特徴抽出フィルタの構成を示すブロック図であ
る。

【図３】本発明の一実施の形態にかかる音声認識装置に
おける部分周波数−時間パターン作成器の作用の説明に
供する模式図である。

【図４】本発明の一実施の形態にかかる音声認識装置に
おける部分周波数−時間パターン作成器および主成分分
析器の作用の説明に供する模式図である。

【図５】本発明の一実施の形態にかかる音声認識装置に
おける照合用低次圧縮時系列データの構造の一例を示す
模式図である。

【図６】本発明の一実施の形態にかかる音声認識装置に
おける特徴抽出フィルタの特徴抽出ベクトルを示す図で
ある。

【図７】本発明の一実施の形態にかかる音声認識装置の
変形例における特徴抽出フィルタの他の構成を示すブロ
ック図である。

【図８】本発明の一実施の形態にかかる音声認識装置の
変形例における照合用低次圧縮時系列データの構造の一
例を示す模式図である。

【図９】本発明の一実施の形態にかかる音声認識装置に
よる音声認識結果を示す特性図である。

【符号の説明】

α 特徴抽出フィルタ作成部 β 照合時系列データ作成部 γ 不特定話者音声認識部１音声認識装置２周波数分析器３部分周波数−時間パターン作成器４主成分分析器５特徴抽出フィルタ６照合用低次圧縮時系列データ記憶器７時系列データ照合器

Claims

【特許請求の範囲】

【請求項１】音声信号を周波数分析して得た周波数スペ
クトルを、時間軸に沿って順次求めて時系列データ群に
変換する周波数分析手段と、複数の学習話者から発話さ
れた音声に基づく音声信号が入力された前記周波数分析
手段からの出力時系列データを予め定めた時間窓で切り
出す切り出し手段と、前記切り出し手段によって切り出
された時系列データ群を用いて主成分分析を行う主成分
分析手段と、前記主成分分析により得た主成分に基づき
入力時系列データを低次の時系列データに圧縮する特徴
抽出フィルタ手段とを備え、前記複数の学習話者から発
話された音声に基づく低次の時系列データを参照用低次
時系列データとし、該参照用低次時系列データと不特定
話者から発話された音声に基づく低次の時系列データと
を照合して照合結果に基づいて音声認識をすることを特
徴とする音声認識装置。
【請求項２】請求項１記載の音声認識装置において、特
徴抽出フィルタ手段は音声スペクトルより切り出された
部分音声スペクトルデータをサンプルとして求めた主成
分中の低次主成分における低い周波数部分のみを用いて
畳み込み積分を行うことを特徴とする音声認識装置。
【請求項３】請求項１記載の音声認識装置において、特
徴抽出フィルタ手段は音声スペクトルより切り出された
部分音声スペクトルデータをサンプルとして求めた主成
分中の低次主成分における時間窓の中心部分のみを用い
て畳み込み積分を行うことを特徴とする音声認識装置。
【請求項４】請求項１記載の音声認識装置において、特
徴抽出フィルタ手段は音声スペクトルより切り出された
部分音声スペクトルデータをサンプルとして求めた主成
分における低い周波数部分および時間窓の中心部分を用
いて畳み込み積分を行うことを特徴とする音声認識装
置。
【請求項５】請求項１記載の音声認識装置において、特
徴抽出フィルタ手段は主成分分析により得た主成分中の
低次主成分を基底とすることを特徴とする音声認識装
置。
【請求項６】請求項１記載の音声認識装置において、参
照用低次時系列データは、複数の学習話者から発話され
た音声に基づく音声信号が入力された周波数分析手段か
らの出力時系列データを特徴抽出フィルタ手段に供給し
特徴抽出フィルタ手段にて圧縮された低次の時系列デー
タであることを特徴とする音声認識装置。
【請求項７】請求項１記載の音声認識装置において、複
数の学習話者から発話された音声に基づく音声信号が入
力された周波数分析手段からの出力時系列データを特徴
抽出フィルタ手段に供給し特徴抽出フィルタ手段にて圧
縮された低次の時系列データを参照用時系列データとし
て記憶する記憶手段を備え、不特定話者から発話された
音声に基づく低次の時系列データと記憶手段から読み出
した参照用時系列データとを照合して音声認識をするこ
とを特徴とする音声認識装置。
【請求項８】請求項１記載の音声認識装置において、不
特定話者から発話された音声に基づく低次の時系列デー
タは、不特定話者から発話された音声に基づく音声信号
が入力された周波数分析手段からの出力時系列データを
特徴抽出フィルタ手段に供給し特徴抽出フィルタ手段に
て圧縮された低次の時系列データであることを特徴とす
る音声認識装置。
【請求項９】請求項１記載の音声認識装置において、切
り出し手段は複数の学習話者の、同じ音素毎に時系列デ
ータを切り出し、複数の学習話者の平均時系列データを
作成することを特徴とする音声認識装置。
【請求項１０】請求項１記載の音声認識装置において、
切り出し手段は比較的定常的な音素毎に、時系列データ
を切り出すことを特徴とする音声認識装置。