JPH08152898A

JPH08152898A - 時系列仮説環帰を用いた音声認識装置

Info

Publication number: JPH08152898A
Application number: JP6317689A
Authority: JP
Inventors: Hideto Tomabechi; 英人苫米地
Original assignee: JustSystems Corp
Current assignee: JustSystems Corp
Priority date: 1994-11-29
Filing date: 1994-11-29
Publication date: 1996-06-11

Abstract

(57)【要約】【目的】本発明の目的は、雑音等を除去して音声情報
だけを取り出す解析を迅速に行なうと共に、予め登録さ
れている“音”のモデルデータと認識用の“音”の先頭
位置とを合わせる処理を迅速に行なうようにした音声認
識装置を提供することにある。【構成】連続する音声波形の時間軸を特定単位の波形
情報に分割する分割手段と、当該波形情報毎に音声デー
タを解析する解析手段と、当該波形情報を連結して連続
する音声情報と照合する際に、当該波形情報を任意に繰
返し挿入又は省略することによって音声の長さを調節す
る調節手段とを具備することにより、自由に音の長さが
変化する入力された連続音声の波形パターンに“音”の
モデルデータをマッチングさせること、“音”のモデル
データと入力された連続音声波形の開始タイミングを合
せること、現在解析中の音に対して、前に現れる音素の
状態による影響を容易に回避できること、高速な音声の
認識を可能としている。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、連続する音声波形の時
間軸を特定単位の波形情報に分割する分割手段と、当該
波形情報毎に音声データを解析する解析手段と、前記波
形情報を連結して連続する音声情報と照合する際に、前
記波形情報を任意に繰返し挿入又は省略することによっ
て音声の長さを調節する調節手段とを具備した時系列仮
説環帰を用いた音声認識装置に関し、本発明は、音声情
報を電算機によって認識させる必要のある全ての装置に
適用可能である。例えば音声入力装置，音声入力ワープ
ロ，自動翻訳電話などに適用可能である。

【０００２】

【従来の技術】従来の音声認識装置は、連続して入力さ
れる音声情報を電算機データに変換し、その電算機デー
タを時間軸と音の高さ軸の２次元波形情報として取り扱
うようにしていたが、入力される音声情報の全情報を一
括して解析していた。

【０００３】そのため、雑音等を除去して音声情報のみ
を取り出す解析に多くの処理時間を要していた。そし
て、音声情報は一般的に連続して入力されるので、予め
各電算機に登録している“音”のモデル波形と“音”の
先頭位置とを合わせるのに多くの処理時間を必要として
いた。また、入力される音声は一般的に“音”の長さが
自由に変化するため、同一の“音”でも波形パターンの
時間軸方向への伸縮を考慮する必要があり、この処理に
多大な処理時間を要していた。更に、連続して入力され
る音声情報では、前の“音”によって処理対象の“音”
の先頭部分が違った発音になると言う、前の“音”が処
理対象の“音”に影響を及ぼす場合の処理ができないと
言う欠点があった。

【０００４】

【発明が解決しようとする課題】本発明は上述のような
事情よりなされたものであり、本発明は音声認識装置に
関し、本発明の目的は、連続して入力される音声情報を
時間軸方向に対して短い波形に区切ることによって、雑
音等を除去して音声情報だけを取り出す解析を迅速に行
なうと共に、予め登録されている“音”のモデル波形と
認識用の“音”の先頭位置とを合わせる処理を迅速に行
なうようにすることである。又、同一の“音”に対する
波形パターンの時間軸方向の処理時間を短縮化すると共
に、前の“音”が処理対象の“音”に影響を及ぼさない
ようにすることも目的としている。

【０００５】

【課題を解決するための手段】本発明は、音声情報を電
算機データに変換し、前記電算機データを時間軸と音の
周波数軸と音のエネルギー軸の３次元波形情報として取
り扱い、前記３次元波形情報と予め電算機に登録してい
る“音”のモデルデータとを比較することによって、音
声情報を認識する時系列仮説環帰を用いた音声認識装置
に関するもので、本発明の上記目的は、連続する音声波
形の時間軸を特定単位の波形情報に分割する分割手段
と、当該波形情報毎に音声データを解析する解析手段
と、当該波形情報を連結して連続する音声情報と照合す
る際に、当該波形情報を任意に繰返し挿入又は省略する
ことによって音声の長さを調節する調節手段とを設ける
ことにより、１）自由に音の長さが変化する入力された連続音声の波
形パターンに“音”のモデルデータをマッチングさせる
ことと、２）“音”のモデルデータと入力された連続音声波形の
開始タイミングを合せることと、３）現在解析中の音に対して、前に現れる音素の状態に
よる影響を容易に回避できることと、４）高速な音声の認識を可能とすること、とを達成して
いる。

【０００６】

【作用】本発明の音声認識装置では、連続して入力され
る音声情報を、時間軸方向に対して短い波形に区切って
解析を実行しているので、各短い波形単位の処理時間を
非常に短くすることが可能であり、連続して入力される
音声情報全体の処理時間を比較しても、処理時間を短縮
することが可能となる。また、短い波形単位で処理を行
うため、並列処理を実現することが容易であり、ＣＰＵ
の数を増やすことによって、更に高速な処理を実現する
ことができる。更に、短い波形単位で処理を実行するた
め、波形パターンの長さが短くなることによって、予め
電算機に登録している“音”のモデルデータとの時間軸
に対するずれを修正する場合の処理情報量が少なくな
る。このため、容易にかつ短い処理時間で、予め電算機
に登録している“音”のモデルデータとの先頭位置を合
わせることが可能となる。一方、入力される音声は
“音”の長さが自由に変化するが、これに対しても、短
い波形を連結して連続波形にする際に、短い波形を繰り
返すかもしくは省略することによって、“音”の長さの
自由な変化にも容易に対応することができる。

【０００７】更には、現在解析中の“音”の前の“音”
の影響によって、解析中の“音”の先頭部分が影響を受
け、波形のパターンが解析中の“音”単独で発音された
場合と異なる波形となる場合があるが、この場合でも、
本発明の音声波形を時間軸に対して短い波形単位で処理
を実行する方法によれば、その影響を受ける部分は分割
した短い波形単位の先頭より数個となるので、この部分
を無視、或いは２つの“音”の連続発音の場合の波形パ
ターンの影響を予め登録することで、上記問題にも確実
に対処することができる。

【０００８】

【実施例】本発明の実施例を、以下に図面を参照して説
明する。

【０００９】図１は入力された音声“とみ”を電算機デ
ータに変換し、縦軸を音の高さ、横軸を時間として表現
した場合の波形データ例である。電算機に入力された音
声を、図１に示すような波形データに変換する場合、全
てのデータを一括して処理しようとすると、処理対象と
なる音声の発話時間が長くなるほどデータ量が多大なも
のとなり、電算機のメモリ容量、ＣＰＵの処理能力とも
大きくかつ高性能なものが必要となる。これに対し、図
２は、図１に示す波形データをある特定の時間単位で６
分割した場合の波形データ例である。このように時間軸
に対して分割した場合、各々の処理対象データのサイズ
が小さくなるので、電算機のメモリ容量、ＣＰＵの性能
共それほど大容量、高性能である必要はない。また、各
々の処理対象データは、音声入力時間が長くなっても大
きさに変化がなく、ただ、処理対象データの個数が増加
するだけなので、計算コストが明確となり余分なメモリ
が不必要となる。

【００１０】また、図３は予め登録された音“み”に対
するモデル波形であるが、この“音”と照合する場合
も、図２の特定の時間単位で６分割した波形データの左
から４〜６番目のいずれかが、図３に示す予め登録され
た音“み”に対するモデル波形の一部とマッチングすれ
ば良く、比較するデータのサイズが小さくてすみ、高速
に処理することが可能となる。また、ここで仮に図４に
示すように、図２に示す特定の時間単位で６分割した波
形データの左から５番目の波形が、図３に示す予め登録
された音“み”に対するモデル波形の一部とマッチング
したとする。ここで、マッチングした部分、即ち図２の
左から５番目の“音”が“み”の発音のどの部分かが解
るので、“音”の先頭位置合わせも容易になる。

【００１１】図５は、“み”の発音を図２に示す発音の
２倍の長さで発音した場合の波形データを６分割した波
形データである。この場合、本発明の手法では、入力音
声を時間軸方向に分割しているため、図５の左から３番
目の波形データが、図３に示す予め登録された音“み”
のモデル波形の一部分と一致し、図５の左から２，４，
５番目の各波形を飛ばし、左から１，３，６番目の各波
形と、図３に示す予め登録された音“み”のモデル波形
とを比較することによって、この“音”が“み”である
と認識することが可能となる。入力音声データの長さが
短い場合に対しても、同様の処理を実行することで認識
率を向上することができる。図６は、“み”の発音を図
２に示す入力データの２／３の長さに縮めた場合の波形
データである。この場合、分割した波形データの左側
が、図３に示す予め登録された音“み”のモデル波形の
左側と、分割した波形データの右側とが、図３に示す予
め登録された音“み”のモデル波形の右側と部分的に一
致する。これによって、図６に示す波形データが“み”
であることを認識することができる。また、図２に示す
音“み”の波形データは、図３に示す予め登録された音
“み”のモデル波形及び波形の先頭部分が異なってい
る。これは、“み”の前に“と”が発音され、この影響
による波形の変化であるが、本発明では、図２に示す６
分割された波形データの左から５，６番目のデータが、
予め登録された音“み”のモデル波形の中途部と末尾部
分とが一致していることにより、この“音”が“み”で
あると認識可能である。

【００１２】上述の如き原理に基づいて、本発明の認識
過程は入力層、隠れ層（中間層）及び出力層の３層で成
っており、入力層は入力ユニット及びコンテキストユニ
ットを含んでいる。コンテキストユニットは隠れ層の活
性状態のコピーを維持し、隠れ層と同一のサイズを有し
ている。出力層は出力ユニット及び仮説ユニットで成っ
ており、仮説ユニットは、２値の糸を持った認識用
“音”の存在を実際に示すものである。接続は、入力ユ
ニット及びコンテキストユニットから隠れ層まで、並び
に隠れ層から出力ユニット及び仮説ユニットまで全てフ
ィードフォワード接続である。全ての接続は訓練可能で
あり、隠れ層からコンテキスト層への接続を除いて、簡
易なコピー接続である。

【００１３】ネットワークへの入力は記録された“音”
のスペクトルで成っている。実際においては、各“音”
は８ビットで、ハミング（Ｈａｍｍｉｎｇ）窓を有し、
高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａ
ｎｓｆｏｒｍ；ＦＴＴ）で計算されながら、２２ＫＨｚ
のサンプリング速度で記録される。スペクトルは図７に
示すように約２２．２２ミリ秒（５１２点）の薄片（ス
ライス）に切断され、各薄片は順番にネットワークに供
給される。入力信号の実際の長さは固定されておらず、
記録された長さに依存している。ここでは、各“音”の
異なった薄片の特別なシーケンスを学習するためのネッ
トワークを望むために、環帰ニューラルネットワークを
用いている。これは、網を介して各薄片を通過すること
によって行なわれると共に、各処理の後、隠れ層の内容
をコンテキスト層にコピーすることによって行なわれ
る。次の処理において、この情報は次の薄片と共に隠れ
層にバック入力される。コンテキストの機能は周波数の
シーケンスを学習するネットワークを持つために、短期
間メモリを具備している。しかし、ここでは異なったシ
ーケンスを学習するだけのネットワークを望み、又、次
のような薄片をも予想している。かかる機能を達成する
ために、ここでは入力として時間“ｔ”、出力として薄
片“ｔ＋１”の薄片を有するネットワークを訓練する。

【００１４】各“音”に対する次の時間薄片を予想する
ネットワークを訓練する間、これと同時に、仮説ユニッ
ト内で各“音”に対する特別な仮説を生成するようにネ
ットワークを訓練する。それで訓練後に、ネットワーク
は網を介して通過した各“音”に対する特別な表現を示
すことができ、それ故に認識“音”の即時的な仮説を得
ることができる。全ての時間薄片はネットワークを介し
て前方に通過し、出力は目標出力と比較される。目標出
力は、訓練される“音”に対する次の時間薄片及びコー
ドである。それから誤差は後方に伝達される。しかし、
重みの更新は、“音”が完全に通過した後にのみ行なわ
れる。かかるバックプロパゲーションアルゴリズムは、
カーネギーメロン大学１９８８年９月発行、Ｓ．Ｆａｈ
ｌｍａｎ著の技術レポート＃ＣＭＵ−ＣＳ−８８−１６
２の“ＡｎＥｍｐｉｒｉｃａｌＳｔｕｄｙｏｆ
ＬｅａｒｎｉｎｇＳｐｅｅｄｉｎＢａｃｋ−Ｐｒ
ｏｐａｇａｔｉｏｎＮｅｔｗｏｒｋｓ”に記載されて
いる。

【００１５】図８は本発明の音声認識装置の構成例を示
す図であり、音はマイクロホン１を通して分割手段２に
入力され処理される。分割手段２は、連続する波形の時
間軸を特定単位の短い波形に分割し、分割された短い波
形は解析手段３に入力される。解析手段３は短い波形情
報毎に解析する部分であり、解析手段３には、予め登録
されている“音”のデータが登録データ４から入力され
ている。又、解析手段３に調節手段５が接続されてお
り、調節手段５は短い波形を連結して連続する音声情報
と照合する際に、特定の短い波形を任意に繰返して挿入
することによって音声の長さを調節するようになってい
る。

【００１６】信号処理のうちでスペクトルの分解は図９
に示すように行なわれ、先ず信号は１１ＫＨｚでサンプ
リングされて語の記録が実施される（ステップＳ１）。
そして、“音”の抽出が７５ミリ秒単位で行われ（ステ
ップＳ２）、Ｈａｍｍｉｎｇ窓及びＦＴＴが行なわれて
（ステップＳ３）、各“音”のスペクトルが得られる
（ステップＳ４）。

【００１７】又、図１０は分離された“音”として記録
された“あ”の波形例を示しており、仮説の表現を“ま
え”の例として示すと図１１の如くなり、得られた仮説
は図１２である。

【発明の効果】以上のように、本発明を用いることによ
って、雑音等を除去し音声情報のみを取り出す解析に要
する処理時間を短縮することが可能である。また、音声
情報は、一般的に連続して入力されるので、予め電算機
に登録している各“音”のモデルデータと“音”の先頭
位置とを合わせるのに多くの処理時間を必要としていた
が、この処理も高速に実行することが可能となる。更
に、“音”の長さの変化に対する処理も容易にかつ高速
に実行できるようになる。また、連続して入力される音
声情報では、前の“音”によって処理対象の“音”の先
頭部分が違った場合になると言う、前の“音”が処理対
象の“音”に影響を及ぼす場合の処理が可能になる。以
上のことが高速もしくは可能となることにより、より高
速かつ正確な音声が可能な装置となる。

【図面の簡単な説明】

【図１】図１は入力された音声“とみ”を電算機データ
に変換し、縦軸を音の高さ、横軸を時間として表現した
波形データである。

【図２】図２は、図１に示す波形データをある特定の時
間単位で６分割した場合の波形データである。

【図３】図３は予め登録された音“み”に対するモデル
波形である。

【図４】図４は、図３に示す音“み”に対するモデル波
形の一部分と、図２に示す入力音声の波形の６分割のう
ち左から５番目がマッチングしたことを示す図である。

【図５】図５は、“み”の発音を図２に示す発音の２倍
の長さで発音した場合の波形データを６分割した波形デ
ータである。

【図６】図６は、“み”の発音を図２に示す入力データ
の２／３の長さに縮めた場合の波形データである。

【図７】図７は本発明による音の時間薄片の様子を示す
図である。

【図８】図８は本発明の構成例を示すブロック図であ
る。

【図９】図９はスペクトルの分解を示す流れ図である。

【図１０】図１０は分離された“音”として記録された
“あ”の波形例を示す図である。

【図１１】図１１は仮説の表現例を示す図である。

【図１２】図１２は得られた仮説例を示す図である。

【符号の説明】

１マイクロホン２分割手段３解析手段４登録データ５調節手段６出力部

Claims

【特許請求の範囲】

【請求項１】音声情報を電算機データに変換し、前記
電算機データを時間軸と音の周波数軸と音のエネルギー
軸の３次元波形情報として取り扱い、前記３次元波形情
報と予め電算機に登録している“音”のモデルデータと
を比較することによって、音声情報を認識する音声認識
装置において、連続する音声波形の時間軸を特定単位の
波形情報に分割する分割手段と、当該波形情報毎に音声
データを解析する解析手段と、当該波形情報を連結して
連続する音声情報と照合する際に、当該波形情報を任意
に繰返し挿入又は省略することによって音声の長さを調
節する調節手段とを具備することにより、１）自由に音の長さが変化する入力された連続音声の波
形パターンに“音”のモデルデータをマッチングさせる
ことと、２）“音”のモデルデータと入力された連続音声波形の
開始タイミングを合せることと、３）現在解析中の音に対して、前に現れる音素の状態に
よる影響を容易に回避できることと、４）高速な音声の認識を可能とすることと、を特徴とす
る時系列仮説環帰を用いた音声認識装置。