JP2000250577A

JP2000250577A - 音声認識装置及び同装置に使用される学習方法ならびに学習装置及び同方法がプログラムされ記録された記録媒体

Info

Publication number: JP2000250577A
Application number: JP11047262A
Authority: JP
Inventors: Mizuho Inoue; みづほ井上; Yoshitake Suzuki; 義武鈴木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1999-02-24
Filing date: 1999-02-24
Publication date: 2000-09-14

Abstract

(57)【要約】【課題】骨導マイクロホンが持つ周波数特性の改善を
はかり音声認識に用いる。合わせて騒音環境下での認識
性能の向上をはかる。【解決手段】第一の受音器１０１で収録された音声入
力パターン（骨導音）を第一のコードブック１１０を用
いて特徴ベクトルを選択して出力し、そのインデックス
に対応する第二のコードブック１２１に記憶されている
補正ベクトルを選択し、前記両ベクトルを加算し接続す
ることにより前記第一の受音器より広い周波数帯域で受
音感度が確保される第二の受音器１１２で収録された音
声（気導音）の特徴ベクトルを推定する。また、推定さ
れた音声を音声認識対象として用い、参照用パターンと
して音声辞書２１３に格納された音声パラメータを順次
与え両パターンの照合を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、騒音環境下でも認
識性能の高い、音声認識装置及び同装置に使用される学
習方法ならびに学習装置、及び同方法がプログラムされ
記録される記録媒体に関する。

【０００２】

【従来の技術】騒音環境下でも認識性能の高い音声認識
装置を実現する方法が従来から提案されている。例え
ば、（１）予め音声入力のない時点での騒音を測定し、
音声入力時には予め測定した騒音の成分を減じる方法、
（２）音声入力用と騒音入力用の２個のマイクロホンを
用いて騒音入力用マイクロホンへの入力信号の成分を音
声入力用マイクロホンへの入力信号から減じる方法、
（３）予め測定した騒音で音声認識装置の辞書を学習す
る方法、（４）受音器として骨導マイクロホンを使用す
る方法、などがあった。しかしながら上述した従来のい
ずれの方法によっても以下に示すように認識性能の向上
のために問題を残している。具体的に、（１）に示す方
法では、騒音の性質が常に一定の場合以外には効果が低
下する。また、（２）に示す方法では、騒音の性質によ
らずある程度の効果はあるものの、マイクロホン同士が
互いに近ずき過ぎて設置されると、騒音用マイクロホン
に音声が混入し、騒音成分と共に音声成分の一部までも
減じられてしまう。逆にマイクロホン同士が離れ過ぎて
配置されると、両者に入力される騒音の性質が異なって
しまうため、騒音成分の正確な減算ができない。更に、
複数のマイクロホンを設置するために装置規模が大きく
なったり、発声者の位置が制限されるといった諸々の問
題を有していた。また、（３）に示す方法では、学習時
と認識時における騒音の性質が異なると効果が低下す
る。（４）に示す方法では、原理的に騒音の影響を受け
難い利点はあるが、受音した音声の周波数帯域が狭いた
め、音声情報が欠落するといった問題を有していた。

【０００３】

【発明が解決しようとする課題】一方、音声入力用マイ
クロホンが持つマイクロホン特性の差や、音声入力から
音声認識に至る伝送路特性の差を補正する方法としてフ
ィルタを用いる方法が提案されている。そこで、音声の
周波数帯域が狭い骨導マイクロホン（広い周波数帯域に
渡って受信できる気導マイクロホンに比べ、受信できる
周波数帯域が制限されるが空気中を伝播する騒音成分の
影響が少ない）の特性を、周波数帯域が広いマイクロホ
ン特性に補正するフィルタを用いる方法もあるが実用に
十分な効果を得るには至っていないのが現状である。本
発明は上記事情に基づいてなされたものであり、騒音の
影響を受け難い骨導マイクロホンを受音器として用い、
周波数特性を気導マイクロホンが持つ特性に近づけるこ
とにより、騒音環境下における音声認識性能の向上を、
発声者の位置を制限することなく、装置規模を増大させ
ることなく、かつ、従来の音声認識装置にも容易に適用
できる、音声認識装置及び同装置が使用する学習方法な
らびに学習装置、及び同方法がプログラムされ記録され
る記録媒体を提供することを目的とする。

【０００４】

【課題を解決するための手段】本発明の音声認識装置
は、音声信号を第一の受音器により受音し、受音した音
声信号から、予め定めた時間長のフレーム毎に特徴ベク
トルを抽出する手段と、抽出された特徴ベクトルを一時
的に記憶する手段と、第一の受音器で予め受音した音声
信号から抽出した代表的な有限個の特徴ベクトルを第一
のセットとして記憶する手段と、前記第一の受音器で予
め受音した音声信号の特徴ベクトルと前記第一の受音器
よりも広い周波数帯域で受音感度が確保される第二の受
音器で予め受音した音声信号の特徴ベクトルとの差分を
用いて算出した代表的な有限個の補正ベクトルを第二の
セットとして記憶する手段と、前記第一のセットに属す
る特徴ベクトルと前記第二のセットに属する各々の補正
ベクトルを対応付ける手段と、前記第一のセットに属す
る各々の特徴ベクトルに対して、前記第一の受音器で受
音した音声信号から抽出された特徴ベクトルの類似度を
算出する手段と、類似度の最も高い特徴ベクトルを前記
第一のセットの中から選択し、このベクトルに対応する
前記第二のセットに属する補正ベクトルを抽出する手段
と、前記第一の受音器で受音した音声信号から抽出され
た特徴ベクトルに対して前記抽出された補正ベクトルを
加算して生成される特徴ベクトルをフレーム毎に算出す
る手段と、この特徴ベクトルの系列に対し、予め辞書と
して記憶された特徴ベクトル系列との間で類似度を照合
する手段と、照合された中から最も類似度の高い辞書の
情報を出力する手段とを備えることを特徴とする。

【０００５】本発明の音声認識装置のコードブック学習
方法は、第一の受音器と、該第一の受音器より広い周波
数帯域で受音感度が確保される第二の受音器とで収録さ
れた受音パターンを所定長の区間毎に切り出して特徴量
を算出し、一方の受音器を介して抽出された特徴量をコ
ードブックに記憶されたコードベクトルと比較すること
により最も類似度の高い特徴ベクトルのインデックスを
出力し、このインデックスに対応する他方のコードブッ
クに記憶された補正ベクトルを出力することを特徴とす
る。

【０００６】本発明の音声認識装置のコードブック学習
装置は、第一の受音器と、該第一の受音器より広い周波
数帯域で受音感度が確保される第二の受音器で収録され
る受音パターンを所定の時間長の区間毎に切り出して特
徴量を算出し、コードブックを参照することによって特
徴ベクトルを抽出し、予め辞書として記憶されたコード
ベクトルとの間で類似度を照合することにより、照合さ
れた中から最も類似度の高い辞書情報を認識結果として
出力する音声認識装置において、音声信号を第一の受音
器により受音し、受音した音声信号から、所定の時間長
のフレーム毎に特徴ベクトルを抽出する手段と、抽出さ
れた特徴ベクトルを一時的に記憶する手段と、前記第一
の受音器で予め受音した音声信号から抽出した代表的な
有限個の特徴ベクトルを第一のセットとして記憶する手
段と、前記第一の受音器で予め受音した音声信号の特徴
ベクトルと前記第二の受音器で予め受音した音声信号の
特徴ベクトルとの差分を用い算出した代表的な有限個の
補正ベクトルを第二のセットとして記憶する手段と、前
記第一のセットに属する各々の特徴ベクトルと前記第二
のセットに属する各々の補正ベクトルを対応付ける手段
とを具備することを特徴とする。

【０００７】本発明の記録媒体は、第一の受音器と、該
第一の受音器より広い周波数帯域で受音感度が確保され
る第二の受音器で収録された受音パターンを所定時間長
の区間毎に切り出して特徴量を算出し、コードブックを
参照することによって特徴ベクトルを抽出する音声認識
装置のコードブック学習装置に用いられ、前記第一の受
音器と、第二の受音器で受音されたアナログ信号を適切
なサンプリング周波数でディジタル信号に変換し、それ
ぞれに用意されるサンプリングデータバッファに格納す
るステップと、それぞれのサンプリングデータバッファ
に格納されたデータをフレーム毎にデータの特徴量を算
出するステップと、フレーム毎に算出されるパワーと事
前に設定された閾値とを比較することにより、音声の開
始フレーム及び終了フレームを決定するステップと、適
切な単語の発声がある間、前記音声の開始フレームと終
了フレームの情報に基づき当該範囲の特徴量のみを特徴
ベクトルとして第一・第二のベクトルバッファに格納す
るステップと、前記第一のベクトルバッファに格納され
た特徴ベクトルから代表的な特徴ベクトルを生成し、第
一のコードブックに格納するステップと、前記第一のベ
クトルバッファに格納された特徴ベクトルを、事前に生
成され前記第一のコードブックに格納された特徴ベクト
ルに基づいてフレーム毎ベクトル量子化するステップ
と、前記第一のコードブックの特徴ベクトルの中で最も
類似度の高い特徴ベクトルのインデックスを前記第一の
特徴ベクトルに付与するステップと、前記第二のベクト
ルバッファに格納された特徴ベクトルと第一のベクトル
バッファに格納された特徴ベクトルとの差分をフレーム
毎算出し、その差分を特徴差分データバッファに格納す
るステップと、前記第一のベクトルバッファに格納され
た特徴ベクトルに対応する特徴差分データに対し、前記
第一の特徴ベクトルに付与されたインデックスと同じイ
ンデックスを付与するステップと、前記特徴差分データ
に付与されたインデックス毎に特徴差分データをクラス
タリングし、クラスタに含まれるデータを平均化するこ
とにより代表的な特徴補正ベクトルを生成して前記第二
のコードブックに格納するステップが記録されることを
特徴とする。

【０００８】また、受音器を介して収録される音声入力
パターンを所定時間長の区間毎に切り出して特徴量を抽
出し、コードブックを参照することにより特徴ベクトル
を抽出し、予め辞書として記憶されたコードベクトルと
の間で類似度を照合することにより、照合された中から
最も類似度の高い辞書情報を出力する音声認識装置に用
いられ、前記受音器で受音されたアナログ信号を適切な
サンプリング周波数によりディジタル信号に変換しサン
プリングデータバッファに格納するステップと、サンプ
リングデータバッファに１フレーム分の信号が格納され
る毎に信号パワーを算出し、フレーム毎に算出されるパ
ワーを適切なフレーム数に渡って累積加算し、フレーム
あたりの平均値を計算して音声区間検出のための閾値と
するステップと、フレーム毎に算出されるパワーと事前
に設定された前記閾値とを比較することにより音声の開
始フレーム及び終了フレームを決定するステップと、開
始フレームと終了フレームの情報に基づき当該範囲の特
徴量をベクトルとして抽出し、特徴ベクトルバッファに
格納するステップと、特徴ベクトルバッファに格納され
た特徴ベクトルを、事前に第一のコードブックに格納さ
れた特徴ベクトルに基づいてフレーム毎にベクトル量子
化するステップと、前記第一のコードブックの特徴ベク
トルの中で最も類似度が高い特徴ベクトルに付与される
インデックスとその特徴ベクトルを転送するステップ
と、事前に第二のコードブックに格納された特徴ベクト
ルから前記転送されたインデックスに相当する補正ベク
トルを抽出し、この抽出された補正ベクトルを転送され
た特徴ベクトルに加算することにより前記第二のコード
ブックに格納される特徴ベクトルの推定を行うステップ
と、ここで得られる特徴ベクトルを入力パターンとし、
参照パターンとして音声辞書に予め登録されてある、認
識対象となる各単語の音声開始フレームから音声終了フ
レームまでの特徴パラメータを順次与え、単語毎両パタ
ーンの照合を行なうステップと、各参照パターン毎入力
パターンとの距離値を算出し、全ての距離値の中で最小
となる距離値に対応する参照パターン名を認識結果とし
て出力するステップが記録されることも特徴とする。

【０００９】このことにより、騒音の影響を受け難い骨
導マイクロホンを受音器として用い、周波数特性を補正
するフィルタを用いることによってその周波数特性を気
導音声に近づけることができ、発声者の位置を制限する
ことなく、装置規模を増大させることなくして騒音環境
下における音声認識性能の向上がはかれ、また、従来か
らある音声認識装置にも容易に適用できる。

【００１０】

【発明の実施の形態】図１は、本発明における音声認識
装置のコードブック学習装置の実施形態を示すブロック
図である。図において、１０１は骨導マイクロホン、１
１２は気導マイクロホンである。気導マイクロホン１１
２は、広い周波数帯域に渡って感度が良いことで知られ
ている。音声認識に必要な８キロヘルツ乃至１２キロヘ
ルツの帯域の音響信号を良好に受信できる。一方、音声
と同一周波数帯域の騒音信号も音声信号と区別なく受音
できるため、高騒音下での音声区間検出が困難になると
いう欠点を持つ。骨導マイクロホン１０１は、加速度ピ
ックアップを用いているため周波数帯域が狭く、音声の
高域周波数成分の減衰が大きいため、単独で音声認識に
用いると性能が低下する反面、外部からの空気中を伝播
する騒音成分の影響が小さいという利点を持つ。尚、本
発明では、骨導マイクロホン１０１、気導マイクロホン
１１２によって収録される音声入力パターンは、一定時
間区間毎に切り出され、それぞれに用意されるコードブ
ックと比較して最も類似度の高いコードベクトルを取り
出すベクトル量子化手法（ＶＱ：vector quantizatio
n）によって音声入力パターンが表現されるものとして
以降説明する。コードブックに保存されるベクトルをパ
ターン空間内の重心（セントロイド：centroid）とする
方法の代表例は、ＬＢＧ法（Linde, Y, Buzo, A. and G
ray, R. M.：“An Algorithm for vector quantizerdes
ign”IEEE Trans.Commun.,COM-28,1,84-95(1980)）とし
て公知である。

【００１１】前記骨導マイクロホン１０１、気導マイク
ロホン１１２により受信された音声信号は、アナログデ
ィジタル変換器（以下、単にＡ／Ｄ変換器という）１０
２，１１３にそれぞれ供給され、Ａ／Ｄ変換器１０２，
１１３によって生成されるディジタル信号は、それぞれ
サンプリングデータバッファ１０３、１１４に供給され
る。サンプリングデータバッファ１０３、１１４出力は
それぞれ特徴抽出部１０４、特徴抽出部１１５に供給さ
れる。特徴抽出部１０４，１１５以降説明されるブロッ
クは全てソフトウェアによって実現されものであり、こ
こでは機能ブロックとして表現してある。サンプリング
データバッファ１０３出力は更に、パワー算出部１０
６、音声区間検出部１０７の経路により、骨導音声特徴
バッファ１０５、気導音声特徴ベクトルバッファ１１６
に供給される。１０８は切替スイッチである。切替スイ
ッチ１０８は、骨導音声特徴ベクトルバッファ１０５出
力を、骨導音声コードブック生成部１０９または、ベク
トル量子化部１１１に接続する。１１０は骨導音声コー
ドブック生成部１０９により生成される骨導音声コード
を記憶する骨導音声コードブック記憶部である。一方、
骨導音声特徴ベクトルバッファ１０５出力は切替スイッ
チ１０８の他に特徴差分算出部１１７に供給される。特
徴差分算出部１１７で算出される骨導音声特徴ベクトル
バッファ１０５と気導音声特徴ベクトルバッファ１１６
の特徴ベクトル差分は特徴差分データバッファ１１８に
供給される。特徴差分データバッファ１１８に供給され
るデータは特徴補正フィルタ生成部１２０に供給され
る。特徴補正フィルタ生成部１２０に供給される差分デ
ータは後述するロジックにより特徴補正ベクトル成分と
して生成され、特徴補正フィルタ記憶部１２１ならびに
フレーム対応表記憶部１１９に供給される。フレーム対
応表記憶部１１９は、後述するロジックに従い特徴補正
フィルタ生成部１２０により生成される補正ベクトルを
ベクトル量子化部１１１によって出力される骨導音声に
おける特徴ベクトルの量子化出力に反映させる。

【００１２】図３は図１に示す音声認識装置のコードブ
ック学習装置の動作手順を説明するために引用したフロ
ーチャートであり、具体的にその手順は、本発明の学習
装置の中にプログラムされ記録される。図示せぬＣＰＵ
がこれを読み出し実行することにより以下に示す手順が
実行される。以下、図１に示す音声認識装置のコードブ
ック学習装置の動作について図４に示すフローチャート
を参照しながら詳細に説明する。動作は機能的に大別す
ると、「骨導音声コードブック生成」と「特徴補正ベク
トル生成」に区分される。まず、「骨導音声コードブッ
ク生成」動作から説明する。骨導マイクロホン１０１と
気導マイクロホン１１２で受音されたアナログ信号は、
それぞれＡ／Ｄ変換器１０２，１１３において適切なサ
ンプリング周波数でディジタル信号に変換され（ステッ
プＳ３１，Ｓ３２）、サンプリングデータバッファ１０
３，１１４にそれぞれ逐次格納される（ステップＳ３
３）。ここで、適切なサンプリング周波数とは、音声認
識処理に必要となる音声の特徴を損なわない周波数であ
り、通常は、８キロヘルツから１２キロヘルツに設定さ
れる。特徴抽出部１０４，１１５では、サンプリングデ
ータバッファ１０３，１１４に２０乃至３０ミリ秒分の
データが格納される毎にデータの特徴量を算出する。す
なわち、フレーム毎にデータの特徴抽出を行う（ステッ
プＳ３５）。一方、骨導マイクロホン１０１のサンプリ
ングデータからは、フレーム毎にパワー算出部１０６に
おいて信号パワーが算出され、音声区間検出部１０７に
送られる。音声区間検出部１０７では、フレーム毎に算
出されるパワーと事前に設定された閾値とを比較するこ
とにより、音声の開始フレーム及び終了フレームが決定
される（ステップＳ３４）。骨導マイクロホン１０１と
気導マイクロホン１１２における各々のフレーム毎の特
徴量は、検出された開始フレームと終了フレームの情報
に基づき、当該範囲の特徴量のみ、ベクトルとして各々
の特徴ベクトルバッファ１０５，１１６に格納される
（ステップＳ３７）。この操作は適切な単語の発声があ
る間繰り返される（ステップＳ３６）。

【００１３】ここで、適切な単語の発声がある間とは、
全ての音韻の発声頻度の偏りが少ない単語群が出力され
ている間のことである。また、ここで注意すべきこと
は、骨導音声を用いて特徴量を算出することと、パワー
を算出するフレームと気導音声を用いて特徴量を算出す
るフレームとの同期がとられることである。具体的に、
パワーを算出するフレームと気導音声を用いて特徴量を
算出するフレームとの同期は、Ａ／Ｄ変換器１０２，１
１３双方のサンプリングクロックの同期をとることによ
り容易に実現することができる。骨導音声コードブック
生成時、切替スイッチ１０８は、骨導音声特徴ベクトル
バッファ１０５を骨導音声コードブック生成部１０９に
接続される（ステップＳ３８）。骨導音声コードブック
生成部１０９では、骨導音声特徴ベクトルバッファ１０
５に格納された特徴ベクトルから代表的な特徴ベクトル
を生成し（ステップＳ３９）、骨導音声コードブック１
１０に格納する（ステップＳ４０）。尚、上述した代表
的な特徴ベクトルは、骨導マイクロホン１０１の音声信
号を介して抽出した特徴量を適切な単語群の発声がある
間蓄積したものをサンプルとし、各サンプル間の距離が
小さいもの同士をクラスタリングし、各クラスタ毎に特
徴量の相加平均をとることにより求められる。ここで求
められた代表ベクトルを記録して骨導音声コードブック
（骨導音声コードブック記憶部１１０）とするものであ
る。

【００１４】次に、「特徴補正ベクトル生成」動作につ
いて説明する。特徴補正ベクトル生成時、切替スイッチ
１０８はベクトル量子化部１１１に接続される（ステッ
プＳ４８）。ベクトル量子化部１１１では、骨導音声特
徴ベクトルバッファ１０５に格納された特徴ベクトル
を、事前に生成され骨導音声コードブック記憶部１１０
に格納された特徴ベクトルに基づいてフレーム毎ベクト
ル量子化し（ステップＳ４１）、骨導音声コードブック
の特徴ベクトルの中で最も類似度の高い特徴ベクトルの
インデックス（番号）を骨導音声特徴ベクトルに付与す
る（ステップＳ４２）。一方、特徴差分算出部１１７で
は、骨導音声特徴ベクトルバッファ１０５に格納された
特徴ベクトルと気導音声特徴ベクトルバッファ１１６に
格納された特徴ベクトルとの差分をフレーム毎算出し、
特徴差分データバッファ１１８に逐次格納する。フレー
ム対応表記憶部１１７では、骨導音声特徴ベクトルに対
応する特徴差分データバッファ１１８に格納された特徴
差分データに対し、骨導音声特徴ベクトルに付与さた番
号と同じ番号を付与する。特徴補正フィルタ生成部１２
０では、特徴差分データに付与された番号毎に特徴差分
データをクラスタリングし、クラスタに含まれるデータ
を平均化することにより代表的な特徴補正ベクトルを生
成し（ステップＳ５３）、特徴補正フィルタ記憶部１２
１に格納する（ステップＳ５４）。上述した骨導音声コ
ードブックと特徴補正フィルタは番号毎対応がとれたも
のになっている。尚、上述した特徴補正ベクトルの生成
は、骨導マイクロホン１０１からの音声信号と同期をと
って得られた気導マイクロホン１１２からの音声信号が
減算された残差信号（特徴差分算出部１１７）から抽出
した特徴量を抽出することによりなされる。

【００１５】図２は、本発明における音声認識装置の実
施形態を示すブロック図である。図において、２０１は
骨導マイクロホン、２０２はＡ／Ｄ変換器、２０３はサ
ンプリングデータバッファである。また、２０４は特徴
抽出部、２０５は特徴ベクトルバッファ、２０６はパワ
ー算出部、２０７は音声区間検出部、２０８はベクトル
量子化部、２０９は骨導音声コードブック記憶部、２１
０は気導音声推定部、２１１は特徴補正フィルタ記憶
部、２１２はパターン照合部、２１３は音声辞書記憶
部、２１４は認識結果出力部であり、いずれもソフトウ
ェアにより実現されるため、機能ブロックとして示し
た。機能等動作手順について詳細は後述する。

【００１６】図４は、図２に示す音声認識装置の動作手
順を説明するために引用したフローチャートであり、
（ａ）に騒音測定動作、（ｂ）に音声認識動作について
の手順が示されている。具体的にその手順は、本発明の
音声認識装置の中にプログラムされ記録される。図示せ
ぬＣＰＵがこれを読み出し実行することにより以下に示
す手順が実行されるものである。以下、図２に示す音声
認識装置の動作について図４（ａ）（ｂ）に示すフロー
チャートを参照しながら詳細に説明する。本発明の音声
認識装置の動作は、機能的に大別すると、音声が未入力
の状態での騒音レベルを測定して、音声区間の閾値を決
定する「騒音測定」と、発声された音声パターンと既登
録の音声辞書中の音声パターンとを照合し、その結果を
出力する「音声認識」に区分される。まず、「騒音測
定」動作から説明する。骨導マイクロホン２０１で受音
されたアナログ信号はＡ／Ｄ変換器２０２でディジタル
信号に変換され、サンプリングデータバッファ２０３に
逐次格納される（ステップＳ５１，Ｓ５２）。サンプリ
ングデータバッファ２０３に１フレーム分の信号が格納
される毎に、パワー算出部２０６において信号パワーが
算出される（ステップＳ５３）。そして、フレーム毎に
算出されたパワーは音声区間検出部２０７に入力され
る。音声区間検出部２０７では、フレーム毎に算出され
るパワーを適切なフレーム数にわたって累積加算し、更
にフレームあたりの平均値を計算する。ここで、適切な
フレーム数とは、通常４乃至１６程度である。算出され
た平均パワーに適切な定数を加算することにより、音声
区間検出のための閾値とする（ステップＳ５４）。

【００１７】次に、「音声認識」動作について説明す
る。上述した「騒音測定」が終了した時点で音声入力が
可能となる。まず、骨導マイクロホン２０１で受音され
た信号は、Ａ／Ｄ変換器２０２でディジタル信号に変換
され、サンプリングデータバッファ２０３に逐次格納さ
れる（ステップＳ６１，Ｓ６２）。１フレーム毎、特徴
抽出部２０４でデータの特徴量が算出され、同時にパワ
ー算出部２０６でその信号のパワーが算出され（ステッ
プＳ６３）音声区間検出部２０７に送られる。音声区間
検出部２０７では、フレーム毎に算出されるパワーと事
前に設定された閾値を比較することにより、音声の開始
フレーム及び終了フレームが決定される（ステップＳ６
４）。ここで検出された開始フレームと終了フレーム情
報に基づき、当該範囲の特徴量が、ベクトルとして特徴
ベクトルバッファ２０５に格納される（ステップＳ６
５）。ベクトル量子化部２０８では、特徴ベクトルバッ
ファ２０５に格納された特徴ベクトルを、事前に骨導音
声コードブック記憶部２０９に格納された特徴ベクトル
に基づいて、フレーム毎ベクトル量子化し（ステップＳ
６６）、骨導音声コードブックの特徴ベクトルの中で最
も類似度が高い特徴ベクトルの番号と特徴ベクトルバッ
ファ２０５に格納された特徴ベクトルが気導音声推定部
２１０に転送される（ステップＳ６７）。気導音声推定
部２１０では、事前に特徴補正フィルタ記憶部２１１に
格納された特徴ベクトルから転送された番号にあたる補
正ベクトルを抽出し、この抽出された補正ベクトルを転
送された特徴ベクトルに加算することによって気導音声
特徴ベクトルへの推定が行なわれる（ステップＳ６
８）。尚、上述した類似度とは、骨導音による特徴量か
ら成るベクトルと骨導コードブックに記憶されたベクト
ルとの間の距離である。すなわち、両ベクトルの差の自
乗値を要素毎に加算して得られた値である。ここでは、
この類似度を骨導コードブック中の各ベクトル毎に計算
し、最も小さくなるベクトルを選択する。このようにし
て選択され骨導コードブックから得られるベクトルと補
正ベクトルを加算することによって気導音声特徴ベクト
ルを推定している。

【００１８】一方、音声辞書記憶部２１３には、認識対
象となる各単語の音声開始フレームから音声終了フレー
ムまでの特徴パラメータが登録されている。従って、パ
ターン照合部２１２への入力パターンとして、気導音声
推定部２１０で推定された気導音声特徴ベクトルを与
え、参照用パターンとして音声辞書記憶部２１３に格納
された音声パラメータを単語毎順次与えることにより、
両パターンの照合（ステップＳ６９）を行なうことがで
きる。その結果、入力パターンと参照パターンの照合結
果が、距離値により出力される。距離値が大きいほど両
パターンの相違度が大きいことを意味する。各参照パタ
ーン毎に入力パターンとの距離値を算出し（ステップＳ
７０）、全ての距離値の中で最小となる距離値に対応す
る参照パターン名が認識結果となり、認識結果表示部２
１４に表示される（ステップＳ７１）。尚、図３，図４
に示すフローチャートは、それぞれ、学習装置、音声認
識装置が持つ記憶装置（図示せず）中に固定的に書き込
まれるか、あるいは半導体記憶装置、フロッピーディス
クやハードディスク等の磁気記録装置、ＣＤ−ＲＯＭ等
にプログラムとして書き込まれて頒布されるものであ
り、必要に応じて装置内部の記憶装置に取込まれること
により機能するものである。

【００１９】出願人は、上述した本発明実施形態による
効果を確認するために以下に示す音声認識実験を行なっ
た。図５は、図２に示す音声認識装置において、コード
ブックサイズに応じて増加される特徴補正フィルタ分割
数毎の単語音声認識率の推移をグラフ表示したものであ
る。グラフはＸ軸にフィルタ分割数を、Ｙ軸に音声認識
率を目盛り両者の関係を示している。単語は、電子協１
００都市名の最初の２０都市を選び、発声は予め定めた
騒音環境下で男女各２名が２回ずつ発声し、そのときの
平均を認識率として示している。実験の結果、単一の特
徴補正フィルタを用いた場合（フィルタ分割数１）、認
識率が５２．５％であったのに対し、コードブックサイ
ズに応じてフィルタ分割数を増加させた場合、フィルタ
分割数が６４で認識率８０％、１２８で８２．２％、２
５６で８８．５％となった。このことにより無騒音下に
おける本発明の効果が確認された。次に、騒音下での本
発明の効果につき述べる。騒音環境下で、気導音声を入
力とする従来の音声認識装置と、図２に示す本発明の音
声認識装置との単語音声認識性能比較を行った。尚、本
発明の音声認識装置において使用される補正フィルタの
分割数は２５６とした。また、単語は、電子協１００都
市名の最初の２０都市を選び、予め定めた環境下で２回
ずつ発声した。結果、男女各２名の音声認識率の平均値
は、騒音が６４ｄＢのピンクノイズをラウドスピーカよ
り発生させた場合、従来装置が４２．５％であつたのに
対し、本発明装置では７９％であった。また、騒音が環
境騒音（非定常騒音、環境騒音１は道路沿い、最大８０
ｄＢ、最小５５ｄＢ、平均６６ｄＢ、環境騒音２はショ
ッピングモール、最大７０ｄＢ、最小６０ｄＢ、平均６
４ｄＢ）をラウドスピーカより発声させた場合、従来装
置はいずれも認識率０％と全く認識できなかったのに対
し、本発明装置では、それぞれ、認識率８２．１％、８
０．４％であった。この性能比較により騒音環境下にお
ける本発明効果が確認された。

【００２０】尚、出願人は、同日付で、騒音の影響を受
け難い骨導マイクロホンと、周波数帯域の広い気導マイ
クロホンを用い、骨導音声から気導音声への特徴ベクト
ルのマッピングを用いることによって騒音環境下におけ
る音声認識性能の向上をはかった、音声認識装置ならび
に同装置における音声学習方法ならびに装置及び同方法
がプログラムされ記録される記録媒体を出願してある。
これに対し、本発明は、騒音の影響を受け難い骨導マイ
クロホンを受音器として用い、かつ、周波数を補正する
フィルタを付加することによって周波数特性を気導音声
に近づけることにより騒音下での音声認識性能の向上を
はかったものである。このため、本発明の学習装置にお
いては、骨導音声特徴ベクトルバッファ１０５に格納さ
れた特徴ベクトルと気導音声特徴ベクトルバッファ１１
６に格納された特徴ベクトルとのベクトル差分をフレー
ム毎に算出する特徴差分算出部１１７と、これを記憶す
る特徴差分データバッファ１１８が付加され、更に、こ
こで得られる特徴差分データに付与された番号（フレー
ム対応記憶部で骨導音声特徴ベクトルに対応する特徴デ
ータ差分データバッファに格納された特徴差分データに
対し骨導音声特徴ベクトルに付与された番号と同じ番号
を付与している）毎に特徴差分データをクラスタリング
し、クラスタに含まれるデータを平均化して代表的な特
徴補正フィルタを生成するロジックを持つ特徴補正フィ
ルタ生成部１２０が付加されている。また、本発明の音
声認識装置においては、特徴補正フィルタ記憶部２１１
が付加され、ここでは、気導音声推定部２１０で事前に
特徴補正フィルタ記憶部２１１に記憶された補正フィル
タから、転送された番号（ベクトル量子化部２０８から
骨動音声コードブックの特徴ベクトル中で最も類似度の
高い特徴ベクトルの番号と特徴ベクトルバッファに格納
された特徴ベクトルが転送）にあたる補正フィルタを抽
出し、転送された特徴ベクトルに抽出された補正フィル
タを加算し、気導音声特徴ベクトルの推定を行うロジッ
クを持つ。このことにより、骨導マイクロホンを受音器
とし、周波数特性を補正するフィルタを介して骨導マイ
クロホンが持つ周波数特性の改善をはかり、気導音声に
近づけると共に騒音下での音声認識性能の向上を実現す
るものである。

【００２１】

【発明の効果】以上説明のように本発明は、第一の受音
器で収録された音声入力パターン（骨導音）を第一のコ
ードブックを用いて特徴ベクトルを選択して出力し、そ
のインデックスに対応する第二のコードブックに記憶さ
れている補正ベクトルを選択し、前記両ベクトルを加算
し接続することにより前記第一の受音器より広い周波数
帯域で受音感度が確保される第二の受音器で収録された
音声（気導音）の特徴ベクトルを推定し、推定された音
声を音声認識対象として用いるものであり、このことに
より、骨導マイクロホンが従来から特徴として持つ、外
部からの空気中を伝播する騒音成分の影響が小さいとい
う利点を生かしながら、加速度ピックアップを使用して
いるため、周波数帯域が狭く、音声の高周波成分の減衰
が大きいといった周波数特性の改善がはかれ、従って、
この骨導マイクロホンを音声認識のための音声収録マイ
クロホンとしてに単独で使用することができる。また、
騒音環境下における音声認識性能の向上をはかることが
てき、発声者の位置を制限することなく、装置規模を増
大させることなく実現でき、また、従来からある音声認
識装置にも容易に適用できるものである。

【図面の簡単な説明】

【図１】本発明の学習装置の実施形態を示すブロック
図である。

【図２】本発明の音声認識装置の実施形態を示すブロ
ック図である。

【図３】図１に示す本発明実施形態の動作を説明する
ために引用したフローチャートである。

【図４】図２に示す本発明実施形態の動作を説明する
ために引用したフローチャートである。

【図５】本発明実施形態の効果を説明するために引用
したグラフである。

【符号の説明】

１０１、２０１…骨導マイクロホン（第一の受音器）、
１０２、１１３、２０２…アナログディジタル変換器
（Ａ／Ｄ変換器）、１０３、１１４、２０３…サンプリ
ングデータバッファ、１０４、１１５、２０４…特徴抽
出部、１０５…骨導音声特徴ベクトルバッファ、１０
６、２０６…パワー算出部、１０７、２０７…音声区間
検出部、１０８…切替スイッチ、１０９…骨導音声コー
ドブック生成部、１１０、２０９…骨導音声コードブッ
ク記憶部（第一のコードブック）、１１１、２０８…ベ
クトル量子化部、１１２…気導マイクロホン（第二の受
音器）、１１６…気導音声特徴ベクトルバッファ、１１
７…特徴差分算出部、１１８…特徴差分データバッフ
ァ、１１９…フレーム対応表記憶部、１２０…特徴補正
フィルタ生成部、１２１、２１１…特徴補正フィルタ記
憶部（第二のコードブック）、２０５…特徴ベクトルバ
ッファ、２１０…気導音声推定部、２１２…パターン照
合部、２１３…音声辞書記憶部（音声辞書）、２１４…
認識結果表示部

Claims

【特許請求の範囲】

【請求項１】音声信号を第一の受音器により受音し、
受音した音声信号から、予め定めた時間長のフレーム毎
に特徴ベクトルを抽出する手段と、抽出された特徴ベク
トルを一時的に記憶する手段と、第一の受音器で予め受
音した音声信号から抽出した代表的な有限個の特徴ベク
トルを第一のセットとして記憶する手段と、前記第一の
受音器で予め受音した音声信号の特徴ベクトルと前記第
一の受音器よりも広い周波数帯域で受音感度が確保され
る第二の受音器で予め受音した音声信号の特徴ベクトル
との差分を用いて算出した代表的な有限個の補正ベクト
ルを第二のセットとして記憶する手段と、前記第一のセ
ットに属する特徴ベクトルと前記第二のセットに属する
各々の補正ベクトルを対応付ける手段と、前記第一のセ
ットに属する各々の特徴ベクトルに対して、前記第一の
受音器で受音した音声信号から抽出された特徴ベクトル
の類似度を算出する手段と、類似度の最も高い特徴ベク
トルを前記第一のセットの中から選択し、このベクトル
に対応する前記第二のセットに属する補正ベクトルを抽
出する手段と、前記第一の受音器で受音した音声信号か
ら抽出された特徴ベクトルに対して前記抽出された補正
ベクトルを加算して生成される特徴ベクトルをフレーム
毎に算出する手段と、この特徴ベクトルの系列に対し、
予め辞書として記憶された特徴ベクトル系列との間で類
似度を照合する手段と、照合された中から最も類似度の
高い辞書の情報を出力する手段とを備えることを特徴と
する音声認識装置。
【請求項２】入力される音声信号の特徴量から成るベ
クトルと前記第一のセットとして記憶されたベクトル間
の距離で示される類似度を前記第一のセット中の少なく
とも一部のベクトルについて計算して最小の特徴ベクト
ルを選択し、それに対応する補正ベクトルを加算するこ
とによって得られるベクトルから前記第二の受音器の特
徴ベクトルを推定することを特徴とする請求項１記載の
音声認識装置。
【請求項３】前記第一の受音信号は発声者の頭骨を伝
播する音響信号を受音する手段により生成され、前記第
二の受音は、空気中を伝播する音響信号を受音する手段
により生成されることを特徴とする請求項１または請求
項２のいずれかに記載の音声認識装置。
【請求項４】第一の受音器と、該第一の受音器より広
い周波数帯域で受音感度が確保される第二の受音器とで
収録された受音パターンを所定長の区間毎に切り出して
特徴量を算出し、一方の受音器を介して抽出された特徴
量をコードブックに記憶されたコードベクトルと比較す
ることにより最も類似度の高い特徴ベクトルのインデッ
クスを出力し、このインデックスに対応する他方のコー
ドブックに記憶された補正ベクトルを出力することを特
徴とする音声認識装置のコードブック学習方法。
【請求項５】前記第一、第二の受音器で受音される信
号をフレーム毎同期をとって受音し、このうち、第一の
受音器から第一のセットとして代表的な有限個の特徴ベ
クトルを抽出し、前記第一の受音器からの受音信号に対
してフレーム毎に前記第一のセットに属する各々の特徴
ベクトルの中で最も類似度の高い特徴ベクトルのインデ
ックスを付与し、前記第一の受音器と同期する第二の受
音器からの受音信号との差分を用い第二のセットとして
代表的な有限個の補正ベクトルを抽出することにより、
前記第一のセットに属する各々の特徴ベクトルと第二の
セットに属する各々の補正ベクトルを対応付けることを
特徴とする請求項４記載の音声認識装置のコードブック
学習方法。
【請求項６】前記第一の受音器を介して得られる音声
信号から抽出した特徴ベクトルを適切な単語群の発声の
ある間蓄積したものをサンプルとし、各サンプル間の距
離が小さいもの同士をクラスタリングし、クラスタ毎に
特徴ベクトルの相加平均をとることにより代表的な特徴
ベクトルを求め、これら代表的な特徴ベクトルを前記第
一のセットに記録することを特徴とする請求項５記載の
音声認識装置のコードブック学習方法。
【請求項７】第一の受音器と、該第一の受音器より広
い周波数帯域で受音感度が確保される第二の受音器で収
録される受音パターンを所定の時間長の区間毎に切り出
して特徴量を算出し、コードブックを参照することによ
って特徴ベクトルを抽出し、予め辞書として記憶された
コードベクトルとの間で類似度を照合することにより、
照合された中から最も類似度の高い辞書情報を認識結果
として出力する音声認識装置において、音声信号を第一
の受音器により受音し、受音した音声信号から、所定の
時間長のフレーム毎に特徴ベクトルを抽出する手段と、
抽出された特徴ベクトルを一時的に記憶する手段と、前
記第一の受音器で予め受音した音声信号から抽出した代
表的な有限個の特徴ベクトルを第一のセットとして記憶
する手段と、前記第一の受音器で予め受音した音声信号
の特徴ベクトルと前記第二の受音器で予め受音した音声
信号の特徴ベクトルとの差分を用い算出した代表的な有
限個の補正ベクトルを第二のセットとして記憶する手段
と、前記第一のセットに属する各々の特徴ベクトルと前
記第二のセットに属する各々の補正ベクトルを対応付け
る手段とを具備することを特徴とする音声認識装置のコ
ードブック学習装置。
【請求項８】前記第一の受音信号は発声者の頭骨を伝
播する音響信号を受音する手段により生成され、前記第
二の受音は、空気中を伝播する音響信号を受音する手段
により生成されることを特徴とする請求項７記載の音声
認識装置のコードブック学習装置。
【請求項９】第一の受音器と、該第一の受音器より広
い周波数帯域で受音感度が確保される第二の受音器で収
録された受音パターンを所定時間長の区間毎に切り出し
て特徴量を算出し、コードブックを参照することによっ
て特徴ベクトルを抽出する音声認識装置のコードブック
学習装置に用いられ、前記第一の受音器と、第二の受音
器で受音されたアナログ信号を適切なサンプリング周波
数でディジタル信号に変換し、それぞれに用意されるサ
ンプリングデータバッファに格納するステップと、それ
ぞれのサンプリングデータバッファに格納されたデータ
をフレーム毎にデータの特徴量を算出するステップと、
フレーム毎に算出されるパワーと事前に設定された閾値
とを比較することにより、音声の開始フレーム及び終了
フレームを決定するステップと、適切な単語の発声があ
る間、前記音声の開始フレームと終了フレームの情報に
基づき当該範囲の特徴量のみを特徴ベクトルとして第一
・第二のベクトルバッファに格納するステップと、前記
第一のベクトルバッファに格納された特徴ベクトルから
代表的な特徴ベクトルを生成し、第一のコードブックに
格納するステップと、前記第一のベクトルバッファに格
納された特徴ベクトルを、事前に生成され前記第一のコ
ードブックに格納された特徴ベクトルに基づいてフレー
ム毎ベクトル量子化するステップと、前記第一のコード
ブックの特徴ベクトルの中で最も類似度の高い特徴ベク
トルのインデックスを前記第一の特徴ベクトルに付与す
るステップと、前記第二のベクトルバッファに格納され
た特徴ベクトルと第一のベクトルバッファに格納された
特徴ベクトルとの差分をフレーム毎算出し、その差分を
特徴差分データバッファに格納するステップと、前記第
一のベクトルバッファに格納された特徴ベクトルに対応
する特徴差分データに対し、前記第一の特徴ベクトルに
付与されたインデックスと同じインデックスを付与する
ステップと、前記特徴差分データに付与されたインデッ
クス毎に特徴差分データをクラスタリングし、クラスタ
に含まれるデータを平均化することにより代表的な特徴
補正ベクトルを生成して前記第二のコードブックに格納
するステップが記録された記録媒体。
【請求項１０】受音器を介して収録される音声入力パ
ターンを所定時間長の区間毎に切り出して特徴量を抽出
し、コードブックを参照することにより特徴ベクトルを
抽出し、予め辞書として記憶されたコードベクトルとの
間で類似度を照合することにより、照合された中から最
も類似度の高い辞書情報を出力する音声認識装置に用い
られ、前記受音器で受音されたアナログ信号を適切なサ
ンプリング周波数によりディジタル信号に変換しサンプ
リングデータバッファに格納するステップと、サンプリ
ングデータバッファに１フレーム分の信号が格納される
毎に信号パワーを算出し、フレーム毎に算出されるパワ
ーを適切なフレーム数に渡って累積加算し、フレームあ
たりの平均値を計算して音声区間検出のための閾値とす
るステップと、フレーム毎に算出されるパワーと事前に
設定された前記閾値とを比較することにより音声の開始
フレーム及び終了フレームを決定するステップと、開始
フレームと終了フレームの情報に基づき当該範囲の特徴
量をベクトルとして抽出し、特徴ベクトルバッファに格
納するステップと、特徴ベクトルバッファに格納された
特徴ベクトルを、事前に第一のコードブックに格納され
た特徴ベクトルに基づいてフレーム毎にベクトル量子化
するステップと、前記第一のコードブックの特徴ベクト
ルの中で最も類似度が高い特徴ベクトルに付与されるイ
ンデックスとその特徴ベクトルを転送するステップと、
事前に第二のコードブックに格納された特徴ベクトルか
ら前記転送されたインデックスに相当する補正ベクトル
を抽出し、この抽出された補正ベクトルを転送された特
徴ベクトルに加算することにより前記第二のコードブッ
クに格納される特徴ベクトルの推定を行うステップと、
ここで得られる特徴ベクトルを入力パターンとし、参照
パターンとして音声辞書に予め登録されてある、認識対
象となる各単語の音声開始フレームから音声終了フレー
ムまでの特徴パラメータを順次与え、単語毎両パターン
の照合を行なうステップと、各参照パターン毎入力パタ
ーンとの距離値を算出し、全ての距離値の中で最小とな
る距離値に対応する参照パターン名を認識結果として出
力するステップが記録された記録媒体。