JP2752981B2

JP2752981B2 - 音声認識装置

Info

Publication number: JP2752981B2
Application number: JP63044191A
Authority: JP
Inventors: 晋太木村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1988-02-29
Filing date: 1988-02-29
Publication date: 1998-05-18
Anticipated expiration: 2013-05-18
Also published as: JPH01219797A

Description

【発明の詳細な説明】〔概要〕入力音声パターンから切り出された音声区間単位で音
声認識を行う音声認識装置に関し、高雑音下でも正しい音声区間の切り出しと音声区間内
に混入した雑音の除去を行って、良好な精度の音声認識
を可能にすることを目的とし、入力音声パターンから切り出された音声区間単位で音
声認識を行う音声認識装置において、同一内容の発声に
基づく複数個の入力音声パターン間に生じた時間軸の伸
縮を整合して整合音声パターンをそれぞれ生成する時間
軸整合手段と、生成された複数個の整合音声パターンを
用いて雑音除去を行い、音声区間切り出しを行うための
切り出し用音声パターンを生成する切り出し用音声パタ
ーン生成手段と、生成された複数個の整合音声パターン
を用いて雑音除去を行い、音声認識を行うための認識用
パターンを生成する認識用音声パターン生成手段を設け
るように構成する。

〔産業上の利用分野〕

本発明は、入力音声パターンから音声区間を切り出
し、切り出された音声区間単位で認識処理を行う音声認
識装置に関する。

〔従来の技術〕

音声には、音声パワーの存在する音声区間と音声パワ
ーの存在しない休止区間が混合しており、各音声区間
は、通常、単語等の１つのまとまった意味を持つ音声に
なっている。そこで、音声認識を行う場合は、第６図に
示すように、入力音声から音声区間を切り出し、切り出
された音声区間単位で認識処理を行うようにしている。

第６図において、認識させたい音声をマイクロホン21
に入力する。音声はマイクロホン21で電気的な音声信号
に変換される。音声分析部22は、この音声信号を分析し
て音声パワー時系列と音声スペクトル時系列でそれぞれ
表される入力音声パターンを作成する。ここで、音声パ
ワーはスカラー量であり、数ミリ毎の各時刻における分
析窓内の音声波形のエネルギとして計算される。分析窓
は数十ミリ秒の長さを有し、ハニング窓と呼ばれるもの
がある。分析窓長を長くすれば、分析される音声スペク
トルの周波数分解能が高くなるが時間分解能は低下し、
逆に分析窓長を短くすれば、周波数分解能が低くなるが
時間分解能は高くなる。

第７図（Ａ）は、このようにして求められた音声パワ
ー時系列の一例を示したもので、縦軸は音声パワーを示
し、横軸は時間を示す。

一方、音声スペクトル時系列Ｖは、次の（１）式で示
される特徴ベクトルの時系列で表される。

Ｖ＝（V₁，V₂，…V_j…V_J） …（１） V_j（ｊ＝１〜Ｊ、Ｊはパターン長）は、時刻ｊにおけ
る音声の特徴を表す特徴ベクトルで、次の（２）式で表
されるベクトル量である。

V_j＝（V_j1，V_j2，…V_jk…V_jN） …（２）ここで、V_jk（ｋ＝１〜Ｎ）は特徴ベクトルV_jのｋ番
目の要素で、音声をＮ個の周波数帯域に分けたときのｋ
番目の周波数成分（スペクトル成分）を表す。このスペ
クトル成分の計算には、例えばフィルタバンクや高速フ
ーリェ変換（FFT:Fast Fourier Transform）による方法
が用いられる。

音声区間切り出し部23は、音声区間切り出しアルゴリ
ズムに従って、第７図（Ａ）に示すように、音声パワー
時系列より一定閾値以上の音声パワーレベルを持ったも
のを音声区間として切り出し、この切り出された音声区
間内の音声スペクトル時系列部分のみを、次段の認識部
24に送る。音声区間の始りは始端と呼ばれ、終りは終端
と呼ばれる（第７図（Ａ）参照）。

一方、テンプレート記憶部25には、認識対象となる単
語等の各種の音声の標準的な音声スペクトル時系列（以
下、テンプレートと呼ぶ）が予め求められて格納されて
いる。

認識部24は、音声区間切り出し部23より切り出された
音声スペクトル時系列とテンプレート記憶部25の各テン
プレートとを照合し、最もよく照合されたテンプレート
のカテゴリ名（単語名等）を認識結果として表示部26に
転送し表示させる。音声スペクトル時系列とテンプレー
トとの照合は、例えば動的計画法（DP法:DPはdynamic p
rogrammingの略）を用いて行われ、両者の距離の最も小
さいものが最もよく照合していると判断される。

〔発明が解決しようとする課題〕

従来の音声認識装置では、前述のように、一定の閾値
を設けて音声区間の切り出しを行っていた。

この音声区間切り出し方式では、第７図（Ｂ）に示す
ように、真の音声部分に対する本来の音声区間に接近し
た高いレベルの雑音がある場合、この雑音部分を取り除
き本来の音声区間を切り出すことが困難である。音声区
間検出の誤りは誤認識につながり、雑音の多い環境で音
声認識装置を使う場合、何度発声を繰り返しても正しく
認識されないという問題があった。

また、正しい音声区間が検出されても、検出された音
声区間内に雑音が入り込んだ場合は、音声の特徴量が雑
音により変形し、音声スペクトル特性が変化するため認
識誤りをひき起すという問題があった。

本発明は、高雑音下においても正しい音声区間の切り
出しが行われるとともに、音声区間内に混入した雑音を
有効に除去し、良好な認識精度を持った音声認識装置を
提供することを目的とする。

〔課題を解決するための手段〕

雑音は音声に無相関であるため、同じ内容の音声を複
数回発声したときに得られる各入力音声パターンは、理
想的な場合、音声部分は共通で雑音部分が異なるパター
ンになる。したがって、この同一内容の発声を複数回行
って得られる複数個の入力音声パターンを用いることに
より、雑音の混在する入力音声パターンから正しい音声
区間を切り出すことができる。本発明は、この着想に基
づいてなされたものである。

以下前述の目的を達成するために本発明が採用した手
段を、第１図を参照して説明する。第１図は、本発明の
基本構成をブロック図で示したものである。

第１図において、同一内容の発声を複数回行って得ら
れる複数個の入力音声パターンが、時間軸整合手段11に
入力される。

時間軸整合手段11は、同一内容の発声に基づく複数個
の入力音声パターン間に生じた時間軸の伸縮を整合して
整合音声パターンをそれぞれ生成する。

切り出し用音声パターン生成手段12は、時間軸整合手
段11で生成された複数個の整合音声パターンを用いて雑
音除去を行い、音声区間切出しを行うための切り出し用
音声パターンを生成する。

認識用音声パターン生成手段13は、時間軸整合手段11
で生成された複数個の整合音声パターンを用いて雑音除
去を行い、音声認識を行うための認識用パターンを生成
する。

認識手段14は、切り出し用音声パターンより音声区間
の切り出しを行い、この音声区間内にある認識用音声パ
ターン部分に基づいて音声認識を行う。

時間軸整合手段11において、各入力音声パターン間に
生じる時間軸の伸縮の整合は、各入力音声パターンを表
す音声スペクトル時系列間の動的計画法（DP法）による
マッチング処理により行うことができる。

切り出し用音声パターン生成手段12において、時間軸
整合手段11で生成された複数個の整合音声パターンを表
す各音声パワー時系列より最小パワー時系列を生成して
区間用音声パターンとすることができる。

認識用音声パターン生成手段13において、時間軸整合
手段11で生成された複数個の整合音声パターンを表す各
音声スペクトル時系列の対応する時刻の特徴ベクトルの
各要素毎に中央値処理を行って中央値音声スペクトル時
系列を生成して認識用音声パターンとすることができ
る。

また、認識用音声パターン生成手段13において、時間
軸整合手段11で生成された複数個の整合音声パターンを
表す各音声スペクトル時系列の対応する時刻の特徴ベク
トルの各要素毎に平均値処理を行って平均値音声スペク
トル時系列を生成して認識用音声パターンとすることが
できる。

〔作用〕本発明の作用を、第２図及び第３図を参照して説明す
る。第２図は複数回発声時の各入力音声パターンの説明
図、第３図は整合音声パターンと切り出し用音声パター
ンの説明図である。

同一内容の発声を複数回行って得られる複数個の入力
音声パターンが、時間軸整合手段11に入力される。

同一内容の発声であっても、各入力音声パターンの時
間軸は、第２図（ａ）〜（ｃ）に示すように変化する。
第２図は、縦軸に音声パワーをとり横軸に時間をとっ
て、音声パワー時系列で音声パターンを示したものであ
る。N₁〜N₃は雑音である。

時間軸整合手段11は、同一内容の発声に基づく複数個
の入力音声パターンにおける時間軸の伸縮を整合して整
合音声パターンをそれぞれ生成する。

切り出し用音声パターン生成手段12は、時間軸整合手
段11で生成された複数個の整合音声パターンを用いて雑
音除去を行い、音声区間切り出しを行うための切り出し
用音声パターンを生成して認識手段14に送る。

一方、認識用音声パターン生成手段13は、時間軸整合
手段11で生成された複数個の整合音声パターンを用いて
雑音除去を行い、音声認識を行うための認識用音声パタ
ーンを生成して認識手段14に送る。

以上のようにすることにより、高雑音下においても、
正しい音声区間の切り出しが行われるとともに、音声区
間内に混入した雑音が有効に除去され、良好な認識精度
を持った音声認識を行うことができる。

同一内容の発声に基づく複数個の入力音声パターンの
時間軸は、一般に非線形に伸縮する。この場合、動的計
画法（DP法）を用いれば、各入力音声パターンの非線形
に伸縮した時間軸を整合させた整合音声パターンを生成
することができる。

切り出し用音声パターン生成手段12において、区間用
音声パターンを最小パワー時系列で生成すると、第３図
に示すように高雑音下でも雑音が有効に除去された区間
用音声パターンを生成することができる。

第３図において、（ａ），（ｂ），（ｃ）は、時間軸
整合手段11で生成された第２図（ａ），（ｂ）及び
（ｃ）の第一発声，第二発声及び第三発声に対する各整
合音声パターンを示したものである。各時刻における各
整合音声パワーの最小音声パワーを取り出すことによ
り、同図（ｄ）に示すような最小パワー時系列が生成さ
れる。この最小パワー時系列を用いると、雑音N₁〜N₃が
有効に除去された切り出し用音声パターンを生成するこ
とができる。

認識用音声パターン生成手段13において、認識用音声
パターンを中央値音声スペクトル時系列で生成すると、
音声区間内に混入したパルス性の雑音が有効に除去さ
れ、良好な認識精度を持った音声認識を行うことができ
る。

また、認識用音声パターン生成手段13において、認識
用音声パターンを平均値音声スペクトル時系列で生成す
ると、音声区間内に混入した持続性のあるランダム雑音
が平均化処理により除去され、有効な認識精度を持った
音声認識を行うことができる。

〔実施例〕

本発明の実施例を、第２図〜第５図を参照して説明す
る。第４図は本発明の一実施例の構成の説明図、第５図
は同実施例のDP法による時間軸整合処理の説明図であ
る。第２図及び第３図については、既に説明したとおり
である。

（Ａ）実施例の構成第４図において、時間軸整合手段11,切り出し用音声
パターン生成手段12,認識用音声パターン生成手段13及
び認識手段14については、第１図で説明したとおりであ
る。

マイクロホン15は、発声された音声を入力して電気的
な音声信号に変換する。音声分析部16は、入力された音
声信号を分析して入力音声の特徴を抽出し、入力音声パ
ターンを表す音声パワー時系列と音声スペクトル時系列
を作成する。

時間軸整合手段11において、入力音声バッファ111に
は、音声分析部16から入力された各入力音声パターンの
音声パワー時系列と音声スペクトル時系列が一時格納さ
れる。

時間軸整合部112は、音声スペクトル時系列を用いてD
P法により、各入力音声パターンの時間軸を整合して整
合音声パターンを生成する。

出力音声バッファ113は、生成された各整合音声パタ
ーンを一時格納する。

認識手段14において、音声区間切り出し部141は、切
り出し用音声パターン生成手段12から入力された切り出
し用音声パターンを用いて音声区間の切り出しを行い、
切り出された音声区間内にある認識用音声パターン（音
声スペクトル時系列）部分を認識部142に送る。

認識部142は、音声区間切り出し部141より切り出され
た認識用音声パターン（音声スペクトル時系列）部分と
テンプレート記憶部143にある各テンプレートを照合
し、最もよく照合したテンプレートのカテゴリ名を認識
結果として出力する。

テンプレート記憶部143には、認識対象となる各音声
の標準的な音声スペクトル時系列（テンプレート）が格
納されている。表示部144には、認識部142の認識結果が
表示される。

（Ｂ）実施例の動作実施例の動作を、第２図，第３図及び第５図を参照し
て説明する。

発声者は、マイクロホン15に向って同一内容の発声を
複数回（この実施例では３回とする）行う。マイクロホ
ン15は、発声された音声を電気的な音声信号に変換し
て、音声分析部16に入力する。

音声分析部16は、入力された音声信号を分析して入力
音声の特徴を抽出し、入力音声パターンとして音声パワ
ー時系列と音声スペクトル時系列を作成する。各発声の
音声スペクトル時系列は、いずれも先に説明した（１）
および（２）式の形で表わされる特徴ベクトルの時系列
で表される。

作成された各入力音声パターンの音声パワー時系列及
び音声スペクトル時系列は、入力音声バッファ111に一
時格納される。

発声者が同一内容の発声を行っても、各音素の発声時
間は変化する。したがって、作成された各発声の入力音
声パターンの時間軸は、第２図に示すように変化する。
同図（ａ），（ｂ）及び（ｃ）は、それぞれ第１発声，
第２発声及び第３発声の入力音声パターンと音声パワー
時系列で示したものである。N₁〜N₃は雑音である。各入
力音声パターンは時間軸方向に非線形に伸縮する。

第５図は、この入力音声パターンの時間軸整合処理を
説明したものである。

第５図において、縦の時間軸ａには、基準となる入力
音声パターンの音声スペクトル時系列が写像される。こ
の実施例では、第１発声の入力音声パターンが基準の入
力音声パターンに選定される。横の時間軸ｂには、整合
が行われる他の入力音声パターンすなわち第２発声及び
第３発声の入力音声パターンの音声スペクトル時系列が
写像される。なお、基準の入力音声パターンとして、第
２発声又は第３発声の入力音声パターンを用いるように
してもよい。また、各入力音声パターンの音声スペクト
ル時系列の波形は、説明の便宜のため模式的に示したも
のである。

時間軸整合部112は、DP法により、縦軸の基準の入力
音声パターンに横軸の被整合入力音声パターンが最もよ
く類似する（距離が最も小さくなる）ように、被整合入
力音声パターンの伸縮した時間軸を基準の入力音声パタ
ーンの時間軸に整合させる。図のＷは、整合時の対応関
係を示したもので歪関数（Warping function）と呼ばれ
る。このDP法による整合処理自体は、時間正規化処理と
も呼ばれて良く知られているので、その処理内容の説明
は省略する。第３図（ａ），（ｂ）及び（ｃ）は、この
時間軸整合処理によって生成された、第１発声，第２発
声及び第３発声の各整合音声パターンを示したものであ
る。

生成された各整合音声パターンの音声パワー時系列及
び音声スペクトル時系列は、出力音声バッファ113に一
時格納される。

切り出し用音声パターン生成手段12は、出力音声バッ
ファ113より、各整合音声パターンの音声パワー時系列
を取り出し、各音声パワー時系列の対応する各時刻にお
ける最小パワーを選択し、選択された最小値をパワー値
とする最小パワー時系列を生成し、切り出し用音声パタ
ーンとする。これにより、第３図（ｄ）に示すように、
各整合音声パターンにあった雑音が除去され、音声部分
（共通部分）が強調された形の区間用音声パターンが生
成されて、音声区間切り出し部141に送られる。

一方、認識用音声パターン生成手段13は、出力音声バ
ッファ113より各整合音声パターンの音声スペクトル時
系列を取り出し、各音声スペクトル時系列の対応する各
時刻における特徴ベクトルの各ベクトル要素に対して中
央値処理を行って中央値音声スペクトル時系列を生成す
る。これにより、音声区間内に混入したパルス性の雑音
を有効に除去することができる。

いま、第ｉ番目に発声した音声の音声スペクトル時系
列を表すベクトルをV_iとし、その時刻ｊにおける特徴ベ
クトルをV_ijとすると、音声スペクトル時系列V_iは、先
に説明した（１）式と同様に（３）式で表される。

V_i＝（V_i1，V_i2…V_ij…V_iJ） …（３）ここで、１≦ｉ≦I,I:発声回数（実施例ではＩ＝３）１≦ｊ≦J,J:パターン長また、特徴ベクトルV_ijは、先に説明した（２）式と
同様に、次の（４）式で表される。

V_ij＝（V_ij ¹，V_ij ²…V_ij ^k，…V_ij ^N） …（４）ここで、V_ij ^k（ｋ＝１〜Ｎ）は、ベクトルV_ijのｋ番
目の要素（スペクトル成分）で、特徴ベクトルV_ijは、
Ｎ個の要素（スペクトル成分）から成っている。各音声
スペクトル時系列V_iの時刻ｊにおける特徴ベクトルV_ij
（ｉ＝１〜Ｉ）のｋ番目の各要素V_ij ^k（ｉ＝１〜Ｉ）の
中央値が、中央値音声スペクトルを表すベクトルの時刻
ｊの特徴ベクトルのｋ番目のベクトル要素になる。

このようにして生成された中央値音声スペクトル時系
列は、音声区間切り出し部141に送られる。

音声区間切り出し部141は、音声区間切り出しアルゴ
リズムに従って、切り出し用音声パターン（最小パワー
時系列）より一定閾値以上の音声パワーレベルを持たも
のを正しい音声区間として切り出し、この切り出された
音声区間内の中央値音声スペクトル時系列部分のみを、
次段の認識部142に送る。

認識部142は、入力された中央値音声スペクトル時系
列とテンプレート記憶部143にある各テンプレートをDP
法により照合し、最もよく照合した（距離が最も小さ
い）テンプレートのカテゴリ名（単語名）を認識結果と
して出力し、表示部144に表示させる。

（Ｃ）他の実施例認識用音声パターンとして中央値音声スペクトル時系
列を用いる代りに、平均値音声スペクトル時系列を用い
ることができる。

平均値音声スペクトル時系列の場合は、前掲の（３）
及び（４）式に示す各音声スペクトル時系列V_iの時刻ｊ
における特徴ベクトルV_ij（ｉ＝１〜Ｉ）のｋ番目の各
要素V_ij ^k（ｉ＝１〜Ｉ）の平均値が、平均値音声スペク
トル時系列を表すベクトルの時刻ｊの特徴ベクトルのｋ
番目の要素になる。

この平均値音声スペクトル時系列を用いると、雑音が
平均化されるので、音声区間内に混入した持続性のある
ランダム雑音を有効に除去することができる。

〔発明の効果〕

以上説明したように、本発明によれば、次の諸効果が
得られる。

（１）高雑音下においても、正しい音声区間の切り出し
が行われるとともに、音声区間内に混入した雑音が有効
に除去され、良好な認識精度を持った音声認識を行うこ
とができる。

（２）中央値処理を行って認識用音声パターンを生成す
ることにより、音声区間内に混入したパルス性雑音を有
効に除去し、良好な認識精度を持った音声認識を行うこ
とができる。

（３）平均値処理を行って認識用音声パターンを生成す
ることにより、音声区間内に混入した持続性のあるラン
ダム雑音を有効に除去し、良好な認識精度を持った音声
認識を行うことができる。

【図面の簡単な説明】

第１図は、本発明の基本構成の説明図、第２図は、複数回発声時の各入力音声パターンの説明
図、第３図は、整合音声パターンと切り出し用音声パターン
の説明図、第４図は、本発明の一実施例の構成の説明図、第５図は、同実施例のDP法による時間軸整合処理の説明
図、第６図は、従来の音声認識装置の構成の説明図、第７図は、従来の音声認識装置の音声区間切り出し処理
の説明図である。第１図及び第４図において、 11……時間軸整合手段、111……入力音声バッファ、112
……時間軸整合部、113……出力音声バッファ、12……
切り出し用音声パターン生成手段、13……認識用音声パ
ターン生成手段、14……認識手段、141……音声区間切
り出し部、142……認識部、143……テンプレート記憶
部、144……表示部、15……マイクロホン、16……音声
分析部。

Claims

(57)【特許請求の範囲】

【請求項１】入力音声パターンから切り出された音声区
間単位で音声認識を行う音声認識装置において、（Ａ）同一内容の発声に基づく複数個の入力音声パター
ン間に生じた時間軸の伸縮を整合して整合音声パターン
をそれぞれ生成する時間軸整合手段と、（Ｂ）生成された複数個の整合音声パターンを用いて雑
音除去を行い、音声区間切り出しを行うための切り出し
用音声パターンを生成する切り出し用音声パターン生成
手段と、（Ｃ）生成された複数個の整合音声パターンを用いて雑
音除去を行い、音声認識を行うための認識用音声パター
ンを生成する認識用音声パターン生成手段、を備えたことを特徴とする音声認識装置。
【請求項２】時間軸整合手段が、各入力音声パターン間
に生じる時間軸の伸縮の整合を、各入力音声パターンを
表す音声スペクトル時系列間の動的計画法によるマッチ
ング処理により行うことを特徴とする請求項１記載の音
声認識装置。
【請求項３】切り出し用音声パターン生成手段が、複数
個の整合音声パターンを表す各音声パワー時系列よりの
最小値をパワー値とする最小パワー時系列を生成して切
り出し用音声パターンとすることを特徴とする請求項１
又は２記載の音声認識装置。
【請求項４】認識用音声パターン生成手段が、複数個の
整合音声パターンを表す各音声スペクトル時系列の対応
する時刻の特徴ベクトルの各要素毎に中央値処置を行っ
て中央値音声スペクトル時系列を生成して認識用音声パ
ターンとすることを特徴とする請求項1,2又は３記載の
音声認識装置。
【請求項５】認識用音声パターン生成手段が、複数個の
整合音声パターンを表す各音声スペクトル時系列の対応
する時刻の特徴ベクトルの各要素毎に平均値処理を行っ
て平均値音声スペクトル時系列を生成して認識用音声パ
ターンとすることを特徴とする請求項1,2又は３記載の
音声認識装置。