JPH01219797A

JPH01219797A - 音声認識装置

Info

Publication number: JPH01219797A
Application number: JP63044191A
Authority: JP
Inventors: Akihiro Kimura; 晋太木村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1988-02-29
Filing date: 1988-02-29
Publication date: 1989-09-01
Anticipated expiration: 2013-05-18
Also published as: JP2752981B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概°要〕入力音声パターンから切り出された音声区間単位で音声
認識を行う音声認識装置に関し、高雑音下でも正しい音
声区間の切り出しと音声区間内に混入した雑音の除去を
行って、良好な精度の音声認識を可能にすることを目的
とし、入力音声パターンから切り出された音声区間単位
で音声認識を行う音声認識装置において、同一内容の発
声に基づく複数個の入力音声パターン間に生じた時間軸
の伸縮を整合して整合音声パターンをそれぞれ生成する
時間軸整合手段と、生成された複数個の整合音声パター
ンを用いて雑音除去を行い、音声区間切り出しを行うた
めの切り出し用音声パターンを生成する切り出し用音声
パターン生成手段と、生成された複数個の整合音声パタ
ーンを用いて雑音除去を行い、音声認識を行うための認
識用パターンを生成する認識用音声パターン生成手段を
設けるように構成する。

〔産業上の利用分野〕

本発明は、入力音声パターンから音声区間を切り出し、
切り出された音声区間単位で認識処理を行う音声認識装
置に関する。

〔従来の技術〕

音声には、音声パワーの存在する音声区間と音声パワー
の存在しない休止区間が混合しており、各音声区間は、
通常、単語等の１つのまとまった意味を持つ音声になっ
ている。そこで、音声Ｓ忍識を行う場合は、第６図に示
すように、入力音声から音声区間を切り出し、切り出さ
れた音声区間単位で認識処理を行うようにしている。

第６図において、認識させたい音声をマイクロホン２１
に入力する。音声はマイクロホン２１で電気的な音声信
号に変換される。音声分析部２２は、この音声信号を分
析して音声パワー時系列と音声スペクトル時系列でそれ
ぞれ表される入力音声パターンを作成する。ここで、音
声パワーはスカラー量であり、数ミリ数毎の各時刻にお
ける分析窓内の音声波形のエネルギとして計算される。

分析窓は数十ミリ秒の長さを有し、ハミング窓やハニン
グ窓と呼ばれるものがある。分析窓長を長くすれば、分
析される音声スペクトルの周波数分解能が高くなるが時
間分解能は低下し、逆に分析窓長を短くすれば、周波数
分解能が低くなるが時間分解能は高くなる。

第７図（Ａ）は、このようにして求められた音声パワー
時系列の一例を示したもので、縦軸は音声パワーを示し
、横軸は時間を示す。

一方、音声スペクトル時系列Ｖは、次の（１）式で示さ
れる特徴ベクトルの時系列で表される。

Ｖ＝　（Ｖ、、Ｖ２．・・・Ｖ、・・・ＶＪ　）　　　
・・・（１）ＶＪ　　（ｊ＝１〜Ｊ、Ｊはパターン長）
は、時刻Ｊにおける音声の特徴を表す特徴ベクトルで、
次の（２）式で表されるベクトル量である。

Ｖ；　＝　（Ｖｊａ、　’Ｖ；ｚ、　−Ｖ」ｉ＋−Ｖ４
Ｎ）　　・・・（２）ここで、Ｖｎ＝（ｋ＝１〜Ｎ）は
特徴ベクトルＶ、のに番目の要素で、音声をＮ個の周波
数帯域に分けたときのに番目の周波数成分（スペクトル
成分）を表す。このスペクトル成分の計算には、例えば
フィルタバンクや高速フーリエ変換（ＦＦＴ：Ｆａｓｔ
　Ｆｏｕｒｉｅｒ　Ｔｒａｎｓｆｏｒｍ）による方法が
用いられる。

音声区間切り出し部２３は、音声区間切り出しアルゴリ
ズムに従って、第７図（Ａ）に示すように、音声パワー
時系列より一定閾値以上の音声パワーレベルを持ったも
のを音声区間として切り出し、この切り出された音声区
間内の音声スペクトル時系列部分のみを、次段の認識部
２４に送る。音声区間の始りは始端と呼ばれ、終りは終
端と呼ばれる（第７図（Ａ）参照）。

一方、テンプレート記憶部２５には、認識対象となる単
語等の各種の音声の標準的な音声スペクトル時系列（以
下、テンプレートと呼ぶ）が予め求められて格納されて
いる。

認識部２４は、音声区間切り出し部２３より切り出され
た音声スペクトル時系列とテンプレート記憶部２５の各
テンプレートとを照合し、最もよく照合されたテンプレ
ートのカテゴリ名（単語名等）を認識結果として表示部
２６に転送し表示させる。音声スペクトル時系列とテン
プレートとの照合は、例えば動的計画法（ＤＰ法：　Ｄ
　Ｐ　Ｌｔｄｙｎａｍｉｃ　ｐｒｏｇｒａｍｍｉｎｇの
略）を用いて行われ、両者の距離の最も小さいものが最
もよく照合していると判断される。

〔発明が解決しようとする課題〕

従来の音声認識装置では、前述のように、一定の闇値を
設けて音声区間の切り出しを行っていた。

この音声区間切り出し方式では、第７図（Ｂ）に示すよ
うに、真の音声部分に対する本来の音声区間に接近した
高いレベルの雑音がある場合、この雑音部分を取り除き
本来の音声区間を切り出すことが困難である。音声区間
検出の誤りは誤認識につながり、雑音の多い環境で音声
認識装置を使う場合、何度発声を繰り返しても正しく認
識されないという問題があった。

また、正しい音声区間が検出されても、検出された音声
区間内に雑音が入り込んだ場合は、音声の特徴量が雑音
により変形し、音声スペクトル特性が変化するため認識
誤りをひき起すという問題があった。

本発明は、高雑音下においても正しい音声区間の切り出
しが行われるとともに、音声区間内に混入した雑音を有
効に除去し、良好な認識精度を持った音声認識装置を提
供することを目的とする。

〔課題を解決するための手段〕

雑音は音声に無相関であるため、同じ内容の音声を複数
回発声したときに得られる各入力音声パターンは、理想
的な場合、音声部分は共通で雑音部分が異なるパターン
になる。したがって、この同一内容の発声を複数回行っ
て得られる複数個の入力音声パターンを用いることによ
り、雑音の混在する入力音声パターンから正しい音声区
間を切り出すことができる。本発明は、この着想に基づ
いてなされたものである。

以下前述の目的を達成するために本発明が採用した手段
を、第１図を参照して説明する。第１図は、本発明の基
本構成をブロック図で示したものである。

第１図において、同一内容の発声を複数回行って得られ
る複数個の入力音声パターンが、時間軸整合手段１１に
入力される。

時間軸整合手段１１は、同一内容の発声に基づく複数個
の入力音声パターン間に生じた時間軸の伸縮を整合して
整合音声パターンをそれぞれ生成する。

切り出し用音声パターン生成手段１２は、時間軸整合手
段１１で生成された複数個の整合音声パターンを用いて
雑音除去を行い、音声区間切出しを行うための切り出し
用音声パターンを生成する。

認識用音声パターン生成手段１３は、時間軸整合手段１
１で生成された複数個の整合音声パターンを用いて雑音
除去を行い、音声認識を行うための認識用パターンを生
成する。

認識手段１４は、切り出し用音声パターンより音声区間
の切り出しを行い、この音声区間内にある認識用音声パ
ターン部分に基づいて音声認識を行う。

時間軸整合手段１１において、各入力音声パターン間に
生じる時間軸の伸縮の整合は、各入力音声パターンを表
す音声スペクトル時系列間の動的計画法（ＤＰ法）によ
るマツチング処理により行うことができる。

切り出し用音声パターン生成手段１２において、時間軸
整合手段１１で生成された複数個の整合音声パターンを
表す各音声パワー時系列より最小パワー時系列を生成し
て区間用音声パターンとすることができる。

認識用音声パターン生成手段１３において、時間軸整合
手段１１で生成された複数個の整合音声パターンを表す
各音声スペクトル時系列の対応する時刻の特徴ベクトル
の各要素毎に中央値処理を行って中央値音声スペクトル
時系列を生成して認識用音声パターンとすることができ
る。

また、認識用音声パターン生成手段１３において、時間
軸整合手段１１で生成された複数個の整合音声パターン
を表す各音声スペクトル時系列の対応する時刻の特徴ベ
クトルの各要素毎に平均値処理を行って平均値音声スペ
クトル時系列を生成して認識用音声パターンとすること
ができる。

〔作　用〕

本発明の作用を、第２図及び第３図を参照して説明する
。第２図は複数回発声時の各入力音声パターンの説明図
、第３図は整合音声パターンと切り出し用音声パターン
の説明図である。

同一内容の発声を複数回行って得られる複数個の入力音
声パターンが、時間軸整合手段１１に入力される。

胴−内容の発声であっても、各入力音声パターンの時間
軸は、第２図（ａ）〜（Ｃ）に示すように変化する。第
２図は、縦軸に音声パワーをとり横軸に時間をとって、
音声パワー時系列で音声パターンを示したものである。

Ｎ１〜Ｎ３は雑音である。

時間軸整合手段１１は、同一内容の発声に基づく複数個
の入力音声パターンにおける時間軸の伸縮を整合して整
合音声パターンをそれぞれ生成する。

切り出し用音声パターン生成手段１２は、時間軸整合手
段１１で生成された複数個の整合音声パターンを用いて
雑音除去を行い、音声区間切り出しを行うための切り出
し用音声パターンを生成して認識手段１４に送る。

一方、認識用音声パターン生成手段１３は、時間軸整合
手段１１で生成された複数個の整合音声パターンを用い
て雑音除去を行い、音声認識を行うための認識用音声パ
ターンを生成して認識手段１４に送る。

以上のようにすることにより、高雑音下においても、正
しい音声区間の切り出しが行われるとともに、音声区間
内に混入した雑音が有効に除去され、良好な認識精度を
持った音声認識を行うことができる。

同一内容の発声に基づく複数個の入力音声パターンの時
間軸は、一般に非線形に伸縮する。この場合、動的計画
法（ＤＰ法）を用いれば、各入力音声パターンの非線形
に伸縮した時間軸を整合させた整合音声パターンを生成
することができる。

切り出し用音声パターン生成手段１２において、区間用
音声パターンを最小パワー時系列で生成すると、第３図
に示すように高雑音下でも雑音が有効に除去された区間
用音声パターンを生成することができる。

第３図において、　（ａ）、　（ｂ）、　（Ｃ）は、時
間軸整合手段１１で生成された第２図（ａ）、　（ｂ）
及び（Ｃ）の第一発声、第二発声及び第三発声に対する
各整合音声パターンを示したものである。各時刻におけ
る各整合音声パワーの最小音声パワーを取り出すことに
より、同図（ｄ）に示すような最小パワー時系列が生成
される。この最小パワー時系列を用いると、雑音Ｎ１〜
Ｎ３が有効に除去された切り出し用音声パターンを生成
することができる。

認識用音声パターン生成手段１３において、認識用音声
パターンを中央値音声スペクトル時系列で生成すると、
音声区間内に混入したパルス性の雑音が有効に除去され
、良好な認識精度を持った音声認識を行うことができる
。

また、認識用音声パターン生成手段１３において、認識
用音声パターンを平均値音声スペクトル時系列で生成す
ると、音声区間内に混入した持続性のあるランダム雑音
が平均化処理により除去され、良好な認識精度を持った
音声認識を行うことができる。

〔実施例〕

本発明の実施例を、第２図〜第５図を参照して説明する
。第４図は本発明の一実施例の構成の説明図、第５図は
同実施例のＤＰ法による時間軸整合処理の説明図である
。第２図及び第３図については、既に説明したとおりで
ある。

（Ａ）実施例の構成第４図において、時間軸整合手段１１．切り出し用音声
パターン生成手段１２．認識用音声、＜ターン生成手段
１３及び認識手段１４については、第１図で説明したと
おりである。

マイクロホン１５は、発声された音声を入力して電気的
な音声信号に変換する。音声分析部１６は、入力された
音声信号を分析して入力音声の特徴を抽出し、入力音声
パターンを表す音声／　＜ワー時系列と音声スペクトル
時系列を作成する。

時間軸整合手段１１において、入力音声ノ＜・ソファ１
１１には、音声分析部１６から入力された各入力音声パ
ターンの音声パワー時系列と音声スペクトル時系列が一
時格納さ−れる。

時間軸整合部１１２は、音声スペクトル時系列を用いて
ＤＰ法により、各入力音声ノくターンの時間軸を整合し
て整合音声パターンを生成する。

出力音声バッファ１１３は、生成された各整合音声パタ
ーンを一時格納する。

認識手段１４において、音声区間切り出し部１４１は、
切り出し用音声パターン生成手段１２から入力された切
り出し用音声パターンを用いて音声区間の切り出しを行
い、切り出された音声区間内にある認識用音声パターン
（音声スペクトル時系列）部分を認識部１４２に送る。

認識部１４２は、音声区間切り出し部１４１より切り出
された認識用音声パターン（音声スペクトル時系列）部
分とテンプレート記憶部１４３にある各テンプレートを
照合し、最もよく照合したテンプレートのカテゴリ名を
ｇｒｌ＞　２結果として出力する。

テンプレート記憶部１４３には、認識対象となる各音声
の標準的な音声スペクトル時系列（テンプレート）が格
納されている。表示部１４４には、認識部１４２の認識
結果が表示される。

（Ｂ）実施例の動作実施例の動作を、第２図、第３図及び第５図を参照して
説明する。

発声者は、マイクロホン１５に向って同一内容の発声を
複数回（この実施例では３回とする）行う。マイクロホ
ン１５は、発声された音声を電気的な音声信号に変換し
て、音声分析部１６に入力する。

音声分析部１６は、入力された音声信号を分析して入力
音声の特徴を抽出し、入力音声パターンとして音声パワ
ー時系列と音声スペクトル時系列を作成する。各発声の
音声スペクトル時系列は、いずれも先に説明した（１）
および（２）式の形で表わされる特徴ベクトルの時系列
で表される。

作成された各入力音声パターンの音声パワー時系列及び
音声スペクトル時系列は、入力音声バッファ１１１に一
時格納される。

発声者が同一内容の発声を行っても、各音素の発声時間
は変化する。したがって、作成された各発声の入力音声
パターンの時間軸は、第２図に示すように変化する。同
図（ａ）、　（ｂ）及び（Ｃ）は、それぞれ第１発声、
第２発声及び第３発声の入力音声パターンと音声パワー
時系列で示したものである。

Ｎ１〜Ｎ３は雑音である。各入力音声パターンは時間軸
方向に非線形に伸縮する。

時間軸整合部１１２は、音声スペクトル時系列を用いて
ＤＰ法により、各入力音声パターンの時間軸を整合して
整合音声パターンを生成する。

第５図は、この入力音声パターンの時間軸整合処理を説
明したものである。

第５図において、縦の時間軸ａには、基準となる入力音
声パターンの音声スペクトル時系列が写像される。この
実施例では、第１発声の入力音声パターンが基準の入力
音声パターンに選定される。

横の時間軸すには、整合が行われる他の入力音声パター
ンすなわち第２発声及び第３発声の入力音声パターンの
音声スペクトル時系列が写像される。

なお、基準の入力音声パターンとして、第２発声又は第
３音声の入力音声パターンを用いるようにしてもよい。

また、各入力音声パターンの音声スベクトル時系列の波
形は、説明の便宜のため模式的に示したものである。

時間軸整合部１１２は、ＤＰ法により、縦軸の基準の入
力音声パターンに横軸の被整合入力音声パターンが最も
よく類似する（距離が最も小さくなる）ように、被整合
入力音声パターンの伸縮した時間軸を基準の入力音声パ
ターンの時間軸に整合させる。図のＷは、整合時の対応
関係を示したもので歪関数（Ｗａｒｐｉｎｇ　ｆｕｎｃ
ｔｉｏｎ）と呼ばれる。

このＤＰ法による整合処理自体は、時間正規化処理とも
呼ばれて良く知られているので、その処理内容の説明は
省略する。第３図（ａ）、ら）及び（Ｃ）は、この時間
軸整合処理によって生成された、第１発声、第２発声及
び第３発声の各整合音声パターンを示したものである。

生成された各整合音声パターンの音声パワー時系列及び
音声スペクトル時系−列は、出力音声バッファ１１３に
一時格納される。

切り出し用音声パターン生成手段１２は、出力音声バッ
ファ１１３より、各整合音声パターンの音声パワー時系
列を取り出し、各音声パワー時系列の対応する各時刻に
おける最小パワーを選択して最小パワー時系列を生成し
、切り出し用音声パターンとする。これにより、第３図
（ｄ）に示すように、各整合音声パターンにあった雑音
が除去され、音声部分（共通部分）が強調された形の区
間用音声パターンが生成されて、音声区間切り出し部１
４１に送られる。

一方、認識用音声パターン生成手段１３は、出力音声バ
ッファ１１３より各整合音声パターンの音声スペクトル
時系列を取り出し、各音声スペクトル時系列の対応する
各時刻における特徴ベクトルの各ベクトル要素に対して
中央・値処理を行って中央値音声スペクトル時系列を生
成する。これにより、音声区間内に混入したパルス性の
雑音をを効に除去することができる。

いま、第１番目に発声した音声の音声スペクトル時系列
を表すベクトルをＶｌとし、その時刻Ｊにおける特徴ベ
クトルをｖＩ、とすると、音声スペクトル時系列Ｖｔ　
は、先に説明した（１）式と同様に（３）式で表される
。

ＶＬ　＝　（Ｖｚ、　　Ｖ、ｔ、　−ＶｔＪ−ＶｔＪ）
　　”１３）ここで、１≦ｌ≦Ｉ、Ｉ：発声回数（実施
例ではＩ＝３）ｌ≦Ｊ≦Ｊ、Ｊ：パターン長また、線機ベクトルＶ８．は、先に説明した（２）式と
同様に、次の（４）式で表される。

Ｖ　１」＝　（Ｖｔｉ’、　Ｖ　ｊＪ’＋　＋＋＋　Ｖ
ｌｊｋ、　・・・”ｖ　ｔＪ’）　・・・（４）ココテ
、ｖｌｊｋ　（ｋ＝１〜Ｎ）は、ベクトルＶ２．のに番
目の要素（スペクトル成分）で、特徴ベクトルｖｌＪは
、Ｎ個の要素（スペクトル成分）から成っている。各音
声スペクトル時系列Ｖ、の時刻ｊにおける特徴ベクトル
Ｖ＋ｉ　（ｌ＝　１〜Ｉ）（７）ｋ番目の各要素ＶＩＪ
ｋ　（ｉ＝１〜Ｉ）の中央値が、中央値音声スペクトル
を表すベクトルの時刻Ｊの特徴ベクトルのに番目のベク
トル要素になる。

このようにして生成された中央値音声スペクトル時系列
は、音声区間切り出し部１４１に送られる。

音声区間切り出し部１４１は、音声区間切り出しアルコ
リズムに従って、切り出し用音声パターン（最小パワー
時系列）より一定闇値以上の音声パワーレベルを持たも
のを正しい音声区間として切り出し、この切り出された
音声区間内の中央値音声スペクトル時系列部分のみを、
次段のＥｌｊ　ａｆｆｋ部１４２に送る。

認識部１４２は、入力された中央値音声スペクトル時系
列とテンプレート記憶部１４３　！：ある各テンプレー
トをＤＰ法により照合し、最もよく照合した（距離が最
も小さい）テンプレートのカテゴリ名（単語名）を認識
結果として出力し、表示部１４４に表示させる。

（Ｃ）他の実施例認識用音声パターンとして中央値音声スペクトル時系列
を用いる代りに、平均値音声スペクトル時系列を用いる
ことができる。

平均直音声スペクトル時系列の場合は、前掲の（３）及
び（４）式に示す各音声スペクトル時系列Ｖ、の時刻Ｊ
における特徴ベクトルＶ、、（ｉ＝１〜Ｉ）のに番目の
各要素ｖ、Ｊ″　（ｌ＝１〜Ｉ）の平均値が、平均値音
声スペクトル時系列を表すベクトルの時刻Ｊの特徴ベク
トルのに番目の要素になる。

この平均値音声スペクトル時系列を用いると、雑音が平
均化されるので、音声区間内に混入した持続性のあるラ
ンダム雑音を有効に除去することができる。

〔発明の効果〕

以上説明したように、本発明によれば、次の諸効果が得
られる。

（１）高雑音下においても、正しい音声区間の切り出し
が行われるとともに、音声区間内に混入した雑音が有効
に除去され、良好な認識精度を持った音声認識を行うこ
とができる。

（２）中央１直処理を行って認識用音声パターンを生成
することにより、音声区間内に混入したパルス性雑音を
有効に除去し、良好な認識精度を持った音声認識を行う
ことができる。

（３）平均値処理を行って認識用音声パターンを生成す
ることにより、音声区間内に混入した持続性のあるラン
ダム雑音を有効に除去し、良好な認識精度を持った音声
認識を行うことができる。

【図面の簡単な説明】

第１図は、本発明の基本構成の説明図、第２図は、複数
回発声時の各入力音声パターンの説明図、第３図は、整合音声パターンと切り出し用音声パターン
の説明図、第４図は、本発明の一実施例の構成の説明図、第５図は
、同実施例のＤＰ法による時間軸整合処理の説明図、第６図は、従来の音声認識装置の構成の説明図、第７図
は、従来の音声認識装置の音声区間切り出し処理の説明
図である。第１図及び第４図において、１１・・・時間軸整合手段、１１１・・・入力音声バッ
ファ、１１２・・・時間軸整合部、１１３・・・出力音
声バッファ、１２・・・切り出し用音声パターン生成手
段、１３　認識用音声パターン生成手段、１４・・・認
識手段、１４１・・・音声区間切り出し部、１４２・・
・認識部、１４３・・・テンプレート記憶部、１４４・
・・表示部、１５・・・マイクロホン、１６・・・音声
分析部。

Claims

【特許請求の範囲】１、入力音声パターンから切り出された音声区間単位で
音声認識を行う音声認識装置において、（Ａ）同一内容
の発声に基づく複数個の入力音声パターン間に生じた時
間軸の伸縮を整合して整合音声パターンをそれぞれ生成
する時間軸整合手段（１１）と、（Ｂ）生成された複数個の整合音声パターンを用いて雑
音除去を行い、音声区間切り出しを行うための切り出し
用音声パターンを生成する切り出し用音声パターン生成
手段（１２）と、（Ｃ）生成された複数個の整合音声パ
ターンを用いて雑音除去を行い、音声認識を行うための
認識用パターンを生成する認識用音声パターン生成手段
（１３）、を備えたことを特徴とする音声認識装置。２、時間軸整合手段（１１）が、各入力音声パターン間
に生じる時間軸の伸縮の整合を、各入力音声パターンを
表す音声スペクトル時系列間の動的計画法によるマッチ
ング処理により行うことを特徴とする請求項１記載の音
声認識装置。３、切り出し用音声パターン生成手段（１２）が、複数
個の整合音声パターンを表す各音声パワー時系列より最
小パワー時系列を生成して切り出し用音声パターンとす
ることを特徴とする請求項１又は２記載の音声認識装置
。４、認識用音声パターン生成手段（１３）が、複数個の
整合音声パターンを表す各音声スペクトル時系列の対応
する時刻の特徴ベクトルの各要素毎に中央値処理を行っ
て中央値音声スペクトル時系列を生成して認識用音声パ
ターンとすることを特徴とする請求項１、２又は３記載
の音声認識装置。５、認識用音声パターン生成手段（１３）が、複数個の
整合音声パターンを表す各音声スペクトル時系列の対応
する時刻の特徴ベクトルの各要素毎に平均値処理を行っ
て平均値音声スペクトル時系列を生成して認識用音声パ
ターンとすることを特徴とする請求項１、２又は３記載
の音声認識装置。