JP2745535B2

JP2745535B2 - 音声認識装置

Info

Publication number: JP2745535B2
Application number: JP63127825A
Authority: JP
Inventors: 浩明服部
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1988-05-24
Filing date: 1988-05-24
Publication date: 1998-04-28
Anticipated expiration: 2013-04-28
Also published as: JPH01296299A; US4937871A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は高雑音下で発生された音声を認識する音声認
識装置の改良に関する。

（従来の技術）従来、単語認識方式としては迫江、千葉、「動的計画
法を利用した音声の時間正規化に基づく連続単語認
識」、音響学会誌、27、９、pp483−500（1971），（以
下、「文献１」）に示されるようなDPマッチングを用い
た方式が知られている。この方式を第２図を用いて説明
する。

端子201には音声が入力されるものとする。

分析部202は入力音声を分析し、特徴ベクトルの時系
列に変換する。求められた特徴ベクトル時系列を、Ａ＝｛ａ（１）,a（２）,a（３），…,a（ｉ），…,a
（Ｉ）｝と表すことにする。ここで、ａ（ｉ）はｉフレームの特
徴ベクトルである。特徴ベクトルを求めるための分析法
としては、例えば古井、「ディジタル音声処理」、東海
大学出版会（以下、「文献２」）に示されるような帯域
フィルタ群による分析、FFT分析、ケプストラム分析な
どがある。

記憶部203にはあらかじめ登録されたＭ個の単語の標
準パターンが記憶されている。単語ｍ、１≦ｍ≦Ｍの標
準パターンを、Ｂ（ｍ）＝｛ｂ（m,1）,b（m,2）,b（m,3），…,b（m,j），…,b（m,Jm）｝と表すことにする。

距離計算部204は入力パターンのｉフレームａ（ｉ）
と標準パターンのｊフレームｂ（m,j）とのフレーム間
距離ｄ（m,i,j）を全てのフレームに対して計算する。
フレーム間距離ｄ（m,i,j）は例えば、ユークリッド距離ｄ（m,i,j）＝‖ａ（ｉ）−ｂ（m,j）‖ （１）を用いる。

マッチング部205は距離計算部204からフレーム間距離
ｄ（m,i,j）を受け取り、以下の漸化式に従って評価関
数ｇ（m,i,j）を最小とするように、入力パターンと標
準パターンの時間対応づけを行う。

ｇ（m,i,j）＝ｄ（m,i,j）＋min g（m,i−1,j）ｇ（m,i−1,j−１）（２）ｇ（m,i−1,j−２）マッチング部は全ての標準パターンＢ（ｍ）に対する
距離 dist（ｍ）＝ｇ（m,I,Jm）、１≦ｍ≦Ｍを計算する。

決定部206はマッチング部205からdist（ｍ）を受け取
り、最小値を与えるｍを認識結果として端子207へ出力
する。

このような方式を用いて雑音下で発生された音声を認
識する場合には、低雑音下における場合よりも認識率が
低下するという問題点があった。雑音下で発生された音
声の認識が困難であるのは、音声が付加雑音によりマス
クされるだけでなく、発声自身のスペクトルが変形する
ためである。この変形は雑音により、発声者が自分の発
声を聞き取り辛くなるために、より大きく、より明瞭に
発声しようとするために生じる。同一男性話者が静かな
環境と高雑音下において発声した母音/a/のスペクトル
の例を第３図に示す。第３図において実線は静かな環境
において発生された音声のスペクトルであり、点線は高
雑音下において発声された音声のスペクトルである。第
３図に示すように高雑音下において発声された場合は全
体のエネルギーの上昇だけでなく、そのスペクトルの概
形やホルマントの位置および帯域幅も変化している。こ
のような変形は例に示した母音以外でも一般に生じる。
このように、背景雑音レベルが異なる場合の発生は、同
じ母音であってもスペクトル形状が大きく異なったもの
となるため、母音パターン間距離が大きくなり認識誤り
の原因となっている。

雑音下の音声を認識する方法はいくつか考えられる。
例えば、雑音下音声を認識する場合、認識時と登録時の
環境が近いほど認識率はよいことがC.H.Lee、K.Ganesan
によって“Speech Recognition Under Additive Nois
e″,ICASSP1984,35,7,（1984.3）（以下、「文献
３」）、に示されている。そこで、あらかじめ多数の環
境下で発声した標準パターンを登録する方法（以下、
「方法１」）が考えられる。

また、梅崎、板倉、「重みつきFFTケプストラム係数
と平滑化群遅延スペクトル係数による距離尺度の比較と
評価」、日本音響学会講演論文集１−５−11、昭和62年
10月（以下、「文献４」）に、重みつきケプストラム距
離を距離尺度とする方法（以下、「方法２」）が雑音下
音声の認識に有効であることが報告されている。

また、第３図によれば2.5kHz以上の周波数領域でのス
ペクトルの変形は大きいが、それ以下の周波数領域での
スペクトルでの変形は少ないことがわかる。この傾向は
他の母音に関しても同様である。そこで、2.5kHz以下の
低域のスペクトルの特徴のみを用いて音声認識を行う方
法（「方法３」）も考えられよう。

（発明が解決しようとする問題点）雑音下で発声した音声のスペクトル変動に「方法１」
で対処する場合には、登録時の手間や記憶量、処理量が
膨大になるという問題点がある。また、方法２の重みつ
きケプストラム距離はホルマントピークへの比重が高い
距離尺度であって、加法性の白色雑音等に対しては効果
がある。しかし、この方法はホルマントの位置、帯域幅
の変動の影響を受け易いため、上記のようなスペクトル
変動には対処できない。また、方法３の低域の情報のみ
を用いて認識を行う場合は、高域に特徴を持つ摩擦音や
破裂音等の子音を識別することは困難であり、認識率は
かえって低下するおそれがある。

本発明は、登録時の手間や記憶量、処理量を増大させ
ることなく、高雑音下における発声を高精度で認識する
音声認識装置を提供するものである。

（発明の構成）本発明は、入力された音声の全帯域の情報を表す全帯
域特徴ベクトルを求める全帯域分析部と、入力された音
声の低域の情報を表す低域特徴ベクトルを求める低域分
析部と、あらかじめ用意された標準パターンの全帯域特
徴ベクトルを記憶する全帯域標準パターン記憶部と、あ
らかじめ用意された標準パターンの低域特徴ベクトルを
記憶する低域標準パターン記憶部と、あらかじめ用意さ
れた重み係数を記憶する係数記憶部と、前記入力音声の
全帯域特徴ベクトルと前記標準パターンの全帯域特徴ベ
クトルとの間の全帯域距離を求める全帯域距離計算部
と、前記入力音声の低域特徴ベクトルと前記標準パター
ンの低域特徴ベクトルとの間の低域距離を求める低域距
離計算部と、前記重み係数により前記全帯域距離と前記
低域距離に重み付けを行い入力パターンと標準パターン
のフレーム間距離を求める距離計算部と、前記フレーム
間距離を用いて入力音声と標準パターンとの間のパター
ン間距離を求め、入力された音声の認識を行う認識部
と、から構成されることを特徴とする。あるいは、前記
係数記憶部に変えて、入力音声から前記重み係数を計算
する係数計算部と、をから構成されることを特徴とす
る。

またあるいは、前記係数記憶部に変えて、入力音声か
ら母音らしさを表す母音性特徴量を求める母音性抽出部
と、あらかじめ用意された標準パターンの母音性特徴量
を記憶する母音性特徴量記憶部と、前記入力音声の母音
性特徴量と前記標準パターンの母音性特徴量から前記重
み係数を計算する係数計算部、から構成されることを特
徴とする。

（作用）本発明は音声の母音らしい部分ではスペクトル変動の
少ない低域の情報を用い、そうでない部分では全帯域の
情報を用いて識別を行うことにより、高精度の音声認識
装置を実現するものである。以下に本発明の作用を説明
する。

入力音声の全帯域の情報は全帯域特徴ベクトル時系列
A_all、 A_all＝｛a_all（１）,a_all（２），…,a_all（ｉ），…a_all（Ｉ）｝と表せる。全帯域特徴ベクトルとしては文献２に示され
ているフィルタバンクによる分析やFFT分析、ケプスト
ラム分析等を利用し求めることが出来る。

また、低域の情報は低域特徴ベクトル時系列A_low、 A_low＝｛a_low（１）,a_low（２），…,a_low（ｉ），…,a_low（Ｉ）｝と表せる。低域特徴ベクトルは、例えば、第１、第２ホ
ルマントを含むような2.5kHz以下の帯域を用いて分析す
ることにより求めることができる。

単語ｍの標準パターンの全帯域特徴ベクトル時系列を
B_all（ｍ）、 B_all（ｍ）＝｛b_all（m,1）,b_all（m,2），…,b_all（m,j），…,b_all（m,J_m）｝低域特徴ベクトル時系列をB_low（ｍ） B_low（ｍ）＝｛b_low（m,1）,b_low（m,2），…,b_low（m,j），…,b_low（m,J_m）｝あらかじめ用意された重み付け係数をＷ（ｍ）Ｗ（ｍ）＝｛ｗ（m,1）,w（m,2），…ｗ（m,j），…ｗ（m,J_m）｝とする。ｗ（m,j）は単語ｍの標準パターンの第ｊフレ
ームが母音らしい場合には１に近い値を、そうでない場
合には０に近い値を取るように定められているものとす
る。

次に入力パターンのｉフレームと単語ｍの標準パター
ンのｊフレームとの全帯域距離d_all（m,i,j）、低域特
徴ベクトル間距離d_low（m,i,j）を求める。d_all（m,i,
j）、d_low（m,i,j）としては、例えば（１）式に示すユ
ークリッド距離を利用して求めることができる。

フレーム間距離ｄ（m,i,j）はｗ（m,j）によりd
_all（m,i,j）、d_low（m,i,j）に重み付けを行って求め
られる。例えば、ｄ（m,i,j）＝（１−ｗ（m,j））×d_all（m,i,j）＋ｗ（m,j）×d_low（m,i,j）（３）の様に求められる。

このように求められるフレーム間距離を用いて、例え
ば文献１に示されているようなDPマッチングを行うこと
により入力音声を認識する。認識方法としてはこのDPマ
ッチング以外にも、ベクトル間距離に基づく認識方法と
して、線形マッチング等を用いることもできる。

上記の音声認識装置において、重み係数Ｗ（m,j）を
記憶しておく代わりに入力音声から重み係数を求めるこ
とができる。入力音声から重み係数を求める方式は、認
識時の処理量は増加するが、入力音声の母音の無声化や
消失に対処できる利点がある。

はじめに入力音声から音声の母音らしさを表す母音性
特徴量α α＝｛α（１），α（２），…，α（ｉ），…，α（Ｉ）｝を求める。母音性特徴量αを求める方法としては、例え
ば第１の方法として、α（ｉ）＝第ｉフレームの第１ホ
ルマントを含む帯域エネルギー（４）の様に求められる。第２の方法としては、第ｉフレーム
の全帯域エネルギーE_all（ｉ）と低域エネルギーE
_low（ｉ）との比、の様に求められる。

あるいは第３の方法として、ピッチ抽出を行い、の様に求められる。ピッチ抽出に関しては、例えば文献
２に示されるような自己相関方法を用いることができ
る。

このようにして求められた母音性特徴量から重み係数
ＷＷ＝｛ｗ（１）,w（２），…,w（ｉ），…ｗ（Ｉ）｝を計算する。ｗ（ｉ）としては例えばの様に計算される。ここでα_maxはα（ｉ）の最大値、t
hは別に定められた閾値である。フレーム間距離ｄ（m,
i,j）はｗ（ｉ）によりd_all（m,i,j）、d_low（m,i,j）
に重み付けを行って求める。例えば、ｄ（m,i,j）＝（１-ｗ（ｉ）×d_all（m,i,j）+ｗ（ｉ）×d_low（m,i,j）（８）の様な式により求められる。

また上記の音声認識装置において、入力音声のみから
重み係数を求める代わりに、入力音声の母音性特徴量と
標準パターンの母音性特徴量から重み係数を計算する方
法が考えられる。この方式は認識時の処理量と標準パタ
ーンの記憶量は増加するが、母音の無声化や消失に対処
できる上、入力パターンと標準パターンの両方の情報を
用いるので適した重み付けが可能になる。

入力音声から音声の母音らしさを表す母音性特徴量を
求める方法としては上記の（４）（５）（６）式に示し
た方法を用いることができる。

求められた入力音声の母音性特徴量α（ｉ）とあらか
じめ用意された単語ｍの標準パターンの母音性特徴量β
（ｍ）、 β（ｍ）＝｛β（m,1），β（m,2），…β（m,j），…β（m,Jm），｝１≦ｍ≦Ｍから重み係数Ｗ（ｍ）、Ｗ（ｍ）＝｛ｗ（m,i,J）｝,1≦ｍ≦M,1≦ｉ≦I,1≦ｊ≦Jm を計算する。Ｗ（m,i,j）としては例えばの様に計算される。ここでα_maxはα（ｉ）の最大値、
β_max（ｍ）はβ（m,j）,1≦ｊ≦Jmの最大値、thは別に
定められる閾値である。ベクトル間距離ｄ（m,i,j）はd
_all（m,i,j）、d_low（m,i,j）にＷ（m,i,j）により重み
付けを行って求める。例えば、ｄ（m,i,J）＝（１−ｗ（m,i,j）×d_all（m,i,j）＋ｗ（m,i,j）×d_low（m,i,j）
（10）の様に求めることができる。

上に述べた方法において、ケプストラム分析のよう
に、特徴ベクトルを求める際に周波数分析を行う方法を
用いる場合には、全帯域特徴ベクトルを求めた時の周波
数分析結果を低域特徴ベクトルや母音性特徴量を求める
際に利用することができる。

（実施例）本発明による実施例について図面をもとに説明する。

第４図に示すのは本発明の一実施例を示す構成図であ
る。

全帯域分析部402は端子401に入力された音声を信号線
421より受取り、全帯域の情報を用いてケプストラム係
数を求め、全帯域特徴ベクトル時系列A_allとする。

低域分析部403は入力音声を信号線422より受取り、2.
5kHz以下の情報を用いてケプストラム係数を求め、低域
特徴ベクトル時系列A_lowとする。

全帯域標準パターン記憶部404にはＭ個の単語の全帯
域特徴ベクトルB_all（ｍ）、１≦ｍ≦Ｍが蓄えられてい
る。

低域標準パターン記憶部406にはＭ個の単語の低域特
徴ベクトルB_low（ｍ）、１≦ｍ≦Ｍが蓄えられている。

係数記憶部408にはＭ個の単語の重み付け係数Ｗ
（ｍ）、１≦ｍ≦Ｍが蓄えられている。

全帯域距離計算部405は信号線423から入力音声の全帯
域特徴ベクトル時系列Aallを、信号線424から単語ｍの
全帯域特徴ベクトル時系列Ball（ｍ）を受取り、全帯域
距離d_all（m,i,j）を（１）式により計算する。

低域距離計算部407は信号線425から入力音声の低域特
徴ベクトル時系列A_lowを、信号線426から単語ｍの低域
特徴ベクトル時系列B_low（ｍ）を受取り、低域距離d_low
（m,i,j）を（１）式により計算する。

フレーム間距離計算部409は信号線427から全帯域距離
d_all（m,i,j）を、信号線428から低域距離d_low（m,i,
j）を、信号線429から重み係数α（ｍ）を受取り、入力
パターンのｉフレームと標準パターンのｊフレームとの
フレーム間距離ｄ（m,i,j）を（３）式により計算す
る。

認識部410は信号線430からフレーム間距離ｄ（m,i,
j）を受取り、DPマッチングを行い、認識結果を端子411
に出力する。DPマッチングによる認識方法については文
献１に述べられている。

また、第５図に示すのは本発明の別の実施例を示す構
成図である。

全帯域分析部502は端子501に入力された音声を信号線
521より受取り、全帯域の情報を用いてケプストラム係
数を求め、全帯域特徴ベクトル時系列A_allとする。

低域分析部503は入力音声を信号線522より受取り、2.
5kHz以下の情報を用いてケプストラム係数を求め、低域
特徴ベクトル時系列A_lowとする。

全帯域標準パターン記憶部504にはＭ個の単語の全帯
域特徴ベクトルB_all（ｍ）、１≦ｍ≦Ｍが蓄えられてい
る。

低域標準パターン記憶部506にはＭ個の単語の低域特
徴ベクトルB_low（ｍ）、１≦ｍ≦Ｍが蓄えられている。

係数計算部508は入力音声を信号線501より受取り、
（４）式により入力音声の母音性特徴量αを求め、αか
ら（７）式により重み付け係数Ｗを計算する。

全帯域距離計算部505は信号線523から入力音声の全帯
域特徴ベクトル時系列A_allを、信号線524から単語ｍの
全帯域特徴ベクトル時系列B_all（ｍ）を受取り、全帯域
距離d_all（m,i,j）を（１）式により計算する。

低域距離計算部507は信号線525から入力音声の低域特
徴ベクトル時系列A_lowを、信号線526から単語ｍの低域
特徴ベクトル時系列B_low（ｍ）を受取り、低域距離d_low
（m,i,j）を（１）式により計算する。

フレーム間距離計算部509は信号線527から全帯域距離
d_all（m,i,j）を、信号線528から低域距離d_low（m,i,
j）を、信号線532から重み係数Ｗを受取り、入力パター
ンのｉフレームと標準パターンのｊフレームとのフレー
ム間距離ｄ（m,i,j）を（８）式により計算する。

認識部510は信号線529からフレーム間距離ｄ（m,i,
j）を受取り、DPマッチングを行い、認識結果を端子411
に出力する。DPマッチングによる認識方法については文
献１に述べられている。

また、第１図に示すのは本発明の別の実施例を示す構
成図である。

周波数分析部102は端子101に入力された音声を信号線
121より受け取り、FFT分析を行った後、対数を取ること
により対数スペクトルを求める。

全帯域分析部103は信号線122より全帯域の対数スペク
トルを受取り、ケプストラム係数を求め、全帯域特徴ベ
クトル時系列A_allとする。

低域分析部104は信号線123より2.5kHz以下の低域の対
数スペクトルを受取り、ケプストラム係数を求め、低域
特徴ベクトル時系列A_lowとする。

母音性抽出部105は信号線124より第１ホルマントを含
むような200〜800Hzの帯域の対数スペクトルを受取り、
エネルギーを求め（４）式により母音性特徴量αを計算
する。

全帯域標準パターン記憶部106にはＭ個の単語の全帯
域特徴ベクトルB_all（ｍ）、１≦ｍ≦Ｍが蓄えられてい
る。

低域標準パターン記憶部107にはＭ個の単語の低域特
徴ベクトルB_low（ｍ）、１≦ｍ≦Ｍが蓄えられている。

母音性特徴量記憶部108にはＭ個の単語の母音性特徴
量β（ｍ）、１≦ｍ≦Ｍが蓄えられている。

全帯域距離計算部109は信号線125から入力音声の全帯
域特徴ベクトル時系列A_allを、信号線126から単語ｍの
全帯域特徴ベクトル時系列B_all（ｍ）を受取り、全帯域
距離d_all（m,i,j）を（１）式により計算する。

低域距離計算部110は信号線127から入力音声の低域特
徴ベクトル時系列A_lowを、信号線128から単語ｍの低域
特徴ベクトル時系列B_low（ｍ）を受取り、低域距離d_low
（m,i,j）を（１）式により計算する。

係数計算部111は信号線129から入力音声の母音性特徴
量αを、信号線130から単語ｍの母音性特徴量β（ｍ）
を受け取り、重み係数Ｗ（ｍ）を（９）式により計算す
る。

フレーム間距離計算部112は信号線131から全帯域類似
度d_all（m,i,j）を，信号線132から低域距離d_low（m,i,
j）を、信号線133から重み係数Ｗ（ｍ）を受取り、入力
パターンのｉフレームと標準パターンのｊフレームとの
フレーム間距離ｄ（m,i,j）を（10）式により計算す
る。

認識部113は信号線134からフレーム間距離ｄ（m,i,
j）を受取り、DPマッチングを行い、認識結果を端子114
に出力する。DPマッチングによる認識方法については文
献１に述べられている。

（発明の効果）以上のように本発明によれば、高雑音下で発声した音
声を高精度に認識することのできる音声認識装置を実現
できる。

【図面の簡単な説明】

第１図、第４図、第５図は本発明の一実施例である。第
２図、第３図は従来法の説明図である。図において、10
1は入力端子、102は周波数分析部、103は全帯域分析
部、104は低域分析部、105は母音性抽出部、106は全帯
域標準パターン記憶部、107は低域標準パターン記憶
部、108は母音性特徴量記憶部、109は全帯域距離計算
部、110は低域距離計算部、111は係数計算部、112はフ
レーム間距離計算部、113は認識部、114は出力端子、20
1は入力端子、202は分析部、203は記憶部、204は距離計
算部、205はマッチング部、206は決定部、207は出力端
子、401は入力端子、402は全帯域分析部、403は低域分
析部、404は全帯域標準パターン記憶部、405は全帯域距
離計算部、406は低域標準パターン記憶部、407は低域距
離計算部、408は係数記憶部、409はフレーム間距離計算
部、410は認識部、411は出力端子、501は入力端子、502
は全帯域分析部、503は低域分析部、504は全帯域標準パ
ターン記憶部、505は全帯域距離計算部、506は低域標準
パターン記憶部、507は低域距離計算部、508は係数計算
部、509はフレーム間距離計算部、510は認識部、511は
出力端子、である。

Claims

(57)【特許請求の範囲】

【請求項１】入力された音声の全帯域の情報を表す全帯
域特徴ベクトルを求める全帯域分析部と、入力された音
声の低域の情報を表す低域特徴ベクトルを求める低域分
析部と、あらかじめ用意された標準パターンの全帯域特
徴ベクトルを記憶する全帯域標準パターン記憶部と、あ
らかじめ用意された標準パターンの低域特徴ベクトルを
記憶する低域標準パターン記憶部と、前記標準パターン
に対応させてあらかじめ用意された重み係数を記憶する
係数記憶部と、前記入力音声の全帯域特徴ベクトルと前
記標準パターンの全帯域特徴ベクトルとの間の全帯域距
離を求める全帯域距離計算部と、前記入力音声の低域特
徴ベクトルと前記標準パターンの低域特徴ベクトルとの
間の低域距離を求める低域距離計算部と、前記全帯域距
離と前記低域距離に、前記重み係数により重み付けを行
って入力パターンと標準パターンのフレーム間距離を求
める距離計算部と、前記フレーム間距離を用いて入力さ
れた音声の認識を行う認識部と、から構成されることを
特徴とする音声認識装置。
【請求項２】請求項１記載の音声認識装置において、前
記係数記憶部に変えて、入力音声から前記重み係数を計
算する係数計算部を備えたことを特徴とする音声認識装
置。
【請求項３】請求項１記載の音声認識装置において、前
記係数記憶部に変えて、入力音声から母音らしさを表す
母音性特徴量を求める母音性抽出部と、あらかじめ用意
された標準パターンの母音性特徴量を記憶する母音性特
徴量記憶部と、前記入力音声の母音性特徴量と前記標準
パターンの母音性特徴量から前記重み係数を計算する係
数計算部と、を備えたことを特徴とする音声認識装置。