JPH0229232B2

JPH0229232B2 -

Info

Publication number: JPH0229232B2
Application number: JP59039148A
Authority: JP
Inventors: Hiroyuki Iwahashi; Tooru Ueda
Original assignee: Computer Basic Technology Research Association Corp
Current assignee: Computer Basic Technology Research Association Corp
Priority date: 1984-02-28
Filing date: 1984-02-28
Publication date: 1990-06-28
Also published as: US4937869A; EP0157497A1; DE3570784D1; EP0157497B1; JPS60181798A

Description

【発明の詳細な説明】

＜発明の技術分野＞本発明は入力音声の波形情報に基づき、短時間
ごとに音韻分類を行つて記号化し、この記号化列
の情報から音声区間あるいはマツチング区間の検
出等を行う音声認識装置の改良に関し、更に詳細
には入力音声の短時間ごとの音韻分類の処理に改
良を加えたものである。＜発明の技術的背景とその問題点＞一般に音声認識装置における入力音声から音声
区間等を抽出する場合、パワーの情報によつて行
なわれている。しかし実用的な環境では種々の雑
音のため音声区間の正確な抽出が困難となる。ま
た直前に発声した音声による調音的な影響によつ
て音声区間の抽出が困難となる。本出願人は上記従来の問題点を除去するため、
例えば音声区間の検出を単にパワーの情報によつ
てのみ行なうことなく、音声の短区間フレームご
との簡素な音韻分類を比較的簡単な手順で行なつ
て記号列を作成し、この記号列にもとづいて音声
区間の検出等を行い得るようにした音声認識方式
を先に特願昭57−216317号「音声認識方式」とし
て提案している。本出願人が先に提案した音声認識方式において
は、音韻性を決定するのに、原波形のパワー、差
分波形パワー、２次線形予測の残差パワー、平均
レベル、相関係数、零交差数及び差分零交差数等
の各パラメータを用いて、一つの固定された閾値
セツトによつて分類していた。＜発明の目的＞本発明は上記従来の問題点を除去すると共に本
出願人が先に提案した音声認識方式を更に改良し
た音声認識装置を提供することを目的として成さ
れたものであり、この目的を達成するため、本発
明の音声認識装置は、入力音声の波形情報に基づき、短時間ごとに音
韻分類を行つて記号化する音韻分類部を備えた音
声認識装置であつて、前記音韻分類部は、入力音声波形をＡ−Ｄ変換して音声データを得
るＡ−Ｄ変換部と、前記音声データから所定の各種パラメータを抽
出するパラメータ抽出部と、前記各種パラメータに対して設けられた閾値テ
ーブルと、前記音声データの入力音量レベルに基づいて、
前記閾値テーブルの所定の閾値セツトを選択する
判定部と、前記選択された前記閾値セツトと前記抽出され
た各種パラメータを比較判定して音韻分類を行う
論理判定部と、を具備しており、このような構成によつて、本発
明は文章入力中の話者の入力音量レベルを検出
し、この検出した情報を各パラメータと比較され
る閾値にフイードバツクさせて、予め用意された
複数の閾値セツトを自動的に選択しながら音韻分
類を行なうことが可能となり、更に本発明の実施
例によれば、上記の検出された入力音声レベルを
話者へ報知するように成されている。＜発明の実施例＞以下、本発明を図面を参照して詳細に説明す
る。第１図は本発明を実施した音声認識装置の一構
成例を示すブロツク図である。第１図において、発声された入力音声はマイク
ロホン等の検出器１により電気信号に変換され
る。この検出器１は、人の可聴周波数である20Hz
〜15KHz程度の周波数を検出することが出来、特
に人の会話音声領域の周波数を歪なく検出し得る
ものが好ましい。この検出器１の出力側には増幅
器２が接続される。この増幅器２は前記の音声周
波数を歪なく増幅し得るものが好ましい。この増
幅器２の出力側に音響処理部１０を構成している
音韻分類部３が接続されると共に特徴パラメータ
抽出部４が接続される。特徴パラメータ抽出部４は例えば互に通過帯域
を異ならせた複数個の帯域フイルタと各帯域フイ
ルタの出力をホールドするサンプルホールド回路
と、このサンプルホールド回路の出力を順次10ミ
リ程度の間隔でサンプリングするアナログスイツ
チと、このアナログスイツチの出力を例えば12ビ
ツトのデジタル信号に変換して特徴パラメータを
出力するＡ／Ｄ変換器と、このＡ／Ｄ変換器の出
力を対数変換する対数化部より構成されている。また上記特徴パラメータ抽出部４により抽出さ
れた対数変換された特徴パラメータが次段の時間
軸正規化部５を通つて正規化され、この正規化さ
れた特徴パラメータと標準パターンメモリ６に記
憶された標準特徴パラメータとがマツチング部７
により比較されて入力音声が認識され、その結果
が判定出力部８に出力されるように構成されてい
る。上記音韻分類部３は後述する第２図に示す如
く、入力音声波形から求められた各パラメータを
用いて、音韻分類アルゴリズムに従つて音韻分類
記号系列を出力する。上記音韻分類部３から出力
される音韻分類記号系列は音声区間抽出部９に与
えられ、該音声区間抽出部９において、音韻分類
記号系列から音声区間が検出され、その出力が時
間軸正規化部５に与えられるように構成されてい
る。また１１は音韻分類部３において検出される話
者の入力音量レベルを外部報知するためのレベル
表示部であり、該レベル表示部１１は音韻分類部
３に接続されている。第２図は音韻分類部３の一構成例を示すブロツ
ク図である。第２図において音韻分類部３はアンプ２から出
力される入力音声波形をＡ−Ｄ変換するＡ／Ｄ変
換器３１と該Ａ／Ｄ変換器３１から出力される音
声デイジタル信号から各パラメータを算出するた
めの相関器３２、各種パワー演算器３３、零交差
数検出器３４、差分零交差数検出器３５、平均レ
ベル検出器３６及び算出された各パラメータにも
とづいて短時間フレームごとに波形の特徴によつ
て分類して記号系列を出力する論理判定部３７、
原波形のパワー情報PWにもとづいてトータルパ
ワー情報TPWを算出するTPW算出部３８、母音
“Ｖ”の出現状況を計数するVcカウンタ３９、Ti
値（ｉ＝０〜３）を記憶しているTi記憶部４０、
TPW値とTi値を比較してセツト値Si（ｉ＝０〜
４）を出力する判定部４１及び複数個の閾値セツ
トを記憶している閾値テーブルメモリ記憶部４２
とから構成されている。上記Ａ／Ｄ変換器３１は入力音声を例えば８〜
24kHzでサンプリングして６〜12ビツトのデジタ
ル信号X_iに変換する。相関器３２は例えばサンプル数Ｎ（＝256）の区
間の１分析フレームごとの０次ないし２次までの
相関関数を算出するように構成されている。１次の自己相関関数₁は ₁＝_N 〓ⁱ⁼¹ Xi・X_i＋₁ として演算し、また同様に２次の自己相関関数
₂は ₂＝_N 〓ⁱ⁼¹ X_i・Xi＋₂ として演算する。また０次の自己相関関数₀は ₀＝_N 〓ⁱ⁼¹ X_i・X_i として演算し、これは原波形のパワーPWを表わ
すことになる。また、これらの値から１次及び２次の相関係数
Ｃ１及びＣ２が C1＝₁／PW（＝₀） C2＝₂／PW（＝₀）として演算される。パワー演算部３３は原波形のパワーPW以外の
差分波形のパワーPWD及び２次線形予測の残差
パワーPWFを算出するように構成されている。差分波形のパワーPWDは PWD＝２×（１−C1）×PW によつて算出され、また２次線形予測の残差パワ
ーPWFは PWF＝（１−C2）×（１−2C1²＋C2）／１−C1²×PW に基づいて算出される。零交差数検出器３４は原波形｛X_i｝の分析フレ
ームごとの零交差数ZRCを算出するように構成
されており、零交差数ZRCは次式 ZRC＝_N 〓ⁱ⁼¹ F_i F_i＝１、SIGN（X_i）≠SIGN（X_i-1）０、SIGN（X_i）＝SIGN（X_i-1）（ただしSIGN（X_i）は波形X_iの符号を表わして
いる。）によつて求めるように構成されている。差分零交差数検出器３５は差分処理した差分波
形｛X_i−X_i-1｝の零交差数ZRCDを算出するよう
に構成されており、差分零交差数ZRCDは次式 ZRCD＝_N 〓ⁱ⁼¹ FD_i FD_i＝１、SIGN（X_i−X_i-1） ≠SIGN（X_i-1−X_i-2 ０、SIGN（X_i−X_i-1）＝SIGN（X_i−X_i-2）（ただしSIGN（X_i−X_i-1）は差分波形｛X_i−
X_i-1｝の符号を表わしている。）によつて求めるように構成されている。平均レベル検出器３６は波形の絶対値｛｜X_i
｜｝の平均レベルPWAを算出するように構成さ
れており次式によつて算出するように構成されている。論理判定部３７は上記各要素３２〜３６より作
成された情報PW，PWD，PWF，PWA，Ｃ１，
Ｃ２，ZRC，ZRCD及び閾値テーブル記憶部４２
に記憶された閾値に基づいて、分析フレーム毎に
音韻分類を行うように構成されている。音韻分類は各分析フレーム毎に｛・，Ｂ，Ｎ，
Ｖ，Ｆ，Ｃ｝の各記号を与えるものであり、“・”
は無音、“Ｂ”はバズ・バー部、“Ｎ”は鼻音性の
音、“Ｖ”は母音、“Ｆ”は摩擦性の子音部、“Ｃ”
は弱い摩擦性の子音に該当するものである。上記論理判定部３７における音韻分類の詳細動
作の説明を行なう前に、本発明の特徴である入力
音量レベルによつて、予め閾値テーブル記憶部４
２に複数個設定記憶している閾値セツトSi（ｉ＝
０〜４）を自動的に選択する動作について第３図
に示される動作フロー図に従つて説明する。上記閾値テーブル記憶部４２には、例えば第１
表に示すように原波形のパワーPWに対する閾値
PW₀〜PW₃、差分波形のパワーPWDに対する閾
値PWD₀〜PWD₃、２次線形予測の残差パワー
PWFに対する閾値PWF₀〜PWF₂、平均レベル
PWAに対する閾値PWA₀〜PWA₃、１次の相関
係数Ｃ１に対する閾値Ｃ１₀〜Ｃ１₅、２次の相関
係数Ｃ２に対する閾値Ｃ２₀〜Ｃ２₂、及び零交差
数ZRC及びZRCDに対する閾値ZRC₀〜ZRC₇がそ
れぞれセツト番号S₀〜S₄に対応して４個ずつ記憶
されている。なお第１表においてはセツト番号S₂
に対する具体的な閾値のみが記入されている。

【表】

【表】またTi記憶部４０には例えばT₀＝5000、T₁＝
8000、T₂＝10000、T₃＝12000の値が予め設定記
憶されている。本発明においては、上記のように複数個の閾値
セツトSi（ｉ＝０〜４）が予め記憶部４２に設定
記憶されており、これらの閾値セツトSiを選択し
て論理判定部３７に所望の閾値を与える条件にト
ータルPW（TPW）及び母音カウンタ（Vc）の値
が用いられる。以下に、第３図に示す動作フロー図に従つて、
この閾値セツトを自動的に選択する動作を説明す
る。今、初期状態では母音カウンタ（Vc）３９及
びTPW算出部３８の内容は共に“０”にクリア
され、また閾値セツトはS₀が選択されている（第
３図、ステツプｎ１）。次にステツプｎ２に移行して、閾値セツトS₀の
各パラメータに対する各閾値によつて論理判定部
３７で音韻分類が行なわれて、音韻性が判定され
る（なお、この音韻性の判定動作については後述
する。）ステツプｎ２における音韻分類の結果が母音、
即ち“Ｖ”と判断されたとき（ステツプｎ３）、
母音カウンタ（Vc）３９はカウントアツプ（Vc
＝Vc＋１）され、同時にその時の原波形のパワ
ーPWの値がTPW算出部３８においてトータル
PW（TPW）に加えられる演算（TPW＝TPW＋
PW）が実行される（ステツプｎ４）。一方、音
韻分類の結果が母音（“Ｖ”）以外のときは何も処
理もされない。音韻分類が何回か行なわれて行く
と、母音（“Ｖ”）と判断されたときのパワーPW
だけがTPW算出部３８において累算される。なお、音韻分類が母音（“Ｖ”）と判断されたと
きのみ、パワーPWを累算しているのは、母音部
分のパワーPWが安定しており、入力音量レベル
を知るには都合が良いためである。ステツプｎ４からステツプｎ５に移行し、該ス
テツプｎ５においてVcの値がVcc（例えば64）に
なつたとき、ステツプｎ６に移行してTPW算出
部３８において累算されたトータルパワーTPW
の値が判定部４１に入力されてTi記憶部４０に
予め記憶されているTi（ｉ＝０〜３）の値と比較
されてSiのうちのどのセツトを選ぶかが判定され
る。即ち、ステツプｎ６に示すように TPW／256＜T₀（5000）であればS₀が選択さ
れ、 T₀≦TPW／256＜T₁（8000）であればS₁が選択
され、 T₁≦TPW／256＜T₂（10000）であればS₂が選
択され、 T₂≦TPW／256＜T₃（12000）であればS₃が選
択され、 T₃≦TPW／256であればS₄が選択される。今、例えばT₀≦TPW／256＜T₁であつたとす
ると、閾値セツトがS₁に選択され、閾値セツトが
S₀からS₁に切換えられることになる。この後論理
判定部３７における音韻分類にS₁が閾値セツトと
して用いられる。また、上記のようにして算出されたトータルパ
ワーTPWの値はステツプｎ７においてTi値と比
較されて過大、適量、過小のいずれかが、例えば
発光ダイオードLEDを用いたレベル表示部１１
において表示され、話者に知らせるように成され
ている。このレベル表示部１１は話者へ「もう少
し大きい声で」、「もう少し小さく」の如く、装置
かこの応答の意味を持つたものとなる。なお、このレベル表示部１１の表示に際しては
過大、適量、過小を例えばCPUの出力ビツトに
対応させることが簡単に制御でき、表示のタイミ
ングは閾値の選択のときとなしている。その後、ステツプｎ８に移行してカウンタ
（Vc）３９がリセツトされると共にトータルパワ
ーTPWの値がａ倍（例えば３／４倍）され、再
びステツプｎ２に戻つて、以下同様の動作が行な
われ、再びVc＝Vccとなつたときに、トータル
パワーTPWの値によつて現在の閾値セツトS₁を
継続するか、あるいは他のセツトに換えるかが決
定がなされる。このようにして、閾値セツトが入力音量レベル
に応じて動的に入れ換わることになり、より柔軟
な音韻分類が行なわれる。次に論理判定部３７において行なわれる音韻分
類の動作について、第４図に示される動作フロー
図にしたがつて説明する。まず、ステツプｎ１１において鼻音性の音
“Ｎ”の判定が、表２に示す判定条件の下に行な
われる。即ち、原波形のパワーPWがある閾値以上、差
分波形のパワーPWD及び２次線形予測の残差パ
ワーPWFがそれぞれある閾値以下、１次の相関
係数Ｃ１がある閾値以上で、差分零交差数ZRCD
がある閾値以下であるか否かによつて鼻音性の音
“Ｎ”の判定が行なわれる。

【表】ステツプｎ１１において、鼻音性の音“Ｎ”と
判定されないものに対してはステツプｎ１２に移
行してバズ・バー“Ｂ”の判定が表３に示す判定
条件の下に行なわれる。

【表】次にステツプｎ１２においてバズ・バー“Ｂ”
と判定されないものに対してはステツプｎ１３に
移行して無音“・”の判定が表４に示す判定条件
の下に行なわれる。

【表】次にステツプｎ１３において無音“・”と判定
されないものに対してはステツプｎ１４に移行し
て弱い摩擦性の子音“Ｃ”の判定が表５に示す判
定条件の下に行なわれる。

【表】次にステツプｎ１４において弱い摩擦性の子音
“Ｃ”と一応判定されたものに対してはステツプ
ｎ１５に移行して摩擦性の子音“Ｆ”であるか否
かの判定が表６に示す判定条件の下に行なわれ
て、摩擦性の子音“Ｆ”と弱い摩擦性の子音
“Ｃ”の区別判定が行なわれる。

【表】また、上記ステツプｎ１４において弱い摩擦性
の子音“Ｃ”と判定されないものに対してはステ
ツプｎ１６に移行して母音“Ｖ”であるか否かの
判定が表７に示す判定条件の下に行なわれる。

【表】次にステツプｎ１６において母音“Ｖ”と判定
されないものに対してはステツプｎ１７に移行し
て摩擦性の子音“Ｆ”であるか否かの判定が表８
に示す判定条件の下に行なわれる。

【表】以上の判定は上位から行なわれ、判定条件が成
立した時点で一つの音韻分類の動作を終了する。
またステツプｎ１１〜ｎ１４、ｎ１６及びｎ１７
においていずれも“NO”と判定されたものにつ
いては母音“Ｖ”とされる。上記判定においては表１に示した各閾値PW₀
〜PW₃，PWD₀〜PW₃，PWF₀〜PWF₂，PWA₀
〜PWA₃，Ｃ１₀〜Ｃ１₅，Ｃ２₀〜Ｃ２₂及びZRC₀
〜ZRC₇との比較によつて行なわれるが、この閾
値のセツトは上記したように入力音量レベルに応
じて動的に入れ換わり、より柔軟な音韻分類が行
なわれる。例えば音節／NI／を発声して音韻分類した場
合の一例を第５図に示している。第５図においてａは従来の方式によつて音節／
NI／を音韻分類したものであり、ｂは本発明方
式によつて音韻分類したものを示しているが、両
者の比較から明らかなように本発明方式によるｂ
の方が、音韻分類の性能が向上していることがわ
かる。なお、上記した第１図及び第２図に示したブロ
ツク構成は、例えば第６図に示すようにマイクロ
コンピユータによつて実現しても良いことは言う
までもない。第６図において、第１図と同一部分は同一符号
で示されており、１はマイクロホン等の検出器、
１２は特徴抽出回路、１３はCPU、１４はメモ
リー部、６は標準パターンメモリ、７はマツチン
グ部、１１はレベル表示部である。＜発明の効果＞以上の如く、本発明によれば、Ａ−Ｄ変換され
た音声データから、相関関数、零交差数、差分さ
れた波形の零交差数及び波形の平均レベル等の各
パラメータをそれぞれ抽出し、予め設定記憶され
た複数の閾値セツトより入力音量レベルにもとづ
いて所定の閾値セツトを選択し、この選択された
閾値セツトと上記の抽出された各パラメータとを
比較判定して音韻分類を行なうように成している
ため、閾値セツトが入力音量レベルに応じて動的
に選択され、より柔軟な音韻分類が行なわれて、
例えば音声区間の検出を確実に行なうことが出来
る。

【図面の簡単な説明】

第１図は本発明を実施した音声認識装置の一実
施例の構成を示すブロツク図、第２図は音韻分類
部の構成例を示すブロツク図、第３図は本発明に
係る閾値セツトの動作フローを示す図、第４図は
音韻分類の動作フロー図、第５図は音韻分類の一
例を説明するための図、第６図は本発明を実施し
た音声認識装置の他の構成例を示すブロツク図で
ある。３…音韻分類部、１０…音響処理部、１１…レ
ベル表示部、３２…相関器、３３…各種パワー演
算部、３４…零交差器、３５…差分零交差器、３
６…平均レベル検出器、３７…論理判定部、３８
…TPW算出部、３９…Vc（母音）カウンタ、４
０…Ti記憶部、４１…判定部、４２…閾値テー
ブル記憶部、S₀〜S₄…閾値セツト。

Claims

【特許請求の範囲】１入力音声の波形情報に基づき、短時間ごとに
音韻分類を行つて記号化する音韻分類部を備えた
音声認識装置であつて、前記音韻分類部は、入力音声波形をＡ−Ｄ変換して音声データを得
るＡ−Ｄ変換部と、前記音声データから所定の各種パラメータを抽
出するパラメータ抽出部と、前記各種パラメータに対して設けられた閾値セ
ツトを複数保持する閾値テーブルと、前記音声データの入力音量レベルに基づいて前
記閾値テーブルの所定の閾値セツトを選択する判
定部と、前記選択された前記閾値セツトと前記抽出され
た各種パラメータを比較判定して音韻分類を行う
論理判定部と、を具備すること特徴とする音声認識装置。