JPS59105700A

JPS59105700A - 音声認識方式

Info

Publication number: JPS59105700A
Application number: JP21631782A
Authority: JP
Inventors: 船橋　賢一; 厚夫田中
Original assignee: Computer Basic Technology Research Association Corp
Current assignee: Computer Basic Technology Research Association Corp
Priority date: 1982-12-08
Filing date: 1982-12-08
Publication date: 1984-06-19
Also published as: JPS637400B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】く技術分野〉本発明は入力音声の波形情報に基つき、短時間ごとに音
韻分類を行って記号化し、この記号化列の情報から音声
区間あるいはマツチング区間の検出等を行う音声認識装
置の改良に関し、更に詳細には入力音声の短時間ごとの
音韻分類の方法に改良を加えたものである。

〈従来技術〉一般に音声認識装置における入力音声から音声区間等全
抽出する場合、パワーの情報によって行なわれている。

しかし実用的な環境では種々の雑音のため音声区間の正
確な抽出が困難となる。また直前に発声した音声による
調音的な影響によって音声区間の抽出が困難となる。

〈目的〉本発明は上記従来の問題点を除去するため、例えは音声
区間の検出を単にパワーの情報によってのみ行なうこと
なく、音声の短区間フレームごとの簡素な音韻分類を比
較的簡単な手順で行なって記号列を作成し、この記号列
にもＱいて音声区間の検出等を行い得るようにした音声
認識方式を提供することを目的として成されたもので、
この目的を達成するだめ、本発明を実施した音声認識装
置においては、人力音声を認識、登録する際に用いられ
る音響パラメータの抽出回路とは別に、入−り変換され
た音声データから、相関関数、零交差数、差分された波
形の零交差数及び波形の平均レベルを抽出する回路と、
これらの抽出された情報から短時間フレームごとに波形
の特徴によって分類し、記号化して出力する判定部を備
えるよ′うに構成されている。

〈実、雄側〉以下、本発明を図面を参照して詳細に説明する。

第１図は本発明を実施した音声認識装置の一構成例を示
すブロック図である。

第１図において、発声された入力音声はマイクロホン等
の検出器１により電気信号に変換される。

この検出器１ば、人の可聴周波数である２０数Ｈｚ〜Ｉ
　５　］＜Ｈｚ程度の周波数を検出することが出来、特
に人の会話音声領域の周波数を歪なく検出し得るものが
好ましい。この検出器ｌの出力側には増幅器２が接続さ
れる。この増幅器２は前記の音声周波数を歪なく増幅し
得るものが好せしい。この増幅器２の出力側に音響処理
部１０を構成している音韻分類部３が接続されると共に
特徴バラメー多抽出部４が接続される。

特徴パラメータ抽出部４は例えば互には通過帯域を異な
らせた複数個の帯域フィルタと各帯域フィルタの出力を
ホールドするサンプルホールド回路と、このサンプルホ
ールド回路の出力を順次１０ミリ程鳳度の間隔でサンプ
リングするアナログスイッチと、このアナログスイッチ
の出力を例えば１２ビツトのデジタル信号に変換して特
徴パラメータを出力するＡ／／Ｄ変換器と、この〜６変
換器の出力を対数変換する対数化部よシ構成されている
。

また上記特徴パラメータ抽出部４により抽出された対数
変換された特徴パラメータが次段の時間軸正規化部５を
通って正規化され、この正規化された特徴パラメータと
標準パターンメモリ６に記憶された標準特徴パラメータ
とがマツチング部７により比較されて入力音声が認識さ
れ、その結果が判定出力部８に出力されるように構成さ
れている。

上記音韻分類部３は後述する第２図に示す如く、入力音
声波形から求められた各パラメータを用い、音韻分類ア
ルゴリズム（第３図）に従って音韻分類記号系列を出力
する。上記音韻分類部３から出力される音韻分類記号系
列は音声区間抽出部９に与えられ、該音声区間抽出部９
において、音韻分類記号系列から音声区間が検出され、
その出゛力が時間軸正規化部５に与えられるように構成
されている。

第２図は音韻分類部３の一構成列を示すブロック図であ
る。

第２図において音韻分類部３はアンプ２から出力される
入力音声波形をＡ−Ｄ変換するＡ／Ｄ変換器３１と該’
／Ｄ変換器３１から出力される音声ディジタル信号から
各パラメータを算出するだめの相関路３２、各種パワー
演算部３３、宇交差数検出器３４、差分零交差数検出器
３５、平均レベル検出器８６及び算出された各パラメー
タにもとづいて短時間フレームごとに波形の特徴によっ
て分類して記号系列を出力する論理判定部３７とから構
成されている。

上記Ａ／′Ｄ変換器３１は入力音声を例えは８〜２４ｋ
Ｈｚでサンプリングして６〜１２ビツトのデジタル信号
Ｘｉ　に変換第３゜：２、相関器３２は例えばサンプル数Ｎ（＝２５６）の区間の
１分析フレームごとの０次ないし２次までの相関関数を
算出するように構成されている。

１次の自己相関関数ψ１は ψ１−１Σ　Ｘｉ　　番Ｘｉ＋１ −１として演算し、捷だ同様に２次の自己相関関数ψ２（はとして演算する。

また０次の自己相関関数ψ０はとして演算し、これは原波形のパワーｐｗ’２表わすこ
とになる。

また、これらの値から１次及び２次の相関係数ρ１及び
ρ２がとして演算される。

パワー演算部３３は原波形のパワーｐ　ｗ以外の差分波
形のパワーＰ〜ＶＤ及び２次線形予測の残差パワーＰ　
Ｗ　Ｆを算出するように構成されている。

差分波形のパワーｐ　ｗ　ＤはＰＷＤ＝２Ｘ（１−ρ＋）ｘｐｗによって算出され、また２次線形予測の残差パワに基づ
いて算出される。

零交差数検出器３４は原波形（Ｘｌ）の分析フレームご
との零交差数ｚｃｏｙ算出するように構成されており、
零交差数ＺＣＯは次式（ただし５ＩＧＮ（Ｘｉ）は波形のＸｌの符号を表わし
ている。）によって求めるように構成されている。

差分零交差数検出器３５は差分処理した差分波形（Ｘｉ
　　Ｘｉ−＋）の零交差数ｚｃｌ算出するように構成さ
れてお９、差分零交差数ＺＣは次式％式％（ただし５ＩＧＮ（Ｘｉ　−Ｘ　ｉ−１）は差分波形（
ｘｉ−Ｘ　１−＋　）の符号を表わしている。）によっ
て求めるように構成されている。

平均レベル検出器３６は波形の絶対値（ＩＸｉ、ｌ）の
平均レベルＰＷＡ’（ｉ＝算出するよう（／ｉ：構成さ
れてお９次式によって算出するように構成されている。

なお上記各要素３２〜３６はマイクロコンピュータによ
って実現してもよい。

論理判定部３７は上記各要素３２〜３６よシ作成された
情報ＰＷ、ＰＷＤ、ＰＷＦ、ＰｔＶＡ、ρ１．ρ２ｚｃ
ｏ、ｚ’ｃ　　に基づいて、分析フレーム毎に音韻分類
を行うように構成されている。

音韻分類は各分析フレーム毎に（・、Ｂ、Ｎ。

Ｖ、Ｆ、Ｃ）の各記号を与えるものであシ、″・″は無
音　＋＋　Ｂ　１１はバズ・バ一部　ＩＩ　Ｎ　＋１は
鼻音性の音　＋＋　Ｖ　＋＋は母音　ＩＩ　Ｆｌｌは摩
擦性の子音部。

＋＋　Ｃ＋＋は弱い摩擦性の子音に該当するものである
。

」二記論理判定部３７における音韻分類の詳細動作は第
３図及び第４図に示される動作フロー図に従って行なわ
れる。

まず音韻分類の概略動作について説明する。論理判定部
３７において無音パ・″の判定は原波形のパワーＰＷと
差分波形のパワーＰ　Ｗ　Ｄがそれぞれある閾値以下に
あるかどうかによって行なう。

バズ・バー”　Ｂ″の判定は、無音と判定されないもの
に対し、原波形のパワーｐ　ＶＶはある閾値以上である
が、２次線形予測の残差パワーＰ〜ＶＦはある、−一値
以下で、しかも−次の相関係数が１に近いある閾値板」
二にあるかどうかによって判定する。

バズ・バーは音声認識の際、実質的には無音とみなして
よく、また人の声等、低周波成分の強い外部雑音の混入
した場合、本発明に従えば雑音部が＋＋　Ｂ　ｕと判定
され、音声区間検出等に大きな支障を与えないことにな
る。

捷だ鼻音性の音Ｔ＋　Ｎ１１の判定は原波形のパワーＰ
〜ｌがある閾値板」二、差分波形のパワーＰＷＤ及び２
次線形予測の残差パワーＰ　Ｗ　Ｆがそれぞれある閾値
板に一次及び二次の相関係数ρ１及びρ２かある閾値以
上であるか否かによって行なう。

更に子音部に対しては、Ｐ　Ｗ及びＰＷＤがある程度以
上大きくないことから、ｐｗ及びＰＷＤが絶対的に大き
い場合には母音Ｒ＋１と判定することになる。寸た＋　
Ｖ　＋１　、　＋＋　　１１　、　＋＋　Ｃ＋＋　の判
定は差分波形のパワーＰＷＤ、平均しベルＰＷＡ、零交
差数ＺＣＯ及び差分零交差数ＺＣｆ、ｒ用いて行なう。

即ち零交差数ＺＣＯ及び差分波形の零交差数ＺＣは摩擦
性の検出に用いられ、これらの情報がある閾値より犬で
パワーが余９大きくないときは摩擦性の子音部゛■？”
と判定し、母音ＩＩ　ｖ　１１と区別される。また弱い
摩擦性があシ、パワーか小さいときは′Ｃ″と判定する
ことになる。

上記の如き音韻分類の判定動作を実行するため“、論理
判定部３７は捷ずパラメータ情報ＦＷ、ＰＷＤ。

ＰＷＦＩＰＷＡ、ρ１．ρ２．ＺＣＯ７ＺＣｖＣ対スル
閾値論理によって離散パラメ゛−夕ＩＶＯＷＬ（二〇、
１゜２）、ＩＦＲＩＣ（＝Ｏ，Ｉ、２．３）、ＪＢＺＮ
Ｓ（＝０．ｌ。

２．３）、ＩＰＷＳＳ（＝Ｏ，］）、ＩＰＶＣＦ（＝０
．］）ｉ第３図（ａ）〜（ｃ）に示す動作フローに従っ
て決定する。

この離散パラメータＩＶＯＷＬ、ＩＦＲＩＣ，ＩＢＺＮ
Ｓ。

ＩＰＷＳＳ、ＩＰＶＣＦを決定する閾値論理の詳細を述
べる。

１）　　ＩＶＯＷＬ（＝０．］、２）　　の決定〔第３
図（ａ）〕差分波形のパワー　ＰＷＤに関する閾値ＤＯ
。

ＤＩ（Ｉ）０＜ＤＩ）全設定し、ｐ　Ｗ　Ｄ　＜Ｄ　Ｏ
のときＩＶＯＷＬ　＝　０　、　Ｄ　Ｏ（Ｐ　Ｗ　Ｄ（
Ｄ　ＩのときＩＶＯＷＬ＝　ｌ　、ＰＷＤ）ＤＩのとき
ＩＶＯＷＬ＝２と決定する。（ステップｎ］〜ｎ７）。

２）　　ＩＦＲＩＣ（＝０．Ｉ、２．３）の決定〔第３
図（ｂ）〕零交差数ＺＣＯ、差分零交差数ＺＣに対する
閾値１０．Ｉ　ｉ、１２．＋３．１４（１０（ＩＩ（Ｉ
２（１３（１４）及び平均レベルＰＷＡに関する閾値Ａ
Ｏ，ＡＩ　（ＡＯ（ＡＩ　）を設定し、ＺＣ〉Ｉ４かつ
ｚｃｍ：＞１３のときＩＦＲＩＣ＝ｌ、ｚｃｏ〉Ｉ２か
つｐ　ＷＡ　（Ａ　Ｉ　　のときＩＦＲＩ’Ｃ＝２、Ｚ
ＣＩｊＲＩＣ＝１、その他のと＠ＩＦＲＩｃ＝ｏと決定
する（ステップｎ１２〜ｎ２１）。

３）　　ＩＢＺＮＳ　（＝０．］、２．３）の決定〔第
３図（Ｃ）〕平均レヘルＰＷＡに関する閾値ＰＯ，差分
波形のパワーＰ　Ｗ　Ｄに関する閾値ＰＤ、Ｄ　　（Ｄ
（ＰＤ）、２次線形予測の残差パワーＰ　Ｗ　Ｆに関す
る閾値ＰＦＯ，ＰＦＩ、ＰＦ（ＰＦＯ（ＰＦＩ（ＰＦ）
−次の相関係数ρ１に関する閾値θ１．θ２（θ１〈θ
２　）及び二次の相関係数ρ２に関する閾値″ｌ・η２
（η１〈η２）を設定し、権〉η２かつＺＣＰＷＦ（Ｐ
ＦＯかつＰＷＤ＜Ｄ２のときＩＢＺＮＳ＝ＰＷＤ（ＦＤ
のときＩＢＺＮＳ＝２、ｐ　ｗ　Ｄ　＞　Ｄ　甘たはＰ
ＷＡ≦ＰＯ甘たはＰＷＦ＞ＰＦまたばρ１ぐθ１　また
はρ２くηｌまたはＺＣ＞１２のときＩＢＺＮＳ＝０、
その他のときＩＢＺＮＳ＝３　と決定する（ステップｎ
２２〜ｎ３７）。

４）ＩＰＷＳＳ（＝０．］）の決定（第３図（ａ）〕差
分波形のパフ−Ｐ　Ｗ　Ｄに関する閾値Ｄｏｔ（Ｄｏ＜
ＤＯ］＜Ｄ　Ｉ　）　　を設定し、ＰＷＤくＤＯ】のと
きＩＰＷＳＳ二〇、ＰＷＤ＞Ｄｏｔ　　のとき工ｐｗｓ
ｓ＝　］　］決定する（ステップｎｌ＋１１２＋ｎ８〜
ｎ１１）。

５）　　ＩＰＶＣＦ（＝０．］）の決定〔第３図（Ｃ）
〕−次の相関係数ρｌ　に関する閾値θ０（θＯ〈θ１
〈θ２）及び二次の相関係数ρ２に関する閾値η０（η
０〈ηｌ〈η２）を設定し、ρ１〉θ０かつρ２〉ηＯ
かつＺＣ＜ＩＳのときＩＰＶＣＦ＝Ｏ１ρ１〈θ０また
はρ２くηｏｉたはＺＣ＞＋３のときＩＰＶＣＦ＝１と
決定する（ステップｎ３８〜ｎ４］）。

上記のようにして決定された離散、＜ラメータに基づき
第４図に示されたアルゴリズムに基づいて音韻分類判定
か行なわれる。

これらの離散パラメータ（ｄ第４図に示された音韻分類
アルコリズムにおいて、次の役割を有している。

寸すＩＶＯＷＬ　（＝Ｏ，Ｉ、２）は無音か有音カラ判
定する。

次にＩＦＲＩＣ（＝Ｏ，ｌ、２．８　）は摩擦性の度合
を表わしている。

甘だＩＢＺＮＳ（二〇、ｌ＋２，３）において、ＩＢＺ
ＮＳ＝　１の場合は確実にバズ・バーＸゝＢ　ｕと判定
し、ＩＢＺＮＳ＝２の場合は確実に母音゛ゞｙ　＋１と
判定し、ＩＢＺＮＳ＝３の場合はバズφノ＜−＋Ｂ′′
か母音＋Ｌ　Ｖ　１１と判定し、ＩＢＺＮＳ＝Ｏの場合
は無音゛・″か摩擦性の子音部＋＋　Ｆ　１１か母音”
　ｖ″′と判定する。

またｈｐｗｓｓ　（＝Ｏ，ｌ）は摩擦性のあるものに対
し、−無音か有音かの判定に用いることになシ、ＩＰＶ
ＣＦ　（−〇　、　］）は摩擦性のあるものに対して母
音＋＋　Ｖ　）ｌと区別するために用いることになる。

第４図のステップｎ５１において、第３図（ａ）〜（Ｃ
）に示された閾値論理判定アルゴリズムに従って。

決定された離散パラメータＩＶＯ〜■Ｌ、　ＩＦＲＩＣ
。

ＩＢＺＮＳ、ＩＰＷＳＳ及びＩＰＶＣＦはステップｎ５
２においてＩＶＯＷＬ＝０か否かか判定され、ＩＶＯ〜
ＶＬ＝０の場合にはステップｎ５３に移行してＩＢＺＮ
Ｓの値が参照され、ＩＢＺＮＳ＝０の場合はステップｎ
５４に移行して、ＨＶＱＷＬＱ値が参照されＩＶＯＷＬ
（７）値が０″あるいは＋　１−１　ノ場合は無音Ｂ　
、　＋１と判定され（ｎ５５）、ＩＶＯＷＬ＝２の場合
は母音＋Ｔ　Ｖ　Ｉ＋と判定される（ｎ５６）。

丑だ上記ステップｎ５３においてＩＢＺＮＳ＝１の場合
はバズ・バー＋＋　Ｂ　１１と判定され（ｎ５７）・Ｉ
ＢＺＮＳ−二２の場合は鼻音性の音＋ｔ　Ｎ　１１と判
定され（ｎ５８）、ＩＢＺＮＳ＝３の場合はステップｎ
５９に移行してＩＶＯＷＬの値が参照され、ＩＶＣＭ’
Ｌの値が０゛Ｉあるいはｌ゛′の場合はバズ・バー＋ｔ
　Ｂ１１と判定さ′ｒ：（ｎ　６０　）、ＩＶＯＷＬ＝
２の場合は母音＋＋　Ｖ　１１と判定される（、　ｎ　
６１　）。

上記ステップｎ５２においてＩＶＯＷＬ）０と判定され
た場合はステップｎ６２に移行してＩＦＲＩＣの値が参
照されＴＦＲＩＣ＝０の場合はステップｎ５３に移行し
て以後上記したステップｎ５８〜ｎ６］の判断動作が行
なわれる（、またステップｎ６２においてＩＦＲＩＣ＝
１の場合はステップｎ６３に移行してＩＰＷＳＳの値か
参照され、ＩＰＷＳＳ−〇の場合は無音゛・°′と判定
され（ｎ６４　）、ＩＰＷＳＳ”＝；０の場合はステッ
プＨ６５に移行してＩＰＶＣＦＱ値が参照され、ＩＰＶ
ＣＦ＝Ｏの場合は母音Ｂ　ｙ　＋１と判定され（ｎ６６
）、ＩＰＶＣＦ（０の場合は弱い摩擦性の子音ＩＩ　Ｃ
Ｄと判定される（ｎ６７）。

上記ステップｎ６２ＰこおいてＩＦＲＩＣ＝２の場合は
ステップｎ６８に移行してＩＰＷＳＳＱ値が参照されＩ
ＰＷＳＳ＝０の場合は無音゛・″と判定され（ｎ６９）
、ｘＰｗｓｓ’＜Ｏの場合はステップ１ｎ７０に移行し
てＩＰＶＣＦＯ値が参照され、ＩＰＶＣＦ−〇の場合は
母音！ｔ　ｙ　＋１と判定され（１１７１）、ＩＰＶＣ
Ｆ％Ｏの場合は摩擦性の子音＋＋　Ｆｌｌと判定される
（ｎ７２）。

また」二記ステップｎ６２においてＩＦＲＩＣ＝３の場
合は摩擦性の子音＋＋　Ｆ）ｌと判定される（ｎ７３）
。・以上のようにして各パラメータＰＷ、ＰＷＤ。

ＰＷＦ、ＰＷＡ、／）Ｉ、　ρ２．ＺＣＯ及びｚｃに対
する閾値論理にもとづいて決定された離散パラメータＩ
ＶＯＷＬ　　（＝０．　　　Ｉ、　　２　　ン　、　　
　ＩＦＲＩＣ（＝０．　　１，２゜ａ）、ＩＢＺＮＳ　
（＝０．］、２．３）、　Ｉｐｗｓｓ　（＝０、Ｉ）及
びＩＰＶＣＦ　（−〇、ｌ　）によッテ短時間フレーム
ことの音韻分類か行なわれる。

〈効果〉以−にの如く、本発明によれは、Ａ　−Ｄ変換された音
声データから、相関関数、零交差数、差分された波形の
零交差数及び波形の平均レベルをそれぞれ抽出し、この
抽出された各情報から短時間フレームことに波形の特徴
によって音韻分類して記号系列が出力されるため、例え
は音声区間の検出を確実に行うことが出来ると共に比較
的簡単な判定処理動作によって音韻分類を行うことが出
来る。

【図面の簡単な説明】

第１図は本発明を実施した音声認識装置の一実施例の構
成を示すブロック図、第２図は音韻分類部の構成例を示
すブロック図、第３図（ａ）〜（Ｃ）は閾値論理決定ア
ルコリズムを示すフロー図、第４図は音韻分類アルゴリ
ズムを示すフロー図である。３・音韻分類部、１０・・音響処理部、３２・相関器、
３３・・・各種パワー演算部、３４・・・零交差数検出
器、３５・差分零交差数検出器、３６・・・平均レベル
検出器。

Claims

【特許請求の範囲】１　人力音声の波形情報に基づき、短時間ことに音韻分
類を行って記号化する音響処理部を備えた音声認識装置
において、Ａ−Ｄ変換された音声データから、相関関数。零交差数、差分された波形の零交差数及び波形の平均レ
ベルをそれぞれ抽出し、該抽出された各情報から短時間
フレームごとに波形の特徴（５てよって分類して記号系
列を出力するように成したことを特徴とする音声認識方
式。