JPH04198997A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH04198997A
JPH04198997A JP2325814A JP32581490A JPH04198997A JP H04198997 A JPH04198997 A JP H04198997A JP 2325814 A JP2325814 A JP 2325814A JP 32581490 A JP32581490 A JP 32581490A JP H04198997 A JPH04198997 A JP H04198997A
Authority
JP
Japan
Prior art keywords
power
learning
voice
speech
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2325814A
Other languages
English (en)
Inventor
Toru Miyamae
徹 宮前
Naoto Shinoda
信太 直人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2325814A priority Critical patent/JPH04198997A/ja
Publication of JPH04198997A publication Critical patent/JPH04198997A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、入力音声を単語毎に識別判定して音声認識を
行なう音声認識方法に関する。
(従来の技術) 金融期間等においては、顧客臼らが入出金等の取引操作
を行なう現金自動取引装置が広く使用されている。また
、窓口事務においては、各種の端末装置が使用されてい
る。この種の装置一般に、デイスプレィ等に案内が表示
され、その案内に従って、オペレータや顧客がキーボー
ドを操作し、装置に対し自己の意思を伝える。しかしな
がら、オペレータ等による操作が、音声を用いて行なわ
れれば、目や手を他の目的に使用することができ、非常
に便利である。そこで端末装置等より音声で案内を行な
い、オペレータ等が音声で指示をする装置が種々開発さ
れている。この種の装置においては、音声の認識のため
に、入力音声を単語毎に区切って認識処理を行なう必要
がある。
第2図、入力音声の波形図を示す。
図の横軸は時間、縦軸はパワーを示す。
図のように入力音声は、単語毎にそれぞれ一定のパワー
分布を示し、単語と単語の間には、所定のパワーレベル
の極小部分が存在する。1単語の存在する区間を音声区
間と呼ぶが、この音声区間の切出しには、このような音
声パワー変化を用いることか多い。
即ち音声パワーは、ノイズパワー等から算出されたある
一定の閾値THを越えた状態が所定時間を継続した場合
、これを音声区間であると認識する。従って第2図の場
合、A点及びB点において、入力音声が切出される。ま
た、1つの音声区間がそのパワー分布によって幾つかの
ブロックに分かれたような場合、各ブロックの最大パワ
ー比がある閾値を越えるか否かによって、そのブロック
が統合されるか、音声区間から削除されるかを判定して
いた。この最大パワー比というのは、第2図に示すMA
X (最大値)の部分と、MIN(最小値)の部分の比
のことをいう。
この他にもスペクトル変化量やゼロクロス数を用いた音
声区間切出し法がある。
第3図に、その説明図を示す。
第3図(a)は、スペクトル変化量説明図である。
図の横軸はスペクトル、縦軸はレベルを示す。
図のように、ある瞬間において実線のようなスペクトル
T1が得られたとき次の時点において破線のようなスペ
クトルT2が得られると、スペクトル変化量が矢印のよ
うに非常に大きくなる。このような場合に音声区間の区
切りと認識する。
また、第3図(b)は、ゼロクロス数説明図を示す。
図のグラフの横軸は時間、縦軸はパワーを示している このように音声区間の区切りをTWの部分とすると、こ
のTWの部分でゼロクロス数を計数すると、所定の値と
なる。TWの時間を適当な時間にとって、ゼロクロス数
が所定値以上になった場合に、これを無音区間と判断し
、音声区間の区切りを認識する。
(発明が解決しようとする課題) ところが、先に述べたような音声区間の切出し方法では
、例えば吐息や咳を音声区間として切出してしまう可能
性がある。また、周囲の雑音の影響による切出しの誤り
が多いという問題点もある。この原因としてはある閾値
を越えたか否かによる2分法を用いているためと考えら
れる。即ち、音声パワー変化、スペクトル変化量、ゼロ
クロス数等、それぞれのパラメータを一つの次元とする
空間上で、音声領域と非音声領域とが線形分離可能であ
るという仮定に基づいて、判断を行なっているためであ
る。しかしながら、実際には音声領域と非音声領域とは
必ずしも明確に線形分離可能であるとは限らない。この
ことは次のような事実によっても明らかである。例えば
、rsHIJと発音したとき、最初の摩擦音「シュ」は
非常に小さく、しかも音声始端のパワー変化も小さい場
合がある。もし、このような摩擦音を音声区間として切
出すほどパワー閾値やパワー変化閾値が小さければ、他
の音声を切出すとき雑音や吐息を音声区間として切出し
てしまう可能性が大きくなる。その逆に音声パワーの始
端において、その変化が十分に大きい音声に対して、雑
音等の影響を受けずに適切に切出すことができる閾値を
設けると、今度は音声パワーやその変化が小さい音声に
対して適切な切出しを行なうことができない。他のパラ
メータについてもそれぞれ同様のことがいえる。
これらの問題を解決するために、一定のパラメータに加
えて他のパラメータによる判断も同時に行なえ、その論
理和や論理積を取る方法が考えられる。
しかしながらこれらのパラメータは、互いに全く独立な
ものではなく、単純に論理和や論理積で判断することが
難しい。従って、音声領域と非音声領域との境界は明確
な超平面によって線形分離することは通常の方法では容
易ではない。
本発明は以上の点に着目してなされたもので、より確度
の高いアルゴリズムによって、音声区間の切出しを行な
うことができる音声認識方法を提供することを目的とす
るものである。
(課題を解決するための手段) 本発明の音声認識方法は、入力音声を所定の単語から成
る音声区間で切出して、標準パターンと比較して音声認
識を行なう場合において、前記入力音声のパワー及びス
ペクトルを含むデータから得られる前記検出に適する複
数の特徴パラメータを、学習の機能を備えた演算回路を
用いて、前記学習により前記特徴パラメータの重み付け
を設定し、誤差逆伝幡法則に基づ−き前記入力音声の始
端及び終端の識別をするものである。
(作用) この方法は、入力音声のパワー及びスペクトルを含むデ
ータから得られる複数の特徴パラメータをそれぞれ重み
付けして、入力音声の始端及び終端の識別に利用する。
学習の機能を備えた演算回路において、予め実施される
学習により各種パラメータに重み付けを設定し、種々の
誤差を考慮した上で、誤差逆伝幡法則に基づき、始端終
端の最も確度の高い判定を行なう、これにより従来に比
べて、より信頼性及び認識率の高い音声認識方法を提供
できる。
(実施例) 第1図は、本発明の方法実施例を示す説明図である。
図において、まずアナログ音声が入力すると(ステップ
S1)、ディジタル処理のためA/D(アナログ/ディ
ジタル)変換が実行される(ステップS2)。その後、
BPF (バンドパスフィルタ)計算が実行される。
これはいわゆるディジタルフィルタ演算で、音声周波数
帯域のみを取出すための処理である。そして、この演算
によりスペクトル及びパワーが導き出され、そのスペク
トルから特徴パラメータ演算が行なわれる。この特徴パ
ラメータには、標準パターンとのパターンマツチングの
際必要な、ローカルビーク、子音、スペクトル変化方向
等のデータが含まれる。ローカルビーク、子音性情報は
、先に従来技術の部分で説明した通りの情報である。ス
ペクトル変化方向とは、スペクトルの時間的な変化をベ
クトル的に捕らえたデータである。このような特徴パラ
メータは、ステップS3において標準パターンと比較さ
れる。
ステップS3の処理により、図のように音声パワー変化
率、ゼロクロス数、スペクトル変化率及びスペクトルと
いう種々のパラメータが得られる(ステップS4〜S8
)。なお、音声パワーは、音声の時間変化を示す、音声
パワー変化率は、音声パワーのグラフの微分値を取った
もので、またゼロクロス数は、先に第3図で示した通り
所定のゼロレベルをクロスした回数をカウントするもの
である。スペクトル変化率は、先に第3図(a)、で説
明したとおりのスペクトルの時間変化を示すものである
。ステップS8におけるスペクトルは、スペクトルのパ
ターン自体を示すものである。このようなパラメータの
内、音声パワー、音声パワー変化率、ゼロクロス数及び
スペクトル変化率は、ステップS9において学習の機能
を備えた演算回路、例えばニューラルネットによる処理
が実行される。
このニューラルネットは、文献「材料(1978):神
経回路網の数理、産業図書」及び「麻生(1988) 
 :ニューラルネットワーク情報処理、産業図書」等に
示されているように、多数の入カバターンと、これら入
カバターンに対応する出カバターンの対応関係が所望の
内容になるように学習させた後、実際に利用するもので
、ニューロコンピュータ等の演算回路に利用されるもの
である。
第4図に、ニューラルネットの動作説明図を示す。  
  ・ 図において、入力データから抽出されたパラメータxi
、x2.”・xnは、それぞれニューラルネットによっ
て、予め実施された学習により設定された重み付は係数
wl 、 w2 、・・・wnと乗算される。・そして
、これらの結果が加算され、所定の判定基準と比較され
る。このようにして、各パラメータの重みを考慮した認
識が行なわれる。
従来よく知られた誤差逆伝幡法則によれば、誤差を加味
した上で一定の範囲でカテゴリ間に線引きを行なうこと
ができる。ニューラルネットによりカテゴリ間の組合わ
せを、それぞれについて十分な学習を行ない、上記重み
付は係数を設定すれば、ニューラルネットの入力層に与
えられた特徴パラメータが中間層を通過することによっ
て、最終的に線形分離可能な表現に変換される。
これにより出力層に設けられた始端ユニット、音声認識
ユニット及び止端ユニットから所定の情報が出力される
。始端ユニットが発火した場合にはそのときのフレーム
が音声始端を示している。
また、終端ユニットが発火した場合には、フレームが終
端であることを示す。何れのユニットも発火しない場合
にはノイズ区間を示し、また、始端ユニットが発火して
いる間は音声区間を示す。
第5図に、音声始端終端検出動作説明図を示す。
このグラフは横軸に時間、縦軸にパワーをとったもので
ある。
図において第1図のステップS9の処理が実行されると
、その始端ユニットからT1のタイミングで、音声区間
Xの始端を示す情報が出力される。また、T2のタイミ
ングで、終端ユニットから音声区間の終端を示す情報が
出力される。
このようにして始端と終端の間に挟まれた音声区間の情
報は、ステップSIOにおいて受入れられ、その判定に
利用される。一方、上記のような始端終端検出において
、音声区間を切出した場合、本来1種の単語に含まれる
べき単語がブロックに分離されてしまう場合もある。
ステップSllにおいては、ステップSIOで始端終端
を判定した場合、その判定が適切か否かを判断する。適
切であれば、ステップS17に移行し、音声切出し情報
としてそのまま出力される。しかしながら、不適切な場
合には、次のステップS12に移行し、詳細判定のため
のニューラルネットを動作させる。例えば始端と終端の
フレームの間にノイズ区間があるような場合、そのノイ
ズ区間が真に音声区間であるかをスペクトルに基づいて
判断する。また、このステップSL2における詳細判定
のニューラルネットには、音声パワーも入力され、先に
示したと同様の学習によりその重み付けを行ない音声ユ
ニットあるいは非音声ユニットの発火が行なわれる。音
声ユニットが発火した場合は、非音声区間である。この
ようにその結果音声切出し情報として出力される(ステ
ップ517)。なお、ステップS13において音声パワ
ーからMAXパワー比を得て、ステップS14において
スペクトルからブロック間スペクトル距離を抽出し、こ
れらのパラメータをステップS15において処理し、ブ
ロック統合削除処理を行なう、なお、パワーの大きな雑
音等が一つのブロックとして検出されてしまい、それが
統合されてしまう可能性もあるため、そのような場合、
その統合ユニット、削除ユニット共に発火することのな
いようニューラルネットを学習させておく、ステップS
15のブロック統合削除処理が行なわれると、ステップ
S16においてそのブロック統合削除情報が、生成され
これが適切か否かが再びステップSllにおいて判断さ
れる。なお、ブロック統合削除等の変更が無ければステ
ップS17に移行し、音声切出し結果がそのまま出力さ
れることになる。
本発明は以上の実施例に限定されない。
上記実施例において使用された各ニューラルネットのパ
ラメータは、音声の切出しのための検出に適する、種々
のパラメータを任意に選定して差し支えない、またその
ニューラルネットの種類や数は適宜自由に選定すること
ができる。
(発明の効果) 以上の構成の本発明の音声認識方法は、入力音声のパワ
ー及びスペクトルを含むデータから得られる特徴パラメ
ータをニューラルネットの学習により重み付けを行ない
、誤差逆伝播法則に基づいてその始端及び終端の識別を
するようにしたので、従来のアルゴリズムより雑音や不
必要な音声の影響の少ない切出しを行なうことが可能と
なる。また、パワーの小さい音声区間の切出しも可能と
なり、より理論値に近い確度で音声認識を行なうことが
可能となる。
【図面の簡単な説明】
第1図は本発明の方法実施例を示す説明図、第2図は入
力音声波形図、第3図(a)はスペクトル変化量説明図
、第3図(b)はゼロクロス数説明図、第4図はニュー
ラルネットの動作説明図、第5図は音声始端終端検出動
作説明図である。 特許出願人 沖電気工業株式会社 第2図 (a) セロクロス@説明図 (b) 第3図 第4図

Claims (1)

  1. 【特許請求の範囲】 入力音声を所定の単語から成る音声区間で切出して、標
    準パターンと比較して音声認識を行なう場合において、 前記入力音声のパワー及びスペクトルを含むデータから
    得られる前記検出に適する複数の特徴パラメータを、学
    習の機能を備えた演算回路を用いて、前記学習により前
    記特徴パラメータの重み付けを設定し、誤差逆伝幡法則
    に基づき前記入力音声の始端及び終端の識別をすること
    を特徴とする音声認識方法。
JP2325814A 1990-11-29 1990-11-29 音声認識方法 Pending JPH04198997A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2325814A JPH04198997A (ja) 1990-11-29 1990-11-29 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2325814A JPH04198997A (ja) 1990-11-29 1990-11-29 音声認識方法

Publications (1)

Publication Number Publication Date
JPH04198997A true JPH04198997A (ja) 1992-07-20

Family

ID=18180898

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2325814A Pending JPH04198997A (ja) 1990-11-29 1990-11-29 音声認識方法

Country Status (1)

Country Link
JP (1) JPH04198997A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008085520A (ja) * 2006-09-27 2008-04-10 Kyushu Univ 放送装置
JP2019040148A (ja) * 2017-08-29 2019-03-14 日本電信電話株式会社 音声区間検出装置、その方法、及びプログラム
JP2019204073A (ja) * 2018-05-24 2019-11-28 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声区間の認識方法、装置及び機器
JP2020064253A (ja) * 2018-10-19 2020-04-23 ヤフー株式会社 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008085520A (ja) * 2006-09-27 2008-04-10 Kyushu Univ 放送装置
JP2019040148A (ja) * 2017-08-29 2019-03-14 日本電信電話株式会社 音声区間検出装置、その方法、及びプログラム
JP2019204073A (ja) * 2018-05-24 2019-11-28 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声区間の認識方法、装置及び機器
US10847179B2 (en) 2018-05-24 2020-11-24 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for recognizing voice endpoints
JP2020064253A (ja) * 2018-10-19 2020-04-23 ヤフー株式会社 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム
JP2021121875A (ja) * 2018-10-19 2021-08-26 ヤフー株式会社 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム

Similar Documents

Publication Publication Date Title
EP1083541B1 (en) A method and apparatus for speech detection
EP2482277B1 (en) Method for identifying a speaker using formant equalization
JPS58140798A (ja) 音声ピツチ抽出方法
EP0338035B1 (en) Improvements in or relating to apparatus and methods for voice recognition
US5159637A (en) Speech word recognizing apparatus using information indicative of the relative significance of speech features
JPH04198997A (ja) 音声認識方法
US7630891B2 (en) Voice region detection apparatus and method with color noise removal using run statistics
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JPS6151798B2 (ja)
JPH04198998A (ja) 音声認識方法
AU736133B2 (en) Speech detection in a telecommunication system
JPH08146996A (ja) 音声認識装置
JPS6136797A (ja) 音声セグメンテ−シヨン法
JPH0682275B2 (ja) 音声認識装置
JP2602271B2 (ja) 連続音声中の子音識別方式
JP2744622B2 (ja) 破裂子音識別方式
JPS6148897A (ja) 音声認識装置
JPS605337A (ja) 音声入力方式
JPH10214096A (ja) 話者認識装置
JPH0454960B2 (ja)
JPS5925240B2 (ja) 音声区間の語頭検出方式
Kohda A study of modifying pruning strategies for dp beam search at a preset input frame
JPS6237797B2 (ja)
JPH01260499A (ja) 子音認識法
JPS62211698A (ja) 音声区間検出方法