JPH07104675B2 - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH07104675B2
JPH07104675B2 JP61136480A JP13648086A JPH07104675B2 JP H07104675 B2 JPH07104675 B2 JP H07104675B2 JP 61136480 A JP61136480 A JP 61136480A JP 13648086 A JP13648086 A JP 13648086A JP H07104675 B2 JPH07104675 B2 JP H07104675B2
Authority
JP
Japan
Prior art keywords
local peak
voice
frame
value
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61136480A
Other languages
English (en)
Other versions
JPS62293299A (ja
Inventor
圭子 高橋
陽一 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP61136480A priority Critical patent/JPH07104675B2/ja
Publication of JPS62293299A publication Critical patent/JPS62293299A/ja
Publication of JPH07104675B2 publication Critical patent/JPH07104675B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は音声認識方法、特に音声認識に際してのロー
カルピーク抽出方法に関する。
(従来の技術) 音声認識を行うに際し、入力音声の母音定常部の特徴を
安定及び正確に抽出することは認識性能を向上させるた
めに非常に大切なことである。それは、人間が発声する
音声の中で母音定常部が時間的に占める割合が、子音又
は母音から母音へ、或いは、母音から子音等へ遷移する
部分である過渡部(非定常部)に比較して、大であるこ
と、又、継続時間が比較的大であるので、発声タイミン
グ等の影響によるバラツキが小さく安定に特徴を抽出す
ることが出来ることにより、母音定常部の特徴を主体と
して利用する認識方式が有効であるという理由による。
従来装置において母音定常部の特徴抽出のために使用し
て有効な方法としてローカルピーク抽出の方法が提案さ
れている。この方法は母音定常部のホルマント周波数帯
域を検出しようとする方法である。
第3図(A)〜(C)はこの方法を説明するための図で
ある。この方法によれば、A/D変換された入力音声信号
に対し、中心周波数(各中心周波数に対応するチャネル
番号k(kは正の整数)が付してある)の異なるバンド
パスフィルタによる周波数分析及び対数変換を順次に行
った後得られた周波数スペクトルを算出し(第3図
(A))、これら周波数スペクトルからこれらスペクト
ルの最小二乗直線を減じてスペクトルの正規化を行い
(第3図(B))、正規化スペクトルの値が「0」より
大となるチャネルの中で出力信号の値が極大となるチャ
ネルのローカルピーク値を「1」とし、残りのチャネル
のローカルピーク値を全て「0」と設定する1ビット方
式でローカルピークパタンを抽出している(第3図
(C))。従って、この方法では特徴量の圧縮効果をも
たらすことが出来るので、認識方法を小規模なハード量
で実現する際にも有効である。
(発明が解決しようとする問題点) しかしながら、この従来提案されている認識方法におけ
るローカルピーク抽出方法によれば、周波数スペクトル
の最小二乗直線との大小関係、即ち、他の周波数帯域の
出力値との相対的な大きさをローカルピーク抽出を行う
ための尺度とて使用しているが、周波数スペクトル出力
値の絶対量はローカルピーク抽出を行うための情報とし
ては使用されていない。
従って、連続発声音声におけるような破裂音を含む音節
等に発声する無音区間、つまり、周波数スペクトル出力
レベルが周囲雑音の大きさと同等となりしかもスペクト
ルの形も周囲雑音スペクトルと同等となる区間において
ローカルピーク抽出を行うことは、実質的には周囲雑音
スペクトルのローカルピークを抽出することになる。こ
れがため、周囲雑音スペクトルの変化に対応して無音区
間におけるローカルピーク抽出結果が変化して安定とな
らないので、この方法は認識性能の低下を招く問題点が
あった。
このような問題点を解決するため、入力信号レベルが所
定の一つの固定した閾値より小さい場合は無条件にロー
カルピーク値を全て「0」としてしまう方法も考えられ
るが、その方法であると、入力音声レベルがほとんど一
定である場合には有効であるが、話者の変化、入力媒体
の変化その他の原因により入力音声レベルが大きく変化
する場合には、固定の閾値による判定は困難となる。
一方、入力レベルの変化に対応出来る方法として、入力
音声信号の最大値の2割程度の大きさに対応するレベル
以下のローカルピーク値を全て「0」にする方法が考え
られる。この方法によれば、ローカルピーク抽出を精度
高く行うことが出来るというメリットがあるが、入力音
声信号の最大値を検出した時刻の後でなければ無音区間
判定の閾値を決定出来ないために、ローカルピーク抽出
を実時間処理で行うことが出来ず、これがため処理時間
が長くなるという問題点がある。
このような従来提案されているローカルピーク抽出方法
は、いづれにしても、抽出精度及び処理時間の双方を満
足させる方法ではなかった。
この発明の目的は、上述したような従来の問題点を除去
し、実時間処理が可能で抽出精度が高いローカルピーク
抽出方法を使用することにより高性能な音声認識処理を
行えるようにした音声認識方法を提供することにある。
(問題点を解決するための手段) この目的の達成を図るため、この発明によれば、このロ
ーカルピークパタンの抽出を下記の通りにして行う。
先ず、次の2つの条件及びを決めておく。
条件:所定の時間間隔(以後、フレームと称す)毎の
音声パワーの値(一例として、周波数スペクトルの総和
で表されるもの)の変化量が所定の閾値以下であること
及び 条件:音声パワーの値がローカルピーク抽出開始フレ
ームよりローカルピーク抽出が行われようとするフレー
ムまでにおける音声パワー最大値の1/N(N:正の定数)
以下であること。この条件は音声パワーが音声パワー
に応じて逐次定められる閾値以下であることを意味す
る。
次に、ローカルピーク抽出が行われようとするフレーム
における音声パワーがこれら条件及び条件の双方を
満足する場合は、無音区間と判定してこのフレームにお
けるローカルピーク値を0と設定する。又、それ以外の
フレームについては規定のローカルピーク抽出処理を行
う。
このローカルピーク抽出処理は、好ましくは、最小二乗
直線で正規化された周波数スペクトル即ち正規化スペク
トルの成分が正値でかつ極大を取るローカルピーク値を
「1」と設定し、それ以外のローカルピーク値を全て
「0」と設定することによって行うのが良い。このよう
なローカルピーク値を求める処理を入力フレーム毎に全
ての入力フレームに対して実行し、その結果、ローカル
ピークパタンを作成する。
又、この場合、好ましくは条件での定数NをN=3〜
5の値に設定するのが良い。
(作用) 次に、上述したこの発明において特色であるローカルピ
ーク抽出方法につき説明する。
第1図(A)〜(C)はローカルピーク抽出を行うか否
かの判定方法の概念を説明するための説明図である。
第1図(A)は音声パターン(実線で示す)と、この音
声パワーに応じて逐次実時間的に求められた閾値(破線
で示す)THL(j)との比較によってローカルピーク抽
出を行うか否かの判定条件を説明するための図であ
り、横軸にフレーム番号j及び縦軸にレベルをとってそ
れぞれ示してある。
第1図(B)は音声パワー変化度(実線で示す)と、固
定の閾値(破線で示す)VTHLとの比較によってローカル
ピーク抽出を行うか否かの判定条件を説明するための
図であり、横軸にフレーム号j及び縦軸にレベルをとっ
てそれぞれ示してある。ここで音声パワー変化度を一例
として、直前フレームの音声パワーとの差で表したが、
これに限定されものでなく、他の量をもって音声パワー
変化度とすることも出来る。
第1図(C)は、それぞれの条件の下での判定結果を説
明するための図である。
尚、第1図(A)及び(B)の例において、j0は音声区
間の始端フレーム番号、j1は音声パワーが閾値THL
(j)以下となる最初のフレーム番号、j2は音声パワー
変化度が閾値VTHL以上となるフレーム番号、j3は音声パ
ワーが閾値THL(j)以上となる点、j4は音声パワーが
再び閾値THL(j)以下となるフレーム番号及びj5は音
声区間の終端フレーム番号とする。
第1図(A)及び(B)からも理解出来るように音節の
立ち上がり部分の初期期間では音声パワー変化度は正方
向に大きく変化する。この部分は通常は子音部であるこ
とが多く、音声認識に有効な情報を含む可能性が強いの
で音声パワーが小さくてもローカルピーク抽出処理を行
った方が有利である。従って条件を設定し、条件は
成立するが条件は成立しないフレーム番号j2〜j3のフ
レーム区間においてはローカルピーク抽出処理を行って
いる。そして条件及びが成立するフレーム番号j1
j2、j4〜j5のフレーム区間においてはローカルピーク値
を0とする(第1図(C)の斜線部がローカルピーク抽
出を行わない部分である)。
このように、この発明の実施例では、ローカルピーク抽
出処理の判定に、ローカルピーク抽出開始フレームから
ローカルピーク抽出が行われようとするフレームまでに
入力された音声パワーを用いているが、これは音声区間
中の無音区間(音声パワーが周囲雑音レベルに近い部
分)判定を入力音声レベルに適応して正確にするためで
ある。
既に説明したように、従来は無音区間のローカルピーク
は周囲雑音に影響されて不安定であるため無音区間のロ
ーカルピーク抽出を行うと入力音声のローカルピークパ
タンが不安定なものとなり、認識性能が低下する問題が
あったが、この発明の音声認識方法によれば、この問題
の解決を図ることが出来る。
また、この発明で用いるローカルピーク抽出方法は閾値
THL(j)の決定及び上述した判定を実時間処理で行う
ため、認識処理時間の短縮が図れる。
(実施例) 次にこの発明の音声認識方法の説明をする。
第2図はこの発明の実施に用いて好適な音声認識装置の
一構成例を示すブロック図である。
第2図において、10は入力端子、11は分析部、12はスペ
クトル正規化部、13は音声区間検出部、14はローカルピ
ーク抽出部、15は音声標準パタンメモリ部、16はマッチ
ング部、17は判定部、18は出力端子である。
入力端子10より入力された音声信号はA/D変換され、分
析部11に入力される。分析部11でバンドパスフィルタ群
による周波数分析が行われ、フレーム毎に周波数スペク
トルF、音声パワーPが出力される。出力されたフレー
ム毎の周波数スペクトルFはスペクトル正規化部12に入
力されスペクトル正規化処理が行われ、正規化された周
波数スペクトルNFがローカルピーク抽出部14へ出力され
る。
一方、分析部11で出力される音声パワーPは音声区間検
出部13及びローカルピーク抽出部14に入力される。音声
区間検出部13では入力された音声パワーPに基づき、音
声の始端、終端を検出し、始端検出信号ISをローカルピ
ーク抽出部14へ及び終端検出信号Ieをマッチング部16へ
出力する。始端検出信号ISがローカルピーク抽出部14に
入力されると、それ以降入力されるフレーム毎に前述し
た音声パワーPに基づいて前述したこの発明に用いるロ
ーカルピーク抽出方法に従ってローカルピーク抽出が行
われ、フレーム毎のローカルピークパタンLPがマッチン
グ部16へ出力される。
このローカルピーク抽出部14においては、フレーム毎に
入力された音声パワーに基づいてローカルピーク抽出を
実施するか否かの判定を行う。即ち、 音声パワーPの値の変化量が所定の閾値VTHL(正の定
数)以下であること、及び 音声パワーPが所定の閾値THL(j)(jはフレーム
番号)以下であること という2つの条件が共に満足するフレームについては、
ローカルピーク抽出処理を行わず、それ以外のときはロ
ーカルピーク抽出を行うこととする。この条件におけ
る音声パワーPの所定の閾値THL(j)はローカルピー
ク抽出開始フレームj0よりローカルピーク抽出が行われ
ようとするフレームjまで入力された最大の音声パワー
値の1/N(N:正定数)とする(Nは3〜5程度に設定す
るのが有効である)。
そしてこれら条件及びが共に満足するフレームに対
してはローカルピークを「0」とし(ローカルピーク抽
出処理を行わない)、それ以外の条件のフレームに対し
てはローカルピーク抽出処理を行う。即ち、最小二乗
(近似)直線で正規化された周波数スペクトルNFの正の
値をとる周波数帯域の中で極大となる中心周波数を有す
るチャネルのローカルピーク値を「1」、それ以外のチ
ャネルのローカルピーク値を全て「0」とする。このよ
うにして、フレーム毎のローカルピークパタンLPを得
る。
マッチング部16ではフレーム毎のローカルピークパタン
LPが逐次入力され記憶される。そして終端検出信号Ie
入力されたとき、ローカルピークパタンLPの入力を終了
し、それまでに記憶された入力音声に対するローカルピ
ークパタンと、予め音声標準パタンメモリ部15に記憶さ
れている全ての音声標準パタンSPとのマッチング(一例
として、入力音声に対するローカルピークパタンLPと音
声標準パタンSPとの市街地距離の算出)を行い、類似度
Sを判定部17へ出力する。
この標準パタンは入力音声からローカルピークパタンを
抽出する方法と同一の手法によって予め求めたものであ
る。
判定部17では入力された全ての音声標準パタンSPに対す
る類似度の中で最大類似度を与える音声標準パタンSPに
対するカテゴリ名を認識結果Rとして出力端子20へ出力
されるというものである。
(発明の効果) 上述した説明から明らかなように、この発明ではローカ
ルピーク抽出処理を行うフレームを音声パワーの変化量
と音声パワー最大値に基づいて設定した閾値を用いて判
定することにより、入力音声レベルの変動に対応し、認
識精度の良いローカルピークパタンを作成することが可
能である。
さらに、ローカルピーク抽出開始フレームよりローカル
ピーク抽出が行われようとするフレームまでの入力音声
パワーの最大値を用いて閾値を設定し、ローカルピーク
抽出処理を行うか否かを判定しているので実時間処理が
可能であり、認識処理時間の軽減が図れる。
【図面の簡単な説明】
第1図(A)〜(C)はローカルピーク抽出の概念を説
明するための説明図、 第2図はこの発明を実施するための音声認識装置の一構
成例を示すブロック図、 第3図はローカルピークパタン算出を説明するための説
明図である。 10……入力音声信号、11……分析部 12……スペクトル正規化部 13……音声区間検出部 14……ローカルピーク抽出部 15……音声標準パタンメモリ部 16……マッチング部、17……判定部 18……出力端子。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】入力音声を周波数分析処理して得られる周
    波数スペクトルよりローカルピークパタンを抽出し、該
    ローカルピークパタンと音声標準パタンとの類似度を求
    め、全ての音声標準パタンの中で最大の類似度を与える
    音声標準パタンのカテゴリ名を認識結果とする音声認識
    方法において、ローカルピークパタンの抽出は、 (a)音声区間中のローカルピーク抽出が行われようと
    するフレームにおける音声パワーが 音声パワーの値の変化量が所定の閾値(正の定数)以
    下であること及び ローカルピーク抽出開始フレームより、ローカルピー
    ク抽出が行われようとするフレームまでに入力された音
    声パワーの最大値の1/N(N:正の定数)以下であること という2つの条件を共に満足するフレームについては、
    無音区間と判定して、ローカルピーク値を全て「0」と
    し、それ以外の条件のフレームについてはローカルピー
    ク抽出処理を行い、 (b)ローカルピーク値を求めるローカルピーク抽出を
    入力フレーム毎に行ってローカルピークパタンを作製す
    る ことを特徴とする音声認識方法。
  2. 【請求項2】前記ローカルピーク抽出処理は、最小二乗
    直線で正規化された周波数スペクトルの正値でかつ極大
    を取るローカルピーク値を「1」と設定し、それ以外の
    ローカルピーク値を全て「0」と設定して行うことを特
    徴とする特許請求の範囲第1項に記載の音声認識方法。
  3. 【請求項3】前記Nを3〜5程度としたことを特徴とす
    る特許請求の範囲第1項に記載の音声認識方法。
JP61136480A 1986-06-12 1986-06-12 音声認識方法 Expired - Lifetime JPH07104675B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61136480A JPH07104675B2 (ja) 1986-06-12 1986-06-12 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61136480A JPH07104675B2 (ja) 1986-06-12 1986-06-12 音声認識方法

Publications (2)

Publication Number Publication Date
JPS62293299A JPS62293299A (ja) 1987-12-19
JPH07104675B2 true JPH07104675B2 (ja) 1995-11-13

Family

ID=15176120

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61136480A Expired - Lifetime JPH07104675B2 (ja) 1986-06-12 1986-06-12 音声認識方法

Country Status (1)

Country Link
JP (1) JPH07104675B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008114448A1 (ja) 2007-03-20 2008-09-25 Fujitsu Limited 音声認識システム、音声認識プログラムおよび音声認識方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59228299A (ja) * 1983-06-08 1984-12-21 株式会社リコー 音声区間検出方式

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集昭和61年3月2−1−4P.57〜58

Also Published As

Publication number Publication date
JPS62293299A (ja) 1987-12-19

Similar Documents

Publication Publication Date Title
US8326610B2 (en) Producing phonitos based on feature vectors
JPS634200B2 (ja)
CN108986844B (zh) 一种基于说话人语音特征的语音端点检测方法
JPH07104675B2 (ja) 音声認識方法
Hahn et al. An improved speech detection algorithm for isolated Korean utterances
JP2000200100A (ja) アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置
JPH03114100A (ja) 音声区間検出装置
JPH0731506B2 (ja) 音声認識方法
JP2891259B2 (ja) 音声区間検出装置
JPS61233791A (ja) 音声認識装置における音声区間検出方式
JP2666296B2 (ja) 音声認識装置
JP3411074B2 (ja) 母音区間検出装置及び母音区間検出方法
JP2000099099A (ja) データ再生装置
JP2901976B2 (ja) パターン照合予備選択方式
JP3008404B2 (ja) 音声認識装置
JPS61260299A (ja) 音声認識装置
JPH0259480B2 (ja)
JPS6250800A (ja) 音声認識装置
JPS61273599A (ja) 音声認識装置
JPS61252595A (ja) 音声認識処理方式
JPH0567036B2 (ja)
JPS6310437B2 (ja)
JPH054680B2 (ja)
JPS6147994A (ja) 音声認識方式
JPH0558557B2 (ja)