JPS5936759B2 - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS5936759B2
JPS5936759B2 JP50062211A JP6221175A JPS5936759B2 JP S5936759 B2 JPS5936759 B2 JP S5936759B2 JP 50062211 A JP50062211 A JP 50062211A JP 6221175 A JP6221175 A JP 6221175A JP S5936759 B2 JPS5936759 B2 JP S5936759B2
Authority
JP
Japan
Prior art keywords
phoneme
parameters
speech
interval
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP50062211A
Other languages
English (en)
Other versions
JPS51138105A (en
Inventor
博也 藤崎
泰雄 佐藤
満雄 村上
好朗 野口
英一 白鳥
博 平川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP50062211A priority Critical patent/JPS5936759B2/ja
Publication of JPS51138105A publication Critical patent/JPS51138105A/ja
Publication of JPS5936759B2 publication Critical patent/JPS5936759B2/ja
Expired legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は、音声認識方法、特にパラメータを抽出して単
語音声の認識を行なう音声認識装置において、少なくと
も音声区間であること、高レベル区間または低レベル区
間であること、スペクトルの定常性があること、更には
パラメータMl,M2を抽出してそのパラメータに定常
性があることを夫々検出して例えば母音区間と子音区間
とに区別するようにし該区別された区間を利用して照合
を容易に行ない得るようにした音声認識方法に関するも
のである。
音声認識方法において各音素に対応するパラメータを抽
出して認識が行なわれるが、この種の認識方法において
処理速度を向上しつつ認識の信頼性を確保するために、
入力音声中の音素を比較的高い信頼度で認識可能な第1
群の音素(例えば母音の如き音素)とそれ以外の第2群
の音素とに分け、先ず第1群の音素記号列にもとずいて
入力単語の認識を行ない、第1群の音素記号列のみでは
区別し得ない複数の単語が存在する場合、それらを相互
に区別するに必要な第2群の音素中の認識限界音素をパ
ラメータの形のままで照合することが考慮された。
しかし、上記方法を採用するに当つては入力音声から各
音素区間を正しく抽出することが必要であり、更には第
1群の音素(以下簡単のため母音と称す)区間と第2群
の音素(以下簡単のため子音と称す)区間とを区別する
ことが必要である。
また上記の如く子音をパラメータの形で照合するための
有効な方法を開発することが必要となる。本発明は上記
の点を解決することを目的としており、本発明の音声認
識方法は音声信号の周波数分析結果を利用して少なくと
も母音と半母音と子音とに対応する各音素に対するパラ
メータを抽出し音声認識を行なう音声認識装置において
、音声区間検出手段、高レベル区間または低レベル区間
検出手段、およびスペクトルが予め定められた一定時間
以上定常であることを検出するスペクトル定常性検出手
段をそなえ、少なくとも上記3つの検出手段の出力にも
とずいて入力音声区間を各音素区間に区分せしめると共
に、区分された音素の始点と終点と当該音素の照合中心
点とを決定するタイミング決定手段をそなえ、上記少な
くとも子音に関して先に登録された音素パラメータと未
知入力音声における音素パラメータとを上記照合中心点
が相互に一致するよう対応付けを行ない、該対応付けを
行なつた状態で両者の照合をとるようにしたことを特徴
とし、第1ホルマント周波数および第2ホルマント周波
数に相当する量M1およびM2を抽出する抽出手段およ
びこれらのパラメータMl,M2を使つてパラメータ定
常区間検出手段を構成し、予め定めた音素区間の補正を
行なうことを特徴としている。以下図面を参照しつつ説
明する。第1図は本発明の音声認識方法の主要部の一実
施例構成、第2図は各音素の特性をまとめて表わした説
明図、第3図A,Bは本発明により区別される母音区間
と子音区間とを説明する説明図、第4図A,B,C,D
は本発明によるパラメータ・レベルでの照合態様を説明
する説明図を示す。
第1図において、1は第1ホルマント周波数に相当する
量M1および第2ホルマント周波数に相当する量M2を
抽出するMl,M,抽出部、2はパラメータ定常性検出
量SMを抽出するSM抽出部、3はパラメータ定常性検
出部、4はスペクトル定常性検出量Ssを抽出するSs
抽出部、5はスベクトル定常性検出部、6は複数の各フ
イルタからの出力の和Pw即ちパワーを抽出するPw抽
出部、7は高レベル区間を検出する高レベル区間検出部
、8は音声区間を検出する音声区間検出部、9は音声終
端検出部で音声の終端を検出するもの、10はパラメー
タXl,X2抽出部、11は母音区間検出部、12は子
音区間検出部、13は母音パラメータ抽出部、14は子
音パラメータ抽出部を夫々表わしている。今Nチヤネル
のフイルタからの出力が導びかれるものとするとき、M
l,M2抽出部1は、上記出力を利用して母音の認識に
有効な少数のパラメータを得るために、第1ホルマント
周波数および第2ホルマント周波数に相当する量Ml,
M2を抽出するようにする。
この抽出には次の式が利用される。
ここでPi(Tn)は例えば10msec毎の時点Tn
でサンプルされたi番目のフイルタ・チヤンネルの出力
であり、Wijはのの荷重、Fiはその中心周波数を表
わしている。なお荷重Wijは、ホルマント周波数既知
の合成音のフイルタ出力から、求めた量Ml,M2がボ
ルマント周波数に一致するように実験的に決定される。
SM抽出部2は母音区間の検出の指標となるパラメータ
定常性を検出する量SMを抽出するもので、いわぱ所定
のサンプリングの間にわたつて量MlおよびM。を調べ
てゆく。量SMは次式で定義 .される。パラメーータ
定常性検出部3は、上記SM抽出部2によつて抽出され
た量SMを順次検討してゆき、量SMが予め定めた閾値
以下で、かつ予め定めた時間持続するときその区間にス
ペクトル定常性があつたものとして出力を発する。
Ss抽出部4はフイルタ群からの各出力から次式即ち、
で定義された量Ssを抽出するものである。
スペクトル定常性検出部5は、上記Ss抽出部4によつ
て抽出された量Ssを順次に検討してゆき、量Ssが予
め定めた閾値以下で、かつ予め定めた時間持続するとき
その区間にスペクトル定常 1性があつたものとして出
力を発する。Pw抽出部6は各フイルタ出力の和を抽出
するもので、i番目のフイルタ・チヤネルの出力をPi
とするとき、あるサンプリング時点Tnにおけるパワー
Pw(Tn)は次式で決定される。
即ち 2高レベル区間検出部Tは、音声のパワーが高レ
ベルであるか否かを検出するもので、上記Pw抽出部6
からの出力Pwが次式即ちを満足するとき、その区間が
高レベル区間であるとみなすようにしている。
なお上記(5)式においてPmaxはある単語区間中に
おけるパワーPwの最 .大値を表わし、パワーPwが
該最大値Pmaxのα大〕をこえていることを検出して
いるものと考えてよい。音声区間検出部8は、音声が存
在するか否かを検出するもので上記出力Pwが予め定め
た閾値を超えている区間を音声区間とみなすようにして
いる。
終端検出部9は、単語の終端を検出するもので、該終端
を検出した後につれにつづく処理が行なわれる。
第2図は各音素がもつ特性をまとめて示している。
図から明らかな如く母音及び母音連続音声はスペクトル
定常性をもち、かつ高レベル音である。そして母音区間
を決定するにはさらに上述のパラメータ定常性を用いる
ことも可能である。このことから、第1図図示の如く母
音区間検出部11は次の条件のもとで母音区間を決定す
る。即ち、ハ 音声区間である。2)かつ高レベル区間
である。
3)かつスペクトル定常性がある。
4)かつパラメータ定常性がある。
上記に対して半母音および子音においては、1)音声区
間である。
ことを条件とし、 2)スペクトル定常性がないかまたは高レベルでないか
のいずれかである。
このことから、第1図図示の如く子音区間検出部12に
対して各検出部5,1,8,9の出力が供給され、これ
により該子音区間検出部12は子音区間を決定する。
今第3図図示の如く単語「 KOSAIN」が発声され
各フイルタ群からの出力の和Pwが第3図A図示の如き
時間経過をとつたとする。
このとき、第1図図示の各検出部3,5,1,8,9に
よつて第3図Bに示す如く母音区間と子音区間とが夫夫
検出される。上述の如く決定された母音区間は、第1図
図示母音区間検出部11から、母音パラメータ抽出部1
3に指示される。
該母音パラメータ抽出部13は、Ml,M2抽出部1か
らのホルマント周波数に相当する量を上記区間によつて
区分して次段に供給する。該次段以後の構成は省略した
が、次段以降ではまず抽出部13からの出力と標準母音
の同様な出力とが照合され、上記抽出部13からの出力
が母音1a1,Ii1,1u1,Ie1,101のいず
れに属するかが決定され、更に後段において母音の時系
列即ち母音記号列がつくられるものと考えてよい。また
上述の如く決定された子音区間は、第1図図示の子音区
間検出部12から、子音パラメータ抽出部14に指示さ
れる。該子音パラメータ抽出部14は、後述する如くX
1およびX2抽出部10からの出力を上記区間によつて
区分して次段に供給する。該次段以後の構成は省略した
が、次段以降では抽出された子音パラメータは該パラメ
ータの形のままで登録され、また先に登録されたパラメ
ータと照合されるものと考えてよい。X1およびX2抽
出部10は夫々有声子音相互の分離と無声子音相互の分
離とを行ない得るようにするパラメータX1およびX2
を抽出する。
そして該パラメータX1(Tn)はで定義され、上記ベ
クトルα1=(All,al2・・・,AlN)はフイ
ルタ群の出力によつて得られる多元空間内に例えば有声
子音の標本群をその上に写像した場合、各子音相互の分
離が最大となるように定められる。
即ちパラメータX1(Tn)は有声子音相互の分離を行
ない得るものとなる。またパラメータX2(Tn)はで
定義され、ベクトルα2=(AZl,a222゜゜,a
2N)は同様に例えば無声子音の標本群に関して相互の
分離を最大にするように定められる。
即ちパラメータX2(Tn)は無声子音相互の分離を行
ない得るものとなる。本発明の場合、第1図図示の子音
パラメータ抽出部14の後段において、先に登録されて
いる認識限界子音区間と未知入力音声中の認識限界子音
区間とがパラメータX1およびX,と、未知入力音声か
ら抽出された連続パラメータX1およびX2とを用いて
直接照合される。
第4図はそのための照合の態様を説明する説明図を示し
ている。
今、先に登録されている子音パラメータX1およびX2
とが、第4図A図示の如きタイミングにおいて図示の如
きレベルをそなえていたとし、未知入力音声から抽出さ
れたパラメータX1およびX2とが、第4図B図示の如
きタイミングにおいて図示の如きレベルをそなえていた
とする。なお図中Ts,ts5は当該音素に対応する子
音区間の始点を示し、Te,te′は同区間の終点を示
し、Tc,t♂はその区間の照合中心点を示している。
第4図C図示の如く、例えば子音区間内において、パワ
ーの急変成いは最小時点として指定する両者のパラメー
タの照合中心点TcとTc′とが一致するようにタイミ
ングあわせを行ない、その上で両者の照合をとるように
する。
この照合方式を採用することにより、照合中心点Tc(
又はTcりから前後所定範囲内において照合を行なうだ
けで、両者の一致、不一致を簡単に決定することが可能
になる。上記タイミングあわせを行なうための構成は、
点Ts,ts′,Tc,tc′,Te,te′が夫々決
定されれば第4図A図示のパラメータおよび/または第
4図B図示のパラメータを時遅れ手段に導びくことによ
つて容易に達成できる。なお登録された子音区間と未知
入力音声の子音区間との間の照合をパラメータ空間上で
より正確に行なうには、パラメータ空間内の2種のパタ
ン間の類似度を定義し上記2種の子音区間の時間軸に非
線形な伸縮を施して得られる類似度の最大値を利用する
、いわゆる時間軸正規化の手法「VelichkO,V
.M.andZagOruikO,N.G.:11Au
t0maticRec0gnit10n0f200W0
rds,!11Nt.J.Man−MachineSt
udies,2,223−234(1970)」を使用
できる。
以上説明したごとく本発明によれば発声された登録単語
音声を比較的高信頼度で認識可能な音素の区間と、その
他の音素の区間とに区別し、上記区間の特徴を有効に表
わす複数のパラメータを定義し、それを組合せた最適な
論理構成を用いて正確に上記音素区間の区別を行なうこ
とを可能とする。
さらに登録された認識限界子音と未知入力音声の認識限
界子音との照合を連続パラメータのレベルで行う場合、
照合中心点を設けることによつて正確さを損うことなく
、前記文献に示される従来の方法に比べ照合時間を大巾
に短縮することを可能とする。
【図面の簡単な説明】
第1図は本発明の音声認識方法の主要部の一実施例構成
、第2図は各音素の特性をまとめて表わした説明図、第
3図は本発明により区別される母音区間と子音区間とを
説明する説明図、第4図A,B,Cは本発明によるパラ
メータ・レベルでの照合の態様を説明する説明図を示す
。 第1図中、1はMl,M2抽出部、3はパラメ一夕定常
性検出部、5はスペクトル定常性検出部、Tは高レベル
音区間検出部、8は音声区間検出部、9は終端検出部、
11は母音区間検出部、12は子音区間検出部、第4図
においてTsは音素の始点、Teは終点、Tcは照合中
心点を夫々表わす。

Claims (1)

  1. 【特許請求の範囲】 1 音声信号の周波数分析結果を利用して少なくとも母
    音と半母音と子音とに対応する各音素に対するパラメー
    タを抽出し音声認識を行なう音声認識装置において、音
    声区間検出手段、高レベル区間または低レベル区間検出
    手段、およびスペクトルが予め定められた一定時間以上
    定常であることを検出するスペクトル定常性検出手段を
    そなえ、少なくとも上記3つの検出手段の出力にもとず
    いて入力音声区間を各音素区間に区分せしめると共に、
    区分された音素の始点と終点と当該音素の照合中心点と
    を決定するタイミング決定手段をそなえ、上記少なくと
    も子音に関して先に登録された音素パラメータと未知入
    力音声における音素パラメータとを上記照合中心点が相
    互に一致するよう対応付けを行ない、該対応付けを行な
    つた状態で両者の照合をとるようにしたことを特徴とす
    る音声認識方法。 2 音声信号の周波数分析結果を利用して各音素に対す
    るパラメータを抽出し音声認識を行なう音声認識装置に
    おいて、音声区間検出手段、高レベル区間または低レベ
    ル区間検出手段、およびスペクトルが予め定められた一
    定時間以上定常であることを検出するスペクトル定常性
    検出手段をそなえ、少なくとも上記3つの検出手段の出
    力にもとずいて入力音声区間を各音素区間に区分せしめ
    ると共に、第1ホルマント周波数および第2ホルマント
    周波数に相当する量M_1およびM_2を抽出する抽出
    手段およびこれらのパラメータM_1、M_2を使つて
    パラメータ定常区間検出手段を構成し、予め定めた音素
    区間の補正を行ない、更に、区分された音素の始点と終
    点と当該音素の照合中心点とを決定するタイミング決定
    手段をそなえ、少なくとも子音に関して先に登録された
    音素パラメータと未知入力音声における音素パラメータ
    とを上記照合中心点が相互に一致するよう対応付けを行
    ない、該対応付けを行なつた状態で両者の照合をとるよ
    うにしたことを特徴とする音声認識方法。
JP50062211A 1975-05-23 1975-05-23 音声認識方法 Expired JPS5936759B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP50062211A JPS5936759B2 (ja) 1975-05-23 1975-05-23 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP50062211A JPS5936759B2 (ja) 1975-05-23 1975-05-23 音声認識方法

Publications (2)

Publication Number Publication Date
JPS51138105A JPS51138105A (en) 1976-11-29
JPS5936759B2 true JPS5936759B2 (ja) 1984-09-05

Family

ID=13193567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50062211A Expired JPS5936759B2 (ja) 1975-05-23 1975-05-23 音声認識方法

Country Status (1)

Country Link
JP (1) JPS5936759B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0226366Y2 (ja) * 1984-08-24 1990-07-18
JPH0454447B2 (ja) * 1984-05-31 1992-08-31 Shiroki Corp
KR20190094351A (ko) 2016-12-12 2019-08-13 마이크로파 화학 주식회사 은 나노 와이어의 제조방법, 은 나노 와이어, 분산액, 및 투명 도전막

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5744199A (en) * 1980-08-30 1982-03-12 Matsushita Electric Works Ltd Voice message identifying system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0454447B2 (ja) * 1984-05-31 1992-08-31 Shiroki Corp
JPH0226366Y2 (ja) * 1984-08-24 1990-07-18
KR20190094351A (ko) 2016-12-12 2019-08-13 마이크로파 화학 주식회사 은 나노 와이어의 제조방법, 은 나노 와이어, 분산액, 및 투명 도전막

Also Published As

Publication number Publication date
JPS51138105A (en) 1976-11-29

Similar Documents

Publication Publication Date Title
JPH0352640B2 (ja)
JPS62217295A (ja) 音声認識方式
JPS5936759B2 (ja) 音声認識方法
JPS6138479B2 (ja)
JPS5939760B2 (ja) 音声認識装置
Villing et al. Performance limits for envelope based automatic syllable segmentation
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JPS58108590A (ja) 音声認識装置
RU2763124C1 (ru) Способ дикторонезависимого распознавания фонемы в речевом сигнале
JPH0682275B2 (ja) 音声認識装置
JPS5885495A (ja) 音声認識装置
JPS599080B2 (ja) 音声認識方法
JPS6069694A (ja) 語頭子音のセグメンテ−ション法
JPH02239290A (ja) 音声認識装置
JPS6363919B2 (ja)
JPH0469800B2 (ja)
JPS60138599A (ja) 音声区間検出装置
JPH0114600B2 (ja)
JPS6069695A (ja) 語頭子音のセグメンテ−ション法
Huerta-Hernández et al. On the processing of fuzzy patterns for text independent phonetic speech segmentation
JPS6255699A (ja) 音声認識装置
JPH0887292A (ja) 単語音声認識装置
JPH01260499A (ja) 子音認識法
JPH01209499A (ja) パターン照合方式
JPS59124392A (ja) 音声認識方式