JPS59181397A - 単音節音声認識方式 - Google Patents
単音節音声認識方式Info
- Publication number
- JPS59181397A JPS59181397A JP58056611A JP5661183A JPS59181397A JP S59181397 A JPS59181397 A JP S59181397A JP 58056611 A JP58056611 A JP 58056611A JP 5661183 A JP5661183 A JP 5661183A JP S59181397 A JPS59181397 A JP S59181397A
- Authority
- JP
- Japan
- Prior art keywords
- consonant
- voiced
- candidates
- beginning
- unvoiced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の技術分野〕
本発明は音声認識装置において、初めに抽出された候補
が、例えばカ行とガ行、す行とザ行、rtsiJとrd
ziJ、「tsuJとrdzuJというような無声子音
部をもつ単音節と有声子音部なもつ単音節との組合せの
場合において、無声子音か有声子音かを正確に識別でき
るようにした単音節音声認識方式に関する。
が、例えばカ行とガ行、す行とザ行、rtsiJとrd
ziJ、「tsuJとrdzuJというような無声子音
部をもつ単音節と有声子音部なもつ単音節との組合せの
場合において、無声子音か有声子音かを正確に識別でき
るようにした単音節音声認識方式に関する。
音声認識を行う場合、第1図に示す如(未知の音声入力
を例えばFFTや帯域フィルタ等の適宜手段により周波
数分析し、これらのパラメータ抽出して未知音声入力の
特徴を求め、これt辞書に格納されているすべての既知
の音声の%徴パラメータとDP照合を行い、その特徴の
もっとも類似しているものを単数または複数認識結果と
して出力している。この場合、DP照合を行う場合、ど
んな音節に対しても同じ形でDP照合をしている。
を例えばFFTや帯域フィルタ等の適宜手段により周波
数分析し、これらのパラメータ抽出して未知音声入力の
特徴を求め、これt辞書に格納されているすべての既知
の音声の%徴パラメータとDP照合を行い、その特徴の
もっとも類似しているものを単数または複数認識結果と
して出力している。この場合、DP照合を行う場合、ど
んな音節に対しても同じ形でDP照合をしている。
ところが単音節のDP照合を行うとき、/ k a/と
/ga/、/ s a /と/ t a /、/p a
/と/ t a /、/ma/と/na/というように
、相互に特徴の似ているものが存在するため、単音節の
音声認識においてはDP方式という1律の手法のみでは
必らずしも完全に認識できプよいことがある。したがっ
てこのような場合では、初めに抽出された候補に応じた
再照合を行って正確な認識を行うことが必要となる。
/ga/、/ s a /と/ t a /、/p a
/と/ t a /、/ma/と/na/というように
、相互に特徴の似ているものが存在するため、単音節の
音声認識においてはDP方式という1律の手法のみでは
必らずしも完全に認識できプよいことがある。したがっ
てこのような場合では、初めに抽出された候補に応じた
再照合を行って正確な認識を行うことが必要となる。
本発明の目的は最初の照合により抽出された候補が、例
えば/b/−/p/(バ行とバ行、以下同様に表示する
)、/d/−/l/、/g/−/に/、/s/−/Z/
、/dZ/−/lS/等の如く、有声子音をもつ単音節
と無声子音をもつ単音節の組み合せである場合、これが
有声子音をもっ認識できるようにした単音節音声認識方
式を提供することである。
えば/b/−/p/(バ行とバ行、以下同様に表示する
)、/d/−/l/、/g/−/に/、/s/−/Z/
、/dZ/−/lS/等の如く、有声子音をもつ単音節
と無声子音をもつ単音節の組み合せである場合、これが
有声子音をもっ認識できるようにした単音節音声認識方
式を提供することである。
この目的を達成するために本発明の単音節音声認識方式
では、予め登録された単音節音声と未知入力単音節音声
とを照合して得られた&数の再照合候補を選出し、i再
照合候補に適した識別照合方式により再照合する音声認
識装置において、中高域フィルタと低域フィルタを備え
各フィルタ出力について他のフィルタ出力及び仮の閾値
を越える時点に応じて変化する闇値をそれぞれ有し、中
高域フィルタ出力、低域フィルタ出力がそれぞれの閾値
な越える時点をそれぞれ有声子音部始端、無声子音部始
端とする始端検出手段と、有声子音部始端と無声子音部
始端との距離情報が保持されるデータ保持手段と、判別
手段を設け、再照合候補が無声子音と有声子音の組合せ
である場合有声子音部始端か無声子音部始端よりも予め
候補の組み合せに応じて定められた閾値よりも前の場合
は有声子音と判定し、無声子音部始總が有声子音部始端
よりも予め候補の組み合せに応じて定められた閾値より
も罰の場合は無声子音と判定し、その他の場合は杓照合
候補順位を変更しないことを特徴とする。
では、予め登録された単音節音声と未知入力単音節音声
とを照合して得られた&数の再照合候補を選出し、i再
照合候補に適した識別照合方式により再照合する音声認
識装置において、中高域フィルタと低域フィルタを備え
各フィルタ出力について他のフィルタ出力及び仮の閾値
を越える時点に応じて変化する闇値をそれぞれ有し、中
高域フィルタ出力、低域フィルタ出力がそれぞれの閾値
な越える時点をそれぞれ有声子音部始端、無声子音部始
端とする始端検出手段と、有声子音部始端と無声子音部
始端との距離情報が保持されるデータ保持手段と、判別
手段を設け、再照合候補が無声子音と有声子音の組合せ
である場合有声子音部始端か無声子音部始端よりも予め
候補の組み合せに応じて定められた閾値よりも前の場合
は有声子音と判定し、無声子音部始總が有声子音部始端
よりも予め候補の組み合せに応じて定められた閾値より
も罰の場合は無声子音と判定し、その他の場合は杓照合
候補順位を変更しないことを特徴とする。
本発明な一実施例にもとつき詳述するに先立ち、第2図
、第3図によりその概略な散−りづする。無、声子省節
は例えば第、2図(イ)に示す音声波形を有する。
、第3図によりその概略な散−りづする。無、声子省節
は例えば第、2図(イ)に示す音声波形を有する。
この第2図(イ)は「ka」の1例である。この棒2図
(イ)の音声波形な、例えば50〜350Hzの低域フ
ィルタにより帯域通過させれば第2図仲)Vc示ず波形
が得られ、また(イ)を例えば1000〜4900Hz
の中高域フィルタで帯域抽出すれば(ハ)の状態となる
。
(イ)の音声波形な、例えば50〜350Hzの低域フ
ィルタにより帯域通過させれば第2図仲)Vc示ず波形
が得られ、また(イ)を例えば1000〜4900Hz
の中高域フィルタで帯域抽出すれば(ハ)の状態となる
。
そして第2図(ロ)より有声始端がtvであり、(/→
より無声始端がtuであることが判断でき、しかもtu
がtvより前に存在することがわかる、このように無声
子音節ではtuがtvより前に位置している。
より無声始端がtuであることが判断でき、しかもtu
がtvより前に存在することがわかる、このように無声
子音節ではtuがtvより前に位置している。
ところで有声子音節は、第3図(イ)に示す音声波形を
有する。この第3図(イ)はi−gaJの1例である。
有する。この第3図(イ)はi−gaJの1例である。
俗の第3図(イ)を同様に低域フィルタにより帯域通過
させれば、図(ロ)の波形が伎られ、中高域フィルタで
も・域抽出すれば(ハ)の状態となる。そして第3図(
ロ)、(ハ)より明らかなように有声子音節では有声子
始端tvが無声子始端tuより前に位置している。
させれば、図(ロ)の波形が伎られ、中高域フィルタで
も・域抽出すれば(ハ)の状態となる。そして第3図(
ロ)、(ハ)より明らかなように有声子音節では有声子
始端tvが無声子始端tuより前に位置している。
したがって有声子音節と無声子音節とが最初候補として
逆捩さ尼たとき、このような手法で有声子音節か無声子
音節か獣面9できることになる。
逆捩さ尼たとき、このような手法で有声子音節か無声子
音節か獣面9できることになる。
本発明の一実施例を第4図にもとづき低重を参照しつつ
説明する。
説明する。
図中、1は低域フィルタであって例えば50HzないL
350Hzの周波数成分をパスするもの、2は中高域フ
ィルタであって例えばIKHzないし49KEtzの周
波数成分をバスするもの、3,4は夫々パワー計算部で
あって夫々抽出されてきた周波数成分についてエネルギ
な計算するもの、5,6は夫々閾値決定部、7,8は夫
々始端検出部であって本発明にいう仮始端な検出するも
のを表わしている。9は差検出部であって無声始端tu
と有声始端tvとの差(時間差)を検出するもの、10
は有声子音節と無声子音節のペアvciり法定される無
声始端と有声始端間の差の閾値が格納されるもの、11
は判定部であって有声子音節が無声子音節かを判別する
ものである。
350Hzの周波数成分をパスするもの、2は中高域フ
ィルタであって例えばIKHzないし49KEtzの周
波数成分をバスするもの、3,4は夫々パワー計算部で
あって夫々抽出されてきた周波数成分についてエネルギ
な計算するもの、5,6は夫々閾値決定部、7,8は夫
々始端検出部であって本発明にいう仮始端な検出するも
のを表わしている。9は差検出部であって無声始端tu
と有声始端tvとの差(時間差)を検出するもの、10
は有声子音節と無声子音節のペアvciり法定される無
声始端と有声始端間の差の閾値が格納されるもの、11
は判定部であって有声子音節が無声子音節かを判別する
ものである。
まず、無声始端tu及び有声始端tvを正確に求める手
法について説明する。
法について説明する。
フィルタ1を通過した低域成分についてパワー計算部3
においてエネルギPwLが計算され、またフィルタ2を
通過した中高域成分についてパワー計算部4においてエ
ネルギPwHが計算される。
においてエネルギPwLが計算され、またフィルタ2を
通過した中高域成分についてパワー計算部4においてエ
ネルギPwHが計算される。
有声始端検出部7は、基本的には、上記エネルギPwL
が予め定めた閾値な超えるとき、有声子音についての仮
始端tv’を抽出するものである。しかし、本来のエネ
ルギPwLは十分小さくでも、中高域成分エネルギPw
Hが大きい場合に、漏洩が生じていて、パワー計算部3
の見掛は上のエネルギが上記閾値よりも太き(なること
が生じる。このために、閾値決定部5においては、上記
エネルギPwHO値を導入して閾値を決定するよう構成
されている。また閾値決定部6においても、同様であり
、上記エネルギPwLの値ヲ導入して閾値を決定するよ
うにしている。
が予め定めた閾値な超えるとき、有声子音についての仮
始端tv’を抽出するものである。しかし、本来のエネ
ルギPwLは十分小さくでも、中高域成分エネルギPw
Hが大きい場合に、漏洩が生じていて、パワー計算部3
の見掛は上のエネルギが上記閾値よりも太き(なること
が生じる。このために、閾値決定部5においては、上記
エネルギPwHO値を導入して閾値を決定するよう構成
されている。また閾値決定部6においても、同様であり
、上記エネルギPwLの値ヲ導入して閾値を決定するよ
うにしている。
上記始端検出部7,8における仮始端tv’、tu’の
抽出は次のように行われる。
抽出は次のように行われる。
〔■〕無声始端検出部8における処理。
上記エネルギP菟Hに対してIQmsの時間幅をもつ観
測窓を時間2ms間隔のサンプル点をとるよう走査して
ゆく。そして成る時間位置での観測窓内のエネルギが閾
値 THu = 3.0 + 0. I X PwL −(
1)を超えるとぎ、無声子音についての仮始端tu’を
抽出する。
測窓を時間2ms間隔のサンプル点をとるよう走査して
ゆく。そして成る時間位置での観測窓内のエネルギが閾
値 THu = 3.0 + 0. I X PwL −(
1)を超えるとぎ、無声子音についての仮始端tu’を
抽出する。
[Il、l]有声始端検出部7における処理。
上記エネルギPwLに対して5msの時間幅をもつ観測
窓を時間2ms間隔のサンプル点ケとるよう走査してゆ
く、。そして(1)成る時間位置での観測窓内のエネル
ギが閾値 THL t = 0.5 (2)
を超えた場合か、(11)該第(2)式によって得られ
た仮始端tv’が仮始端tu/よりも遅れている場合に
は上記酸る時間位置での観測窓内のエネルギが閾値 THL 2 = 1 0.0 + 0.5 X PwH
−(3)を超えた場合か、のいずれかケもって有声子音
についての仮始端tv’を抽出する。
窓を時間2ms間隔のサンプル点ケとるよう走査してゆ
く、。そして(1)成る時間位置での観測窓内のエネル
ギが閾値 THL t = 0.5 (2)
を超えた場合か、(11)該第(2)式によって得られ
た仮始端tv’が仮始端tu/よりも遅れている場合に
は上記酸る時間位置での観測窓内のエネルギが閾値 THL 2 = 1 0.0 + 0.5 X PwH
−(3)を超えた場合か、のいずれかケもって有声子音
についての仮始端tv’を抽出する。
上記の如くして仮始端tu’とtv’とが得られるが、
始端tuやtvは、これら仮始端の近傍において次の如
き処理を行って抽出するようにされる。
始端tuやtvは、これら仮始端の近傍において次の如
き処理を行って抽出するようにされる。
〔■〕無声始端tu。
上記仮始端tu’の近傍Rρち(t u’ = 5ms
)の時間位置から(iu’+ 20 ms )の時間
位置の範囲内で、上記エネルギーPwHが急変した時点
が検出された場合、その時点を始端tuとする。検出さ
れなかった場合、上記仮始端tu’を始端tuとする。
)の時間位置から(iu’+ 20 ms )の時間
位置の範囲内で、上記エネルギーPwHが急変した時点
が検出された場合、その時点を始端tuとする。検出さ
れなかった場合、上記仮始端tu’を始端tuとする。
なお、
tv’)tu’であって、
かつ(tu′→−2oms)>tv’
である地合には、上記範囲’a’ (t u’ −5m
s )からtv’までとしている。
s )からtv’までとしている。
〔■〕有声始端tv。
上’=己仮始端tv’の近傍即ちtv′の時間位置から
(t V’ + 5ms )の時間位置の範囲内で、上
記エネルギPwLが急変した時点が検出された場合、そ
の時点′?、ン端tvとする。検出されなかった場合。
(t V’ + 5ms )の時間位置の範囲内で、上
記エネルギPwLが急変した時点が検出された場合、そ
の時点′?、ン端tvとする。検出されなかった場合。
上記仮始端tv/を始端tvとする。
上記の如く、夫々の始端tu、tvが抽出されるが、上
述にいりエネルギの急変叫点は次のように抽出されると
塙えてよい。即ち、始端tu油抽出場合、上記エネルギ
PwHに対して3msの時間幅をもつ2つの観測窓を例
えば、連結して時間Q、5ms間隔のサンプル点をとる
ように走査してゆく。そして第1の観測窓でのエネルギ
Pwlと泥2の観測窓でのエネルギPW2とについて、 w 1 な計算し、その値が閾値3.0を超えるとき、当該例え
は連結位置に対応する時間位置において急変が生じてい
るとみなすようにする、また、始端tv抽出の場合、上
記エネルギPwLに対して3msの時間幅をもつ2つの
観測窓を連結して時間0.5ms間隔のサンプル点をと
るよう走査してゆ(。
述にいりエネルギの急変叫点は次のように抽出されると
塙えてよい。即ち、始端tu油抽出場合、上記エネルギ
PwHに対して3msの時間幅をもつ2つの観測窓を例
えば、連結して時間Q、5ms間隔のサンプル点をとる
ように走査してゆく。そして第1の観測窓でのエネルギ
Pwlと泥2の観測窓でのエネルギPW2とについて、 w 1 な計算し、その値が閾値3.0を超えるとき、当該例え
は連結位置に対応する時間位置において急変が生じてい
るとみなすようにする、また、始端tv抽出の場合、上
記エネルギPwLに対して3msの時間幅をもつ2つの
観測窓を連結して時間0.5ms間隔のサンプル点をと
るよう走査してゆ(。
そして、上記笑(4)式に対応するDPWの値が閾値2
0を超えるとき、当該連結位置に対応する時間位置にお
いて急変が生じているとみなすようにする。
0を超えるとき、当該連結位置に対応する時間位置にお
いて急変が生じているとみなすようにする。
このようにして有声始端tv(1及び無声始端tu。
を正確に決定する。
これを各候補に行うことによりそれらの候補におけ名有
声始端tvO及び無声始端t u oが得られ、これら
が差検出部9に出力される。そして差検出部では、t
u Oj V oをtuoとtvOのどちらが先である
かということを示すための極性を付与して(例えば有声
始端を第1項として計算)判別部11に送出する。
声始端tvO及び無声始端t u oが得られ、これら
が差検出部9に出力される。そして差検出部では、t
u Oj V oをtuoとtvOのどちらが先である
かということを示すための極性を付与して(例えば有声
始端を第1項として計算)判別部11に送出する。
ところで有声無声始端情報格納部1oVCは、候補が[
paJ 7 「bajの場合は、/1u−tv/の間隔
の賑j値はTpbまた候補が[kaJ −rgaJの場
合は、/ t u −t v/の間隔/′)閾値はT
kgというように、候補ペアの組合せにより定められる
閾値が格納されている。そしてこれが最初の照合により
選択された候補の組合せにより出力され、判別部11に
送出さ」する。そして判別部11ではこれらの情報にも
とづきそのしJ値よりも大きい烏合に再照合としての認
識を行う。すなわち、有声子音部始端が無声子音部始端
1つも予め候補の糺み合せに応じて定められた閾値より
も軸の烏合は有声子音と判定し、また無声子音部始端が
有声子音部始端よりも予め候補の組み合せに応じて定め
られた閾値より前の場合には無声子音と判定する。そし
てその他の場合は再照合候補順位を変更しない。
paJ 7 「bajの場合は、/1u−tv/の間隔
の賑j値はTpbまた候補が[kaJ −rgaJの場
合は、/ t u −t v/の間隔/′)閾値はT
kgというように、候補ペアの組合せにより定められる
閾値が格納されている。そしてこれが最初の照合により
選択された候補の組合せにより出力され、判別部11に
送出さ」する。そして判別部11ではこれらの情報にも
とづきそのしJ値よりも大きい烏合に再照合としての認
識を行う。すなわち、有声子音部始端が無声子音部始端
1つも予め候補の糺み合せに応じて定められた閾値より
も軸の烏合は有声子音と判定し、また無声子音部始端が
有声子音部始端よりも予め候補の組み合せに応じて定め
られた閾値より前の場合には無声子音と判定する。そし
てその他の場合は再照合候補順位を変更しない。
本発明では初めの照合により無声子音節と有声子音節が
候補として選択されたとき、上記の如くしてこれt再照
合することによりいずれであるかを正確に認識させるこ
とができる。したからて音声認識の精度を非常に向上さ
せることができる。
候補として選択されたとき、上記の如くしてこれt再照
合することによりいずれであるかを正確に認識させるこ
とができる。したからて音声認識の精度を非常に向上さ
せることができる。
第1図は音声認識システム説明図、第2図及び第3図は
音声波形へ性図、第4図は本発明の一実施例構成図であ
る。 図中、1は低域フィルタ、2は中高域フィルタ、3.4
はパワー計算部、5,6は閾値決定部、7゜8は始端検
出部、9は差検出部、10は有声無声始端情報格納部、
11は判別部である。 特許出島、人 富士通株式会社 代理人弁理士 山 谷 晧 榮
音声波形へ性図、第4図は本発明の一実施例構成図であ
る。 図中、1は低域フィルタ、2は中高域フィルタ、3.4
はパワー計算部、5,6は閾値決定部、7゜8は始端検
出部、9は差検出部、10は有声無声始端情報格納部、
11は判別部である。 特許出島、人 富士通株式会社 代理人弁理士 山 谷 晧 榮
Claims (1)
- 予め登録された単音節音声と未知入力単音節音声とを照
合して得られた複数の再照合候補を選出し、該再照合候
補に適した識別照合方式によシ再照合する音声認識装置
において、中高域フィルタと低域フィルタを備え各フィ
ルタ出力につい1他のフィルタ出力及び仮の閾値を越え
る時点に応じて変化する閾値をそれぞれ有し、中高域フ
ィルタ出力、低域フィルタ出力がそれぞれの閾値を越え
る時点をそれぞれ有声子音部始端、無声子音部始端とす
る始端検出手段と、有声子音部始端と無声子音部始端と
の距離情報が保持されるデータ保持手段と、判別手段を
設け、再照合候補が無声子音と有声子音の組み合せであ
る場合有声子音部始端が無声子音部始端よpも予め候補
の組み合せに応じて定められた閾値よりも前の場合は有
声子音と判定し、無声子音部始端が有声子音部始端より
も予め候補の組み合せに応じて定められた闇値よりも前
の場合は無声子音と判定し、その他の賜金は再照合候補
順位を変更しないことを特徴とする単音節音声認識方式
。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58056611A JPS59181397A (ja) | 1983-03-31 | 1983-03-31 | 単音節音声認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58056611A JPS59181397A (ja) | 1983-03-31 | 1983-03-31 | 単音節音声認識方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS59181397A true JPS59181397A (ja) | 1984-10-15 |
Family
ID=13032038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58056611A Pending JPS59181397A (ja) | 1983-03-31 | 1983-03-31 | 単音節音声認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59181397A (ja) |
-
1983
- 1983-03-31 JP JP58056611A patent/JPS59181397A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3955246B1 (en) | Voiceprint recognition method and device based on memory bottleneck feature | |
EP2482277B1 (en) | Method for identifying a speaker using formant equalization | |
Mohan | Speech recognition using MFCC and DTW | |
JPS62232691A (ja) | 音声認識装置 | |
Kadiri et al. | Speech polarity detection using strength of impulse-like excitation extracted from speech epochs | |
JPS59181397A (ja) | 単音節音声認識方式 | |
EP1489597B1 (en) | Vowel recognition device | |
JP3091537B2 (ja) | 音声パターン作成方法 | |
Thirumuru et al. | Application of non-negative frequency-weighted energy operator for vowel region detection | |
JPS58108590A (ja) | 音声認識装置 | |
Niederjohn et al. | Computer recognition of the continuant phonemes in connected English speech | |
Ostrogonac et al. | Extraction of glottal features for speaker recognition | |
JPS59181396A (ja) | 再照合音声認識方式 | |
JPS59176799A (ja) | 単音節音声再照合方式 | |
JPS63213899A (ja) | 話者照合方式 | |
Mohapatra et al. | A theoretical Justification for coincidence of wavelet maxima at a particular scale pair in an Event-based pitch detection method | |
JPS59176800A (ja) | 再照合単音節音声認識方式 | |
Khaing et al. | Automatic speech segmentation for myanmar language | |
JPS6069694A (ja) | 語頭子音のセグメンテ−ション法 | |
JPH03145167A (ja) | 音声認識方式 | |
JPS59223498A (ja) | 音素判別法 | |
Zahorian et al. | Dynamic spectral shape features for speaker-independent automatic recognition of stop consonants | |
JPS58217997A (ja) | 子音識別方式 | |
JPS59181395A (ja) | 無声破擦音再照合認識方式 | |
Wang et al. | Classification of Mandarin consonants based on wavelet transforms |