JPS59181397A

JPS59181397A - 単音節音声認識方式

Info

Publication number: JPS59181397A
Application number: JP58056611A
Authority: JP
Inventors: 佐藤　泰雄; 大山　隆之
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-03-31
Filing date: 1983-03-31
Publication date: 1984-10-15

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は音声認識装置において、初めに抽出された候補
が、例えばカ行とガ行、す行とザ行、ｒｔｓｉＪとｒｄ
ｚｉＪ、「ｔｓｕＪとｒｄｚｕＪというような無声子音
部をもつ単音節と有声子音部なもつ単音節との組合せの
場合において、無声子音か有声子音かを正確に識別でき
るようにした単音節音声認識方式に関する。

〔従来技術と問題点〕

音声認識を行う場合、第１図に示す如（未知の音声入力
を例えばＦＦＴや帯域フィルタ等の適宜手段により周波
数分析し、これらのパラメータ抽出して未知音声入力の
特徴を求め、これｔ辞書に格納されているすべての既知
の音声の％徴パラメータとＤＰ照合を行い、その特徴の
もっとも類似しているものを単数または複数認識結果と
して出力している。この場合、ＤＰ照合を行う場合、ど
んな音節に対しても同じ形でＤＰ照合をしている。

ところが単音節のＤＰ照合を行うとき、／　ｋ　ａ／と
／ｇａ／、／　ｓ　ａ　／と／　ｔ　ａ　／、／ｐ　ａ
／と／　ｔ　ａ　／、／ｍａ／と／ｎａ／というように
、相互に特徴の似ているものが存在するため、単音節の
音声認識においてはＤＰ方式という１律の手法のみでは
必らずしも完全に認識できプよいことがある。したがっ
てこのような場合では、初めに抽出された候補に応じた
再照合を行って正確な認識を行うことが必要となる。

〔発明の目的〕

本発明の目的は最初の照合により抽出された候補が、例
えば／ｂ／−／ｐ／（バ行とバ行、以下同様に表示する
）、／ｄ／−／ｌ／、／ｇ／−／に／、／ｓ／−／Ｚ／
、／ｄＺ／−／ｌＳ／等の如く、有声子音をもつ単音節
と無声子音をもつ単音節の組み合せである場合、これが
有声子音をもっ認識できるようにした単音節音声認識方
式を提供することである。

〔発明の構成〕

この目的を達成するために本発明の単音節音声認識方式
では、予め登録された単音節音声と未知入力単音節音声
とを照合して得られた＆数の再照合候補を選出し、ｉ再
照合候補に適した識別照合方式により再照合する音声認
識装置において、中高域フィルタと低域フィルタを備え
各フィルタ出力について他のフィルタ出力及び仮の閾値
を越える時点に応じて変化する闇値をそれぞれ有し、中
高域フィルタ出力、低域フィルタ出力がそれぞれの閾値
な越える時点をそれぞれ有声子音部始端、無声子音部始
端とする始端検出手段と、有声子音部始端と無声子音部
始端との距離情報が保持されるデータ保持手段と、判別
手段を設け、再照合候補が無声子音と有声子音の組合せ
である場合有声子音部始端か無声子音部始端よりも予め
候補の組み合せに応じて定められた閾値よりも前の場合
は有声子音と判定し、無声子音部始總が有声子音部始端
よりも予め候補の組み合せに応じて定められた閾値より
も罰の場合は無声子音と判定し、その他の場合は杓照合
候補順位を変更しないことを特徴とする。

〔発明の概略〕

本発明な一実施例にもとつき詳述するに先立ち、第２図
、第３図によりその概略な散−りづする。無、声子省節
は例えば第、２図（イ）に示す音声波形を有する。

この第２図（イ）は「ｋａ」の１例である。この棒２図
（イ）の音声波形な、例えば５０〜３５０Ｈｚの低域フ
ィルタにより帯域通過させれば第２図仲）Ｖｃ示ず波形
が得られ、また（イ）を例えば１０００〜４９００Ｈｚ
の中高域フィルタで帯域抽出すれば（ハ）の状態となる
。

そして第２図（ロ）より有声始端がｔｖであり、（／→
より無声始端がｔｕであることが判断でき、しかもｔｕ
がｔｖより前に存在することがわかる、このように無声
子音節ではｔｕがｔｖより前に位置している。

ところで有声子音節は、第３図（イ）に示す音声波形を
有する。この第３図（イ）はｉ−ｇａＪの１例である。

俗の第３図（イ）を同様に低域フィルタにより帯域通過
させれば、図（ロ）の波形が伎られ、中高域フィルタで
も・域抽出すれば（ハ）の状態となる。そして第３図（
ロ）、（ハ）より明らかなように有声子音節では有声子
始端ｔｖが無声子始端ｔｕより前に位置している。

したがって有声子音節と無声子音節とが最初候補として
逆捩さ尼たとき、このような手法で有声子音節か無声子
音節か獣面９できることになる。

〔発明の実施例〕

本発明の一実施例を第４図にもとづき低重を参照しつつ
説明する。

図中、１は低域フィルタであって例えば５０ＨｚないＬ
３５０Ｈｚの周波数成分をパスするもの、２は中高域フ
ィルタであって例えばＩＫＨｚないし４９ＫＥｔｚの周
波数成分をバスするもの、３，４は夫々パワー計算部で
あって夫々抽出されてきた周波数成分についてエネルギ
な計算するもの、５，６は夫々閾値決定部、７，８は夫
々始端検出部であって本発明にいう仮始端な検出するも
のを表わしている。９は差検出部であって無声始端ｔｕ
と有声始端ｔｖとの差（時間差）を検出するもの、１０
は有声子音節と無声子音節のペアｖｃｉり法定される無
声始端と有声始端間の差の閾値が格納されるもの、１１
は判定部であって有声子音節が無声子音節かを判別する
ものである。

まず、無声始端ｔｕ及び有声始端ｔｖを正確に求める手
法について説明する。

フィルタ１を通過した低域成分についてパワー計算部３
においてエネルギＰｗＬが計算され、またフィルタ２を
通過した中高域成分についてパワー計算部４においてエ
ネルギＰｗＨが計算される。

有声始端検出部７は、基本的には、上記エネルギＰｗＬ
が予め定めた閾値な超えるとき、有声子音についての仮
始端ｔｖ’を抽出するものである。しかし、本来のエネ
ルギＰｗＬは十分小さくでも、中高域成分エネルギＰｗ
Ｈが大きい場合に、漏洩が生じていて、パワー計算部３
の見掛は上のエネルギが上記閾値よりも太き（なること
が生じる。このために、閾値決定部５においては、上記
エネルギＰｗＨＯ値を導入して閾値を決定するよう構成
されている。また閾値決定部６においても、同様であり
、上記エネルギＰｗＬの値ヲ導入して閾値を決定するよ
うにしている。

上記始端検出部７，８における仮始端ｔｖ’、ｔｕ’の
抽出は次のように行われる。

〔■〕無声始端検出部８における処理。

上記エネルギＰ菟Ｈに対してＩＱｍｓの時間幅をもつ観
測窓を時間２ｍｓ間隔のサンプル点をとるよう走査して
ゆく。そして成る時間位置での観測窓内のエネルギが閾
値ＴＨｕ　＝　３．０　＋　０．　Ｉ　Ｘ　ＰｗＬ　−（
１）を超えるとぎ、無声子音についての仮始端ｔｕ’を
抽出する。

［Ｉｌ、ｌ］有声始端検出部７における処理。

上記エネルギＰｗＬに対して５ｍｓの時間幅をもつ観測
窓を時間２ｍｓ間隔のサンプル点ケとるよう走査してゆ
く、。そして（１）成る時間位置での観測窓内のエネル
ギが閾値ＴＨＬ　ｔ　＝　０．５　　　　　　　　　　　（２）
を超えた場合か、（１１）該第（２）式によって得られ
た仮始端ｔｖ’が仮始端ｔｕ／よりも遅れている場合に
は上記酸る時間位置での観測窓内のエネルギが閾値ＴＨＬ　２　＝　１　０．０　＋　０．５　Ｘ　ＰｗＨ
−（３）を超えた場合か、のいずれかケもって有声子音
についての仮始端ｔｖ’を抽出する。

上記の如くして仮始端ｔｕ’とｔｖ’とが得られるが、
始端ｔｕやｔｖは、これら仮始端の近傍において次の如
き処理を行って抽出するようにされる。

〔■〕無声始端ｔｕ。

上記仮始端ｔｕ’の近傍Ｒρち（ｔ　ｕ’　＝　５ｍｓ
　）の時間位置から（ｉｕ’＋　２０　ｍｓ　）の時間
位置の範囲内で、上記エネルギーＰｗＨが急変した時点
が検出された場合、その時点を始端ｔｕとする。検出さ
れなかった場合、上記仮始端ｔｕ’を始端ｔｕとする。

なお、ｔｖ’）ｔｕ’であって、かつ（ｔｕ′→−２ｏｍｓ）＞ｔｖ’ である地合には、上記範囲’ａ’　（ｔ　ｕ’　−５ｍ
ｓ　）からｔｖ’までとしている。

〔■〕有声始端ｔｖ。

上’＝己仮始端ｔｖ’の近傍即ちｔｖ′の時間位置から
（ｔ　Ｖ’　＋　５ｍｓ　）の時間位置の範囲内で、上
記エネルギＰｗＬが急変した時点が検出された場合、そ
の時点′？、ン端ｔｖとする。検出されなかった場合。

上記仮始端ｔｖ／を始端ｔｖとする。

上記の如く、夫々の始端ｔｕ、ｔｖが抽出されるが、上
述にいりエネルギの急変叫点は次のように抽出されると
塙えてよい。即ち、始端ｔｕ油抽出場合、上記エネルギ
ＰｗＨに対して３ｍｓの時間幅をもつ２つの観測窓を例
えば、連結して時間Ｑ、５ｍｓ間隔のサンプル点をとる
ように走査してゆく。そして第１の観測窓でのエネルギ
Ｐｗｌと泥２の観測窓でのエネルギＰＷ２とについて、　ｗ　１な計算し、その値が閾値３．０を超えるとき、当該例え
は連結位置に対応する時間位置において急変が生じてい
るとみなすようにする、また、始端ｔｖ抽出の場合、上
記エネルギＰｗＬに対して３ｍｓの時間幅をもつ２つの
観測窓を連結して時間０．５ｍｓ間隔のサンプル点をと
るよう走査してゆ（。

そして、上記笑（４）式に対応するＤＰＷの値が閾値２
０を超えるとき、当該連結位置に対応する時間位置にお
いて急変が生じているとみなすようにする。

このようにして有声始端ｔｖ（１及び無声始端ｔｕ。

を正確に決定する。

これを各候補に行うことによりそれらの候補におけ名有
声始端ｔｖＯ及び無声始端ｔ　ｕ　ｏが得られ、これら
が差検出部９に出力される。そして差検出部では、ｔ　
ｕ　Ｏｊ　Ｖ　ｏをｔｕｏとｔｖＯのどちらが先である
かということを示すための極性を付与して（例えば有声
始端を第１項として計算）判別部１１に送出する。

ところで有声無声始端情報格納部１ｏＶＣは、候補が［
ｐａＪ　７　「ｂａｊの場合は、／１ｕ−ｔｖ／の間隔
の賑ｊ値はＴｐｂまた候補が［ｋａＪ　−ｒｇａＪの場
合は、／　ｔ　ｕ　−ｔ　ｖ／の間隔／′）閾値はＴ　
ｋｇというように、候補ペアの組合せにより定められる
閾値が格納されている。そしてこれが最初の照合により
選択された候補の組合せにより出力され、判別部１１に
送出さ」する。そして判別部１１ではこれらの情報にも
とづきそのしＪ値よりも大きい烏合に再照合としての認
識を行う。すなわち、有声子音部始端が無声子音部始端
１つも予め候補の糺み合せに応じて定められた閾値より
も軸の烏合は有声子音と判定し、また無声子音部始端が
有声子音部始端よりも予め候補の組み合せに応じて定め
られた閾値より前の場合には無声子音と判定する。そし
てその他の場合は再照合候補順位を変更しない。

〔発明の効果〕

本発明では初めの照合により無声子音節と有声子音節が
候補として選択されたとき、上記の如くしてこれｔ再照
合することによりいずれであるかを正確に認識させるこ
とができる。したからて音声認識の精度を非常に向上さ
せることができる。

【図面の簡単な説明】

第１図は音声認識システム説明図、第２図及び第３図は
音声波形へ性図、第４図は本発明の一実施例構成図であ
る。図中、１は低域フィルタ、２は中高域フィルタ、３．４
はパワー計算部、５，６は閾値決定部、７゜８は始端検
出部、９は差検出部、１０は有声無声始端情報格納部、
１１は判別部である。特許出島、人　　富士通株式会社代理人弁理士　　山　谷　晧　榮

Claims

【特許請求の範囲】

予め登録された単音節音声と未知入力単音節音声とを照
合して得られた複数の再照合候補を選出し、該再照合候
補に適した識別照合方式によシ再照合する音声認識装置
において、中高域フィルタと低域フィルタを備え各フィ
ルタ出力につい１他のフィルタ出力及び仮の閾値を越え
る時点に応じて変化する閾値をそれぞれ有し、中高域フ
ィルタ出力、低域フィルタ出力がそれぞれの閾値を越え
る時点をそれぞれ有声子音部始端、無声子音部始端とす
る始端検出手段と、有声子音部始端と無声子音部始端と
の距離情報が保持されるデータ保持手段と、判別手段を
設け、再照合候補が無声子音と有声子音の組み合せであ
る場合有声子音部始端が無声子音部始端よｐも予め候補
の組み合せに応じて定められた閾値よりも前の場合は有
声子音と判定し、無声子音部始端が有声子音部始端より
も予め候補の組み合せに応じて定められた闇値よりも前
の場合は無声子音と判定し、その他の賜金は再照合候補
順位を変更しないことを特徴とする単音節音声認識方式
。