JPS59176800A - 再照合単音節音声認識方式 - Google Patents

再照合単音節音声認識方式

Info

Publication number
JPS59176800A
JPS59176800A JP58051997A JP5199783A JPS59176800A JP S59176800 A JPS59176800 A JP S59176800A JP 58051997 A JP58051997 A JP 58051997A JP 5199783 A JP5199783 A JP 5199783A JP S59176800 A JPS59176800 A JP S59176800A
Authority
JP
Japan
Prior art keywords
mid
voiced
energy
high range
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58051997A
Other languages
English (en)
Inventor
教幸 藤本
佐藤 泰雄
大山 隆之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP58051997A priority Critical patent/JPS59176800A/ja
Publication of JPS59176800A publication Critical patent/JPS59176800A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は音声認識装置において、初めに選択された候補
が「da jと「za」のように、有声破裂音/d/と
有声摩擦音/ Z ’/の場合にお(゛て、これらを正
確に識別できるようにした再照合単音節音声認識方式に
関する。
〔従来技術と問題点〕
音P認識を行う場合、第1図に示す如(未知の音声入力
を例えはFFTや帯域フィルタ等の適宜手段によシ周波
数分析し、これらのパラメータ抽出して未知音声入力の
%徴を求め、これを辞書に格納されているすべての既知
の音声の特徴パラメータとDP照合を行い、その特徴の
もつとも類似し℃いるものを単数または複数認識結果と
して出力している。この場合、DP照合を行う場合、ど
んな音節に対しても同じ形でvP照合をしている。
ところが単音節のDP照合を行うとき、/k a/と/
ga/、/sa/と/l a/l/pa/と/ t a
 / 、 7m a /と/na/というように、相互
に特徴の似ているものが存在するため、単音節の音声認
識においては、DP方式という1律の手法のみでは必ず
しも完全に認識できないことかある。したかつてこのよ
う万場合では、初めに抽出された候補に応じた再照合を
行って正確な誌言;kを行うことが心太となる。
〔発明の目的〕
本発明の目的は、最初の照合によシ抽出された候補が「
da」と「za」のように音声破裂音/d/と有声摩擦
音/Z/の場合に、これ力・有声破裂音であるか有声摩
擦音であるかを正確に認識できるようにした再照合単音
節音声認識方式を提供することである。
〔発明の構成〕
この目的を達成するために本発明の再照合単音節音声認
識方式では、予め登録された単音節音声と未知入力単音
節音声とを照合しc;4H,られfc 値数の再照合候
補を選出し、該再照合候補に適した識別照合方式によシ
再照合する音声認識装置において、入力音声の中高域成
分を抽出する中高域成分抽出手段と、この中高域成分の
パワー計算部する中高域パワー裏山手段と、入力音声の
始端を抽出する始端抽出手段と、変化量の最大点を検出
する変化量最大点検出手段と判I定手段を設け、この利
足手段に2種の閾値を設定し、再照合候補が有声破裂音
/d/と有声摩擦音/Z/の場合において上記変化量の
最大値が予め定められた2種の閾値のうち太々る閾値を
、越える場合/d/と判定し、小なる閾値を越えない場
合は/z/と判定し、その他の場合は再照合候補順位を
変更しないことを特徴とする。
〔発明の概略〕
本発明を一実施にもとづき詳述するに先立ち、本発明の
詳細な説明する。
まず再照合に除して、入力音声を例えば中高域フィルタ
により中高域成分を抽出する。別に入力音声の始端を検
出し、この始端より中高域フィルタの出力の電力の変化
量を検出する。この電力の変化量の検出に際しては、互
に隣接、または−足区間長離れている2つの分析窓を設
け、これらの分析窓内のスペクトルの中高域電力の変化
量を奥出し、その最大値を求める。別に判定部を設けて
おき、この判定部に2つの閾値H1、Lを設け、H〉L
とする。そして上記最大値がHよシ大きいときはこれを
有声破裂音/d/と判定し、Lよシ小さいときは有声摩
擦音/Z/と判定する。そしてその他の場合には再照合
候補を変更しない。
〔発明の実施例〕
本発明の一実施例を第2図及び第3図にもとづき説明す
る。
第2図は本発明の一実施例構成図、第31ン1はその変
化量検出部の詳細図である。
図中、1は周波数スペクトル分析部であって例えば10
00〜4900Hzの帯域フィルタ、2は中高域パワー
計算部であつ1周波数スペクトル分析部lから出力され
た中高域成分のパワーを算出するもの、3は変化量検出
部であって第3図の如(分析窓13 A 、 13 B
を有し、この分析窓13A。
13B内のパワー比を求めるもの、4はパワー計算部で
あって入力音声のパワーを計算するもの。
5は変化量探索範囲検出部であって音声始端を検出する
もの、6は変化量最大値検出部であって変化量検出部3
かも送出された変化量のうち最大値PMを検出するもの
、7は変化量最大値検出部であって有声破裂用閾値設定
レジスタ8に設定された閾値H及び有声摩擦用閾値設定
レジスタ9に設定された閾値しとこの最大値PMを比軟
するものである。ここで閾値H〉閾値りであシ、上記最
大値PMがPM〉Hのときこれを有声破裂音と判足し、
PM(Lのとき有声摩擦音と判定し、その他の場合には
無判定とする。
次に第3図によシ第2図に示す変化量パワー計算部3を
詳述する。
第3図において、11は入力音声エネルギの時系列情報
を格納しているメモリ、12はエネルキ差相対値の時系
列情報を格納するメモIJ 、 13A。
13Bは夫々分析窓、14A、14Bは夫々パワー計算
部、15はエネルギ差相対値計算都を表わしている。
上記分析窓13A、13Bは夫々、第3図(ロ)におい
てLFS 、LFSとして示す如き時間幅の観測窓をも
ち他の部分をマスクするものであp、パワー計算部14
A、14Bは夫々上記分析窓13A。
13Bによって観測される範囲内の入力音声のエネルギ
を計算する。該エネルギとは、パワーないし帯域電力の
如き語で表現されるものと同じであると考え又よい。第
3図図示の場合、分析窓13Aにおいて観測されたエネ
ルギをP W 1とし、分析窓1’3Bにおいて観測さ
れたエネルギをP W 2としておp、該2つの分析窓
13Aと13Bとの間に時間間隔LDをへたてた状態の
下で、入力音声エネルギの時系列情報1を走査するもの
として示し℃いる。万お、上記時間間隔LDは値が零、
即ち2つの分析窓13Aと13、Bとが接触していても
よい。
上記走査が行われつつある間に、第3図(イ)における
相対値計算部15は、上記夫々のエネルギPW1とPW
2との差がエネルギPW1(又はPW2>に対してどの
程度の値をとるかを計算する。即ち、エネルギ差相対値
をDとするとき、D=(PW2−PWI )/PWI 又は D=(PW2−pwi )/PW2で塙えられる
1直を計算し、エネルギ差相対値の時系列情報をメモリ
12内に得るようにされる。
上記走査は子音の先端部に対応して行われ、第3図(イ
)の如くメモリ12内に時系列情報が抽出される。この
操作を変化量探索範囲検出部5によシ検出された音声始
端よシ遂行する。
このようにして抽出されたエネルギ差相対値りがエネル
ギ変化量であシ、第2図の変化量最大値検出部6はこの
メモリ12に保持されたエネルギ差相対値りの最大値を
検出することによシ、これを変化量最大値PMとして抽
出する。そし℃このPMを変化量最大値判定部7に送出
される。変化量最大値判定部7には、有声破裂用闇値設
定レジスタ8よ多閾値Hが伝達され、また有声摩擦用閾
値設定レジスタ9よ多閾値りが伝達されており、上記変
化量最大値PMがこれらと比較される。その結果PM)
Hならばこれを有声破裂音と認識し、PM≦Lならばこ
れを有声摩擦音と認識する。そし、−(H)PM)Lの
場合には無判定とし、このときには再照合候補順位を変
化しない。
なお上記説明では音声始端の検出に、パワー計算部4の
出力がある値を超えた点を変化量探索範囲検出部5で検
出し、これを音声始端としていたが、この音声始端の検
出手段とし壬、例えは第4図に示す如き回路を使用して
有声始端、無声始端を正確に検出し、これらの一方、例
えは有声始端を音声始端とし1使用することもできる。
次に第4図にりい又説明する。
第4図において、21は低域フィルタであって例えば5
0Hzないし350Hzの周波数成分をパスするもの、
22は中高域フィルタであって例えば11G−lzない
し4.9K)′Izの周波数成分をパスするもの、23
.24は夫々パワー計算部であって夫々抽出されてきた
周波数成分についてエネルギを計り4するもの、25.
26は夫々閾値決定部、27゜28は夫々始端検出部で
あって本発明に(°う仮始端を検出するものを表わして
いる。
フィルタ21を通過した低域成分についてパワー計算部
23においてエネルギPwLが計算され、またフィルタ
22を通過した中高域成分についてパワー計算部24に
おいてエネルギPwHが計算される。
有声始端検出部27は、基本的には、上記エネルギPw
Lが予め定めた閾値を越えるとぎ、有声子音についての
仮始端tv’を抽出するものである。しかし、本来のエ
ネルギPwLは十分小さくても、中高域成分エネルギP
wHが大きい場合に、漏洩が生じていて、パワー計算部
23の見掛は上のエネルギが上記閾値よシも太き(なる
ことが生じる。このために、閾値決定部2石においては
、上記エネルギPwHO値を導入して閾値を決定するよ
う構成されている。また閾値決定部26においても、同
様であp、上記エネルギPwLO値を縛大して閾値を決
定するようにしている。
上記始端検出部27.28における仮始端tv ’。
tu’の抽出は次のように行われる。
(I)無声始端検出部28における処理。
上記エネルギPwHに対して例えばlQmsの時間幅を
もつ観測窓を例えば時間2 ms間隔のサンプル点をと
るよう走査してゆく。そして成る時間位置での観測窓内
のエネルギが閾値 THu = 3.0 +0.1 X PwL −(11
を超えるとき、無声子音についての仮始端tu’を抽出
する。
(10有声始端検出部27における処理。
上記エネルギPwLに対して例えば5 msの時間幅を
もつ観測窓を例えば時間2mS間隔のサンプル点をとる
よう走査し1ゆく。そして(1)成る時間位置での観測
窓内のエネルギが閾値 THL1= 0.5         □ (21を超
えた場合か、(11)該第(2)式によって得られた仮
始端t■′が仮始端tu’よシも遅れている場合には上
記成る時間位置での観測窓内のエネルギが閾値THL2
 = 1.0.0 +0.5 X PwH’ −(3)
を超えた場合か、の(・すれかを砿つ℃−有声子音につ
いての仮始端t■′を抽出、する。
上記の如くして仮始端tu’とtv’とが得られるが、
始端tuやtvは、これら仮始端の近傍において次の如
き処理を行って抽出するようにされる。
〔匪無声始端tu0 上記仮始端tu’の近傍即ち(1u’5m5)の時間位
置から(tu’+20 ms )の時間位置の範囲内で
、上記エネルギPwHが急変した時点が検出された場合
、その時瀘を始端tuとする。検出されなかった場合、
上記仮始端tu’を始端tuとする。なお、tv’)t
u’であって、 かツ(tu’ +20 ms ) ) tv’である場
合には、上記範囲を(tu’−5m5)からtv’まで
としている。
〔ハリ有声始端tv0 上記仮始端tv’の近傍即ちtv’の時間位置から(t
v’−1−,5ms )の時間位置の範囲内で、上記エ
ネルギPwLが急変した時点が検出された場合、その時
点を始端tvとする。検出されなかった場合、上記仮始
端tv’を始端tvとする。
上記の如く、夫々の始端tu、 tvが抽出されるか、
上′述にいうエネルギの急変時点は次のように抽出され
ると考え℃よい。即ち、始端tu油抽出場合、上記エネ
ルギPwHに対しχ3 msの時間幅をもつ2つの観測
窓を例えは、連結して時間Q、 5 ms間隔のサンプ
ル点をとるよう走査してゆく。そして第1の観測窓での
エネルギPWIと第2の観測窓でのエネルギPW2とに
ついて、 を計算し、その値が1値3.0を超えるとき、的該例え
は連結位置に対応する時間位置において急変が生じてい
るとみなすようにする。また、始端1■抽出の場合、上
記エネルギPwLに対して3msの時間幅をもつ2つの
観測窓を連結して時間0.5 ms間隔のサンプル点を
とるよう走査してゆく。そして、上記第(4)式に対応
するDPWO値が閾値2.0を超えるとき、当該連結位
置に対応する時間位置において急変が生じているとみな
すようにする。
このようにして有声始端、無声始端を正確に求めること
ができるので、これらの一方、例えは有声始端を音声始
端として使用すれはよい。
本発明によシ実際に実験した結果を次に説明する。
(Al  ディジタルフィルタを使用して中高域領域を
抽出した例王照合の結果1位、2位の候補が/Z/と/
d/の組み合ぜになったもの。10人により実験した。
検出方法 ここでa(tn)はテイジタルフィルタの出力で、■ 
900〜3500H2 ■ 2000〜4900Hz 02種のフィルタを使用した例であシ、窓長はl Q 
ms、シフトはQ、 5 msで行い、サーチ範囲はt
u−tpmax とした。
その結果、閾値を足めたときの誤p数は、閾値 誤り数 ■ za−da   9  0(11 ze−de   7  1(11 zo−do   7  0(11 ■  za−da      7     4(51z
e −de      6     0 (01zo−
do      5     1(21ここで0内の数
字は先端無音部が短かいためののエラーを含むものであ
る。
(Bl  線形予測法−(LPC)による中高域スペク
トル抽出の例 これも10人によシ実験した例であp、(Nと同様の候
補の組合せによる。
検出方法 a(tn) =Σ 5p(fi、tn)sω(fi)−
0 ここで 5p(fi、tr)       LPCスヘ
クトルω        周波数ウェイト fi=25・i     Hz 窓長200.シフトlO サーチ範囲は先端より 200 msである。ここで周
波数ウェイトωは、600Hzのときω(fl = 0
5000Hzのときω(f)=1とし、600〜900
の内は直線的に変化するものとした。
その結果、閾値を定め識別したときの誤の数は、次の通
シである。
閾 値  ■数 za−’cLa 、 700 2(51ze −de 
 400 4 (71 zo−do  700 0(51 またペアマツチに関係するものに限るとし、閾値600
〜1600としたとき1次のようになった。
za −da          O(11ze −d
e          l (11zo−do  、 
       0(11ここで(11”lの数字は先端
無音部が短かいためのエラーを含むものである。
〔発明の効果〕
いままでは識別が困難な/Z/と/d/の認識を、最初
の候補がこの組合せのときに本発明の方式により再照合
することによシ、これを明確に識別することが可能と々
る。
【図面の簡単な説明】
第1図は音声認識シスデム説明図、第2図は本発明の一
実施例構成図、第3図はその変化量検出部の詳細図、第
4図は始端検出手段の1例である。 図中、1は周波数スペクトル分析部、2は中高域パワー
計算部、3は変化量検出部、4はパワー計算部、5は変
化量最大値検出部、6は変化量最大値検出部、7は変化
音最大値判定部、8は有声破裂用閾値設定レジスタ、9
は有声摩擦用閾値設定レジスタ、11は入力音声エネル
ギの時系列情報を格納しているメモIJ、12はエネル
ギ差相対値の時系列情報を格納するメモリ、13A、1
3Bは分析窓、14A、14Bはパワー計算部、15は
エネルギ差相対値計算部、21は低域フィルタ、22は
中高域フィルタ、23.24はパワー4−Ht部、25
.26は閾値決定部、27.28は始端検出部を表わす
。 fzI¥1 +       5 (0) FWI     FW2

Claims (1)

    【特許請求の範囲】
  1. 予め登録された単音節音声と未知入力単音節音声とを照
    合して得られた複数の再照合候補を選出し、該再照合候
    補に適した識別照合方式によシ再照合する音声認識装置
    にお(・て、入力音声の中高域成分を抽出する中高域成
    分抽出手段と、この中高域成分のパワーを算出する中高
    域パワー算出手段と、入力音声の始端を抽出する始端抽
    出手段と、変化量の最大点を検出する変化量最大点検出
    手段と判定手段を設け、この判定手段に2種の閾値を設
    定し、再照合候補か有声破裂音/d/と有声摩擦音/Z
    /の場合において上記変化量の最大値が予め定められた
    2種の閾値のうち大なる閾値を越える場合/d/と判定
    し、小なる敵値を越え々い場合は/Z/と判定し、その
    他の場合は拘照合候補順位を変更しないことを特徴とす
    る再照合単音節音声認識方式。
JP58051997A 1983-03-28 1983-03-28 再照合単音節音声認識方式 Pending JPS59176800A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58051997A JPS59176800A (ja) 1983-03-28 1983-03-28 再照合単音節音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58051997A JPS59176800A (ja) 1983-03-28 1983-03-28 再照合単音節音声認識方式

Publications (1)

Publication Number Publication Date
JPS59176800A true JPS59176800A (ja) 1984-10-06

Family

ID=12902483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58051997A Pending JPS59176800A (ja) 1983-03-28 1983-03-28 再照合単音節音声認識方式

Country Status (1)

Country Link
JP (1) JPS59176800A (ja)

Similar Documents

Publication Publication Date Title
EP3955246B1 (en) Voiceprint recognition method and device based on memory bottleneck feature
Ying et al. A probabilistic approach to AMDF pitch detection
Olive Automatic Formant Tracking by a Newton‐Raphson Technique
JP2018180334A (ja) 感情認識装置、方法およびプログラム
Srinivas et al. Combining phase-based features for replay spoof detection system
Grieder et al. Speech segmentation by variance fractal dimension
JPS59176800A (ja) 再照合単音節音声認識方式
Pálfy et al. Pattern search in dysfluent speech
Natarajan et al. Segmentation of continuous Tamil speech into syllable like units
Kelly et al. The effects of windowing on the calculation of MFCCS for different types of speech sounds
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
Narendra et al. Performance comparison of multitaper techniques for speaker verification with expressive speech
JPS59181396A (ja) 再照合音声認識方式
JPS59181395A (ja) 無声破擦音再照合認識方式
JPS59176799A (ja) 単音節音声再照合方式
Mermelstein Recognition of monosyllabic words in continuous sentences using composite word templates
Jain et al. Vowel Onset Point Detection in Hindi Language Using Long Short-Term Memory
Milacic et al. Biologically inspired features used for robust phoneme recognition
JPS59181397A (ja) 単音節音声認識方式
Abdelkader et al. Verification and identification of the speech signal using algebraic analysis and DWT
JPS619698A (ja) 音声メツセ−ジ識別方式
JPS6068000A (ja) ピッチ抽出装置
Khaing et al. Automatic speech segmentation for myanmar language
Zbancioc et al. Integrated system for prosodic features detection from speech