JPS6069695A - 語頭子音のセグメンテ−ション法 - Google Patents

語頭子音のセグメンテ−ション法

Info

Publication number
JPS6069695A
JPS6069695A JP58178548A JP17854883A JPS6069695A JP S6069695 A JPS6069695 A JP S6069695A JP 58178548 A JP58178548 A JP 58178548A JP 17854883 A JP17854883 A JP 17854883A JP S6069695 A JPS6069695 A JP S6069695A
Authority
JP
Japan
Prior art keywords
word
frame
phoneme
reference frame
beginning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58178548A
Other languages
English (en)
Other versions
JPH026079B2 (ja
Inventor
昌克 星見
二矢田 勝行
郁夫 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58178548A priority Critical patent/JPS6069695A/ja
Publication of JPS6069695A publication Critical patent/JPS6069695A/ja
Publication of JPH026079B2 publication Critical patent/JPH026079B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、音声認識装置等に使用される語頭子音のセグ
メンテーション法に関するものである。
従来例の構成とその問題点 従来研究されあるいは発表されている音声認識システム
の動作原理としてはバタンマツチング法が多く採用され
ている。この方法は認識される必要がある全種類の単語
に対して標準パターンをあらかしめ記憶しておき、入力
される未知の入カッくターンと比較することによって一
致の度合(以下類似度と呼ぶ)を計算し、最大類似度が
得られる標準パターンと同一の単語であると判定するも
のである。このバタンマツチング法では認識されるべき
全ての単語に対して標準パターンを用意しなければなら
ないため、発声者が変わった場合には新しく標準パター
ンを入力して記憶させる必要がある。従って日本全国の
都市名のように数百種類以上の単語を認識対象とするよ
うな場合、全種類の単語を発声して登録するには膨大な
時間と労力を必要とし、又登録に要するメモリ容量も膨
大になることが予想される。さらに入カッくターンと標
準パターンのバタンマツチングに要する時間も咽語数が
多くなると長くなってしまう欠点がある。
これに対して、入力音声を音素単位に分けて音素の組合
せとして認識しく以下音素認識と呼ぶ)音素単位で表記
された単語辞書との類似度をめる方法は単語辞書に要す
るメモリ容量が大巾に少なくて済みバタンマツチングに
要する時間が短かくでき、辞書の内容変更も容易である
という特長を持っている。この方法の例は「音声スペク
トルの概略形とその動特性を利用した単語音声認識シス
テム」三輪他、日本音響学会誌34(1978)に述べ
である。
この方法における単語認識システムのブロック図を第1
図に示す。甘ず、あらかじめ多数話者の音声を10m5
の分析区間毎に音響分析部1によってフィルタを用いて
分析し、得られたスペクトル情報をもとに特徴抽出部2
によって特徴パラメータをめる。この特徴パラメータか
ら/a/。
10/等の母音や、/n/、/b/等の子音に代表され
る音素毎又は音素グループ毎に標準パターンを作成して
標準パターン登録部3に登録しておく。次に、入力され
た不特定話者の音声を、同様に分析区間毎に音響分析部
1によって分析し、特徴抽出部2によって特徴パラメー
タをめる。この特徴パラメータと標準パターン登録部3
の標準パターンを用いてセグメンテーション部4におい
てセグメンテーションを行なう。この結果をもと3の標
準パターンと照合することによって、最も類似度の高い
標準パターンに該当する音素をその区間における音素と
決定する。最後に、この結果作成1〜だ音素の時系列(
以下音素系列と呼ぶ)を単語認識部6に送り、同様に音
素系列で表現さハた単語辞書7と最も類似度の大きい項
目に該当する単語を認識結果として出力する。
次にセグメンテーション部4における語頭子音のセグメ
ンテーション法について述べる。
従来、語頭子音のセグメンテーション法としては、語頭
の有声子音のスペクトルが鼻音のスペクトルに類似して
いることを利用して、フレーム毎にq母音と鼻音で音素
認識を行ない擲音/N/の音素認識の結果の有無によっ
て判定していた。例えば、語頭の7m、/はフレーム毎
に音素認識を行なうと/NNNNAAAA/という音素
系列として現われることがしばしばあり、この中で/N
NNN/の部分を有声子音とすることにより、/m/と
/i/を区別する方法をとっていた。
また、語頭の短い無声P音の存在はスペクトルの傾きが
顕著に変動する現象を見つけることによって子音を区別
していた。例えば語頭の/pa/id/p/から/a/
へ移る部分でスペクトルの傾きが急激に変化することが
しばしばあるために、それを使って/p/と/&/を区
別する方法をとっていた。
しかし、上記方法では必ずしも子音の存在をとらえるこ
とが出来ず、しばしば語頭子音を見過ごしたり(以下子
音の脱落と呼ぶ)、語頭は母音で始まるけれど子音区間
とする誤り(以下子音の付加と呼ぶ)が多い。それは、
有声子音の中て/r/。
/b/、/d/等の子音は必ずしも鼻音性を示さないか
らである。まだ、/T)/、/l/等の持続時間の短い
無声子音は必ず17もスペクトルの傾きの顕著な時間変
化を現わすとは限らないからである。
発明の目的 本発明は上記欠点を解消するもので、語頭子音の脱落と
付加の少ない精度の良い語頭子音のセグメンテーション
法を提供することを目的とする。
発明の構成 本発明は上記目的を達成するもので語頭から最初に母音
スペクトルが時間的に安定して現われる71’−14−
Jlフレームとし、この基檗フレームのスペクトル・パ
ターンと語頭から基準フレームまでの各フレームのスペ
クトル・パターンとを比較することによって語頭子音の
セグメンテーションを精度良く行なうものである。
実施例の説明 本発明の語頭子音のセグメンテーション法の実施例を以
下に示す。
本実施例において、スペクトル・パターンの特徴を表わ
すパラメータとしてLPCケプストラム係数01〜Cn
(ただし、nは正の整数)を用いる。
母音スペクトルが時間的に安定して現われる基準フレー
ム(本実施例では1フレ一ムヲ10m5ecとする)の
選び方として、以下に述べる4つの方法を用いる。
まず、低域、高域パワー情報を使用する第1の基準アレ
ーン、検出法について述べる。
本実施例で低域パワーと高域パワーを併用するのは有声
子音は高域パワーに、無声子音は低域パワーに特徴が現
われやすいためである。
低域パワーは音声信号を低域の帯域フィルタに通しフレ
ーム毎にパワー値をめそれを平滑化して得る。又、高域
パワーは高域の帯域フィルタによって同様にして得る。
第2図には、低域−だは高域パワーの語頭における時間
的変化の例を示している。
語頭が主に破裂性の子音で始まる時、パワー値の時間的
変化をプロットすると第2図のaのようになる。これは
破裂性のためにパワーが急激に立」−がり、後続の母音
との渡りの部分においてaのように凹状になるからであ
る。
bはaのパワーの時間的変化の値を微分したものである
。P1〜P3はaの変曲点のフレーム番号を示している
。ここでは音声区間の始まるフレーム番号を1にしてい
る。ここで、a、bのようにPl、P3の微分値が正、
P2の微分値が負、かつP 3(rn (rnはフレー
ム番号を示すいき値)を謂足する時、(P3+a)フレ
ーム(本実施例では、母音の持続時間を考慮してa−3
フレームとした)を基準フレームとする。
次に、語頭における鼻音性を使用する第2の基準フレー
ム検出法について述べる。
本実施例の音素認識は、各フレーム毎に行なう。
フレーム毎の音素認識はLPCケプストラム係数を用い
て、あらかじめ用意しである各音素の標準パターンとの
比較によって行なう。標準パターンとしては5母音(/
a/、/i/、/u/、/e/、10/)、鼻音(/N
/で表わす)を用いた。
このようにして、各フレーム毎に類似度の最も大きい音
素(第1候補音素)をめる。フレーム毎の第1候補音素
をフレーム番号の順に並べた系列を第1候補音素時系列
とする。
上記第1候補音素時系列を語頭から11@に見た時、/
N/が連続してd1フレーム現われた時、語頭から(d
1+a)フレーム目を基準フレームとする。
例えば、/ma/をフレーム毎に音素認識した時、音素
認識結果が第3図のようになったとすると、/N/が5
フレーム連続しているので(S+a)フレーム目を基準
フレームとする。
次に、無声子音性を使用する第3の基準フレーム検出法
について述べる。
本実施例において無声子音性としては、フレーム毎の有
声、無声判定結果を用いる。語頭から無声判定がd2フ
レーム連続する時、語頭から(d2+a )フレーム目
を基準フレームとする。
最後に、第4の方法について述べる。
この方法は比較的持続時間の短かい子音を対象とするた
めに、基準フレームを語頭からd3フレーム目(本実施
例ではd3−7)と固定して決定する方法である。
本実施例は第1〜第4の基準フレーム検出法をこの順序
で適用し、基準フレームが検出された時には以降の方法
を適用しないようにしたものである。ただこれら第1〜
第4の基準フレーム検出法の上記順序に限定されるもの
でなく任意の順序で適用することも可能で、またそれぞ
れ単独に適用して本基準フレームがめれば良い。
このようにしてめられ基準フレームにと語頭から基準フ
レームまでのスペクトル・パターンを比較することによ
って語頭子音のセグメンテーションを行なう。
ある2フレ一ム間のスペクトル・パターンを比較する方
法として(1)式を用いる。
(1〉式において、Cz(i)は語頭からiフレーム目
におけるt番目のLPCケプトラム係数を表わしている
。同様にCz(i)はjフレーム目におけるt番目のL
PCケプストラム係数を表わしている。f(i、i)の
値が大きいほど2つのフレームのスペクトル・パターン
が異なっていることになる。
この(1)式を用いて基準フレームにと語頭から基準フ
レームまでの各フレームトt7)f (i 、 k )
(ただし、1≦i≦に−1)を計算し、最大値を1□8
の値があるいき値より大きいか小さいかによって:i?
r 114子音の有無を判定する。この方法で検出され
た場合、語頭子音区間としてはfci、k)の値の変化
が一番大きいフレームまでを子音区間とする。
第4図に例を示す。横軸は語頭のフレーム番号を1とし
た時の時間軸、縦軸はフレーム番号kを基準とした時の
f(i、k)(ただし1≦i≦に−1)の値を表わして
いる。図においてf (i 、k)の最大値fm6z 
= f (’ + k)の値が、いき値θよりも大きい
ため語頭子音を検出したことになり、語頭子音の区間と
してはf(i、k)の変化が最も大きいフレーム番号3
までとし、1〜3フレームまでを語頭子音区間としてセ
グメンテーションを行なう。
本実施例と従来法について、男性10名がそれぞれ21
2単語を発声したデータ(約2100単語)を用いて比
較を行なった。
表に従来の方法による語頭子音の検出率と本実施例の方
法を用いた語頭子音の検出率を示している。
表に示したように語順子音検出率が従来と比べて平均で
85%から96%へと向上している。
また、語頭は母音で始まるけれど誤って子音であると判
定する(子音付加)割合は従来例では24%であったが
、本実施例の方法では約20%へと減少している。
以下余白 発明の効果 以上のように本発明は、語順から最初に母音スペクトル
が時間的に安定して現われるアレーン、を基準フレーム
としてめ、この基準フレームのスペクトル・パターンと
、語順から基準フレームまでの各フレームのスペクトル
・パターンとを比較することによって語頭子音の検出と
セグメンテーションを行うことを特徴とする語頭子音の
セグメンテーション法を提供するもので、語頭子音検出
率及び母音に対する子音の付加率を著しく向上させるこ
とができ、精度の高い語頭子音のセグメンテーションが
行える利点を有する。
【図面の簡単な説明】
第1図は従来の音声認識システムのブロック図、第2図
は本発明の一実施例における語頭子音のセ、グメンテー
ション法のパワー情報による基準フレーム検出法を示す
図、第3図は本発明の同法の音素認識結果による基準フ
レーム検出法を示す図、第4図は本発明の同法の基準フ
レームのスペクトル・パターンと語頭から基準フレーム
までの各スクトル・パターンとの比較結果を示す図であ
る。 1・・・・音響分析部、2・・・・・・特徴抽出部、3
・・・・・・標準パターン登録部、4・・・・・・セグ
メンテーション部、5・・・・音素判別部、6・・・・
・・単語認識部、了・・・・・・単語辞書。 代理人の氏名 弁理士中 尾 敏 男 ほか1名第1図 簡頚a采 第2図 3図 (5十〇−フフレーム / 4図 I U 粘

Claims (1)

    【特許請求の範囲】
  1. 語頭から最初に母音スペクトルが時間的に安定して現わ
    れるフレームを基準フレームとし、この基準フレームの
    スペクトル・パターンと語頭から基準フレームまでの各
    フレームのスペクトル・バ頭子音のセグメンテーション
    法。
JP58178548A 1983-09-27 1983-09-27 語頭子音のセグメンテ−ション法 Granted JPS6069695A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58178548A JPS6069695A (ja) 1983-09-27 1983-09-27 語頭子音のセグメンテ−ション法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58178548A JPS6069695A (ja) 1983-09-27 1983-09-27 語頭子音のセグメンテ−ション法

Publications (2)

Publication Number Publication Date
JPS6069695A true JPS6069695A (ja) 1985-04-20
JPH026079B2 JPH026079B2 (ja) 1990-02-07

Family

ID=16050404

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58178548A Granted JPS6069695A (ja) 1983-09-27 1983-09-27 語頭子音のセグメンテ−ション法

Country Status (1)

Country Link
JP (1) JPS6069695A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6370899A (ja) * 1986-09-13 1988-03-31 シャープ株式会社 音声認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6370899A (ja) * 1986-09-13 1988-03-31 シャープ株式会社 音声認識装置
JPH0564800B2 (ja) * 1986-09-13 1993-09-16 Sharp Kk

Also Published As

Publication number Publication date
JPH026079B2 (ja) 1990-02-07

Similar Documents

Publication Publication Date Title
JPS6336676B2 (ja)
JPH02195400A (ja) 音声認識装置
JPS5972496A (ja) 単音識別装置
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JPS6069695A (ja) 語頭子音のセグメンテ−ション法
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
Seman et al. Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation
JPH026078B2 (ja)
JPH0114600B2 (ja)
Elghonemy et al. Speaker independent isolated Arabic word recognition system
Sowmya et al. Detection of Emotion cues from Tamil Speech signals
JPS6363919B2 (ja)
JPH0120440B2 (ja)
JPS63161499A (ja) 音声認識装置
JP2744622B2 (ja) 破裂子音識別方式
Vysotsky A speaker-independent discrete utterance recognition system, combining deterministic and probabilistic strategies
JPS63217399A (ja) 音声区間検出装置
Lee et al. Reference point alignment frequency warp method for speaker adaptation
JPS6136798A (ja) 音声セグメンテ−シヨン法
JPS6293000A (ja) 音声認識方法
JPS6363920B2 (ja)
JPS61180300A (ja) 音声認識装置
JPH0316039B2 (ja)
JPH03239299A (ja) 摩擦子音識別方式
JPH067353B2 (ja) 音声認識装置