JPS6068395A - 音素認識方法 - Google Patents

音素認識方法

Info

Publication number
JPS6068395A
JPS6068395A JP58177318A JP17731883A JPS6068395A JP S6068395 A JPS6068395 A JP S6068395A JP 58177318 A JP58177318 A JP 58177318A JP 17731883 A JP17731883 A JP 17731883A JP S6068395 A JPS6068395 A JP S6068395A
Authority
JP
Japan
Prior art keywords
phoneme
group
consonant
interval
voiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58177318A
Other languages
English (en)
Other versions
JPH042199B2 (ja
Inventor
二矢田 勝行
昌克 星見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58177318A priority Critical patent/JPS6068395A/ja
Priority to US06/616,836 priority patent/US4817159A/en
Publication of JPS6068395A publication Critical patent/JPS6068395A/ja
Publication of JPH042199B2 publication Critical patent/JPH042199B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音素認識を行なうことを特徴とする音声認識方
法における音素認識方法に関するものである。
従来例の構成とその問題点 近年、不特定話者、多数語を対象とする音声認識に対す
る研究開発が盛んになってきた。音素認識を行なうこと
を特徴とする音声認識方法は・アクセントの違いなどの
話者による変動を受けにくいこと・音声信号を音素系列
という少ない情報量でしかも言語学に対応した信号に変
換するため・37・−ミ・ 単語辞書の容量が少なくてもよいこと、単語辞書の内容
を容易に作成したり変更したりできることなど不特定話
者、多数語の認識には適した方法である。
この方法における重要なポイントは音素認識を正確に行
なうことである6特に子音のセグメンテーションおよび
認識が技術的に難しい問題点であるO 従来から個々の子音または子音グループとしての特徴を
明らかにする研究は数多く行なわれてきたが、音声信号
中から子音のセグメンテーションを行なって音素を特定
する、いわゆる自動認識に対する従来例は多ぐない。従
来例の代表的なものは、スペクトルのローカルピークを
特徴パラメータとして子音認識を行なう方法であり、こ
れは「音声スペクトルの概略形とその動特性を利用した
音声認識システム」三輪他、日本音響学会誌34(19
78)に述べである。しかし、この方法は子音認識率が
十分でない。ここでは、従来例として本出願人が先に出
願した技術を取りあげて特開昭GO−68395(2) 説明し その問題点を列挙する。
従来例では、音素のセグメンテーションのために、次の
3種の情報を用いる。
イ、有声・無声・無音判定結果 入力音声をフレームごとに区切り、各7V−ムに対して
、有声・無声・無音の判定を行ない時系列として表わす
71フレームは10m5ec程度とする。無音−またけ
無声フレームが連続する部分を子音区間とする7 0、母音・鼻音・無声音の標準パターンによる音素判別
結果 5母音、鼻音C/m/、/n/、はつ音をまとめたもの
)、無声音(/S/、 /h/をまとめたもの〕の7種
の標準パターンを使用して、入力音声をフレームごとに
標準パターンと比較し、類似度が最大となる標準パター
ン名をフレームごとに旬し、時系列として表わす。子音
区間は、鼻音フレームまたは無声フレームが持続する区
間とする。
ハ、パワーデIツブ 6 ページ フレームごとに音声パワーをめ、こnf時系列として表
わす一子音区間はパワーの凹みが生じる部分(パワーデ
ィ9プ)とする。
以上3種の情報2 ハラメータとして音素のセグメンテ
ーションを行なう6第1図に具体例を示す。
第1図は「ラクダJ (/ rakuda/ )と発声
した場合の各パラメータの動きを示したものである。
図においてaは手作業によって名前づけした音素、bは
′有声V、無声U、無音Q判定結果を、Cは母音(ム、
I、u、E、o)・鼻音N・無音声S判定結果をフレー
ムごとに示しである。また、dld音声パワーの時間的
な動きを示したものである。各パラメータにおいて・→
で示す区間が、子音区間として判定された部分で・0は
その判定結果を示したものである。第1図aは目視によ
ってめたものであるが、aの子音部分が各パラメータで
検出されていることがわかる。また、各パラメータでめ
た子音区間全総合す九ば、aの子音区間とほぼ一致して
いる。
次に音素の判別は、子音区間として検出された6ベジ 区間に対し、フレームごとに子音標準パターンと照合す
ることによって行なう、子音標準パターンとしては、 有声子音:/N/(鼻音)、/B/(有声破裂音/b/
/d//g/)、/r/、/Y)/、/h、/C/L/
、 10/、 /u/の後続する/h/ ) 、 /h
、/C/fa、/、 10/、/11/が後続する無声
破裂音/CA/、/に/) 無声子音:/S/(無声摩擦音/S/、 10/ ) 
/h 2/ (/a/、 10/、 /u/以外の音素
が後続する/h/ ) 、 /h 2/ (施/、 1
0/、 /u/以外の音素が後続する無声破裂音/p/
、/l/、/に/ )を用意しておぐ。子音区間に対し
、有声・無声・無音判定結果で有声と判定さ几たフレー
ムには有声子音標準パターンを、無声と判定されたフレ
ームには無声標準パターンを適用し、フレームごとに各
音素の標準パターンに対する類似度をめておく7そして
・子音区間の全フレームに対し、各音素標準パターンに
対する類似度を加えあわせ・その和が最も大きくなる標
準パターンの音素基をその子音7 ベージ゛ 区間の音素判別結果とする。ただし、無音と判定された
フレームに対しては対象としない。!、た標準パターン
/に1/として判別されても/に2/として判別されて
も、それらを同一視して/に/に置きかえる。/に/に
対しても同様である。
第1図8は音素判別結果の例を示したものであり、比較
的良い結果を得ることができることがわかるー 従来例における問題点け、セグメンテーションによって
区間を決めた後、その全区間に対して、フレームごとに
類似度計算を行なう点である。
すなわち、子音区間全体を時間的に静的であると決め込
み、全区間を平等に扱−ていることである。
しかし、母音はともかくとして、子音や半母音は区間内
で時間的に特徴パラメータが変化するものであり、その
変化形態に各音素の特徴が見出される2そして、特徴を
有する部分(特徴部〕は子音や半母音の種類によって異
なっている。たとえば有声、無声破裂音では、破裂付近
に音素を判別するための特徴が集中し、鼻音では後続母
音への特開昭GO−68395(3) わたりの部分に音素判別のだめの特徴部があり、原音や
半母音では音素区間全体のパラメータの動きが特徴とな
る。
したがって、子音や半母音の判別には、各音素を判別す
るための特徴部を抽出し、特徴部におけるパラメータの
時間的な動きに着目して音素判別を行なう方法が有効で
ある・従来例においてはこのような配慮がなされていな
い。
発明の目的 本発明は従来技術のもつ以上のような欠点を解消するも
ので、音素を先ず音素群に大分類し、次に各音素群の特
徴部を抽出し、特徴部におけるパラメータの時間的な動
きを考慮して音素標準パターンとのマツチングを行なう
ことにより・高い精度で音素を判別する手段を提供する
ものである・発明の構成 本発明は上記目的を達成するもので、音声信号のセグメ
ンテーションを行なって音素区間を定め前記音素区間を
有声破裂音群、無声破裂音群、鼻音群、摩擦音群などの
複数個の音素群として認識9ぺ一部 し、次に前記音素区間中で特徴部(音素の判別に有効な
部分)を自動的に抽出し、前記特徴部に対して前に認識
された音素群に属する個々の音素の標準パターンとの類
似度肝Xを行なって音素を判別することを特徴とする音
素8識方法を提供するものである。
実施例の説明 本実施例の概要は以下の通りである。
イ、音素標進パター7の作成 音素をその特徴部の位置によって、次のように音素群と
して大分類する、有声破裂音群(/p//l/、/に/
、/Q/)、無声破裂音群C/b/、 /d/。
/g/)、鼻音群(/m/、 /n/、 / 7/ )
 、無声摩擦音群(/S/、 /h/ ) ただし原音
(/r/)と鼻濁音(/’7/)は有声破裂群、鼻音群
の両方に混入し、有声摩擦音(/Z/)は有声破裂音群
、無声摩擦群に混入する。
各音素群ごとに特徴部を設定し、その特徴部に対して各
音素の音素標準パターンを、あらかじめ作成しておく7
音素標準パターンは、目視10、、+、−ジ によって正確にラベル付けした多くのデータを使用して
作成する。また、音素標準パターンの他に、各音素群に
対して、特徴部の周囲情報の標準パターンを1種類作成
しておく。
口、音素の判別 入力音声のセグメンテーションを行ない、音素区間をめ
る。そして音素区間の一部(たとえば端点)′fc基準
点として設定する。一方、この音素区間が上記イにおけ
る大分類のうち、どの音素群に属するかを決定する。次
に、この決定された音素群に属する標章パターンを音素
区間における特徴部に対して適用して音素の判別を行な
う。ところで・特徴部を自動的にしかも正確にめること
は一般には困難であるため、次のようにする。すなわち
上記の基進点を参照して・多少の幅を持って特徴部の候
補区間をめておき、候補区間の全範囲に対して標章パタ
ーンを適用して各音素との類似度を計算する。
各音素との類似度計算に当っては、音素標準パターンと
未知入力との類似度から・上記イに述11 べ−〕゛ べた音素群の周囲情報の標準パターンとの類似度を除去
する。このようにすることによって、特徴部の候補区間
のうち特徴部に相当しない部分(すなわち特徴部の周囲
に相当する部分)の情報を除去することができ、正確な
特徴部をとらえて音素の判別を行なうことができる。
以下、子音認ik例として、本発明の一実施例・を図面
を参照しながら詳細に説明する。
第2図は子音認識の方法を説明するための図である。図
において入力音声信号は、フィルタ分析パワー計算部1
とLPG分析部2に入る、フィルタ分析・パワー計算部
1では、音声信号を低域。
中域、高域の3チヤンネルの帯域フィルタで周波数分析
を行ない、各チャンネルに対して、1フレーム(10m
5ec)ごとにパワー(帯域パワー)全計算する。低域
フィルタは250〜600H2中域フIルタは600〜
1500H2,高域フィルタは1500〜4000Hz
程度の帯域を使用している7こ几らの帯域パワーは主に
子音を検出し、子音区間全決定する(子音セグメンテー
ショg1開昭GO−68395(4) ンを行なう)ために使用する。
LPG分析部2では入力音声信号に対し、フレームごと
にLPG分析(線形予測分析)を行なう。
分析フィルタの次数は15次程度としている。特徴パラ
メータ抽出部3では、LPG分析部2の結果から、LP
Gケプストラム係数全計算する・これは周波数スペクト
ルの概形全記述するパラメータであり、不特定話者の音
素認識に対して有効なパラメータである7(二矢田他「
不特定話者の音素認識を目的とした特徴パラメータと距
離尺度の評価」音響学会講論 昭57年10月参照)7
母音判別、有声、無声判別部6では、母音・鼻音C/m
/、/n/、はつ音をまとめたもの)の標準パターンに
対する特徴パラメータの類似度計算全フレームごとに行
ない、最も類似度の高い音素をそのフレームの(母音、
鼻音を対象とした)判別結果として出力する。また同様
に有声・無声標準パターンに対する類似度全計算し、フ
レームごとに有声・無声判別結果を出方する。類似度全
計算する距離尺度としては次のような統計的距離尺度1
3、、・ が有効である。(上記の参考資料)。
入力特徴パラメータ: K=(Xl、X2・・・・・・
Xd)標漁パターン:平均値!I=(pl、μ2・・・
・・・μd)ただし、dけ次元数である。
とすると、音素iに対する距離は次のように定義される
ベイズ判定に基づく距離: マハラノビス距離: T −1 Li==(K−//i)@Σ ・(K−11)・・・・
・・・・・式2添字−1は逆行列を・Tは転置全表わす
・14べS・ 式1においてはPi全最犬にする音素を、また式2にお
いてはLiを最小とする音素を、そのフレームの判別結
果とする。有声・無声判定も同様である。式19式2に
よって、はぼ同様の結果が得られる。
子音検出部4け、フィルタ分析、パワー計算部1から出
力された帯域パワーの時系列波形からパワーの凹み(パ
ワーディップ)’!r検出し、子音のセグメンテーショ
ンを行なう7また母音判別、有声・無声判別部5で、鼻
音と判別されたフレームまたは無声と判定されたフレー
ムが連続するとき、それらの部分も子音区間としてセグ
メンテーションを行なう。
パワーディップの検出の方法全第3図によって説明する
。第3図aは帯域パワーの時系列波形で表わしたもので
あり、子音区間に凹みが生じることを示している。a全
微分(計算機では差分)するとbのようになる。bにお
いて、最小値から最大値までの区間1に子音区間とする
。またbの尖頭値間の値dをパワーディップの大きさと
定義す15、ぐ−〕・ る70け基準点である。
子音大分類部6では子音検出部4にて子音としてセグメ
ンテーションされた部分について、パワーディップの大
きさ全使用して子音を大分類する。
一般に有声子音のスペクトルは低域部に集中するため、
高域パワーの時系列情報により大きなディップが生じや
すい。また無声子音はスペクトルが高域部に集中するの
で、低域パワーにより大きなディ、ブが生じやすい。無
声破裂音は無音から立上がるため、低域パワー、高域パ
ワーの両方に大きなディップが生じる。鼻音は、どちら
にも大きなディップは生じないが、有声音なので、高域
ノくワーのディップの方が大きい。
低域パワーディップの大きさ’IPL、高域パワーディ
ップの大きさ全PHとして、PL PH千面上に各子音
群の位置全表示したのが第4図である。
第4図において、PLもPHも小さく、シかも鼻音また
は無声としてセグメンテーションされないノζワーディ
ップは付加Vとして子音候補から除去する。このように
低域パワーディップ・高域パワーvf開”R2O−68
395(5) デ、/−yブの大きさに着目することによって、子音を
無声破裂音群内、有声破裂音群■、無声摩擦音群■、褒
音群■に大分類することができる。ただし、/Z/け有
声破裂音群と無声摩擦音群の両方に混入する。これば/
Z/がうなり(バズ)の部分と摩擦の部分の両方の性質
を有する音素であるためである。丑た/γ/と/17/
け有声破裂音と鼻音の両方に混入する。こ力、らの音素
は前後の母音の影響を強く受け、出現環境によってパワ
ーディップの大きさが異なるためである。
このようにして大分類によって候補全校−た後、次の段
階では子音細分類部7で、各子音群内で細分類を行なう
。子音細分類部7は・各子音群に対応して無声破裂音判
別部8、有声破裂音判別部9、鼻音判別部10、無声摩
擦音判別部11によって構成されている。この部分では
特徴パラメータ抽出部3の出力と、音素標準パターンと
の類似度全求め、各音素に対する類似度全比較すること
によって子音全判別する。
無声破裂音、有声破裂音は破裂点から後続母音17ペー
ジ へ遷移する部分に特徴がある。したがって無声破裂音群
内または有声破裂音群内で細分類を行なうには破裂点付
近の時間的な動きを考慮した類似度計算を行なうことが
必要である。鼻音は母音へのわたりの部分に特徴があり
、この部分の時間的動き全考慮した類似度計算が必要で
ある。原音/r/け区間全体のスペクトル変化と持続時
間に特徴がある。/Z/けバズ部とそれに続(摩擦部を
有することに特徴がある。
このように各子音群によって特徴部には差異があるが、
特徴点を基準とした時間的な動きが重要な情報であるこ
とは共通している。正確に特徴部を自動抽出することは
容易ではない。しかし・各音素群の特徴部がパワーディ
ップの立上り付近であることは経験的にわかっているた
めt第3図すに示したようにパワーディップの立上りフ
レームを基準点として、その前後数フレームにわたって
類似度全計算し、類似度が最大となるフレームの値上そ
の音素に対する類似度とする。この部分については後述
する。
18 く −・ 次に類似度の計算に関しては、式1寸たは式2全使用し
て、時間的な動き全考慮した類似度を計算する、すなわ
ち、類似度計算に使用するデータとして単一フレームの
特徴パラメータでなぐ、複数フレーム(いまlフレーム
とする)の特徴ハラメータを使用する。式1またけ式2
で 2 1 t lK=(Xb Xz、−X(1,X 1. Xz −x
d”−X t、 X2m・・・・・・xd) 1222 t を 汐=(lJl、//2°= 1d、 A1. lrz 
=#rd−41,112一=゛# d ) のようにdXd次元のデータ金剛いる。共分散行列も同
様にdX1次元とする。(複雑になるので記さない)a
このように複数フレームのデータ全円いることによって
、パラメータが持つスペクトルの特徴とその時間的な変
動の特徴を同時に音素標準パターンと比較することがで
きる。
次に標準パターンの作成法全述べる。標準パターンは目
視によって音声中から正確に切出した多(のデータ全使
用して作成する。
音素標準パターンは、同一音素の多くのデータ19 ペ
ー〕! に対し、特徴部に相当するβフレームのデータ全期り出
してcix、d次元の特徴ベクトル全求め、多くのデー
タの平均値と共分散行列をめることによって音素ごとに
作成してお(。
周囲情報の標準パターンは音素群ごとに1種類ずつ作成
する。これは音素群内においては、周囲情報が各音素に
対して共通していることによる。
たとえば、有声破裂音群(/b/、/d/、/g/)に
おいては、特徴部(破裂部)の前には必ずバズ部分が数
フレーム存在し、破裂の後は母音に接続する2周囲情報
の標準パターンは、このようにその音素群に対して普遍
的な周囲の情報を標準パターン化したものである。第6
図にその作成方法を示す。特徴部(図の斜線部)の近傍
に対し、特徴部に比較して時間的に十分長い区間全周囲
情報区間りとして設定する。この区間に対し、図に示す
ように、βフレームの特徴パラメータ(dx、/次元)
を1フレームずつシフトさせながら全区間にわたって取
り出す。このような手続全同一音素群に属する多くのデ
ータに対して適用し、平均値ベクトルと共分散行列をめ
、これ全周囲情報の標準パターンとする。このように周
囲情報の標准パターンには特徴部のデータも含まれてい
るが、それよりも特徴部の近傍のデータの比重が格段に
太きいものにな−ている。
次に、上記の方法で作成した標準パターン全使用して、
第4図の方法によって音素群に大分類されたデータ全細
分類する具体的な方法を述べる。
なお、今後の説、明では簡単のために式2の距離尺度全
使用し、1つの音素群が2音素(音素1.音素2)で構
成される場合を取りあげる。音素数が増しても考え方は
同様である。
特徴部は前にも述べたように、パワーディップの立上り
フレーム金基漁として、大まかな候補区間金求める。こ
の区間全時間的にtl−ytzとする・いまPi−間t
における未知λカベクトル(細分類されるべきデータ)
全 It (t=t+〜t2) 音素1の標準パターン(平均値)を61音素2の標準パ
ターン〔平均値〕全6221 、ぐ−ジ・ 周囲情報の標準パターン(平均値)i#zとし、音素1
.音素2および周囲情報の全てに共通な共分散行列をΣ
とする。Σけ各々の共分散行列全平均することによ−て
作成する。
時間tにおける未知入力の音素1との類似度 −1 −(IKt−1e)−Σ −(Kt −負e) 式3同
様に音素2との距離をL2.tとすると、 −1 L2.t=(lKt−62)・Σ @(Xt−Φ2) 
−1 −(Kt−ha) 替Σ −(It−Je) 式4とす
る。これらの式の意味するところは、時間tにおける未
知入力と音素標章パターンとの類似度から周囲情報に対
する類似度を減じたものを新たに音素との類似度とする
ことである。そして式3および式4の計算f t 1〜
t2の期間全対象として行ない、L 1 、 t + 
L 21 tのうち、この期間に最小とな−た方の音素
全認識音素とする。
実際には式31式4は次のように簡単な式に展開できる
。(導出は略す)、 22ベー・ Lllt二/)Ll・区t−11式31L 2. t=
/A 2−IJCt −IB 2 式4′Al、 /A
2. IBI、 lB2が周囲情報を含んだ標準パター
ンである。
上記の方法の意味全第6図によって概念的に説明する7 音素区間が第6図aVC示す状況において、子音の判別
を行なう場合を考える、この子音の真の特徴部(斜線部
)に対し、特徴部候補区間Tが時間t1〜t2としてめ
られたものとする、bけ式2によってめた、音素1(実
線)、音素2(斜線)に対する類似度の時間的変動を示
したものである。
A、B、Cけ類似度が極小となる位置を示す。真の特徴
部(B点)においては音素1の分が音素2よりも小さく
、この子音は音素1として判別されるヘキである。しか
るに、セグメンテーションパラメ〜りによって自動的に
めた特徴部候補区間内においては、音素2がA点におい
て最小となるため、このままでは音素2に誤判別さ几て
しまう。
第6図0は未知入力の周囲情報の標準パターンと23 
ページ の距離を示したものであり、真の特徴部付近で値が大き
くなる。これは、標準パターンが主に周辺の情報によっ
て作成されているためである。第6図dけ周囲情報金倉
んだ音素標準パターンとの距離であり、bからc’l減
じたものと等価である。
dではA点よりもB点の値が小さくなっており・この子
音は正しく音素1として判別されることになる。
このように、本実施例の方法を用いることによって、セ
グメンテーションパラメータでめた大まかな特徴部候補
区間から、正確に真の特徴部を自動的に抽出して音素全
判別することができる。
なお、上記においては式2を基本とするマイラノビス距
離で説明したが、その他の距離においても同様な方法が
使用できる。例えば式1では対数を取ることによって式
2と同様の扱いが可能である。(この場合、距離のかわ
りに尤度が去する)捷た、上記では子音によって説明し
たが、時間的に変動する音素、たとえば半母音に対して
も同様な方法が適用できる。
特開昭GO−68395(7) このように、大分類にょ−て候補数を絞り、細分類には
自動的に抽出した特徴部を基本として時間的な動きを考
慮した統計的距離尺度で音素全判別する方法は、音素(
特に子音や半母音)の音声学的な性質を利用した合理的
な認識法である。
なお、第2図は説明の都合上、先ずセグメンテーション
を行って基準点全検出して、その後類似度全計算する形
式について述べたが、実際に装置化する場合は・1フレ
ームずつずらせながら、全てのフレームを中心として類
似度の計算全行ないセグメンテーションもこれと並行し
て行なって基準点をめ、基準点に対して類似度全参照し
て音素全分散する形式をとるが本質的には相違はない。
本実施例によ−て、全語中子音(/p/、 /l//に
/’ /C,/、 A/、 /d% /り/、1ml力
1 /ri/Z/’; /si、今/)を対象として、
平均約76.1チの8R率を得た。データは男女計20
名がそれぞ几発声した2に単語全使用しており、十分な
信頼性がある・同様の条件で従来法を評価すると、子音
(/γ/、/)/、/h/、/sl/c/および子音群
25べ一〕′ (無声破裂音群、有声破裂音群、鼻音群)を対象として
平均認識率が約72.6%である。従来法では一部の子
音群内での細分化が行なわれていないことを考慮すれば
、本発明による実施例の効果が大きいことがわかる・ また子音の細分類の場合、周囲情報を含まない標準パタ
ーン全使用した場合、語中の有声破裂音(/b/、 /
d/および//)で72.7%、語中の鼻音(/mal
 /n/および/ / ) テ84.1 % f tb
 また・これが周囲情報を含む標準ノくターンを用いた
場合、それぞれ74.7%、75.4%に向上する。
特に鼻音群に対して顕著な効果が現わ几ている。
こfLは鼻音のバワーデ7フプが不明瞭なため、基準点
が正確に検出できないことによる、発明の効果 以上要するに、本発明は音声信号のセグメンテーション
全行なって音素区間全定め・前記音素区間全有声破裂音
群、無声破裂音群、鼻音群、摩擦26、−ζ・ 全自動的に抽出し、前記特徴部に対して前に認識された
音素群に属する個々の音素の標準パターンとの類似度計
算全行な−て音素を判別すること全特徴とする音素認識
方法全提供するもので、イ、音声の自動セグメンテーシ
ョン全行って、高い精度で音素を認識することができる
口、音素判別に対して有効な部分(特徴部)を自動的に
しかも正確に抽出し、マツチングを行なうことができる
ハ、従来、判別が難しいとされていた有声破裂音群内、
無声破裂音群内、鼻音群内の細分類を自動セグメンテー
ションと組合わせて行なうことができる・ 二、パワーデノップという比較的単純なパラメータによ
って、効率よくセグメンテーション子音の大分類、類似
度計算のための基準点を検出することができる。
等の利点を有する。
【図面の簡単な説明】
第1図は従来の音素のセグメンテーションの方27、、
+ 法を説明する図、第2図は本発明の一実施例による音素
認識方法を説明するブロック図、第3図は同実施例のパ
ワーディップおよびその大きさを検出する方法を説明す
る図、第4図は同実施例の子音の大分類の方法を概念的
に説明する図、第5図は同実施例の周囲情報標漁パター
ンの作成性全説明する図、第6図は同実施例の特徴部の
検出及び音素判別を行う方法全説明する図である。 1゛−−−−−フィルタ分析・パワー計算部、2・・・
・・・LPC分析部、3・・・・・・特徴パラメータ抽
出部、4・・・・・・子音検出部、5・・・・・・母音
判別・有声、無声判別部%6・・・・・・子音大分類部
、7・・・・・・子音細分類部、8・・・・・・無声破
裂音判別部、9・・・・・・有声破裂音判別部・1o・
・・・・・鼻音判別部、11・・・・・・無声摩擦音判
別部。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名、9
20 箋 ! 第3図 第4図 s ・1・ の 入 き 第5図 第6図

Claims (1)

  1. 【特許請求の範囲】 (1)音声信号のセグメンテーションを行なって音素区
    間を定め、前記音素区間を有声破裂音群、無声破裂音群
    、鼻音群、摩擦音群などの複数個の音素群として認識し
    、次に前記音素区間中で特徴部(音素の判別に有効な部
    分)を自動的に抽出し、前記特徴部に対して前に認識さ
    れた音素群に属する個々の音素の標準パターンとの類似
    度計算を行なって音素を判別することを特徴とする音素
    認識方法。 (掲 先ずセグメンテーション用パラメータを使って特
    徴部の候補区間を決め、次にその候補区間に対して・音
    素群の周囲情報を含む音素標準パターンを適用すること
    によって、特徴部の抽出と音素の判別を行なうことを特
    徴とする特許請求の範囲第1項記載の音素認識方法6 (3)音声の高域パワー情報と低域パワー情報の時2ペ
    シ゛ 量的変化によって生ずるパワーのくぼみ(パワーディ・
    ツブ)の大きさを併用して・音素群を認識することを特
    徴とする特許請求の範囲第1項記載の音素認識方法。 (4)標準パターンとの類似度計算を、統計的な距離尺
    度を用い、音素の時間的な動きを含む標鵡パターンを使
    用することを特徴とする特許請求愈 の範囲第1項記載の音声認識方法。
JP58177318A 1983-06-02 1983-09-26 音素認識方法 Granted JPS6068395A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP58177318A JPS6068395A (ja) 1983-09-26 1983-09-26 音素認識方法
US06/616,836 US4817159A (en) 1983-06-02 1984-06-04 Method and apparatus for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58177318A JPS6068395A (ja) 1983-09-26 1983-09-26 音素認識方法

Publications (2)

Publication Number Publication Date
JPS6068395A true JPS6068395A (ja) 1985-04-18
JPH042199B2 JPH042199B2 (ja) 1992-01-16

Family

ID=16028882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58177318A Granted JPS6068395A (ja) 1983-06-02 1983-09-26 音素認識方法

Country Status (1)

Country Link
JP (1) JPS6068395A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001027993A (ja) * 1999-07-14 2001-01-30 Nippon Telegr & Teleph Corp <Ntt> 流行予測支援方法及び装置及び流行予測支援プログラムを格納した記憶媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58177319A (ja) * 1982-04-12 1983-10-18 Takayama Kasei Kogyosho:Kk キヤレンダ−方式によるマツト製造装置
JPS59223498A (ja) * 1983-06-02 1984-12-15 松下電器産業株式会社 音素判別法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58177319A (ja) * 1982-04-12 1983-10-18 Takayama Kasei Kogyosho:Kk キヤレンダ−方式によるマツト製造装置
JPS59223498A (ja) * 1983-06-02 1984-12-15 松下電器産業株式会社 音素判別法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001027993A (ja) * 1999-07-14 2001-01-30 Nippon Telegr & Teleph Corp <Ntt> 流行予測支援方法及び装置及び流行予測支援プログラムを格納した記憶媒体

Also Published As

Publication number Publication date
JPH042199B2 (ja) 1992-01-16

Similar Documents

Publication Publication Date Title
EP0128755B1 (en) Apparatus for speech recognition
Martinez et al. Prosodic features and formant modeling for an ivector-based language recognition system
JPS5972496A (ja) 単音識別装置
Amin et al. Detecting voice disguise from speech variability: Analysis of three glottal and vocal tract measures
JP2018180334A (ja) 感情認識装置、方法およびプログラム
Srinivasan et al. Classification of Normal and Pathological Voice using GA and SVM
Radha et al. Accent classification of native and non-native children using harmonic pitch
US20080270126A1 (en) Apparatus for Vocal-Cord Signal Recognition and Method Thereof
Karabetsos et al. One-class classification for spectral join cost calculation in unit selection speech synthesis
JPS6138479B2 (ja)
Espy-Wilson A phonetically based semivowel recognition system
JPS6068395A (ja) 音素認識方法
Siegel et al. A pattern classification algorithm for the voiced/unvoiced decision
Majda-Zdancewicz et al. Text independent automatic speaker recognition system using fusion of features
Lachachi Unsupervised phoneme segmentation based on main energy change for arabic speech
Monte et al. Text independent speaker identification on noisy environments by means of self organizing maps
JPS6068393A (ja) 音素判別方法
Bhattachajee et al. An experimental analysis of speech features for tone speech recognition
JPH0455520B2 (ja)
Kain et al. A Comparison of Sentence-Level Speech Intelligibility Metrics.
JPS6068396A (ja) 音素分類方法
Qureshi PARAMETRIC SPEECH SYNTHESIS VLSI PROCESSOR DESIGN USING APPLICATION SPECIFIC INSTRUCTION
Karthika et al. Automatic Language Identification from Non-Uniform Region Using Bi-LSTM and CNN
JPS6148897A (ja) 音声認識装置
Ruinskiy et al. An algorithm for accurate breath detection in speech and song signals