JPS59223498A - 音素判別法 - Google Patents

音素判別法

Info

Publication number
JPS59223498A
JPS59223498A JP9835083A JP9835083A JPS59223498A JP S59223498 A JPS59223498 A JP S59223498A JP 9835083 A JP9835083 A JP 9835083A JP 9835083 A JP9835083 A JP 9835083A JP S59223498 A JPS59223498 A JP S59223498A
Authority
JP
Japan
Prior art keywords
phoneme
frequency power
frame
reference frame
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9835083A
Other languages
English (en)
Other versions
JPH0316040B2 (ja
Inventor
昌克 星見
二矢田 勝行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP9835083A priority Critical patent/JPS59223498A/ja
Priority to US06/616,836 priority patent/US4817159A/en
Publication of JPS59223498A publication Critical patent/JPS59223498A/ja
Publication of JPH0316040B2 publication Critical patent/JPH0316040B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識における音素判別法に関するものであ
る。
従来例の構成とその問題点 入力音声を音素単位に分けて音素の組合せとして認識し
く音素認識とよぶ)音素単位で表記された単語辞書との
類似度を求めて認識結果を出力する従来の単語認識ンヌ
テムのブロック図を第1図に示す。
ま“ず、あらかじめ多数話者の音声を101118の分
析区間毎に音響分析部1によってフィルタバレクを用い
て分析し、得られたヌベクトル情報をもとに特徴抽出部
2によって特徴パラ−メータを求める。この特徴パラメ
ータから/&/、10/等の母音や、/m/、/b/等
の子音に代表される音素毎又は音素グループ毎に標準パ
r−ンを作成して標準パターン登録部5に登録しておく
。次に、入力された不特定話者の音声を、同様に分析区
間毎に音響分析部1によって分析し、特徴抽出部2によ
って特徴パラメータを求める。この特徴パラメータと標
準パターン登録部5の標準パターンを用いてセグメンテ
ーション部3において母音と子音の区切シ作業(以下セ
グメンテーションと呼ぶ)を行なう。この結果をもとに
、音素判別部4において、標準パターン登録部6の標準
パターンと照合することによって、最も類似度の高い標
準パターンに該当する音素をその区間における音素と決
定する。最後に、この結果作成した音素の時系列(以下
音素系列と呼ぶ)を単語認識部6に送シ、同様に音素系
列で表現された単語辞書7と最も類似度の大きい項目に
該当する単語を認識結果として出力する。
本構成において音素判別部4で音素の判別を行う場合、
従来では、子音区間と判定された区間についてフレーム
毎に音素の特徴を示す特徴パラメータを求め、あらかじ
め用意されている各音素または音素群の標準パターンと
比較してフレーム毎に子音分類を行なう。この結果を子
音分類ツリーに適用して、条件の一致したものを認識さ
れた子音としていた。しかし、この場合子音のうちのい
くつかについては明確な判定を行なわずに音素群の判定
にとどまっている。(たとえば、/b/。
/d/、/q/を有声破裂音群としている)有声破裂音
群の判別についてはたとえば「日本語有声破裂音の分析
」細谷、藤崎2日本音響学会音声研究会(sao−e7
)などで報告されている。しかし、これらの方法は分析
時間、アルゴリズムの複雑さのために、実際の単語認識
システムに使用された例は報告されていない。
以上述べたように、従来の方法では、いくつかの音素に
ついては音素群の判別にとどまっておシ認識対象単語に
よっては問題が生じる。また、音素群内での判別方法も
報告されているが、まだ、分析時間、アルゴリズムの複
雑さなどの問題かあ如実際のシステムに使用されていな
い。
発明の目的 本発明は、以上のような従来の問題点を解決するために
なされたもので、分析時間、アルゴリズムを考慮して実
際のシステムで使用出来る音素群内での音素判別法を提
供することを目的とする。
実施例の説明 本発明は入力音声のスペクトルとその時間的変化過程を
用いて子音認識を行う。
子音、特に破裂性を有するものは、破裂時点や母音への
わたシの部分に特徴があることが知られている。本実施
例はこの性質を利用して、対象音素の時間的な動きとス
ペクトルの特徴の両方をパラ     □。
メータとして抽出し、パターンマツチングによって予め
用意されている標準パターンとの間で類似度を求め、最
も類似度の大きい音素を判別結果とする方法である。こ
の場合標準パターンは音素ごとに性質のわかった多くの
データを使用して作成しておく。すなわちスベクレレの
特徴を表わすパラメータをフレームごとにp個ずつqフ
レーム分、計pxq個をパラメータとし、多くのデータ
を使ってこれらの平均値と共分散マトリックスを求め標
準パターンとする。
このとき、パターンマツチングを行う場pfr(時間点
な基準点)を正確に定めることが要求される。
このために本実施例では、スベク)/l/の音韻性が現
われ始める遷移開始時点を自動的に精度良く検出するた
めに低域パワーと高域パワーの時間的変動を使用する。
以下に本実施例の詳細を図面を用いて説明する。
子音を判別する際、従来の方法によって(/p/。
/l/、/に/、10/)や(/b/、/el/)等の
ような音素群に分類することが出来るめで、本実施例で
は音素群内においイ音素の判定を行なう方法を対象とす
る。本実施例では(/p/、/l〆/に/、10/)と
(/b/、/a/’tの2つの音素群についてそれぞれ
の群内で音素の判別を例として説明する。
本実施例では、スベク)/しの特徴を表わすパラメータ
としてLPGケプヌトラム係数CO〜On(ただしnは
正の整数)を使用する。音素の遷移開始時点の定めかた
によシ、音素判別率が大きく変動するので、遷移開始時
点を精度良く自動検出するために、パラメータとして低
域パワーと高域パワーを使用する。この低域パワーと高
域パワーの時間的変動の特徴をとらえることによシ音素
の遷移開始時点を正確に定めることが出来る。
スベク)/しの時間的変化過程としては、音素の特徴を
良く表わす遷移開始時点から連続mフレーム分のLPC
ケプヌトラム係数を(nxm)次元ベクトルとして取扱
う(本実施例では、n=6゜m=3とし、16次元ベク
トルとする)。
ヌベク)/しの時間的変化過程の標準パターンの求め方
としては、あらかじめ目視によって各音素毎にスペクト
ルの時間的変化の特徴を良く表わす遷移開始時点を基準
フレーム(本実施例では1フレームを10m5ecとす
る)として15次元ベクトルの平均および共分散の標準
パターンを多くのデータから作成しておく。この標準パ
ターンについて正規分布を仮定したベイズ判定に基づく
距離尺度を用いて音素の判定を行なう。
遷移開始時点である基準フレームの自動検出法としては
、低域パワーと高域パワーの時間的変動を用いて行なう
以下に基準フレームの自動検出法を無声破裂音群(/p
/、/l/、/に/、/a/)と有声破裂音群(/b/
、/C1/)の両方について述べる。
まず最初は、無声破裂音群[/p/、/l/。
/に/、/C/)について説明する。音素/に/の場合
の低域パワーと高域パワーの時間的変化のようすを第2
図に示す。aは低域パワー、bは高域パワーであり、横
軸はフレーム番号、縦軸はパワーである。図において8
,9がそれぞれ低域パワー、高域パワーの時間的動きで
あシ、10.11はそれぞれのパワーの差分値である。
図かられかるように低域、高域パワー8及び9ともに1
度凸状になシ、その後、渡りの部分でパワーが凹状にな
ってから再び立ち上がっていく。この時、子音区間(図
中でXと表示しである)の中で低域、高域パワーの差分
値10及び11が最初にピークになるフレーム番号をP
Ll、PH1とし、2番目にピークになるフレーム番号
をP L 2 +  P H2とする。もし、2つピー
クが現われない場合はPLにPL2またはP H1= 
P H2とする。
この場合、基準フレームは、 MIN (PLl、PH1)−11 A−MAX (PLl、PH1) 十F2(ここでFl
、F2は正の整数とする)より定められる。
基準フレームを1フレームに限定しないのは、基準フレ
ームが1フレームずれたために標準パターンと一致しな
いことをさけるためである。
次に、有声破裂音群(/b/、/C1/)について説明
する。音素/d/の場合の低域パワーと高域パワーの時
間的変化のようすを第3図に示す。
aは低域パワー、bは高域パワーであシ、横軸はフレー
ム番号、縦軸はパワーである。図において12.13は
低域、高域パワーで14.15はそれぞれのパワーの差
分値である。子音区間りの中で低域パワーと高域パワ〜
の差分値14及び16が正のピークになるフレーム番号
をそれぞれPL3.PH3とする。破裂音の場合は破裂
時点に特徴があるため基準フレームとしては破裂時点の
フレームをとる。
この場合の基準フレームは MIN (PL3.PH3)−F3 〜MAX (PL3.PH3)+F4 (ここでFs、F4は正の整数とする)よシ定められる
。基準フレームを1フレームに限定しないのは、基準フ
レームが1フレームずれただめに標準パターンと一致し
ないことを避けるためである。
このようにして基準フレーム区間を定め、区間中の各フ
レームを中心としてその前後者1フレームの計3フレー
ムを対象として、標準パターンとの類似度を計算する。
そしてその操作を区間内において1フレームずつずらせ
て各々の基準フレームでの類似度を求め、区間内で一番
類似度が大きい音素を判別結果として出力する。
類似度の計算は3フレーム(基準フレーム±1)×6パ
ラメータ(CoP−04)の15次元2トリソクヌを使
用してベイズ判定によって行う。
以上のように、本実施例によれば、低域パワ、−と高域
パワーの時間的変化から音素の遷移開始時点である基準
フレームを自動的に検出し、あらかじめ用意している標
準パターンと比較することによって、今までは音素群の
判別までしか行なっていなかった音素を音素毎にまで判
別出来るようになった。また、アルゴリズムも簡単で、
すでにシステムで使用することが出来る。
本実施例を用いて212単語を発声した男女各10名を
評価した時の結果を表−1に示す。
表−1評価結果 この結果かられかるように、本発明を用いると比較的簡
単な手法によってかなシ高い認識率を得ることが出来る
なお、以上の実施例では、スペクトルの特徴を表わすパ
ラメータとしてケプヌトラム係数を使用したが、他にバ
ンド・パワ・フィルりの出力などのようにヌベク) /
l/の特徴を表わすパラメータならば使用出来る。
また、基準フレームを検出するパラメータとして低域パ
ワーと高域パワーを併用しているが、どちらか1方だけ
か、あるいは全域パワーも使用出来る。
発明の効果 以上述べたように本1発明は、パワーの時間的変動を利
用して、音素のスペクトルの時間的変化過程をよく表わ
す基準フレームを自動的に検出し、この基準フレームか
ら、スペクトルの特徴を表わすパラメータの時間的変化
過程をとらえ、あらかしめ用意している音素毎の標準パ
ターンと比較することによって音素判別を行うものでい
ままでは音素群の判別にとどまっていたものを音素毎に
判別出来るようになった。また、アルゴリズムも簡単で
、単語認識システムにすぐに組み込むことが出来る利点
を有する。
【図面の簡単な説明】 第1図は従来の音声認識システムのブロック図、第2図
は本発明の一実施例として無声破裂音群の基準フレーム
の検出法を説明するための音素/に/の低域パワーと高
域パワーの変化のようすを表わ     ′1す図、第
3図は本発明の一実施例として有声破裂音群の基準フレ
ームの検出法を説明するだめの音素/d/の低域パワー
と高域パワーの変化のようすを表わす図である。 1・・・・・・音響分析部、2・・・・・・特徴抽出部
、3・・・・・・)グメンテーション部、4・・・・・
・音素判別部、6・・・・・・標準パターン登録部、6
・・・・・・単語認識部、7・・・・・・単語辞書、8
,12・・・・・・低域パワー、9,13・・・・・・
高域パワー、10,14・・・・・・低域パワーの差分
値、11,15・・・・・・高域パワーの差分値。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第 2 手続補正書 昭和69年3 月f日 昭和58年特許願第98350  号 2発明の名称 音素判別法 3補正をする者 事件との関係      特   許   出   願
  人住 所  大阪府門真市大字門真1006番地名
 称 (582)松下電器産業株式会社代表者    
山  下  俊−彦 4代理人 〒571 住 所  大阪府門真市大字門真1006番地松下電器
産業株式会社内 6、補正の内容 (1)明細書の第3ページ第16行目の「ついてはたと
えば」を「ついては、たとえば」と補正します。 (2)同第10ページ第6行目の「2トリツ」を「マト
リン」と補正します。 (3)同第10ページ第14行目の「すでにシ」を「す
ぐにシ」と補正します。 (4)同第12ページ第9行目の「行なうものでいまま
では」を「行うもので、いままでは」と補正します。 (6)図面の第2図、第3図を別紙の通り補正します。

Claims (1)

    【特許請求の範囲】
  1. 音声を音素群に分類し、前記音素群内で音素の判定を行
    うに際し、音声スペクトルのパワーの時間的変動から基
    準フレームを検出し、前記基準フレームにおけるスペク
    トルの時間的変化過程を、予め用意しである標準パター
    ンと比較することによシ音素を判定することを特徴とす
    る音素判別法。
JP9835083A 1983-06-02 1983-06-02 音素判別法 Granted JPS59223498A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP9835083A JPS59223498A (ja) 1983-06-02 1983-06-02 音素判別法
US06/616,836 US4817159A (en) 1983-06-02 1984-06-04 Method and apparatus for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9835083A JPS59223498A (ja) 1983-06-02 1983-06-02 音素判別法

Publications (2)

Publication Number Publication Date
JPS59223498A true JPS59223498A (ja) 1984-12-15
JPH0316040B2 JPH0316040B2 (ja) 1991-03-04

Family

ID=14217444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9835083A Granted JPS59223498A (ja) 1983-06-02 1983-06-02 音素判別法

Country Status (1)

Country Link
JP (1) JPS59223498A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6068395A (ja) * 1983-09-26 1985-04-18 松下電器産業株式会社 音素認識方法
JPH03145167A (ja) * 1989-10-31 1991-06-20 Nec Corp 音声認識方式

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6068395A (ja) * 1983-09-26 1985-04-18 松下電器産業株式会社 音素認識方法
JPH042199B2 (ja) * 1983-09-26 1992-01-16
JPH03145167A (ja) * 1989-10-31 1991-06-20 Nec Corp 音声認識方式

Also Published As

Publication number Publication date
JPH0316040B2 (ja) 1991-03-04

Similar Documents

Publication Publication Date Title
EP3955246B1 (en) Voiceprint recognition method and device based on memory bottleneck feature
EP1083542B1 (en) A method and apparatus for speech detection
CN103985390A (zh) 一种基于伽马通相关图语音特征参数提取方法
Lee et al. Variable time-scale modification of speech using transient information
KR20070094690A (ko) 음성 신호 분리 시스템 및 그 방법
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
CN115620731A (zh) 一种语音特征提取与检测方法
JPS59223498A (ja) 音素判別法
Tian et al. Detecting synthetic speech using long term magnitude and phase information
Tahliramani et al. Performance Analysis of Speaker Identification System With and Without Spoofing Attack of Voice Conversion
Nehra et al. Speaker identification system using CNN approach
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
Sung et al. A study of knowledge-based features for obstruent detection and classification in continuous Mandarin speech
JP2744622B2 (ja) 破裂子音識別方式
Lee et al. An NN based tone classifier for Cantonese
Lerato Hierachical methods for large population speaker identification using telephone speech
JPS6069694A (ja) 語頭子音のセグメンテ−ション法
Ma et al. Speaker verification based on combining speaker individuality parameter selection and decision
JPS6363920B2 (ja)
KR20000059560A (ko) 피치 웨이브 특성을 이용한 음성 인식 장치 및 그 방법
JPH03120434A (ja) 音声認識装置
JPS5946698A (ja) 音声認識方式