JPS59223500A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS59223500A
JPS59223500A JP9836083A JP9836083A JPS59223500A JP S59223500 A JPS59223500 A JP S59223500A JP 9836083 A JP9836083 A JP 9836083A JP 9836083 A JP9836083 A JP 9836083A JP S59223500 A JPS59223500 A JP S59223500A
Authority
JP
Japan
Prior art keywords
silent
section
speech
phoneme
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9836083A
Other languages
English (en)
Inventor
郁夫 井上
藤井 諭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP9836083A priority Critical patent/JPS59223500A/ja
Publication of JPS59223500A publication Critical patent/JPS59223500A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、人間の発声した音声を認識するための音声認
識方法に関するものである。
従来例の構成とその問題点 音声は、その生成過程の特徴により大きく、声帯振動を
伴なう有声音と、声帯振動を伴なわない無声音(分類さ
れ、さらに、音を発しない状態である無音とが組み合わ
さって言語が構成される。
音素を単位とする音声の認識に於ては一般に、先ずこれ
ら有声・無声・無音の識別を行ない、しかる後に、有声
・無声の各区間について、更に、それぞ扛一定の音響的
特徴をもつ区間に細分し、その細分化された区間に対し
て音素の識別を行なうという方法が用いら扛ている。
この様に、一定の音響的特徴をもつ音素の単位にまで細
分化することをセグメンテーションと言い、このセグメ
ンテーションを精度よく行なうことは、音素を単位とし
た音声認識方法において、音声を正しく認識する際に、
極めて軍費な要素となる。
ここで、第1図に音素を認識の基本とする音声認識方法
のブロック図を示し、これを基にセグメンテーションの
位置づけと全体の説明を行なう。
先ず、マイクロホン1より入力された音声を、音響分析
部2において、帯域フィルタ群あるいは線形予測分析等
により分析し、IomspJ度の分析区間毎に音声パワ
ーやスペクトル情報を抽出する。3のセグメンテーショ
ン部では、音響分析部2で得られた音声パワーやスペク
トル情報を用い、音声区間の検出及び音素毎の境界決定
を行なう。
音素判別部4では音響分析部2で得られた音声パワーや
スペクトル情報と標準パメーy格納部6のデータとを比
較し、分析区間毎の音素判別を行なう。標準パターン格
納部5に格納された標準パターンは、予め、多数話者の
音声データより音素毎に作成しておく。音素認識部6で
は、セグメンテーション部3と音素判別部4の結果を基
に、1つの音素区間毎に何という音素であるかの決定全
行ない、音素の系列を作成する。単語認識部γではこの
音素系列上、同様に音素系列で表記された単語辞書格納
部8と照合し、最も類似度の高い単語を認識結束として
出力する。
従来、語中における電音区間のセグメンテーシーンを行
なう方法として音声パワーのディップを利用した方法が
ある(三輪他[音声スペクトルの概略形とその動特性を
利用した単語音声認識システム」音響学会誌34(19
7B)P2S5)。
これは、入力音声全帯域フィルタ群(29チヤネル、Q
==5.中心周波数25011z〜e 3o o[lz
 。
晃オクターブ間隔)で周波数分析し、整流平滑後10m
gの分析区間(以後フレームと呼ぶ)毎にAD変換した
分析出力5(i)(iはチャネル番号)の二乗和の対数
として音声パワーw2定義し、3フレーム毎の荷重つき
移動平均を用いて平滑した新たなバラメーグW′ヲ用い
、W′に閾値を設けて無音区間を決定する方法である。
しかし、この方法では、周囲の環境や発声レベルの変動
、個人差等によ一名影響を十分に吸収できず、無音区間
の検出も満足のいくものではなく、音素認識率を下げる
原因ともなっていた。
発明の目的 本発明は、音素を認識の基本とする音声認識刃    
 1法について、音素認識の精度を筒め、より高い認識
率全有する音声認識方法を提供することを目的とする。
発明の構成 本発明は単語音声中に無音区間が生ずるのは、特に不自
然な発声をしない場合には、音声の生成過程からみて、
無声破裂音の直前(促音も含む)及び一部の有声破裂音
の直前である。然るに、一部の有声破裂音の場合でも、
無音区間が短い為に完全に無音にならない場合も多く、
また個人差も太きい0したがって一部の有声破裂音につ
いては特にその前に無音区間が検出されなくとも特に不
都合はなく、むしろ無音区間はないものとして統一して
扱った方が都合が良い場合が多い。
このことから無音区間は必ず無声破裂音の直前に現われ
るとしても差し支えない。したがって先ず無声破裂音を
検出し、その破裂時点から時間を遡って無音区間の始’
19を検出することにより、無音区間を決定することが
できる。
本発明はこの様な構成により無音区間を決定することに
より、従来法ではノイズに埋もnてしまって無声区間と
判断されてし1う様な場合にも対処することができ、高
い認識率を得ることを可能とするものである。
実施例の説明 第2図は、本発明の音素認識方法を具体化する実施例で
ある。
図を参照しながら本実施例について詳しく説明する。
予め、多数の話者が発声した音声データから、そnぞれ
の音素区間の切り出しを行ない、音素毎のラベルをつけ
ておく。次にこの音声ブータラ基に、10m5の分析フ
レーム毎に線形予測分析を行ない、LPCケプストラム
係数を算出する。これと同時に、音声パワー及びその−
人差分値を求める。音声パワーの一次差分値の極太値を
基に、破裂時点候補の検出を行ない、無声破裂音とそれ
以外の2つのクラスに分けて、破裂時点候補の前後数フ
レームにわたる音声パワー、及びその、−人差分値、及
びLPとケプストラム係数を含む、P個の説明変数とみ
たときの、両クラスの重みつき数量共分散行列の1総和
11級間共分散行列i1Bとする。
ここで[iP次元ベクトルとすると、特徴評価関数θは で与えられる0このθを特徴とする請求めることにより
、線形判別関数が求まる0 ″!iた、λ1を固有値、f工を固有ベクトルと置くと
、 \W、、−IF/41Ft と表わすことができる。さらに、2クラスの説明変数の
平均値の差ベクトルy26Jとおくと、最適重みベクト
ル改(α1.a、2.・・・αP)ハ、弘=IF/A 
 F  dl 全計算することにより求まるOこの 全無声破裂性検出
の為の判別フィルタ係数としてフィルり係数格納部13
に予め格納しておく。
さて、ここでマイクロホン9より入力した音声を、音響
分析部10IK−於て、分析フレーム毎にLpとケプス
トラム係数及び、音声ノくワー、音声パワーの一次差分
値全算出する0破裂性候補検出部11では、この音声ノ
(ワーの一次差分値の極太値を基に、破裂時点候補の検
出を行ない、破裂時点候補の前後数フレームにわたる音
声)(ワー、及びその−次差分、及びLPとケプストラ
ム係数を含む、P個の説明変数から成るベクトルX(X
l。
x2.・・・・・・xp)k作成し、無声破裂性判別部
12に転送する。無声破裂性判別部12では、入力され
た説明変数ベクトルに対して、フ4)レタ係数格納部1
3に格納しであるフィルり係数の積和y全次式より求め
、この値が閾値、l:9大きいか小さいかによって、無
声破裂性の判別を行なう。
y=、ΣtL、x。
コー1J ここで無声破裂性が検出された時、無声破裂音並びに無
音区間/・存在すると判定され、無音区間検出部14で
は、破裂候補時点から時間ケ遡って音声パワー及びその
差分値を調べ、音声パワーの差分値の極小値をとるフレ
ームの音声パワーの値が、一定値以上で閾値を越えない
最大の値となるフレーム捷での区間を無音区間として出
力するQ′この場合、実際の無音区間の途中での持続時
間の短い音声パワーの山はノイズと見做し無視するat
たノイズ以外で音声パワーが閾値を越える場合、そのフ
レームを音声区間の始端とする。
第3図に、音声区間の検出の様子を示すO横軸はフレー
ム番号、縦軸はパワーを示す。16は音声パワー、16
は音声パワーの一次差分、tPは破裂フレーム、t6は
無音区間の終端でtPの2フレーム前、tsは無音区間
の始端で、音声パワーの閾値Wtヲ越えない最大の音声
パワー値をとるときの、音声パワー差分値の極小値とな
るフレームで、t8から1.1での区間を無音区間とす
るO音声パワーの閾値V/lは、t、に於ける音声ノク
ワーの値の関数として一定の幅をもたせておくことに、
Cす、発声レベルの変動にも対処でき、無音区間と前の
母音との境界をうまく決定することができる。
第3図は、無声破裂音の前の母音のパワーが、息もれや
あい筺いな発声のために十分に落ちないで無音区間に1
で達している例である。この様な場合、従来の様に、−
律な閾値tvt’ y、(用いたのでは、無音区間の始
端全t、Lと誤りその部分が別の音素として付加したり
、あるいは促音が脱落してしまったシするが、本実施例
では前述のようにこのような誤りの発生を防ぐことがで
きる。また、本実施例では、複数の異種パラメータ群を
用いて、多くの話者のデータから無声破裂性判別フィル
タを作成しているため、話者の相異による影響をあ=!
シ受けなくて済み、高い極用率を受けることができる。
六1に、男声10名の発声した212単語の音声データ
を用いて判別フィルタを用いた本実施例の方法と、従来
例で述べた音声パワーによる方法との無音区間検出実験
盆行なった結果を示す0 表   1 その結果、検出率及び付加数について従来例を上まわる
好結果が得られ、本方法の有効性が示された0 発明の効果 以上のように本発明は、音素全認識の基本とする音?認
識において、スペクトル情報を表わすパラメータと、音
声のパワーを表わすパラメータとを組み合わせて無声破
裂性検出のための判別フィルタ全作成し、こ扛ヲ用いて
判別分析によジ無声破裂時点を検出し、その時点から時
間を遡って無音区間を決定する無音区間検出部を持つこ
とを特徴とする音声認識方法で、簡単な積和演算に工っ
て検出が行なえ、しかも、男声10名の発声した212
単語音声による検出実験では、従来のパワーの値によっ
て求める方法では88.4%であったのが、本方法によ
れば、96.7%と高い認識率が得られ本発明の有効性
が示された。
【図面の簡単な説明】
第1図は音素を認識の基本となる従来の音声認識システ
ムのブロック図、第2図は本発明を用いた音声認識シス
テムの無音区間セグメンテーション寸でのブロック図、
第3図は、本発明によって無音区間を検出する場合の説
明図である。 1.9・・・・・・マイクロホン、2.10・・・・・
・音響分析部、3・・・・・・セグメンテーション部、
4・・・・・音素判別図、6・・・・・・標準パターン
格納部、6・・・・・・音素認識部、7・・・・・・単
語認識部、8・・・・・・単語辞書格納部、11・・・
・・・破風性候補検出部、12・・・・・・無声破裂性
検出部、13・・・・・・フィルタ係数格納部、14・
・・・・・無音区間検出部、16・・・・・・音声パワ
ー、16・・・・・・音声パワーの一次差分。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第1
図 □□] #P!、、、識桔呆 第2図 第3図

Claims (1)

    【特許請求の範囲】
  1. 予め、多数話者の音声データよりスペクトルの概形を表
    わすパラメークと音声パワーの時間的変化を表わすパラ
    メータの抽出を行ない、こ扛らの異種のパラメータ群を
    用いて、音声の弁別的特徴の一つである無声破裂性を検
    出するための線形判別フィルタを作成しておき、未知入
    力音声より得られたバラメーク群を前記線形判別フィル
    タの入力とした時の判別フィルタの出力の値によって無
    声破裂音並びに無音の存在を検出し、この情報を基に、
    無音区間の決定を行なうことを特徴とする音声認識方法
JP9836083A 1983-06-02 1983-06-02 音声認識方法 Pending JPS59223500A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9836083A JPS59223500A (ja) 1983-06-02 1983-06-02 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9836083A JPS59223500A (ja) 1983-06-02 1983-06-02 音声認識方法

Publications (1)

Publication Number Publication Date
JPS59223500A true JPS59223500A (ja) 1984-12-15

Family

ID=14217710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9836083A Pending JPS59223500A (ja) 1983-06-02 1983-06-02 音声認識方法

Country Status (1)

Country Link
JP (1) JPS59223500A (ja)

Similar Documents

Publication Publication Date Title
Sambur Speaker recognition using orthogonal linear prediction
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
JPH11143346A (ja) 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
JPS59226400A (ja) 音声認識装置
JPH09500223A (ja) 多言語音声認識システム
Martinez et al. Prosodic features and formant modeling for an ivector-based language recognition system
Paulose et al. Performance evaluation of different modeling methods and classifiers with MFCC and IHC features for speaker recognition
US10706867B1 (en) Global frequency-warping transformation estimation for voice timbre approximation
Kaushik et al. Automatic detection and removal of disfluencies from spontaneous speech
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Ishi Perceptually-related F0 parameters for automatic classification of phrase final tones
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JPS6138479B2 (ja)
Barczewska et al. Detection of disfluencies in speech signal
CA2991913C (en) System and method for outlier identification to remove poor alignments in speech synthesis
Sethu et al. Speaker dependency of spectral features and speech production cues for automatic emotion classification
JPS63165900A (ja) 会話音声認識方式
Lertwongkhanakool et al. An automatic real-time synchronization of live speech with its transcription approach
Phoophuangpairoj et al. Two-Stage Gender Identification Using Pitch Frequencies, MFCCs and HMMs
JPS59223500A (ja) 音声認識方法
US6934680B2 (en) Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
Legát et al. Design of the test stimuli for the evaluation of concatenation cost functions
JP2658426B2 (ja) 音声認識方法