JPH0426479B2 - - Google Patents

Info

Publication number
JPH0426479B2
JPH0426479B2 JP25894584A JP25894584A JPH0426479B2 JP H0426479 B2 JPH0426479 B2 JP H0426479B2 JP 25894584 A JP25894584 A JP 25894584A JP 25894584 A JP25894584 A JP 25894584A JP H0426479 B2 JPH0426479 B2 JP H0426479B2
Authority
JP
Japan
Prior art keywords
speech
input
linear regression
time
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP25894584A
Other languages
English (en)
Other versions
JPS61137199A (ja
Inventor
Sadahiro Furui
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP25894584A priority Critical patent/JPS61137199A/ja
Publication of JPS61137199A publication Critical patent/JPS61137199A/ja
Publication of JPH0426479B2 publication Critical patent/JPH0426479B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は認識対象語彙のうちのどの単語が発
声されたかを高精度かつ高能率に自動的に判定す
る単語音声の認識方法に関するものである。
「従来の技術」 マンマシンインターフエイスに使用する種々の
入力端末装置の一つとして、音声をそのまま入力
する、いわゆる音声入力装置がある。この装置
は、入力音声に含まれる言語の情報を抽出してそ
の意味内容を認識するものであり、このような入
力端末装置は他の入力装置に比べて、(イ)情報入力
速度が速い、(ロ)音声で入力できるので操作に熟練
する必要がない、(ハ)同時に手足、目、耳などを使
いながら入力できる、(ニ)電話から入力できる、な
どの利点がある。
音声入力装置の認識方法には、一つ一つの区切
つて発声された言語音声を認識するものと、複数
の単語や文章を連続して発声した音声を認識する
ものとがあり、後者の方が使い勝手は良いが高い
精度で認識を行うのが難しい。一方前者の方法
は、一問一答形式のようにやや使い方が限られる
が、実用的には広い応用範囲が期待され、後者の
方法よりも高い精度を得ることが可能である。
前者の単語音声の認識方法としては、あらかじ
め認識できる語彙の種類を決めてそれらの一つ一
つについて標準パターンを蓄積しておき、入力さ
れた音声波と各標準パターンとの類似の度合いを
調べて、最も類似の度合いの大きい語彙が発声さ
れたものと判定することが多い。このとき、音声
波をそのまま標準パターンとして蓄積しておい
て、入力音声波と比較するのは能率的でないの
で、周波数スペクトル、線形予測係数等のいわゆ
る特徴パラメータに変換してから比較を行うのが
望ましい。従来のこの種の方法では、特徴パラメ
ータとして上記の他に、ホルマント周波数、ケプ
ストラム係数、パーコール係数、対数断面積比、
零交差数などが用いられているが、安定に精度よ
くパラメータを抽出するのが困難であつたり、パ
ラメータの抽出に複雑な計算を要したり、異なる
話者に共通した単語音声の特徴を表現するパラメ
ータとして不十分であつたり、電話系のような伝
送路を通つたときに特性が変動して、認識の精度
が大きく低下する等の欠点があつた。
この発明の目的は、このような欠点を除去する
ため、電話系等を通つた音声から伝送歪等の影響
を受けにくく、しかも異なつた話者に共通に含ま
れる音声の特徴を比較的簡単に抽出し、高精度で
単語の認識を行うことができる単語音声の認識方
法を提供することにある。
「問題点を解決するための手段」 この発明の標準パターン音声を入力しその周波
数スペクトルの時間的変化を示すパラメータを算
出し、このパラメータの時間波形から線形回帰係
数を全時点について算出し、認識対象語彙ごとの
パラメータ及び線形回帰係数の標準パターンを蓄
積する。この線形回帰係数及び前記パラメータを
単語音声の特徴パラメータとする。つまりこれら
パラメータ及びその線形回帰係数の同一時点のも
のを一種類のパラメータであるかのように使う。
前記パラメータとしては比較的簡単な方法により
抽出できる線形予測ケプストラム係数を用いるこ
とが好ましい。このように前記パラメータ及び線
形回帰係数を特徴パラメータとすることにより伝
送路の変動等の影響を受けにくく、しかも異なる
話者に対する認識精度を向上できる。
このパラメータ及びその線形回帰係数を入力音
声単語につき算出し、これらとあらかじめ蓄積し
てある各語彙の特徴パラメータとの非線形的な時
間正規化マツチング(対応づけ)により、どの語
彙が発声されたかを判定する。
「実施例」 以下、この発明の実施例を第1図により説明す
る。第1図は、この発明の単語音声の認識方法の
実施例を機能的に示したものである。
音声入力端子1から認識すべき音声を入力し
て、音声区間検出回路2、線形予測分析回路3、
ケプストラム変換回路4、ケプストラムレジスタ
5を経由して線形予測ケプストラム係数を得る。
この実施例ではこの線形予測ケプストラム係数の
時間波形から回帰係数計算回路6で線形回帰係数
を抽出する。線形予測ケプストラム係数と線形回
帰係数との時間波形(これらをまとめて特徴パラ
メータ波形と呼ぶ)を一たん特徴パラメータレジ
スタ7に蓄え、学習モードと認識モードとをスイ
ツチ8で切換えて、学習モードの場合は特徴パラ
メータ波形をその語彙の標準パターンとして標準
パターン蓄積部9に蓄える。認識モードの場合
は、特徴パラメータ波形、各語彙の標準パターン
および重みレジスタ11の内容を非線形時間正規
化回路10に入力して、類似性の度合いの計算を
行う。すべての語彙の標準パターンとの類似の度
合いを比較回路12に入力して、最も類似の度合
いの大きい語彙を判定し、その語彙を示すデータ
を出力端子13に与える。
さらに詳しく動作を説明する。先ず音声入力端
子1から単語の認識に用いる音声波を入力する。
入力された音声波には通常、実際の音声の区間と
無音(雑音)の区間とが含まれているので、入力
された音声波を音声区間検出回路2に入力して、
音声区間の検出を行う。この検出には、すでによ
く知られているいくつかの方法、例えば入力信号
波の短時間エネルギー、ある一定値以上のエネル
ギーが継続する時間、等を用いることができる。
検出された音声区間の信号波は線形予測分析回路
3に送られ、線形予測係数の時間波形に変換され
る。
この技術は、すでに公知であるので(例えば、
文献,板倉・斎藤:統計的手法による音声スペク
トル密度とホルマント周波数の推定、電子通信学
会論文誌,53−A,1,P.35,1970参照)、詳細
は省略するが、基本的にはまず低域通過フイルタ
に通したのち標本化及び量子化を行い、一定時間
ごとに短区間の波形を切り出してハミング窓等を
乗じ、積和の演算によつて相関係数を計算する。
ハミング窓の長さとしては、例えば30ms,これ
を更新する周期としては、例えば10msのような
値が用いられる。その相関係数から、繰返し演算
処理によつて代数方程式を解くことにより、容易
に線形予測係数が抽出される。これら相関係数及
び線形予測係数は、例えば第0次から第10次まで
の値を計算する。抽出された線形予測係数の時間
波形は、ケプストラム変換回路4により、いわゆ
る線形予測ケプストラム係数に変換される。線形
予測ケプストラム係数は、対数パワー・スペクト
ルのフーリエ変換によつて得られる従来のケプス
トラム係数とはやや異なるが、それによつて表現
されるスペクトル包絡は類似している。線形予測
ケプストラム係数は、音声の特徴を表現するパラ
メータとして優れた性質を有していることが知ら
れている(文献,古井貞煕:単音節認識とその大
語い単語音声認識への適用,電子通信学会論文
誌,J65−A,2,P.175,1982参照)。
線形予測係数から線形予測ケプストラムへの変
換は、次の演算により行うことができる。
c1=a1 ……(1) coo-1k=1 (1−k/n)akco−k+ao,1np
(2) ここで、aoはn次の線形回帰係数,Coはn次の
線形予測ケプストラム,pは線形予測モデルの次
元数である。pとしては、前述のように10程度の
値が用いられる。
抽出された線形予測ケプストラム係数(以下簡
単のため単にケプストラム係数と呼ぶ)Coの時
間波形は、一定間隔ごとに一定の時間長の区間が
ケプストラムレジスタ5に一旦蓄えられ、このレ
ジスタ5の内容は回帰係数計算回路6に送られ
て、線形回帰係数が演算される。このケプストラ
ムレジスタ5及び回帰係数計算回路6に入力され
る時間波形の長さとしては、例えば50ms、これ
を更新する周期としては、例えば10msのような
値を用いる。時間波形xj(j=−M,…M)であ
らわすと、この線形回帰係数aは次の演算で求め
ることができる。
a=(Mj=-M xj・j)/(Mj=-M j2) ……(3) 線形回帰係数は、各次数のケプストラム係数に
対して、10ms毎に更新される回帰係数計算回路
6の入力に応じて計算され、この線形回帰係数は
ケプストラム係数とあわせて2p次元の特徴パラ
メータとして特徴パラメータレジスタ7に送られ
て蓄えられる。
スイツチ8は、学習モードと認識モードを選択
するスイツチであつて、各語彙に対して、最初に
スイツチ8を端子8aに接続しておいて、後に認
識すべき音声を入力する本人あるいはその本人と
は異なる複数人の音声から特徴パラメータ波形を
求め、特徴パラメータレジスタ7に蓄えたのち標
準パターン蓄積部9に入力し、その語彙の標準パ
ターンとして蓄える。
その後認識すべき音声に対しては、スイツチ8
を端子8bに接続しておいて、特徴パラメータレ
ジスタ7の内容を非線形時間正規化回路10に入
力する。同時に各語に対応した標準パターンを標
準パターン蓄積部9から一つ一つ読出し、非線形
時間正規化回路10に入力する。非線形時間正規
化回路10では、標準パターンと入力音声の特徴
パラメータの類似性の度合いを計算する。音声の
発声速度は、同じ話者が同じ言葉を繰返し発声し
てもその度ごとに部分的及び全体的に変化するの
で、両者を比較するには、共通の音(音韻)が対
応するように、一方の時間軸を適当に非線形に伸
縮して他方の時間軸にあわせ、対応する時点の特
徴パラメータどうしを比較する必要がある。一方
を基準にして、両者が最もよく合うように(両者
の類似度が最も大きくなるように)他方の時間軸
を非線形に伸縮する技術としては、動的計画法に
よる最適化の手法を使用できることが知られてい
る(文献:迫江,千葉:動的計画法を利用した音
声の時間正規化に基づく連続単語認識,日本音響
学会誌,27,9,P.483,1971)。
この発明の方法においても、非線形時間正規化
回路10では、例えば動的計画法の演算を行う。
標準パターンのある時点kにおける特徴パラメー
タをrki(1i2P)(P次のケプストラム係数
とP次の線形回帰係数とよりなる)、入力音声の
ある時点lにおける特徴パラメータをxli(1i
2P)(P次のケプストラム係数とP次の線形回
帰係数とよりなる)であらわすと、ここで両者の
距離(小さくなるほど類似度が大きいことを示す
数値として、次のような値を用いる。
d=1/2P2Pi=1 wi 2(rki−xli2 ……(4) ここでwiは各特徴パラメータに対してあらかじ
め定められている重みを示す数値で、この値は予
備実験の結果にもとづいて比較的高い認識精度が
得られるような適切な値に定め、重みレジスタ1
1に蓄えておく。距離dの計算は(4)式に示すよう
に同一時点のP次のケプストラム係数とP次の線
形回帰係数とについて入力音声と標準パターンと
の差の二乗和として計算しており、つまりケプス
トラム係数と線形回帰係数との互に性質が異なる
ものを一緒に使つており、これらの平衡をとるた
めにwiの重み付けを行うものであり、従つてwi
値としてはケプストラム係数について演算する際
に用いるとwaと、線形回帰係数について演算す
る際に用いるwbとの少くとも2つの値を用いる。
これら重みwa〜wbは重みレジスタ11に蓄えて
おく。
動的計画法の演算によつて標準パターンと入力
音声の一致度が最もよくなるように時間軸を対応
づけたときの、対応する時点どうしの標準パター
ンと入力音声との特徴パラメータの距離を全音声
区間について平均した値を計算する。この値を、
入力音声と標準パターンとの総合的距離と呼ぶこ
とにする。各語彙に対応した標準パターンと入力
音声との総合的距離を比較回路12に入力し、論
理回路によりこれらすべての総合的距離のうち、
最も総合的距離の小さい語彙を判定する。この判
定結果は、出力端子13から出力される。
従来においては例えばケプストラム係数につい
てのみ入力音声と標準パターンとの距離を計算し
て最も近い語彙を求めていたが、この実施例にお
いては線形回帰係数についてもケプストラム係数
と同一時点のものをまとめて非線形時間正規化に
より類似の度合いを算出しており、この線形回帰
はケプストラム係数の時間波形の直線近似であ
り、この近似の傾斜が線形回帰係数であり、つま
りケプストラム係数の変化の傾向についても入力
音声と標準パターンとの類似の度合いを求めてい
る。その結果として、高品質のマイクロホンだけ
でなく、電話系を通つた音声、雑音や伝送歪の影
響を受けた音声等に対しても、しかも誰の音声に
対しても高い精度を示す単語音声認識システムを
実現することができる。これまでの実験によれ
ば、都市名100単語を認識対象語彙として、男性
4名の音声を標準パターンとして蓄積し、その話
者と異なる男性20名の音声に対して、前記実施例
による方法を適用することにより、97.4%の精度
で単語音声の認識ができることが示された、ケプ
ストラム係数のみを用いた従来の方法によれば、
93.8%の精度しか得られなかつたことと比較して
この発明が優れていることが理解される。
上述においては音声の周波数スペクトルの時間
に対する変化を示すパラメータとしてケプストラ
ム係数を用いたが、線形予測係数、ホルマント周
波数、パーコール係数、対数断面積比、零交差数
などを用いてもよい。
「発明の効果」 以上説明したように、この発明によれば、電話
系等を通つた音声から伝送歪等の影響を受けにく
く、異なる話者の音声に共通に含まれる単語の特
徴をとり出して用いることにより高い精度で単語
音声の認識が行えるため、電話の音声を用いたバ
ンキングサービス等の種々のサービスに広く応用
することができる。
【図面の簡単な説明】
第1図はこの発明の実施例を示す単語音声の認
識方法のブロツク図である。 1:音声入力端子、2:音声区間検出回路、
3:線形予測分析回路、4:ケプストラム変換回
路、5:ケプストラムレジスタ、6:回帰係数計
算回路、7:特徴パラメータレジスタ、8:スイ
ツチ、9:標準パターン蓄積部、10:非線形時
間正規化回路、11:重みレジスタ、12:比較
回路、13:出力端子。

Claims (1)

  1. 【特許請求の範囲】 1 標準パターン音声を入力し、その周波数スペ
    クトルの時間的変化を示すパラメータを算出し、
    そのパラメータの時間波形から線形回帰係数をそ
    の全時点について算出し、認識対象語彙ごとの上
    記パラメータ及び線形回帰係数の標準パターンを
    蓄積しておき、 認識すべき音声波入力の周波数スペクトルの時
    間的変化を示すパラメータを算出し、そのパラメ
    ータの時間波形から線形回帰係数を全時点につい
    て算出し、これらパラメータ及び線形回帰係数の
    時間波形と、上記認識対象語彙の標準パターンと
    を、非線形的な時間正規化を行うことによつて両
    者の類似の度合いを算出し、すべての認識対象語
    彙との類似の度合いを求め、そのうちの最も類似
    の度合いが大きい語彙が入力されたと判定するこ
    とを特徴とする単語音声の認識方法。
JP25894584A 1984-12-07 1984-12-07 単語音声の認識方法 Granted JPS61137199A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25894584A JPS61137199A (ja) 1984-12-07 1984-12-07 単語音声の認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25894584A JPS61137199A (ja) 1984-12-07 1984-12-07 単語音声の認識方法

Publications (2)

Publication Number Publication Date
JPS61137199A JPS61137199A (ja) 1986-06-24
JPH0426479B2 true JPH0426479B2 (ja) 1992-05-07

Family

ID=17327215

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25894584A Granted JPS61137199A (ja) 1984-12-07 1984-12-07 単語音声の認識方法

Country Status (1)

Country Link
JP (1) JPS61137199A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2943445B2 (ja) * 1991-01-25 1999-08-30 松下電器産業株式会社 音声認識方法
JPH0536187U (ja) * 1991-10-21 1993-05-18 シーケーデイ株式会社 逆止弁付き管継手
JP2943473B2 (ja) * 1992-01-14 1999-08-30 松下電器産業株式会社 音声認識方法
KR101052343B1 (ko) 2009-04-21 2011-07-27 주식회사 케이티 통화 중 음성 인식에 의한 정보 제공이 가능한 이동 단말 및 그 이동 단말에서의 정보 제공 방법

Also Published As

Publication number Publication date
JPS61137199A (ja) 1986-06-24

Similar Documents

Publication Publication Date Title
Tiwari MFCC and its applications in speaker recognition
EP0950239B1 (en) Method and recognizer for recognizing a sampled sound signal in noise
JPS62231997A (ja) 音声認識システム及びその方法
JPS58134698A (ja) 音声認識方法および装置
JPH0612089A (ja) 音声認識方法
Mistry et al. Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann)
Dash et al. Speaker identification using mel frequency cepstralcoefficient and bpnn
JPH01296299A (ja) 音声認識装置
KR20040038419A (ko) 음성을 이용한 감정인식 시스템 및 감정인식 방법
JPH0426479B2 (ja)
Kalaiarasi et al. Performance Analysis and Comparison of Speaker Independent Isolated Speech Recognition System
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language
JPH04369698A (ja) 音声認識方式
Saha et al. Modified mel-frequency cepstral coefficient
Maurya et al. Speaker recognition for noisy speech in telephonic channel
Sandanalakshmi et al. Speaker independent continuous speech to text converter for mobile application
JPH0426480B2 (ja)
Medhi et al. Different acoustic feature parameters ZCR, STE, LPC and MFCC analysis of Assamese vowel phonemes
Upadhyay et al. Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario
Saxena et al. A microprocessor based speech recognizer for isolated hindi digits
Nair Comparison of Digit Recognition Techniques
Nair et al. Digit Recognition based on Euclidean and DTW
Pattanayak et al. Significance of single frequency filter for the development of children's KWS system.
Pol et al. USE OF MEL FREQUENCY CEPSTRAL COEFFICIENTS FOR THE IMPLEMENTATION OF A SPEAKER RECOGNITION SYSTEM
Umarani et al. Isolated word recognition using enhanced MFCC and IIFS