JPH0221598B2 - - Google Patents

Info

Publication number
JPH0221598B2
JPH0221598B2 JP57014685A JP1468582A JPH0221598B2 JP H0221598 B2 JPH0221598 B2 JP H0221598B2 JP 57014685 A JP57014685 A JP 57014685A JP 1468582 A JP1468582 A JP 1468582A JP H0221598 B2 JPH0221598 B2 JP H0221598B2
Authority
JP
Japan
Prior art keywords
onomatopoeic
word
pattern
spectral
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57014685A
Other languages
English (en)
Other versions
JPS58132299A (ja
Inventor
Sadahiro Furui
Noboru Sugamura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP57014685A priority Critical patent/JPS58132299A/ja
Publication of JPS58132299A publication Critical patent/JPS58132299A/ja
Publication of JPH0221598B2 publication Critical patent/JPH0221598B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 <発明の背景> この発明はあらかじめ蓄積した認識対象単語を
示す複数のパタン系列と、未知入力音声単語との
マツチングを行つて、不特定話者の未知入力音声
を認識する不特定話者単語音声認識方法に関する
ものである。
従来不特定話者が発声した単語音声を認識する
方法としては、主に次の二つの方法が用いられて
いる。その一つは例えば日本音響学会昭和56年度
春季研究発表会講演論文集、3−1−23「不特
定話者用単語音声認識装置の試作」に示されるも
ので、音声波から抽出した特徴量(スペクトルパ
ラメータ)の系列に関して、多数話者の音声が高
い精度で正しく各単語に分離されるような識別関
数を作成し、未知入力音声の特徴量の系列にこの
関数を適用したときの関数値によつて単語の認識
を行う方法である。他の一つは各単語毎に多数話
者の特徴量の系列から代表的な複数の系列を選ん
で蓄えておき、未知入力音声の特徴量の系列と、
これらの系列との時間正規化マツチングを行つ
て、最も確らしい単語が発声されたものと認識す
る方法である。
前者の方法は識別関数の次元数にあうように時
間正規化された特徴量系列を未知入力音声から自
動的に抽出する方法と、適切な識別関数の作成法
や修正法とに困難な点が多く、後者の方法は認識
対象単語のスペクトルパラメータを短時間毎にす
べて蓄積しておく必要があり、しかも各単語毎に
複数の系列を蓄積するので単語数が大きくなると
記憶容量が膨大なものとなるとともに、マツチン
グの際の計算量も莫大となる問題点がある。
<発明の概要> この発明の目的は識別関数を用いず、従つて識
別関数の作成、修正のような困難を伴うことな
く、しかも少ない記憶容量、少ない計算量で不特
定話者の単語音声を高い認識率で認識することが
できる不特定話者単語音声認識方法を提供するこ
とにある。
この発明によれば複数の話者の音声から、クラ
スタリング手法により音声の短時間のスペクトル
の特徴を表わす擬音韻パタンを作成し、この擬音
韻パタンを蓄積し認識すべき単語を擬音韻パタン
系列として蓄積し、この場合不特定話者によるパ
タン系列の変動を考慮して多数の話者の音声のス
ペクトル系列のクラスタリングによつて各単語毎
に代表となる複数系列を作成して蓄えておき、不
特定話者よりの未知入力単語音声をスペクトル分
析し、これと上記各単語ごとの複数の擬音韻パタ
ン系列との時間正規化マツチングを行うことによ
り未知入力音声単語の認識をする。
<実施例> 第1図はこの発明による音声認識方法の実施例
を示し、音声入力は音声入力端子1よりスペクト
ルパラメータ抽出部2に入力される。抽出された
スペクトルパラメータはスイツチS1により擬音韻
標準パタンを作成する擬音韻標準パタン作成部
3、または擬音韻標準パタンとの距離を計算する
スペクトル距離計算部5へ供給される。作成部3
で作成された擬音韻標準パタンは擬音韻標準パタ
ン蓄積部4に記憶され、この記憶された擬音韻パ
タンは距離計算部5へ供給される。距離計算部5
で計算されたスペクトル距離はスイツチS2により
最小のものを選択する最小スペクトル距離パタン
選択部6、または系列間距離計算部8、もしくは
時間正規化スペクトルマツチング部12に切替え
供給される。選択部6で選択された単語ごとの擬
音韻標準パタンの系列は擬音韻パタン系列蓄積部
7に蓄積され、この擬音韻パタン系列はスペクト
ル距離計算部5で計算されたスペクトル距離の値
を用いて全認識単語の学習入力音声と擬音韻パタ
ン系列との時間正規化マツチングを行い、全体的
な距離の計算が系列間距離計算部8で行われる。
距離計算部8で計算された系列間距離は系列間距
離蓄積部9に蓄積される。これら系列間距離にも
とづいて代表的な系列が代表系列選択部10で選
択されて代表系列蓄積部11に蓄積される。時間
正規化スペクトルマツチング部12ではスペクト
ル距離計算部5で計算されたスペクトル距離の値
を用いて未知入力音声と代表系列とのマツチング
を行う。そのもつともよくマツチングしたものは
最小スペクトル距離系列選択部13で選択され、
認識結果出力端子14へ出力される。
<スペクトルパラメータ抽出部の例> スペクトルパラメータ抽出部2は例えば第2図
に示すように構成される。即ち入力端子21より
入力された音声信号は低域通過フイルタ22によ
り、例えば4KHz以上の高域周波数成分が除去さ
れる。この高域除去された音声信号はA/D変換
器23において、例えば8KHzの標本化周波数、
12ビツトの量子化精度でデイジタル信号に変換さ
れる。次にこのデイジタル信号はハミング窓乗算
回路24に入力され、例えば16msの短時間ごと
に、例えば32msの長さのハミング窓が乗じられ
て音声信号が切り出される。切り出された音声信
号は相関関数演算回路25に入力されて、例えば
10次までの相関関数が計算される。この計算は次
式により行われる。
rk=1/MM-Kl=1 x(l)x(l+k) ここでrkはk次の相関関数、Mは切り出された
音声信号に含まれる標本点の数、x(l)はl番
目の標本点における音声信号の値である。rpは切
り出された区間の平均パワーを表現しているの
で、この値rpを音声区間検出回路26に入力し、
この値rpがあらかじめ定めたしきい値よりも大き
い区間が、あらかじめ定めた長さよりも長く続い
たときこの区間を音声区間、それ以外を雑音また
は無音区間と判定する。その音声区間と判定され
た区間の各次数の相関関数を、同じ標本点の0次
の相関関数rpで徐算して正規化することにより相
関係数に変換したのちラグ窓乗算回路27に入力
しラグ窓を乗ずる。ラグ窓を乗じたのちの相関係
数は線形予測分析回路28に入力され、線形予測
係数に変換される。この具体的アルゴリズムは例
えば文献、板倉・斎藤:統計的手法による音声ス
ペクトル密度とホルマント周波数の推定、電子通
信学会誌56−A、1、P35、1970に示されている
方法を用いる。
次にこの線形予測係数をケプストラム変換回路
29に入力して例えば16次までのケプストラムに
変換する。この計算にはたとえば文献、B.S.
Atal:Effectiveness of linear prediction
characteristics of the speech wave for
automatic speaker identification and
verification、J.Aconst.Soc−Amer、55、6、p
−1304、1974に示されている方法を用いる。同時
に回路28で得られた線形予測係数と回路27よ
りの相関係数とをLPC相関係数抽出回路30に
入力し、同じく16次までの相関係数を抽出する。
この計算にはたとえば文献、A.H.Gray J.D.
Markel:Distance measure for speech
processing、IEEE Trans.Aconst、Speech&
Signal Process、ASSP−24、5、p380、1976に
示されている方法を用いる。このようにして抽出
された16次までの相関係数とケプストラムの値は
出力端子31から出力される。
<擬音韻標準パタン作成部の例> 次に第1図中の擬音韻標準パタン作成部3の一
例を第3図を参照して説明する。まず入力端子4
1よりスペクトルパラメータのセツト(この一つ
一つのセツトをフレームと呼ぶ)を次々に入力
し、これをいつたんスペクトルパラメータ蓄積部
42に蓄える。つぎにこれらのスペクトルパラメ
ータのうちポーズ区間、即ちパワーレベルがある
しきい値よりも小さいフレームのスペクトルパラ
メータセツトや近接類似スペクトルパラメータセ
ツトを除去し、この残り(Nフレームとする)を
フレーム間距離計算回路43に入力する。フレー
ム間距離計算回路43では各スペクトルパラメー
タセツト相互間(フレーム相互間)の距離を計算
し、この値をN×Nの行列の形でフレーム間距離
行列蓄積部44に蓄える。この距離の計算方法と
しては、例えばスペクトルパラメータのセツトが
相関係数とケプストラムで表現されているときに
は、これらを用いて次のようなWLR距離を計算
する。
DijoK=1 (Cik−Cjk)(ρik−ρjk) ここでDijはi番目のフレームとj番目のフレ
ームとのスペクトル距離(WLR距離)を表わし
ており、Cik、Cjkはk次のケプストラム、ρik、ρjk
はk次の相関係数、nはパラメータの最高次数で
ある。
つぎにこのフレーム間距離行列をしきい値内フ
レーム計数回路45に入力し、同時にしきい値入
力端子46からあらかじめ定められたしきい値を
入力して、各フレームiごとにDij≦θ(θはしき
い値)となるjの値とその個数を数えあげる。こ
の個数をMiとする。この値MiとMi種類のフレー
ム番号jをしきい値内フレーム番号蓄積部47に
入力し蓄える。次に制御部51にあらかじめ用意
しておく擬音韻標準パタン番号カウンタを1にセ
ツトしてしきい値内フレーム番号蓄積部47に蓄
えられている内容を最大クラスタ選択回路48に
入力し、すべてのMiのうちの最大値とそのiの
値を調べる。こののちi番目のフレームのスペク
トルパラメータと、Dij≦θとなるMi種類のフレ
ームのスペクトルパラメータとをスペクトルパラ
メータ蓄積部42から読出してスペクトルパラメ
ータ平均回路49に入力する。スペクトルパラメ
ータ平均回路49ではこれら入力されたスペクト
ルパラメータの値を、各パラメータの各次数ごと
に平均化して、平均値を擬音韻標準パタンのスペ
クトルパラメータとして擬音韻標準パタン出力端
子50より出力する。
つぎにしきい値内フレーム番号蓄積部47に蓄
えられているフレーム番号から、上述の平均化に
用いたフレームの番号を除去し、制御部51の擬
音韻標準パタン番号カウンタを一つ上げてこの状
態における最大のMiの値を調べ、上述と同様に
して凝音韻標準パタンを出力する。この操作をあ
らかじめ設定された数の擬音韻標準パタンが出力
されるか、しきい値内フレーム番号蓄積部47に
蓄えられているフレーム番号がつきるまで繰返
し、次々に擬音韻標準パタンを出力する。
この擬音韻標準パタンを得るために複数の話者
からの音声を入力し、前述のような操作により、
つまり感覚的ではなく物理的な尺度を用いて短時
間(フレーム)のスペクトルパラメータを似たも
のにクラス分けし、このクラス分けした短時間ス
ペクトルパラメータの系列によりすべての音声を
表現することができ、すべての音声を音韻パタン
の系列で表わすことができることと対応するから
その短時間のスペクトルパラメータを擬音韻標準
パタンと呼ぶ。
<代表系列選択部の例> 第1図中の代表系列選択部10の一例を第4図
に示す。即ち系列間距離蓄積部9からの系列間距
離行列は系列間距離入力端子61を経てしきい値
内系列計数回路62に入力され、同時にしきい値
入力端子63からあらかじめ定められたしきい値
が回路62に入力され、各系列mごとに距離がし
きい値よりも小さい系列の番号hとその個数を数
えあげる。この個数をLnとする。この値LnとLn
種類の系列の番号hはしきい値内系列番号蓄積部
64に蓄えられる。次に制御部67にあらかじめ
用意してある代表単語番号カウンタを1にセツト
して、しきい値内系列番号蓄積部64に蓄えられ
ている内容を最大クラスタ選択回路65に入力
し、すべてのLnのうちの最大値とそのmの値を
調べる。このmの値を1番目の代表単語番号とし
て代表単語番号出力端子66から出力する。
つぎにしきい値内系列番号蓄積部64に蓄えら
れている系列の番号のうち、上述の代表単語の系
列からしきい値よりも小さい距離にあるLn種類
の系列の番号を除去し、制御部67の代表単語番
号カウンタを一つ上げてこの状態における最大の
Lnの値を調べ、代表単語番号mを出力する。こ
の操作をあらかじめ設定された数の代表単語番号
が出力されるか、しきい値内系列番号蓄積部64
に蓄えられている系列番号がつきるまで繰返し、
次々に代表単語番号を出力する。
認識対象となる各単語を複数の話者によりそれ
ぞれ入力した音声について前述の代表系列選択処
理を行つて、各単語について複数の音声をクラス
分けし、その多い数のクラスから順に代表音声と
する。
第1図中の系列間距離計算部8および時間正規
化スペクトルマツチング部12においては、たと
えば文献、鹿野:大語い単語音声認識における
LPCスペクトルマツチング尺度の評価、日本音
響学会音声研究会資料、S80−60、1980に示され
ている動的計画法を用いた時間軸非線形伸縮マツ
チング法を用いる。
<認識手順> この不特定話者単語音声認識方法は使用に際し
てつぎの三つの段階に分けられる。
(1) 擬音韻標準パタンの作成と蓄積 (2) 擬音韻パタン系列の作成と蓄積 (3) 未知単語音声認識 まず(1)の段階ではスイツチS1は擬音韻標準パタ
ン作成部3に接続される。1人または複数の話者
が発声した音声入力(この場合の音声は必ずしも
認識対象単語でなくてよい)は入力端子1からス
ペクトルパラメータ抽出部2に供給され、短時間
スペクトル分析され、短時間(例えば16ms)ご
とにスペクトルパラメータのセツト{Pi(i=1,
n)が抽出される。この抽出されたパラメータは
相関係数やケプストラムなどであり、nはパラメ
ータの個数を表わしている。つぎに短時間ごとに
抽出された多くのスペクトルパラメータのセツト
を用いて擬音韻標準パタン作成部3で凝音韻標準
パタンを作成する。この作成は第3図について説
明したように必要に応じて前処理として無音区
間、近接類似スペクトルパラメータセツト等の不
必要なパラメータセツトを除去し、次にスペクト
ルパラメータセツト相互間のスペクトル距離を計
算し、この距離にもとづいてスペクトルパラメー
タセツトのクラスタリング(クラス分け)を行
い、このクラスタリングにより得られた代表的な
スペクトルパラメータセツトをあらかじめ設定さ
れたパタン数だけ凝音韻パタン蓄積部4に蓄積す
る。
(2)の擬音韻パタン系列の作成蓄積段階ではスイ
ツチS1はスペクトル距離計算部5に接続され、ス
イツチS2はまず最小スペクトル距離パタン選択部
6に接続される。各認識対象単語ごとに多数の話
者の音声を擬音韻標準パタンを用いた系列として
表わしていつたん蓄積する。即ちスペクトルパラ
メータ抽出部2からの各音声をスペクトル分析し
たパラメータと、擬音韻パタン蓄積部4に蓄積さ
れている各擬音韻標準パタンとのスペクトル距離
計算がスペクトル距離計算部5で短時間ごとに行
われ、その計算結果より最小スペクトル距離パタ
ン選択部6で最小スペクトル距離を有する擬音韻
標準パタンが選択される。このような操作を多数
話者の単語音声(同一認識対象単語)のそれぞれ
について行い、これら各単語音声を擬音韻パタン
の系列で表現する。即ち各音声は擬音韻パタンを
示す記号の系列で表現される。これらはいつたん
擬音韻パタン系列蓄積部7に蓄積される。
つぎにスイツチS2は系列間距離計算部8に接続
される。この状態で上述多数話者の単語音声を上
述の処理と同じ順序でそれぞれスペクトル分析し
スペクトル距離計算部5で短時間ごとに各擬音韻
標準パタンとのスペクトル距離を計算する。この
距離計算結果を系列間距離計算部8に入力して擬
音韻パタン系列蓄積部7に蓄積されている各系列
と入力単語音声の時間正規化スペクトルマツチン
グを行い、各系列との距離を計算する。上述多数
話者の単語音声のすべてについて同様の手続きを
行い、それぞれの単語音声と各系列との距離計算
結果を代表系列選択部10に入力する。これらの
距離計算結果は多数話者の単語音声相互間の距離
を表わしているので、代表系列選択部11では擬
音韻標準パタン作成部3における演算と同様の演
算により単語音声のクラスタリング、即ち擬音韻
パタン系列蓄積部7に蓄積されている擬音韻パタ
ン系列のクラスタリングを行う。具体的には第4
図に示したように各単語音声ごとにその単語音声
からの距離があらかじめ設定したしきい値より小
さい単語音声の数を調べ、この数が最も大きい単
語音声を1番目の代表単語音声とする。すべての
単語音声からこの代表単語音声と、この代表単語
音声からしきい値よりも小さい距離にある単語音
声を除去し、残りの単語音声相互間の距離をもと
に2番目の代表単語音声を選択する。以上の操作
をあらかじめ定めた一定数の代表単語音声が選択
されるか、すべての単語音声が除去されつくされ
るまで繰返し、選択された代表単語音声に対応す
る擬音韻パタン系列を擬音韻パタン系列蓄積部7
から読出して代表系列蓄積部11に蓄積する。こ
の操作を認識対象単語のすべてについて行い、各
認識対象単語ごとに複数の代表系列を代表系列蓄
積部11に蓄積する。
(3)の未知音声認識段階ではスイツチS1はスペク
トル距離計算部5に接続され、スイツチS2は時間
正規化スペクトルマツチング部12に接続され
る。入力端子1からの入力音声はスペクトルパラ
メータ抽出部2でスペクトル分析され、その分析
結果について短時間ごとにスペクトル距離計算部
5で擬音韻標準パタン蓄積部4から読出した各擬
音韻パタンとのスペクトル距離を計算する。この
計算結果と代表系列蓄積部11に蓄積した認識対
象単語の擬音韻パタン系列とを用いて音声の時間
伸縮を吸収するスペクトルマツチングを時間正規
化スペクトルマツチング部12で行い、最もよく
マツチングされたものを最小スペクトル距離系列
選択部13で選択して認識結果として出力端子1
4に出力する。この際各認識対象単語に対して複
数の代表系列があるので、最小スペクトル距離系
列選択部13ではスペクトル距離が最も小さい3
種類程度の系列をとり出し、その単語名に関する
多数決による決定を行えば、信頼度の高い単語決
定を行うことができる。
<効 果> 以上の各段階のうち(1)における擬音韻標準パタ
ンの決定は、何ら言語情報を必要とせず、物理的
なパラメータのみを用いたクラスタリングによつ
てなされるので極めて容易に行うことができる。
擬音韻標準パタンの決定のために入力する音声は
30単語程度でよく、認識対象単語である必要はな
い。
(2)では多数話者の単語音声相互間の距離を計算
するために全単語音声をいつたん蓄積する必要が
あるが、この発明方法によれば各単語音声は擬音
韻パタン名(記号)を単位とする記号系列で表現
されるので、その記憶容量はスペクトルパラメー
タを蓄積する方法に比べ大幅に少なくてすむ。擬
音韻パタンの数はたとえば256個程度でよい。ま
た単語音声相互間の距離を計算する際、系列間距
離計算部8でマツチングの都度スペクトル距離を
計算する必要がなく、スペクトル距離計算部5で
計算した擬音韻パタンとの距離の値のみを参照し
て共通に利用できるので時間正規化マツチングに
おける距離計算回数を大幅に減少することができ
る。このようにして計算された単語音声相互間の
距離にもとづいて各単語毎に代表的な系列がクラ
スタリングによつて自動的に決定されるので、こ
の処理も極めて容易に行うことができる。これら
の代表系列は記号系列であるので広い範囲の声の
個人差がカバーされるように各単語毎に10通り程
度あるいはそれ以上の代表系列を蓄積してもその
記憶容量は極めて少なくてすむ。
(3)では入力単語音声と認識対象単語との距離を
(2)における単語音声相互間の距離の計算と同様に
して行うので、時間正規化スペクトルマツチング
における距離計算回数を大幅に減少することがで
きる。つまり従来において各認識対象単語をスペ
クトルパラメータとして記憶しておき、未知入力
単語音声のスペクトルパラメータとの時間正規化
マツチングを行つているため、その都度距離計算
を行うことになり、各単語について複数の標準パ
タンを用いるような場合には特に計算量が膨大に
なる問題点があつた。しかしこの発明では距離計
算を計算部5で行つたのちにその計算結果を用い
て、つまり標準パタンにおきかえてマツチングを
行つているためその計算は頗る簡単である。
なおスペクトルパラメータ抽出部2、擬音韻標
準パタン作成部3、スペクトル距離計算部5、最
小スペクトル距離パタン選択部6、系列間距離計
算部8、代表系列選択部10、時間正規化スペク
トルマツチング部12および最小スペクトル距離
系列選択部13の一部又は全部は電子計算機によ
りその機能を実行させることができる。また系列
間距離計算部8と時間正規化スペクトルマツチン
グ部12は同一の機能を有するので、同一回路ま
たは同一計算機プログラムによつて実行すること
も可能である。
交換機と内線を通つた31単語について音声認識
を行つた。未知音声の話者は31名で、擬音韻は1
名で作り、単語辞書、即ち代表系列蓄積部11の
蓄積代表系列は264名の音声を用いて前述したク
ラスタ化により作成した。その代表系列の数は1
単語当り平均17.6であつた。この時の認識率は
48.0%となつた。一方単語辞書として本人を除く
30名の系列をそのまま用いた場合は認識率は97.2
%となつた。つまりこの発明によれば少ない系列
で高い認識率が得られる。
以上説明したようにこの発明による不特定話者
単語音声認識方法によればマツチングに必要な距
離計算が入力音声と擬音韻標準パタンとの計算だ
けでよく、計算量を大幅に減少できる利点があ
る。例えば擬音韻標準パタンの数をn、認識単語
数をm、各単語の平均標準パタン(代表音声)数
をl、マツチングのウインドをWとすると、従来
のパラメータ蓄積方法とこの発明の方法との計算
回数はmlW:nの関係になる。更に認識対象単
語の標準パタンは擬音韻パタンの系列で表現して
いるのでこのための記憶容量は、従来のパラメー
タそのものを蓄積しておく方法に比べ数十分の一
で済む利点がある。また擬音韻パタンおよび各単
語の代表系列はクラスタリングによつて自動的か
つ容易に作ることができ、しかも物理的尺度にも
とづいているため認識のための有効性が高い利点
がある。
【図面の簡単な説明】
第1図はこの発明による不特定話者単語音声認
識方法の基本的な構成を示すブロツク図、第2図
は第1図中のスペクトルパラメータ抽出部2の一
例を示すブロツク図、第3図は第1図中の擬音韻
標準パタン作成部3の一例を示すブロツク図、第
4図は第1図中の代表系列選択部10の一例を示
すブロツク図である。 1:音声入力端子、2:スペクトルパラメータ
抽出部、3:擬音韻標準パタン作成部、4:擬音
韻標準パタン蓄積部、5:スペクトル距離計算
部、6…最小スペクトル距離パタン選択部、7:
擬音韻パタン系列蓄積部、8:系列間距離計算
部、9:系列間距離蓄積部、10:代表系列選択
部、11:代表系列蓄積部、12:時間正規化ス
ペクトルマツチング部、13:最小スペクトル距
離系列選択部、14:認識結果出力端子。

Claims (1)

    【特許請求の範囲】
  1. 1 音声の短時間のスペクトルの特徴を表す擬音
    韻パタンと、これらの擬音韻パタンを用いて認識
    対象単語を擬音韻パタン系列として表したものと
    をあらかじめ蓄積しておき、未知入力単語音声を
    スペクトル分析し、これと上記擬音韻パタンとの
    距離を計算し、その計算結果を用いて上記擬音韻
    パタン系列と時間正規化マツチングを行うことに
    より、未知入力音声単語を認識する単語音声認識
    において、上記擬音韻パタンは複数の話者の音声
    から作成され、上記擬音韻パタン系列は複数の話
    者の音声から作成された複数の擬音韻パタン系列
    をクラスタリングすることによつて各単語毎に代
    表となる複数系列が作成され、これらと未知入力
    単語音声の時間正規化マツチングを行うことによ
    り、未知入力音声単語を認識することを特徴とす
    る不特定話者単語音声認識方法。
JP57014685A 1982-02-01 1982-02-01 不特定話者単語音声認識方法 Granted JPS58132299A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57014685A JPS58132299A (ja) 1982-02-01 1982-02-01 不特定話者単語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57014685A JPS58132299A (ja) 1982-02-01 1982-02-01 不特定話者単語音声認識方法

Publications (2)

Publication Number Publication Date
JPS58132299A JPS58132299A (ja) 1983-08-06
JPH0221598B2 true JPH0221598B2 (ja) 1990-05-15

Family

ID=11868056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57014685A Granted JPS58132299A (ja) 1982-02-01 1982-02-01 不特定話者単語音声認識方法

Country Status (1)

Country Link
JP (1) JPS58132299A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2554623B1 (fr) * 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur

Also Published As

Publication number Publication date
JPS58132299A (ja) 1983-08-06

Similar Documents

Publication Publication Date Title
Tiwari MFCC and its applications in speaker recognition
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
KR100312919B1 (ko) 화자인식을위한방법및장치
KR910002198B1 (ko) 음성인식방법과 그 장치
CA2098629C (en) Speech recognition method using time-frequency masking mechanism
JPH05216490A (ja) 音声コード化装置及び方法並びに音声認識装置及び方法
Linh et al. MFCC-DTW algorithm for speech recognition in an intelligent wheelchair
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
CN113077794A (zh) 一种人声识别系统
JPH0221598B2 (ja)
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
JP2001083978A (ja) 音声認識装置
Saha et al. Modified mel-frequency cepstral coefficient
JP2577891B2 (ja) 単語音声予備選択装置
Li et al. Speech recognition of mandarin syllables using both linear predict coding cepstra and Mel frequency cepstra
JPH0772899A (ja) 音声認識装置
Hmich et al. Discriminating coding applied to the Automatic Speaker Identification
Saxena et al. A microprocessor based speech recognizer for isolated hindi digits
JPH0441357B2 (ja)
JPH0426479B2 (ja)
Pol et al. USE OF MEL FREQUENCY CEPSTRAL COEFFICIENTS FOR THE IMPLEMENTATION OF A SPEAKER RECOGNITION SYSTEM
Bodruzzaman et al. Parametric feature-based voice recognition system using artificial neural network
JPS62100799A (ja) 音声認識方法
JPH10149190A (ja) 音声認識方法及び音声認識装置