JP2692382B2 - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP2692382B2
JP2692382B2 JP2404866A JP40486690A JP2692382B2 JP 2692382 B2 JP2692382 B2 JP 2692382B2 JP 2404866 A JP2404866 A JP 2404866A JP 40486690 A JP40486690 A JP 40486690A JP 2692382 B2 JP2692382 B2 JP 2692382B2
Authority
JP
Japan
Prior art keywords
similarity
speakers
dictionary
time series
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2404866A
Other languages
English (en)
Other versions
JPH04220699A (ja
Inventor
昌克 星見
麻紀 宮田
勝行 二矢田
省二 平岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2404866A priority Critical patent/JP2692382B2/ja
Priority to US07/808,692 priority patent/US5345536A/en
Priority to DE69127961T priority patent/DE69127961T2/de
Priority to EP91121856A priority patent/EP0492470B1/en
Publication of JPH04220699A publication Critical patent/JPH04220699A/ja
Application granted granted Critical
Publication of JP2692382B2 publication Critical patent/JP2692382B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、1名から数名の小数話
者が発声した認識対象音声を用いて不特定話者の音声の
認識を可能とする音声認識方法に関するものである。
【0002】
【従来の技術】従来から、不特定話者の音声認識を行な
うための音声標準パターンの作成には、あらかじめ多く
の話者が認識対象単語を発声したデータを用い、人間が
目視などで音声区間を切出して、それらを統計的に処理
していた。不特定話者を対象とした音声認識は、たとえ
ば、”ワードスポッティング手法を用いた不特定話者・
少数語向け音声認識装置”(電子通信情報学会 SP8
8ー18)に記載された構成が知られている。
【0003】この方法では、不特定話者用の認識対象単
語辞書を作成するために、実際に330名の話者が発声
した音声データを使用している。330名が10数字を
発声した音声データに対して人間がスペクトル波形など
を参考にして目視で音声区間を切出して、分析時間毎に
得られる特徴パラメータ(LPCケプストラム係数)の
時系列を求め、各単語毎に決められた発声時間になるよ
うに線形に音声データの圧縮を行ない330名分のデー
タの絶対値によって単語の標準パターンを作成する。未
知入力音声とこのようにして作成した標準パターンとの
照合を統計的距離尺度であるマハラノビス距離を用いて
行なうことによって、不特定話者の音声認識を可能にし
ている。この方法は、統計的距離尺度を用いて標準パタ
ーンとの照合、比較を行なうことによって、不特定話者
のスペクトル変動を統計的に吸収しようという考え方に
基づいている。しかし、統計的距離尺度のための標準パ
ターン作成には、1つの認識単語に対して数百名以上の
話者が発声したデータが必要である。
【0004】不特定話者用認識の他の既存の方法とし
て、マルチ標準パターンを用いる方法がある。この方法
は、多くのデータを分析して、それらの中から代表的な
ものを複数個選択し、複数の標準パターンと未知入力の
照合を行なうことによって不特定話者のスペクトル変動
に対処しようとするものである。しかし、この方法にお
いても、複数の標準パターンを作成するためには、数百
名のデータの収集と分析を必要とする。
【0005】
【発明が解決しようとする課題】しかしながら、前記既
存の方法のような構成では、認識対象音声の標準パター
ン作成には、データの収集、音声区間の切出しなどの膨
大な作業量があり、そのために容易に認識対象音声を変
更できないという課題を有していた。
【0006】本発明は上記課題を解決するもので、1名
から数名の少数話者が発声した認識対象音声を用いて不
特定話者の音声の認識を可能にする方法に関するもの
で、容易に認識対象音声を変更出来る音声認識方法の提
供を目的とするものである。
【0007】
【課題を解決するための手段】本発明は上記目的を達成
するもので、その構成に至る本発明の考え方は次のよう
なものである。
【0008】人の声は有声音では声帯の振動として発せ
られ、その振動音が喉頭、咽頭、舌、あご、唇など(こ
れらを調音器官と呼ぶ)で形成される声道を通る間に様
々な変調をうけて口から音声として出力される。ア、
イ、ウなどの音韻性は声道の形状として与えられる。無
声音は音源が声帯でない場合もあるが、音韻性はやはり
声道の形状で決められる。ところが、声道を形成する
喉、舌、歯、あご、唇などの形状や寸法は人ごとに微妙
に異なっているし、声帯の大きさも性別や年齢で異な
る。このために、人ごとの声の違いが生じることにな
る。つまり、人の違いによる声の差異は調音器官の違い
によるところが大きい。一方、声がア、イ、ウなど音韻
としてではなく、単語や文として発せられるとき、声道
の形が時間的に変化する。すなわち、声道の時間的変化
によって言葉が形成される。たとえば、「赤い」(ak
ai)と発声する場合、声道は、あごが開き舌の後方に
狭めのある/a/の発声から喉頭部の閉鎖と急激な開放
を伴う破裂音/k/に移り、さらに再び/a/の形状に
戻ってから徐々に舌を唇側に移動し、口を閉じた/i/
に移る。このような声道の変化パターンは発声しようと
している言葉によって決るものであり、人の違いによる
差異は少ないと考えられる。このように言葉としての音
声を静的な声道の形状とその時間的な変化に分割して考
えると、前者のみが話者によって異なり、後者は話者に
よる差は小さいと見なすことが出来る。したがって、静
的な声道の形状の違いに基づく差異を何等かの方法で正
規化できれば、不特定話者の認識が可能となる。
【0009】ところで、声道の形状の違いは発せられた
音声信号中では周波数スペクトルの違いとして表現され
る。周波数スペクトルを話者間で正規化する最も単純な
方法は、音素や音節をなど短時間の音声標準パターンと
のマッチングを行なって、クラス分けをすることであ
る。不特定話者用として作成された汎用的な標準パター
ンを用いれば話者の違いに大きく左右されない類似度情
報を得ることが出来る。すなわち、スペクトルをパター
ンマッチングによって類似度情報に変換することは、話
者間の差異を軽減することに相当する。一方、声道の変
化パターンは話者による差異がすくないのであるから、
1名から数名の少数話者の情報を用いれば十分である。
したがって、少数話者の単語や文節などの発声を類似度
情報の時間パターンとして辞書に登録すれば、それは不
特定話者用の辞書である。
【0010】このような考え方に基づく、上記目的を達
成するための本発明の技術的解決手段は、1名から数名
の話者が発声した認識対象音声を分析して得られる特徴
パラメータと、あらかじめ多数の話者で作成したn種類
の標準パターンと分析時間(1フレーム)毎にマッチン
グを行ない、得られるn次元の類似度ベクトルの時系列
を辞書として登録しておき、認識させたい入力音声も同
様にn種類の標準パターンとマッチングを行ない、得ら
れるn次元の類似度ベクトルの時系列を求め、前記辞書
との照合を行なうことによって不特定話者の音声認識を
行なうものである。
【0011】
【作用】本発明は上記構成により、まず1名から数名の
少数の話者が発声した音声を分析して得られる特徴パラ
メータに対して多数の話者で作成したn種類の音素や音
節などの標準パターンとの類似度を単位時間毎(フレー
ム毎)に求める。この類似度は多数の話者で作成した汎
用性のある標準パターンとのマッチング結果なので、n
種類の類似度値の相対関係は個人性の影響を受けにく
い。したがって、単位時間毎の類似度の相対関係をパラ
メータとして使用すれば不特定話者に対して有効であ
る。辞書として用意したn次元の類似度ベクトルの時系
列と、入力音声から得られる類似度ベクトルの時系列と
を照合することにより、少数の話者で作成した辞書で不
特定話者の音声を認識することができる。また、単位時
間毎の類似度として、最も信頼できるものを1つだけ用
いるのではなく、複数の候補を用いているのでより高い
認識率を得ることが出来る。なお、どのような言葉も音
素や音節の組合せで記述できるのでn種類の音素や音節
の標準パターンは1度作成しておけば、認識対象音声を
変更しても常に同じものが使用できる。辞書を変更して
他の音声を認識出来るようにする(すなわち認識語彙の
変更)には、少数の話者が発声するのみで良い。したが
って、簡単な手続きで不特定話者の音声認識が可能であ
り、さらに、語彙の変更などに対して柔軟性のある認識
装置の実現が可能になる。
【0012】
【実施例】(実施例1)以下、本発明の第一の実施例に
ついて説明する。
【0013】図1は、本実施例の構成図である。図1に
おいて、1は音響分析部、2は特徴パラメータ抽出部、
3は類似度計算部、4は標準パターン格納部、5はパラ
メータ時系列作成部、6は辞書格納部、7は認識部であ
る。
【0014】本実施例では、1名の話者の音声を辞書に
登録する場合について最初に説明を行なう。
【0015】図1において、入力音声が入力されると音
響分析部1で分析時間(フレームと呼ぶ、本実施例では
1フレーム=10msec)毎に線形予測係数(LP
C)を求める。次に、特徴パラメータ抽出部2で、LP
Cケプストラム係数(C0〜C8まで9個)を求める。
標準パターン格納部4には 、あらかじめ多くの話者が
発声したデータから作成した20種類の音素標準パター
ンを格納している。本実施例では、
【0016】
【外1】
【0017】の20個の音素標準パターンを使用する。
音素標準パターンは各音素の特徴部(その音素の特徴を
よく表現する時間的な位置)を目視によって正確に検出
し、この特徴フレームを中心とした特徴パラメータの時
間パターンを使用して作成する。
【0018】本実施例では、時間パターンとして、特徴
フレームの前8フレーム、後3フレーム、計12フレー
ム分のLPCケプストラム係数(C0〜C8)を1次元
にしたパラメータ系列
【0019】
【外2】
【0020】を使用する。(数1)に
【0021】
【外3】
【0022】を示す。
【0023】
【数1】
【0024】ここで
【0025】
【外4】
【0026】は特徴部の第kフレームにおけるi番目の
LPCケプストラム係数である。多くのデータに対して
パラメータ系列を抽出し、各要素の平均値ベクトル
【0027】
【外5】
【0028】と要素間の共分散行列
【0029】
【外6】
【0030】を求め標準パターンとする。平均値ベクト
【0031】
【外7】
【0032】は(数2)のようになる。
【0033】
【数2】
【0034】このように本実施例で用いている音素標準
パターンは複数フレームの特徴パラメータを使用してい
る。すなわちパラメータの時間的動きを考慮して標準パ
ターンを作成しているのが特徴である。
【0035】入力と音素pの標準パターンとの類似度計
算のためのマハラノビス距離dpは(数3)で表され
る。
【0036】
【数3】
【0037】ここで共分散行列
【0038】
【外8】
【0039】を各音素共通とすると(数4)のように簡
単な式に展開できる.共通化された共分散行列を
【0040】
【外9】
【0041】とする。
【0042】
【数4】
【0043】本実施例では、計算量の少ない(数4)を
用いる。
【0044】
【外10】
【0045】、bpが音素pに対する標準パターンであり
標準パターン格納部4にあらかじめ格納されている。
【0046】この20種類の音素標準パターンと特徴抽
出部で得られた特徴パラメータ(LPCケプストラム係
数)と類似度計算部3でフレーム毎に類似度計算を行な
う。類似度計算部の結果から、パラメータ時系列作成部
5で類似度ベクトルの時系列を求める。類似度ベクトル
の時系列の例を図2に示す。図2は「赤い」(aka
i)と発声した場合の例で、横軸が時間方向で縦軸が各
時間における類似度を示す。/a/の標準パターンにつ
いて説明すると、入力を1フレームずつシフトさせなが
ら標準パターンとマッチングを行ない類似度の時系列を
求める。図2の例では、40、46、68、74、60、.......10、14、
16が類似度の時系列である。この類似度を20個の音素
標準パターン全てに対して同様に求める。類似度ベクト
ルは図2の斜線で示した部分を指す。図2で示したよう
な類似度ベクトルの時系列を認識部7に送る。
【0047】辞書格納部6には、あらかじめ一人の話者
が発声した認識対象音声を分析し上記の20個の標準パ
ターンとフレーム毎に類似度計算を行なった結果得られ
る類似度ベクトルの時系列(図2と同様な形式のもの)
を辞書に登録しておく。認識部7では、辞書格納部にあ
る類似度ベクトルの時系列と入力音声を分析して得られ
る類似度ベクトルの時系列パターンとをマッチングし最
もスコアの大きい辞書項目を認識結果とする。マッチン
グ方法として本実施例ではDPマッチングを行なう。D
Pマッチングを行なう漸化式の例を(数5)に示す。こ
こで、辞書の長さをJフレーム、入力の長さをIフレー
ム、第iフレームと第jフレームの距離関数をl(i,
j),累積類似度をg(i,j)とする。
【0048】
【数5】
【0049】距離関数l(i,j)の距離尺度は、ユー
クリッド距離、重み付ユークリッド距離、相関余弦距離
などが使用できる。本実施例では、距離尺度として相関
余弦を用いた場合について説明を行なう。入力音声のi
フレームにおける類似度ベクトルを(数6)、辞書のj
フレームにおける類似度ベクトルを(数7)とすると、
相関距離を用いた場合のl(i,j)は、(数8)の様
になる。
【数6】
【数7】
【0050】
【数8】
【0051】発声話者が2名の場合は、2名の発声した
同一音声を、認識する場合と同様にDPマッチングを行
ない時間整合を行なう。時間整合について図3を用いて
説明を行なう。図3は「赤い」(akai)と2名の話
者が発声した例である。話者によって発声の時間長が異
なるので、DPマッチング法で時間整合行なう。時間整
合することによって、同じ音素の区間(/a/,/k
/,/a/,/i/)が整合するようになる。この時間
的に整合したフレーム間で各類似度の平均値を求める。
この平均化した類似度ベクトルの時系列を辞書として登
録する。3名以上の場合は、同じ作業を繰返し複数話者
の平均化した類似度ベクトルの時系列を作成し辞書に登
録する。たとえば2名の話者の発声した音声で登録辞書
を作成する場合は、2名の話者の同一の認識対象音声間
でDPマッチングを行ない、その結果からDPパスを逆
トレースし時間整合を行なう。図3の斜線で示した話者
1の第iフレーム[類似度ベクトルを(数9)とする]
と話者2の第jフレーム[類似度ベクトルを(数10)
とする]が時間的に整合する場合は、新しく(数11)
を求めこの類似度ベクトルfを辞書のiフレームの類似
度ベクトルとして登録する。こうすることによって、辞
書の精度を向上させ、より高い認識率を得ることが出来
る。
【数9】
【数10】
【数11】
【0052】次に、複数話者の発声した音声をマルチ標
準パターンとして辞書に登録する方法について説明を行
なう。認識対象音声を複数話者が発声した音声の類似度
パターンをそのまま辞書として複数個登録する。この場
合は、辞書項目毎に複数個登録されている標準パターン
の中のどの辞書で認識されてもその辞書項目を認識した
ものとする。
【0053】以上のような図1の構成において、以下そ
の動作について説明する。あらかじめ多数の話者で作成
した音素標準パターンは標準パターン格納部4に格納さ
れている。認識対象音声を1名または数名の少数話者が
発声し、分析して得られた類似度ベクトルの時系列が辞
書格納部6に登録されている(図1の破線)。未知音声
を認識する場合は、入力音声を音響分析部1で分析し、
特徴パラメータ抽出部2でLPCケプストラム係数を求
める。このLPCケプストラム係数と標準パターンとの
マッチングを類似度計算部3でフレームごとに行ない、
パラメータ時系列作成部5で類似度ベクトルの時系列を
求める(図2の形式のもの)。この類似度ベクトルの時
系列と辞書格納部6に格納されいる認識対象音声の類似
度ベクトルの時系列とを認識部7でDPマッチングを行
ない最も類似度の大きい認識対象音声を認識結果とす
る。
【0054】以上、本実施例を用いて212単語を発声
した20名のデータを用いて認識実験を行なった。20
名の中の1名が212単語を発声したデータを辞書とし
て登録し、他の19名の発声した212単語を認識する
実験を行なった。実験の結果88.7という認識率を得
ることが出来た。
【0055】認識対象音声を2名が発声した音声から得
られる類似度ベクトルの時系列の平均化した時系列パタ
ーンを使用すると93.4%という高い認識率が得られ
た。また、2名が発声した音声を平均化しないで2つと
も辞書として登録しマルチ標準パターンとする方法では
93.2% という認識率が得られた。
【0056】本実施例の様に入力音声を分析して得られ
る特徴パラメータをそのまま使用せずに、多数の話者の
音声データで作成した標準パターンとの類似度計算から
得られる類似度ベクトルを入力ベクトルとしDP法など
で認識を行なうことによって1名または数名の少数話者
の発声した音声データを辞書として登録するだけで不特
定話者の音声を精度良く認識することが出来るようにな
る。
【0057】(実施例2) 次に、回帰係数を併用する第2の実施例について、図4
を用いて説明を行なう。 図4において、8は音響分析
部、9は特徴パラメータ抽出部、10は類似度計算部、
11は標準パターン格納部、12は回帰係数計算部、1
3はパラメータ時系列作成部、14は辞書格納部、15
は認識部である。
【0058】本実施例においても、前記第1の実施例と
同様に類似度ベクトルの時系列を類似度計算部8で求め
る。各類似度の時系列に対して類似度の時間的変化量で
ある回帰係数(n個)を回帰係数計算部9でフレーム毎
に求める。回帰係数は、フレームの前後2フレームの類
似度値(計5フレームの類似度値)の最小2乗近似直線
の傾き(類似度の時間的変化量)を使用する。図4を用
いて類似度の回帰係数について説明を行なう。たとえ
ば、音素/a/の標準パターンで説明すると、入力を1
フレームずつシフトさせながら/a/の標準パターンと
マッチングを行ない類似度の時系列を求める。このフレ
ーム毎の類似度をプロットしたのが図5である。図5に
おいて横軸がフレーム、縦軸が類似度である。第iフレ
ームを中心に第i−2から第i+2フレームの最小二乗
直線の傾きを求め、これを第iフレームにおける類似度
の時間変化量(回帰係数)とする。回帰係数を求める式
を(数7)に示す。この回帰係数を1フレームごとに全
フレームに対して求める。また、他の標準パターンに対
しても同様にして回帰係数を全フレームに対して求め
る。
【0059】
【数12】
【0060】このフレーム毎に求められたn次元の類似
度ベクトルとn次元の回帰係数ベクトルの両方をパラメ
ータとして認識を行なう。前記実施例では、入力音声の
iフレームにおける類似度ベクトルと辞書のjフレーム
における類似度ベクトルの距離として(数2)の相関距
離を使用していた。回帰係数を併用した場合の距離関数
l(i,j)は,(数13)を用いる。ここで、入力音
声のiフレームにおける回帰係数ベクトルを(数1
4)、辞書のjフレームにおける回帰係数ベクトルを
(数15)とする。
【0061】
【数13】
【数14】
【数15】
【0062】wは類似度と回帰係数の混合比率であり、
0.4から0.6がよい。以上の相関余弦を用いて前記
従来例と同様の方法でDPマッチングを行ない類似度を
求め最も類似度の大きい辞書項目を認識結果とする。
【0063】第2の実施例を用いて212単語を発声し
た20名のデータを用いて認識実験を行なった。20名
の中の1名のデータを辞書として登録し、他の19名の
発声した212単語を認識する実験を行なった。類似度
ベクトルと回帰係数ベクトルを併用すると、91.8%
の単語認識率が得られた。これは、回帰係数を併用する
前より3.1%向上した。また、2名の話者の発声した
音声を平均化したデータを辞書として登録し残り18名
を評価すると95.9%の認識率が得られ、回帰係数を
併用する前より2.5%向上した。
【0064】本発明は入力音声を分析して得られる特徴
パラメータをそのまま使用せずに、いったん多数の話者
の音声データで作成した標準パターンとのマッチングに
よって、類似度と類似度の回帰係数に変換し、これらを
入力ベクトルとしDP法などで認識を行なうことによっ
て、1名または数名の少数の話者の発声した音声データ
を辞書として登録するだけで不特定話者の音声を精度良
く認識することが出来るようになる。
【0065】
【発明の効果】以上の様に本発明は、音声を分析して得
られた特徴パラメータに対してあらかじめ多くの話者で
作成したn種類の標準パターンとの類似度計算を行なっ
て類似度を求め、n次元の類似度ベクトルまたはn次元
の類似度ベクトルとn次元回帰係数ベクトルを音声認識
のための特徴パラメータとすることによって、1名から
数名の少数の話者が発声した認識対象音声を辞書として
登録するだけで、不特定話者の音声を精度良く認識する
ことが出来る手段を提供するものである。したがって、
辞書の作成が極めて容易であり、また認識対象音声を変
更したい場合には、1人または数名の少数の話者が発声
した音声データを辞書として登録するだけで辞書が更新
できる。そして高い認識率を得ることが出来る。このよ
うに本発明は不特定話者用音声認識装置の性能向上およ
びいろいろな用途へ適用するための柔軟性の向上に対し
て極めて大きく貢献する。
【図面の簡単な説明】
【図1】本発明の第1の実施例における音声認識方法を
具現化する機能ブロック図
【図2】第1の実施例における類似度ベクトルの時系列
を説明する時系列図
【図3】第1の実施例における2名の話者の登録音声に
対する時間整合を説明する模式図
【図4】本発明の第2の実施例における音声認識方法を
具現化する機能ブロック図
【図5】第2の実施例における回帰係数を示す特性図
【符号の説明】
1 音響分析部 2 特徴パラメータ抽出部 3 類似度計算部標準パターン格納部 5 パラメータ時系列作成部 6 辞書格納部 7 認識部 8 音響分析部 9 特徴パラメータ抽出部 10 類似度計算部 11 標準パターン格納部 12 回帰係数計算部 13 パラメータ時系列作成部 14 辞書格納部 15 認識部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 平岡 省二 神奈川県川崎市多摩区東三田3丁目10番 1号 松下技研株式会社内 (56)参考文献 特開 平1−216397(JP,A) 特開 平2−248999(JP,A)

Claims (11)

    (57)【特許請求の範囲】
  1. 【請求項1】 1名から数名の少数の話者が発声した認
    識対象音声から分析時間(フレーム)毎に得られるm個
    の特徴パラメータからなる系列の各々について、あらか
    じめ多数の話者が発声したデータからm個の特徴パラメ
    ータを求め、そのm個の特徴パラメータから作成したn
    種類の標準パターンとのマッチングを行ない、n個の類
    似度をフレーム毎に求め、この類似度ベクトルで作成し
    た時系列パターンをあらかじめ辞書登録しておき、未知
    の入力音声から分析時間毎に得られるm個の特徴パラメ
    ータからなる系列の各々について、前記n種類の標準パ
    ターンとのマッチングを行ないn次元の類似度ベクトル
    の時系列を求め、前記辞書に登録されている類似度ベク
    トルの時系列と照合し、入力音声を認識することを特徴
    とする音声認識方法。
  2. 【請求項2】 n種類の各類似度の時系列それぞれに対
    して類似度の時間変化量をフレーム毎にn個求め、この
    類似度の時間変化量のn次元ベクトルと類似度のn次元
    ベクトルを併用して時系列パターンを作成することを特
    徴とする請求項1記載の音声認識方法。
  3. 【請求項3】 類似度の時間変化量として回帰係数を用
    いることを特徴とする請求項2記載の音声認識方法。
  4. 【請求項4】 同一の認識対象音声を2名以上の話者が
    発声し、それぞれ分析して得られるn次元類似度ベクト
    ルの時系列に対して、DPマッチングによって話者間の
    時間整合を行ない、時間的に整合したフレーム間で各類
    似度の平均値を求めその平均値の時系列パターンを辞書
    に登録することを特徴とする請求項1記載の音声認識方
    法。
  5. 【請求項5】 同一の認識対象音声を2名以上の話者が
    発声し、それぞれ分析して得られるn次元類似度ベクト
    ルとn次元回帰係数ベクトルの時系列に対して、DPマ
    ッチングによって話者間の時間整合を行ない、時間的に
    整合したフレーム間で各類似度と各類似度の時間変化量
    の平均値を求めその平均値の時系列パターンを辞書に登
    録することを特徴とする請求項1記載の音声認識方法。
  6. 【請求項6】 同一の認識対象音声を2名以上の話者が
    発声し、それぞれ分析して得られるn次元類似度ベクト
    ルの時系列を複数個求め、これらを辞書として登録し、
    マルチ標準パターンとして使用することを特徴とする請
    求項1記載の音声認識方法。
  7. 【請求項7】 同一の認識対象音声を2名以上の話者が
    発声し、それぞれ分析して得られるn次元類似度ベクト
    ルとn次元の類似度の時間変化量ベクトルの時系列を複
    数個求めこれらを辞書として登録し、マルチ標準パター
    ンとして使用することを特徴とする請求項1記載の音声
    認識方法。
  8. 【請求項8】 辞書と入力音声を照合する方法としてD
    Pマッチングを用いることを特徴とする請求項1記載の
    音声認識方法。
  9. 【請求項9】 類似度ベクトル間または類似度の時間変
    化ベクトル間の距離を求める距離尺度として、ユークリ
    ッド距離、重み付ユークリッド距離、相関余弦を用いる
    ことを特徴とする請求項1または2記載の音声認識方
    法。
  10. 【請求項10】 標準パターンとして音素、音節、半音
    節、音素片等の音響学的な基本単位に基ずくカテゴリー
    の標準パターンを使用することを特徴とする請求項1記
    載の音声認識方法。
  11. 【請求項11】 標準パターンとのマッチングの距離尺
    度として、マハラノビス距離又は各標準パターンの共分
    散行列を共通化したマハラノビス距離を用いることを特
    徴とする請求項1ないし10のいずれか記載の音声認識
    方法。
JP2404866A 1990-12-21 1990-12-21 音声認識方法 Expired - Lifetime JP2692382B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2404866A JP2692382B2 (ja) 1990-12-21 1990-12-21 音声認識方法
US07/808,692 US5345536A (en) 1990-12-21 1991-12-17 Method of speech recognition
DE69127961T DE69127961T2 (de) 1990-12-21 1991-12-19 Verfahren zur Spracherkennung
EP91121856A EP0492470B1 (en) 1990-12-21 1991-12-19 Method of speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2404866A JP2692382B2 (ja) 1990-12-21 1990-12-21 音声認識方法

Publications (2)

Publication Number Publication Date
JPH04220699A JPH04220699A (ja) 1992-08-11
JP2692382B2 true JP2692382B2 (ja) 1997-12-17

Family

ID=18514521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2404866A Expired - Lifetime JP2692382B2 (ja) 1990-12-21 1990-12-21 音声認識方法

Country Status (1)

Country Link
JP (1) JP2692382B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3114468B2 (ja) 1993-11-25 2000-12-04 松下電器産業株式会社 音声認識方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60202488A (ja) * 1984-03-28 1985-10-12 松下通信工業株式会社 単語音声認識方法
US4585752A (en) * 1984-08-15 1986-04-29 W. R. Grace & Co. Catalyst composition for ultra high temperature operation
JP2601448B2 (ja) * 1985-09-19 1997-04-16 株式会社リコー 音声認識方法及びその装置
JPH0677199B2 (ja) * 1985-12-20 1994-09-28 キヤノン株式会社 音声認識装置
JPH0823758B2 (ja) * 1988-02-24 1996-03-06 日本電信電話株式会社 話者適応形音声認識装置
JPH02248999A (ja) * 1989-03-22 1990-10-04 Ricoh Co Ltd 音声認識方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3114468B2 (ja) 1993-11-25 2000-12-04 松下電器産業株式会社 音声認識方法

Also Published As

Publication number Publication date
JPH04220699A (ja) 1992-08-11

Similar Documents

Publication Publication Date Title
Hosom Automatic time alignment of phonemes using acoustic-phonetic information
EP2048655A1 (en) Context sensitive multi-stage speech recognition
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
JP2692382B2 (ja) 音声認識方法
JP2745562B2 (ja) ノイズ適応形音声認識装置
JP2879989B2 (ja) 音声認識方法
JP2011180308A (ja) 音声認識装置及び記録媒体
JP2574557B2 (ja) 音声認識方法
JP2943445B2 (ja) 音声認識方法
JP2943473B2 (ja) 音声認識方法
Shafie et al. Sequential classification for articulation and Co-articulation classes of Al-Quran syllables pronunciations based on GMM-MLLR
JP3277522B2 (ja) 音声認識方法
Adam et al. Analysis of Momentous Fragmentary Formants in Talaqi-like Neoteric Assessment of Quran Recitation using MFCC Miniature Features of Quranic Syllables
JP2862306B2 (ja) 音声認識装置
JP3115016B2 (ja) 音声認識方法および装置
JP3289670B2 (ja) 音声認識方法および音声認識装置
Sahu et al. An overview: context-dependent acoustic modeling for LVCSR
Takahashi et al. Isolated word recognition using pitch pattern information
JPH0675589A (ja) 音声認識方法
Yfantis et al. On time alignment and metric algorithms for speech recognition
KR100488121B1 (ko) 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법
Mohammed et al. Robust automatic speech recognition system: hmm versus sparse

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080905

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080905

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090905

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090905

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100905

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110905

Year of fee payment: 14

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110905

Year of fee payment: 14