JP2943473B2 - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP2943473B2
JP2943473B2 JP4004642A JP464292A JP2943473B2 JP 2943473 B2 JP2943473 B2 JP 2943473B2 JP 4004642 A JP4004642 A JP 4004642A JP 464292 A JP464292 A JP 464292A JP 2943473 B2 JP2943473 B2 JP 2943473B2
Authority
JP
Japan
Prior art keywords
time
similarity
speech
dictionary
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP4004642A
Other languages
English (en)
Other versions
JPH05188988A (ja
Inventor
昌克 星見
麻紀 宮田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4004642A priority Critical patent/JP2943473B2/ja
Publication of JPH05188988A publication Critical patent/JPH05188988A/ja
Application granted granted Critical
Publication of JP2943473B2 publication Critical patent/JP2943473B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、不特定話者の音声認識
方法に関するものである。
【0002】
【従来の技術】従来から、不特定話者の音声認識を行な
うための音声標準パターンの作成には、予め多くの話者
が認識対象単語を発声したデータを用い、人間が目視な
どで音声区間を切出して、それらを統計的に処理してい
た。不特定話者を対象とした音声認識は、たとえば、”
ワードスポッティング手法を用いた不特定話者・少数語
向け音声認識装置”(電子通信情報学会 SP88ー1
8)に記載された構成が知られている。
【0003】この方法では、不特定話者用の認識対象単
語辞書を作成するために、実際に330名の話者が発声
した音声データを使用している。330名が10数字を
発声した音声データに対して人間がスペクトル波形など
を参考にして目視で音声区間を切出して、分析時間毎に
得られる特徴パラメータ(LPCケプストラム係数)の
時系列を求め、各単語毎に決められた発声時間になるよ
うに線形に音声データの圧縮を行ない330名分のデー
タの絶対値によって単語の標準パターンを作成する。未
知入力音声とこのようにして作成した標準パターンとの
照合を統計的距離尺度であるマハラノビス距離を用いて
行なうことによって、不特定話者の音声認識を可能にし
ている。
【0004】この方法は、統計的距離尺度を用いて標準
パターンとの照合、比較を行なうことによって、不特定
話者のスペクトル変動を統計的に吸収しようという考え
方に基づいている。しかし、統計的距離尺度のための標
準パターン作成には、1つの認識単語に対して数百名以
上の話者が発声したデータが必要である。
【0005】不特定話者用認識の他の既存の方法とし
て、マルチ標準パターンを用いる方法がある。この方法
は、多くのデータを分析して、それらの中から代表的な
ものを複数個選択し、複数の標準パターンと未知入力の
照合を行なうことによって不特定話者のスペクトル変動
に対処しようとするものである。しかし、この方法にお
いても、複数の標準パターンを作成するためには、数百
名のデータの収集と分析を必要とする。
【0006】
【発明が解決しようとする課題】このように、既存の方
法のような構成では、認識対象音声の標準パターン作成
には、データの収集、音声区間の切出しなどの膨大な作
業量があり、そのために容易に認識対象音声を変更でき
ないという課題を有していた。
【0007】本発明は認識対象音声の変更が容易で、し
かも精度よく音声を認識することができる音声認識方法
を提供することを目的とするものである。
【0008】
【課題を解決するための手段】上記課題を解決するする
ための技術的手段は次のようなものである。まず、1名
から数名の話者が発声した、音韻環境を考慮した単語セ
ットを分析して得られる特徴パラメータと、予め多数の
話者で作成したn種類の音素などの標準パターンとのマ
ッチングを分析時間(1フレーム)毎に行ない、得られ
るn次元の類似度ベクトルの時系列から音声片パターン
を切出して音声片辞書として登録しておく。
【0009】認識対象辞書の各項目に、この音声片辞書
に登録された音声片パターンを接続するのみで作成した
ものを登録しておいても、音声片の接続部における特徴
パラメータの不連続性や単語全体に対する不自然な連続
性のため、認識率にも限界がある。
【0010】そこで、音韻環境を考慮した単語セットか
ら切出した音声片のパターンを接続して作成した認識対
象語の類似度の時系列と、同じ認識対象語を少数の話者
が実際に発声しその発声から得られる類似度の時系列と
の時間的な対応をDPマッチングによって求め、時間的
に対応するフレーム間で両類似度の平均値を求め、その
平均値の時系列パターンを認識対象辞書項目とする。こ
れを用いて不特定話者の音声を認識する。
【0011】
【作用】本発明は上記構成により、まず1名から数名の
少数の話者が発声した音韻環境を考慮した単語セットを
発声した音声データを分析して得られる特徴パラメータ
に対して多数の話者で作成したn種類の音素や音節など
の標準パターンとの類似度を単位時間(フレーム)毎に
求める。この類似度は多数の話者で作成した汎用性のあ
る標準パターンとのマッチング結果なので、n種類の類
似度値の相対関係は個人性の影響を受けにくい。従っ
て、単位時間毎の類似度の相対関係をパラメータとして
使用すれば不特定話者に対して有効である。
【0012】この類似度の時系列から音声片パターンを
切出し音声片辞書として登録する。この音声片パターン
は1度作成しておけば、認識対象音声を変更しても常に
同じものが使用できる。認識対象辞書項目を変更して他
の音声を認識出来るようにする(すなわち認識語いの変
更)には、この音声片パターンを接続して認識対象辞書
の各項目を作成した類似度の時系列と、1名から数名の
少数話者が実際に発声した音声から得られる類似度の時
系列に対して、DPマッチングによって時間整合を行
い、時間的に整合したフレーム間で両類似度の平均値を
求め、その平均値の類似度の時系列を登録するだけで良
い。
【0013】したがって、上記のような簡単な手続きで
認識対象語彙の変更が容易にでき、しかも高い認識率を
得ることが出来る。
【0014】
【実施例】本発明は次のような考え方に基づいている。
【0015】人の声は有声音では声帯の振動として発せ
られ、その振動音が喉頭、咽頭、舌、あご、唇など(こ
れらを調音器官と呼ぶ)で形成される声道を通る間に様
々な変調をうけて口から音声として出力される。ア、
イ、ウなどの音韻性は声道の形状として与えられる。無
声音は音源が声帯でない場合もあるが、音韻性はやはり
声道の形状で決められる。ところが、声道を形成する
喉、舌、歯、あご、唇などの形状や寸法は人ごとに微妙
に異なっているし、声帯の大きさも性別や年齢で異な
る。このために、人ごとの声の違いが生じることにな
る。つまり、人の違いによる声の差異は調音器官の違い
によるところが大きい。
【0016】一方、声がア、イ、ウなど音韻としてでは
なく、単語や文として発せられるとき、声道の形が時間
的に変化する。すなわち、声道の時間的変化によって言
葉が形成される。たとえば、「赤い」(akai)と発
声する場合、声道は、あごが開き舌の後方に狭めのある
/a/の発声から喉頭部の閉鎖と急激な開放を伴う破裂
音/k/に移り、さらに再び/a/の形状に戻ってから
徐々に舌を唇側に移動し、口を閉じた/i/に移る。こ
のような声道の変化パターンは発声しようとしている言
葉によって決るものであり、人の違いによる差異は少な
いと考えられる。
【0017】このように言葉としての音声を静的な声道
の形状とその時間的な変化に分割して考えると、前者の
みが話者によって異なり、後者は話者による差は小さい
と見なすことが出来る。従って、静的な声道の形状の違
いに基づく差異を何等かの方法で正規化できれば、不特
定話者の認識が可能となる。
【0018】ところで、声道の形状の違いは発せられた
音声信号中では周波数スペクトルの違いとして表現され
る。周波数スペクトルを話者間で正規化する最も単純な
方法は、音素や音節をなど短時間の音声標準パターンと
のマッチングを行なって、クラス分けをすることであ
る。不特定話者用として作成された汎用的な標準パター
ンを用いれば話者の違いに大きく左右されない類似度情
報を得ることが出来る。すなわち、スペクトルをパター
ンマッチングによって類似度情報に変換することは、話
者間の差異を軽減することに相当する。
【0019】一方、声道の変化パターンは話者による差
異が少ないのであるから、1名から数名の少数話者の情
報を用いれば十分である。従って、少数話者の発声した
単語や文節などの発声から得られる類似度情報の時間パ
ターンを辞書に登録すれば、それは不特定話者用の辞書
になる。
【0020】以下、本発明の第一の実施例について説明
する。本実施例では、音韻環境を考慮した単語セット
(530単語セット)を6名の話者が発声し、音声片と
してCV(子音+母音)とVC(母音+子音)を使用す
る。これらの音声片を接続して作成した認識対象語と、
同じ認識対象とする言葉を少数の話者が発声したものか
ら得た時系列パターンとを混合して作成した認識対象語
辞書を用いて、入力音声を認識する。
【0021】図1は、本実施例の構成図である。図1に
おいて、1は音響分析部、2は特徴パラメータ抽出部、
3は類似度計算部、4は標準パターン格納部、5はパラ
メータ系列作成部、6は音声片辞書格納部、7は音声片
接続部、8は時間整合部、9は認識対象辞書項目作成
部、10は認識対象辞書格納部、11は認識部、12は
未知入力の認識と辞書作成を切り換えるスイッチであ
る。
【0022】以上のような図1の構成において、以下そ
の動作について説明する。最初にCVパターンとVCパ
ターンを切出して音声片辞書格納部6に登録する方法に
ついて説明を行なう。図1において、入力音声が入力さ
れると音響分析部1で分析時間(フレームと呼ぶ、1フ
レーム=10msec)毎に線形予測係数(LPC)を
求める。次に、特徴パラメータ抽出部2でLPCケプス
トラム係数(C0〜C8まで9個)を求める。標準パター
ン格納部4には、予め多くの話者が発声したデータから
作成した20種類の音素標準パターンを格納している。
【0023】/a/,/o/,/u/,/i/,/e
/,/j/,/w/,/m/,/n/,
【0024】
【外1】
【0025】,/b/,/d/,/r/,/z/,/h
/,/s/,/c/,/p/,/t/,/k/の20個
の音素標準パターンを使用する。音素標準パターンは各
音素の特徴部(その音素の特徴をよく表現する時間的な
位置)を目視によって正確に検出し、この特徴フレーム
を中心とした特徴パラメータの時間パターンを使用して
作成する。
【0026】時間パターンとして、特徴フレームの前8
フレーム、後3フレーム、計12フレーム分のLPCケ
プストラム係数(C0〜C8)を1次元にしたパラメータ
系列
【0027】
【外2】
【0028】を使用する。これを(数1)に示す。
【0029】
【数1】
【0030】ここで
【0031】
【外3】
【0032】は特徴部の第kフレームにおけるi番目の
LPCケプストラム係数である。多くのデータに対して
パラメータ系列を抽出し、各要素の平均値ベクトルと要
素間の共分散行列
【0033】
【外4】
【0034】を求め標準パターンとする。平均値ベクト
【0035】
【外5】
【0036】は(数2)のようになる。
【0037】
【数2】
【0038】このように音素標準パターンは複数フレー
ムの特徴パラメータを使用している。すなわちパラメー
タの時間的動きを考慮して標準パターンを作成している
のが特徴である。
【0039】入力と音素pの標準パターンとの類似度計
算のためのマハラノビス距離dpは(数3)で表され
る。
【0040】
【数3】
【0041】ここで共分散行列
【0042】
【外6】
【0043】を各音素共通とすると(数4)のように簡
単な式に展開できる。
【0044】
【数4】
【0045】共通化された共分散行列を
【0046】
【外7】
【0047】とする。本実施例では、計算量の少ない
(数4)を用いる。
【0048】
【外8】
【0049】、bpが音素pに対する標準パターンであり
標準パターン格納部4にあらかじめ格納されている。
【0050】この20種類の音素標準パターンと特徴抽
出部で得られた特徴パラメータ(LPCケプストラム係
数)と類似度計算部3でフレーム毎に類似度計算を行な
う。類似度計算部の結果から、パラメータ時系列作成部
5で類似度ベクトルの時系列を求める。類似度ベクトル
の時系列の例を図2に示す。
【0051】図2は「赤い」(akai)と発声した場
合の例で、横軸が時間方向で縦軸が各時間における類似
度を示す。/a/の標準パターンについて説明すると、
入力を1フレームずつシフトさせながら標準パターンと
マッチングを行ない類似度の時系列を求める。図2の例
では、40,46,68,60,42,1,4,6,20,40,65,81,64,49,15,1
0,14,16が/a/の類似度の時系列である。この類似度
を20個の音素標準パターン全てに対して同様に求め
る。類似度ベクトルは図2の斜線で示した部分を指す。
図2で示したような類似度ベクトルの時系列を認識部1
1に送る。
【0052】音声片辞書格納部6には、あらかじめ6人
の話者が発声した、音韻環境を考慮した単語セットの音
声を分析し、上記の20個の標準パターンとフレーム毎
に類似度計算を行なった結果得られる類似度ベクトルの
時系列(図2と同様な形式のもの)の中から、子音から
母音へ遷移する部分を切出したCVパターンと、逆に母
音から子音へ遷移する部分を切出したVCパターンが格
納されている。
【0053】この音韻環境を考慮した単語セットには人
間がスペクトル情報などを参考に音素の位置があらかじ
めラベル付けされている。この音素ラベルにしたがって
CVは子音の中心フレームから後続母音の中心フレーム
まで、VCは母音の中心フレームから子音の中心フレー
ムまで切出しを行ない、音声片辞書格納部6に登録す
る。母音と子音の中心フレームを境界にすると子音から
母音、母音から子音に音声が遷移する情報を有効に取り
入れることが出来るので高い認識率を得ることが出来
る。
【0054】図3の(1)に「朝日」(/asahi
/)、(2)に「酒」(/sake/)、(3)に「パー
ク」(/paaku/)の場合CVとVCの切出し方の
例を示す。図に示すように/asahi/の場合は、語
頭の/a/,語中の/as/,/sa/,/ah/,/
hi/,と語尾の/i/の6個の音声片から構成されて
いる。/sake/の場合は、語頭の/sa/,語中の
/ak/,/ke/,語尾の/e/の4個の音声片から
構成されている。/paaku/の場合は語頭の/pa
/,語中の/aa/、/ak/、/ku/、語尾の/u
/の5個の音声片から構成されている。
【0055】530単語中に1個しか出現しない音声片
は、そのまま音声片辞書格納部6に格納する。同じ音声
片が2個出現した場合は、2個の同一音声片同士でDP
マッチングを行ない時間整合を行なう。たとえば、音声
片/ak/は/sake/と/paaku/の単語から
切出される。切出された音声片によって持続時間長が異
なるので、DPマッチング法で時間整合を行なう。図4
に時間整合の例を示す。時間整合することによって、同
じ音素の区間が整合するようになる。この時間的に整合
したフレーム間で両類似度の平均値を求める。この平均
化した類似度ベクトルを音声片辞書として登録する。3
個以上の場合は、同じ作業を繰返し複数個の平均化した
類似度ベクトルの時系列を作成し音声片辞書に登録す
る。
【0056】図4の斜線で示した音声片1の第iフレー
ム[類似度ベクトルを
【0057】
【数5】
【0058】とする]と音声片2の第jフレーム[類似
度ベクトルを
【0059】
【数6】
【0060】とする]が時間的に整合する場合は、新し
【0061】
【数7】
【0062】を求めこの類似度ベクトル(数7)を辞書
のiフレームの類似度ベクトルとして登録する。こうす
ることによって、音声片辞書の精度を向上させ、より高
い認識率を得ることが出来る。
【0063】次に、音声片を接続して作成した認識対象
語と、少数話者の発声した認識対象語を混合して、新し
く認識対象辞書項目を作成する方法について説明を行
う。
【0064】音声片接続部7では、認識対象語(単語、
熟語、文節など)が与えられると音声片辞書格納部6か
らその単語を作成するのに必要なCV・VCパターンを
取り出して接続し、認識対象辞書の項目を作成する。た
とえば「赤い」(/akai/)という辞書項目を作成
するには語頭の/a/,/ak/,/ka/,/ai/
と語尾の/i/の5つのCV・VCパターンを接続して
作成する。たとえば、語頭の/a/は/asahi/と
発声した音声データから切出された語頭の/a/のパタ
ーンを使用し、語中の/ak/は/sake/と発声し
たデータから切出された語中の/ak/のパターンを使
用する。
【0065】このように/akai/という単語パター
ンを作成するにはあらかじめ切出されたCV・VCパタ
ーンが登録されている音声片辞書格納部6から必要なC
V・VCを取り出して接続を行ない、認識対象辞書の項
目を作成する。
【0066】さらに、同一の認識対象語を1名から数名
の少数話者が発声した音声に対して、音声片を作成する
時と同様な手順で類似度の時系列を求める。スイッチ1
2はaに接続し、時間整合部8で、この認識対象語の類
似度の時系列と音声片接続部7で作成された認識対象語
の類似度の時系列に対して、DPマッチング法で時間整
合を行なう。DPマッチング法で時間的に整合したフレ
ーム間で両類似度の平均値を求める。この平均化した類
似度ベクトルを認識対象辞書項目として登録する。
【0067】この操作は、音声片を接続して作成した認
識対象語と実際に発声した認識対象語とでは持続時間長
が異なるので必要である。図5に「朝日」(/asah
i/)の場合の時間整合の例を示す。なお2名以上が発
声した認識対象語の類似度を混合する場合は、あらかじ
め認識対象語間で、DPマッチング法を用いて時間整合
を行い、平均化した認識対象語の類似度ベクトルを求め
る。この類似度ベクトルと音声片接続部7で作成された
認識対象語との時間整合を行ない、認識対象辞書項目を
作成する。
【0068】図5の斜線で示した音声片接続して作成し
た辞書項目の第iフレーム[類似度ベクトルを
【0069】
【数8】
【0070】とする]と単語発声の第jフレーム[類似
度ベクトルを
【0071】
【数9】
【0072】とする]が時間的に整合する場合は、新し
【0073】
【数10】
【0074】を認識対象辞書項目作成部9で求め、この
類似度ベクトル(数10)を辞書のiフレームの類似度
ベクトルとして認識対象辞書格納部10に登録する。こ
うすることによって、認識対象辞書項目の精度を向上さ
せ、より高い認識率を得ることが出来る。
【0075】次に、入力音声を認識する場合について説
明する。認識時にはスイッチ12をbに接続する。認識
部11では、認識対象辞書格納部10にある類似度ベク
トルの時系列と、音声片辞書を作成する時と同様に入力
音声を分析して得られる類似度ベクトルの時系列パター
ンとをマッチングし、最もスコアの大きい辞書項目を認
識結果とする。マッチング方法として本実施例ではDP
マッチングを行なう。DPマッチングを行なう漸化式の
例を(数11)に示す。
【0076】
【数11】
【0077】ここで、辞書の長さをJフレーム、入力の
長さをIフレーム、第iフレームと第jフレームの距離
関数をl(i,j),累積類似度をg(i,j)とする。
【0078】距離関数l(i,j)の距離尺度は、相関余弦
を用いる。入力音声のiフレームにおける類似度ベクト
ルを
【0079】
【数12】
【0080】,辞書のjフレームにおける類似度ベクト
ルを
【0081】
【数13】
【0082】とすると、l(i,j)は、(数14)の様に
なる。
【0083】
【数14】
【0084】未知音声を認識する動作モードの場合はス
イッチ12はbに接続される。入力音声を音響分析部1
で分析し、特徴パラメータ抽出部2でLPCケプストラ
ム係数を求める。このLPCケプストラム係数と標準パ
ターンとのマッチングを類似度計算部3でフレームごと
に行ない、パラメータ系列作成部5で類似度ベクトルの
時系列を求める(図5の形式のもの)。この類似度ベク
トルの時系列と認識対象辞書格納部10に格納されてい
る各辞書項目の類似度ベクトルの時系列とを認識部11
でDPマッチングを行ない最も類似度の大きい辞書項目
を認識結果とする。
【0085】次に辞書項目を作成するモードの動作を説
明する。この場合スイッチ12はaに接続される。あら
かじめ多数の話者で作成した音素標準パターンは標準パ
ターン格納部4に格納されている。認識対象音声を1名
または数名の少数話者が発声し、それから得られた類似
度ベクトルの時系列の中からCV・VCパターンを切出
したものが音声片辞書格納部6に登録されている。
【0086】認識対象とする単語の辞書項目は、音声片
接続部7でCV・VCパターンを接続することによって
作成した類似度の時系列と、同一の単語を1名から数名
の話者が発声して作成した類似度の時系列との時間整合
を、時間整合部8でDPマッチングによって行い、認識
対象辞書項目作成部9で時間的に整合したフレーム間の
両類似度の平均値を求め、認識対象辞書格納部10に格
納する。少数話者の単語発声から類似度の時系列を得る
方法は、未知入力から類似度系列を作成する方法と同様
である。
【0087】なお、認識部でDP法を用いたが、必ずし
もDP法でなくてもよい。たとえば、HMM(隠れマル
コフモデル)を用いる場合は、切出された各CV、VC
のパターンに対してHMMの学習を行ないCVとVCを
基本単位とするHMMを作成する。辞書項目は、このC
VとVCを基本単位とするHMMを接続することによっ
て作成し認識を行なう。
【0088】また、音声片としては、VC、CV以外に
VCV(母音+子音+母音)またはCV、VC、VCV
を任意に組み合せたものであっても良い。さらに、時間
的に整合したフレーム間の両類似度の平均値は、加重平
均等でもよい。
【0089】次に、回帰係数を併用する第2の実施例に
ついて、図6を用いて説明を行なう。図6において、1
3は音響分析部、14は特徴パラメータ抽出部、15は
類似度計算部、16は標準パターン格納部、17は回帰
係数計算部、18はパラメータ系列作成部、19は音声
片辞書格納部、20は音声片接続部、21は時間整合
部、22は認識対象辞書項目作成部、23は認識対象辞
書格納部、24は認識部、25は未知入力の認識時と単
語辞書作成時の切り換えを行なうためのスイッチであ
る。
【0090】本実施例においても、前記第1の実施例と
同様に類似度ベクトルの時系列を類似度計算部15で求
める。各類似度の時系列に対して類似度の時間的変化量
である回帰係数(n個)を回帰係数計算部17でフレー
ム毎に求める。回帰係数は、フレームの前後2フレーム
の類似度値(計5フレームの類似度値)の最小2乗近似
直線の傾き(類似度の時間的変化量)を使用する。
【0091】図7を用いて類似度の回帰係数について説
明を行なう。たとえば、音素/a/の標準パターンで説
明すると、入力を1フレームずつシフトさせながら/a
/の標準パターンとマッチングを行ない類似度の時系列
を求める。このフレーム毎の類似度をプロットしたのが
図7である。図7において横軸がフレーム、縦軸が類似
度である。第iフレームを中心に第i−2から第i+2
フレームの最小二乗直線の傾きを求め、これを第iフレ
ームにおける類似度の時間変化量(回帰係数)とする。
回帰係数を求める式を(数15)に示す。
【0092】
【数15】
【0093】この回帰係数を1フレームごとに全フレー
ムに対して求める。また、他の標準パターンに対しても
同様にして回帰係数を全フレームに対して求める。この
フレーム毎に求められたn次元の類似度ベクトルとn次
元の回帰係数ベクトルの両方をパラメータとして認識を
行なう。前記実施例では、入力音声のiフレームにおけ
る類似度ベクトルと辞書のjフレームにおける類似度ベ
クトルの距離として(数2)の相関余弦距離を使用して
いる。回帰係数を併用した場合の距離関数l(i,j)は,
(数16)を用いる。
【0094】
【数16】
【0095】ここで、入力音声のiフレームにおける回
帰係数ベクトルを
【0096】
【数17】
【0097】,辞書のjフレームにおける回帰係数ベク
トルを
【0098】
【数18】
【0099】とする。wは類似度と回帰係数の混合比率
であり、0.4から0.6がよい。以上の相関余弦を用
いて第1の実施例と同様の方法でDPマッチングを行な
い、類似度を求め最も類似度の大きい辞書項目を認識結
果とする。
【0100】上記実施例では回帰係数として一次(線
形)のものについて説明したが、高次の回帰係数を用い
ることも可能である。
【0101】第2の実施例を用いて100単語(地名)
を発声した50名のデータを用いて認識実験を行なっ
た。音声片は6名の話者が音韻環境を考慮した530単
語をあらかじめ発声した音声データからCV・VCを切
出して作成した。この音声片を接続して作成した100
単語の辞書と2名の話者が発声した100単語のデータ
とをそれぞれ時間整合を行い、時間的に整合したフレー
ム間で両類似度の平均値とその回帰係数を求め認識対象
辞書とし、50名の発声した100単語を認識する実験
を行なった。
【0102】この結果、96.4%の単語認識率が得ら
れた。また、CV・VCの音声片を接続した辞書のみで
認識を行うと95.2%の単語認識率が得られた。この
結果から、音声片を接続して作成した辞書に、実際に少
数の話者が発声した単語音声を平均化した時系列パター
ンを混合することによって、1.2%認識率が向上し、
高い認識率が得られるようになった。
【0103】なお、上記実施例では標準パターンのマッ
チング距離尺度として各標準パターンの共分散行列を共
通化したマハラノビス距離について述べたが、それに限
定されるものではなく、ベイズ判定に基づく距離、マハ
ラノビス距離、ニューラルネット、HMM(隠れマルコ
フモデル)、LVQ(学習ベクトル量子化)を用いても
同じ効果が得られる。
【0104】
【発明の効果】以上の様に本発明は、音声を分析して得
られた特徴パラメータに対し、予め多くの話者で作成し
たn種類の標準パターンとの類似度計算を行なって類似
度を求め、n次元の類似度ベクトルまたはn次元の類似
度ベクトルとn次元の類似度の時間的変化量ベクトルを
音声認識のための特徴パラメータとし、少数の話者が音
韻環境を考慮した単語セットを発声した音声データから
音声片パターンを切出して音声片辞書として登録してお
き、この音声片パターンを接続して作成した辞書項目
と、少数の話者が実際に辞書項目を発声した音声から得
られた時系列パターンの時間整合を行い、時間的に整合
したフレーム間で両類似度の平均値または両類似度の平
均値と平均化された類似度の時間的変化量を求め、この
時系列パターンを辞書として使用する。このことにより
不特定話者の音声を高い認識率で認識でき、しかも認識
対象辞書項目の変更が容易になる。このように、本発明
が不特定話者用音声認識装置の性能向上に極めて大きく
貢献することにより、いろいろな用途へ音声認識装置を
適用することが出来るようになる。
【図面の簡単な説明】
【図1】本発明の第1の実施例における音声認識方法を
具現化する装置の機能ブロック図
【図2】同実施例における類似度ベクトルの時系列を示
す模式図
【図3】(a)同実施例におけるCVパターンを説明す
る模式図 (b)同実施例におけるVCパターンを説明する模式図
【図4】同実施例において2名の話者の登録音声片に対
する時間整合を説明する模式図
【図5】同実施例における音声認識方法において音声片
接続辞書項目と単語発声辞書項目に対する時間整合を説
明する模式図
【図6】本発明の第2の実施例における音声認識方法を
具現化する装置の機能ブロック図
【図7】同実施例における回帰係数の説明図
【符号の説明】
1 音響分析部 2 特徴パラメータ抽出部 3 類似度計算部 4 標準パターン格納部 5 パラメータ系列作成部 6 音声片辞書格納部 7 音声片接続部 8 時間整合部 9 認識対象辞書項目作成部 10 認識対象辞書格納部 11 認識部 12 切り換えスイッチ 13 音響分析部 14 特徴パラメータ抽出部 15 類似度計算部 16 標準パターン格納部 17 回帰係数計算部 18 パラメータ系列作成部 19 音声片辞書格納部 20 音声片接続部 21 時間整合部 22 認識対象辞書項目作成部 23 認識対象辞書格納部 24 認識部 25 切り換えスイッチ
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平1−216397(JP,A) 特開 昭59−7998(JP,A) 特開 昭61−137199(JP,A) 特開 昭60−164800(JP,A) 特開 昭61−236598(JP,A) 特開 平5−88692(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 - 9/20 JICSTファイル(JOIS)

Claims (12)

    (57)【特許請求の範囲】
  1. 【請求項1】 予め音韻環境を考慮した単語セットを発
    声し、分析時間(フレーム)毎に得られるm個の特徴パ
    ラメータと、多数の話者で作成したn種類の標準パター
    ンとのマッチングを行ない、n個の類似度をフレーム毎
    に求めn次元類似度ベクトルとし、この類似度ベクトル
    で作成した時系列パターンから音声片を切出して音声片
    辞書として登録しておき、認識対象語を前記音声片辞書
    の音声片を接続して作成した類似度ベクトルの時系列パ
    ターンと、同一の認識対象語を少数の話者が発声した音
    声を分析して得られるm個の特徴パラメータと前記n種
    類の標準パターンとのマッチングを行なって得られるn
    次元の類似度ベクトルの時系列パターンとの時間整合を
    行い、時間的に整合したフレーム間で両類似度の平均値
    を求めその平均値ベクトルの時系列パターンを認識対象
    辞書に登録し、認識時には入力音声に対して同様に求め
    たm個の特徴パラメータと、前記n種類の標準パターン
    とのマッチングを行なってn次元の類似度ベクトルの時
    系列を求め、この時系列パターンと、認識対象辞書に登
    録されている類似度ベクトルの時系列パターンとを照合
    することによって、辞書に登録した話者およびその他の
    話者の入力音声を認識することを特徴とする音声認識方
    法。
  2. 【請求項2】 予め音韻環境を考慮した単語セットを発
    声し、分析時間(フレーム)毎に得られるm個の特徴パ
    ラメータと、多数の話者で作成したn種類の標準パター
    ンとのマッチングを行ない、n個の類似度とn個の類似
    度の時間変化量をフレーム毎に求めn次元の類似度ベク
    トルと類似度の時間変化量ベクトルとし、この類似度ベ
    クトルと類似度の時間変化量ベクトルで作成した時系列
    パターンから音声片を切出して音声片辞書として登録し
    ておき、認識対象語を前記音声片辞書の音声片を接続し
    て作成した類似度と類似度の時間変化量ベクトルの時系
    列パターンと、同一の認識対象語を少数の話者が発声し
    た音声を同様にして分析して得られるm個の特徴パラメ
    ータと前記n種類の標準パターンとのマッチングを行な
    って得られるn次元の類似度ベクトルとn次元の類似度
    の時間変化量ベクトルの時系列との時間整合を行い、時
    間的に整合したフレーム間で両類似度の平均値を求めそ
    の平均値ベクトルの時系列パターンと類似度の時間変化
    量ベクトルの時系列を認識対象辞書に登録し、認識時に
    は、入力音声に対して同様に求めたm個の特徴パラメー
    タと、前記n種類の標準パターンとのマッチングを行な
    いn次元の類似度ベクトルとn次元の類似度の時間変化
    量ベクトルの時系列を求め、これらの時系列パターン
    と、認識対象辞書に登録されている類似度ベクトルと類
    似度の時間変化量ベクトルの時系列パターンとを照合す
    ることによって、辞書に登録した話者およびその他の話
    者の入力音声を認識することを特徴とする音声認識方
    法。
  3. 【請求項3】 音声片として、子音+母音、母音+子
    音、母音+子音+母音またはこれらの任意の組合せのい
    ずれかを用いることを特徴とする請求項1または2記載
    の音声認識方法。
  4. 【請求項4】 音声片を接続して作成した認識対象辞書
    項目の時系列パターンと、同一の辞書項目を1名から数
    名の少数話者が発声した音声から得られる時系列パター
    ンの時間整合を行う方法としてDPマッチング法を用い
    ることを特徴とする請求項1または2記載の音声認識方
    法。
  5. 【請求項5】 音声片パターンとして切出された類似度
    ベクトルの時系列パターンまたは類似度ベクトルと類似
    度の時間変化量ベクトルの時系列パターンを接続するこ
    とによって認識対象辞書の各項目を作成し、入力音声と
    DPマッチングを行なって認識することを特徴とする請
    求項1または2記載の音声認識方法。
  6. 【請求項6】 音声片として切出された類似度ベクトル
    の時系列パターンまたは類似度ベクトルと類似度の時間
    変化量ベクトルの時系列パターンに対して、HMM(隠
    れマルコフモデル)を適用して認識を行なうことを特徴
    とする請求項1または2記載の音声認識方法。
  7. 【請求項7】 同一の認識対象音声を2名以上の話者が
    発声し、それぞれ分析して得られる類似度ベクトルの時
    系列パターンに対して、DPマッチングによって話者間
    の時間整合を行ない、時間的に整合したフレーム間で各
    類似度の平均値を求めその平均値の時系列パターンから
    切出した音声片を音声片辞書に登録することを特徴とす
    る請求項1記載の音声認識方法。
  8. 【請求項8】 類似度の時間変化情報として回帰係数を
    用いることを特徴とする請求項2記載の音声認識方法。
  9. 【請求項9】 同一の認識対象音声を2名以上の話者が
    発声し、それぞれ分析して得られるn次元類似度ベクト
    ルとn次元回帰係数ベクトルの時系列に対して、DPマ
    ッチングによって話者間の時間整合を行ない,時間的に
    整合したフレーム間で各類似度と各類似度の時間変化量
    の平均値を求めその平均値の時系列パターンから切出し
    た音声片を辞書に登録することを特徴とする請求項2記
    載の音声認識方法。
  10. 【請求項10】 類似度ベクトル間または類似度の時間
    変化量ベクトル間の距離を求める距離尺度として、ユー
    クリッド距離、重み付ユークリッド距離、相関余弦を用
    いることを特徴とする請求項1または2記載の音声認識
    方法。
  11. 【請求項11】 標準パターンとして音素、音節、半音
    節、音素片などの音響学的な基本単位に基づくカテゴリ
    ーの標準パターンを使用することを特徴とする請求項1
    または2記載の音声認識方法。
  12. 【請求項12】 標準パターンとのマッチングの距離尺
    度として、ベイズ判定に基づく距離、マハラノビス距
    離、各標準パターンの共分散行列を共通化したマハラノ
    ビス距離、ニューラルネット、HMM(隠れマルコフモ
    デル)、LVQ(学習ベクトル量子化)を用いることを
    特徴とする請求項1または2記載の音声認識方法。
JP4004642A 1992-01-14 1992-01-14 音声認識方法 Expired - Lifetime JP2943473B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4004642A JP2943473B2 (ja) 1992-01-14 1992-01-14 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4004642A JP2943473B2 (ja) 1992-01-14 1992-01-14 音声認識方法

Publications (2)

Publication Number Publication Date
JPH05188988A JPH05188988A (ja) 1993-07-30
JP2943473B2 true JP2943473B2 (ja) 1999-08-30

Family

ID=11589639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4004642A Expired - Lifetime JP2943473B2 (ja) 1992-01-14 1992-01-14 音声認識方法

Country Status (1)

Country Link
JP (1) JP2943473B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3114468B2 (ja) 1993-11-25 2000-12-04 松下電器産業株式会社 音声認識方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101185115B (zh) 2005-05-27 2011-07-20 松下电器产业株式会社 语音编辑装置及方法和语音识别装置及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS597998A (ja) * 1982-07-06 1984-01-17 日本電気株式会社 連続音声認識装置
JPS60164800A (ja) * 1984-02-07 1985-08-27 松下電器産業株式会社 音声認識装置
JPS61137199A (ja) * 1984-12-07 1986-06-24 日本電信電話株式会社 単語音声の認識方法
JPS61236598A (ja) * 1985-04-12 1986-10-21 株式会社リコー 単語音声登録方式
JPH0823758B2 (ja) * 1988-02-24 1996-03-06 日本電信電話株式会社 話者適応形音声認識装置
JPH03234388A (ja) * 1990-02-09 1991-10-18 Kobe Steel Ltd レーザによる溶接又は表面改質方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3114468B2 (ja) 1993-11-25 2000-12-04 松下電器産業株式会社 音声認識方法

Also Published As

Publication number Publication date
JPH05188988A (ja) 1993-07-30

Similar Documents

Publication Publication Date Title
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
EP2888669B1 (en) Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
Aggarwal et al. Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I)
Vadwala et al. Survey paper on different speech recognition algorithm: challenges and techniques
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
Ranjan et al. Isolated word recognition using HMM for Maithili dialect
Manjunath et al. Development of phonetic engine for Indian languages: Bengali and Oriya
Fu et al. A survey on Chinese speech recognition
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
JP2943473B2 (ja) 音声認識方法
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JP2943445B2 (ja) 音声認識方法
Shafie et al. Sequential classification for articulation and Co-articulation classes of Al-Quran syllables pronunciations based on GMM-MLLR
JP3277522B2 (ja) 音声認識方法
JP2879989B2 (ja) 音声認識方法
JP2574557B2 (ja) 音声認識方法
JP3289670B2 (ja) 音声認識方法および音声認識装置
JP2692382B2 (ja) 音声認識方法
JP3115016B2 (ja) 音声認識方法および装置
JP2862306B2 (ja) 音声認識装置
Manjunath et al. Improvement of phone recognition accuracy using source and system features
Mohammed et al. Robust automatic speech recognition system: hmm versus sparse
Hammady et al. An HMM system for recognizing articulation features for Arabic phones
JP2003295887A (ja) 音声認識方法および装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080625

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090625

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100625

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100625

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110625

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120625

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120625

Year of fee payment: 13