JPH11311999A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH11311999A
JPH11311999A JP12018598A JP12018598A JPH11311999A JP H11311999 A JPH11311999 A JP H11311999A JP 12018598 A JP12018598 A JP 12018598A JP 12018598 A JP12018598 A JP 12018598A JP H11311999 A JPH11311999 A JP H11311999A
Authority
JP
Japan
Prior art keywords
data
voice
dimensional pattern
speech
reference data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP12018598A
Other languages
English (en)
Inventor
Seiichiro Hanya
精一郎 半谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP12018598A priority Critical patent/JPH11311999A/ja
Publication of JPH11311999A publication Critical patent/JPH11311999A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声認識率を向上する。 【解決手段】 帯域が異なるm段の蝸牛フィルタバンク
11に音声を入力し、処理部12はm段の各蝸牛フィル
タ出力の所定時間毎の二乗平均よりなる3次元パターン
を作成し、該3次元パターンの段方向隣接データの差分
を計算し、差分値よりなる3次元パターンデータをリフ
ァレンスデータとして辞書メモリ13に記憶する。音声
認識部14は入力音声の3次元パターンデータと複数の
既知音声のリファレンスデータの類似度を計算し、類似
度が最大のリファレンスデータに応じた既知音声を入力
音声であると認識する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識方法に係わ
り、特に、バンドパスフィルタとして蝸牛フィルタバン
クを使用し、蝸牛フィルタバンクの出力電力差の時間方
向パターンを用いて音声認識する音声認識方法に関す
る。
【0002】
【従来の技術】多数の既知音声のリファレンスデータを
メモリに登録しておき、入力音声の3次元パターンデー
タとリファレンスデータの類似度に基づいて入力音声を
認識する音声認識方法がある。かかる音声認識方法のリ
ファレンス登録モードにおいて、(1) 帯域が異なるm段
のバンドパスフィルタに既知音声を入力し、(2) m段の
各バンドパスフィルタ出力の所定時間毎の二乗平均より
なる3次元パターンデータに正規化などの加工処理を施
してリファレンスデータを作成し、(3) 同様に多数の既
知音声のリファレンスデータを作成してメモリに登録す
る。そして、リファレンスデータ登録後の音声認識モー
ドにおいて、(1) 入力された音声の3次元パターンデー
タとリファレンスデータの類似度を計算し、(2) 類似度
が最大のリファレンスデータを求め、(3) 該リファレン
スデータに応じた既知音声を入力音声であると認識す
る。
【0003】・概略構成 図14は上記従来の音声認識方法を実現する音声認識装
置の概略構成図であり、1は帯域が異なるm段のバタワ
ース型のバンドパスフィルタで構成されたフィルタバン
ク(バタワースフィルタバンク)、2は既知音声のリフ
ァレンスデータを作成すると共に音声認識処理を行う処
理部、3は多数の既知音声のリファレンスデータを記憶
するメモリ、4は認識された音声を出力する認識音声出
力部である。処理部2は、リファレンスデータ作成に際
して、(1) 既知音声がバタワースフィルタバンク1に入
力した時、該バタワースフィルタバンクの各段出力をサ
ンプリングし、(2) 各段のサンプリングデータの所定時
間毎の二乗平均よりなる3次元パターンデータを作成
し、(3) 該3次元パターンデータに正規化などの加工処
理を施してリファレンスデータを作成し、同様に多数の
既知音声のリファレンスデータを作成してメモリ3に記
憶する。又、処理部2は音声認識に際して、入力音声の
3次元パターンデータとリファレンスデータの類似度を
計算し、類似度が最大のリファレンスデータに応じた既
知音声を入力音声であると認識する。
【0004】・フィルタバンクの特性 バタワースフィルタバンク1は、式(1)により決定され
る中心周波数f(x)を持つバンドパスフィルタの集まりと
して構成される。 f(x)=160(102.1x−0.8) Hz (1) だたし、0≦x≦1とし、隣接するフィルタの3dB減衰
点が一致するように配置し、フィルタの次数は最低次の
2次とする。また、バタワースフィルタバンクにはプリ
エンファシス(高域強調)の特性がないので、このフィル
タバンクに入力する前に入力音声に伝達関数(1-0.96
z-1)のプリエンファシスを施している。以上により、第
i段目の中心角周波数ωiの2次のバタワース型バンド
パスフィルタのアナログ伝達関数B2i(s)は次式のよう
になる。
【0005】 B2i(s)=(ωiaib)s/{ωiaωib+(ωiaib)s+s2} (2) ここで、ωia、ωibはバンドパスフィルタの高域側、低
域側のカットオフ角周波数で、 ωia=(ωii-1)/2, ωib=(ωii+1)/2 である。上式を双一次変換すれば所望の2次のディジタ
ル伝達関数B2i(z)が得られる。
【数1】 ここでaia、aibはωia、ωibをプリワープした角周波数
である。本来の角周波数をω、プリワープ後の角周波数
をΩ、システムのサンプリング周波数をfSとすると、プ
リワープは下式で行なう。 Ω=tan(ω/2fs) (4) バタワースフィルタバンクは、2次のものは式(3)のフ
ィルタを、入力音声に対して段毎に並列に配置すること
により作成する。図14に、これらのフィルタバンクの
振幅特性を、プリエンファシスの特性も加味して0段目
から10段おきに70段目まで示している。
【0006】・3次元パターンの作成 まず、音声をバタワースフィルタバンク1に入力し、音
声スペクトルの時間変化を示す3次元パターンデータを
作成する。図15は音声スペクトルの時間変化を取得す
る処理の流れを示す説明図である。 フィルタリング 音声をバタワースフィルタバンク1に入力し、各段のフ
ィルタ出力を所定周波数でサンプリングし、サンプリン
グ音声データを並べて図15(a)のような段m、時間t
の3次元データC(m,t)を得る。
【0007】時間軸方向へのフレーミング 図15(a)の3次元データは、音声を単にフィルタリン
グしただけのものなので、まだ位相情報を含んでおり、
データも正負に激しく変動し、このままでは他のデータ
とのマッチングを効率的に取ることができない。また、
音声波形の位相情報は録音系などによって変わりやすい
上、人間による音声の知覚にほとんど寄与しないので、
むしろ取り除いた方が良い。そこで、次式のように30ms
間を1フレームとして1フレーム内の各段のデータの2乗
平均を取って変動を緩やかにし、図15(b)のような段
m、フレームnの3次元パターンP′(m,n)を求める。
なお、フレームは10msずつシフトさせ、隣接フレーム
は互いに20ms重なるようにする。
【数2】
【0008】音声無録音部の削除 音声データ30ms間を1フレームとしてフレーム内のパ
ワー平均を求める。このフレームを10msづつシフトさ
せ、短時間パワーの系列を求める。短時間パワーの値が
一定値α以上となるフレームがβ個以上続く点を短時間
パワー系列の先頭フレームから検索し、その検索された
フレームを音声区間の開始点とし、そのフレームに相当
する時間までのデータを音声データから削除する。α、
βの値は経験的に決定する。たとえば、αは、車内ノ
イズが無い時、40km/h時、60km/h時はmaxレンジに対し
て3.35%のレベルとし、100km/h時はmaxレンジに対し
て8.35%とする。又、βは、いずれの場合も3とする。
また、短時間パワー系列の終端フレームからも同様の処
理を行なって音声区間の終了点を求め、そこから先のデ
ータを削除する。
【0009】各話者間、各フレーム間のパワー差の平
滑化 各フレーム内で、次式のようにP′s(n)を基準とした対
数をとって出力値を正規化し、各フレーム間の音声パワ
ー差を平滑化する。この処理により、同時に、各話者間
の音声パワー差も平滑化することになる。なお、P′
s(n)は例えば第nフレームの各段の最大パワーである。 P″(m,n)=10log{P′(m,n)/P′s(n)} (6) 各話者間の発生期間の差の正規化 P″(m,n)のフレーム数を一定値Nに線形伸縮させて正
規化し、図15(c)のような正規化3次元パターンP(m,
n)を求める。この処理により各話者間の発声期間の差を
正規化する。Nの値は経験的に決定する(例えばN=3
0である)。
【0010】・3次元パターンを用いた音声認識 次に、以上により作成した3次元パターンデータを用い
た数字音声の認識法を図16、図17に従って説明す
る。 リファレンスデータの作成 図16はリファレンスデータ作成方法の説明図である。
0〜9の各数字音声について、話者1人1個づつの3次
元パターンを用いて、それらの類似度が最大になるよう
に各データをフレーム方向にシフトした後、全てのデー
タで重なる部分の平均をとることにより、その数字のリ
ファレンスデータを作成する。この場合、フレーム方向
のシフト量sは、最大±1とする。フレーム数N、段数
Mの2つの3次元パターンP1, P2の類似度r(P1,P2)は
以下の式(7)により計算する。
【数3】 従って、話者が2人の場合には、シフト量を±1以内で
種々変えて(7)式の計算を行い、類似度r(P1,P2)が最大
となるシフト量sを求める。このシフト量sだけ一方を
シフトした時の3次元パターンP1,P2の対応部分の平均
値をリファレンスデータとする。
【0011】音声認識 図17は音声認識方法の説明図である。未知入力音声の
3次元パターンデータを作成し、該3次元パターンデー
タと数字音声0から数字音声9までの10個のリファレ
ンスデータとの類似度を式(7)より求め、もっとも類似
度の高いリファレンスデータの数字をその未知入力音声
の数字とすることにより音声認識を行なう。この時も、
未知音声データに対して、リファレンスデータをフレー
ム方向に最大±1だけシフトさせ、最も類似度が高かっ
たものをそのデータ間の類似度とする。
【0012】・従来方法による音声認識の認識率 実験条件 音声認識実験では認識が比較的容易な単語音声を使用し
た。単語としては、基礎的な単語であり、かつ、種々の
応用が考えられる0から9の10個の数字音声を使用し
た。また、話者は男性のみとし、異性間の音声スペクト
ルの差が認識率に影響を与えないようにした。図18に
音声認識実験に使用する音声データの詳細を示す。各数
字音声のリファレンスデータは、各話者の11個の音声
データのうち1つを用いて作成し、残りの10個の音声
データをその話者の未知音声データとした。よって、未
知音声データは、各数字音声について10個×37人で
370個となり、数字音声は10個あるので全体で37
00個となる。
【0013】使用したノイズについて ノイズとしては、乾いたアスファルトの路面を時速40km
/h, 60km/h, 100km/hで走行している時に、窓を締め切
った車内で録音したノイズ(以後、これを車内ノイズと
呼ぶ)を使用した。図19に所定速度における車内ノイ
ズのみのデータから作成した3次元パターンを示し、図
20にこのパターンをフレーム方向に平均化したものを
示す。図19や図20に示す車内ノイズのスペクトル
は、どのフレームにおいてもほぼ同じで、30段目付近
(1kHz付近)をピークとした山なりのパワー分布をして
いることが分かる。
【0014】実験結果 バタワースフィルタバンク1(図14)を用いて未知音
声に車内ノイズを付加して音声認識実験を行なった。音
声認識率を図21に示す。この図21からもわかるよう
に、走行スピードの増加に応じて車内ノイズも増加する
ため音声認識率が低下してるのがわかる。特に100km/h
ノイズ付加時には無雑音、40km/hノイズ、60km/hノイズ
に比べその認識率の低下の度合いは顕著である。
【0015】
【発明が解決しようとする課題】以上のように、従来の
音声認識方法では、走行スピードの増加と共に認識率が
低下し、特に100km/hノイズ付加時における認識率の低
下が著しく、又、数字1,2,8の認識率低下が著しい
問題がある。以上から本発明の目的は、音声認識率を向
上できる音声認識方法を提供することである。本発明の
別の目的は、走行スピードの増加に伴う音声認識率の低
下を抑えることができる音声認識方法を提供することで
ある。
【0016】
【課題を解決するための手段】上記課題は本発明によれ
ば、(1) 帯域が異なるm段のバンドパスフィルタに既知
音声を入力し、m段の各バンドパスフィルタ出力の所定
時間毎の二乗平均よりなる3次元パターンデータをリフ
ァレンスデータとし、多数の既知音声のリファレンスデ
ータを作成して記憶し、入力音声の3次元パターンデー
タとリファレンスデータの類似度に基づいて入力音声を
認識する音声認識方法において、(2) 前記3次元パター
ンデータの段方向における隣接データ間の差分を計算
し、該差分値よりなる3次元パターンデータをリファレ
ンスデータとし、(3) 入力音声の3次元パターンデータ
と既知音声のリファレンスデータの類似度を計算し、
(4) 類似度が最大のリファレンスデータに応じた既知音
声を入力音声であると認識することにより達成される。
又、バンドパスフィルタとして蝸牛フィルタを用いるこ
とにより、音声認識率を向上することができる。
【0017】
【発明の実施の形態】(a)全体の構成 図1は本発明の音声認識方法を実現する音声認識装置の
構成図で、11は帯域が異なるm段の蝸牛フィルタで構
成されたフィルタバンク(蝸牛フィルタバンク)、12
は既知音声の3次元パターンデータをリファレンスデー
タとして作成すると共に未知音声の3次元パターンデー
タを作成する処理部、13は既知音声のリファレンスデ
ータを記憶する辞書メモリ、14は音声認識処理を行う
音声認識部である。処理部12において、12aは3次
元パターン生成部、12bはメモリ、12cは差分処理
部、12dは切換部である。
【0018】3次元パターン生成部12aは音声が蝸牛
フィルタバンク11に入力した時、該蝸牛フィルタバン
クの各段出力を所定周波数でサンプリングし、各段のサ
ンプリングデータの所定時間毎の二乗平均で3次元パタ
ーンデータを作成し、しかる後、該3次元パターンデー
タに正規化などの加工処理を施してメモリ12bに格納
する。差分処理部12cはメモリ12bに記憶されてい
る3次元パターンデータの段方向の各隣接データの差分
を計算し、該差分値よりなる3次元パターンデータを出
力する。切換部12dはリファレンスデータ登録時に、
差分処理部12cから出力する3次元パターンデータを
リファレンスデータとして辞書メモリ13に格納し、音
声認識時に、差分処理部12cから出力する3次元パタ
ーンデータを音声認識部14に入力する。 辞書メモリ
13は複数の既知音声のリファレンスデータを記憶し、
音声認識部14は、入力音声の3次元パターンデータと
リファレンスデータの類似度を計算し、類似度が最大の
リファレンスデータに応じた既知音声を入力音声である
と認識する。
【0019】(b)ディジタル蝸牛モデル ・蝸牛フィルタバンク J.M.Katesにより提案されたディジタル蝸牛モデルは人
間の聴覚末梢系の1つである蝸牛をモデル化したもので
ある(IEEE TRANSACTIONS ON SIGNAL PROCESSING. VOL.
39, NO. 12, DECEMBER 1991およびIEEE TRANSACTIONS O
N SPEECH AND AUDIO PROCESSINGN VOL.1, NO.4, OCTOBE
R 1993)。一般に、蝸牛には周波数解析機能があるとい
われており、本発明者は蝸牛の特性をモデル化しそれを
音声認識に応用することを考えた。Katesの提案したデ
ィジタル蝸牛モデルの中でフィルタバンク部(以後、蝸
牛フィルタバンクという)を使用して、音声の周波数解
析を行なう。図2、図3は蝸牛フィルタバンクの構成図
であり、図2は全体(0〜71段)の蝸牛フィルタバンクを
示し、図3はi番目の逆L字型蝸牛フィルタを示してい
る。蝸牛フィルタバンクは図2に示すように、まず、進
行波フィルタHi(z)(i=0〜71)がカスケードに接続さ
れ、その各段の出力に、速度変換フィルタTi(z)、セカ
ンドフィルタFi(z)が続く構成となっている。
【0020】・進行波フィルタ 進行波フィルタ部は、蝸牛内部の基底膜の振動をモデル
化したものであり、このフィルタ部は、複数の不連続な
区画に分割される。その各々の区画は、対応する蝸牛各
部を通り抜ける進行波でモデル化される。進行波は、蝸
牛の入口から先端に向けて進行する。つまり、これは高
周波部から低周波部に向かうことに対応する。図3に示
すように、i段目ローパスフィルタをHi(z)とすると、
その位置における正味進行波動作は次式のようになる。
【数4】 また、i段目における、中心角周波数ωiのアナログ伝達
関数Hi(s)は以下のようになる。
【0021】
【数5】 なお、出来るだけ群遅延増大を防ぎつつ、希望通りの周
波数応答を得るために、μ=0.5 及び b=0.5 とする。そ
して、式(9)を双一次変換することにより、以下のよう
なディジタルフィルタの伝達関数Hi(z)を得る。
【数6】 ここで、aiは、双一次変換による変換誤差を補正するた
めに、アナログフィルタの中心角周波数ωiを式(4)によ
りプリワープした角周波数である。
【0022】このフィルタカスケードの伝達関数がもつ
応答特性は、各区画のフィルタに対するQ値の選び方に
依存する。そこで、このフィルタでは、後で述べる速度
変換フィルタTi(z)とセカンドフィルタFi(z)を組み合
わせたとき、高周波において聴覚の同調曲線のチップ/
テイル比が55〜60dBとなるように最大利得を選択した。
このように利得を設定するには、蝸牛の入り口からの距
離にしたがって、最大Qiを0.28(100Hz)から0.45(10kH
z)へと線形に変化させる。これは、周波数が増加するに
つれてQ値を増加させるためである。また、進行波フィ
ルタHi(z)の各区画の中心周波数は、蝸牛内の距離にし
たがって等間隔に配置される。よって、この中心周波数
は、メル周波数軸上にほぼ等間隔に並ぶことになる。こ
の中心周波数のマッピングは、Libermanの猫の周波数マ
ップに基づいている。猫のマップは、およそ96Hzから60
kHzまでに及んでいる。ディジタル蝸牛モデルも、Liber
manが使用したのと同じ機能的依存を仮定しているが、
周波数レンジは、32Hzから20kHzの範囲に修正した。蝸
牛の距離を0≦x≦1(1が蝸牛の入口側)に正規化した関
数で配置される周波数マッピングは、次式で与えられ
る。 f(x)=160(102.1X−0.8) Hz (11)
【0023】・速度変換フィルタ 進行波フィルタHi(z)の出力は、蝸牛内部を通過する進
行波の圧力に相当するものであるが、セカンドフィルタ
Fi(z)への入力はその速度でなければならない。そこ
で、速度変換フィルタTi(z)により、圧力を速度に変換
する。速度変換フィルタTi(z)は、その区画の進行波フ
ィルタHi(z)の中心周波数より2オクターブ低い遮断周
波数を持つ1極ハイパスフィルタでモデル化される。以
下にi段目における、中心各周波数aiの伝達関数Ti(z)
を示す。
【数7】
【0024】・セカンドフィルタ 進行波では、蝸牛のメカニズムを完全に模倣することが
できない。KiangとMoxonらによる同調曲線の測定などか
ら、その周波数応答には中心周波数から約1オクターブ
低いところでノッチが観測される。この特性を、セカン
ドフィルタFi(z)によりモデル化している。i段目にお
けるアナログセカンドフィルタの伝達関数は次式で与え
られる。
【数8】 ここで、ωi0とQi0は零点における共振周波数とQであ
る。また、ωiPとQiPは極における共振周波数とQであ
る。
【0025】このアナログ伝達関数は、双一次変換で次
式のディジタルフィルタへと変換される。
【数9】 ここでbi0とbiPはそれぞれ零点と極におけるプリワープ
された周波数である。先の蝸牛における振幅応答の観測
データに基づけば、極の周波数はその区画の中心周波数
に設定され、そして零点の周波数はその区画の中心周波
数から約1オクターブ低い周波数、つまり、 bi0=biP/2 (15) と設定される。
【0026】共振の鋭さについても、測定データと一致
するように次式で設定される。 Qi0=2Qip (16) これにより、ディジタルフィルタの利得はω=0において
1となるように調整される。また、この設定にすればセ
カンドフィルタFi(z)は低域で群遅延がゼロとなる。セ
カンドフィルタのQは、周波数が高くなるにつれ増加傾
向を示す。この振舞をモデル化すると、セカンドフィル
タの最大Qは次式のように周波数fの関数で表される。 Qip=ρ(f)=1.5(1+f) ただし、fはkHz (17)
【0027】・蝸牛フィルタバンクの振幅特性 図4は中心周波数1kHzの段における進行波フィルタ出
力の振幅特性と、蝸牛フィルタ全体の出力の振幅特性を
示す。図4より、進行波フィルタ出力に比べて、蝸牛フ
ィルタ全体の出力の方が、中心周波数で19dB利得が
増加し、逆に、中心周波数から1オクターブ低いところ
で利得が12dB減少し、ノッチが現れている。これが
セカンドフィルタの効果であり、蝸牛フィルタバンクの
振幅特性を特徴付けている点である。また、中心周波数
での共振特性がなだらかな山なりになっているのも特徴
の一つである。Katesの蝸牛モデルでは、サンプリング
周波数を40kHzとし、100Hz〜16kHzまでの周波数
帯を112個のフィルタを用いてカバーしている。とこ
ろが、効果の検証に用いた数字音声データは、サンプリ
ング周波数は10kHzであり、アンチエイリアシングフ
ィルタにより3.4kHzに帯域制限されているものであ
る。そこで、数字音声データを40kHzにオーバーサン
プリングした後に蝸牛フィルタバンクに入力し、100
Hz〜3.3kHzまでの72段のフィルタバンクの出力デ
ータのみを使うこととした。それゆえ、これ以降は、中
心周波数3.3kHzの段を0段目とし、100Hzの段を71
段目とする。
【0028】図1に蝸牛フィルタバンクの振幅特性を0
段目から10段おきに70段目まで示す。図1より明ら
かなように、高周波側のフィルタバンクでは、中心周波
数での共振特性も鋭く、そこより1オクターブ低い周波
数でのノッチもはっきりと現れているが、低周波側のフ
ィルタバンクほど共振特性もなだらかになり、ノッチも
目立たなくなる。これも蝸牛フィルタバンクの特徴であ
り、フィルタのQ値を周波数の増加に合わせて大きくし
ている効果である。また、100Hz〜1kHz程度の範囲
内では、各フィルタバンク間の振幅が約6dB/octの傾き
をもって増加している。この特性により、入力音声スペ
クトルにプリエンファシス(高域強調)をかける効果が得
られる。
【0029】(c)3次元パターンの作成処理 図5は本発明の3次元パターン作成処理の説明図であ
る。3次元パターン生成部12a(図1)は、従来例で
説明した方法に従って3次元パターン(従来のリファレ
ンスデータ)P(m、n)を作成してメモリ12bに記憶す
る。しかる後、差分処理部12cは段方向における隣接
データ(パワー)の差分を計算し、該差分値よりなる3
次元パターンデータをリファレンスデータとして辞書メ
モリ13に記憶する。すなわち、差分処理部12cは3
次元パターンP(m、n)に次式 Pd(m,n)=P(m+1,n)−P(m,n) (18) による段方向への差分処理を施し、得られた差分値P
d(m,n)をリファレンスデータとして辞書メモリ13に
記憶する。図6は蝸牛フィルタ/3次元パターン生成部
/差分処理部の関連図で、11は蝸牛フィルタバンク、
12aは蝸牛フィルタバンクの各段出力信号の二乗平均
(電力値の平均)を出力する3次元パターン発生部、12
cは(18)式により段方向における隣接データ(電力値)の
差分を計算する差分処理部である。
【0030】(d)音声認識 図7は音声認識部14(図1)の構成図であり、11は
蝸牛フィルタバンク、12は処理部、13は数字0〜9
のリファレンスデータが登録された辞書メモリ、14は
音声認識部である。音声認識部14において150〜1
9は類似度算出部、16は最大類似度判定部である。
辞書メモリ13に数字0〜9のリファレンスデータを登
録した後に音声認識を行う。未知音声が入力すると処理
部12の3次元パターン生成部12aは未知入力音声の
3次元パターンデータを作成し、差分処理部12cは段
方向における隣接データの差分を計算し、該差分値より
なる3次元パターンデータを音声認識部14に出力す
る。音声認識部14の類似度算出部150〜159は該3
次元パターンデータと数字音声0〜9までの10個のリ
ファレンスデータとの類似度を式(7)より算出し、最大
類似度判定部16は最も類似度の高いリファレンスデー
タの数字を未知入力音声の数字であると認識して出力す
る。
【0031】 (e) 蝸牛フィルタバンクを用いた時の認識結果 蝸牛フィルタバンク11を用いた音声認識処理を、式(1
8)の差分処理を施した3次元パターンデータを使用した
場合と、差分処理を施さない3次元パターンデータを使
用した場合について行った。実験条件、使用した車
内ノイズは図18、図19で説明した場合と同じであ
る。ただし、いずれの場合にもリファレンスデータには
車内ノイズは付加していない。図8は差分処理無しの音
声認識率、図9は差分処理有りの音声認識率、図10は
100km/hノイズ付加時における両者の数字認識率を示す
グラフである。差分処理を施した時と施さなかった時の
認識率を100km/hノイズ付加時について比較すると、図
8〜図10より、差分処理を施した時の方が数字全体で
13.81%認識率が良いことが分かる。又、数字音声別にみ
ても、差分処理を施した方が認識率が良い数字の方が多
いことが分かる。特に、車内ノイズの付加による認識率
の低下が激しい数字1,2,8の認識率も、図10よ
り、差分処理を施した時の方が、施さなかった時に比べ
て27.6%〜43.5%も良いことが分かる。このことから、差
分処理を施した方が施さない時より認識率が良く、さら
に、各数字音声毎の認識率の差も小さくなり、車内ノイ
ズに対するロバスト性が増すことが分かる。
【0032】又、図21のバタワースフィルタバンクを
用いて差分処理を施さない場合と図9の蝸牛フィルタバ
ンクを用いて差分処理を施した場合とを比較しても、差
分処理を施した方が認識率が向上する。差分処理を施す
ことにより認識率が向上する理由を、差分処理を施さな
かった時は誤認識したが、施すことにより正しく認識さ
れた音声に注目し、その音声データとリファレンスデー
タの3次元パターンを例にとり説明する。図11は差分
処理を施さずに誤認識した場合の3次元パターン説明図
で、数字4の未知音声を3と誤って認識した場合であ
る。(a)は数字4の未知音声データ、(b)は数字3
のリファレンスデータ、(c)は数字4のリファレンス
データの3次元パターンである。図12は図11の各3
次元パターンに差分処理を施したもので、図11、図1
2は共に白黒階調表示であり、3次元パターンのパワー
の大きさを階調度で表している。
【0033】図11(a)の未知音声データは数字4のデ
ータであるが、図11(b)の数字3のデータとして誤認
識された。しかし、フレーム0〜10のY字型部分にお
ける3次元パターンの山谷形状に注目して図11を観察
すると、(a)の3次元パターンは、(b)より(c)の3次元
パターンに近似しているといえる。そこで、スペクトル
包絡などの輪郭の強調に役立つ差分処理を図11の各3
次元パターンの段方向に施すと、図12に示すように、
(a)の3次元パターンは、(b)より(c)の3次元パターン
との類似度のほうがより高まり、これにより認識率が向
上する。
【0034】 (f)バタワースフィルタバンクを用いた時の認識結果 バタワースフィルタバンクを用いて差分処理を施した時
と施さなかった時の認識率をそれぞれ図13(a),
(b)に示す。この結果からも分ように差分処理による
効果はバタワースフィルタバンクの時には得られない。
このことからも、差分処理は蝸牛モデルフィルタバンク
と組み合わせて初めてその効果を発揮するといえる。た
だし、差分処理の効果はバタワースフィルタバンクでは
得られなかったが別のバンドパスフィルタに適用すれば
効果が得られる可能性がある。従って、本発明は蝸牛モ
デルフィルタバンクに限らない。以上、本発明を実施例
により説明したが、本発明は請求の範囲に記載した本発
明の主旨に従い種々の変形が可能であり、本発明はこれ
らを排除するものではない。
【0035】
【発明の効果】以上本発明によれば、3次元パターンデ
ータの段方向における隣接データの差分を計算し、該差
分値よりなる3次元パターンデータをリファレンスデー
タとし、入力音声の3次元パターンデータと既知音声の
リファレンスデータの類似度を計算し、類似度が最大の
リファレンスデータに応じた既知音声を入力音声である
と認識するようにしたから、音声認識率を向上すること
ができる。又、本発明によれば、蝸牛フィルタバンク出
力より得られる3次元パターンデータに差分処理を施す
ことにより音声認識率をより改善することができる。す
なわち、差分処理による効果はバタワースフィルタバン
クでは得られず、ディジタル蝸牛モデルの蝸牛フィルタ
バンク出力に適用して初めて所望の効果が得られるもの
である。バタワースフィルタバンクでは差分処理を行な
う行なわないに関わらず100km/hノイズ付加時に認識率
が80%以下になってしまうが蝸牛フィルタバンクの出力
に差分処理を施した時の結果は87.32%となりバタワース
フィルタバンクに比べて約10%近く認識率が向上してお
り雑音に対するロバスト性にも優れているという効果が
得られる。
【図面の簡単な説明】
【図1】本発明の音声認識装置の構成図である。
【図2】蝸牛フィルタバンクの構成図である。
【図3】蝸牛フィルタバンクのブロック図である。
【図4】1段分の蝸牛フィルタの振幅特性である。
【図5】本発明の3次元パターン作成処理説明図であ
る。
【図6】蝸牛フィルタバンク、3次元パターン生成部、
差分処理部の関連図である。
【図7】音声認識部の構成図である。
【図8】差分処理無しの音声認識率説明図表である。
【図9】差分処理有りの音声認識率説明図表である。
【図10】蝸牛フィルタバンクで100Km/hのノイズ付加
時における音声認識率説明図である。
【図11】差分処理を施さずに誤認識した場合の3次元
パターン説明図である。
【図12】差分処理を施して正しく認識した3次元パタ
ーン説明図である。
【図13】バタワースフィルタバンクで差分処理無し、
差分処理有りの場合の音声認識率説明図表である。
【図14】従来の音声認識方法を実現する音声認識装置
の概略構成図である。
【図15】従来の3次元パターン生成処理説明図であ
る。
【図16】リファレンスデータ作成処理説明図である。
【図17】音声認識方法説明図である。
【図18】音声認識に使用するデータの説明図である。
【図19】車内ノイズの3次元パターン説明図である。
【図20】フレーム方向に平均化した車内ノイズ説明図
である。
【図21】バタワースフィルタバンクを用いた従来の音
声認識率説明図表である。
【符号の説明】
11・・蝸牛フィルタバンク 12・・処理部 12a・・3次元パターン生成部 12b・・メモリ 12c・・差分処理部 12d・・切換部 13・・辞書メモリ 14・・音声認識部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 帯域が異なるm段のバンドパスフィルタ
    に既知音声を入力し、m段の各バンドパスフィルタ出力
    の所定時間毎の二乗平均よりなる3次元パターンデータ
    をリファレンスデータとし、多数の既知音声のリファレ
    ンスデータを作成して記憶し、入力音声の3次元パター
    ンデータとリファレンスデータの類似度に基づいて入力
    音声を認識する音声認識方法において、 前記3次元パターンデータの段方向における隣接データ
    間の差分を計算し、該差分値よりなる3次元パターンデ
    ータをリファレンスデータとし、 入力音声の3次元パターンデータと既知音声のリファレ
    ンスデータの類似度を計算し、 類似度が最大のリファレンスデータに応じた既知音声を
    入力音声であると認識することを特徴とする音声認識方
    法。
  2. 【請求項2】 前記バンドパスフィルタは蝸牛フィルタ
    であることを特徴とする請求項1記載の音声認識方法。
JP12018598A 1998-04-30 1998-04-30 音声認識方法 Pending JPH11311999A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12018598A JPH11311999A (ja) 1998-04-30 1998-04-30 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12018598A JPH11311999A (ja) 1998-04-30 1998-04-30 音声認識方法

Publications (1)

Publication Number Publication Date
JPH11311999A true JPH11311999A (ja) 1999-11-09

Family

ID=14780023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12018598A Pending JPH11311999A (ja) 1998-04-30 1998-04-30 音声認識方法

Country Status (1)

Country Link
JP (1) JPH11311999A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005300692A (ja) * 2004-04-07 2005-10-27 Sony Corp ロボットの行動制御システム及び行動制御方法、並びにロボット装置
JP2009075603A (ja) * 2001-02-12 2009-04-09 Gracenote Inc マルチメディア・コンテンツのハッシュの生成および突合せ
JP2013015601A (ja) * 2011-07-01 2013-01-24 Dainippon Printing Co Ltd 音源の識別装置および音源に連動する情報処理装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075603A (ja) * 2001-02-12 2009-04-09 Gracenote Inc マルチメディア・コンテンツのハッシュの生成および突合せ
JP2005300692A (ja) * 2004-04-07 2005-10-27 Sony Corp ロボットの行動制御システム及び行動制御方法、並びにロボット装置
JP4661074B2 (ja) * 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
US8145492B2 (en) 2004-04-07 2012-03-27 Sony Corporation Robot behavior control system and method, and robot apparatus
JP2013015601A (ja) * 2011-07-01 2013-01-24 Dainippon Printing Co Ltd 音源の識別装置および音源に連動する情報処理装置

Similar Documents

Publication Publication Date Title
JP4757158B2 (ja) 音信号処理方法、音信号処理装置及びコンピュータプログラム
JP4177755B2 (ja) 発話特徴抽出システム
JP2004531767A5 (ja)
JP4391701B2 (ja) 音声信号の区分化及び認識のシステム及び方法
JPH07248794A (ja) 音声信号処理方法
CN109147798B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN111653289A (zh) 一种回放语音检测方法
CN115116232B (zh) 汽车鸣笛的声纹比较方法、装置、设备及存储介质
CN108847253A (zh) 车辆型号识别方法、装置、计算机设备及存储介质
US20020062211A1 (en) Easily tunable auditory-based speech signal feature extraction method and apparatus for use in automatic speech recognition
CN113160852A (zh) 语音情绪识别方法、装置、设备及存储介质
JPH11311999A (ja) 音声認識方法
Loweimi et al. Robust Source-Filter Separation of Speech Signal in the Phase Domain.
Wang et al. Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities
JP4119112B2 (ja) 混合音の分離装置
CN112466276A (zh) 一种语音合成系统训练方法、装置以及可读存储介质
JPH11311992A (ja) 音声認識方法
CN112309404B (zh) 机器语音的鉴别方法、装置、设备及存储介质
JP7184236B2 (ja) 声紋を認識する方法、装置、設備、および記憶媒体
JP2004274234A (ja) 音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体
CN116052689A (zh) 一种声纹识别方法
JP4166405B2 (ja) 駆動信号分析装置
CN115862636B (zh) 一种基于语音识别技术的互联网人机验证方法
Pichevar et al. Cochleotopic/AMtopic (CAM) and Cochleotopic/Spectrotopic (CSM) map based sound sourcce separation using relaxatio oscillatory neurons
CN116229987B (zh) 一种校园语音识别的方法、装置及存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040813

A131 Notification of reasons for refusal

Effective date: 20040914

Free format text: JAPANESE INTERMEDIATE CODE: A131

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050517