JPH11311992A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH11311992A
JPH11311992A JP10120186A JP12018698A JPH11311992A JP H11311992 A JPH11311992 A JP H11311992A JP 10120186 A JP10120186 A JP 10120186A JP 12018698 A JP12018698 A JP 12018698A JP H11311992 A JPH11311992 A JP H11311992A
Authority
JP
Japan
Prior art keywords
similarity
speech
voice
reference data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10120186A
Other languages
English (en)
Inventor
Seiichiro Hanya
精一郎 半谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP10120186A priority Critical patent/JPH11311992A/ja
Publication of JPH11311992A publication Critical patent/JPH11311992A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 高速走行時における認識率を改善する。 【解決手段】 帯域が異なるm段のバンドパスフィルタ
11に既知音声を入力し、m段の各バンドパスフィルタ
出力の一定時間フレーム毎の二乗平均よりなる3次元パ
ターンデータをリファレンスデータとして辞書メモリ1
3に記憶し、入力音声の3次元パターンデータと複数の
既知音声のリファレンスデータとの類似度に基づいて入
力音声を認識する音声認識装置である。音声認識部14
は、ノイズが大きいほど重みが小さくなるように段方向
の類似度成分に重み付けを行い、重み付けされた類似度
成分の総和を用いて類似度を演算し、類似度が最大のリ
ファレンスデータに応じた既知音声を入力音声であると
認識する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識方法に係わ
り、特に、類似度が最大のリファレンスデータに応じた
既知音声を入力音声であると認識する音声認識方法に関
する。
【0002】
【従来の技術】多数の既知音声のリファレンスデータを
メモリに登録しておき、入力音声の3次元パターンデー
タとリファレンスデータの類似度に基づいて入力音声を
認識する音声認識方法がある。かかる音声認識方法のリ
ファレンス登録モードにおいては、(1) 帯域が異なるm
段のバンドパスフィルタに既知音声を入力し、(2) m段
の各バンドパスフィルタ出力の所定時間毎の二乗平均よ
りなる3次元パターンデータに正規化などの加工処理を
施してリファレンスデータを作成し、(3) 同様に多数の
既知音声のリファレンスデータを作成してメモリに登録
する。そして、リファレンスデータ登録後の音声認識モ
ードにおいて、(1) 入力された音声の3次元パターンデ
ータとリファレンスデータの類似度を計算し、(2) 類似
度が最大のリファレンスデータを求め、(3) 該リファレ
ンスデータに応じた既知音声を入力音声であると認識す
る。
【0003】(a)バタワースフィルタバンクを用いた
従来の音声認識装置 ・概略構成 図7は上記従来の音声認識方法を実現する音声認識装置
の概略構成図であり、1は帯域が異なるm段のバタワー
ス型のバンドパスフィルタで構成されたフィルタバンク
(バタワースフィルタバンク)、2は既知音声の3次元
パターンデータをリファレンスデータとして作成すると
共に未知音声の3次元パターンデータを作成する処理
部、3は既知音声のリファレンスデータ記憶する辞書メ
モリ、4は音声認識処理を行う音声認識部である。処理
部2は、リファレンスデータ登録モードにおいて、既知
音声がバタワースフィルタバンク1に入力した時、該バ
タワースフィルタバンクの各段出力を所定周波数でサン
プリングする。しかる後、処理部2は段毎にサンプリン
グデータの所定時間フレーム毎の二乗平均を計算し、フ
レーム/段/二乗平均値よりなる3次元パターンデータ
を作成する。ついで、該3次元パターンデータに正規化
などの加工処理を施し、得られたデータをリファレンス
データとして辞書メモリ3に登録する。又、処理部2は
音声認識モードにおいて、未知音声がバタワースフィル
タバンク1に入力した時、既知音声の場合と同様に未知
音声の3次元データを作成し音声認識部4に入力する。
辞書メモリ3は複数の既知音声のリファレンスデータを
記憶し、音声認識部4は、未知入力音声の3次元パター
ンデータとリファレンスデータの類似度を計算し、類似
度が最大のリファレンスデータに応じた既知音声を入力
音声であると認識する。
【0004】・フィルタバンクの特性 バタワースフィルタバンク1は、式(1)により決定され
る中心周波数f(x)を持つバンドパスフィルタの集まりと
して構成される。 f(x)=160(102.1x−0.8) Hz (1) だたし、0≦x≦1とし、隣接するフィルタの3dB減衰
点が一致するように配置し、フィルタの次数は最低次の
2次とする。また、バタワースフィルタバンクにはプリ
エンファシス(高域強調)の特性がないので、このフィル
タバンクに入力する前に入力音声に伝達関数(1-0.96
z-1)のプリエンファシスを施している。以上により、第
i段目の中心角周波数ωiの2次のバタワース型バンド
パスフィルタのアナログ伝達関数B2i(s)は次式のよう
になる。
【0005】 B2i(s)=(ωiaib)s/{ωiaωib+(ωiaib)s+s2} (2) ここで、ωia、ωibはバンドパスフィルタの高域側、低
域側のカットオフ角周波数で、 ωia=(ωii-1)/2, ωib=(ωii+1)/2 である。上式を双一次変換すれば所望の2次のディジタ
ル伝達関数B2i(z)が得られる。
【数1】 ここでaia、aibはωia、ωibをプリワープした角周波数
である。本来の角周波数をω、プリワープ後の角周波数
をΩ、システムのサンプリング周波数をfSとすると、プ
リワープは下式で行なう。 Ω=tan(ω/2fs) (4) バタワースフィルタバンクは、2次のものは式(3)のフ
ィルタを、入力音声に対して段毎に並列に配置すること
により作成する。図7に、これらのフィルタバンクの振
幅特性を、プリエンファシスの特性も加味して0段目か
ら10段おきに70段目まで示している。
【0006】・3次元パターンの作成 まず、音声をバタワースフィルタバンク1に入力し、音
声スペクトルの時間変化を示す3次元パターンデータを
作成する。図8は音声スペクトルの時間変化を取得する
処理の流れを示す説明図である。 フィルタリング 音声をバタワースフィルタバンク1に入力し、各段のフ
ィルタ出力を所定周波数でサンプリングし、サンプリン
グ音声データを並べて図8(a)のような段m、時間tの
3次元データC(m,t)を得る。
【0007】時間軸方向へのフレーミング 図8(a)の3次元データは、音声を単にフィルタリング
しただけのものなので、まだ位相情報を含んでおり、デ
ータも正負に激しく変動し、このままでは他のデータと
のマッチングを効率的に取ることができない。また、音
声波形の位相情報は録音系などによって変わりやすい
上、人間による音声の知覚にほとんど寄与しないので、
むしろ取り除いた方が良い。そこで、次式のように30ms
間を1フレームとして1フレーム内の各段のデータの2乗
平均を取って変動を緩やかにし、図8(b)のような段
m、フレームnの3次元パターンP′(m,n)を求める。
なお、フレームは10msずつシフトさせ、隣接フレーム
は互いに20ms重なるようにする。
【数2】
【0008】音声無録音部の削除 音声データ30ms間を1フレームとしてフレーム内のパ
ワー平均を求める。このフレームを10msづつシフトさ
せ、短時間パワーの系列を求める。短時間パワーの値が
一定値α以上となるフレームがβ個以上続く点を短時間
パワー系列の先頭フレームから検索し、その検索された
フレームを音声区間の開始点とし、そのフレームに相当
する時間までのデータを音声データから削除する。α、
βの値は経験的に決定する。たとえば、αは、車内ノ
イズが無い時、40km/h時、60km/h時は20000とし、100
km/h時は50000とする。又、βは、いずれの場合も3と
する。また、短時間パワー系列の終端フレームからも同
様の処理を行なって音声区間の終了点を求め、そこから
先のデータを削除する。
【0009】 各話者間、各フレーム間のパワー差の平滑化 各フレーム内で、次式のようにP′s(n)を基準とした対
数をとって出力値を正規化し、各フレーム間の音声パワ
ー差を平滑化する。この処理により、同時に、各話者間
の音声パワー差も平滑化することになる。なお、P′
s(n)は例えば第nフレームの各段の最大パワーである。 P″(m,n)=10log{P′(m,n)/P′s(n)} (6) 各話者間の発生期間の差の正規化 P″(m,n)のフレーム数を一定値Nに線形伸縮させて正
規化し、図8(c)のような正規化3次元パターンP(m,n)
を求める。この処理により各話者間の発声期間の差を正
規化する。Nの値は経験的に決定する(例えばN=30
である)。
【0010】・3次元パターンを用いた音声認識 次に、以上により作成した3次元パターンデータを用い
た数字音声の認識法を図9〜図11に従って説明する。 リファレンスデータの作成 図9はリファレンスデータ作成方法の説明図である。0
〜9の各数字音声について、話者1人1個づつの3次元
パターンを用いて、それらの類似度が最大になるように
各データをフレーム方向にシフトした後、全てのデータ
で重なる部分の平均をとることにより、その数字のリフ
ァレンスデータを作成する。この場合、フレーム方向の
シフト量sは、最大±1とする。フレーム数N、段数M
の2つの3次元パターンP1, P2の類似度r(P1,P2)は以
下の式(7)により計算する。
【数3】 従って、話者が2人の場合には、シフト量を±1以内で
種々変えて(7)式の計算を行い、類似度r(P1,P2)が最大
となるシフト量sを求める。このシフト量sだけ一方を
シフトした時の3次元パターンP1,P2の対応部分の平均
値をリファレンスデータとする。
【0011】音声認識 図10は音声認識方法の説明図である。未知入力音声の
3次元パターンデータを作成し、該3次元パターンデー
タと数字音声0から数字音声9までの10個のリファレ
ンスデータとの類似度を式(7)より求め、もっとも類似
度の高いリファレンスデータの数字をその未知入力音声
の数字とすることにより音声認識を行なう。この時も、
未知音声データに対して、リファレンスデータをフレー
ム方向に最大±1だけシフトさせ、最も類似度が高かっ
たものをそのデータ間の類似度とする。
【0012】図11は音声認識部の詳細構成を含む従来
の音声認識装置の構成図である。1はバタワースフィル
タバンク、2は処理部、3は数字0〜9のリファレンス
データが登録された辞書メモリ、4は音声認識部であ
る。音声認識部4において50〜59は類似度算出部、6
は最大類似度判定部である。辞書メモリ3に数字0〜9
のリファレンスデータを登録した後に音声認識を行う。
未知音声が入力すると処理部2は未知入力音声の3次元
パターンデータを作成して音声認識部4に出力する。音
声認識部4の類似度算出部50〜59は該3次元パターン
データと数字音声0〜9までの10個のリファレンスデ
ータとの類似度を式(7)より算出し、最大類似度判定部
6は最も類似度の高いリファレンスデータの数字を未知
入力音声の数字であると認識して出力する。
【0013】・従来方法による音声認識の認識率 実験条件 音声認識実験では認識が比較的容易な単語音声を使用し
た。単語としては、基礎的な単語であり、かつ、種々の
応用が考えられる0から9の10個の数字音声を使用し
た。また、話者は男性のみとし、異性間の音声スペクト
ルの差が認識率に影響を与えないようにした。図12に
音声認識実験に使用する音声データの詳細を示す。各数
字音声のリファレンスデータは、各話者の11個の音声
データのうち1つを用いて作成し、残りの10個の音声
データをその話者の未知音声データとした。よって、未
知音声データは、各数字音声について10個×37人で
370個となり、数字音声は10個あるので全体で37
00個となる。
【0014】使用したノイズについて ノイズとしては、乾いたアスファルトの路面を時速40km
/h, 60km/h, 100km/hで走行している時に、窓を締め切
った車内で録音したノイズ(以後、これを車内ノイズと
呼ぶ)を使用した。図13に所定速度における車内ノイ
ズのみのデータから作成した3次元パターンを示し、図
14にこのパターンをフレーム方向に平均化したものを
示す。図13や図14に示す車内ノイズのスペクトル
は、どのフレームにおいてもほぼ同じで、30段目付近
(1kHz付近)をピークとした山なりのパワー分布をして
いることが分かる。
【0015】実験結果 バタワースフィルタバンク1(図7)を用いて未知音声
に車内ノイズを付加して音声認識実験を行なった。音声
認識率を図15に示す。この図15からもわかるよう
に、走行スピードの増加に応じて車内ノイズも増加する
ため音声認識率が低下しているのがわかる。特に100km/
hノイズ付加時には無雑音、40km/hノイズ、60km/hノイ
ズに比べその認識率の低下の度合いは顕著である。
【0016】(b)蝸牛フィルタバンクを用いた音声認
識装置 以上はフィルタバンクとしてバタワースフィルタバンク
を用いた従来例であるが、バタワースフィルタバンクの
代わりに蝸牛フィルタバンクを使用する音声認識装置も
提案されている。図16は蝸牛フィルタバンクを用いた
音声認識装置の概略構成図であり、図7とはバタワース
フィルタバンク1の代わりに蝸牛フィルタバンク1′を
使用する点で異なるだけである。
【0017】・蝸牛フィルタバンク J.M.Katesにより提案されたディジタル蝸牛モデルは人
間の聴覚末梢系の1つである蝸牛をモデル化したもので
ある(IEEE TRANSACTIONS ON SIGNAL PROCESSING. VOL.
39, NO. 12, DECEMBER 1991およびIEEE TRANSACTIONS O
N SPEECH AND AUDIO PROCESSINGN VOL.1, NO.4, OCTOBE
R 1993)。一般に、蝸牛には周波数解析機能があるとい
われており、Katesの提案したディジタル蝸牛モデルの
中でフィルタバンク部(以後、蝸牛フィルタバンクとい
う)を使用して、音声の周波数解析を行なう。図17、
図18は蝸牛フィルタバンクの構成図であり、図17は
全体(0〜71段)の蝸牛フィルタバンクを示し、図18は
i番目の逆L字型蝸牛フィルタを示している。蝸牛フィ
ルタバンクは図17に示すように、まず、進行波フィル
タHi(z)(i=0〜71)がカスケードに接続され、その各
段の出力に、速度変換フィルタTi(z)、セカンドフィル
タFi(z)が続く構成となっている。
【0018】・蝸牛フィルタバンクの振幅特性 図19は中心周波数1kHzの段における進行波フィルタ
出力の振幅特性と、蝸牛フィルタ全体の出力の振幅特性
を示す。図19より、進行波フィルタ出力に比べて、蝸
牛フィルタ全体の出力の方が、中心周波数で19dB利
得が増加し、逆に、中心周波数から1オクターブ低いと
ころで利得が12dB減少し、ノッチが現れている。こ
れはセカンドフィルタの効果であり、蝸牛フィルタバン
クの振幅特性を特徴付けている点である。また、中心周
波数での共振特性がなだらかな山なりになっているのも
特徴の一つである。
【0019】音声認識に際して、数字音声データを40
kHzでオーバーサンプリングして蝸牛フィルタバンクに
入力し、100Hz〜3.3kHzまでの72段のフィルタ
バンクの出力データを用いて音声認識する。図16に蝸
牛フィルタバンクの振幅特性を0段目から10段おきに
70段目まで示す。図16より明らかなように、高周波
側のフィルタバンクでは、中心周波数での共振特性も鋭
く、そこより1オクターブ低い周波数でのノッチもはっ
きりと現れているが、低周波側のフィルタバンクほど共
振特性もなだらかになり、ノッチも目立たなくなる。
【0020】・ 蝸牛フィルタバンクを用いた時の認識
結果 蝸牛フィルタバンク1′(図16)を用いて未知音声に
車内ノイズを付加して音声認識実験を行なった。音声認
識率を図20に示す。なお、実験条件、使用した車
内ノイズは図12、図13で説明した場合と同じであ
る。図20からわかるように、バタワースフィルタバン
ク使用の場合と同じように、走行スピードの増加に応じ
て車内ノイズも増加するため音声認識率が低下してるの
がわかる。特に100km/hノイズ付加時には無雑音、40km/
hノイズ、60km/hノイズに比べその認識率の低下の度合
いは顕著である。
【0021】
【発明が解決しようとする課題】以上のように、従来の
音声認識方法では、走行スピードの増加と共に認識率が
低下し、特に100km/hノイズ付加時における認識率の低
下が著しく、しかも、数字1,2,8の認識率低下が著
しい問題がある。従って、本発明の目的は、高速走行時
における認識率、特に、数字1,2,8の認識率を改善
できる音声認識方法を提供することである。
【0022】
【課題を解決するための手段】上記課題は本発明によれ
ば、(1) 帯域が異なるm段のバンドパスフィルタに既知
音声を入力し、m段の各バンドパスフィルタ出力の一定
時間フレーム毎の二乗平均よりなる3次元パターンデー
タをリファレンスデータとして記憶し、入力音声の3次
元パターンデータと複数の既知音声のリファレンスデー
タとの類似度に基づいて入力音声を認識する音声認識方
法において、(2) フレームn、段mで特定されるポイン
トにおける類似度算出対象の2つの3次元パターンの値
の差の二乗を類似度成分とし、各ポイントにおける類似
度成分の総和を用いて類似度を求める場合、ノイズの段
方向のレベルを求め、(3) ノイズが大きいほど重みが小
さくなるように段方向の類似度成分に重み付けを行い、
(4) 重み付けされた類似度成分の各ポイントにおける総
和を用いて類似度を演算し、類似度が最大のリファレン
スデータに応じた既知音声を入力音声であると認識する
ことにより達成される。
【0023】
【発明の実施の形態】(a)全体の構成 図1は本発明の音声認識方法を実現する音声認識装置の
構成図で、11は帯域が異なるm段のバタワース型のバ
ンドパスフィルタで構成されたフィルタバンク(バタワ
ースフィルタバンク)、12は既知音声の3次元パター
ンデータをリファレンスデータとして作成すると共に未
知音声の3次元パターンデータを作成する処理部、13
は既知音声のリファレンスデータを記憶する辞書メモ
リ、14は音声認識部で、入力音声の3次元パターンデ
ータとリファレンスデータの類似度を計算し、類似度が
最大のリファレンスデータに応じた既知音声を入力音声
であると認識するもの、15は類似度算出に際して使用
する重み付け関数w(m)を発生する重み付け関数発生部
である。処理部12において、12aは3次元パターン
生成部、12bは切換部である。音声認識部14におい
て、210〜219は類似度算出部、22は最大類似度判
定部である。
【0024】3次元パターン生成部12aは図8に示す
従来方法と同一の手順で入力音声の3次元パターンを生
成する。すなわち、3次元パターン生成部12aは、音
声がバタワースフィルタバンク11に入力すると該バタ
ワースフィルタバンクの各段出力を所定周波数でサンプ
リングし、しかる後、段毎にサンプリングデータの所定
時間フレーム毎の二乗平均を計算し、フレーム/段/二
乗平均値よりなる3次元パターンデータを作成する。つ
いで、該3次元パターンデータに正規化などの加工処理
を施して出力する。切換部12bはリファレンスデータ
登録時、3次元パターン生成部12aから出力する3次
元パターンデータをリファレンスデータとして辞書メモ
リ13に格納し、音声認識時、3次元パターン生成部1
2aから出力する3次元パターンデータを音声認識部1
4に入力する。
【0025】辞書メモリ13は複数の既知音声、例え
ば、数字音声0〜9のリファレンスデータを記憶する。
音声認識部14の各類似度算出部210〜219は入力音
声の3次元パターンデータと数字音声0〜9のリファレ
ンスデータとの類似度を次式
【数4】 により計算し、最大類似度判定部22は類似度が最大の
リファレンスデータを求め、該リファレンスデータに応
じた既知音声を入力音声であると認識する。尚、(8)式
においてw(m)は重み付け関数である。又、類似度計算
に際して、リファレンスデータを未知音声データに対し
てフレーム方向に最大±1だけシフトさせ、最も類似度
が大きいものをそのデータ間の類似度とする。
【0026】(b)重み付け関数w(m) 従来は、類似度を(7)式により演算したが高速走行時に
おける音声認識率が低い。そこで、(8)式に示すように
重み付け関数w(m)を導入して車内ノイズが類似度の計
算精度に与える影響を軽減する。すなわち、車内ノイズ
に対するロバスト性を向上させるために、従来の類似度
計算式である(7)式に重み付け関数w(m)を導入する。こ
の重み付け関数により、車内ノイズの影響の大きな段の
類似度を軽く見るようにし、影響の小さな段ほど類似度
を重く見るようにする。重み付け関数w(m)の特性は、
図14の車内ノイズの特性を考慮し、図2に示すように
両端の段での値が1、30段目での値が0となるよう
に、かつ、線形に変化するように決定する。すなわち、
重み付け係数発生部15は図2の実線で示すようにフィ
ルタバンクの段mに応じた重み付け関数w(m)を発生し
て音声認識部14の各類似度算出部210〜219に入力
する。
【0027】以上より、類似度算出対象の2つの3次元
パターンにおいて、フレーム数n、段数mで特定される
ポイントのデータ値P1(m,n), P2(m,n)の差の二乗を類似
度成分とし、各ポイントにおける類似度成分の総和を用
いて類似度を求める場合、ノイズの段方向のレベル特性
(図2の点線)を求め、ノイズが大きいほど重みが小さ
くなるように各ポイントの類似度成分に段mに応じた重
み付けを行い(図2実線)、各ポイントにおける重み付
けされた類似度成分の総和を用いて(8)式により類似度
を演算する。
【0028】(c)音声認識 辞書メモリ13に数字0〜9のリファレンスデータを登
録した後に音声認識を行う。未知音声が入力すると処理
部12の3次元パターン生成部12aは未知入力音声の
3次元パターンデータを作成して音声認識部14に入力
する。音声認識部14の類似度算出部210〜219は重
み関数w(m)を導入した(8)式を用いて、未知入力音声の
3次元パターンデータと数字音声0〜9のトータル10
個のリファレンスデータとの類似度をそれぞれ算出し、
最大類似度判定部22は最も類似度の高いリファレンス
データを求め、該リファレンスデータに応じた数字を未
知入力音声の数字であると認識して出力する。
【0029】(d)実験結果 図1の音声認識装置において、未知音声に車内ノイズを
付加して音声認識実験を行なった結果(音声認識率)を
図3に示す。実験条件、使用した車内ノイズは図1
2、図13で説明した場合と同じである。又、図1のバ
タワースフィルタバンクの代わりに蝸牛フィルタバンク
を用いた場合の音声認識率を図4に示す。図5及び図6
はフィルタバンクとしてバタワースフィルタバンク及び
蝸牛フィルタバンクを用いたときの重み付けによる認識
率の改善説明図で、100km/hノイズ付加時の数字認識率
を示し、実線は重み付け関数を導入した場合、点線は重
み付け関数を導入しない場合である。
【0030】図3及び図4の重み付け関数を導入した場
合の音声認識率と図15及び図20の導入しない場合の
音声認識率を比較すると、重み付け関数を導入した場合
の方が100km/hノイズ付加時の認識率が向上しているこ
とがわかる。すなわち、100km/hノイズ付加時の認識率
はバタワースフィルタバンクで9.91%改善され、蝸牛フ
ィルタバンクで12.44%改善されている。又、図5及び
図6より、数字音声1はバタワースフィルタバンク(100
km/hノイズ付加時)で51.4%、蝸牛フィルタバンク(100km
/hノイズ付加時)で52.4%と大幅に認識率が改善され、
又、数字音声2,8も大幅に認識率が改善され、重み付
け関数による効能は明らかである。以上では、フィルタ
バンクとしてバタワースフィルタバンク及び蝸牛フィル
タバンクを用いた場合について説明したが、本発明はこ
れらに限定するものではない。以上、本発明を実施例に
より説明したが、本発明は請求の範囲に記載した本発明
の主旨に従い種々の変形が可能であり、本発明はこれら
を排除するものではない。
【0031】
【発明の効果】以上本発明によれば、ノイズが大きいほ
ど重みが小さくなるように段方向の類似度成分に重み付
けを行い、重み付けされた類似度成分の総和を用いて類
似度を演算するようにしたから、高速走行時における認
識率、特に、数字1,2,8の認識率を改善することが
できる。
【図面の簡単な説明】
【図1】本発明の音声認識装置の構成図である。
【図2】重み付け関数の特性説明図である。
【図3】類似度に重み付けした時の音声認識率説明図表
(バタワースフィルタバンク)である。
【図4】類似度に重み付けした時の音声認識率説明図表
(蝸牛フィルタバンク)である。
【図5】類似度の重み付けによる認識率の改善説明図
(バタワースフィルタバンク)である。
【図6】類似度の重み付けによる認識率の改善説明図
(蝸牛フィルタバンク)である。
【図7】従来の音声認識装置(バタワースフィルタバン
ク使用)の構成図である。
【図8】従来の3次元パターン生成処理説明図である。
【図9】リファレンスデータ作成処理説明図である。
【図10】音声認識方法説明図である。
【図11】音声認識部の詳細構成を含む従来の音声認識
装置の構成図である。
【図12】音声認識に使用するデータの説明図である。
【図13】車内ノイズの3次元パターン説明図である。
【図14】フレーム方向に平均化した車内ノイズ説明図
である。
【図15】バタワースフィルタバンクを用いた従来の音
声認識率説明図表である。
【図16】従来の音声認識装置(蝸牛フィルタバンク使
用)の構成図である。
【図17】蝸牛フィルタバンクの構成図である。
【図18】蝸牛フィルタバンクのブロック図である。
【図19】1段分の蝸牛フィルタの振幅特性である。
【図20】蝸牛フィルタバンクを用いた従来の音声認識
率説明図表である。
【符号の説明】
11・・バタワースフィルタバンク 12・・処理部 12a・・3次元パターン生成部 12b・・切換部 13・・辞書メモリ 14・・音声認識部 15・・重み付け関数発生部 210〜219・・類似度算出部 22・・最大類似度判定部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 帯域が異なるm段のバンドパスフィルタ
    に既知音声を入力し、m段の各バンドパスフィルタ出力
    の一定時間フレーム毎の二乗平均よりなる3次元パター
    ンデータをリファレンスデータとして記憶し、入力音声
    の3次元パターンデータと複数の既知音声のリファレン
    スデータとの類似度に基づいて入力音声を認識する音声
    認識方法において、 フレームn、段mで特定されるポイントにおける類似度
    算出対象の2つの3次元パターンの値の差の二乗を類似
    度成分とし、各ポイントにおける類似度成分の総和を用
    いて類似度を求める場合、ノイズの段方向のレベルを求
    め、ノイズが大きいほど重みが小さくなるように段方向
    の類似度成分に重み付けを行い、重み付けされた類似度
    成分の各ポイントにおける総和を用いて類似度を演算
    し、類似度が最大のリファレンスデータに応じた既知音
    声を入力音声であると認識することを特徴とする音声認
    識方法。
JP10120186A 1998-04-30 1998-04-30 音声認識方法 Pending JPH11311992A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10120186A JPH11311992A (ja) 1998-04-30 1998-04-30 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10120186A JPH11311992A (ja) 1998-04-30 1998-04-30 音声認識方法

Publications (1)

Publication Number Publication Date
JPH11311992A true JPH11311992A (ja) 1999-11-09

Family

ID=14780048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10120186A Pending JPH11311992A (ja) 1998-04-30 1998-04-30 音声認識方法

Country Status (1)

Country Link
JP (1) JPH11311992A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007048177A (ja) * 2005-08-12 2007-02-22 Canon Inc 情報処理方法及び情報処理装置
JP2010266488A (ja) * 2009-05-12 2010-11-25 Raytron:Kk 音声認識モデルパラメータ作成装置、音声認識モデルパラメータ作成方法および音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007048177A (ja) * 2005-08-12 2007-02-22 Canon Inc 情報処理方法及び情報処理装置
JP4708913B2 (ja) * 2005-08-12 2011-06-22 キヤノン株式会社 情報処理方法及び情報処理装置
JP2010266488A (ja) * 2009-05-12 2010-11-25 Raytron:Kk 音声認識モデルパラメータ作成装置、音声認識モデルパラメータ作成方法および音声認識装置

Similar Documents

Publication Publication Date Title
CN111816218B (zh) 语音端点检测方法、装置、设备及存储介质
US20050216259A1 (en) Filter set for frequency analysis
JP2004531767A5 (ja)
JP2020140193A (ja) 逆離散コサイン変換のケプストラム係数の動的分割に基づく音声特徴抽出アルゴリズム
JP2002534718A (ja) 音声信号の区分化及び認識のシステム及び方法
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
WO2023070874A1 (zh) 一种声纹识别方法
CN115116232B (zh) 汽车鸣笛的声纹比较方法、装置、设备及存储介质
CN109147798B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN112466276A (zh) 一种语音合成系统训练方法、装置以及可读存储介质
CN113160852A (zh) 语音情绪识别方法、装置、设备及存储介质
CN112017658A (zh) 一种基于智能人机交互的操作控制系统
Chang et al. Spectro-temporal features for noise-robust speech recognition using power-law nonlinearity and power-bias subtraction
Loweimi et al. Robust Source-Filter Separation of Speech Signal in the Phase Domain.
Wang et al. Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities
JPH11311992A (ja) 音声認識方法
CN112309404B (zh) 机器语音的鉴别方法、装置、设备及存储介质
JPH11311999A (ja) 音声認識方法
CN113345453B (zh) 歌声转换方法、装置、设备及存储介质
CN112863517B (zh) 基于感知谱收敛率的语音识别方法
Wang et al. Using multi-resolution feature maps with convolutional neural networks for anti-spoofing in ASV
Pichevar et al. Cochleotopic/AMtopic (CAM) and Cochleotopic/Spectrotopic (CSM) map based sound sourcce separation using relaxatio oscillatory neurons
JP3352144B2 (ja) 音声認識装置
Dai et al. A temporal frequency warped (TFW) 2D psychoacoustic filter for robust speech recognition system
CN115116431B (zh) 基于智能朗读亭的音频生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040928

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050208