JP3065088B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3065088B2
JP3065088B2 JP1224956A JP22495689A JP3065088B2 JP 3065088 B2 JP3065088 B2 JP 3065088B2 JP 1224956 A JP1224956 A JP 1224956A JP 22495689 A JP22495689 A JP 22495689A JP 3065088 B2 JP3065088 B2 JP 3065088B2
Authority
JP
Japan
Prior art keywords
audio signal
change amount
audio
voice
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1224956A
Other languages
English (en)
Other versions
JPH0387900A (ja
Inventor
敬 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP1224956A priority Critical patent/JP3065088B2/ja
Publication of JPH0387900A publication Critical patent/JPH0387900A/ja
Application granted granted Critical
Publication of JP3065088B2 publication Critical patent/JP3065088B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音声信号から抽出された特徴ベクトルに基
づいて音声マッチングパタンを生成し、この音声マッチ
ングパタンと比較マッチングパタンとの類似度を算出す
ることにより音声を認識する音声認識装置に関するもの
である。
〔従来の技術〕
第2図は従来の音声認識装置の構成を示すブロック図
である。
この音声認識装置においては、入力端子TINから入力
された音声信号が音声分析部11によりアナログ/デジタ
ル変換され、音声分析部11に備えられた中心周波数の異
なるp個のバンドパスフィルタ群によって抽出された帯
域内周波数成分をフレーム周期毎に取り出されて特徴ベ
クトルが算出され、この特徴ベクトルの要素Sij(iは
フレーム番号、j=1,2,…,p)から対数音声パワーPi
算出される。
音声区間検出部12では対数音声パワーPiに基づいて音
声区間、即ち、音声の始端フレーム及び音声の終端フレ
ームが決定される。
線形伸縮部13では音声区間における特徴ベクトル系列
で表される音声パタンを所定のフレーム数に線形伸縮し
て音声マッチングパタンを生成する。この線形伸縮は、
線形伸縮前のフレーム番号をi、線形伸縮前の始端フレ
ームの番号IS、線形伸縮前の終端フレームの番号をIE
線形伸縮後のフレーム番号をlとした場合に、次の式
(1)により行われる。
i={IS(32−l)+IE(l−1)}/(32−1) ……式(1) この結果、音声パタン は、線形伸縮されて なる音声マッチングパタンとなる。尚、ここで、 である。
線形伸縮部15では、音声標準パタンとして比較パタン
メモリ部14に予め格納されている比較マッチングパタン
と音声マッチングパタンとの間の類似度を算出する。
判定部16では、算出された類似度の中で最大値を与え
る比較マッチングパタンに付与されている単語名(以
下、カテゴリと称する)を出力する。
〔発明が解決しようとする課題〕
しかしながら、上記した従来の音声認識装置において
は、時間軸の伸縮操作を単なる線形伸縮により行ってい
たので、この伸縮操作に際してフレーム数を減少させた
場合、音声の特徴点を有するフレームが欠落することが
あり認識性能が悪いという問題があった。特に、長母音
や撥音の無音部分等のような音響的性質が変化しない音
節を多く含む単語の認識性能が悪かった。
そこで、本発明は上記したような従来技術の課題を解
決するためになされたものであり、その目的とするとこ
ろは、認識性能の良好な音声認識装置を提供することに
ある。
〔課題を解決するための手段〕
本発明に係る音声認識装置は、音声信号を周波数分析
し、一定の時間間隔であるフレーム毎に上記音声信号の
特徴を表わす特徴ベクトルを算出し、この特徴ベクトル
からフレーム毎に対数音声パワーを算出する音声分析部
と、上記対数音声パワーより上記音声信号の始端と終端
とを検出する音声区間検出部と、上記対数音声パワーよ
り対数音声パワーの短時間変化量を算出する特徴変化量
算出部と、上記音声信号の始端から終端までの区間内に
おける上記短時間変化量の累積値を算出し、上記音声信
号の始端からの経過時間に応じて増加し上記音声信号の
終端で最大になる時間経過項を算出し、上記累積値と上
記時間経過項とを重み付け加算して得られた総合変化量
を算出し、この総合変化量に基づいて上記音声信号の始
端から終端までの特徴ベクトル系列を伸縮して一定長の
音声マッチングパタンを生成する非線形伸縮部と、学習
用の音声信号に基づく標準パタンである比較マッチング
パタンを予め格納しておく比較パタンメモリ部と、上記
非線形伸縮部より出力された音声マッチングパタンと上
記比較パタンメモリ部に格納された比較マッチングパタ
ンとの間の類似度を算出する類似度算出部と、上記算出
された類似度の中で最大値を与える比較マッチングパタ
ンに付与されているカテゴリ名を出力する判定部とを有
することを特徴としている。
〔作 用〕
本発明においては、音声信号の特徴を表わす特徴ベク
トルより算出された対数音声パワーから、対数音声パワ
ーの短時間変化量を算出し、この対数音声パワーの短時
間変化量の累積値を算出し、上記音声信号の始端からの
経過時間に応じて増加し上記音声信号の終端で最大にな
る時間経過項を算出し、上記累積値と上記時間経過項と
を重み付け加算して得られた総合変化量を算出し、この
総合変化量に基づいて音声信号の始端から終端までの特
徴ベクトル系列を伸縮して一定長の音声マッチングパタ
ンを生成している。即ち、特徴ベクトル系列の伸縮を対
数音声パワーの短時間変化量の累積値と、音声信号の始
端からの経過時間に応じて増加し音声信号の終端で最大
になる時間経過項とを重み付け加算して得られた総合変
化量に基づいて非線形に行っている。このような音声の
特徴に基づく非線形の伸縮により、音声パタンの伸縮に
際いてフレーム数が削減されても音声の特徴点を有する
フレームを欠落させないようにしている。
〔実施例〕
以下に本発明を図示の実施例に基づいて説明する。
第1図は本発明に係る音声認識装置の一実施例を示す
ブロック図である。
同図において、1は音声分析部であり、この音声分析
部1は中心周波数が少しずつ異なる複数のバンドパスフ
ィルタ群を有し、入力端子TINから入力された音声信号
を特徴ベクトルの時系列に変換する。尚、この音声分析
部1としては高速フーリエ変換により特徴ベクトルの時
系列を生成するものもある。
音声分析部1による処理を詳細に説明すると、この音
声分析部1は入力された音声信号をアナログ/デジタル
変換し、その後、バンドパスフィルタ群によって各フィ
ルタ固有の周波数成分のみを抽出し、抽出された各フィ
ルタの出力の絶対値の平均値をフレーム周期毎に算出す
る。この算出値は、そのフレームにおける各バンドパス
フィルタの特徴ベクトルの大きさになる。バンドパスフ
ィルタがpチャネルある場合には、i番目のフレームに
おける特徴ベクトルの大きさAij(j=1,2,…,p)は、
次のようになる。
Aij=(Ail,Ai2,…,Aip) また、音声分析部1においては、この特徴ベクトルの
大きさAijから、次の式(2)に基づいて対数音声パワ
ーPiを、式(3)に基づいて特徴ベクトル(特徴ベクト
ルの要素をSijで表す)を算出する。
2は音声区間検出部であり、この音声区間検出部2は
音声分析部1から送出される対数音声パワーPiに基づい
て音声区間、即ち、音声の始端フレーム(i=a)及び
音声の終端フレーム(i=b)を決定する(例えば、特
開昭60−254100号公報に開示されている)。
3は特徴変化量算出部であり、この特徴変化量算出部
3は以下の処理を行う。先ず、音声分析部1により得ら
れた対数音声パワーPiから、フレーム毎に、次の式
(4)により短時間パワー変化量Riを算出する。
4は非線形伸縮部であり、この非線形伸縮部4は、先
ず、短時間パワー変化量Riから次の式(5)により累積
値(累積変化量)Yを算出する。
ここで、b<iのときにYをnとし、i<aのときに
Yを0としたのは、式(5)の演算を統一的に行うため
である。
さらに、非線形伸縮部4は、式(6)により累積値Y
(第1項)と音声始端からの時間経過を考慮するための
時間経過項(第2項)とを重み付けし加算して得られた
総合変化量Qiを算出する。
Qi =μX(i) ……第1項 +(1−μ)(n−1)(b−a)-1(i−a) ……第2項 ……式(6) ここで、μは各々の変化量の重み係数(0〜1)であ
り、通常、0.6程度に設定される。
式(6)において第1項に第2項を加えた理由は、短
時間パワー変化量Riの累積値に基づく第1項のみでは長
母音や撥音等のような音響変化率の少ない音節を多く含
む単語の認識率の向上が不十分な場合があるので(例え
ば、母音「あ」は音響パワーの変化は小さく0に近いの
で短時間パワー変化量Riでは識別しにくい)、時間経過
項である第2項を加えることにより音響変化率の少ない
音節を多く含む単語の認識率を向上させるためである。
換言すれば、式(6)は第2項を加えるという簡単な処
理により長母音や撥音等の認識率を向上させるものであ
る。
尚、この総合変化量Q(i)は音声始端(i=a)で
は0、音声終端(i=b)ではn−1となる増加関数と
なる。
そして、次に、式(6)の逆関数である式(7)を求
める。
i=X-1(Y) (X(i)≦Y<X(i+1)のとき) ……式(7) ここで、伸縮後のフレーム番号をl(l=1,2,…,n)
とすると、フレーム番号lに対応する伸縮前のフレーム
番号iは次の式(8)により表される。
i=X-1(l−1) ……式(8) 従って、伸縮前の音声パタン は、伸縮されて なる特徴ベクトル系列からなる音声マッチングパタンと
なる。
5は比較パタンメモリ部であり、この比較パタンメモ
リ部5には予め学習用の音声信号に基づく標準パタンで
ある比較マッチングパタンが格納されている。この比較
マッチングパタンは、例えば、話者を限定する特定話者
音声認識では、認識対象となる単語(以下、カテゴリと
称する)を予め発声し、既に説明した音声分析部1、音
声区間検出部2、情報変化量算出部3及び非線形伸縮部
4により処理と同一の処理を特定話者の音声信号に施し
て求める。
6は類似度算出部であり、この類似度算出部6では音
声マッチングパタンと比較マッチングパタンとの類似度
を、例えば、DP(ダイナミックプログラミング)マッチ
ング法や線形マッチング法(例えば、特開昭62−73299
号に開示されたものがある)により計算する。
7は判定部であり、この判定部7は類似度算出部6に
おいて比較マッチングパタン毎に計算された類似度を用
いて、最大類似度を与える比較パタンに与えられたカテ
ゴリ名を認識結果として出力端子TOUTから出力する。
以上説明したように、本実施例においては、音声信号
の特徴を表わす特徴ベクトルより算出された対数音声パ
ワーから、対数音声パワーの短時間変化量を算出し、こ
の対数音声パワーの短時間変化量の累積値を算出し、上
記音声信号の始端からの経過時間に応じて増加し上記音
声信号の終端で最大になる時間経過項を算出し、上記累
積値と上記時間経過項とを重み付け加算して得られた総
合変化量を算出し、この総合変化量に基づいて音声信号
の始端から終端までの特徴ベクトル系列を伸縮して一定
長の音声マッチングパタンを生成している。このよう
に、音声の特徴に基づく非線形の伸縮により所定のフレ
ーム数の音声マッチングパタンを生成しているので、音
声の特徴点を有するフレームを欠落させない伸縮が可能
になり、よって、認識率の向上を図ることができる。ま
た、認識率が向上することによって、従来は32フレーム
であった伸縮後のフレーム数を16フレーム程度にまで削
減できるので、認識に要する類似度算出処理が少なくな
り、認識処理を迅速にすることが可能になる。
次に、他の発明に係る音声認識装置の実施例(以下、
第二実施例という)について説明する。第二実施例は、
先に説明された第1図の実施例(以下、第一実施例とい
う)と特徴変化量算出部3及び非線形伸縮部4の機能の
みが相違する。従って、以下に特徴変化量算出部3及び
非線形伸縮部4の機能を中心に説明する。尚、この実施
例は第一実施例と同様の構成を有しているので、以下の
説明においては第1図を参照する。
第二実施例の特徴変化量算出部3は、音声分析部1で
算出された対数音声パワーPiの短時間変化量と、次と式
(9) Gij=Sij−Pi ……式(9) で表される正規化特徴ベクトル(正規化特徴ベクトルの
要素をGijで表す)から、次の式(10)によりフレーム
毎に特徴変化量Riを算出する。
ここで、Cp,Cgは音声区間内の各々の変化量を正規化
する係数であり、それぞれ式(11)、式(12)で表され
る。
尚、μは各々の変化量の重み係数(0〜1)であり、
通例0.5程度に設定される。
非線形伸縮部4は、先ず、短時間パワー変化量Riから
次の式(13)により累積値(累積変化量)Yを算出す
る。
ここで、b<iのときにYをnとし、i<aのときに
Yを0としたのは、式(13)の演算を統一的に行うため
である。
そして、次に、式(13)の逆関数である式(14)を求
める。
i=X-1(Y) (X(i)≦Y<X(i+1)のとき) i+1=X-1(Y) (Y=X(i)=X(i+1)のとき) ……式(14) ここで、伸縮後のフレーム番号をl(l=1,2,…,n)
とすると、フレーム番号lに対応する伸縮前のフレーム
番号iは次の式(15)により表される。
i=X-1(l−1) ……式(15) 従って、伸縮前の音声パタン は、伸縮されて なる特徴ベクトル系列からなる音声マッチングパタンと
なる。
以上説明したように、第二実施例においても、第一実
施例と同様に音声の特徴に基づく非線形の伸縮により所
定のフレーム数の音声マッチングパタンを生成している
ので、音声の特徴点を有するフレームを欠落させない伸
縮が可能になり、認識率の向上を図ることができる。ま
た、認識率が向上することによって、フレーム数を削減
できるので、認識に要する類似度算出処理が少なくな
り、認識処理を迅速にすることが可能になる。
さらに、第二実施例においては、対数音声パワーの短
時間変化量のみならず音声信号の特徴を表わす特徴ベク
トルの周波数スペクトルの要素の短時間変化量をも考慮
した特徴変化量に基づいて非線形の伸縮を行っているの
で、上記第一実施例よりは処理が複雑になるが、対数音
声パワーの短時間変化量だけを考慮した場合に認識され
にくい傾向がある長母音や撥音のような音響的性質が変
化しない音節の認識性能を一層良好にできる。
これは、音響的性質が変化しない音節であっても(例
えば、母音「あ」)、特徴ベクトルの周波数スペクトル
毎の要素の短時間変化量で見れば長母音や撥音に固有の
特徴が現れる(母音「あ」は周波数毎に固有のパワーの
分布を持っている)からである。換言すれば、第二実施
例は処理内容は複雑になるが、長母音や撥音等の認識率
を第一実施例より一層向上させるものである。このた
め、第二実施例においては、第一実施例の式(6)に示
されるような時間経過項を設ける必要性が少ないという
ことができるが、式(6)に示されるように時間経過項
を考慮した処理を行うこと可能である。
〔発明の効果〕
以上詳細に説明したように、請求項1の発明によれ
ば、音声信号の始端から終端までの区間内における短時
間変化量の累積値を算出し、音声信号の始端からの経過
時間に応じて増加し音声信号の終端で最大になる時間経
過項を算出し、上記累積値と上記時間経過項とを重み付
け加算して得られた総合変化量を算出し、この総合変化
量に基づいて音声信号の始端から終端までの特徴ベクト
ル系列を伸縮して一定長の音声マッチングパタンを生成
しているので、音声の特徴点を有するフレームを欠落さ
せない伸縮が可能になり、特に、時間経過項を加えるこ
とにより音響変化率の少ない音節を多く含む単語の認識
率の向上を図ることができるという効果がある。
また、認識率が向上することによって、フレーム数を
少なくすることができるので、認識処理を迅速にできる
という効果がある。
一方、請求項2の発明によれば、音声の特徴に基づく
非線形の伸縮により所定のフレーム数の音声マッチング
パタンを生成しているので、音声の特徴点を有するフレ
ームを欠落させない伸縮が可能になり、認識率の向上を
図ることができるという効果がある。
また、認識率が向上することによって、フレーム数を
少なくすることができるので、認識処理を迅速にするこ
とができるという効果がある。
さらに、対数音声パワーの短時間変化量のみならず音
声信号の特徴を表わす特徴ベクトルの周波数スペクトル
の要素の短時間変化量をも考慮した特徴変化量に基づい
て非線形の伸縮を行っているので、対数音声パワーの短
時間変化量だけを考慮した場合に認識されにくい傾向が
ある長母音や撥音のような音響的性質が変化しない音節
の認識性能を一層良好にできるという効果がある。
【図面の簡単な説明】
第1図は本発明に係る音声認識装置の一実施例を示すブ
ロック図、 第2図は従来の音声認識装置のブロック図である。 1……音声分析部、 2……音声区間検出部、 3……特徴変化量算出部、 4……非線形伸縮部、 5……比較パタンメモリ部、 6……類似度算出部、 7……判定部、 TIN……入力端子、 TOUT……出力端子。
フロントページの続き (56)参考文献 特開 昭61−183697(JP,A) 特開 平1−170998(JP,A) 特開 昭56−144498(JP,A) 特開 昭61−292695(JP,A) 特開 昭58−130391(JP,A) 特開 昭56−158386(JP,A) 特公 平5−74836(JP,B2) 特公 平1−15079(JP,B2) 特公 平4−9319(JP,B2) 特公 平1−19595(JP,B2) 特公 昭61−14520(JP,B2) 特公 平2−22960(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 17/00

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】音声信号を周波数分析し、一定の時間間隔
    であるフレーム毎に上記音声信号の特徴を表わす特徴ベ
    クトルを算出し、この特徴ベクトルからフレーム毎に対
    数音声パワーを算出する音声分析部と、 上記対数音声パワーより上記音声信号の始端と終端とを
    検出する音声区間検出部と、 上記対数音声パワーより対数音声パワーの短時間変化量
    を算出する特徴変化量算出部と、 上記音声信号の始端から終端までの区間内における上記
    短時間変化量の累積値を算出し、上記音声信号の始端か
    らの経過時間に応じて増加し上記音声信号の終端で最大
    になる時間経過項を算出し、上記累積値と上記経過時間
    項とを重み付け加算して得られた総合変化量を算出し、
    この総合変化量に基づいて上記音声信号の始端から終端
    までの特徴ベクトル系列を伸縮して一定長の音声マッチ
    ングパタンを生成する非線形伸縮部と、 学習用の音声信号に基づく標準パタンである比較マッチ
    ングパタンを予め格納しておく比較パタンメモリ部と、 上記非線形伸縮部より出力された音声マッチングパタン
    と上記比較パタンメモリ部に格納された比較マッチング
    パタンとの間の類似度を算出する類似度算出部と、 上記算出された類似度の中で最大値を与える比較マッチ
    ングパタンに付与されているカテゴリ名を出力する判定
    部とを有することを特徴とする音声認識装置。
JP1224956A 1989-08-31 1989-08-31 音声認識装置 Expired - Fee Related JP3065088B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1224956A JP3065088B2 (ja) 1989-08-31 1989-08-31 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1224956A JP3065088B2 (ja) 1989-08-31 1989-08-31 音声認識装置

Publications (2)

Publication Number Publication Date
JPH0387900A JPH0387900A (ja) 1991-04-12
JP3065088B2 true JP3065088B2 (ja) 2000-07-12

Family

ID=16821828

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1224956A Expired - Fee Related JP3065088B2 (ja) 1989-08-31 1989-08-31 音声認識装置

Country Status (1)

Country Link
JP (1) JP3065088B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016036163A3 (ko) * 2014-09-03 2016-04-21 삼성전자 주식회사 오디오 신호를 학습하고 인식하는 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016036163A3 (ko) * 2014-09-03 2016-04-21 삼성전자 주식회사 오디오 신호를 학습하고 인식하는 방법 및 장치

Also Published As

Publication number Publication date
JPH0387900A (ja) 1991-04-12

Similar Documents

Publication Publication Date Title
US5842162A (en) Method and recognizer for recognizing a sampled sound signal in noise
JP2763322B2 (ja) 音声処理方法
JPH0743598B2 (ja) 音声認識方法
US5907826A (en) Speaker-independent speech recognition using vowel/consonant segmentation based on pitch intensity values
EP1250700A1 (en) Speech parameter compression
US6182036B1 (en) Method of extracting features in a voice recognition system
JPS634200B2 (ja)
US4937871A (en) Speech recognition device
CN113160852A (zh) 语音情绪识别方法、装置、设备及存储介质
KR100827097B1 (ko) 음성신호 전처리를 위한 가변 길이의 프레임 결정 방법과이를 이용한 음성신호 전처리 방법 및 장치
JPS6366600A (ja) 話者の音声を前処理して次の処理のための正規化された信号を得る方法および装置
JP3065088B2 (ja) 音声認識装置
KR20050051435A (ko) 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JP4603727B2 (ja) 音響信号分析方法及び装置
JP2002244697A (ja) 音声認証装置、音声認証方法、及びプログラム
KR100381372B1 (ko) 음성특징 추출장치
JP3352144B2 (ja) 音声認識装置
JPH08254992A (ja) 話速変換装置
Harshavardhini et al. MFCC and DTW Based Speech Recognition
JP2001083978A (ja) 音声認識装置
TWI395200B (zh) 一種不用樣本能辨認所有語言的辨認方法
JPS6152478B2 (ja)
JPS61137199A (ja) 単語音声の認識方法
JPS6148898A (ja) 音声の有声無声判定装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees