JPH0519782A - 音声特徴抽出装置 - Google Patents

音声特徴抽出装置

Info

Publication number
JPH0519782A
JPH0519782A JP3232212A JP23221291A JPH0519782A JP H0519782 A JPH0519782 A JP H0519782A JP 3232212 A JP3232212 A JP 3232212A JP 23221291 A JP23221291 A JP 23221291A JP H0519782 A JPH0519782 A JP H0519782A
Authority
JP
Japan
Prior art keywords
analysis
group
frame
feature
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3232212A
Other languages
English (en)
Inventor
Yoshinaga Kato
喜永 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP3232212A priority Critical patent/JPH0519782A/ja
Publication of JPH0519782A publication Critical patent/JPH0519782A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 音声の微小な変動を吸収した特徴パターンを
得ることによって認識精度を一層向上させることが可能
である。 【構成】 特徴抽出部11のバンドパスフィルタ群1で
は、入力音声を一定時間ごとにサンプリングし周波数分
析する。区間検出部2では、音声の区間を検出し、周波
数分析した結果の分析値から音声部分に相当するものだ
けを取り出す。グループ化部3では、区間検出部2で取
り出された分析値を分析軸方向にいくつかの次元ごとに
グループとしてまとめ上げて、グループに分割する。演
算部4では、グループ内の分析値に対して演算を施し、
新たな特徴パターンを生成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識システムにお
いて、入力音声からその特徴パターンを抽出する音声特
徴抽出装置に関する。
【0002】
【従来の技術】一般に、音声認識システムは、図30に
示すように、特徴抽出部51と、辞書52と、識別部5
3とから構成されている。このような構成では、音声が
入力すると、先づこの入力音声から音声認識に必要な特
徴パターンを特徴抽出部51で抽出する。具体的には、
入力音声に対し音響分析を施し、入力音声を一定時間ご
とにサンプリングし、周波数分析して10〜20次元の
ベクトルの時系列として表現する。
【0003】音響分析された結果のこのようなベクトル
の時系列データ(分析値)は、音声区間検出等の処理が
施された後、特徴パターンとして用いられ、識別部53
では、このようにして得られた特徴パターンを辞書52
内の種々の特徴パターンと比較し、既知のカテゴリのい
ずれかに分類して、識別結果として出力する。
【0004】ところで、人間の発する音声は不安定であ
り、例えば同一人が同じ言葉を発声したとしても、音声
長のみならず、周波数成分の分布,すなわち分析軸方向
の分布も、その都度、変化することが知られている。
【0005】図31(a)は入力音声を周波数分析した
結果のパターンの一例を示す図であり、図31(b)は
入力音声が図31(a)の場合に比べて微小変動したと
きの周波数分析結果のパターンの一例を示す図である。
なお、図31(a),(b)の例では、入力音声を1フ
レーム当り15次元で分析している。
【0006】図31(a),(b)に示すような各パタ
ーンは、本来同一のカテゴリに分類されるべきものであ
るが、同一人が同じ音声を発声する場合にも、発声者が
声の高さを変えたりするなどの微小変動によって互いに
明らかに異なったものとなり、図31(a),(b)の
各パターンをマッチング手法などを用いて認識させる
と、両パターンはそれぞれ異なるカテゴリに分類され、
互いに異なった音声のものとして認識されてしまう。
【0007】パターンの局所的な変動の影響を避けるた
めに、従来では、音響分析の結果得られた分析値を特徴
パターンとしてそのまま用いるのではなく、時系列方向
に数フレームの窓を設け、その窓内に含まれる分析値を
1つの特徴ベクトルとし、その窓を時系列方向に1フレ
ームづつシフトすることによって、新たな特徴パターン
を作成する方式が提案されている(文献「LVQ−HM
M音韻認識と予測LRパーザを用いた文節認識 信学技
報,SP89−100」参照)。
【0008】図32はこの文献に開示の手法による特徴
ベクトルの作成の仕方を示す図である。なお、図32で
は、分析次元を“15”,窓のフレーム数を“3”とし
ている。この仕方では、分析値を時系列方向に数フレー
ムごとにまとめて新たな特徴パターンとすることによ
り、時系列方向の局所的変動を吸収することができる。
【0009】
【発明が解決しようとする課題】しかしながら、上述し
た従来の音声特徴抽出装置では、時系列方向の局所的変
動を吸収することはできるものの、分析軸方向の変動に
ついてはこれを吸収することができず、認識精度を向上
させるには限度があった。
【0010】本発明は、上記従来技術の欠点を補い、音
声の微小な変動を吸収した特徴パターンを得ることによ
って認識精度を一層向上させることの可能な音声特徴抽
出装置を提供することを目的としている。
【0011】
【課題を解決するための手段】上記目的を達成するため
に請求項1記載の発明は、入力音声を音響分析した結果
の各分析値をグループに分割するグループ化手段と、分
割された各グループ内の分析値に所定の演算処理を施し
て特徴量を生成する演算処理手段とを備えていることを
特徴としている。
【0012】また、請求項2記載の発明は、分割された
各グループが、互いに隣接したグループ間において少な
くとも一部が重複している分析値を有していることを特
徴としている。
【0013】また、請求項3記載の発明は、前記各グル
ープが、分析軸方向に分割されるようになっていること
を特徴としている。
【0014】また、請求項4記載の発明は、前記各グル
ープが、時系列方向に分割されるようになっていること
を特徴としている。
【0015】また、請求項5記載の発明は、前記演算手
段が、各グループ内の分析値を加算し特徴量を生成する
ようになっていることを特徴としている。
【0016】また、請求項6記載の発明は、各グループ
内の分析値に所定の演算処理を施して生成された特徴量
に対し正規化処理を施し、最終的な特徴ベクトルを生成
するようになっていることを特徴としている。
【0017】
【作用】請求項1記載の発明では、入力音声を音響分析
した結果の各分析値をグループに分割し、分割された各
グループ内の分析値に所定の演算処理を施して特徴量を
生成することにより、音声の微小変動を吸収することが
できる。
【0018】また、請求項2記載の発明では、分割され
た各グループは、互いに隣接したグループ間において少
なくとも一部が重複している分析値を有しているので、
グループ間にまたがる音声の微小変動をも吸収すること
ができる。
【0019】また、請求項3記載の発明では、分析軸方
向に分割されるようになっているので、分析軸方向の微
小変動を吸収することができる。
【0020】また、請求項4記載の発明では、時系列方
向に分割されるようになっているので、時系列方向の微
小変動を吸収することができる。
【0021】また、請求項5記載の発明では、各グルー
プ内の分析値を加算し特徴量を生成するようになってい
るので、特徴量を削減することができ、辞書とのマッチ
ングにおける計算量を減らすことができる。
【0022】また、請求項6記載の発明では、各グルー
プ内の分析値に所定の演算処理を施して生成された特徴
量に対し正規化処理を施し、最終的な特徴ベクトルを生
成するようになっているので、音量の大小差を吸収する
ことができる。
【0023】
【実施例】以下、本発明の一実施例を図面に基づいて説
明する。図1は本発明の第1の実施例のブロック図であ
る。図1を参照すると、この第1の実施例では、入力音
声に基づき特徴パターンを生成する特徴抽出部11と、
種々の標準パターンが予め格納されている辞書5と、特
徴抽出部11で得られた特徴パターンと辞書5に予め格
納されている種々の標準パターンとをDPマッチング等
により照合し、認識結果を得る認識部6とが設けられて
いる。
【0024】特徴抽出部11は、入力音声を一定時間ご
とにサンプリングし周波数分析するバンドパスフィルタ
群1と、音声の区間を検出し、周波数分析した結果の分
析値,すなわちパターンから音声部分に相当するものだ
けを取り出す区間検出部2と、区間検出部2で取り出さ
れた分析値を分析軸方向にいくつかの次元ごとにグルー
プとしてまとめ上げて、グループに分割するグループ化
部3と、グループ内の分析値に対して所定の演算を施
し、新たな特徴パターンを生成する演算部4とを有して
いる。第1の実施例においては、演算部4は、グループ
内の要素,すなわち分析値の和を計数するグループ値計
数部13により構成されている。
【0025】次にこのような構成における第1の実施例
の音声特徴抽出装置の動作を図2のフローチャートを用
いて説明する。なお、以下では、音響分析時の総フレー
ム数をMとし、また分析軸方向のグループ数をnとし、
1つのグループ内の分析値の個数をqとする。また、こ
の第1の実施例では、1つのフレーム内の各分析値に対
し、第1番目の分析値から第q番目の分析値までを1つ
のグループとして分割し、第(q+1)番目の分析値か
ら第(2q)番目の分析値までを次のグループとして分
割するようになっている。従って、各分析値は、分析軸
方向に重複せずにグループ分割される。
【0026】先づ、ステップS1では、フレームの番号
jを“1”に初期設定し、ステップS2では、グループ
の番号iを“1”に初期設定する。次いで、ステップS
3では、グループ内の分析値fjikに対して所定の演算
処理を施す。なお、ここでkは1つのグループ内の各分
析値を示すサフィックスであり、1つのグループ内には
q個の分析値があるので、kは1〜qの値をとる。図2
の例では、この演算処理は、グループ内の各分析値fji
kの合計をとる加算演算となっており、この場合に、演
算の結果、j番目のフレーム,i番目のグループにおけ
る各分析値fjikの合計値Ajiが新たな特徴量として得
られる。いまの場合、j,iはそれぞれ“1”となって
いるので、1番目のフレーム,1番目のグループに対
し、新たな特徴量A11が得られる。
【0027】次いで、j番目のフレームの次のグループ
に対しても同様の処理を行なうため、iを“1”だけ歩
進し、再びステップS3に戻る。これにより、1番目の
フレーム,2番目のグループに対し、新たな特徴量A12
が得られる。このような処理を繰り返し行ない、1番目
のフレームのn番目のグループ(最後のグループ)に対
して、新たな特徴量A1nが得られる。A1nが得られた
後、iはnよりも大きくなるので(ステップS5)、ス
テップS6に進み、jを“1”だけ歩進し、再びステッ
プS2に戻る。
【0028】これにより、次のフレーム,いまの場合、
2番目のフレームの各グループについて1番目のフレー
ムにおいてなされたと同様の処理がなされ、新たな特徴
量として、A21〜A2nが得られる。このような処理を順
次に繰り返して、M番目のフレーム(最後のフレーム)
のn番目のグループ(最後のグループ)に対して、新た
な特徴量AMnが得られると、次にjがMよりも大きくな
るので(ステップS7)、全ての演算処理を終了する。
【0029】以上のようにしてMフレーム数分のn次元
特徴ベクトルからなる新たな特徴パターンA11〜AMnを
得ることができる。図3はj番目のフレームについてな
される上記グループ分割処理並びに演算処理の具体例を
示す図である。この例では、バンドパスフィルタ群1が
15個のバンドパスフィルタからなり、15個のバンド
パスフィルタによって1フレーム当り分析次元が“1
5”の分析値(すなわち15個の分析値)が得られたと
した場合が示されている。この際に、1フレーム当りの
グループ数nを“3”にし、1つのグループ内の分析値
の個数qを“5”にすると、1つのフレーム(例えばj
番目のフレーム)では、分析軸方向に5つごとに1つの
グループ化がなされ、各グループ(3つのグループ)に
おいてグループ内の5個の分析値の合計をとることによ
り、1つのフレームjでAj1,Aj2,Aj3の3つの特徴
量を1つの特徴ベクトルとして得ることができる。
【0030】このように第1の実施例では、音響分析さ
れた結果の分析値に対し、これを分析軸方向にグループ
化し、各グループ内で所定の演算処理を施しているの
で、その結果、各グループにおける音声の分析軸方向の
微小変動を吸収した新しい特徴パターンA11〜AMnを得
ることができた。
【0031】ところで、上述した第1の実施例において
得られる新しい特徴パターンA11〜AMnをそのまま用い
ると、音声の大小などにより分析値が変動し、分析軸に
沿った分布の形状が同じであって本来同一カテゴリに分
類されるべきパターンであっても各値が異なるために正
しく分類できなくなる可能性が生ずる。
【0032】図4(a),(b)は分析軸に沿った分布
の形状が互いに同じであるが、各値が異なっている特徴
ベクトルの一例を示す図であり、図4(b)の特徴ベク
トルは図4(a)の特徴ベクトルに比べて2倍の音量の
ものとなっている。第1の実施例では、図4(a),
(b)のような特徴ベクトルに対し、それぞれ異なった
カテゴリのものに分類してしまう恐れがある。
【0033】図5は本発明の第2の実施例のブロック図
であって、この第2の実施例では、第1の実施例をさら
に改良し、第1の実施例における上記のような問題を回
避するようにしている。すなわち、この第2の実施例の
特徴抽出部12では、演算部14が、グループ値計数部
13と、正規化部15とから構成され、第1の実施例の
演算部4における演算処理機能に加えて、さらに正規化
処理機能を有しており、第1の実施例の演算処理によっ
て得られた時系列フレームの特徴パターンA11〜AMnの
所定フレーム数分の各特徴量を正規化し最終的な特徴パ
ターンとするようになっている。
【0034】次にこのような第2の実施例の音声特徴抽
出装置の処理動作を図6のフローチャートを用いて説明
する。演算部14は、第1の実施例の演算部4と同様
に、先づ図2のフローチャートに示す処理を行ない、特
徴パターンA11〜AMnを得た後、図6のフローチャート
に示す処理を行なう。図6の処理では、ステップS11
でフレームの番号jを“0”に初期設定し、次いで、ス
テップS12で正規化処理を行なう。
【0035】この正規化処理では、正規化用の窓の大き
さが予め設定されている必要がある。この窓を(フレー
ム数m)×(分析軸方向次元数n)の大きさに設定する
と、先づ、この窓に含まれる特徴量Ari(i=1〜n,
r=j+1〜j+m)を全て合計し、合計値Sを求め
る。次いで、この窓に含まれる各特徴量Ariを合計値で
除算し正規化して、最終的な特徴量B(j+1)hとして求め
る。ここで、hは1〜(m×n)までの値をとるサフィ
ックスであり、このことからわかるように、この処理で
は、正規化とともにm行n列のマトリックスからなる窓
内の特徴量を1行(m×n)列の特徴ベクトルに変換し
ている。
【0036】いまの場合、jが“0”に初期設定されて
いるので、窓はjが“1”〜“m”の範囲の設定され、
この範囲のフレームに含まれている特徴量Ariに正規化
処理がなされ、これらの特徴量は(m×n)列の特徴ベ
クトルに変換される。
【0037】しかる後、ステップS13においてjを
“1”だけ歩進し、再びステップS12に戻る。この結
果、窓は、時系列方向に“1”だけずらされ、ずらされ
た窓に含まれる各特徴量Ariに対しても、上記と同様の
正規化処理がなされ、1行(m×n)列の特徴ベクトル
に変換される。
【0038】このようにして、窓を時系列方向に順次に
ずらしながら、その窓に含まれる各特徴量に上述した処
理を施し、jが“M−m−1”となり、最後の窓につい
ての処理がなされると、最終的な特徴パターンとして、
時系列数が(M−m−1)、ベクトル次元数が(m×
n)の特徴パターンB11〜B(M-m-1)(m×n)を得ること
ができる。
【0039】しかる後、ステップS13においてjが
“1”だけ歩進され、ステップS14において、jが
(M−m)となると、全ての演算処理を終了する。
【0040】図7は第2の実施例における演算処理の具
体例を示す図であり、第1の実施例の説明において用い
た図3に対応している。すなわち、図7の例では、図3
における処理がなされ、特徴パターンAj1,Aj2,Aj3
が求められた後、これに正規化処理を施す場合が示され
ている。この際、窓Wを規定するフレーム数mを“3”
とし、窓の大きさを“3×3”のものにして、この窓W
を時系列方向に順次にずらしながら正規化処理を行な
う。窓Wが実線で示す位置にあるときには、この位置に
含まれる特徴量Aj1〜A(j+2)3に対して正規化処理を行
ない、9次元の1つの特徴ベクトルBj1〜Bj9を得る。
次いで、窓Wが破線で示す位置に移動するときには、こ
の位置に含まれる特徴量A(j+1)1〜A(j+3)3に対し同様
の正規化処理を行ない、9次元の1つの特徴ベクトルB
(j+1)1〜B(j+1)9を得ることができる。
【0041】これによって、図4(a),(b)のよう
な特徴ベクトルは、最終的には図8(a),(b)のよ
うな正規化された特徴ベクトルにそれぞれ変換される。
図8(a)と図8(b)とを比べればわかるように、正
規化処理によって、図4(a),図4(b)の特徴ベク
トルは、最終的に、分布軸に沿った分布の形状が互いに
同じであるとともに、音量の大小差が吸収されてその値
が互いに同じものとなる。この結果、当初各分析値が異
なっていても本来同一カテゴリに分類されるべきパター
ンを、同一のカテゴリに正しく分類し認識能力を向上さ
せることができる。
【0042】なお、上述の各実施例において、分析軸方
向のグループ数nは、任意所望のものに可変に設定する
ことができ、これに伴なって、1つのグループ内の分析
値の個数qも可変に設定できる。また、第2の実施例に
おいて、窓を1フレームづつずらすとしたが、例えば2
フレームづつずらすようにしても良く、ずらす幅は任意
所望のものに可変に設定できる。但し、ずらす幅を大き
くすることにより、これに応じて、特徴ベクトルの系列
数は減少する。
【0043】このように、第1,第2の実施例では、グ
ループ内における音声の分析軸方向の微小変動を吸収す
ることはできるが、グループ間で共有する要素,すなわ
ち共有の分析値がないため、グループ間にまたがる微小
変動については吸収できない。
【0044】図9は本発明の第3の実施例のブロック図
であり、この第3の実施例では、第1,第2の実施例に
おける上記問題を解決することを意図している。すなわ
ち、図9を参照すると、この第3の実施例の特徴抽出部
16は第1の実施例の特徴抽出部11と対応した構成と
なっており、入力音声を音響分析した結果の各分析値を
分析軸方向にグループに分割するグループ化部17と、
分割された各グループ内の分析値に所定の演算処理(加
算処理)を施して特徴パターンを生成する演算部18と
を有しているが、第3の実施例では、グループ化部17
が各分析値を分析軸方向に一部重複させながらグループ
分割するようにしている。すなわち、各要素(各分析
値)を例えば1つづつずらしながらグループ分割するよ
うにしている。
【0045】また、演算部18は、第1の実施例と同様
のグループ値計数部19により構成されており、グルー
プ値計数部19は、上記のように一部重複させて分割さ
れたグループ内の要素,すなわち分析値の和を計数する
ようになっている。
【0046】次にこのような構成における第3の実施例
の音声特徴抽出装置の動作を図10のフローチャートを
用いて説明する。なお、以下では、音響分析時の総フレ
ーム数をMとし、音響分析次元数(1つのフレーム内の
分析値の総数)をkとし、1つのグループ内の分析値の
個数をqとする。
【0047】先づ、ステップS21では、1つのフレー
ム内における分析値の番号iを“1”に初期設定し、ス
テップS2では、1つのグループ内の要素番号,すなわ
ち分析値の番号xを“1”に初期設定する。次いで、ス
テップS23〜S24では、分析値の番号が(i+x+
1)〜(q+i)の範囲を1つのグループとして特定
し、このグループ内の分析値fkに対して所定の演算処
理を施す。なお、ここでkは1つのグループ内の各分析
値を示すサフィックスであり、1つのグループ内にはq
個の分析値があるので、kは最初、iの値をとり、最後
は、(i+q−1)の値をとる。図10の例では、この
演算処理は、1つのグループ内の各分析値kの合計をと
る加算演算となっており、この場合に、演算の結果、i
番目の分析値から(i+q−1)番目の分析値までの1
つのグループにおける各分析値fkの合計値Aiが新たな
特徴量として得られる。いまの場合、iは“1”となっ
ているので、1つのフレームの1番目の分析値からq番
目の分析値までが最初のグループとして分割され、この
グループに対し、新たな特徴量A1が得られる。
【0048】次いで、iを“1”だけ歩進し(ステップ
S26)、再びステップS22に戻る。これにより、同
様の演算により、2番目の分析値から(q+1)番目の
分析値までが次のグループとして分割され、このグルー
プに対し、新たな特徴量A2が得られる。このような処
理を繰り返し行ない、1つのフレームの(k−q)番目
の分析値からk番目の分析値までが最後のグループとし
て分割され、このグループに対して、新たな特徴量A(k
-q)が得られる。A(k-q)が得られた後、iは(k-q)より
も大きくなるので(ステップS27)、1つのフレーム
についてのグループ分割処理,並びに演算処理を終了す
る。
【0049】次いで、次のフレームについての同様のグ
ループ分割処理並びに演算処理を行ない、M番目のフレ
ーム(最後のフレーム)に対して処理がなされると、全
ての処理を終了する。
【0050】以上のようにして新たな特徴パターンAi
を得ることができる。図11は1つのフレームについて
なされる上記グループ分割処理並びに演算処理の具体例
を示す図である。この例では、バンドパスフィルタ群1
が15個のバンドパスフィルタからなり、15個のバン
ドパスフィルタによって1フレーム当り分析次元kが
“15”の分析値(すなわち15個の分析値)が得られ
たとした場合が示されている。この際に、1つのグルー
プ内の分析値の個数qを“5”にすると、1つのフレー
ムでは、先づ、第1番目の分析値f1から第5番目の分
析値f5までが最初のグループとして分割され、このグ
ループ内の各分析値f1〜f5の加算演算がなされてA1
が求まる。次いで、分析値を分析軸方向に1つずらす。
これにより、第2番目の分析値f2から第6番目の分析
値f6までが次のグループとして分割され、このグルー
プ内の各分析値f2〜f6の加算演算がなされてA2が求
まる。このようにして、分析値を1つづつずらし分析値
を一部重複させながら(いまの場合、4個の分析値を重
複させながら)グループ分割し、1つのフレームにおい
て、11個に分割されたグループで11次元の新しい特
徴ベクトルA1〜A11を得ることができる。このように
して得られた11次元の新しい特徴ベクトルA1〜A11
は、グループ間にまたがる音声の分析軸方向の微小変動
を吸収したものとなっており、この特徴ベクトルA1〜
A11を用いてマッチングを行ない認識結果を得ることが
できる。
【0051】なお、上述の例では、1つのグループ内の
分析値の数qを“5”としたが、必ずしも“5”である
必要がなく、任意の個数に設定できる。また、分析値を
1つづつずらしてグループ分割したが、例えば2つづつ
ずらしてグループ分割しても良い。
【0052】ところで、上述した新しい特徴ベクトルA
1〜A11は、音声の分析軸方向の微小変動を吸収したも
のとなってはいるが、時系列方向の微小変動に対しては
対処がなされていない。すなわち、微小変動は、分析軸
方向だけではなく時系列方向にも発生するので、分析軸
方向のみならず、時系列方向についても対処がなされる
のが良い。
【0053】このような処理は、未知入力音声を特徴ベ
クトルに変換し変換された特徴ベクトルを用いてマッチ
ングを行ない認識結果を得る過程において、音響分析後
の所定の数フレームを分割すべきグループの対象にして
から、例えば第3の実施例で述べたと同様の処理操作を
することによって行なうことができる。なお、この場合
の装置構成は、図9に示したものに対応したものを使用
することができる。
【0054】図12は分析軸方向のみならず時系列方向
についても音声の微小変動を吸収する流れを示すフロー
チャートである。図12において、全体の処理流れステ
ップS31〜S37は、図10に示した処理流れS21
からS27と対応したものとなっているが、図12で
は、ステップS33において、(p+r)番目のフレー
ムまでのr個の複数フレームにわたって加算処理がなさ
れる。すなわち、q×rの大きさの窓に含まれる分析値
を1つのグループとして抽出し、このグループ内のq×
r個の分析値flkの加算演算を行なうことにより、1つ
の新しい特徴ベクトルApiを得ることができる。
【0055】図13は上記処理の具体例を示す図であ
り、この例では、1フレーム当りの分析次元kが“1
5”,1つのグループ内の分析値の個数qが“3”,1
回の処理におけるフレーム数rが“3”の場合が示され
ており、この場合には、第p番目のフレームから第(p
+2)番目のフレームにわたって分析値を1つづつ分析
軸方向にずらしながらグループ分割をし、各グループで
ステップS33の加算演算を行なって、13個の特徴ベ
クトルAp1〜Ap13を得ることができ、これにより、時
系列方向の微小変動をも吸収することができた。
【0056】なお、図10,図12に示した処理によっ
て得られた特徴ベクトルを認識処理にそのまま用いると
きには、第1の実施例で説明したのと同じ問題が生じる
可能性がある。従って、この場合にも第2の実施例にお
けると同様に正規化処理を行なうのが良い。
【0057】図14は本発明の第4の実施例のブロック
図であって、この第4の実施例では、第2の実施例と同
様な構成にし、第3の実施例における問題を回避するよ
うにしている。すなわち、この第4の実施例の特徴抽出
部21では、演算部22が、グループ値計数部23と、
正規化部24とから構成され、第3の実施例の演算部1
8における演算処理機能,すなわち図10または図12
の処理に加えて、さらに正規化処理機能を有している。
【0058】次にこのような第4の実施例の音声特徴抽
出装置の処理動作を図15のフローチャートを用いて説
明する。先づ、ステップS41では、フレームの番号p
を“0”に初期設定する。次いで、第3の実施例の演算
部18と同様に、図10または図12のフローチャート
に示す処理を行ない(ステップS42)、特徴ベクトル
Alxを得る。次いで、ステップS43で正規化処理を行
なう。
【0059】この正規化処理は、図10または図12の
処理によって得られた各特徴ベクトルAlxをrフレーム
内の特徴ベクトルAlxの合計値Sで除算することによっ
てなされ、この結果、最終的な特徴量B(p+1)hを求める
ことができる。
【0060】しかる後、ステップS44においてpを
“1”だけ歩進し、再びステップS42に戻る。この結
果、窓は、時系列方向に“1”だけずらされ、ずらされ
た窓に含まれる各特徴量Alxに対しても、上記と同様の
正規化処理がなされる。このようにして、第2の実施例
と同様の正規化を行なうことができて、ステップS45
においてpが(M−r)となると、全ての演算処理を終
了する。
【0061】これによって、第2の実施例と同様に、図
4(a),(b)のような特徴ベクトルを、最終的に図
8(a),(b)のような正規化された特徴ベクトルに
それぞれ変換することができる。
【0062】このように、第4の実施例では、音響分析
された結果の分析値に対し、分析軸方向の微小変動ある
いは、分析軸方向並びに時系列方向の微小変動を吸収し
た新しい特徴パターンを求め、さらにその上で、正規化
処理を施すことによって、音量の大小差を吸収すること
ができた。すなわち、第2,第4の実施例は、全分析値
に対して各分析値がどれ位の割合を占めているかを計算
する正規化処理がなされ、分析軸,時系列,あるいはそ
の両方に沿った値の変化の割合いを同じにすることがで
きるので、これによって、音量の大小差を吸収すること
ができた。
【0063】また、上述した第1〜第4の各実施例で
は、音声の微小変動を吸収した特徴ベクトルを作成可能
となり、特に、第3,第4の実施例では、グループ間に
またがった微小変動をも吸収した特徴ベクトルを作成可
能となって、これにより認識精度を向上させることがで
きるが、上記のように作成された特徴ベクトルは、時系
列フレームの瞬時の特徴を表わしている。一方、近年に
おいて、該当する特徴ベクトルに対し前後フレームの特
徴ベクトルの“動き”をも考慮した特徴(以後、動的特
徴と呼ぶ)が提案されている。この動的特徴を用いた例
として、△ケプストラム法による音声認識が極めて有効
であることが種々の実験で実証され、現在、音声認識系
で広く用いられている。なお、△ケプストラム法とは、
例えば文献「階層的スペクトル動特性を用いた音声認識
信学技報,SP90−60,第25〜31頁,199
0年12月」に示されているように、簡単には、ケプス
トラムや対数パワーの線形回帰係数を求め、これらの時
系列を特徴ベクトルとして音声認識を行なう方法であ
る。
【0064】しかしながら、△ケプストラム法を用いる
場合には、特徴を抽出するのに、回帰係数を求めなけれ
ばならないので、動的特徴に簡単に変換することができ
ないという欠点がある。
【0065】図16は本発明の第5の実施例のブロック
図であり、この第5の実施例では、△ケプストラム法に
よらずに、動的特徴に変換することを意図している。な
お、図16において、図1,図5,図9,図14と対応
する箇所には同じ符号を用いている。図16を参照する
と、第5の実施例では、特徴抽出部30は、バンドパス
フィルタ群1と、区間検出部2と、時系列方向に所定の
フレーム数からなるフレーム枠を設けるフレーム枠設定
部31と、フレーム枠を時系列方向に走査することによ
って1つの特徴ベクトルを得るフレーム枠走査部32と
を有している。
【0066】次にこのような構成の第5の実施例の音声
特徴抽出装置の動作を図17のフローチャートを用いて
説明する。なお、以下では、音響分析次元数をk,フレ
ーム枠数をM1,フレーム走査数をM2とする。また、
フレームp内の第k番目の分析値をfpkで表わし、フレ
ームp内のj番目の特徴ベクトルをαpjで表わしてい
る。
【0067】先づ、ステップS51,S52,S53で
は、フレーム走査番号m2,フレーム枠番号m1,1フ
レーム内の分析値の番号kを“0”に初期化する。次い
で、ステップS54〜S58では、フレーム(p+1)
から数えてM1番目のフレームまでのフレームに含まれ
る分析値を取り出す。しかる後、ステップS59では、
フレーム走査番号m2を“1”歩進させてフレーム枠を
時系列方向に1フレーム走査し、再びステップS52に
戻って、その枠内に含まれる分析値を同様にして取り出
す。この操作をステップS60においてm2がM2とな
るまで、すなわちM2走査するまで繰り返す。このと
き、1つの特徴ベクトルは、いままで取り出した全分析
値となる。
【0068】図18は上記処理の具体例を示す図であ
る。この例では、バンドパスフィルタ群1が15個のバ
ンドパスフィルタからなり、15個のバンドパスフィル
タによって1フレーム当り分析次元が“15”の分析値
(すなわち15個の分析値)が得られたとした場合が示
されている。この際に、図15の左側に示すように、フ
レーム枠を“3”にし、走査数を“3”にした場合、1
回目のフレーム枠の設定で、同図の右側に示すように、
特徴ベクトルの1〜45次元目(A1〜C15)までを作
成する。同様の走査による2回目,3回目のフレーム枠
の設定で特徴ベクトルB1〜D15,C1〜E15を作成して
いき、最終的に、135次元の1つの特徴ベクトルに変
換することができる。しかる後、この特徴ベクトルは、
辞書内に予め同様の処理によって登録されている標準パ
ターンとDPマッチングによる照合がなされ、認識結果
が出力される。
【0069】このように第5の実施例では、従来の△ケ
プストラム法のように、特徴ベクトルそのものが動的特
徴を陽に表わしているわけではないが、すでに存在する
特徴ベクトルの数フレームをまとめて1つの特徴ベクト
ルにすることによって、間接的に動的特徴量に変換する
ことができることになる。
【0070】ところで、上述のように動的特徴量を作成
することができるが、図18に示したような特徴ベクト
ルは、音声の微小変動を吸収したものとはなっていな
い。
【0071】図19は本発明の第6の実施例のブロック
図である。この第6の実施例では、上記第5の実施例の
問題点を解決することを意図したものであって、未知入
力音声を特徴量に変換し、変換された特徴量を用いてマ
ッチングを行ない認識結果を得る過程において、音響分
析された結果得られる各分析値をある次数ごとにグルー
プにまとめ、第5の実施例の操作をすることによってグ
ループ数を増やし、各グループ内の分析値を計数するこ
とによって特徴量に変換するようにしている。
【0072】このため、第6の実施例では、図9に示す
ように、特徴抽出部33は、時系列方向に所定のフレー
ム数からなるフレーム枠を設けるフレーム枠設定部34
と、分析値をある次数ごとにグループにまとめるグルー
プ化部35と、グループ内の分析値に所定の演算処理
(加算処理)を施す演算部36と、フレーム枠を時系列
方向に走査することによって1つの特徴ベクトルを得る
フレーム枠走査部37とを有している。なお、演算部3
6は、グループ値計数部38により構成されている。
【0073】次にこのような構成の第6の実施例の音声
特徴抽出装置の動作を図20のフローチャートを用いて
説明する。なお、以下では、1グループ内の分析値数を
Gとする。先づ、ステップS61,S62では、フレー
ム走査番号m2,1フレーム内の分析値の番号kを
“0”に初期化する。次いで、ステップS63〜S65
では、フレームpの分析値fをグループごとに合計す
る。ここで、グループとは、分析値をフレーム及び分析
軸の数次元ごとにまとめ上げたものをいう。次にグルー
プ内の分析値を全て合計する。しかる後、ステップS6
6では、第5の実施例と同様、フレーム走査番号m2を
“1”歩進させてフレーム枠を時系列方向に1フレーム
走査し、再びステップS62に戻って、同様の処理を繰
り返す。この操作をステップS67においてm2がM2
となるまで,すなわちM2走査するまで繰り返し、1つ
の特徴ベクトルを作成する。
【0074】図21は上記処理の具体例を示す図であ
る。図21は図18と対応したものとなっているが、図
21では、フレーム枠を設定し、グループ化を行なって
いる。すなわち、図21の左側に示すように、フレーム
枠数“3”,分析次元数“5”を1つのグループとし、
“3×5”のグループ内の分析値を加算演算して特徴ベ
クトルを求めている。具体的には、1回目のフレーム枠
の設定で、同図右側に示すように特徴ベクトルの1〜3
次元目(α1〜α3)までを作成する。すなわち、A1
からC5までの15個の分析値を最初のグループとし
て、α1を作成し、A6〜C10までの15個の分析値を
次のグループとして、α2を作成し、A11〜C15までの
15個の分析値を最後のグループとして、α3を作成す
る。次いで、2回目のフレーム枠の設定で、特徴ベクト
ルα4〜α6を作成し、3回目のフレーム枠の設定で、
特徴ベクトルα7〜α9を作成する。このようにして、
図21の例では、9次元の1つの特徴ベクトルが作成さ
れる。なお、この例では、1つのフレーム枠当りのグル
ープ数を“3”にし、1グループ内の分析軸方向の分析
値数を“5”にしたが、これを増減し、グループ数を増
減することも可能である。
【0075】第6の実施例の操作によって、定められた
グループ内での音声の微小変動を収集することができ
た。しかしながら、この第6の実施例におけるグループ
分割では、グループ間で共有する要素,すなわち共有の
分析値がないため、グループ間にまたがって微小変動が
生じた場合には、その変動を吸収できない。このような
問題を解決するためには、第1,第2の実施例を改良し
て第3,第4の実施例としたのと同様の仕方で、グルー
プ間で分析値が一部重複するようにグループ分割をする
のが良い。
【0076】図22は第7の実施例のブロック図であ
り、第7の実施例では、上記第6の実施例を改良し、グ
ループ間で分析値が一部重複するようにグループ分割す
ることを意図している。すなわち、第7の実施例では、
図22に示すように、特徴抽出部39は、図19に対応
した構成となっているが、特徴抽出部39のグループ化
部40は、各分析値を分析軸方向に一部重複させながら
グループ分割する点で、第6の実施例と相違している。
すなわち、第7の実施例では、各分析値を例えば1つづ
つずらしながらグループ分割するようにしており、この
結果、第6の実施例に比べて、グループ数を増加させる
ことができる。また、特徴抽出部39の演算部41のグ
ループ値計数部42は、上記のように一部重複させて分
割されたグループ内の要素,すなわち分析値の和を計数
するようになっている。
【0077】次にこのような構成における第7の実施例
の音声特徴抽出装置の動作を図23のフローチャートを
用いて説明する。先づ、ステップS71,S72では、
フレーム走査番号m2,1フレーム内の分析値の番号k
を“0”に初期化する。次いで、ステップS73〜S7
5では、グループ内の分析値を合計した後、グループの
対象を分析軸方向に1つづつずらす。しかる後、ステッ
プS76では、第6の実施例と同様、フレーム走査番号
m2を“1”歩進させてフレーム枠を時系列方向に1フ
レーム走査し、再びステップS72に戻って、同様の処
理を繰り返す。この操作をステップS77においてm2
がM2となるまで,すなわちM2走査するまで繰り返
し、1つの特徴ベクトルを作成する。
【0078】図24は上記処理の具体例を示す図であ
る。この例では、フレーム枠を設定し、グループ化を行
なう際に、図24の左側に示すように、フレーム枠数
“3”,分析次元数“5”を1つのグループとし、“3
×5”のグループ内の分析値を加算演算して特徴ベクト
ルを求め、次に、グループの対象を分析軸方向に1つづ
つシフトし、同様にグループ内の分析値を加算演算して
特徴ベクトルを求める。具体的には、1回目のフレーム
枠の設定で、同図右側に示すように特徴ベクトルの1〜
11次元目(α1〜α11)までを作成する。すなわ
ち、A1からC5までの15個の分析値を最初のグループ
として、α1を作成し、A2〜C6までの15個の分析値
を次のグループとして、α2を作成し、これを順次繰り
返し、A11〜C15までの15個の分析値を最後のグルー
プとして、α11を作成する。次いで、2回目のフレー
ム枠の設定で、特徴ベクトルα12〜α22を作成し、
3回目のフレーム枠の設定で、特徴ベクトルα23〜α
33を作成する。このようにして、図24の例では、3
3次元の1つの特徴ベクトルが作成される。なお、この
例では、1つのフレーム枠当りのグループ数を“3”に
し、1グループ内の分析軸方向の分析値数を“5”にし
たが、これを増減し、グループ数を増減することも可能
である。
【0079】第7の実施例の操作によって、定められた
グループ間にまたがって音声の微小変動が生じる場合に
も、これを吸収することができた。
【0080】このように、第5乃至第7の実施例では、
基本的に、時系列方向に所定のフレーム数からなるフレ
ーム枠を設定し、フレーム枠を時系列方向に走査するこ
とによって1つの特徴ベクトルを得るようにしており、
これにより、△ケプストラム法によらずに、動的特徴に
簡単に変換することができた。
【0081】しかしながら、第5乃至第7の各実施例で
は、フレーム枠の走査をしているため、最終的に得られ
る1つの特徴ベクトルの次元数は、音響分析結果である
分析値の分析次元数よりも通常増加してしまう。従っ
て、音声認識時において特徴ベクトルと辞書とのマッチ
ングの計算量は、音響分析された結果の分析値をそのま
ま用いてマッチングする場合の計算量よりも増加する。
【0082】図25は本発明の第8の実施例のブロック
図であって、この第8の実施例では、特徴ベクトルと辞
書とのマッチングの計算量を削減するために、各フレー
ム枠単位で得られた特徴ベクトルを加算するようにして
いる。すなわち、図25を参照すると、第8の実施例で
は、特徴抽出部43は、時系列方向に所定のフレーム数
からなるフレーム枠を設けるフレーム枠設定部31と、
今回のフレーム枠設定時作成した特徴ベクトルを前回の
フレーム枠設定時に作成された特徴ベクトルと加算する
特徴ベクトル加算部44と、フレーム枠を時系列方向に
走査するフレーム枠走査部32とを有している。なお、
図25は図16の構成(すなわち第5の実施例の構成)
を改良したものとして構成されており、図16と同様の
箇所には同じ符号を付している。
【0083】次にこのような構成の第8の実施例の音声
特徴抽出装置の動作を図26のフローチャートを用いて
説明する。先づ、ステップS81,S82,S83で
は、フレーム走査番号m2,フレーム枠番号m1,1フ
レーム内の分析値の番号kを“0”に初期化する。次い
で、ステップS84〜S88では、前回フレーム枠の設
定時に作成した特徴ベクトルと今回のフレーム枠設定時
に作成した特徴ベクトルとを加算する。しかる後、ステ
ップS89では、フレーム走査番号m2を“1”歩進さ
せてフレーム枠を時系列方向に1フレーム走査し、再び
ステップS82に戻って、同様の処理を繰り返す。この
操作をステップS90においてm2がM2となるまで、
すなわちM2走査するまで繰り返し、1つの特徴ベクト
ルを作成する。
【0084】図27は上記処理の具体例を示す図であ
る。図18に示したような処理により、図27の左側に
示すように、1回目のフレーム枠の設定で、45次元の
特徴ベクトル(A1〜C15)が作成され、2回目のフレ
ーム枠の設定で、45次元の特徴ベクトル(B1〜D1
5)が作成され、3回目のフレーム枠の設定で、45次
元の特徴ベクトル(C1〜E15)が作成されたとする。
【0085】この場合、第8の実施例では、1回目,2
回目,3回目のフレーム枠設定でそれぞれ得られた45
次元の各特徴ベクトル(A1〜C15),(B1〜D15),
(C1〜E15)を互いに加算し、図27の右側に示すよ
うに、合計で45次元の1つの特徴ベクトル(α1〜α
45)を作成する。これにより、第5の実施例と比べた
場合、1つの特徴ベクトルの次元数を1/3に削減する
ことができ、この結果、音声認識時において特徴ベクト
ルと辞書とのマッチングの計算量を削減することができ
た。
【0086】なお、上記例では、第5の実施例を改良し
たものとして構成し、第5の実施例により作成された特
徴ベクトルを用いたが、第6,第7の実施例についても
同様にして改良することができ、第6,第7の実施例に
より作成された特徴ベクトルに対しても同様の処理によ
って1つの特徴ベクトルの次元数を削減することができ
る。
【0087】さらに、前述の第1の実施例,第3の実施
例で述べたと同様に、第5乃至第8の実施例によって作
成された特徴ベクトルをそのまま用いる場合には、音声
の大小などにより分析値が変化し、分析軸における分布
の形状が同一カテゴリに分類されるべきパターンであっ
ても値が異なるために、正しく分類できなくなる可能性
が生ずる。例えば、同一の音声を発声しても音量の大小
により周波数変換された値は、図4(a),(b)に示
したようになり、それぞれ異なったカテゴリのものに分
類されてしまう恐れがある。
【0088】このような問題を解決するため、第1,第
3の実施例に対し第2,第4の実施例の構成にしたと同
様に、第5乃至第8の実施例に対しても以下のような構
成にすることができる。
【0089】図28は本発明の第9の実施例のブロック
図であり、図28の例では、第8の実施例に対し改良が
なされた場合が示されている。すなわち、この第9の実
施例の特徴抽出部46は、図25に示した特徴抽出部4
3に対し、さらに正規化部47が付加されている。
【0090】次にこのような構成における第9の実施例
の音声特徴抽出装置の処理動作を図29のフローチャー
トを用いて説明する。先づ、ステップS91ではフレー
ムの番号pを“0”に初期設定し、次いで、ステップS
92で図26のフローチャートに示した処理を行ない、
しかる後、ステップS93〜S95で第2,第4の実施
例で説明したと同様の正規化処理を行なう。
【0091】すなわち、この正規化処理では、図26に
示した処理によって得られた特徴ベクトルαを正規化し
て特徴ベクトルβを求める。なお、正規化操作は、各特
徴ベクトルαをその合計値Sで除算することにより行な
われ、この処理を時系列方向に順次にずらしながら最後
のフレームとなるまで繰り返し行なう。
【0092】上記の例では、図26のフローチャートに
示した処理の結果に対して正規化処理を施した場合を示
したが、図17,図20,図23のフローチャートに示
した処理の結果に対しても同様の手順で正規化処理を行
なうことができる。
【0093】例えば、図17のフローチャートに示した
処理の結果に対して正規化処理を施す場合、図18の右
側に示した135次元の1つの特徴ベクトルに対して正
規化処理がなされる。この結果、図4(a),(b)の
ような特徴ベクトルを最終的に図8(a),(b)のよ
うな正規化された特徴ベクトルに変換することができ
て、音量の大小差をも吸収することができる。
【0094】なお、上述した各実施例では、音響分析を
行なうのに、バンドパスフィルタ群1を用いているが、
これにかわって例えばFFT等の他の手段を用いること
もできる。さらに、音響分析として周波数分析を用いて
いるが、これに限らず、LPCなどによって音響分析を
行なっても良い。
【0095】また、認識部6には、DPマッチングを用
いて説明したが、ニューラルネットワーク,HMMなど
により識別を行なわせるようにしても良い。
【0096】
【発明の効果】以上に説明したように、請求項1記載の
発明によれば、入力音声を音響分析した結果の各分析値
をグループに分割し、分割された各グループ内の分析値
に所定の演算処理を施して特徴量を生成するようにして
いるので、音声の微小変動を吸収することができる。
【0097】また、請求項2記載の発明によれば、分割
された各グループは、互いに隣接したグループ間におい
て少なくとも一部が重複している分析値を有しているの
で、グループ間にまたがる音声の微小変動をも吸収する
ことができる。
【0098】また、請求項3記載の発明によれば、分析
軸方向に分割されるようになっているので、分析軸方向
の微小変動を吸収することができる。
【0099】また、請求項4記載の発明によれば、時系
列方向に分割されるようになっているので、時系列方向
の微小変動を吸収することができる。
【0100】また、請求項5記載の発明によれば、各グ
ループ内の分析値を加算し特徴量を生成するようになっ
ているので、特徴量を削減することができ、辞書とのマ
ッチングにおける計算量を減らすことができる。
【0101】また、請求項6記載の発明によれば、各グ
ループ内の分析値に所定の演算処理を施して生成された
特徴量に対し正規化処理を施し、最終的な特徴ベクトル
を生成するようになっているので、音量の大小差を吸収
することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施例のブロック図である。
【図2】第1の実施例の音声特徴抽出装置の動作を説明
するためのフローチャートである。
【図3】第1の実施例における演算処理の具体例を示す
図である。
【図4】(a),(b)は分析軸に沿った分布の形状が
互いに同じであるが、各値が互いに異なっている特徴ベ
クトルの一例を示す図である。
【図5】本発明の第2の実施例のブロックである。
【図6】第2の実施例の音声特徴抽出装置の動作を説明
するためのフローチャートである。
【図7】第2の実施例における演算処理の具体例を示す
図である。
【図8】(a),(b)は図4(a),(b)に示す特
徴ベクトルを正規化した結果をそれぞれ示す図である。
【図9】本発明の第3の実施例のブロック図である。
【図10】第3の実施例の音声特徴抽出装置の動作を説
明するためのフローチャートである。
【図11】第3の実施例における処理の具体例を示す図
である。
【図12】分析軸方向のみならず時系列方向についても
音声の微小変動を吸収する処理の流れを示すフローチャ
ートである。
【図13】図12の処理の具体例を示す図である。
【図14】本発明の第4の実施例のブロックである。
【図15】第4の実施例の音声特徴抽出装置の動作を説
明するためのフローチャートである。
【図16】本発明の第5の実施例のブロック図である。
【図17】第5の実施例の音声特徴抽出装置の動作を説
明するためのフローチャートである。
【図18】第5の実施例における演算処理の具体例を示
す図である。
【図19】本発明の第6の実施例のブロックである。
【図20】第6の実施例の音声特徴抽出装置の動作を説
明するためのフローチャートである。
【図21】第6の実施例における演算処理の具体例を示
す図である。
【図22】本発明の第7の実施例のブロック図である。
【図23】第7の実施例の音声特徴抽出装置の動作を説
明するためのフローチャートである。
【図24】第7の実施例における演算処理の具体例を示
す図である。
【図25】本発明の第8の実施例のブロックである。
【図26】第8の実施例の音声特徴抽出装置の動作を説
明するためのフローチャートである。
【図27】第8の実施例における演算処理の具体例を示
す図である。
【図28】本発明の第9の実施例のブロック図である。
【図29】第9の実施例の音声特徴抽出装置の動作を説
明するためのフローチャートである。
【図30】従来の一般的な音声認識システムの構成図で
ある。
【図31】(a),(b)は入力音声が微小変動したと
きの周波数分析結果を説明するための図である。
【図32】従来の特徴ベクトルの作成の仕方を説明する
ための図である。
【符号の説明】

バンドパスフィルタ群 2
区間検出部 3,17,35,40
グループ化部 4,14,18,36,41
演算部 5
辞書 6
認識部 11,12,16,21,30,33,39,43
特徴抽出部 13,19,23,38,42
グループ値計数部 15,24,47
正規化部 31,34
フレーム枠設定部 32,37
フレーム枠走査部 44
特徴ベクトル加算部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 音声認識を行なわせるため入力音声から
    特徴パターンを抽出する音声特徴抽出装置において、入
    力音声を音響分析した結果の各分析値をグループに分割
    するグループ化手段と、分割された各グループ内の分析
    値に所定の演算処理を施して特徴量を生成する演算処理
    手段とを備えていることを特徴とする音声特徴抽出装
    置。
  2. 【請求項2】 請求項1記載の音声特徴抽出装置におい
    て、分割された各グループは、互いに隣接したグループ
    間において少なくとも一部が重複している分析値を有し
    ていることを特徴とする音声特徴抽出装置。
  3. 【請求項3】 請求項1または2記載の音声特徴抽出装
    置において、前記各グループは、分析軸方向に分割され
    るようになっていることを特徴とする音声特徴抽出装
    置。
  4. 【請求項4】 請求項1,2,または3記載の音声特徴
    抽出装置において、前記各グループは、時系列方向に分
    割されるようになっていることを特徴とする音声特徴抽
    出装置。
  5. 【請求項5】 請求項1,2,3,または4記載の音声
    特徴抽出装置において、前記演算手段は、各グループ内
    の分析値を加算し特徴量を生成するようになっているこ
    とを特徴とする音声特徴抽出装置。
  6. 【請求項6】 請求項1,2,3,または4記載の音声
    特徴抽出装置において、各グループ内の分析値に所定の
    演算処理を施して生成された特徴量に対し正規化処理を
    施し、最終的な特徴ベクトルを生成するようになってい
    ることを特徴とする音声特徴抽出装置。
JP3232212A 1991-05-02 1991-08-20 音声特徴抽出装置 Pending JPH0519782A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3232212A JPH0519782A (ja) 1991-05-02 1991-08-20 音声特徴抽出装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP3-130641 1991-05-02
JP13064191 1991-05-02
JP3232212A JPH0519782A (ja) 1991-05-02 1991-08-20 音声特徴抽出装置

Publications (1)

Publication Number Publication Date
JPH0519782A true JPH0519782A (ja) 1993-01-29

Family

ID=26465723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3232212A Pending JPH0519782A (ja) 1991-05-02 1991-08-20 音声特徴抽出装置

Country Status (1)

Country Link
JP (1) JPH0519782A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003022084A (ja) * 2001-07-10 2003-01-24 Nippon Telegr & Teleph Corp <Ntt> 信号検出方法及び装置、プログラムならびに記録媒体
JP2005513576A (ja) * 2001-12-27 2005-05-12 フランス テレコム 音声信号を特徴付ける方法
WO2006006528A1 (ja) * 2004-07-09 2006-01-19 Nippon Telegraph And Telephone Corporation 音響信号検出システム、音響信号検出サーバ、映像信号探索装置、映像信号探索方法、映像信号探索プログラムと記録媒体、信号探索装置、信号探索方法、及び、信号探索プログラムと記録媒体
JP2007535699A (ja) * 2004-04-30 2007-12-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 透かし埋め込み

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003022084A (ja) * 2001-07-10 2003-01-24 Nippon Telegr & Teleph Corp <Ntt> 信号検出方法及び装置、プログラムならびに記録媒体
JP2005513576A (ja) * 2001-12-27 2005-05-12 フランス テレコム 音声信号を特徴付ける方法
JP2007535699A (ja) * 2004-04-30 2007-12-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 透かし埋め込み
WO2006006528A1 (ja) * 2004-07-09 2006-01-19 Nippon Telegraph And Telephone Corporation 音響信号検出システム、音響信号検出サーバ、映像信号探索装置、映像信号探索方法、映像信号探索プログラムと記録媒体、信号探索装置、信号探索方法、及び、信号探索プログラムと記録媒体
US7873521B2 (en) 2004-07-09 2011-01-18 Nippon Telegraph And Telephone Corporation Sound signal detection system, sound signal detection server, image signal search apparatus, image signal search method, image signal search program and medium, signal search apparatus, signal search method and signal search program and medium

Similar Documents

Publication Publication Date Title
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
EP0128755B1 (en) Apparatus for speech recognition
CA1172363A (en) Continuous speech recognition method
US4624010A (en) Speech recognition apparatus
EP0109190B1 (en) Monosyllable recognition apparatus
Moselhy et al. LPC and MFCC performance evaluation with artificial neural network for spoken language identification
CN1142274A (zh) 说话者辨认和确认系统
US5907826A (en) Speaker-independent speech recognition using vowel/consonant segmentation based on pitch intensity values
US5144672A (en) Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
US4817159A (en) Method and apparatus for speech recognition
US7835905B2 (en) Apparatus and method for detecting degree of voicing of speech signal
US6230129B1 (en) Segment-based similarity method for low complexity speech recognizer
US4903306A (en) Voice recognition using an eigenvector
US5764853A (en) Voice recognition device and method using a (GGM) Guaranteed Global minimum Mapping
US5375173A (en) Speaker adapted speech recognition system
US6567771B2 (en) Weighted pair-wise scatter to improve linear discriminant analysis
EP0473664A1 (en) WAVEFORM ANALYSIS.
US4885791A (en) Apparatus for speech recognition
JPH0519782A (ja) 音声特徴抽出装置
US4924518A (en) Phoneme similarity calculating apparatus
EP0430615A2 (en) Speech recognition system
US5347612A (en) Voice recognition system and method involving registered voice patterns formed from superposition of a plurality of other voice patterns
Wang et al. Analysis of Bit Sequence Representation for Sound Classification
US5001760A (en) Speech recognition apparatus and method utilizing an orthogonalized dictionary
Sunny et al. A comparative study of parametric coding and wavelet coding based feature extraction techniques in recognizing spoken words