JPH0345840B2 - - Google Patents
Info
- Publication number
- JPH0345840B2 JPH0345840B2 JP58098359A JP9835983A JPH0345840B2 JP H0345840 B2 JPH0345840 B2 JP H0345840B2 JP 58098359 A JP58098359 A JP 58098359A JP 9835983 A JP9835983 A JP 9835983A JP H0345840 B2 JPH0345840 B2 JP H0345840B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- section
- phonemes
- storage means
- feature parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000004364 calculation method Methods 0.000 claims description 49
- 238000000034 method Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 19
- 238000013500 data storage Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 4
- 238000011144 upstream manufacturing Methods 0.000 claims 1
- 230000015654 memory Effects 0.000 description 30
- 230000005236 sound signal Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005311 autocorrelation function Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000008685 targeting Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Description
産業上の利用分野
本発明は音声認識、ろうあ者用発声訓練等に用
いられる不特定話者を対象とした音素認識装置に
関するものである。 従来例の構成とその問題点 音素判別は、話者識別とその考え方を異にす
る。すなわち不特定話者を対象とした音素判別
は、人の口から発声された音声の中に含まれる情
報のうち、音韻性情報(話者が伝えたい意味内容
を表現する情報)を抽出して認識するものである
のに対し、話者識別は話者情報(話をする個人の
特徴を表す情報)のみを抽出するもので、基本的
な考え方が異なる。音素を認識する従来例として
は、音声認識の方式の中に見ることが出来る。音
声の認識を行なう場合、マイクロホンによつて電
気信号に変換された時系列の音声信号ををフレー
ムと呼ばれる単位に区切つて、各々のフレームを
単位として分析を行ない、特徴パラメータに変換
し、音声信号を特徴パラメータ系列に変換するの
が一般的な方法である。この場合、1フレームは
10msec程度に選ばれる。また分析方法として、
フイルタ分析法や線形予測(LPC)分析法がよ
く利用される。 次に、特徴パラメータを複数の音素または擬音
素(音素に類するもの:例えば/hi/と/ha/で
は/h/のパターンが異なり、前者を/h/と
し、後者を/h*/とする)の標準パターンと照
合して、特徴パラメータとの類似度が最も大きい
標準パターンの音素でそのフレームを代表させ
る。このように各フレーム毎の音素を認識し、そ
の音素の系列により音声を認識するという手法が
よく使われる。このように音素に変換すれば、各
フレーム毎に多くの記憶容量を必要とする音声信
号(例えば精度12ビツトで12KHzでサンプリング
されたデータは10msecあたり1440ビツト)が8
ビツト程度に圧縮されることになり、以後の認識
過程が簡単となる。 音素認識の従来例の代表として、特徴パラメー
タとして自己相関関数を用い、類似度を予測残差
距離で求める方法を説明する。 いま音素が未知の音声信号より算出される特徴
パラメータを 〓=(V1,V2……Vo)…… (1) ただし、Viはi次の自己相関関数、nはパラメ
ータ数とし、音素または擬音素j(j=1,2…
…l、lは標準パターンの数)に対する標準パタ
ーンを 〓j=(aj1,aj2……ajo…… (2) ただし、ajiはi次の最尤スペクトルパラメー
タとすると、類似度(距離)djは dj=〓T j・〓…… (3) ただし、Tは転置を表す。 である。j=jmのときdjが最小となれば、jmに
相当する音素または擬音素をその音声信号の音素
認識結果とする。 第1図は従来例を実現するための構成図であ
る。マイクロホンで電気信号に変換された音声信
号はAD変換器1でデジタル信号に変換され、フ
レーム毎に相関器2で自己相関関数V1〜Vo(特徴
パラメータ)に変換される。3は距離計算部で標
準パターン格納部4から標準パターンAjiを読み
出し、自己相関関数Viとの間に(式3)の計算
を行なつて類似度djが最小となるj=jmを求め
jmに相当する音素または擬音素を出力する。 この方法は計算式が簡単で、高速の認識に適し
た方法である。特定話者を対象とする場合はこの
ような方法でもかなり良い結果を得ることが出来
る。しかし不特定話者を対象とする場合には、調
音結合の微妙な影響や個人性による特徴パラメー
タの差異によつて、認識率が低下する。不特定話
者を対象とし高い認識率を確保するためには、特
徴パラメータとして、調音結合や個人性の影響を
受けにくいものを使用し、類似度の計算に対して
はこれらの変動によるばらつきを考慮に入れた距
離尺度を使用する必要がある。しかし、そのよう
な方法は一般に認識に要する計算が複雑であり高
速で認識できるシステムを構成することが不可能
であつた。 発明の目的 本発明は不特定話者を対象として高い認識率を
確保し、しかも高速(リアルタイム)に認識結果
を得ることが出来る音素認識装置を提供すること
を目的とする。 発明の構成 本発明は上記目的を達成するもので、音声信号
からフレーム毎の音素または擬音素の認識を実時
間で行う音素認識装置である。 音声信号から音素または擬音素の認識を行なう
ために、特徴パラメータとしてLPCケプストラ
ム係数を算出する特徴パラメータ算出部と、多く
の話者の音声データから該当する音素の部分を抽
出して、音素の統計的分布を表現する標準パター
ンを音素ごとにあらかじめ作成して格納する標準
パターン格納部と、前記特徴パラメータと音素ま
たは擬音素の標準パターンを照合するためにベイ
ズ判定に基く距離、マハラノビス距離、線形判別
関数などの統計的な距離尺度によつて類似度を算
出し音素を判別する音素判別部とを少なくとも有
する。そしてさらに処理を高速にするため、特徴
パラメータ算出部の前段に入力データ蓄積部と、
前記特徴パラメータ算出部と音素判別部との間に
データ交換部を設け、前記入力データ蓄積部を、
第1及び第2の記憶手段と、入力信号を前記第1
又は第2の記憶手段に切り替える第1の切替手段
と、前記第1又は第2の記憶手段の情報を選択的
に取り出す第2の切替手段とから少なくとも構成
し、前記データ交換部を、第3及び第4の記憶手
段と、特徴パラメータ算出部からの情報を前記第
3又は第4の記憶手段に切り替える第3の切替手
段と、前記第3又は第4の記憶手段と音素判別部
とを選択的に接続する第4の切替手段と、前記第
3又は第4の記憶手段の情報を選択的に読み出す
第5の切替手段とから少なくとも構成し、音声の
入力、特徴パラメータの算出、音素の判別、認識
結果の出力という4つの処理をフレームごとにパ
イプライン処理により行ない不特定話者の音素認
識を行なうことを特徴とし、高い認識率と認識処
理をパイプライン処理により実時間で行なうこと
が出来る音素認識装置を提供するものである。 実施例の説明 本発明の基本的な考え方は調音結合や個人性に
よる変動を受けにくい特徴パラメータとして
LPCケプストラム係数を使用し、また調音結合
や個人性の影響による特徴パラメータのばらつき
を考慮した距離尺度として、マハラノビス距離、
ベイズ判定、線形判別関数などの統計的距離尺度
を使用するものである。 第2図は本発明の一実施例における音素認識装
置の基本構成ブロツク図を示したものである。 第2図において1はAD変換器であり第1図の
ものと同じである。5は特徴パラメータ算出部で
窓計算、LPC分析およびLPCケプストラム係数
計算を行う部分である。LPCケプストラム係数
は、LPC分析によつて音声信号から声帯音源の
特性を除去し、その後得られるスペクトルの包絡
特性を記述するパラメータである。 LPCケプストラム係数は、LPC分析により得
られる線形予測係数を使つて式(4)で計算できる
(LPC分析に関しては例えば中田和男著『音声』
日本音響学会編などに詳しい説明がある)。 Ci=−αi−i-1 〓k=1 i−k/i・αk・Ci−k…… (4) ただし、αiはi次の線形予測係数 Ciはi次のLPCケプストラム係数である。 6は音素判定部で、本実施例では、マハラノビス
距離、ベイズ判定や線形判別関数などの統計的距
離尺度を使用して音素の判定を行つている。前者
2つの距離尺度はパラメータの分布状態を標準パ
ターンの中に所持している。また後者は、パラメ
ータの分布を考慮して係数の値を設定したもので
ある。 距離尺度は次のように算出される。音素または
擬音素jに対する標準パターンとして、特徴パラ
メータの平均値ベクトルをμj、共分散行列を〓j
とすると、未知入力の特徴パラメータベクトルx
に対する確率密度は式(5)で表わされる。 Pj(x)=1/2(π)n/2・|Wj|1/2・exp {−1/2(x−〓j)T・〓j-1(x−〓j)} …… (5) ただし、|W|は行列式の値、〓-1は逆行列、
Tは転置を表わす。 式(5)で標準パターン〓j、〓jは音素名が判つて
いる多くの音声データより得られるLPCケプス
トラム係数を使用して、あらかじめ作成してお
く。したがつて、これらは定数である。またxは
判別すべき音声データより得られるLPCケプス
トラム係数である。 ベイズ判定は式(5)を最大とする音素または擬音素
j=jmを判別結果とする方法である。また式(5)
の自然対数を求め、 lj=−1/2(x−〓j)T・ 〓j-1・(x−〓j)−Lj…… (6) ただししLj=loge{(2π)n/2・|〓j|1/2} として、式(6)を最大とする音素または擬音素を求
めても同じ結果となり、しかも計算量が減少す
る。 マハラノビス距離は式(6)の第1項で定義され
る。 すなわち、 dj=(x−〓j)T・Wj・(x−〓j)……(7) である。判別結果はdjを最小とするj=jmを求
めることによつて得られる。 いずれにしても統計的距離尺度は〓T・〓・〓
(〓はベクトル、〓はマトリツクス)という演算
が基本となる。 音素判別部6は標準パターンメモリ7に格納し
てある標準パターンとの間で式(6)、または式(7)の
計算を行ない音素を判別し、音素認識結果として
出力する。 このように、調音結合や個人性の影響によるば
らつきの少ない特徴パラメータと、ばらつきの状
態を考慮した距離尺度を組合わせることによつて
不特定話者を対象とした場合においても高い認識
率を確保することが出来る。第1表は、母音に関
して従来の方法(自己相関関数と予測残差距離)
と、本実施例による方法とを比較したものであ
る。比較のために使用した音声データは、男性話
者10名が各々が発声した212単語の中の母音に相
当する全フレーム(1フレーム10msec長)であ
る。 比較の尺度は正しく認識したフレームの数の全フ
レームに対する割合(%表示)である。
いられる不特定話者を対象とした音素認識装置に
関するものである。 従来例の構成とその問題点 音素判別は、話者識別とその考え方を異にす
る。すなわち不特定話者を対象とした音素判別
は、人の口から発声された音声の中に含まれる情
報のうち、音韻性情報(話者が伝えたい意味内容
を表現する情報)を抽出して認識するものである
のに対し、話者識別は話者情報(話をする個人の
特徴を表す情報)のみを抽出するもので、基本的
な考え方が異なる。音素を認識する従来例として
は、音声認識の方式の中に見ることが出来る。音
声の認識を行なう場合、マイクロホンによつて電
気信号に変換された時系列の音声信号ををフレー
ムと呼ばれる単位に区切つて、各々のフレームを
単位として分析を行ない、特徴パラメータに変換
し、音声信号を特徴パラメータ系列に変換するの
が一般的な方法である。この場合、1フレームは
10msec程度に選ばれる。また分析方法として、
フイルタ分析法や線形予測(LPC)分析法がよ
く利用される。 次に、特徴パラメータを複数の音素または擬音
素(音素に類するもの:例えば/hi/と/ha/で
は/h/のパターンが異なり、前者を/h/と
し、後者を/h*/とする)の標準パターンと照
合して、特徴パラメータとの類似度が最も大きい
標準パターンの音素でそのフレームを代表させ
る。このように各フレーム毎の音素を認識し、そ
の音素の系列により音声を認識するという手法が
よく使われる。このように音素に変換すれば、各
フレーム毎に多くの記憶容量を必要とする音声信
号(例えば精度12ビツトで12KHzでサンプリング
されたデータは10msecあたり1440ビツト)が8
ビツト程度に圧縮されることになり、以後の認識
過程が簡単となる。 音素認識の従来例の代表として、特徴パラメー
タとして自己相関関数を用い、類似度を予測残差
距離で求める方法を説明する。 いま音素が未知の音声信号より算出される特徴
パラメータを 〓=(V1,V2……Vo)…… (1) ただし、Viはi次の自己相関関数、nはパラメ
ータ数とし、音素または擬音素j(j=1,2…
…l、lは標準パターンの数)に対する標準パタ
ーンを 〓j=(aj1,aj2……ajo…… (2) ただし、ajiはi次の最尤スペクトルパラメー
タとすると、類似度(距離)djは dj=〓T j・〓…… (3) ただし、Tは転置を表す。 である。j=jmのときdjが最小となれば、jmに
相当する音素または擬音素をその音声信号の音素
認識結果とする。 第1図は従来例を実現するための構成図であ
る。マイクロホンで電気信号に変換された音声信
号はAD変換器1でデジタル信号に変換され、フ
レーム毎に相関器2で自己相関関数V1〜Vo(特徴
パラメータ)に変換される。3は距離計算部で標
準パターン格納部4から標準パターンAjiを読み
出し、自己相関関数Viとの間に(式3)の計算
を行なつて類似度djが最小となるj=jmを求め
jmに相当する音素または擬音素を出力する。 この方法は計算式が簡単で、高速の認識に適し
た方法である。特定話者を対象とする場合はこの
ような方法でもかなり良い結果を得ることが出来
る。しかし不特定話者を対象とする場合には、調
音結合の微妙な影響や個人性による特徴パラメー
タの差異によつて、認識率が低下する。不特定話
者を対象とし高い認識率を確保するためには、特
徴パラメータとして、調音結合や個人性の影響を
受けにくいものを使用し、類似度の計算に対して
はこれらの変動によるばらつきを考慮に入れた距
離尺度を使用する必要がある。しかし、そのよう
な方法は一般に認識に要する計算が複雑であり高
速で認識できるシステムを構成することが不可能
であつた。 発明の目的 本発明は不特定話者を対象として高い認識率を
確保し、しかも高速(リアルタイム)に認識結果
を得ることが出来る音素認識装置を提供すること
を目的とする。 発明の構成 本発明は上記目的を達成するもので、音声信号
からフレーム毎の音素または擬音素の認識を実時
間で行う音素認識装置である。 音声信号から音素または擬音素の認識を行なう
ために、特徴パラメータとしてLPCケプストラ
ム係数を算出する特徴パラメータ算出部と、多く
の話者の音声データから該当する音素の部分を抽
出して、音素の統計的分布を表現する標準パター
ンを音素ごとにあらかじめ作成して格納する標準
パターン格納部と、前記特徴パラメータと音素ま
たは擬音素の標準パターンを照合するためにベイ
ズ判定に基く距離、マハラノビス距離、線形判別
関数などの統計的な距離尺度によつて類似度を算
出し音素を判別する音素判別部とを少なくとも有
する。そしてさらに処理を高速にするため、特徴
パラメータ算出部の前段に入力データ蓄積部と、
前記特徴パラメータ算出部と音素判別部との間に
データ交換部を設け、前記入力データ蓄積部を、
第1及び第2の記憶手段と、入力信号を前記第1
又は第2の記憶手段に切り替える第1の切替手段
と、前記第1又は第2の記憶手段の情報を選択的
に取り出す第2の切替手段とから少なくとも構成
し、前記データ交換部を、第3及び第4の記憶手
段と、特徴パラメータ算出部からの情報を前記第
3又は第4の記憶手段に切り替える第3の切替手
段と、前記第3又は第4の記憶手段と音素判別部
とを選択的に接続する第4の切替手段と、前記第
3又は第4の記憶手段の情報を選択的に読み出す
第5の切替手段とから少なくとも構成し、音声の
入力、特徴パラメータの算出、音素の判別、認識
結果の出力という4つの処理をフレームごとにパ
イプライン処理により行ない不特定話者の音素認
識を行なうことを特徴とし、高い認識率と認識処
理をパイプライン処理により実時間で行なうこと
が出来る音素認識装置を提供するものである。 実施例の説明 本発明の基本的な考え方は調音結合や個人性に
よる変動を受けにくい特徴パラメータとして
LPCケプストラム係数を使用し、また調音結合
や個人性の影響による特徴パラメータのばらつき
を考慮した距離尺度として、マハラノビス距離、
ベイズ判定、線形判別関数などの統計的距離尺度
を使用するものである。 第2図は本発明の一実施例における音素認識装
置の基本構成ブロツク図を示したものである。 第2図において1はAD変換器であり第1図の
ものと同じである。5は特徴パラメータ算出部で
窓計算、LPC分析およびLPCケプストラム係数
計算を行う部分である。LPCケプストラム係数
は、LPC分析によつて音声信号から声帯音源の
特性を除去し、その後得られるスペクトルの包絡
特性を記述するパラメータである。 LPCケプストラム係数は、LPC分析により得
られる線形予測係数を使つて式(4)で計算できる
(LPC分析に関しては例えば中田和男著『音声』
日本音響学会編などに詳しい説明がある)。 Ci=−αi−i-1 〓k=1 i−k/i・αk・Ci−k…… (4) ただし、αiはi次の線形予測係数 Ciはi次のLPCケプストラム係数である。 6は音素判定部で、本実施例では、マハラノビス
距離、ベイズ判定や線形判別関数などの統計的距
離尺度を使用して音素の判定を行つている。前者
2つの距離尺度はパラメータの分布状態を標準パ
ターンの中に所持している。また後者は、パラメ
ータの分布を考慮して係数の値を設定したもので
ある。 距離尺度は次のように算出される。音素または
擬音素jに対する標準パターンとして、特徴パラ
メータの平均値ベクトルをμj、共分散行列を〓j
とすると、未知入力の特徴パラメータベクトルx
に対する確率密度は式(5)で表わされる。 Pj(x)=1/2(π)n/2・|Wj|1/2・exp {−1/2(x−〓j)T・〓j-1(x−〓j)} …… (5) ただし、|W|は行列式の値、〓-1は逆行列、
Tは転置を表わす。 式(5)で標準パターン〓j、〓jは音素名が判つて
いる多くの音声データより得られるLPCケプス
トラム係数を使用して、あらかじめ作成してお
く。したがつて、これらは定数である。またxは
判別すべき音声データより得られるLPCケプス
トラム係数である。 ベイズ判定は式(5)を最大とする音素または擬音素
j=jmを判別結果とする方法である。また式(5)
の自然対数を求め、 lj=−1/2(x−〓j)T・ 〓j-1・(x−〓j)−Lj…… (6) ただししLj=loge{(2π)n/2・|〓j|1/2} として、式(6)を最大とする音素または擬音素を求
めても同じ結果となり、しかも計算量が減少す
る。 マハラノビス距離は式(6)の第1項で定義され
る。 すなわち、 dj=(x−〓j)T・Wj・(x−〓j)……(7) である。判別結果はdjを最小とするj=jmを求
めることによつて得られる。 いずれにしても統計的距離尺度は〓T・〓・〓
(〓はベクトル、〓はマトリツクス)という演算
が基本となる。 音素判別部6は標準パターンメモリ7に格納し
てある標準パターンとの間で式(6)、または式(7)の
計算を行ない音素を判別し、音素認識結果として
出力する。 このように、調音結合や個人性の影響によるば
らつきの少ない特徴パラメータと、ばらつきの状
態を考慮した距離尺度を組合わせることによつて
不特定話者を対象とした場合においても高い認識
率を確保することが出来る。第1表は、母音に関
して従来の方法(自己相関関数と予測残差距離)
と、本実施例による方法とを比較したものであ
る。比較のために使用した音声データは、男性話
者10名が各々が発声した212単語の中の母音に相
当する全フレーム(1フレーム10msec長)であ
る。 比較の尺度は正しく認識したフレームの数の全フ
レームに対する割合(%表示)である。
【表】
第1表から明らかなように本実施例は従来例よ
りも格段に良い結果を得ることが出来る。 ところで第2図の処理を実時間で行なう場合、
AD変換器1からの入力と特徴パラメータ算出部
7、音素判別部gの2つのブロツクにおける全て
の処理を1フレームの時間(たとえば10msec)
内で行なわなければならない。しかし、1フレー
ムの時間内にLPC計算と式(4)の計算および式(6)
または式(7)の計算を音素標準パターンの数だけ行
うことは現在の技術では困難である。 本実施例では、第2図の基本構成に加えて第3
図に示すように、特徴パラメータ算出部5の前段
に入力データ蓄積部18を、音素判定部6の前段
にデータ交換部19を設け、音声の入力、特徴パ
ラメータの算出、音素の判別、結果の出力という
4つの処理をパイプライン処理により同時に行え
るようにしてこの問題を解決している。 第4図は本発明の実施例の具体的構成を示した
ものである。また第5図はパイプライン処理のタ
イミングを示している。第4図において第2図及
び第3図と同じ機能をもつブロツクは同一の符号
を付している。 以下第4図と第5図によつて本発明の実施例の
説明を行なう。本実施例において、AD変換のサ
ンプリング周波数は12KHz、フレーム長は
10msec、窓計算における窓長は20msecである。
したがつて1フレーム内の音声データサンプルは
120ワードである。またLPC分析におけるフイル
タの次数は15である。 第4図において8と9はAD変換器1から12K
Hz周期毎に送られてくる音声データを一時蓄積し
ておくメモリであり、各々1フレーム分のデータ
が蓄積出来る容量(120ワード)を有している。
8をメモリA、9をメモリBと呼ぶことにする。
これらのメモリの入出力は切替スイツチ13と1
4により切替えられる。切替スイツチ13がa側
に接続されているとき、切替スイツチ14はd側
に接続される。 反対に切替スイツチBがb側に接続されていると
き、切替スイツチ14はc側に接続される。この
切替スイツチ13と14はフレーム同期信号発生
部12により発生されるフレーム周期毎のパルス
により切替が行なわれる。このようにすることに
より、AD変換器1から送られてくる音声データ
の入力と、特徴パラメータ算出部5における計算
を同時に独立して行うことが出来る。この特徴パ
ラメータ算出部5はマイクロプロセツサにより構
成され、メモリA8またはメモリB9に格納され
ている音声データに対し、窓計算、自己相関計算
LPC計算、LPCケプストラム計算などを行うも
のである。10と11は結果を格納しておくため
のメモリで、10をメモリC、11をメモリDと
呼ぶことにする。 これらのメモリ10,11の入出力は切替スイツ
チ15,16,17によつて切替えられる。切替
スイツチ15がe側に接続されているとき、切替
スイツチ16,17はそれぞれh側、i側に接続
され、反対に切替スイツチ15がf側に接続され
ているときは、切替スイツチ16,17はそれぞ
れg側、j側に接続されるようになつている。ま
たこの切替スイツチ15,16,17の切替の変
更は切替スイツチ13,14と同時にフレーム同
期信号発生部12により発生されるフレーム周期
毎のパルスにより行なわれる。これにより特徴パ
ラメータ算出部5における計算と音素判別部6に
おける距離計算、そして外部装置に対する音素認
識結果の出力という三つの処理を同時に独立して
行うことが出来る。特徴パラメータ算出部5によ
つて算出されたLPCケプストラム係数は、メモ
リ10またはメモリ11に書き込まれ、次のフレ
ームの間保持される。音素判別部6は、音素の判
別を行うためのマイクロプロセツサであり、メモ
リ10またはメモリ11に格納されているLPC
ケプストラム係数と標準パターンメモリ7に格納
されている標準パターンとの間で式(6)または式(7)
の計算により音素の判定を行なう。 音素判定結果はただ1つの音素を決め出力するの
ではなく、第1候補、第2候補というように複数
個がそれぞれの類似度と共にメモリ10またはメ
モリ11に書き込まれる。この音素認識結果はメ
モリ10またはメモリ11において、特徴パラメ
ータ算出部5によりLPCケプストラム係数が書
き込まれている領域より後ろの領域に書き込まれ
次のフレームの間保持され、音声認識装置などの
外部装置に出力される。 第5図は第4図で説明した処理を行なうタイミ
ングを示したものである。第iフレームにおける
第4図の切替スイツチ13,14,15,16,
17がそれぞれa側、d側、e側、h側、i側に
接続されているとした場合、12KHz周期ごとに
AD変換器1から送られてくる音声データはメモ
リA8に格納される。また、このとき、特徴パラ
メータ算出部5はメモリB9に格納されているi
−1フレームの音声データを用いLPCケプスト
ラム係数を計算し結果をメモリC10に書く。音
素判別部6はメモリD11に格納されているi−
2フレームのLPCケプストラム係数と標準パタ
ーンとの類似度を計算し判定結果をメモリ11に
書く。そして、メモリ10に格納されているi−
3フレームの音素認識結果は外部装置に出力され
る。次の第i+1フレームの場合、第4図におけ
る切替スイツチ13,14,15,16,17は
それぞれb側、c側、f側、g側、j側に切り替
えられ、AD変換器1からの入力、特徴パラメー
タの算出、音素の判定、結果の出力は、それぞれ
i+1,i,i−1,i−2のフレームのデータ
を処理する。このように特徴パラメータ算出用マ
イクロプロセツサと音素判別用マイクロプロセツ
サに第4図8,9,13,14で構成される入力
データ蓄積部18と、第4図10,11,15,
16,17で構成されるデータ交換部19を設け
ることにより、音声データの入力、特徴パラメー
タの算出、音素判別、認識結果の外部装置への出
力という4つの処理を同一の時間に独立して行な
うことが可能となる。 そして、上記4つの処理の結果はフレーム周期に
同期し後段で利用される。また各部の処理結果は
メモリを切替えることにより行なわれるため、処
理ブロツク間におけるデータの受け渡しを高速に
することが出来る。このようなフレーム周期に同
期したパイプライン処理により本実施例では音声
信号が入力されてから4フレームの時間
(40msec)で音素を認識することが出来る。また
第4図10,11,15,16,17の構成によ
るデータ交換部19により、音素認識結果出力用
のバツフアメモリを別に設ける必要性をなくした
という特徴もある。 第2表は本実施例におけるパイプライン処理を
行なつた場合の、特徴パラメータ算出部5のマイ
クロプロセツサ、音素判別部6のマイクロプロセ
ツサで行なうべき計算量を示したものである。た
だし、音素判別部6における標準パターンの数は
30とした。各々のマイクロプロセツサはこれだけ
の計算を10msecで行なえばよく、サイクルタイ
ム250msec程度のものでよい。この程度のものは
信号処理用マイクロプロセツサと称されるものを
用いることにより容易に作成することが出来る。
りも格段に良い結果を得ることが出来る。 ところで第2図の処理を実時間で行なう場合、
AD変換器1からの入力と特徴パラメータ算出部
7、音素判別部gの2つのブロツクにおける全て
の処理を1フレームの時間(たとえば10msec)
内で行なわなければならない。しかし、1フレー
ムの時間内にLPC計算と式(4)の計算および式(6)
または式(7)の計算を音素標準パターンの数だけ行
うことは現在の技術では困難である。 本実施例では、第2図の基本構成に加えて第3
図に示すように、特徴パラメータ算出部5の前段
に入力データ蓄積部18を、音素判定部6の前段
にデータ交換部19を設け、音声の入力、特徴パ
ラメータの算出、音素の判別、結果の出力という
4つの処理をパイプライン処理により同時に行え
るようにしてこの問題を解決している。 第4図は本発明の実施例の具体的構成を示した
ものである。また第5図はパイプライン処理のタ
イミングを示している。第4図において第2図及
び第3図と同じ機能をもつブロツクは同一の符号
を付している。 以下第4図と第5図によつて本発明の実施例の
説明を行なう。本実施例において、AD変換のサ
ンプリング周波数は12KHz、フレーム長は
10msec、窓計算における窓長は20msecである。
したがつて1フレーム内の音声データサンプルは
120ワードである。またLPC分析におけるフイル
タの次数は15である。 第4図において8と9はAD変換器1から12K
Hz周期毎に送られてくる音声データを一時蓄積し
ておくメモリであり、各々1フレーム分のデータ
が蓄積出来る容量(120ワード)を有している。
8をメモリA、9をメモリBと呼ぶことにする。
これらのメモリの入出力は切替スイツチ13と1
4により切替えられる。切替スイツチ13がa側
に接続されているとき、切替スイツチ14はd側
に接続される。 反対に切替スイツチBがb側に接続されていると
き、切替スイツチ14はc側に接続される。この
切替スイツチ13と14はフレーム同期信号発生
部12により発生されるフレーム周期毎のパルス
により切替が行なわれる。このようにすることに
より、AD変換器1から送られてくる音声データ
の入力と、特徴パラメータ算出部5における計算
を同時に独立して行うことが出来る。この特徴パ
ラメータ算出部5はマイクロプロセツサにより構
成され、メモリA8またはメモリB9に格納され
ている音声データに対し、窓計算、自己相関計算
LPC計算、LPCケプストラム計算などを行うも
のである。10と11は結果を格納しておくため
のメモリで、10をメモリC、11をメモリDと
呼ぶことにする。 これらのメモリ10,11の入出力は切替スイツ
チ15,16,17によつて切替えられる。切替
スイツチ15がe側に接続されているとき、切替
スイツチ16,17はそれぞれh側、i側に接続
され、反対に切替スイツチ15がf側に接続され
ているときは、切替スイツチ16,17はそれぞ
れg側、j側に接続されるようになつている。ま
たこの切替スイツチ15,16,17の切替の変
更は切替スイツチ13,14と同時にフレーム同
期信号発生部12により発生されるフレーム周期
毎のパルスにより行なわれる。これにより特徴パ
ラメータ算出部5における計算と音素判別部6に
おける距離計算、そして外部装置に対する音素認
識結果の出力という三つの処理を同時に独立して
行うことが出来る。特徴パラメータ算出部5によ
つて算出されたLPCケプストラム係数は、メモ
リ10またはメモリ11に書き込まれ、次のフレ
ームの間保持される。音素判別部6は、音素の判
別を行うためのマイクロプロセツサであり、メモ
リ10またはメモリ11に格納されているLPC
ケプストラム係数と標準パターンメモリ7に格納
されている標準パターンとの間で式(6)または式(7)
の計算により音素の判定を行なう。 音素判定結果はただ1つの音素を決め出力するの
ではなく、第1候補、第2候補というように複数
個がそれぞれの類似度と共にメモリ10またはメ
モリ11に書き込まれる。この音素認識結果はメ
モリ10またはメモリ11において、特徴パラメ
ータ算出部5によりLPCケプストラム係数が書
き込まれている領域より後ろの領域に書き込まれ
次のフレームの間保持され、音声認識装置などの
外部装置に出力される。 第5図は第4図で説明した処理を行なうタイミ
ングを示したものである。第iフレームにおける
第4図の切替スイツチ13,14,15,16,
17がそれぞれa側、d側、e側、h側、i側に
接続されているとした場合、12KHz周期ごとに
AD変換器1から送られてくる音声データはメモ
リA8に格納される。また、このとき、特徴パラ
メータ算出部5はメモリB9に格納されているi
−1フレームの音声データを用いLPCケプスト
ラム係数を計算し結果をメモリC10に書く。音
素判別部6はメモリD11に格納されているi−
2フレームのLPCケプストラム係数と標準パタ
ーンとの類似度を計算し判定結果をメモリ11に
書く。そして、メモリ10に格納されているi−
3フレームの音素認識結果は外部装置に出力され
る。次の第i+1フレームの場合、第4図におけ
る切替スイツチ13,14,15,16,17は
それぞれb側、c側、f側、g側、j側に切り替
えられ、AD変換器1からの入力、特徴パラメー
タの算出、音素の判定、結果の出力は、それぞれ
i+1,i,i−1,i−2のフレームのデータ
を処理する。このように特徴パラメータ算出用マ
イクロプロセツサと音素判別用マイクロプロセツ
サに第4図8,9,13,14で構成される入力
データ蓄積部18と、第4図10,11,15,
16,17で構成されるデータ交換部19を設け
ることにより、音声データの入力、特徴パラメー
タの算出、音素判別、認識結果の外部装置への出
力という4つの処理を同一の時間に独立して行な
うことが可能となる。 そして、上記4つの処理の結果はフレーム周期に
同期し後段で利用される。また各部の処理結果は
メモリを切替えることにより行なわれるため、処
理ブロツク間におけるデータの受け渡しを高速に
することが出来る。このようなフレーム周期に同
期したパイプライン処理により本実施例では音声
信号が入力されてから4フレームの時間
(40msec)で音素を認識することが出来る。また
第4図10,11,15,16,17の構成によ
るデータ交換部19により、音素認識結果出力用
のバツフアメモリを別に設ける必要性をなくした
という特徴もある。 第2表は本実施例におけるパイプライン処理を
行なつた場合の、特徴パラメータ算出部5のマイ
クロプロセツサ、音素判別部6のマイクロプロセ
ツサで行なうべき計算量を示したものである。た
だし、音素判別部6における標準パターンの数は
30とした。各々のマイクロプロセツサはこれだけ
の計算を10msecで行なえばよく、サイクルタイ
ム250msec程度のものでよい。この程度のものは
信号処理用マイクロプロセツサと称されるものを
用いることにより容易に作成することが出来る。
【表】
一方、パイプライン処理を行なわなければ
10msecの間に第2表の両者を加えた回数に更に
データ転送などの処理が加わるため、そのサイク
ルタイムは100msec以下となり作成が困難であ
る。 以上のように本実施例は、特徴パラメータとし
てLPCケプストラム係数を用い、これを標準パ
ターンを照合する距離尺度として統計的距離尺度
を用いることにより、不特定話者を対象としても
高い音素認識率を確保し、さらにパイプライン処
理を可能とする構成をとるより認識を実時間で行
ない得る音素認識装置である。 発明の効果 以上のように本発明は、特徴パラメータとして
LPCケプストラム係数を算出する特徴パラメー
タ算出部と、前記特徴パラメータと音素または擬
音素の標準パターンとを照合し、統計的距離尺度
によつて音素を判別する音素判別部と、さらに前
記特徴パラメータ算出部の前段に入力データ蓄積
部を、前記特徴パラメータ算出部と音素判別部と
の間にデータ交換部を設け、前記入力データ蓄積
部を、第1及び第2の記憶手段と、入力信号を前
記第1又は第2の記憶手段に切り替える第1の切
替手段と、前記第1又は第2の記憶手段の情報を
選択的に取り出す第2の切替手段とから少なくと
も構成し、前記データ交換部を、第3及び第4の
記憶手段と、特徴パラメータ算出部からの情報を
前記第3又は第4の記憶手段に切り替える第3の
切替手段と、前記第3又は第4の記憶手段と音素
判別部とを選択的に接続する第4の切替手段と、
前記第3又は第4の記憶手段の情報を選択的に読
み出す第5の切替手段とから少なくとも構成し、
これらを用いて音声の入力、特徴パラメータの算
出、音素の判別、認識結果の出力という4つの処
理をフレームに同期したパイプライン処理するこ
とにより音声信号を音素または擬音素の系列に変
換するという音素認識を行なうもので、不特定話
者を対象としても高い認識率と高速認識処理とが
達成できる利点を有する。
10msecの間に第2表の両者を加えた回数に更に
データ転送などの処理が加わるため、そのサイク
ルタイムは100msec以下となり作成が困難であ
る。 以上のように本実施例は、特徴パラメータとし
てLPCケプストラム係数を用い、これを標準パ
ターンを照合する距離尺度として統計的距離尺度
を用いることにより、不特定話者を対象としても
高い音素認識率を確保し、さらにパイプライン処
理を可能とする構成をとるより認識を実時間で行
ない得る音素認識装置である。 発明の効果 以上のように本発明は、特徴パラメータとして
LPCケプストラム係数を算出する特徴パラメー
タ算出部と、前記特徴パラメータと音素または擬
音素の標準パターンとを照合し、統計的距離尺度
によつて音素を判別する音素判別部と、さらに前
記特徴パラメータ算出部の前段に入力データ蓄積
部を、前記特徴パラメータ算出部と音素判別部と
の間にデータ交換部を設け、前記入力データ蓄積
部を、第1及び第2の記憶手段と、入力信号を前
記第1又は第2の記憶手段に切り替える第1の切
替手段と、前記第1又は第2の記憶手段の情報を
選択的に取り出す第2の切替手段とから少なくと
も構成し、前記データ交換部を、第3及び第4の
記憶手段と、特徴パラメータ算出部からの情報を
前記第3又は第4の記憶手段に切り替える第3の
切替手段と、前記第3又は第4の記憶手段と音素
判別部とを選択的に接続する第4の切替手段と、
前記第3又は第4の記憶手段の情報を選択的に読
み出す第5の切替手段とから少なくとも構成し、
これらを用いて音声の入力、特徴パラメータの算
出、音素の判別、認識結果の出力という4つの処
理をフレームに同期したパイプライン処理するこ
とにより音声信号を音素または擬音素の系列に変
換するという音素認識を行なうもので、不特定話
者を対象としても高い認識率と高速認識処理とが
達成できる利点を有する。
第1図は従来の音声認識装置における音素認識
部のブロツク図、第2図は本発明の実施例である
音素認識装置の基本構成を示すブロツク図、第3
図は本発明の実施例である音素認識装置の構成を
示すブロツク図、第4図は第3図に示す音素認識
装置の具体的構成を示すブロツク図、第5図は本
実施例のタイミングチヤートである。 1……AD変換器、2……相関器、3……距離
計算部、4……標準パターン(最大スペクトルパ
ラメータ)格納部、5……特徴パラメータ算出
部、6……音素判別部、7……標準パターンメモ
リ、8,9……音声信号蓄積用メモリ、10,1
1……データ交換用メモリ、12……フレーム同
期信号発生部、13,14,15,16,17…
…切替スイツチ、18……入力データ蓄積部、1
9……データ変換部。
部のブロツク図、第2図は本発明の実施例である
音素認識装置の基本構成を示すブロツク図、第3
図は本発明の実施例である音素認識装置の構成を
示すブロツク図、第4図は第3図に示す音素認識
装置の具体的構成を示すブロツク図、第5図は本
実施例のタイミングチヤートである。 1……AD変換器、2……相関器、3……距離
計算部、4……標準パターン(最大スペクトルパ
ラメータ)格納部、5……特徴パラメータ算出
部、6……音素判別部、7……標準パターンメモ
リ、8,9……音声信号蓄積用メモリ、10,1
1……データ交換用メモリ、12……フレーム同
期信号発生部、13,14,15,16,17…
…切替スイツチ、18……入力データ蓄積部、1
9……データ変換部。
Claims (1)
- 【特許請求の範囲】 1 特徴パラメータとしてのLPCケプストラム
係数を算出する特徴パラメータ算出部と、多くの
話者の音声データから該当する音素の部分を抽出
して、音素の統計的分布を表現する標準パターン
を音素ごとにあらかじめ作成して格納する標準パ
ターン格納部と、前記特徴パラメータと、音素の
標準パターンとを照合し、統計的距離尺度によつ
て類似度を算出し音素を判別する音素判別部とを
少なくとも有し、前記特徴パラメータ算出部の前
段に入力データ蓄積部を、前記特徴パラメータ算
出部と音素判別部との間にデータ交換部を設け、
前記入力データ蓄積部を、第1及び第2の記憶手
段と、入力信号を前記第1又は第2の記憶手段に
切り替える第1の切替手段と、前記第1又は第2
の記憶手段の情報を選択的に取り出す第2の切替
手段とから少なくとも構成し、前記データ交換部
を、第3及び第4の記憶手段と、特徴パラメータ
算出部からの情報を前記第3又は第4の記憶手段
に切り替える第3の切替手段と、前記第3又は第
4の記憶手段と音素判別部とを選択的に接続する
第4の切替手段と、前記第3又は第4の記憶手段
の情報を選択的に読み出す第5の切替手段とから
少なくとも構成し、音声の入力、特徴パラメータ
の算出、音素の判別、認識結果の出力という4つ
の処理をフレームごとにパイプライン処理により
行ない不特定話者の音素認識を行なうことを特徴
とする音素認識装置。 2 統計的距離尺度がベイズ判定に基づく距離、
マハラノビス距離、線形判別関数のいずれかであ
ることを特徴とする特許請求の範囲第1項記載の
音素認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58098359A JPS59223499A (ja) | 1983-06-02 | 1983-06-02 | 音素認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58098359A JPS59223499A (ja) | 1983-06-02 | 1983-06-02 | 音素認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS59223499A JPS59223499A (ja) | 1984-12-15 |
JPH0345840B2 true JPH0345840B2 (ja) | 1991-07-12 |
Family
ID=14217684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58098359A Granted JPS59223499A (ja) | 1983-06-02 | 1983-06-02 | 音素認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59223499A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006075648A1 (ja) * | 2005-01-17 | 2006-07-20 | Nec Corporation | 音声認識システム、音声認識方法及び音声認識プログラム |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6067996A (ja) * | 1983-09-22 | 1985-04-18 | 松下電器産業株式会社 | 音声認識方法 |
JPS63125999A (ja) * | 1986-11-14 | 1988-05-30 | 松下電器産業株式会社 | 音声認識方法 |
JPH067343B2 (ja) * | 1987-02-23 | 1994-01-26 | 株式会社東芝 | パタ−ン識別装置 |
JPS63236000A (ja) * | 1987-03-24 | 1988-09-30 | 松下電器産業株式会社 | 音声認識方法 |
EP0316112A3 (en) * | 1987-11-05 | 1989-05-31 | AT&T Corp. | Use of instantaneous and transitional spectral information in speech recognizers |
JP3226716B2 (ja) * | 1994-05-31 | 2001-11-05 | 日本電気株式会社 | 音声認識装置 |
JP4880136B2 (ja) * | 2000-07-10 | 2012-02-22 | パナソニック株式会社 | 音声認識装置および音声認識方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56168695A (en) * | 1980-05-30 | 1981-12-24 | Dainippon Printing Co Ltd | Voice recognizing device |
JPS5734596A (en) * | 1980-08-11 | 1982-02-24 | Matsushita Electric Ind Co Ltd | Voice recognizing device |
JPS5748798A (en) * | 1980-09-08 | 1982-03-20 | Mitsubishi Electric Corp | Word voice recognizing device |
JPS59131999A (ja) * | 1983-01-19 | 1984-07-28 | 松下電器産業株式会社 | 音声認識装置 |
JPS6336678A (ja) * | 1986-07-31 | 1988-02-17 | Matsushita Electric Ind Co Ltd | 復調装置 |
-
1983
- 1983-06-02 JP JP58098359A patent/JPS59223499A/ja active Granted
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56168695A (en) * | 1980-05-30 | 1981-12-24 | Dainippon Printing Co Ltd | Voice recognizing device |
JPS5734596A (en) * | 1980-08-11 | 1982-02-24 | Matsushita Electric Ind Co Ltd | Voice recognizing device |
JPS5748798A (en) * | 1980-09-08 | 1982-03-20 | Mitsubishi Electric Corp | Word voice recognizing device |
JPS59131999A (ja) * | 1983-01-19 | 1984-07-28 | 松下電器産業株式会社 | 音声認識装置 |
JPS6336678A (ja) * | 1986-07-31 | 1988-02-17 | Matsushita Electric Ind Co Ltd | 復調装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006075648A1 (ja) * | 2005-01-17 | 2006-07-20 | Nec Corporation | 音声認識システム、音声認識方法及び音声認識プログラム |
Also Published As
Publication number | Publication date |
---|---|
JPS59223499A (ja) | 1984-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Valle et al. | Mellotron: Multispeaker expressive voice synthesis by conditioning on rhythm, pitch and global style tokens | |
US4473904A (en) | Speech information transmission method and system | |
US7035791B2 (en) | Feature-domain concatenative speech synthesis | |
CN110600055B (zh) | 一种使用旋律提取与语音合成技术的歌声分离方法 | |
EP0533614A2 (en) | Speech synthesis using perceptual linear prediction parameters | |
JPS60102697A (ja) | 記述メッセージコードと音声メッセージコードを結合する音声符号化方法 | |
JPS58102299A (ja) | 部分単位音声パタン発生装置 | |
KR102508640B1 (ko) | 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치 | |
US4882758A (en) | Method for extracting formant frequencies | |
JPS6128998B2 (ja) | ||
Kim | Singing voice analysis/synthesis | |
CN1312656C (zh) | 说话人标准化方法及用该方法的语音识别装置 | |
JPH0345840B2 (ja) | ||
JP2898568B2 (ja) | 声質変換音声合成装置 | |
JPS61186998A (ja) | 音声の区分化方法 | |
JPH0345839B2 (ja) | ||
Maes | Synchrosqueezed representation yields a new reading of the wavelet transform | |
JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
JPH0774960B2 (ja) | テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム | |
JP2658426B2 (ja) | 音声認識方法 | |
JP2862306B2 (ja) | 音声認識装置 | |
JP2001228890A (ja) | 音声認識装置 | |
Nara et al. | Large-vocabulary spoken word recognition using simplified time-warping patterns | |
JPS62174800A (ja) | 外国語母音の模範発音出力装置 | |
JPS621000A (ja) | 音声処理装置 |