JP4181272B2 - 音声認識における尤度演算装置および尤度演算方法、並びに、プログラム記録媒体 - Google Patents
音声認識における尤度演算装置および尤度演算方法、並びに、プログラム記録媒体 Download PDFInfo
- Publication number
- JP4181272B2 JP4181272B2 JP12995499A JP12995499A JP4181272B2 JP 4181272 B2 JP4181272 B2 JP 4181272B2 JP 12995499 A JP12995499 A JP 12995499A JP 12995499 A JP12995499 A JP 12995499A JP 4181272 B2 JP4181272 B2 JP 4181272B2
- Authority
- JP
- Japan
- Prior art keywords
- value
- quantized
- square
- likelihood
- quantization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は、音声認識における尤度演算装置および尤度演算方法の改良に関する。
【0002】
【従来の技術】
1990年代以降の音声認識の主要な手法の一つに、混合連続分布型隠れマルコフモデル(CMHMM)がある。このCMHMMは、認識対象とする単語や音素や音節等の音声の単位を、音響的な特微量の連続分布で表現した音響モデルである。この音響モデルは、上記「音声の単位」を時間方向に分割して1次マルコフ系列である状態列に対応付け、各分割区間に対応した状態の夫々を音響パラメータの多次元正規分布の重み付き和で表現することによって、音声をモデル化する方法である。これらの多次元正規分布や分割位置は学習用の大量の音声データから統計的に求める。
【0003】
上記CMHMMを用いて大語彙単語認識を行う場合、一般には音素のような細かな基本単位で音響モデルを構成し、この基本単位を接続することによって単語や文などの認識対象を表現する。そして、認識しようとする単語や文を構成する個々の基本単位に対する各音響モデルの尤度を上記音響モデルの出現確率を用いて算出し、最も大きな尤度を示す音響モデルが表現する基本単位を接続して認識結果とするのである。こうすることによって、認識時には、複数の認識対象語彙に含まれる同じ音素(基本単位)の尤度を共通の音響モデルを用いて求めることができるため、認識処理を効率よく行うことができるのである。尚、上記CMHMMに関しては、文献「中川聖一著“確率モデルによる音声認識”第3章(特に連続確率密度分布に付いては3.3.2節)、電子情報通信学会出版、コロナ社、1988年」に詳しく述べられている。
【0004】
上記文献に記載された尤度演算方法によれば、音響パラメータの次元数をM、入力された音声の各時刻tの音響パラメータベクトルをXtとすると、音響モデルを構成しているN個の確率密度分布λi(=平均をμi,分散を(σi)2、i=1,2,…,N)の夫々に対する入力音響パラメータベクトルの対数尤度「log(Pi)」を求める必要がある。この演算は入力音響パラメータの値に依存するため、音声が入力されると、その都度計算する必要がある。ここで、確率密度分布λiの分布数Nは数百から数千の値をとるために上記対数尤度「log(Pi)」の計算に多くの処理時間を必要としている。例として、1秒間の音声に対して10ms周期で次元数M=20の音響パラメータに変換した分布数N=1000の音響モデルを適用する場合は、
100(フレーム)×20(次元)×1000(分布)=2000000回
の減算,自乗,割り算および加算が必要となる。そこで、上述の演算を高速化するために幾つかの方法が提案されている。
【0005】
文献1「中川他“連続出力確率型HMMの出力確率計算の短縮法”日本音響学会講演論文集、平成7年春1−Q−22」には、入力音響パラメータをベクトル量子化して、出力確率計算をテーブル参照に置き換える方法が開示されている。
【0006】
また、文献2「高橋,嵯峨山“4階層の共有構造を持つ音素環境依存HMMの検討”日本音響学会講演論文集、平成6年秋3−8−3」には、各確率密度分布の平均値を次元毎にスカラ量子化することで、尤度演算に関する次式
【数1】
における第2項の分子の演算に要する減算と自乗の演算とを、量子化代表値の個数に付いてのみ行い、各確率密度分布の尤度演算をテーブル参照で置き換える方法が開示されている。尚、この方法においては、入力音響パラメータX(m)の量子化は行わない。
【0007】
また、文献3「高橋,嵯峨山“4階層共有構造音素モデルにおける分散値共有化の効果”日本音響学会講演論文集、平成7年春1−Q−23」、および、文献4「特開平8−248986号公報」には、文献2を進めて、各次元毎に平均値と分散を含んだ分布としてクラスタリングを行い、代表確率密度分布に付いてのみ尤度演算を行い、各確率密度分布の尤度演算に関してはテーブル参照で置き換える方法が開示されている。この場合も、入力音響パラメータX(m)の量子化は行わない。
【0008】
また、文献5「野田,高橋,嵯峨山“スカラー量子化による4階層共有構造HMMの高速計算”日本音響学会講演論文集、平成7年秋2−2−14」、および、文献6「山田,山本他“パラメータのスカラ量子化と混合分布HMMの次元独立演算による高速出力確率計算”電子情報通信学会技報SP95−22」には、入力音響パラメータの各次元をスカラ量子化することによって、予め状態iと次元m毎に上記式の第2項のテーブルを計算しておき、入力の量子化値を使用して文献中の演算に要する減算と自乗と除算とをテーブル参照に置き換える方法が開示されている。
【0009】
【発明が解決しようとする課題】
しかしながら、上記従来の対数尤度「log(Pi)」の演算を高速化する方法には、以下のような問題がある。すなわち、上記文献1に開示された方法には、入力音響パラメータをベクトル量子化するために、量子化コードブック数のM次元距離演算が必要になる上に、「量子化コードブック数×モデルの状態数」の大きさのテーブルが必要となると言う問題がある。
【0010】
また、上記文献3および文献4に開示された方法では、演算量はある程度削減できるが、1フレーム当り「次元数×代表点数」分の自乗演算が残り、上記対数尤度「log(Pi)」に間する演算が完全に無くなるわけではない。また、「次元数×代表点数」の大きさのテーブルが必要である。
【0011】
また、上記文献5および文献6に開示された方法では、入力音響パラメータを量子化するだけで、後はテーブルを引くだけであるから演算量は小さく押えられる。しかしながら、「次元数×スカラ量子化ステップ数×モデルの分布数」分の非常に大きなテーブルが必要になる。このように参照用テ―ブルに非常に多くのメモリ容量を必要とする方法は、小型機器等においては実現し難い。
【0012】
さらに、上記文献2に開示された方法によれば、メモリ量は「次元数×量子化点数」のテーブル分だけでよく、上述した他の文献の方法よりは少ない。しかしながら、「次元数×量子化点数」分の1次元距離演算に係る減算と自乗演算とが必要となる。そして、この演算は、汎用コンピュータ等に使用される高度なプロセッサや一部の信号処理プロセッサには容易な演算ではあるが、小型機器等に使用されるプロセッサにとって処理に要する時間が大きいため、十分な高速化は達成できないという問題がある。
【0013】
そこで、この発明の目的は、演算速度が速くメモリの使用量を削減できる音声認識における尤度演算装置および尤度演算方法、並びに、プログラム記録媒体を提供することにある。
【0014】
【課題を解決するための手段】
上記目的を達成するため、請求項1に係る発明の音声認識における尤度演算装置は、入力音声から抽出された音響パラメータベクトルが入力される音響パラメータ入力手段と、上記音響パラメータベクトルを各次元毎に量子化する量子化手段と、2乗関数がテーブル化されて格納された2乗関数テーブルと、音響モデルを構成する各確率密度分布の分散値に関する演算値がテーブル化されて格納された分散値テーブルと、各次元毎に上記音響パラメータと同じスケールで量子化された上記各確率密度分布の平均値がテーブル化されて格納された量子化平均値テーブルと、記録手段と、上記2乗関数テーブルのデータを上記記録手段にコピーすると共に,上記コピーしたデータに対して座標移動を行って自乗距離テーブルを作成するコピー手段と、上記各次元毎に量子化された音響パラメータに基づいて上記量子化平均値テーブル,自乗距離テーブルおよび分散値テーブルを用いて入力音響パラメータの上記各確率密度分布に関する対数尤度を演算する尤度演算手段を備えたことを特徴としている。
【0015】
上記構成によれば、量子化手段によってm次元目の音響パラメータが量子化されると、コピー手段によって、2乗関数テーブルのデータがコピーされて座標移動が行われ、自乗距離テーブルが作成される。その場合、上記座標移動を−x方向へ上記量子化音響パラメータ値分だけ行えば、自乗距離テーブルには「y=(x−量子化音響パラメータ値)2」なる関係を表すデータが書き込まれる。一方においては、入力音響パラメータベクトルと各確率密度分布の平均値とは各次元毎に同じスケールで量子化されている。したがって、尤度演算手段は、量子化平均値テーブルを引いて得られた量子化平均値をインデックスとして上記自乗距離テーブルを引くことによって、上記量子化音響パラメータと量子化平均値の自乗距離を得ることができる。さらに、分散値テーブルを引くことによって、分散値に関する演算値が得られる。
【0016】
その際に、上記分散値に関する演算値を「σi(m)×Rm/Qm」とするならば、音響モデルを構成している各確率密度分布に関する入力音響パラメータベクトルの対数尤度「log(Pi)」の演算式(7)における第2項の分子と分母とが、テーブル引きによって得られる。こうして、上記対数尤度「log(Pi)」の演算が高速に行われる。
【0017】
また、請求項2にかかる発明の音声認識における尤度演算装置は、入力音声から抽出された音響パラメータベクトルが入力される音響パラメータ入力手段と、上記音響パラメータベクトルを各次元毎に量子化する量子化手段と、2乗関数がテーブル化されて格納された2乗関数テーブルと、音響モデルを構成する各確率密度分布の分散値に関する演算値がテーブル化されて格納された分散値テーブルと、各次元毎に上記音響パラメータと同じスケールで量子化された上記各確率密度分布の平均値がテーブル化されて格納された量子化平均値テーブルと、上記各次元毎に量子化された音響パラメータに基づいて上記量子化平均値テーブル,2乗関数テーブルおよび分散値テーブルを用いて入力音響パラメータの上記各確率密度分布に関する対数尤度を演算する尤度演算手段を備えたことを特徴としている。
【0018】
上記構成によれば、2乗関数テーブルには「y=x2」なる関係を表すデータが書き込まれている。一方においては、入力音響パラメータベクトルと各確率密度分布の平均値とは各次元毎に同じスケールで量子化される。したがって、尤度演算手段は、量子化平均値テーブルを引いて得られた量子化平均値から量子化音響パラメータ値を減じた値「量子化平均値−量子化音響パラメータ値」をインデックスとして上記2乗関数テーブルを引くことによって、上記量子化音響パラメータと量子化平均値の自乗距離を得ることができる。さらに、分散値テーブルを引くことによって、分散値に関する演算値が得られる。
【0019】
その際に、上記分散値に関する演算値を「σi(m)×Rm/Qm」とするならば、音響モデルを構成している各確率密度分布に関する入力音響パラメータベクトルの対数尤度「log(Pi)」の演算式(7)における第2項の分子と分母とが、テーブル引きによって得られる。こうして、上記対数尤度「log(Pi)」の演算が高速に行われる。
【0020】
また、請求項3に係る発明は、請求項1あるいは請求項2に係る発明の音声認識における尤度演算装置において、上記2乗関数テーブルには、上記分散値に関する演算値の所定量子化点数での量子化値の逆数を係数とする2乗関数を、上記量子化点数分のテーブルにテーブル化して格納されていることを特徴としている。
【0021】
上記構成によれば、上記分散値に関する演算値Bi(m)を(σi(m)×Rm/Qm)2とし、上記2乗関数テーブルには演算値Bi(m)の量子化値Bqi(m)の逆数を係数とする2乗関数「y=x2/Bqi(m)」を表すテーブルを格納するならば、上記尤度演算手段は、対数尤度「log(Pi)」の演算式(7)における第2項のΣ内の除算を、テーブル引きによって得ることができる。こうして、上記対数尤度「log(Pi)」の演算がさらに高速に行われる。
【0022】
また、請求項4に係る発明の音声認識における尤度演算方法は、入力された音響パラメータベクトルを各次元毎に量子化するステップと、2乗関数がテーブル化された2乗関数テーブルのデータをコピーすると共に,上記コピーしたデータに対して上記量子化音響パラメータに基づく座標移動を行って自乗距離テーブルを作成するステップと、音響モデルを構成する各確率密度分布の分散値に関する演算値がテーブル化された分散値テーブルを引いて,上記分散値に関する演算値を得るステップと、各次元毎に上記音響パラメータと同じスケールで量子化された上記各確率密度分布の平均値がテーブル化された量子化平均値テーブルを引いて,上記量子化平均値を得るステップと、上記量子化平均値に基づいて上記自乗距離テーブルを引いて,上記量子化音響パラメータと量子化平均値との自乗距離を得るステップと、上記得られた分散値に関する演算値および自乗距離を用いて,入力音響パラメータの上記各確率密度分布に関する対数尤度を演算するステップを備えたことを特徴としている。
【0023】
上記構成によれば、請求項1に係る発明の場合と同様に、自乗距離テーブルには「y=(x−量子化音響パラメータ値)2」なる関係を表すデータが書き込まれ、入力音響パラメータベクトルと各確率密度分布の平均値とは各次元毎に同じスケールで量子化される。したがって、上記分散値に関する演算値を「σi(m)×Rm/Qm」とするならば、上記対数尤度「log(Pi)」の演算式(7)における第2項の分子と分母とがテーブル引きによって得られる。こうして、上記対数尤度「log(Pi)」の演算が高速に行われる。
【0024】
また、請求項5に係る発明の音声認識における尤度演算方法は、入力された音響パラメータベクトルを各次元毎に量子化するステップと、音響モデルを構成する各確率密度分布の分散値に関する演算値がテーブル化された分散値テーブルを引いて上記分散値に関する演算値を得るステップと、各次元毎に音響パラメータと同じスケールで量子化された上記各確率密度分布の平均値がテーブル化された量子化平均値テーブルを引いて上記量子化平均値を得るステップと、上記量子化平均値から量子化音響パラメータの値を減じた値に基づいて,2乗関数がテーブル化された2乗関数テーブルを引いて,量子化音響パラメータと量子化平均値との自乗距離を得るステップと、上記得られた分散値に関する演算値および自乗距離を用いて,入力音響パラメータの上記各確率密度分布に関する対数尤度を演算するステップを備えたことを特徴としている。
【0025】
上記構成によれば、請求項2に係る発明の場合と同様に、2乗関数テーブルには「y=x2」なる関係を表すデータが書き込まれ、入力音響パラメータベクトルと各確率密度分布の平均値とは各次元毎に同じスケールで量子化され、「量子化平均値−量子化音響パラメータ値」をインデックスとして上記2乗関数テーブルが引かれる。したがって、上記分散値に関する演算値を「σi(m)×Rm/Qm」とするならば、上記対数尤度「log(Pi)」の演算式(7)における第2項の分子と分母とがテーブル引きによって得られる。こうして、上記対数尤度「log(Pi)」の演算が高速に行われる。
【0026】
また、請求項6に係る発明は、請求項4に係る発明の音声認識における尤度演算方法において、上記2乗関数テーブルには,上記分散値に関する演算値における所定量子化点数での量子化値の逆数を係数とする2乗関数を,上記量子化点数分のテーブルにテーブル化して格納されており、上記自乗距離テーブルを作成するステップでは,上記量子化点数分の各テーブル毎に上記コピー及び座標移動を行い、上記自乗距離を得るステップでは,上記自乗距離テーブルから上記演算値の量子化値に適合する自乗距離テーブルを選択して引き、上記対数尤度を演算するステップでは,上記得られた自乗距離を用いて上記対数尤度を演算することを特徴としている。
【0027】
上記構成によれば、請求項3に係る発明の場合と同様に、上記分散値に関する演算値Bi(m)を「(σi(m)×Rm/Qm)2」とし、自乗距離テーブルには「y=(x−量子化音響パラメータ値)2/Bqi(m)」(Bqi(m):演算値Bi(m)の量子化値)なる関係を表すテーブルを所定量子化点数分だけ格納するならば、上記演算値の量子化値Bqi(m)に適合する自乗距離テーブルを選択して引くことによって、上記対数尤度「log(Pi)」の演算式(7)における第2項のΣ内の除算が、テーブル引きによって得られる。こうして、上記対数尤度「log(Pi)」の演算が更に高速に行われる。
【0028】
また、請求項7に係る発明は、請求項5に係る発明の音声認識における尤度演算方法において、上記2乗関数テーブルには,上記分散値に関する演算値における所定量子化点数での量子化値の逆数を係数とする2乗関数を,上記量子化点数分のテーブルにテーブル化して格納されており、上記自乗距離を得るステップでは,上記2乗関数テーブルから上記分散値に関する演算値の量子化値に適合する2乗関数テーブルを選択して引き、上記対数尤度を演算するステップでは,上記得られた自乗距離を用いて上記対数尤度を演算することを特徴としている。
【0029】
上記構成によれば、請求項3に係る発明の場合と同様に、上記分散値に関する演算値Bi(m)を「(σi(m)×Rm/Qm)2」とし、上記2乗関数テーブルには「y=x2/Bqi(m)」なる関係を表すテーブルを所定量子化点数分だけ格納するならば、上記演算値の量子化値Bqi(m)に適合する2乗関数テーブルを選択して引くことによって、上記対数尤度「log(Pi)」の演算式(7)における第2項のΣ内の除算が、テーブル引きによって得られる。こうして、上記対数尤度「log(Pi)」の演算がさらに高速に行われる。
【0030】
また、請求項8に係る発明は、請求項4乃至請求項7の何れか一つに係る発明の音声認識における尤度演算方法において、上記音響パラメータベクトルを各次元毎に量子化するステップでは、各次元毎に量子化点数を変えて量子化することを特徴としている。
【0031】
上記構成によれば、上記2乗関数テーブルのサイズを各次元毎における量子化点数の最大値にすることによって、上記2乗関数テーブルおよび自乗距離テーブルの容量が必要最小限に押えられる。
【0032】
また、請求項9に係る発明のプログラム記録媒体は、コンピュータを、請求項1における音響パラメータ入力手段 ,量子化手段, 2乗関数テーブル , 分散値テーブル , 量子化平均値テーブル , 記録手段 ,コピー手段および尤度演算手段として機能させる尤度演算処理プログラムが記録されたことを特徴としている。
【0033】
上記構成によれば、請求項1に係る発明の場合と同様に、上記分散値テーブルの要素値である上記“各確率密度分布の分散値に関する演算値”を「σi(m)×Rm/Qm」とするならば、上記対数尤度「log(Pi)」の演算式(7)における第2項の分子と分母とがテーブル引きによって得られる。こうして、上記対数尤度「log(Pi)」の演算が高速に行われる。
【0034】
また、請求項10に係る発明のプログラム記録媒体は、コンピュータを、請求項2における音響パラメータ入力手段 ,量子化手段, 2乗関数テーブル , 分散値テーブル , 量子化平均 値テーブルおよび尤度演算手段として機能させる尤度演算処理プログラムが記録されたことを特徴としている。
【0035】
上記構成によれば、請求項2に係る発明の場合と同様に、上記分散値テーブルの要素値である上記“各確率密度分布の分散値に関する演算値”を「σi(m)×Rm/Qm」とするならば、対数尤度「log(Pi)」の演算式(7)における第2項の分子と分母とがテーブル引きによって得られる。こうして、上記対数尤度「log(Pi)」の演算が高速に行われる。
【0036】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。
<第1実施の形態>
図1は、本実施の形態における尤度演算装置が搭載された音声認識装置のブロック図である。入力された音声は音響分析部1で数ミリ秒から数10ミリ秒毎のフレーム単位に切り出され、夫々のフレームが音響分析されて音響パラメータに変換される。ここで、音響分析方法としてはLPCケプストラムやメルケプストラムあるいはフィルタバンクによる周波数帯域パワー等が一般的である。但し、本音響分析部1における音響分析方法は、特に限定するものではない。
【0037】
こうして、上記音響分析部1によって音響パラメータが得られると、次に、尤度演算部2によって、音響モデル3との照合が行われ、各音響モデルにおける音素の各状態を表現する全ての確率密度分布(ガウス分布等)に関して入力音響パラメータの尤度が求められ、次に各状態を表現する確率密度分布の混合重み付き和の演算によって各状態の尤度が求められる。この尤度演算部2による尤度の演算はこの発明の根幹を成すものであり、後に詳細に述べる。
【0038】
次に、単語照合部4によって、言語辞書5を参照し、辞書の語彙の表記に基づいて音響モデル内の状態を連結した単語パターンに対して、入力音声のパターンを照合して尤度が求められる。ここで、照合の際に必要となる各時刻および各状態での局所的尤度は、尤度演算部2で求めた尤度の値を用いる。尚、照合にはビタビ・アルゴリズムやA*アルゴリズム等がよく用いられる。但し、本単語照合部4において用いる照合方法は、特に限定するものではない。こうして、各認識対象語彙の尤度を求め、最大尤度を呈する単語を入力音声の認識結果として出力するのである。
【0039】
図2は、上記尤度演算部2の詳細なブロック図である。上記音響分析部1で得られた各入力フレームのm次元目の音響パラメータX(m)は、パラメータ入力手段11から取り込まれて量子化手段12に渡される。そうすると、量子化手段12は、次式(1)に基づいて音響パラメータX(m)を線型に量子化して、量子化した音響パラメータXq(m)を得る。
Xq(m)=[X(m)*Qm/Rm] …(1)
ここで、X(m):m次元目の音響パラメータ
Qm:次元mの音響パラメータを量子化する際の量子化点数を与える定数
Rm:次元mの音響パラメータの存在範囲を示す定数
Xq(m):量子化されたm次元目の音響パラメータ
である。尚、「*」は、実数を整数に変換する量子化演算を示す。
【0040】
また、上述した音響パラメータX(m)の量子化とは別に、音響モデルの各確率密度分布λiの平均値ベクトルにおける各平均値μi(m)の量子化値μqi(m)を、次式(2)を用いて求めて、確率密度分布λの番号「i」と次元「m」とμqi(m)との関係を表す量子化平均値テーブル17を予め作成しておく。
μqi(m)=[μi(m)*Qm/Rm] …(2)
【0041】
このように、上記入力音響パラメータX(m)と確率密度分布λiのm次元目の平均値μi(m)とを、同じ量子化点数Qmと存在範囲Rmで(つまり、同じスケールで)量子化することによって、後に詳述するように、量子化音響パラメータXq(m)と量子化平均値μqi(m)との自乗距離の演算をテーブルを引く処理に置き換えることができるのである。
【0042】
コピー手段13は、上記量子化手段12で量子化されたm次元目の音響パラメータXq(m)を用いて、2乗関数テーブル14から自乗距離テーブル15へ値を順にコピーする。図3に、2乗関数テーブル14および自乗距離テーブル15の内容例を示す。2乗関数テーブル14には、図3(a)に示すように、音響パラメータの量子化点数をQとすると、−Qから+Qまでの範囲内において式(3)で表されるxとyとの関係がテーブル化されている。
y=F(x)=x2(−Q≦x≦Q) …(3)
【0043】
このうち、入力音響パラメータX(m)の量子化値「−Xq(m)」に基づいて、
−Xq(m)≦x≦Q−Xq(m)
の範囲におけるxとyとの関係を自乗距離テーブル15にコピーする。そして、2乗関数テーブル14におけるx=−Xq(m)を、自乗距離テーブル15におけるx=0とする(つまり、原点を−x方向へ「Xq(m)」だけずらす)。その結果、自乗距離テーブル15には、0から+Qまでの範囲内において式
y=(x−Xq(m))2
で表されるxとyとの関係がテーブル化されることになり、上記自乗距離テーブル15は0からQまでの量子化値「−Xq(m)」に対する自乗距離の値を持つことになる。
【0044】
したがって、式(4)で表されるi番目の確率密度分布λiの平均値ベクトルにおけるm次元目の平均値の量子化値(以下、量子化平均値と言う)μqi(m)の自乗距離T(μqi(m))は、量子化平均値テーブル17を引いて量子化平均値μqi(m)を求め、その値μqi(m)をインデックスとして自乗距離テーブル15を引くことによって求めることができる。
T(μqi(m))=(μqi(m)−Xq(m))2 …(4)
【0045】
尚、本尤度演算部2のメモリ容量を減らす必要がある場合は、2乗関数テーブル14には、図3(a)におけるxとyとの関係のうち、「x>0」または「x<0」の領域だけを格納しておく。そして、コピー手段13は、2乗関数テーブル14に領域「x>0」を格納している場合には、「0〜Xq(m)」をy軸に対して反転したものと「0〜(Q−Xq(m))」との2回に分けてコピーする。また、領域「x<0」を格納している場合には、「−Xq(m)〜0」と「−(Q−Xq(m))〜0」をy軸に対して反転したものとの2回に分けてコピーすればよい。
【0046】
尤度演算手段16は、上述のように番号「i」および次元「m」から上記量子化平均値テーブル17を引いて求めた量子化平均値μqi(m)をインデックスとして、上記自乗距離テーブル15を引いて確率密度分布λiに関するm次元目の自乗距離T(μqi(m))の値を得た後、後に詳述するようにして分散値テーブル18の値を用いて対数尤度「log(Pi)」を求めるのである。
【0047】
対数尤度「log(Pi)」は、音響パラメータXの次元数をM、入力された音声の各時刻tにおける音響パラメータベクトルをXtとすると、音響モデルを構成しているN個の確率密度分布λi(=平均をμi,分散を(σi)2、i=1,…,N)の夫々に関して、式(5)を用いて求めることができる。
【数2】
【0048】
ここで、式(5)の第1項は音響モデルに固有の値であり、テーブル引きに置き換えることができる。そして、この値をAiとすると式(6)が成立する。
【数3】
したがって、上記対数尤度「log(Pi)」を算出する式(5)に、式(1)〜式(4)および式(6)を代入すると、式(7)が得られる。
【数4】
【0049】
尚、上記分散値テーブル18には、予め演算によって求められたσi(m)に関する演算値「σi(m)×Rm/Qm」を分布番号「i」および次元番号「m」とに関連付けて格納しておく。また、定数テーブル19には、予め演算によって求められたAi(=−Σlog(2π(σi(m))2))の値を分布番号「i」および次元番号「m」とに関連付けて格納しておく。
【0050】
したがって、上記尤度演算手段16は、上記コピー手段13からコピーが終了した旨の信号を受け取ると、先ず、確率密度分布の番号「i」及び音響パラメータの次元「m」をインデックスとして、分散値テーブル18を引いて「σi(m)×Rm/Qm」を得る。次に、番号「i」及び次元「m」をインデックスとして量子化平均値テーブル17を引いて量子化平均値μqi(m)を得る。そして、この得られたμqi(m)をインデックスとして自乗距離テーブル15を引いて自乗距離T(μqi(m))を求める。さらに、「i」及び次元「m」をインデックスとして定数テーブル19を引いてAiを求める。最後に、こうして求めた「Ai」,「T(μqi(m))」および「σi(m)×Rm/Qm」を式(7)に代入して、対数尤度「log(Pi)」を算出するのである。
【0051】
ここで、上記式(7)の演算は、実際の処理においては、先にN個の確率密度分布λi(i=1,…,N)に関して行う。そして、第2項のΣの演算に関しては、後に行われる各次元mに付いてのループの中で上記「入力の量子化」と「テーブルのコピー」と「確率密度分布の番号iに付いての加算」を行う。こうすることによって、自乗距離T(μqi(m))を得るための自乗距離テーブル15の領域を1次元分にすることができ、メモリ容量を節約することができるのである。また、σiに関する割り算「T(μqi(m))/(σi(m)×Rm/Qm)2」は、一般に、予め(σi(m)×Rm/Qm)2の逆数を求めておき、掛け算として処理することによって高速に処理できる。
【0052】
上述のように、本実施の形態においては、量子化平均値テーブル17には、各確率密度分布λiの各次元の平均値μi(m)を各次元の音響パラメータの量子化点数Qmおよび存在範囲Rmで量子化して量子化平均値μqi(m)を求め、i及びmと関連付けて登録しておく。また、分散値テーブル18には、各確率密度分布λiの各次元の分散値σi(m)に関して「σi(m)×Rm/Qm」を求めてi及びmと関連付けて格納しておく。
【0053】
そして、音響分析部1から入力されたm次元目の音響パラメータX(m)に対して、量子化手段12によってQm及びRmで量子化して量子化された音響パラメータXq(m)を得る。そうすると、コピー手段13は、量子化音響パラメータXq(m)に従って2乗関数テーブル14の内容の一部を自乗距離テーブル15にコピーして、0から量子化点数Qまでの量子化値「−Xq(m)」に関する自乗距離のテーブルを作成する。そして、尤度演算手段16は、上記iおよびmをインデックスとして、分散値テーブル18を引いて「σi(m)×Rm/Qm」を得る。次に、iおよびmをインデックスとして量子化平均値テーブル17を引いて量子化平均値μqi(m)を得る。さらに、μqi(m)をインデックスとして自乗距離テーブル15を引いて自乗距離T(μqi(m))を求める。次に、iおよびmをインデックスとして定数テーブル19を引いてAiを求める。そして、上記求めた「Ai」,「T(μqi(m))」および「σi(m)×Rm/Qm」を用いて、式(7)によって対数尤度「log(Pi)」を算出するようにしている。
【0054】
このように、本実施の形態においては、i番目の確率密度分布λiの平均値ベクトルμiと音響パラメータベクトルXとを、各次元m毎に同じスケールで線形量子化している。したがって、上記尤度演算の大部分を占める入力音響パラメータX(m)と平均値μi(m)との差の自乗の演算を、量子化平均値テーブル17と自乗距離テーブル15とのテーブル引きに置き換えることができる。したがって、対数尤度「log(Pi)」の演算を小型機器の用のマイクロプロセッサでも高速で行うことができるのである。また、その場合における量子化平均値テーブル17および定数テーブル19の大きさは「確率密度分布λの数N×音響パラメータXの次元数M」であり、2乗関数テーブル14の大きさは「量子化点数Qの(2倍)×1」であり、自乗距離テーブル15の大きさは「量子化点数Q×1」であり、特別大きな容量のメモリを必要とはしない。
【0055】
尚、上記次元mの音響パラメータを量子化する際の量子化点数Qmの値は、全ての次元mに関して一定としてもよいし、次元m毎に最小限の値になるように変えてもよい。尚、次元m毎に最小限の値になるようにQmを設定すれば、2乗関数テーブル14の領域も次元m毎に最小となるために、コピー手段13によるコピーに要する処理を最小限にすることができる。また、この場合には、2乗関数テーブル14の容量はmax(Qm)分の容量の2倍(但し、上述のごとく、x>0またはx<0の領域を格納する場合にはmax(Qm)分)でよく、従って自乗距離テーブル15はmax(Qm)分の容量でよいことになる。
【0056】
<第2実施の形態>
第1実施の形態においては、上記式(7)の第2項の除算「T(μqi(m))/(σi(m)×Rm/Qm)2」は演算で行っている。本実施の形態では、上記除算をもテーブル引きにすることによって、対数尤度「log(Pi)」の演算をより高速に行うものである。
【0057】
本実施の形態においては、上記2乗関数テーブル14の内容に、予め式(7)の第2項における分子の値とその存在範囲を適用させておくのである。その場合には、確率密度分布λの番号iおよび音響パラメータの次元mをインデックスとして自乗距離テーブル15を引いて得られる値は、次式(8)で表される値であればよいことになる。
T(μqi(m))=(μqi(m)−Xq(m))2/(σi(m)×Rm/Qm)2 …(8)
ところが、各確率密度分布λi毎に分散σi(m)が異なり、その分散σi(m)の値の存在範囲Rmも次元m毎に異るため、自乗距離テーブル15として多数のテーブルが必要となる。そこで、本実施の形態においては、以下のようにして上記の問題を解決している。
【0058】
すなわち、次式(9)のごとく、上記式(8)の分子をBi(m)とする。
Bi(m)=(σi(m)×Rm/Qm)2 …(9)
そして、このBi(m)の値を所定量子化点数Vでスカラ量子化してBqi(m)とし、この量子化値Bqi(m)を用いて上記式(8)を次式(10)によって表すのである。
T(μqi(m),Bqi(m))=(Xq(m)−μqi(m))2/Bqi(m) …(10)
こうすることによって、自乗距離テーブル15のテーブル数の増加を押さえ、且つ、上記式(9)における除算および乗算を省くことができるのである。尚、この場合のスカラ量子化は、線型量子化である必要はなく、LBG法やK平均法等のより少ない代表点で量子化できるような量子化方法を用いることが望ましい。
【0059】
以上の結果、上記対数尤度「log(Pi)」を算出する式(5)は、式(11)のごとく変形できる。
【数5】
したがって、本実施の形態においては、上記式(11)の第1項および第2項をテーブル引きで求めることよって、上記対数尤度「log(Pi)」の算出を行うことができるのである。
【0060】
上記T(μqi(m),Bqi(m))が得られるような自乗距離テーブル15をコピー手段13によって生成するためには、2乗関数テーブル14には、音響パラメータの量子化点数をQとすると、−Qから+Qまでの範囲内において式(12)で表されるxとyとの関係をテーブル化しておけばよいことなる。
y=F(x)=x2/Bqi(m)(−Q≦x≦Q) …(12)
すなわち、本実施の形態においては、2乗関数テーブル14に、V個のスカラ量子化値Bqi(m)毎にV個の2乗関数テーブルを格納するのである。また、V個の2乗関数テーブルをコピーするためのV個の自乗距離テーブル分の自乗距離テーブル15用のメモリを設けるのである。
【0061】
尚、分散値テーブル18には、予め演算によって求められたσi(m)に関する演算値「Bi(m)=(σi(m)×Rm/Qm)2」のスカラ量子化値Bqi(m)を、分布番号「i」および次元番号「m」とに関連付けて格納しておく。また、量子化平均値テーブル17と定数テーブル19とに関しては、第1実施の形態における量子化平均値テーブル17と定数テーブル19と同じ構成である。
【0062】
上記構成において、上記コピー手段13は、量子化手段12で量子化されたm次元目の音響パラメータXq(m)に基づいて、2乗関数テーブル14中のV個の2乗関数テーブルの夫々に付いて第1実施の形態と同様にして自乗距離テーブル15にコピーし、原点を−x方向へ「Xq(m)」だけずらす。その結果、自乗距離テーブル15には、0から+Qまでの範囲内において式
y=(x−Xq(m))2/Bqi(m)
で表されるV個のxとyとの関係がテーブル化されることになる。
【0063】
以後、上記尤度演算手段16は、上記確率密度分布λの番号iおよび次元mをインデックスとして分散値テーブル18を引いてσi(m)に関する演算値Bi(m)のスカラ量子化値Bqi(m)を得る。次に、iおよびmをインデックスとして量子化平均値テーブル17を引いて量子化平均値μqi(m)を得る。そして、自乗距離テーブル15の中からBqi(m)に適合する自乗距離テーブルを選択し、μqi(m)をインデックスとして上記選択された自乗距離テーブルを引いて自乗距離T(μqi(m),Bqi(m))を求める。次に、iおよびmをインデックスとして定数テーブル19を引いてAiを求める。そして、上記求めた「Ai」および「T(μqi(m),Bqi(m))」を用いて、上記式(11)によって上記対数尤度「log(Pi)」を算出するのである。
【0064】
このように、本実施の形態によれば、対数尤度「log(Pi)」の算出に関する総ての処理を、「入力の量子化」と「テーブルのコピー」と「テーブル引き」と「確率密度分布の番号iに付いての加算」で行うことができる。したがって、小型機器用のマイクロプロセッサによる対数尤度「log(Pi)」演算の更なる高速処理を可能にできるのである。
【0065】
尚、上記各実施の形態においては、上記2乗関数テーブル14にテーブル化された関係式
y=F(x)=x2 (−Q≦x≦Q)
または
y=F(x)=x2/Bqi(m) (−Q≦x≦Q)
をコピーすることによって、関係式
y=(x−Xq(m))2 (0≦x≦Q)
または
y=(x−Xq(m))2/Bqi(m)(0≦x≦Q)
がテーブル化された自乗距離テーブル15を作成するようにしている。しかしながら、この発明においては、以下のようにして、自乗距離テーブル15を用いずに、自乗距離T(μqi(m))または自乗距離T(μqi(m),Bqi(m))を求めることも可能である。
【0066】
すなわち、例えば第1実施の形態の場合には、尤度演算手段16は、図4に示すように、量子化平均値テーブル17から得られた量子化平均値μqi(m)を負側に「Xq(m)」だけずらした値をインデックスとして2乗関数テーブル14を引くのである。こうすることによって、第1実施の形態のごとく、2乗関数テーブル14をコピーして自乗距離テーブル15を作成する必要がなく、コピーに要する時間を省くことができる。上述の方法は、入力音響パラメータX(m)の量子化点数Q(m)に対して確率密度分布λの数Nがあまり多くなく、テーブル引きの時間に対するテーブルコピーの時間が無視できな程度に多い場合に、威力を発揮する。
【0067】
また、上記音響モデル3,2乗関数テーブル14,自乗距離テーブル15,量子化平均値テーブル17,分散値テーブル18,定数テーブル19および言語辞書5の実態は、磁気メモリや半導体メモリで実現される上述した各情報が書き込まれたRAM(ランダム・アクセス・メモリ)やROM(リード・オンリ・メモリ)である。さらに、音響分析部1,量子化手段12,コピー手段13,尤度演算手段16および単語照合部4は、専用のLSI(大規模集積回路)やCPU(中央演算処理装置)あるいはそれらの組み合わせで実現でき、上記各手段による一部または総ての処理はハードウェアのみならずソフトウェア若しくはそれらの組み合わせによって実現が可能である。
【0068】
ここで、上記ソフトウェアとしての尤度演算処理プログラムは、プログラム記録媒体に記録される。上記各実施の形態における上記プログラム記録媒体は、ROMでなるプログラムメディアである。または、外部補助記録装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから尤度演算処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、RAMに設けられたプログラム記録エリア(図示せず)にダウンロードし、上記プログラム記録エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアからRAMの上記プログラム記録エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【0069】
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやCD(コンパクトディスク)−ROM,MO(光磁気)ディスク,MD(ミニディスク),DVD(ディジタルビデオディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【0070】
また、上記各実施の形態における音声認識装置は、インターネットを含む通信ネットワークと接続可能な構成を有している場合には、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
【0071】
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【0072】
【発明の効果】
以上より明らかなように、請求項1に係る発明の音声認識における尤度演算装置は、量子化手段によって入力音響パラメータベクトルを各次元毎に量子化し、コピー手段によって2乗関数テーブルの記録手段へのコピーおよび座標移動を行って自乗距離テーブルを作成し、尤度演算手段によって、量子化音響パラメータに基づいて、量子化平均値テーブル,自乗距離テーブルおよび分散値テーブルを用いて、音響モデルを構成する各確率密度分布に関する入力音響パラメータの対数尤度を演算するので、上記座標移動を−x方向へ上記量子化音響パラメータ値分だけ行うことによって、上記量子化平均値テーブルの要素値である量子化平均値と上記量子化音響パラメータとが同じスケールで量子化されていることと併せて、上記量子化音響パラメータと量子化平均値との自乗距離演算を、上記量子化平均値テーブルから得られた量子化平均値をインデックスとした上記自乗距離テーブル引きに置き換えることができる。
【0073】
すなわち、この発明によれば、上記分散値テーブルの要素値である“分散値に関する演算値”を「σi(m)×Rm/Qm」とするならば、上記対数尤度演算の大部分を占める上記自乗距離の演算値と上記分散値に関する演算値とを、テーブル引きによって得ることができる。したがって、上記対数尤度の演算を、小型機器用のマイクロプロセッサでも高速に行うことができる。
【0074】
また、請求項2に係る発明の音声認識における尤度演算装置は、量子化手段によって入力音響パラメータベクトルを各次元毎に量子化し、尤度演算手段によって、量子化音響パラメータに基づいて、量子化平均値テーブル,2乗関数テーブルおよび分散値テーブルを用いて、音響モデルを構成する各確率密度分布に関する入力音響パラメータの対数尤度を演算するので、上記量子化平均値テーブルの要素値である量子化平均値と上記量子化音響パラメータとが同じスケールで量子化されているために、上記量子化音響パラメータと量子化平均値との自乗距離演算を、量子化平均値テーブルを引いて得られた上記量子化平均値から量子化音響パラメータの値を減じた値をインデックスとした上記2乗関数テーブル引きに置き換えることができる。
【0075】
すなわち、この発明によれば、請求項1に係る発明の場合と同様に、上記対数尤度演算の大部分を占める上記自乗距離の演算値と上記分散値に関する演算値とを、テーブル引きによって得ることができる。したがって、上記対数尤度の演算を、小型機器用のマイクロプロセッサでも高速に行うことができる。さらに、上記尤度演算手段による上記自乗距離の演算は、上記2乗関数テーブルを引くことによって行うので、上記2乗関数テーブルの値を自乗距離テーブルにコピーする必要がない。したがって、自乗距離テーブル分のメモリ容量の節約と上記コピーに要する時間の省略とを図ることができる。
【0076】
また、請求項3に係る発明の音声認識における尤度演算装置の上記2乗関数テーブルには、上記「分散値に関する演算値」の所定量子化点数での量子化値の逆数を係数とする2乗関数を、上記量子化点数分のテーブルにテーブル化して格納しているので、上記分散値に関する演算値Bi(m)を(σi(m)×Rm/Qm)2とし、上記2乗関数テーブルには演算値Bi(m)の量子化値Bqi(m)の逆数を係数とする2乗関数「y=x2/Bqi(m)」を表すテーブルを格納するならば、上記対数尤度演算における上記自乗距離の演算値と分散値に関する演算値との除算を、テーブル引きによって得ることができる。
【0077】
すなわち、この発明によれば、上記対数尤度の演算を更に高速に行うことができる。さらには、上記演算値Bi(m)の量子化値Bqi(m)を所定量子化点での量子化によって得るので、線形量子化による量化に比べて少ない代表点で量子化できる。したがって、上記演算値Bi(m)に対する量子化時の処理量を少なくし、上記2乗関数テーブルおよび自乗距離テーブルのメモリ容量の増大を極力押えることができる。
【0078】
また、請求項4に係る発明の音声認識における尤度演算方法は、入力音響パラメータベクトルを各次元毎に量子化し、上記2乗関数テーブルをコピーすると共に上記量子化音響パラメータに基づく座標移動を行って自乗距離テーブルを作成し、上記分散値テーブルを引いて上記各確率密度分布の分散値に関する演算値を得、上記量子化平均値テーブルを引いて上記音響パラメータと同じスケールで量子化された量子化平均値を得、この量子化平均値に基づいて上記自乗距離テーブルを引いて上記量子化音響パラメータと量子化平均値との自乗距離を得、上記得られた分散値に関する演算値および自乗距離を用いて上記対数尤度を演算するので、請求項1に係る発明の場合と同様に、上記自乗距離演算をテーブル引きに置き換えることができる。
【0079】
したがって、この発明によれば、上記対数尤度演算の大部分を占める上記自乗距離の演算値と上記分散値に関する演算値とをテーブル引きによって得ることができ、上記対数尤度の演算を小型機器用のマイクロプロセッサでも高速に行うことができる。
【0080】
また、請求項5に係る発明の音声認識における尤度演算方法は、入力音響パラメータベクトルを各次元毎に量子化し、上記分散値テーブルを引いて上記各確率密度分布の分散値に関する演算値を得、上記量子化平均値テーブルを引いて音響パラメータと同じスケールで量子化された量子化平均値を得、この量子化平均値から量子化音響パラメータの値を減じた値に基づいて上記2乗関数テーブルを引いて上記量子化音響パラメータと量子化平均値との自乗距離を得、上記得られた分散値に関する演算値および自乗距離を用いて上記対数尤度を演算するので、請求項2に係る発明の場合と同様に、上記自乗距離演算をテーブル引きに置き換えることができる。
【0081】
したがって、この発明によれば、上記対数尤度演算の大部分を占める上記自乗距離の演算値と上記分散値に関する演算値とをテーブル引きによって得ることができ、上記対数尤度の演算を小型機器用のマイクロプロセッサでも高速に行うことができる。さらに、上記自乗距離の演算は上記2乗関数テーブルを引くことによって行うので、上記2乗関数テーブルの値を自乗距離テーブルにコピーする必要がない。したがって、自乗距離テーブル分のメモリ容量の節約と上記コピーに要する時間の省略とを図ることができる。
【0082】
また、請求項6に係る発明の音声認識における尤度演算方法は、上記2乗関数テーブルに、上記分散値に関する演算値における所定量子化点数での量子化値の逆数を係数とする2乗関数を上記量子化点数分のテーブルにテーブル化して格納し、上記量子化点数分のテーブル総てに関して上記コピー及び座標移動を行って上記自乗距離テーブルを作成し、上記演算値の量子化値に適合する自乗距離テーブルを選択して引いて上記自乗距離を得るので、請求項3に係る発明の場合と同様に、上記対数尤度演算における上記「自乗距離の演算値」の「分散値に関する演算値」での除算をテーブル引きに置き換えて、上記対数尤度の演算を更に高速に行うことができる。さらに、上記分散値に関する演算値の量子化値を所定量子化点での量子化によって得るので、上記演算値に対する量子化時の処理量を少なくし、上記2乗関数テーブルおよび自乗距離テーブルのメモリ容量の増大を極力押えることができる。
【0083】
また、請求項7に係る発明の音声認識における尤度演算方法は、上記2乗関数テーブルに、上記分散値に関する演算値における所定量子化点数での量子化値の逆数を係数とする2乗関数を上記量子化点数分のテーブルにテーブル化して格納し、上記分散値に関する演算値の量子化値に適合する2乗関数テーブルを選択して引いて上記自乗距離を得るので、請求項3に係る発明の場合と同様に、上記対数尤度演算における上記「自乗距離の演算値」の「分散値に関する演算値」での除算をテーブル引きに置き換えて、上記対数尤度の演算を更に高速に行うことができる。さらに、上記分散値に関する演算値の量子化値を所定量子化点での量子化によって得るので、上記演算値に対する量子化時の処理量を少なくし、上記2乗関数テーブルおよび自乗距離テーブルのメモリ容量の増大を極力押えることができる。
【0084】
また、請求項8に係る発明の音声認識における尤度演算方法は、上記音響パラメータベクトルを各次元毎に量子化点数を変えて量子化するので、上記2乗関数テーブルのサイズを各次元における量子化点数の最大値にすれば、上記2乗関数テーブルおよび自乗距離テーブルの容量を必要最小限に押さえることができる。
【0085】
また、請求項9に係る発明のプログラム記録媒体は、コンピュータを、請求項1における音響パラメータ入力手段 ,量子化手段, 2乗関数テーブル , 分散値テーブル , 量子化平均値テーブル , 記録手段 ,コピー手段および尤度演算手段として機能させる尤度演算処理プログラムが記録されているので、請求項1に係る発明の場合と同様に、上記対数尤度演算の大部分を占める上記自乗距離の演算値と上記分散値に関する演算値とをテーブル引きによって得ることができ、上記対数尤度の演算を小型機器用のマイクロプロセッサでも高速に行うことができる。
【0086】
また、請求項10に係る発明のプログラム記録媒体は、コンピュータを、請求項2における音響パラメータ入力手段 ,量子化手段, 2乗関数テーブル , 分散値テーブル , 量子化平均値テーブルおよび尤度演算手段として機能させる尤度演算処理プログラムが記録されているので、請求項2に係る発明の場合と同様に、上記対数尤度演算の大部分を占める上記自乗距離の演算値と上記分散値に関する演算値とをテーブル引きによって得ることができ、上記対数尤度の演算を小型機器用のマイクロプロセッサでも高速に行うことができる。さらに、上記2乗関数テーブルの値を自乗距離テーブルにコピーする必要がなく、自乗距離テーブル分のメモリ容量の節約と上記コピーに要する時間の省略とを図ることができる。
【図面の簡単な説明】
【図1】 この発明の音声認識における尤度演算装置が搭載された音声認識装置のブロック図である。
【図2】 図1における尤度演算部の詳細なブロック図である。
【図3】 図1における2乗関数テーブルおよび自乗距離テーブルの内容例を示す図である。
【図4】 2乗関数テーブルをコピーすることなく自乗距離を求める場合の説明図である。
【符号の説明】
1…音響分析部、 2…尤度演算部、
3…音響モデル、 4…単語照合部、
5…言語辞書、 12…量子化手段、
13…コピー手段、 14…2乗関数テーブル、
15…自乗距離テーブル、 16…尤度演算手段、
17…量子化平均値テーブル、 18…分散値テーブル、
19…定数テーブル。
Claims (10)
- 入力音声から抽出された音響パラメータベクトルが入力される音響パラメータ入力手段と、
上記音響パラメータベクトルを各次元毎に量子化する量子化手段と、
2乗関数がテーブル化されて格納された2乗関数テーブルと、
音響モデルを構成する各確率密度分布の分散値に関する演算値がテーブル化されて格納された分散値テーブルと、
各次元毎に上記音響パラメータと同じスケールで量子化された上記各確率密度分布の平均値が、テーブル化されて格納された量子化平均値テーブルと、
記録手段と、
上記2乗関数テーブルのデータを上記記録手段にコピーすると共に、上記コピーしたデータに対して座標移動を行って自乗距離テーブルを作成するコピー手段と、
上記各次元毎に量子化された音響パラメータに基づいて、上記量子化平均値テーブル,自乗距離テーブルおよび分散値テーブルを用いて入力音響パラメータの上記各確率密度分布に関する対数尤度を演算する尤度演算手段を備えたことを特徴とする音声認識における尤度演算装置。 - 入力音声から抽出された音響パラメータベクトルが入力される音響パラメータ入力手段と、
上記音響パラメータベクトルを各次元毎に量子化する量子化手段と、
2乗関数がテーブル化されて格納された2乗関数テーブルと、
音響モデルを構成する各確率密度分布の分散値に関する演算値がテーブル化されて格納された分散値テーブルと、
各次元毎に上記音響パラメータと同じスケールで量子化された上記各確率密度分布の平均値が、テーブル化されて格納された量子化平均値テーブルと、
上記各次元毎に量子化された音響パラメータに基づいて、上記量子化平均値テーブル,2乗関数テーブルおよび分散値テーブルを用いて入力音響パラメータの上記各確率密度分布に関する対数尤度を演算する尤度演算手段を備えたことを特徴とする音声認識における尤度演算装置。 - 請求項1あるいは請求項2に記載の音声認識における尤度演算装置において、
上記2乗関数テーブルには、上記分散値に関する演算値の所定量子化点数での量子化値の逆数を係数とする2乗関数を、上記量子化点数分のテーブルにテーブル化して格納されていることを特徴とする音声認識における尤度演算装置。 - 入力された音響パラメータベクトルを各次元毎に量子化するステップと、
2乗関数がテーブル化された2乗関数テーブルのデータをコピーすると共に、上記コピーしたデータに対して上記量子化音響パラメータに基づく座標移動を行って自乗距離テーブルを作成するステップと、
音響モデルを構成する各確率密度分布の分散値に関する演算値がテーブル化された分散値テーブルを引いて、上記分散値に関する演算値を得るステップと、
各次元毎に上記音響パラメータと同じスケールで量子化された上記各確率密度分布の平均値がテーブル化された量子化平均値テーブルを引いて、上記量子化平均値を得るステップと、
上記量子化平均値に基づいて上記自乗距離テーブルを引いて、上記量子化音響パラメータと量子化平均値との自乗距離を得るステップと、
上記得られた分散値に関する演算値および自乗距離を用いて、入力音響パラメータの上記各確率密度分布に関する対数尤度を演算するステップを備えたことを特徴とする音声認識における尤度演算方法。 - 入力された音響パラメータベクトルを各次元毎に量子化するステップと、
音響モデルを構成する各確率密度分布の分散値に関する演算値がテーブル化された分散値テーブルを引いて、上記分散値に関する演算値を得るステップと、
各次元毎に上記音響パラメータと同じスケールで量子化された上記各確率密度分布の平均値がテーブル化された量子化平均値テーブルを引いて、上記量子化平均値を得るステップと、
上記量子化平均値から量子化音響パラメータの値を減じた値に基づいて、2乗関数がテーブル化された2乗関数テーブルを引いて、量子化音響パラメータと量子化平均値との自乗距離を得るステップと、
上記得られた分散値に関する演算値および自乗距離を用いて、入力音響パラメータの上記各確率密度分布に関する対数尤度を演算するステップを備えたことを特徴とする音声認識における尤度演算方法。 - 請求項4に記載の音声認識における尤度演算方法において、
上記2乗関数テーブルには、上記分散値に関する演算値における所定量子化点数での量子化値の逆数を係数とする2乗関数を、上記量子化点数分のテーブルにテーブル化して格納されており、
上記自乗距離テーブルを作成するステップでは、上記演算値の量子化点数分の各テーブル毎に上記コピーおよび座標移動を行い、
上記自乗距離を得るステップでは、上記自乗距離テーブルから上記演算値の量子化値に適合する自乗距離テーブルを選択して引き、
上記対数尤度を演算するステップでは、上記得られた自乗距離を用いて上記対数尤度を演算することを特徴とする音声認識における尤度演算方法。 - 請求項5に記載の音声認識における尤度演算方法において、
上記2乗関数テーブルには、上記分散値に関する演算値における所定量子化点数での量子化値の逆数を係数とする2乗関数を、上記量子化点数分のテーブルにテーブル化して格納されており、
上記自乗距離を得るステップでは、上記2乗関数テーブルから上記分散値に関する演算値の量子化値に適合する2乗関数テーブルを選択して引き、
上記対数尤度を演算するステップでは、上記得られた自乗距離を用いて上記対数尤度を演算することを特徴とする音声認識における尤度演算方法。 - 請求項4乃至請求項7の何れか一つに記載の音声認識における尤度演算方法において、
上記音響パラメータベクトルを各次元毎に量子化するステップでは、各次元毎に量子化点数を変えて量子化することを特徴とする音声認識における尤度演算方法。 - コンピュータを、
請求項1における音響パラメータ入力手段 ,量子化手段, 2乗関数テーブル , 分散値テーブル , 量子化平均値テーブル , 記録手段 ,コピー手段および尤度演算手段
として機能させる尤度演算処理プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。 - コンピュータを、
請求項2における音響パラメータ入力手段 ,量子化手段, 2乗関数テーブル , 分散値テーブル , 量子化平均値テーブルおよび尤度演算手段
として機能させる尤度演算処理プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12995499A JP4181272B2 (ja) | 1999-05-11 | 1999-05-11 | 音声認識における尤度演算装置および尤度演算方法、並びに、プログラム記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12995499A JP4181272B2 (ja) | 1999-05-11 | 1999-05-11 | 音声認識における尤度演算装置および尤度演算方法、並びに、プログラム記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000322081A JP2000322081A (ja) | 2000-11-24 |
JP4181272B2 true JP4181272B2 (ja) | 2008-11-12 |
Family
ID=15022551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP12995499A Expired - Fee Related JP4181272B2 (ja) | 1999-05-11 | 1999-05-11 | 音声認識における尤度演算装置および尤度演算方法、並びに、プログラム記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4181272B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4633774B2 (ja) * | 2007-10-05 | 2011-02-16 | 日本電信電話株式会社 | 多重ベクトル量子化方法、装置、プログラム及びその記録媒体 |
JP4616891B2 (ja) * | 2008-01-31 | 2011-01-19 | 日本電信電話株式会社 | 多重ベクトル量子化方法、装置、プログラム及びその記録媒体 |
JP4830026B2 (ja) * | 2008-01-31 | 2011-12-07 | 日本電信電話株式会社 | 極性付多重ベクトル量子化方法、装置、プログラム及びその記録媒体 |
-
1999
- 1999-05-11 JP JP12995499A patent/JP4181272B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000322081A (ja) | 2000-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112712804B (zh) | 语音识别方法、系统、介质、计算机设备、终端及应用 | |
CN109523989B (zh) | 语音合成方法、语音合成装置、存储介质及电子设备 | |
He et al. | Discriminative learning for speech recognition: theory and practice | |
CN111145718B (zh) | 一种基于自注意力机制的中文普通话字音转换方法 | |
JP3854713B2 (ja) | 音声合成方法および装置および記憶媒体 | |
JP5240457B2 (ja) | 拡張認識辞書学習装置と音声認識システム | |
Georgescu et al. | Performance vs. hardware requirements in state-of-the-art automatic speech recognition | |
CN114038447A (zh) | 语音合成模型的训练方法、语音合成方法、装置及介质 | |
Swain et al. | Study of feature combination using HMM and SVM for multilingual Odiya speech emotion recognition | |
CN114242071A (zh) | 一种低资源语音识别方法、系统、语音模型训练方法 | |
CN112669845A (zh) | 语音识别结果的校正方法及装置、电子设备、存储介质 | |
Suyanto et al. | End-to-End speech recognition models for a low-resourced Indonesian Language | |
CN113362804A (zh) | 一种合成语音的方法、装置、终端及存储介质 | |
CN113327578A (zh) | 一种声学模型训练方法、装置、终端设备及存储介质 | |
Peguda et al. | Speech to sign language translation for Indian languages | |
Mukherjee et al. | Image-based features for speech signal classification | |
Sakamoto et al. | Stargan-vc+ asr: Stargan-based non-parallel voice conversion regularized by automatic speech recognition | |
Viacheslav et al. | System of methods of automated cognitive linguistic analysis of speech signals with noise | |
JP2021039219A (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
CN114298019A (zh) | 情绪识别方法、装置、设备、存储介质、程序产品 | |
CN113345410A (zh) | 通用语音、目标语音合成模型的训练方法及相关装置 | |
JP2002342323A (ja) | 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体 | |
JP4181272B2 (ja) | 音声認識における尤度演算装置および尤度演算方法、並びに、プログラム記録媒体 | |
WO2023123892A1 (zh) | 一种信息预测模块的构建方法、信息预测方法及相关设备 | |
Patil et al. | Hidden-Markov-model based statistical parametric speech synthesis for Marathi with optimal number of hidden states |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080603 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080826 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080829 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110905 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |