JP2000322081A - 音声認識における尤度演算装置および尤度演算方法、並びに、プログラム記録媒体 - Google Patents

音声認識における尤度演算装置および尤度演算方法、並びに、プログラム記録媒体

Info

Publication number
JP2000322081A
JP2000322081A JP11129954A JP12995499A JP2000322081A JP 2000322081 A JP2000322081 A JP 2000322081A JP 11129954 A JP11129954 A JP 11129954A JP 12995499 A JP12995499 A JP 12995499A JP 2000322081 A JP2000322081 A JP 2000322081A
Authority
JP
Japan
Prior art keywords
value
quantized
square
likelihood
quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11129954A
Other languages
English (en)
Other versions
JP4181272B2 (ja
Inventor
Toshio Akaha
俊夫 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP12995499A priority Critical patent/JP4181272B2/ja
Publication of JP2000322081A publication Critical patent/JP2000322081A/ja
Application granted granted Critical
Publication of JP4181272B2 publication Critical patent/JP4181272B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 演算速度を速くしメモリの使用量を削減す
る。 【解決手段】 量子化平均値テーブル17には、平均値
μi(m)を量子化点数Qmと存在範囲Rmで量子化したμqi
(m)をi,mに関連付けて登録する。分散値テーブル18
には、「σi(m)×Rm/Qm」をi,mに関連付けて格納す
る。量子化手段12は、音響パラメータX(m)をQm,Rm
で量子化してXq(m)を得る。コピー手段13は、2乗関
数テーブル14を自乗距離テーブル15にコピーして自
乗距離のテーブルを作成する。尤度演算手段16は、分
散値テーブル18から「σi(m)×Rm/Qm」を得、量子化
平均値テーブル17からμqi(m)を得、自乗距離テーブ
ル15からT(μqi(m))を得て、対数尤度「log(Pi)」を
算出する。こうして、自乗距離の演算をテーブル引きに
置き換えることによって、対数尤度「log(Pi)」の演算を
高速にできる。その場合の各テーブルは特別大きな容量
ではない。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声認識におけ
る尤度演算装置および尤度演算方法の改良に関する。
【0002】
【従来の技術】1990年代以降の音声認識の主要な手
法の一つに、混合連続分布型隠れマルコフモデル(CM
HMM)がある。このCMHMMは、認識対象とする単
語や音素や音節等の音声の単位を、音響的な特微量の連
続分布で表現した音響モデルである。この音響モデル
は、上記「音声の単位」を時間方向に分割して1次マルコ
フ系列である状態列に対応付け、各分割区間に対応した
状態の夫々を音響パラメータの多次元正規分布の重み付
き和で表現することによって、音声をモデル化する方法
である。これらの多次元正規分布や分割位置は学習用の
大量の音声データから統計的に求める。
【0003】上記CMHMMを用いて大語彙単語認識を
行う場合、一般には音素のような細かな基本単位で音響
モデルを構成し、この基本単位を接続することによって
単語や文などの認識対象を表現する。そして、認識しよ
うとする単語や文を構成する個々の基本単位に対する各
音響モデルの尤度を上記音響モデルの出現確率を用いて
算出し、最も大きな尤度を示す音響モデルが表現する基
本単位を接続して認識結果とするのである。こうするこ
とによって、認識時には、複数の認識対象語彙に含まれ
る同じ音素(基本単位)の尤度を共通の音響モデルを用い
て求めることができるため、認識処理を効率よく行うこ
とができるのである。尚、上記CMHMMに関しては、
文献「中川聖一著“確率モデルによる音声認識”第3章
(特に連続確率密度分布に付いては3.3.2節)、電子情
報通信学会出版、コロナ社、1988年」に詳しく述べ
られている。
【0004】上記文献に記載された尤度演算方法によれ
ば、音響パラメータの次元数をM、入力された音声の各
時刻tの音響パラメータベクトルをXtとすると、音響
モデルを構成しているN個の確率密度分布λi(=平均を
μi,分散を(σi)2、i=1,2,…,N)の夫々に対する
入力音響パラメータベクトルの対数尤度「log(Pi)」を求
める必要がある。この演算は入力音響パラメータの値に
依存するため、音声が入力されると、その都度計算する
必要がある。ここで、確率密度分布λiの分布数Nは数
百から数千の値をとるために上記対数尤度「log(Pi)」の
計算に多くの処理時間を必要としている。例として、1
秒間の音声に対して10ms周期で次元数M=20の音響
パラメータに変換した分布数N=1000の音響モデル
を適用する場合は、 100(フレーム)×20(次元)×1000(分布)=20
00000回 の減算,自乗,割り算および加算が必要となる。そこで、
上述の演算を高速化するために幾つかの方法が提案され
ている。
【0005】文献1「中川他“連続出力確率型HMMの
出力確率計算の短縮法”日本音響学会講演論文集、平成
7年春1−Q−22」には、入力音響パラメータをベク
トル量子化して、出力確率計算をテーブル参照に置き換
える方法が開示されている。
【0006】また、文献2「高橋,嵯峨山“4階層の共有
構造を持つ音素環境依存HMMの検討”日本音響学会講
演論文集、平成6年秋3−8−3」には、各確率密度分
布の平均値を次元毎にスカラ量子化することで、尤度演
算に関する次式
【数1】 における第2項の分子の演算に要する減算と自乗の演算
とを、量子化代表値の個数に付いてのみ行い、各確率密
度分布の尤度演算をテーブル参照で置き換える方法が開
示されている。尚、この方法においては、入力音響パラ
メータX(m)の量子化は行わない。
【0007】また、文献3「高橋,嵯峨山“4階層共有構
造音素モデルにおける分散値共有化の効果”日本音響学
会講演論文集、平成7年春1−Q−23」、および、文
献4「特開平8−248986号公報」には、文献2を
進めて、各次元毎に平均値と分散を含んだ分布としてク
ラスタリングを行い、代表確率密度分布に付いてのみ尤
度演算を行い、各確率密度分布の尤度演算に関してはテ
ーブル参照で置き換える方法が開示されている。この場
合も、入力音響パラメータX(m)の量子化は行わない。
【0008】また、文献5「野田,高橋,嵯峨山“スカラ
ー量子化による4階層共有構造HMMの高速計算”日本
音響学会講演論文集、平成7年秋2−2−14」、およ
び、文献6「山田,山本他“パラメータのスカラ量子化と
混合分布HMMの次元独立演算による高速出力確率計
算”電子情報通信学会技報SP95−22」には、入力
音響パラメータの各次元をスカラ量子化することによっ
て、予め状態iと次元m毎に上記式の第2項のテーブル
を計算しておき、入力の量子化値を使用して文献中の演
算に要する減算と自乗と除算とをテーブル参照に置き換
える方法が開示されている。
【0009】
【発明が解決しようとする課題】しかしながら、上記従
来の対数尤度「log(Pi)」の演算を高速化する方法には、
以下のような問題がある。すなわち、上記文献1に開示
された方法には、入力音響パラメータをベクトル量子化
するために、量子化コードブック数のM次元距離演算が
必要になる上に、「量子化コードブック数×モデルの状
態数」の大きさのテーブルが必要となると言う問題があ
る。
【0010】また、上記文献3および文献4に開示され
た方法では、演算量はある程度削減できるが、1フレー
ム当り「次元数×代表点数」分の自乗演算が残り、上記対
数尤度「log(Pi)」に間する演算が完全に無くなるわけで
はない。また、「次元数×代表点数」の大きさのテーブル
が必要である。
【0011】また、上記文献5および文献6に開示され
た方法では、入力音響パラメータを量子化するだけで、
後はテーブルを引くだけであるから演算量は小さく押え
られる。しかしながら、「次元数×スカラ量子化ステッ
プ数×モデルの分布数」分の非常に大きなテーブルが必
要になる。このように参照用テ―ブルに非常に多くのメ
モリ容量を必要とする方法は、小型機器等においては実
現し難い。
【0012】さらに、上記文献2に開示された方法によ
れば、メモリ量は「次元数×量子化点数」のテーブル分だ
けでよく、上述した他の文献の方法よりは少ない。しか
しながら、「次元数×量子化点数」分の1次元距離演算に
係る減算と自乗演算とが必要となる。そして、この演算
は、汎用コンピュータ等に使用される高度なプロセッサ
や一部の信号処理プロセッサには容易な演算ではある
が、小型機器等に使用されるプロセッサにとって処理に
要する時間が大きいため、十分な高速化は達成できない
という問題がある。
【0013】そこで、この発明の目的は、演算速度が速
くメモリの使用量を削減できる音声認識における尤度演
算装置および尤度演算方法、並びに、プログラム記録媒
体を提供することにある。
【0014】
【課題を解決するための手段】上記目的を達成するた
め、請求項1に係る発明の音声認識における尤度演算装
置は、入力音声から抽出された音響パラメータベクトル
が入力される音響パラメータ入力手段と、上記音響パラ
メータベクトルを各次元毎に量子化する量子化手段と、
2乗関数がテーブル化されて格納された2乗関数テーブ
ルと、音響モデルを構成する各確率密度分布の分散値に
関する演算値がテーブル化されて格納された分散値テー
ブルと、各次元毎に上記音響パラメータと同じスケール
で量子化された上記各確率密度分布の平均値がテーブル
化されて格納された量子化平均値テーブルと、記録手段
と、上記2乗関数テーブルのデータを上記記録手段にコ
ピーすると共に,上記コピーしたデータに対して座標移
動を行って自乗距離テーブルを作成するコピー手段と、
上記各次元毎に量子化された音響パラメータに基づいて
上記量子化平均値テーブル,自乗距離テーブルおよび分
散値テーブルを用いて入力音響パラメータの上記各確率
密度分布に関する対数尤度を演算する尤度演算手段を備
えたことを特徴としている。
【0015】上記構成によれば、量子化手段によってm
次元目の音響パラメータが量子化されると、コピー手段
によって、2乗関数テーブルのデータがコピーされて座
標移動が行われ、自乗距離テーブルが作成される。その
場合、上記座標移動を−x方向へ上記量子化音響パラメ
ータ値分だけ行えば、自乗距離テーブルには「y=(x−
量子化音響パラメータ値)2」なる関係を表すデータが書
き込まれる。一方においては、入力音響パラメータベク
トルと各確率密度分布の平均値とは各次元毎に同じスケ
ールで量子化されている。したがって、尤度演算手段
は、量子化平均値テーブルを引いて得られた量子化平均
値をインデックスとして上記自乗距離テーブルを引くこ
とによって、上記量子化音響パラメータと量子化平均値
の自乗距離を得ることができる。さらに、分散値テーブ
ルを引くことによって、分散値に関する演算値が得られ
る。
【0016】その際に、上記分散値に関する演算値を
「σi(m)×Rm/Qm」とするならば、音響モデルを構成し
ている各確率密度分布に関する入力音響パラメータベク
トルの対数尤度「log(Pi)」の演算式(7)における第2項
の分子と分母とが、テーブル引きによって得られる。こ
うして、上記対数尤度「log(Pi)」の演算が高速に行われ
る。
【0017】また、請求項2にかかる発明の音声認識に
おける尤度演算装置は、入力音声から抽出された音響パ
ラメータベクトルが入力される音響パラメータ入力手段
と、上記音響パラメータベクトルを各次元毎に量子化す
る量子化手段と、2乗関数がテーブル化されて格納され
た2乗関数テーブルと、音響モデルを構成する各確率密
度分布の分散値に関する演算値がテーブル化されて格納
された分散値テーブルと、各次元毎に上記音響パラメー
タと同じスケールで量子化された上記各確率密度分布の
平均値がテーブル化されて格納された量子化平均値テー
ブルと、上記各次元毎に量子化された音響パラメータに
基づいて上記量子化平均値テーブル,2乗関数テーブル
および分散値テーブルを用いて入力音響パラメータの上
記各確率密度分布に関する対数尤度を演算する尤度演算
手段を備えたことを特徴としている。
【0018】上記構成によれば、2乗関数テーブルには
「y=x2」なる関係を表すデータが書き込まれている。
一方においては、入力音響パラメータベクトルと各確率
密度分布の平均値とは各次元毎に同じスケールで量子化
される。したがって、尤度演算手段は、量子化平均値テ
ーブルを引いて得られた量子化平均値から量子化音響パ
ラメータ値を減じた値「量子化平均値−量子化音響パラ
メータ値」をインデックスとして上記2乗関数テーブル
を引くことによって、上記量子化音響パラメータと量子
化平均値の自乗距離を得ることができる。さらに、分散
値テーブルを引くことによって、分散値に関する演算値
が得られる。
【0019】その際に、上記分散値に関する演算値を
「σi(m)×Rm/Qm」とするならば、音響モデルを構成し
ている各確率密度分布に関する入力音響パラメータベク
トルの対数尤度「log(Pi)」の演算式(7)における第2項
の分子と分母とが、テーブル引きによって得られる。こ
うして、上記対数尤度「log(Pi)」の演算が高速に行われ
る。
【0020】また、請求項3に係る発明は、請求項1あ
るいは請求項2に係る発明の音声認識における尤度演算
装置において、上記2乗関数テーブルには、上記分散値
に関する演算値の所定量子化点数での量子化値を係数と
する2乗関数を、上記量子化点数分のテーブルにテーブ
ル化して格納されていることを特徴としている。
【0021】上記構成によれば、上記分散値に関する演
算値Bi(m)を(σi(m)×Rm/Qm)2とし、上記2乗関数テ
ーブルには演算値Bi(m)の量子化値Bqi(m)を係数とす
る2乗関数「y=x2/Bqi(m)」を表すテーブルを格納す
るならば、上記尤度演算手段は、対数尤度「log(Pi)」の
演算式(7)における第2項のΣ内の除算を、テーブル引
きによって得ることができる。こうして、上記対数尤度
「log(Pi)」の演算がさらに高速に行われる。
【0022】また、請求項4に係る発明の音声認識にお
ける尤度演算方法は、入力された音響パラメータベクト
ルを各次元毎に量子化するステップと、2乗関数がテー
ブル化された2乗関数テーブルのデータをコピーすると
共に,上記コピーしたデータに対して上記量子化音響パ
ラメータに基づく座標移動を行って自乗距離テーブルを
作成するステップと、音響モデルを構成する各確率密度
分布の分散値に関する演算値がテーブル化された分散値
テーブルを引いて,上記分散値に関する演算値を得るス
テップと、各次元毎に上記音響パラメータと同じスケー
ルで量子化された上記各確率密度分布の平均値がテーブ
ル化された量子化平均値テーブルを引いて,上記量子化
平均値を得るステップと、上記量子化平均値に基づいて
上記自乗距離テーブルを引いて,上記量子化音響パラメ
ータと量子化平均値との自乗距離を得るステップと、上
記得られた分散値に関する演算値および自乗距離を用い
て,入力音響パラメータの上記各確率密度分布に関する
対数尤度を演算するステップを備えたことを特徴として
いる。
【0023】上記構成によれば、請求項1に係る発明の
場合と同様に、自乗距離テーブルには「y=(x−量子化
音響パラメータ値)2」なる関係を表すデータが書き込ま
れ、入力音響パラメータベクトルと各確率密度分布の平
均値とは各次元毎に同じスケールで量子化される。した
がって、上記分散値に関する演算値を「σi(m)×Rm/Q
m」とするならば、上記対数尤度「log(Pi)」の演算式(7)
における第2項の分子と分母とがテーブル引きによって
得られる。こうして、上記対数尤度「log(Pi)」の演算が
高速に行われる。
【0024】また、請求項5に係る発明の音声認識にお
ける尤度演算方法は、入力された音響パラメータベクト
ルを各次元毎に量子化するステップと、音響モデルを構
成する各確率密度分布の分散値に関する演算値がテーブ
ル化された分散値テーブルを引いて上記分散値に関する
演算値を得るステップと、各次元毎に音響パラメータと
同じスケールで量子化された上記各確率密度分布の平均
値がテーブル化された量子化平均値テーブルを引いて上
記量子化平均値を得るステップと、上記量子化平均値か
ら量子化音響パラメータの値を減じた値に基づいて,2
乗関数がテーブル化された2乗関数テーブルを引いて,
量子化音響パラメータと量子化平均値との自乗距離を得
るステップと、上記得られた分散値に関する演算値およ
び自乗距離を用いて,入力音響パラメータの上記各確率
密度分布に関する対数尤度を演算するステップを備えた
ことを特徴としている。
【0025】上記構成によれば、請求項2に係る発明の
場合と同様に、2乗関数テーブルには「y=x2」なる関
係を表すデータが書き込まれ、入力音響パラメータベク
トルと各確率密度分布の平均値とは各次元毎に同じスケ
ールで量子化され、「量子化平均値−量子化音響パラメ
ータ値」をインデックスとして上記2乗関数テーブルが
引かれる。したがって、上記分散値に関する演算値を
「σi(m)×Rm/Qm」とするならば、上記対数尤度「log(P
i)」の演算式(7)における第2項の分子と分母とがテー
ブル引きによって得られる。こうして、上記対数尤度「l
og(Pi)」の演算が高速に行われる。
【0026】また、請求項6に係る発明は、請求項4に
係る発明の音声認識における尤度演算方法において、上
記2乗関数テーブルには,上記分散値に関する演算値に
おける所定量子化点数での量子化値を係数とする2乗関
数を,上記量子化点数分のテーブルにテーブル化して格
納されており、上記自乗距離テーブルを作成するステッ
プでは,上記量子化点数分の各テーブル毎に上記コピー
及び座標移動を行い、上記自乗距離を得るステップで
は,上記自乗距離テーブルから上記演算値の量子化値に
適合する自乗距離テーブルを選択して引き、上記対数尤
度を演算するステップでは,上記得られた自乗距離を用
いて上記対数尤度を演算することを特徴としている。
【0027】上記構成によれば、請求項3に係る発明の
場合と同様に、上記分散値に関する演算値Bi(m)を「(σ
i(m)×Rm/Qm)2」とし、自乗距離テーブルには「y=(x
−量子化音響パラメータ値)2/Bqi(m)」(Bqi(m):演算
値Bi(m)の量子化値)なる関係を表すテーブルを所定量
子化点数分だけ格納するならば、上記演算値の量子化値
Bqi(m)に適合する自乗距離テーブルを選択して引くこ
とによって、上記対数尤度「log(Pi)」の演算式(7)にお
ける第2項のΣ内の除算が、テーブル引きによって得ら
れる。こうして、上記対数尤度「log(Pi)」の演算が更に
高速に行われる。
【0028】また、請求項7に係る発明は、請求項5に
係る発明の音声認識における尤度演算方法において、上
記2乗関数テーブルには,上記分散値に関する演算値に
おける所定量子化点数での量子化値を係数とする2乗関
数を,上記量子化点数分のテーブルにテーブル化して格
納されており、上記自乗距離を得るステップでは,上記
2乗関数テーブルから上記分散値に関する演算値の量子
化値に適合する2乗関数テーブルを選択して引き、上記
対数尤度を演算するステップでは,上記得られた自乗距
離を用いて上記対数尤度を演算することを特徴としてい
る。
【0029】上記構成によれば、請求項3に係る発明の
場合と同様に、上記分散値に関する演算値Bi(m)を「(σ
i(m)×Rm/Qm)2」とし、上記2乗関数テーブルには「y
=x2/Bqi(m)」なる関係を表すテーブルを所定量子化点
数分だけ格納するならば、上記演算値の量子化値Bqi
(m)に適合する2乗関数テーブルを選択して引くことに
よって、上記対数尤度「log(Pi)」の演算式(7)における
第2項のΣ内の除算が、テーブル引きによって得られ
る。こうして、上記対数尤度「log(Pi)」の演算がさらに
高速に行われる。
【0030】また、請求項8に係る発明は、請求項4乃
至請求項7の何れか一つに係る発明の音声認識における
尤度演算方法において、上記音響パラメータベクトルを
各次元毎に量子化するステップでは、各次元毎に量子化
点数を変えて量子化することを特徴としている。
【0031】上記構成によれば、上記2乗関数テーブル
のサイズを各次元毎における量子化点数の最大値にする
ことによって、上記2乗関数テーブルおよび自乗距離テ
ーブルの容量が必要最小限に押えられる。
【0032】また、請求項9に係る発明のプログラム記
録媒体は、コンピュータを、入力された音響パラメータ
ベクトルを各次元毎に量子化する量子化手段と、上記2
乗関数テーブルのデータを記録手段にコピーすると共
に,上記コピーしたデータに対して座標移動を行って自
乗距離テーブルを作成するコピー手段と、上記各次元毎
に量子化された音響パラメータに基づいて上記量子化平
均値テーブル,自乗距離テーブルおよび分散値テーブル
を用いて入力音響パラメータの上記各確率密度分布に関
する対数尤度を演算する尤度演算手段として機能させる
尤度演算処理プログラムが記録されたことを特徴として
いる。
【0033】上記構成によれば、請求項1および請求項
4に係る発明の場合と同様に、上記分散値テーブルの要
素値である上記“各確率密度分布の分散値に関する演算
値”を「σi(m)×Rm/Qm」とするならば、上記対数尤度
「log(Pi)」の演算式(7)における第2項の分子と分母と
がテーブル引きによって得られる。こうして、上記対数
尤度「log(Pi)」の演算が高速に行われる。
【0034】また、請求項10に係る発明のプログラム
記録媒体は、コンピュータを、入力された音響パラメー
タベクトルを各次元毎に量子化する量子化手段と、上記
各次元毎に量子化された音響パラメータに基づいて上記
量子化平均値テーブル,2乗関数テーブルおよび分散値
テーブルを用いて入力音響パラメータの上記各確率密度
分布に関する対数尤度を演算する尤度演算手段として機
能させる尤度演算処理プログラムが記録されたことを特
徴としている。
【0035】上記構成によれば、請求項2および請求項
5に係る発明の場合と同様に、上記分散値テーブルの要
素値である上記“各確率密度分布の分散値に関する演算
値”を「σi(m)×Rm/Qm」とするならば、対数尤度「log
(Pi)」の演算式(7)における第2項の分子と分母とがテ
ーブル引きによって得られる。こうして、上記対数尤度
「log(Pi)」の演算が高速に行われる。
【0036】
【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。 <第1実施の形態>図1は、本実施の形態における尤度
演算装置が搭載された音声認識装置のブロック図であ
る。入力された音声は音響分析部1で数ミリ秒から数1
0ミリ秒毎のフレーム単位に切り出され、夫々のフレー
ムが音響分析されて音響パラメータに変換される。ここ
で、音響分析方法としてはLPCケプストラムやメルケ
プストラムあるいはフィルタバンクによる周波数帯域パ
ワー等が一般的である。但し、本音響分析部1における
音響分析方法は、特に限定するものではない。
【0037】こうして、上記音響分析部1によって音響
パラメータが得られると、次に、尤度演算部2によっ
て、音響モデル3との照合が行われ、各音響モデルにお
ける音素の各状態を表現する全ての確率密度分布(ガウ
ス分布等)に関して入力音響パラメータの尤度が求めら
れ、次に各状態を表現する確率密度分布の混合重み付き
和の演算によって各状態の尤度が求められる。この尤度
演算部2による尤度の演算はこの発明の根幹を成すもの
であり、後に詳細に述べる。
【0038】次に、単語照合部4によって、言語辞書5
を参照し、辞書の語彙の表記に基づいて音響モデル内の
状態を連結した単語パターンに対して、入力音声のパタ
ーンを照合して尤度が求められる。ここで、照合の際に
必要となる各時刻および各状態での局所的尤度は、尤度
演算部2で求めた尤度の値を用いる。尚、照合にはビタ
ビ・アルゴリズムやA*アルゴリズム等がよく用いられ
る。但し、本単語照合部4において用いる照合方法は、
特に限定するものではない。こうして、各認識対象語彙
の尤度を求め、最大尤度を呈する単語を入力音声の認識
結果として出力するのである。
【0039】図2は、上記尤度演算部2の詳細なブロッ
ク図である。上記音響分析部1で得られた各入力フレー
ムのm次元目の音響パラメータX(m)は、パラメータ入
力手段11から取り込まれて量子化手段12に渡され
る。そうすると、量子化手段12は、次式(1)に基づい
て音響パラメータX(m)を線型に量子化して、量子化し
た音響パラメータXq(m)を得る。 Xq(m)=[X(m)*Qm/Rm] …(1) ここで、X(m):m次元目の音響パラメータ Qm:次元mの音響パラメータを量子化する際の量子化
点数を与える定数 Rm:次元mの音響パラメータの存在範囲を示す定数 Xq(m):量子化されたm次元目の音響パラメータ である。尚、「*」は、実数を整数に変換する量子化演算
を示す。
【0040】また、上述した音響パラメータX(m)の量
子化とは別に、音響モデルの各確率密度分布λiの平均
値ベクトルにおける各平均値μi(m)の量子化値μqi(m)
を、次式(2)を用いて求めて、確率密度分布λの番号
「i」と次元「m」とμqi(m)との関係を表す量子化平均値
テーブル17を予め作成しておく。 μqi(m)=[μi(m)*Qm/Rm] …(2)
【0041】このように、上記入力音響パラメータX
(m)と確率密度分布λiのm次元目の平均値μi(m)とを、
同じ量子化点数Qmと存在範囲Rmで(つまり、同じスケ
ールで)量子化することによって、後に詳述するよう
に、量子化音響パラメータXq(m)と量子化平均値μqi
(m)との自乗距離の演算をテーブルを引く処理に置き換
えることができるのである。
【0042】コピー手段13は、上記量子化手段12で
量子化されたm次元目の音響パラメータXq(m)を用い
て、2乗関数テーブル14から自乗距離テーブル15へ
値を順にコピーする。図3に、2乗関数テーブル14お
よび自乗距離テーブル15の内容例を示す。2乗関数テ
ーブル14には、図3(a)に示すように、音響パラメー
タの量子化点数をQとすると、−Qから+Qまでの範囲
内において式(3)で表されるxとyとの関係がテーブル
化されている。 y=F(x)=x2(−Q≦x≦Q) …(3)
【0043】このうち、入力音響パラメータX(m)の量
子化値「−Xq(m)」に基づいて、 −Xq(m)≦x≦Q−Xq(m) の範囲におけるxとyとの関係を自乗距離テーブル15
にコピーする。そして、2乗関数テーブル14における
x=−Xq(m)を、自乗距離テーブル15におけるx=0
とする(つまり、原点を−x方向へ「Xq(m)」だけずら
す)。その結果、自乗距離テーブル15には、0から+
Qまでの範囲内において式 y=(x−Xq(m))2 で表されるxとyとの関係がテーブル化されることにな
り、上記自乗距離テーブル15は0からQまでの量子化
値「−Xq(m)」に対する自乗距離の値を持つことになる。
【0044】したがって、式(4)で表されるi番目の確
率密度分布λiの平均値ベクトルにおけるm次元目の平
均値の量子化値(以下、量子化平均値と言う)μqi(m)の
自乗距離T(μqi(m))は、量子化平均値テーブル17を
引いて量子化平均値μqi(m)を求め、その値μqi(m)をイ
ンデックスとして自乗距離テーブル15を引くことによ
って求めることができる。 T(μqi(m))=(μqi(m)−Xq(m))2 …(4)
【0045】尚、本尤度演算部2のメモリ容量を減らす
必要がある場合は、2乗関数テーブル14には、図3
(a)におけるxとyとの関係のうち、「x>0」または「x
<0」の領域だけを格納しておく。そして、コピー手段
13は、2乗関数テーブル14に領域「x>0」を格納し
ている場合には、「0〜Xq(m)」をy軸に対して反転した
ものと「0〜(Q−Xq(m))」との2回に分けてコピーす
る。また、領域「x<0」を格納している場合には、「−
Xq(m)〜0」と「−(Q−Xq(m))〜0」をy軸に対して反
転したものとの2回に分けてコピーすればよい。
【0046】尤度演算手段16は、上述のように番号
「i」および次元「m」から上記量子化平均値テーブル17
を引いて求めた量子化平均値μqi(m)をインデックスと
して、上記自乗距離テーブル15を引いて確率密度分布
λiに関するm次元目の自乗距離T(μqi(m))の値を得た
後、後に詳述するようにして分散値テーブル18の値を
用いて対数尤度「log(Pi)」を求めるのである。
【0047】対数尤度「log(Pi)」は、音響パラメータX
の次元数をM、入力された音声の各時刻tにおける音響
パラメータベクトルをXtとすると、音響モデルを構成
しているN個の確率密度分布λi(=平均をμi,分散を
(σi)2、i=1,…,N)の夫々に関して、式(5)を用い
て求めることができる。
【数2】
【0048】ここで、式(5)の第1項は音響モデルに固
有の値であり、テーブル引きに置き換えることができ
る。そして、この値をAiとすると式(6)が成立する。
【数3】 したがって、上記対数尤度「log(Pi)」を算出する式(5)
に、式(1)〜式(4)および式(6)を代入すると、式(7)
が得られる。
【数4】
【0049】尚、上記分散値テーブル18には、予め演
算によって求められたσi(m)に関する演算値「σi(m)×
Rm/Qm」を分布番号「i」および次元番号「m」とに関連付
けて格納しておく。また、定数テーブル19には、予め
演算によって求められたAi(=−Σlog(2π(σi
(m))2))の値を分布番号「i」および次元番号「m」とに関
連付けて格納しておく。
【0050】したがって、上記尤度演算手段16は、上
記コピー手段13からコピーが終了した旨の信号を受け
取ると、先ず、確率密度分布の番号「i」及び音響パラメ
ータの次元「m」をインデックスとして、分散値テーブル
18を引いて「σi(m)×Rm/Qm」を得る。次に、番号
「i」及び次元「m」をインデックスとして量子化平均値テ
ーブル17を引いて量子化平均値μqi(m)を得る。そし
て、この得られたμqi(m)をインデックスとして自乗距
離テーブル15を引いて自乗距離T(μqi(m))を求め
る。さらに、「i」及び次元「m」をインデックスとして定
数テーブル19を引いてAiを求める。最後に、こうし
て求めた「Ai」,「T(μqi(m))」および「σi(m)×Rm/Qm」
を式(7)に代入して、対数尤度「log(Pi)」を算出するの
である。
【0051】ここで、上記式(7)の演算は、実際の処理
においては、先にN個の確率密度分布λi(i=1,…,
N)に関して行う。そして、第2項のΣの演算に関して
は、後に行われる各次元mに付いてのループの中で上記
「入力の量子化」と「テーブルのコピー」と「確率密度分布
の番号iに付いての加算」を行う。こうすることによっ
て、自乗距離T(μqi(m))を得るための自乗距離テーブ
ル15の領域を1次元分にすることができ、メモリ容量
を節約することができるのである。また、σiに関する
割り算「T(μqi(m))/(σi(m)×Rm/Qm)2」は、一般に、
予め(σi(m)×Rm/Qm)2の逆数を求めておき、掛け算と
して処理することによって高速に処理できる。
【0052】上述のように、本実施の形態においては、
量子化平均値テーブル17には、各確率密度分布λiの
各次元の平均値μi(m)を各次元の音響パラメータの量子
化点数Qmおよび存在範囲Rmで量子化して量子化平均値
μqi(m)を求め、i及びmと関連付けて登録しておく。
また、分散値テーブル18には、各確率密度分布λiの
各次元の分散値σi(m)に関して「σi(m)×Rm/Qm」を求
めてi及びmと関連付けて格納しておく。
【0053】そして、音響分析部1から入力されたm次
元目の音響パラメータX(m)に対して、量子化手段12
によってQm及びRmで量子化して量子化された音響パラ
メータXq(m)を得る。そうすると、コピー手段13は、
量子化音響パラメータXq(m)に従って2乗関数テーブル
14の内容の一部を自乗距離テーブル15にコピーし
て、0から量子化点数Qまでの量子化値「−Xq(m)」に関
する自乗距離のテーブルを作成する。そして、尤度演算
手段16は、上記iおよびmをインデックスとして、分
散値テーブル18を引いて「σi(m)×Rm/Qm」を得る。
次に、iおよびmをインデックスとして量子化平均値テ
ーブル17を引いて量子化平均値μqi(m)を得る。さら
に、μqi(m)をインデックスとして自乗距離テーブル1
5を引いて自乗距離T(μqi(m))を求める。次に、iお
よびmをインデックスとして定数テーブル19を引いて
Aiを求める。そして、上記求めた「Ai」,「T(μqi(m))」
および「σi(m)×Rm/Qm」を用いて、式(7)によって対
数尤度「log(Pi)」を算出するようにしている。
【0054】このように、本実施の形態においては、i
番目の確率密度分布λiの平均値ベクトルμiと音響パラ
メータベクトルXとを、各次元m毎に同じスケールで線
形量子化している。したがって、上記尤度演算の大部分
を占める入力音響パラメータX(m)と平均値μi(m)との
差の自乗の演算を、量子化平均値テーブル17と自乗距
離テーブル15とのテーブル引きに置き換えることがで
きる。したがって、対数尤度「log(Pi)」の演算を小型機
器の用のマイクロプロセッサでも高速で行うことができ
るのである。また、その場合における量子化平均値テー
ブル17および定数テーブル19の大きさは「確率密度
分布λの数N×音響パラメータXの次元数M」であり、
2乗関数テーブル14の大きさは「量子化点数Qの(2
倍)×1」であり、自乗距離テーブル15の大きさは「量
子化点数Q×1」であり、特別大きな容量のメモリを必
要とはしない。
【0055】尚、上記次元mの音響パラメータを量子化
する際の量子化点数Qmの値は、全ての次元mに関して
一定としてもよいし、次元m毎に最小限の値になるよう
に変えてもよい。尚、次元m毎に最小限の値になるよう
にQmを設定すれば、2乗関数テーブル14の領域も次
元m毎に最小となるために、コピー手段13によるコピ
ーに要する処理を最小限にすることができる。また、こ
の場合には、2乗関数テーブル14の容量はmax(Qm)分
の容量の2倍(但し、上述のごとく、x>0またはx<
0の領域を格納する場合にはmax(Qm)分)でよく、従っ
て自乗距離テーブル15はmax(Qm)分の容量でよいこと
になる。
【0056】<第2実施の形態>第1実施の形態におい
ては、上記式(7)の第2項の除算「T(μqi(m))/(σi(m)
×Rm/Qm)2」は演算で行っている。本実施の形態で
は、上記除算をもテーブル引きにすることによって、対
数尤度「log(Pi)」の演算をより高速に行うものである。
【0057】本実施の形態においては、上記2乗関数テ
ーブル14の内容に、予め式(7)の第2項における分子
の値とその存在範囲を適用させておくのである。その場
合には、確率密度分布λの番号iおよび音響パラメータ
の次元mをインデックスとして自乗距離テーブル15を
引いて得られる値は、次式(8)で表される値であればよ
いことになる。 T(μqi(m))=(μqi(m)−Xq(m))2/(σi(m)×Rm/Qm)2 …(8) ところが、各確率密度分布λi毎に分散σi(m)が異な
り、その分散σi(m)の値の存在範囲Rmも次元m毎に異
るため、自乗距離テーブル15として多数のテーブルが
必要となる。そこで、本実施の形態においては、以下の
ようにして上記の問題を解決している。
【0058】すなわち、次式(9)のごとく、上記式(8)
の分子をBi(m)とする。そして、こ Bi(m)=(σi(m)×Rm/Qm)2 …(9) のBi(m)の値を所定量子化点数Vでスカラ量子化してB
qi(m)とし、この量子化値Bqi(m)を用いて上記式(8)を
次式(10)によって表すのである。 T(μqi(m),Bqi(m))=(Xq(m)−μqi(m))2/Bqi(m) …(10) こうすることによって、自乗距離テーブル15のテーブ
ル数の増加を押さえ、且つ、上記式(9)における除算お
よび乗算を省くことができるのである。尚、この場合の
スカラ量子化は、線型量子化である必要はなく、LBG
法やK平均法等のより少ない代表点で量子化できるよう
な量子化方法を用いることが望ましい。
【0059】以上の結果、上記対数尤度「log(Pi)」を算
出する式(5)は、式(11)のごとく変形できる。
【数5】 したがって、本実施の形態においては、上記式(11)の
第1項および第2項をテーブル引きで求めることよっ
て、上記対数尤度「log(Pi)」の算出を行うことができる
のである。
【0060】上記T(μqi(m),Bqi(m))が得られるよう
な自乗距離テーブル15をコピー手段13によって生成
するためには、2乗関数テーブル14には、音響パラメ
ータの量子化点数をQとすると、−Qから+Qまでの範
囲内において式(12)で表されるxとyとの関係をテー
ブル化しておけばよいことなる。すなわち、本実施の y=F(x)=x2/Bqi(m)(−Q≦x≦Q) …(12) 形態においては、2乗関数テーブル14に、V個のスカ
ラ量子化値Bqi(m)毎にV個の2乗関数テーブルを格納
するのである。また、V個の2乗関数テーブルをコピー
するためのV個の自乗距離テーブル分の自乗距離テーブ
ル15用のメモリを設けるのである。
【0061】尚、分散値テーブル18には、予め演算に
よって求められたσi(m)に関する演算値「Bi(m)=(σi
(m)×Rm/Qm)2」のスカラ量子化値Bqi(m)を、分布番号
「i」および次元番号「m」とに関連付けて格納しておく。
また、量子化平均値テーブル17と定数テーブル19と
に関しては、第1実施の形態における量子化平均値テー
ブル17と定数テーブル19と同じ構成である。
【0062】上記構成において、上記コピー手段13
は、量子化手段12で量子化されたm次元目の音響パラ
メータXq(m)に基づいて、2乗関数テーブル14中のV
個の2乗関数テーブルの夫々に付いて第1実施の形態と
同様にして自乗距離テーブル15にコピーし、原点を−
x方向へ「Xq(m)」だけずらす。その結果、自乗距離テー
ブル15には、0から+Qまでの範囲内において式 y=(x−Xq(m))2/Bqi(m) で表されるV個のxとyとの関係がテーブル化されるこ
とになる。
【0063】以後、上記尤度演算手段16は、上記確率
密度分布λの番号iおよび次元mをインデックスとして
分散値テーブル18を引いてσi(m)に関する演算値Bi
(m)のスカラ量子化値Bqi(m)を得る。次に、iおよびm
をインデックスとして量子化平均値テーブル17を引い
て量子化平均値μqi(m)を得る。そして、自乗距離テー
ブル15の中からBqi(m)に適合する自乗距離テーブル
を選択し、μqi(m)をインデックスとして上記選択され
た自乗距離テーブルを引いて自乗距離T(μqi(m),Bqi
(m))を求める。次に、iおよびmをインデックスとして
定数テーブル19を引いてAiを求める。そして、上記
求めた「Ai」および「T(μqi(m),Bqi(m))」を用いて、上
記式(11)によって上記対数尤度「log(Pi)」を算出する
のである。
【0064】このように、本実施の形態によれば、対数
尤度「log(Pi)」の算出に関する総ての処理を、「入力の
量子化」と「テーブルのコピー」と「テーブル引き」と「確率
密度分布の番号iに付いての加算」で行うことができ
る。したがって、小型機器用のマイクロプロセッサによ
る対数尤度「log(Pi)」演算の更なる高速処理を可能にで
きるのである。
【0065】尚、上記各実施の形態においては、上記2
乗関数テーブル14にテーブル化された関係式 y=F(x)=x2 (−Q≦x≦Q) または y=F(x)=x2/Bqi(m) (−Q≦x≦Q) をコピーすることによって、関係式 y=(x−Xq(m))2 (0≦x≦Q) または y=(x−Xq(m))2/Bqi(m)(0≦x≦Q) がテーブル化された自乗距離テーブル15を作成するよ
うにしている。しかしながら、この発明においては、以
下のようにして、自乗距離テーブル15を用いずに、自
乗距離T(μqi(m))または自乗距離T(μqi(m),Bqi(m))
を求めることも可能である。
【0066】すなわち、例えば第1実施の形態の場合に
は、尤度演算手段16は、図4に示すように、量子化平
均値テーブル17から得られた量子化平均値μqi(m)を
負側に「Xq(m)」だけずらした値をインデックスとして2
乗関数テーブル14を引くのである。こうすることによ
って、第1実施の形態のごとく、2乗関数テーブル14
をコピーして自乗距離テーブル15を作成する必要がな
く、コピーに要する時間を省くことができる。上述の方
法は、入力音響パラメータX(m)の量子化点数Q(m)に対
して確率密度分布λの数Nがあまり多くなく、テーブル
引きの時間に対するテーブルコピーの時間が無視できな
程度に多い場合に、威力を発揮する。
【0067】また、上記音響モデル3,2乗関数テーブ
ル14,自乗距離テーブル15,量子化平均値テーブル1
7,分散値テーブル18,定数テーブル19および言語辞
書5の実態は、磁気メモリや半導体メモリで実現される
上述した各情報が書き込まれたRAM(ランダム・アクセ
ス・メモリ)やROM(リード・オンリ・メモリ)である。さ
らに、音響分析部1,量子化手段12,コピー手段13,
尤度演算手段16および単語照合部4は、専用のLSI
(大規模集積回路)やCPU(中央演算処理装置)あるいは
それらの組み合わせで実現でき、上記各手段による一部
または総ての処理はハードウェアのみならずソフトウェ
ア若しくはそれらの組み合わせによって実現が可能であ
る。
【0068】ここで、上記ソフトウェアとしての尤度演
算処理プログラムは、プログラム記録媒体に記録され
る。上記各実施の形態における上記プログラム記録媒体
は、ROMでなるプログラムメディアである。または、
外部補助記録装置に装着されて読み出されるプログラム
メディアであってもよい。尚、何れの場合においても、
上記プログラムメディアから尤度演算処理プログラムを
読み出すプログラム読み出し手段は、上記プログラムメ
ディアに直接アクセスして読み出す構成を有していても
よいし、RAMに設けられたプログラム記録エリア(図
示せず)にダウンロードし、上記プログラム記録エリア
にアクセスして読み出す構成を有していてもよい。尚、
上記プログラムメディアからRAMの上記プログラム記
録エリアにダウンロードするためのダウンロードプログ
ラムは、予め本体装置に格納されているものとする。
【0069】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー(登録商標)ディスク,ハ
ードディスク等の磁気ディスクやCD(コンパクトディ
スク)−ROM,MO(光磁気)ディスク,MD(ミニディス
ク),DVD(ディジタルビデオディスク)等の光ディスク
のディスク系、IC(集積回路)カードや光カード等のカ
ード系、マスクROM,EPROM(紫外線消去型RO
M),EEPROM(電気的消去型ROM),フラッシュR
OM等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。
【0070】また、上記各実施の形態における音声認識
装置は、インターネットを含む通信ネットワークと接続
可能な構成を有している場合には、上記プログラムメデ
ィアは、通信ネットワークからのダウンロード等によっ
て流動的にプログラムを坦持する媒体であっても差し支
えない。尚、その場合における上記通信ネットワークか
らダウンロードするためのダウンロードプログラムは、
予め本体装置に格納されているものとする。あるいは、
別の記録媒体からインストールされるものとする。
【0071】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。
【0072】
【発明の効果】以上より明らかなように、請求項1に係
る発明の音声認識における尤度演算装置は、量子化手段
によって入力音響パラメータベクトルを各次元毎に量子
化し、コピー手段によって2乗関数テーブルの記録手段
へのコピーおよび座標移動を行って自乗距離テーブルを
作成し、尤度演算手段によって、量子化音響パラメータ
に基づいて、量子化平均値テーブル,自乗距離テーブル
および分散値テーブルを用いて、音響モデルを構成する
各確率密度分布に関する入力音響パラメータの対数尤度
を演算するので、上記座標移動を−x方向へ上記量子化
音響パラメータ値分だけ行うことによって、上記量子化
平均値テーブルの要素値である量子化平均値と上記量子
化音響パラメータとが同じスケールで量子化されている
ことと併せて、上記量子化音響パラメータと量子化平均
値との自乗距離演算を、上記量子化平均値テーブルから
得られた量子化平均値をインデックスとした上記自乗距
離テーブル引きに置き換えることができる。
【0073】すなわち、この発明によれば、上記分散値
テーブルの要素値である“分散値に関する演算値”を
「σi(m)×Rm/Qm」とするならば、上記対数尤度演算の
大部分を占める上記自乗距離の演算値と上記分散値に関
する演算値とを、テーブル引きによって得ることができ
る。したがって、上記対数尤度の演算を、小型機器用の
マイクロプロセッサでも高速に行うことができる。
【0074】また、請求項2に係る発明の音声認識にお
ける尤度演算装置は、量子化手段によって入力音響パラ
メータベクトルを各次元毎に量子化し、尤度演算手段に
よって、量子化音響パラメータに基づいて、量子化平均
値テーブル,2乗関数テーブルおよび分散値テーブルを
用いて、音響モデルを構成する各確率密度分布に関する
入力音響パラメータの対数尤度を演算するので、上記量
子化平均値テーブルの要素値である量子化平均値と上記
量子化音響パラメータとが同じスケールで量子化されて
いるために、上記量子化音響パラメータと量子化平均値
との自乗距離演算を、量子化平均値テーブルを引いて得
られた上記量子化平均値から量子化音響パラメータの値
を減じた値をインデックスとした上記2乗関数テーブル
引きに置き換えることができる。
【0075】すなわち、この発明によれば、請求項1に
係る発明の場合と同様に、上記対数尤度演算の大部分を
占める上記自乗距離の演算値と上記分散値に関する演算
値とを、テーブル引きによって得ることができる。した
がって、上記対数尤度の演算を、小型機器用のマイクロ
プロセッサでも高速に行うことができる。さらに、上記
尤度演算手段による上記自乗距離の演算は、上記2乗関
数テーブルを引くことによって行うので、上記2乗関数
テーブルの値を自乗距離テーブルにコピーする必要がな
い。したがって、自乗距離テーブル分のメモリ容量の節
約と上記コピーに要する時間の省略とを図ることができ
る。
【0076】また、請求項3に係る発明の音声認識にお
ける尤度演算装置の上記2乗関数テーブルには、上記
「分散値に関する演算値」の所定量子化点数での量子化値
を係数とする2乗関数を、上記量子化点数分のテーブル
にテーブル化して格納しているので、上記分散値に関す
る演算値Bi(m)を(σi(m)×Rm/Qm)2とし、上記2乗関
数テーブルには演算値Bi(m)の量子化値Bqi(m)を係数
とする2乗関数「y=x2/Bqi(m)」を表すテーブルを格
納するならば、上記対数尤度演算における上記自乗距離
の演算値と分散値に関する演算値との除算を、テーブル
引きによって得ることができる。
【0077】すなわち、この発明によれば、上記対数尤
度の演算を更に高速に行うことができる。さらには、上
記演算値Bi(m)の量子化値Bqi(m)を所定量子化点での
量子化によって得るので、線形量子化による量化に比べ
て少ない代表点で量子化できる。したがって、上記演算
値Bi(m)に対する量子化時の処理量を少なくし、上記2
乗関数テーブルおよび自乗距離テーブルのメモリ容量の
増大を極力押えることができる。
【0078】また、請求項4に係る発明の音声認識にお
ける尤度演算方法は、入力音響パラメータベクトルを各
次元毎に量子化し、上記2乗関数テーブルをコピーする
と共に上記量子化音響パラメータに基づく座標移動を行
って自乗距離テーブルを作成し、上記分散値テーブルを
引いて上記各確率密度分布の分散値に関する演算値を
得、上記量子化平均値テーブルを引いて上記音響パラメ
ータと同じスケールで量子化された量子化平均値を得、
この量子化平均値に基づいて上記自乗距離テーブルを引
いて上記量子化音響パラメータと量子化平均値との自乗
距離を得、上記得られた分散値に関する演算値および自
乗距離を用いて上記対数尤度を演算するので、請求項1
に係る発明の場合と同様に、上記自乗距離演算をテーブ
ル引きに置き換えることができる。
【0079】したがって、この発明によれば、上記対数
尤度演算の大部分を占める上記自乗距離の演算値と上記
分散値に関する演算値とをテーブル引きによって得るこ
とができ、上記対数尤度の演算を小型機器用のマイクロ
プロセッサでも高速に行うことができる。
【0080】また、請求項5に係る発明の音声認識にお
ける尤度演算方法は、入力音響パラメータベクトルを各
次元毎に量子化し、上記分散値テーブルを引いて上記各
確率密度分布の分散値に関する演算値を得、上記量子化
平均値テーブルを引いて音響パラメータと同じスケール
で量子化された量子化平均値を得、この量子化平均値か
ら量子化音響パラメータの値を減じた値に基づいて上記
2乗関数テーブルを引いて上記量子化音響パラメータと
量子化平均値との自乗距離を得、上記得られた分散値に
関する演算値および自乗距離を用いて上記対数尤度を演
算するので、請求項2に係る発明の場合と同様に、上記
自乗距離演算をテーブル引きに置き換えることができ
る。
【0081】したがって、この発明によれば、上記対数
尤度演算の大部分を占める上記自乗距離の演算値と上記
分散値に関する演算値とをテーブル引きによって得るこ
とができ、上記対数尤度の演算を小型機器用のマイクロ
プロセッサでも高速に行うことができる。さらに、上記
自乗距離の演算は上記2乗関数テーブルを引くことによ
って行うので、上記2乗関数テーブルの値を自乗距離テ
ーブルにコピーする必要がない。したがって、自乗距離
テーブル分のメモリ容量の節約と上記コピーに要する時
間の省略とを図ることができる。
【0082】また、請求項6に係る発明の音声認識にお
ける尤度演算方法は、上記2乗関数テーブルに、上記分
散値に関する演算値における所定量子化点数での量子化
値を係数とする2乗関数を上記量子化点数分のテーブル
にテーブル化して格納し、上記量子化点数分のテーブル
総てに関して上記コピー及び座標移動を行って上記自乗
距離テーブルを作成し、上記演算値の量子化値に適合す
る自乗距離テーブルを選択して引いて上記自乗距離を得
るので、請求項3に係る発明の場合と同様に、上記対数
尤度演算における上記「自乗距離の演算値」の「分散値に
関する演算値」での除算をテーブル引きに置き換えて、
上記対数尤度の演算を更に高速に行うことができる。さ
らに、上記分散値に関する演算値の量子化値を所定量子
化点での量子化によって得るので、上記演算値に対する
量子化時の処理量を少なくし、上記2乗関数テーブルお
よび自乗距離テーブルのメモリ容量の増大を極力押える
ことができる。
【0083】また、請求項7に係る発明の音声認識にお
ける尤度演算方法は、上記2乗関数テーブルに、上記分
散値に関する演算値における所定量子化点数での量子化
値を係数とする2乗関数を上記量子化点数分のテーブル
にテーブル化して格納し、上記分散値に関する演算値の
量子化値に適合する2乗関数テーブルを選択して引いて
上記自乗距離を得るので、請求項3に係る発明の場合と
同様に、上記対数尤度演算における上記「自乗距離の演
算値」の「分散値に関する演算値」での除算をテーブル引
きに置き換えて、上記対数尤度の演算を更に高速に行う
ことができる。さらに、上記分散値に関する演算値の量
子化値を所定量子化点での量子化によって得るので、上
記演算値に対する量子化時の処理量を少なくし、上記2
乗関数テーブルおよび自乗距離テーブルのメモリ容量の
増大を極力押えることができる。
【0084】また、請求項8に係る発明の音声認識にお
ける尤度演算方法は、上記音響パラメータベクトルを各
次元毎に量子化点数を変えて量子化するので、上記2乗
関数テーブルのサイズを各次元における量子化点数の最
大値にすれば、上記2乗関数テーブルおよび自乗距離テ
ーブルの容量を必要最小限に押さえることができる。
【0085】また、請求項9に係る発明のプログラム記
録媒体は、コンピュータを、入力された音響パラメータ
ベクトルを各次元毎に量子化する量子化手段と、上記2
乗関数テーブルの記録手段へのコピーおよび座標移動を
行って自乗距離テーブルを作成するコピー手段と、上記
各次元毎に量子化された音響パラメータに基づいて上記
量子化平均値テーブル,自乗距離テーブルおよび分散値
テーブルを用いて上記対数尤度を演算する尤度演算手段
として機能させる尤度演算処理プログラムが記録されて
いるので、請求項1あるいは請求項4に係る発明の場合
と同様に、上記対数尤度演算の大部分を占める上記自乗
距離の演算値と上記分散値に関する演算値とをテーブル
引きによって得ることができ、上記対数尤度の演算を小
型機器用のマイクロプロセッサでも高速に行うことがで
きる。
【0086】また、請求項10に係る発明のプログラム
記録媒体は、コンピュータを、入力された音響パラメー
タベクトルを各次元毎に量子化する量子化手段と、上記
各次元毎に量子化された音響パラメータに基づいて上記
量子化平均値テーブル,2乗関数テーブルおよび分散値
テーブルを用いて上記対数尤度を演算する尤度演算手段
として機能させる尤度演算処理プログラムが記録されて
いるので、請求項2あるいは請求項5に係る発明の場合
と同様に、上記対数尤度演算の大部分を占める上記自乗
距離の演算値と上記分散値に関する演算値とをテーブル
引きによって得ることができ、上記対数尤度の演算を小
型機器用のマイクロプロセッサでも高速に行うことがで
きる。さらに、上記2乗関数テーブルの値を自乗距離テ
ーブルにコピーする必要がなく、自乗距離テーブル分の
メモリ容量の節約と上記コピーに要する時間の省略とを
図ることができる。
【図面の簡単な説明】
【図1】 この発明の音声認識における尤度演算装置が
搭載された音声認識装置のブロック図である。
【図2】 図1における尤度演算部の詳細なブロック図
である。
【図3】 図1における2乗関数テーブルおよび自乗距
離テーブルの内容例を示す図である。
【図4】 2乗関数テーブルをコピーすることなく自乗
距離を求める場合の説明図である。
【符号の説明】
1…音響分析部、 2…尤度演算部、3…音響モデル、
4…単語照合部、5…言語辞書、
12…量子化手段、13…コピー
手段、 14…2乗関数テーブル、1
5…自乗距離テーブル、 16…尤度演算手
段、17…量子化平均値テーブル、 18…分散
値テーブル、19…定数テーブル。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 入力音声から抽出された音響パラメータ
    ベクトルが入力される音響パラメータ入力手段と、 上記音響パラメータベクトルを各次元毎に量子化する量
    子化手段と、 2乗関数がテーブル化されて格納された2乗関数テーブ
    ルと、 音響モデルを構成する各確率密度分布の分散値に関する
    演算値がテーブル化されて格納された分散値テーブル
    と、 各次元毎に上記音響パラメータと同じスケールで量子化
    された上記各確率密度分布の平均値が、テーブル化され
    て格納された量子化平均値テーブルと、 記録手段と、 上記2乗関数テーブルのデータを上記記録手段にコピー
    すると共に、上記コピーしたデータに対して座標移動を
    行って自乗距離テーブルを作成するコピー手段と、 上記各次元毎に量子化された音響パラメータに基づい
    て、上記量子化平均値テーブル,自乗距離テーブルおよ
    び分散値テーブルを用いて入力音響パラメータの上記各
    確率密度分布に関する対数尤度を演算する尤度演算手段
    を備えたことを特徴とする音声認識における尤度演算装
    置。
  2. 【請求項2】 入力音声から抽出された音響パラメータ
    ベクトルが入力される音響パラメータ入力手段と、 上記音響パラメータベクトルを各次元毎に量子化する量
    子化手段と、 2乗関数がテーブル化されて格納された2乗関数テーブ
    ルと、 音響モデルを構成する各確率密度分布の分散値に関する
    演算値がテーブル化されて格納された分散値テーブル
    と、 各次元毎に上記音響パラメータと同じスケールで量子化
    された上記各確率密度分布の平均値が、テーブル化され
    て格納された量子化平均値テーブルと、 上記各次元毎に量子化された音響パラメータに基づい
    て、上記量子化平均値テーブル,2乗関数テーブルおよ
    び分散値テーブルを用いて入力音響パラメータの上記各
    確率密度分布に関する対数尤度を演算する尤度演算手段
    を備えたことを特徴とする音声認識における尤度演算装
    置。
  3. 【請求項3】 請求項1あるいは請求項2に記載の音声
    認識における尤度演算装置において、 上記2乗関数テーブルには、上記分散値に関する演算値
    の所定量子化点数での量子化値を係数とする2乗関数
    を、上記量子化点数分のテーブルにテーブル化して格納
    されていることを特徴とする音声認識における尤度演算
    装置。
  4. 【請求項4】 入力された音響パラメータベクトルを各
    次元毎に量子化するステップと、 2乗関数がテーブル化された2乗関数テーブルのデータ
    をコピーすると共に、上記コピーしたデータに対して上
    記量子化音響パラメータに基づく座標移動を行って自乗
    距離テーブルを作成するステップと、 音響モデルを構成する各確率密度分布の分散値に関する
    演算値がテーブル化された分散値テーブルを引いて、上
    記分散値に関する演算値を得るステップと、 各次元毎に上記音響パラメータと同じスケールで量子化
    された上記各確率密度分布の平均値がテーブル化された
    量子化平均値テーブルを引いて、上記量子化平均値を得
    るステップと、 上記量子化平均値に基づいて上記自乗距離テーブルを引
    いて、上記量子化音響パラメータと量子化平均値との自
    乗距離を得るステップと、 上記得られた分散値に関する演算値および自乗距離を用
    いて、入力音響パラメータの上記各確率密度分布に関す
    る対数尤度を演算するステップを備えたことを特徴とす
    る音声認識における尤度演算方法。
  5. 【請求項5】 入力された音響パラメータベクトルを各
    次元毎に量子化するステップと、 音響モデルを構成する各確率密度分布の分散値に関する
    演算値がテーブル化された分散値テーブルを引いて、上
    記分散値に関する演算値を得るステップと、 各次元毎に上記音響パラメータと同じスケールで量子化
    された上記各確率密度分布の平均値がテーブル化された
    量子化平均値テーブルを引いて、上記量子化平均値を得
    るステップと、 上記量子化平均値から量子化音響パラメータの値を減じ
    た値に基づいて、2乗関数がテーブル化された2乗関数
    テーブルを引いて、量子化音響パラメータと量子化平均
    値との自乗距離を得るステップと、 上記得られた分散値に関する演算値および自乗距離を用
    いて、入力音響パラメータの上記各確率密度分布に関す
    る対数尤度を演算するステップを備えたことを特徴とす
    る音声認識における尤度演算方法。
  6. 【請求項6】 請求項4に記載の音声認識における尤度
    演算方法において、 上記2乗関数テーブルには、上記分散値に関する演算値
    における所定量子化点数での量子化値を係数とする2乗
    関数を、上記量子化点数分のテーブルにテーブル化して
    格納されており、 上記自乗距離テーブルを作成するステップでは、上記演
    算値の量子化点数分の各テーブル毎に上記コピーおよび
    座標移動を行い、 上記自乗距離を得るステップでは、上記自乗距離テーブ
    ルから上記演算値の量子化値に適合する自乗距離テーブ
    ルを選択して引き、 上記対数尤度を演算するステップでは、上記得られた自
    乗距離を用いて上記対数尤度を演算することを特徴とす
    る音声認識における尤度演算方法。
  7. 【請求項7】 請求項5に記載の音声認識における尤度
    演算方法において、 上記2乗関数テーブルには、上記分散値に関する演算値
    における所定量子化点数での量子化値を係数とする2乗
    関数を、上記量子化点数分のテーブルにテーブル化して
    格納されており、 上記自乗距離を得るステップでは、上記2乗関数テーブ
    ルから上記分散値に関する演算値の量子化値に適合する
    2乗関数テーブルを選択して引き、 上記対数尤度を演算するステップでは、上記得られた自
    乗距離を用いて上記対数尤度を演算することを特徴とす
    る音声認識における尤度演算方法。
  8. 【請求項8】 請求項4乃至請求項7の何れか一つに記
    載の音声認識における尤度演算方法において、 上記音響パラメータベクトルを各次元毎に量子化するス
    テップでは、各次元毎に量子化点数を変えて量子化する
    ことを特徴とする音声認識における尤度演算方法。
  9. 【請求項9】 コンピュータを、 入力された音響パラメータベクトルを各次元毎に量子化
    する量子化手段と、 上記2乗関数テーブルのデータを記録手段にコピーする
    と共に、上記コピーしたデータに対して座標移動を行っ
    て自乗距離テーブルを作成するコピー手段と、 上記各次元毎に量子化された音響パラメータに基づい
    て、上記量子化平均値テーブル,自乗距離テーブルおよ
    び分散値テーブルを用いて入力音響パラメータの上記各
    確率密度分布に関する対数尤度を演算する尤度演算手段
    として機能させる尤度演算処理プログラムが記録された
    ことを特徴とするコンピュータ読出し可能なプログラム
    記録媒体。
  10. 【請求項10】 コンピュータを、 入力された音響パラメータベクトルを各次元毎に量子化
    する量子化手段と、 上記各次元毎に量子化された音響パラメータに基づい
    て、上記量子化平均値テーブル,2乗関数テーブルおよ
    び分散値テーブルを用いて入力音響パラメータの上記各
    確率密度分布に関する対数尤度を演算する尤度演算手段
    として機能させる尤度演算処理プログラムが記録された
    ことを特徴とするコンピュータ読出し可能なプログラム
    記録媒体。
JP12995499A 1999-05-11 1999-05-11 音声認識における尤度演算装置および尤度演算方法、並びに、プログラム記録媒体 Expired - Fee Related JP4181272B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12995499A JP4181272B2 (ja) 1999-05-11 1999-05-11 音声認識における尤度演算装置および尤度演算方法、並びに、プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12995499A JP4181272B2 (ja) 1999-05-11 1999-05-11 音声認識における尤度演算装置および尤度演算方法、並びに、プログラム記録媒体

Publications (2)

Publication Number Publication Date
JP2000322081A true JP2000322081A (ja) 2000-11-24
JP4181272B2 JP4181272B2 (ja) 2008-11-12

Family

ID=15022551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12995499A Expired - Fee Related JP4181272B2 (ja) 1999-05-11 1999-05-11 音声認識における尤度演算装置および尤度演算方法、並びに、プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP4181272B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009094666A (ja) * 2007-10-05 2009-04-30 Nippon Telegr & Teleph Corp <Ntt> 多重ベクトル量子化方法、装置、プログラム及びその記録媒体
JP2009182855A (ja) * 2008-01-31 2009-08-13 Nippon Telegr & Teleph Corp <Ntt> 多重ベクトル量子化方法、装置、プログラム及びその記録媒体
JP4830026B2 (ja) * 2008-01-31 2011-12-07 日本電信電話株式会社 極性付多重ベクトル量子化方法、装置、プログラム及びその記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009094666A (ja) * 2007-10-05 2009-04-30 Nippon Telegr & Teleph Corp <Ntt> 多重ベクトル量子化方法、装置、プログラム及びその記録媒体
JP4633774B2 (ja) * 2007-10-05 2011-02-16 日本電信電話株式会社 多重ベクトル量子化方法、装置、プログラム及びその記録媒体
JP2009182855A (ja) * 2008-01-31 2009-08-13 Nippon Telegr & Teleph Corp <Ntt> 多重ベクトル量子化方法、装置、プログラム及びその記録媒体
JP4616891B2 (ja) * 2008-01-31 2011-01-19 日本電信電話株式会社 多重ベクトル量子化方法、装置、プログラム及びその記録媒体
JP4830026B2 (ja) * 2008-01-31 2011-12-07 日本電信電話株式会社 極性付多重ベクトル量子化方法、装置、プログラム及びその記録媒体

Also Published As

Publication number Publication date
JP4181272B2 (ja) 2008-11-12

Similar Documents

Publication Publication Date Title
CN112712804B (zh) 语音识别方法、系统、介质、计算机设备、终端及应用
Siohan et al. Structural maximum a posteriori linear regression for fast HMM adaptation
He et al. Discriminative learning for speech recognition: theory and practice
EP0847041B1 (en) Method and apparatus for speech recognition performing noise adaptation
JP5240457B2 (ja) 拡張認識辞書学習装置と音声認識システム
US20090119102A1 (en) System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework
CN111161702A (zh) 个性化语音合成方法、装置、电子设备、存储介质
US8275619B2 (en) Speech recognition
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
Shinoda Speaker adaptation techniques for automatic speech recognition
Rosenberg et al. Modeling phrasing and prominence using deep recurrent learning.
KR101026632B1 (ko) 포먼트 트랙킹 방법 및 컴퓨터 판독가능 기록 매체
Stuttle A Gaussian mixture model spectral representation for speech recognition
CN113506562A (zh) 基于声学特征与文本情感特征融合的端到端语音合成方法及系统
Musaev et al. The use of neural networks to improve the recognition accuracy of explosive and unvoiced phonemes in Uzbek language
Suyanto et al. End-to-End speech recognition models for a low-resourced Indonesian Language
Mukherjee et al. Image-based features for speech signal classification
Viacheslav et al. System of methods of automated cognitive linguistic analysis of speech signals with noise
JP2002342323A (ja) 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
JP5288378B2 (ja) 音響モデルの話者適応装置及びそのためのコンピュータプログラム
JP2852298B2 (ja) 標準パターン適応化方式
JP4181272B2 (ja) 音声認識における尤度演算装置および尤度演算方法、並びに、プログラム記録媒体
Laleye et al. Fuzzy-based algorithm for Fongbe continuous speech segmentation
Karpov Efficient speaker recognition for mobile devices
Shinozaki et al. Automated development of dnn based spoken language systems using evolutionary algorithms

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080826

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080829

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110905

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees