JP2000261321A - 要素分布の探索方法,ベクトル量子化方法,パターン認識方法,音声認識方法,音声認識装置及び認識結果を決定するためのプログラムが記録された記録媒体 - Google Patents

要素分布の探索方法,ベクトル量子化方法,パターン認識方法,音声認識方法,音声認識装置及び認識結果を決定するためのプログラムが記録された記録媒体

Info

Publication number
JP2000261321A
JP2000261321A JP11062362A JP6236299A JP2000261321A JP 2000261321 A JP2000261321 A JP 2000261321A JP 11062362 A JP11062362 A JP 11062362A JP 6236299 A JP6236299 A JP 6236299A JP 2000261321 A JP2000261321 A JP 2000261321A
Authority
JP
Japan
Prior art keywords
search
value
distribution
probability
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11062362A
Other languages
English (en)
Other versions
JP3973789B2 (ja
Inventor
Yoshiharu Abe
芳春 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP06236299A priority Critical patent/JP3973789B2/ja
Publication of JP2000261321A publication Critical patent/JP2000261321A/ja
Application granted granted Critical
Publication of JP3973789B2 publication Critical patent/JP3973789B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 前処理としてベクトル量子化の演算を必要と
し、また、混合分布として木構造化された分布を用いる
必要があり、さらに、予備選択のために別の混合分布が
必要であるため、演算量が膨大になり、音声認識処理に
長時間を要する課題があった。 【解決手段】 展開済の次元数が入力ベクトルの次元数
に一致するまで、次元方向にベストファースト探索を実
行する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、例えば、多次元
の連続確率分布の演算量等を削減することができる要素
分布の探索方法,ベクトル量子化方法,パターン認識方
法,音声認識方法,音声認識装置及び認識結果を決定す
るためのプログラムが記録された記録媒体に関するもの
である。
【0002】
【従来の技術】図27は混合連続分布HMMを用いる音
声認識装置を示す構成図であり、図において、101は
入力音声、102は入力音声101を音声分析して、K
次元の入力特徴ベクトル103を出力する音声分析部、
103は入力特徴ベクトル、104は混合連続分布HM
M108で表された音素HMMの確率演算を実行する確
率演算部、105は経路演算を実行する経路演算部、1
06は最適な経路を決定する最適経路決定部、107は
最適な経路を示す認識結果、108は混合連続分布HM
M、109は経路データである。図28は混合連続分布
HMMの説明図であり、図29は経路演算の説明図であ
る。
【0003】次に動作について説明する。音声分析部1
02で得られたK次元の入力特徴ベクトル103につい
て、確率演算部104がM個のK次元正規確率密度関数
の混合分布で表された音素HMMの確率演算を実行し、
最適経路決定部106が各フレーム毎に単語の接続条件
に従って、ビタビ演算を実行して最適な経路を求める。
最適な経路を後戻り探索することで単語系列を求める。
時刻tの特徴ベクトルx(t)に対する確率演算は次式
に基づいて行われる。ただし、次式において、λ(m)
は第m番目の要素分布の分岐確率を示し、f(x
(t),m)は第m番目の要素分布の分岐密度を示す。
【0004】
【数1】
【0005】さらに、要素分布の分岐密度f(x
(t),m)は、各次元間に相関のない無相関正規分布
は次式のように計算される。ただし、x(t,k)は入
力ベクトルx(t)の第k次元目の要素の値、μ(m,
k)は第m番目の要素分布の第k次元目の平均値、σ
(m,k)は第m番目の要素分布の第k次元目の分散
(即ち標準偏差の2乗)である。なお、一般的な表記で
は肩に2乗を付すが、本明細書では、肩の2乗を付さず
に分散を表す。
【0006】
【数2】
【0007】大語彙の音声認識装置では、音素のHMM
を用いる。しかも、音素には前後の音素に依存した環境
依存の音素モデルを用いるため、混合分布に含まれる要
素分布の総数はかなり大きくなる。例えば、環境依存音
素モデルの各状態を2000状態のHMMで表現し、各
状態を32混合分布とすれば、全体で64000個の要
素分布を有することになる。
【0008】これらをフレーム周期の10ミリ秒毎に計
算すると、1秒当り6400000個の要素分布計算が
必要となり、混合分布計算をリアルタイムで処理するた
めには、1つの混合分布を約156ナノ秒で処理する必
要があるが、これは現在の汎用のプロセッサでは実現困
難である。このため、以下に述べるような演算量削減の
技術が提案されている。
【0009】・予備選択による方法:混合連続分布HM
Mの計算量削減に関して次のような予備選択による方法
が提案されている。
【0010】岩崎らは、文献(“混合連続分布HMMを
用いた不特定話者連続音声認識のための演算量削減
法”、日本音響学会講演論文集、3−5−4、平成3年
10月)で、各音素片HMMについて単一分布の出力確
率により予備選択し、選択された音素片HMMのみ厳密
な混合分布計算を行っている。
【0011】Bocchieriらは、文献(“Vec
tor quantizationfor the e
fficient computation of c
ontinuous density likelih
oods”,ICASSP93予稿集,II−692頁
〜II−695頁)で、ガウス分布の平均ベクトルを予
めベクトル量子化して、入力ベクトルとこの量子化ベク
トルとの距離情報を用いて混合ガウス分布のクラスタを
予備選択した後、出力確率を計算した。
【0012】Digalakisらは、文献(“Gen
ones:GeneralizedMixture T
ying in Continuous Hidden
Markov Model−Based Speech
Recognizers”,IEEE Transa
ctions on Speech and audi
o processing,vol.4,no.4,j
uly 1996,281頁〜289頁)で、上記Bo
cchieriらの方法を一般化音素HMMに用いる音
声認識システムに適用して、それぞれの一般化音素HM
Mについて混合ガウス分布のクラスタを予備選択して、
出力確率を計算した。
【0013】渡辺らは、文献(“木構造確率分布を用い
た音声認識”、日本音響学会講演論文集、1−8−7、
平成5年10月、及び、特開平6−348292号公
報)で、ガウス分布のクラスタの予備選択及び混合ガウ
ス分布の出力確率計算において木構造を導入した。木構
造の作成にはトップダウンクラスタリングを適用してい
る。
【0014】小森らは、文献(“Rough HMMと
Detail HMMを用いた連続HMM出力確率計算
の高速化”、日本音響学会講演論文集、1−Q−20、
平成7年3月)で、認識に貢献度の高そうなHMMの状
態を少数分布のHMMを用いて予備選択後、多数分布の
出力確率を再計算している。
【0015】中川らは、文献(“連続出力分布型HMM
の出力確率計算の短縮法”、日本音響学会講演論文集、
1−Q−22、平成7年3月)で、すべてのコードベク
トルに対して出力確率を事前に計算してテーブル化して
おき、入力ベクトルに一番近いコードベクトルに対応す
る出力確率の値を表引きし、必要に応じて確率の大きい
場合のみ、従来の方法で再計算して出力確率を求めてい
る。
【0016】以上の何れの方法も、実際に計算する総分
布数の削減を行っている。しかし、上記の予備選択によ
る方法には次のような問題がある。岩崎らの方法は、混
合分布の他に、混合分布をカバーする単一分布を用意す
る必要がある。渡辺らの方法は、木の根に近い分布が、
木の葉に近い分布をカバーするように、要素分布が木構
造となるように設計されている必要がある。このため、
任意の混合分布を有する既存の混合分布の演算削減には
適用できない。
【0017】小森らの方法は、従来の混合分布のための
記憶領域の他に、精度の荒い混合分布の記憶領域を用意
するとともに、この精度の荒い混合分布の演算が前処理
として必要である。Bocchieri,Digala
kis及び中川らの方法は、ベクトル量子化のためのコ
ードブックのための記憶領域と、入力ベクトルに対して
最も距離の近いコードを決定するためのベクトル量子化
演算が別途に必要である。
【0018】ところで、ベクトル量子化は複数の信号を
個々に量子化せず、一括して一つの符合で表現する多次
元信号量子化手法として、音声や画像の高能率符号化法
として注目を集めている。ベクトル量子化は入力ベクト
ルに最も近いコードベクトルを求め、そのコードで入力
ベクトルを代表させる方法である。したがって、入力ベ
クトルと全コードベクトルとの距離演算が必要である。
ベクトル量子化による符号化誤差を小さくするため、コ
ードブックの規模及びコードベクトルの探索時間が指数
関数的に増大し、ハードウェア実現が困難になる。
【0019】ベクトル量子化の演算量を削減する手法と
して、次の3つの方法がある。第1の方法は、2進木探
索が可能なようにコードベクトルを設計し、入力ベクト
ルに対して距離最小のコードベクトルを2進木による探
索により求めるものである。
【0020】渡辺らは、文献(“主成分分析を用いた2
進木探索コードブックの設計法”、音声研究会資料SP
87−129、1987年2月)で、2進木探索が可能
なコードブックの設計法を示している。2進木探索によ
れば、入力ベクトルと比較するコードベクトルの数は、
log2 (N)のオーダとなり、比較回数を大幅に削減
できる。
【0021】第2の方法は、任意の構造を持ったコード
ベクトルの集合について、2進木探索を行うものであ
る。Chengらは、文献(“A Fast code
book searchalgorithm for
nearest−neighbor pattern
matching”、ICASSP86 予稿集、26
5頁〜268頁、1986年)で、任意のコードベクト
ルからなるコードベクトル集合について、コードベクト
ルの全体集合から始めて、超平面によるコードベクトル
集合の2分割処理を、要素一つからなるコードベクトル
集合が得られるまで2進木にしたがって順次繰り返し、
入力ベクトルに最も近いコードベクトルを探索する方法
を提案している。
【0022】ノードnに付随する超平面は、入力ベクト
ルx(t)に対する係数ベクトルu(n)と定数ベクト
ルc(n)とで記憶されている。入力ベクトルx(t)
に対して、各ノードで次の関係式を計算し、関係(A)
が満足されれば、左側の枝のノードに進み、入力ベクト
ルの最近隣コードは左側の部分集合ΩL に属するとす
る。また、関係(B)が満足されれば、右側の枝のノー
ドに進み、入力ベクトルの最近隣コードは右側の部分集
合ΩR に属するとする。
【0023】
【数3】
【0024】第3の方法は、一般の探索手法を用いるも
のである。丸田らは、文献(“文字認識における距離計
算の高速化の検討”、1997年電子情報通信学会総合
大会予稿集、310頁)で、特徴空間を探索しながら最
小距離を与えるカテゴリ(コードベクトルに相当)を検
出している。各カテゴリはテンプレートベクトルとして
与えられる。この方法では、何らかの方法で与えられた
初期カテゴリを元に、カテゴリ毎に予め作成しておいた
近傍のカテゴリリストを参照し、現在のカテゴリの近傍
カテゴリについて、その中での最小距離を与えるカテゴ
リを選択し、このカテゴリを新たに種のカテゴリと設定
して、再度探索を繰り返すものである。
【0025】以上のベクトル量子化の方法には次のよう
な問題がある。第1の方法では、2進木探索が可能なコ
ードベクトルの設計が必要である。第2の方法では、多
次元空間を超平面で次々に分割して行くものであるが、
超平面で多次元空間をうまく均等に分割することは一般
には難しく、最終的に1個の要素分布にたどり着くには
多くの判定が必要になり、演算量の削減の効果はほとん
どない。また、判定のための情報を記憶するため、かな
りのメモリを必要とする。第3の方法では、初期ベクト
ルを与える方法が開示されていない。また、探索の結果
がローカルミニマムに陥ることがあり、最適な解である
保証はない。このため、ベクトル量子化の精度の劣化が
生じる可能性がある。また、パターン認識に用いたとき
は認識精度劣化の可能性がある。
【0026】・共有化による混合分布演算の削減方法:
混合分布又はベクトル量子化の演算量削減の方法として
は、上記の「予備選択による方法」の他に、HMMの部
分を共通化して、演算量を削減する方法がある。
【0027】小森らは、文献(特開平7−261788
号公報)で、認識時の演算量を減らすため、あるクラス
内において、複数のHMMのうち、そのHMMの関連情
報が同値であるHMMを用いてクラス毎に音声認識する
方法を示している。高橋らは、文献(“4階層共有構造
音素モデルにおける分散値共有化の効果”、日本音響学
会講演論文集、1−Q−23、平成7年3月)及び文献
(特開平8−248986号公報)で、HMMの各状態
の多次元正規分布における各次元に存在する正規分布中
の、平均値及び分散値が共に類似するものを共通化する
ことにより、HMMの混合分布の演算量を削減する方法
を示している。
【0028】上記のHMMの部分の共有化による演算量
削減の方法には次のような問題がある。共有化を進める
と演算時間は減少するものの、HMMの分解能が低下
し、認識精度が低下する。また、共有化された後のHM
Mについてはすべて演算を行う必要があり、演算量の削
減には限界がある。
【0029】以上、HMMの混合分布の演算量削減に関
する従来の技術について説明した。次に、経路探索の演
算量削減に関する従来の技術について説明する。経路探
索の演算量削減法としては、音声のフレームに同期して
仮説の数を制限するビーム探索して音声認識する方法が
ある。また、1パス目では制約の緩い経路にそって経路
スコアの推定値を求め、2パス目ではこの経路スコアの
推定値に基づいて、最適な経路の探索を行うマルチパス
の音声認識の方法がある。
【0030】野田らは、文献(“前向きヒューリスティ
ック関数を用いたビーム探索によるHMM―LR)音声
認識の検討”、日本音響学会講演論文集、3−8−1
6、平成6年10月)で、ビーム探索において、前向き
ヒューリスティクスを導入し、経路探索の演算を削減し
ている。
【0031】加藤らは、文献(“連続分布HMMのよる
単語音声認識のViterbi best−first
サーチにおける推定スコア設定法の検討”、日本音響学
会講演論文集、3−8−15、平成6年10月)で、マ
ルチパスの音声認識において、1パス目では、混合分布
の最大分岐密度及び最大経路スコアを推定スコアとして
求め、2パス目では、ベストファースト探索を行うこと
により、経路探索に要する演算量を削減している。
【0032】1パス目で求める最大経路スコアとして
は、音素内、単語内、全単語内で求める方法が示されて
いる。なお、ベストファースト探索は、仮説(探索の途
中であるので部分仮説と呼ばれる)を展開する際に、現
在のスコアと将来のスコアの推定値に基づいて評価値を
計算し、この評価値が最大の仮説を優先的に展開し、探
索を進める方法である。
【0033】ここで、スコアの推定値が真のスコアに比
較して大きいか、等しいとき、A*条件を満足すると言
われる。ベストファースト探索において、A*条件を満
足する推定値を用いる探索をA*探索という。A*探索
では、探索の最初に見つかる解がフル探索での最適解と
一致することが知られている。
【0034】上記の方法では次のような問題がある。野
田らの方法では、ビーム幅を一定値以下に下げると精度
が劣化する。加藤らの方法では、A*探索の条件が満足
されるので、精度劣化はない。しかしながら、1回目の
パスで、推定スコアを求める際に、混合分布のなかで最
大分岐密度を有する要素分布を求める必要がある。実際
には、大語彙の音声認識に適用する場合、このための演
算量は無視できないものとなる。
【0035】
【発明が解決しようとする課題】従来の音声認識装置は
以上のように構成されているので、前処理としてベクト
ル量子化の演算を必要とし、また、混合分布として木構
造化された分布を用いる必要があり、さらに、予備選択
のために別の混合分布が必要であるため、演算量が膨大
になり、音声認識処理に長時間を要する課題があった。
また、共有化による認識精度が低下する課題があり、ま
た、マルチパスの音声認識処理において、推定スコアの
演算量が無視できないほど大きくなる課題もあった。
【0036】この発明は上記のような課題を解決するた
めになされたもので、演算量を削減することができる要
素分布の探索方法,ベクトル量子化方法,パターン認識
方法,音声認識方法,音声認識装置及び認識結果を決定
するためのプログラムが記録された記録媒体を得ること
を目的とする。
【0037】
【課題を解決するための手段】この発明に係る要素分布
の探索方法は、展開済の次元数が入力ベクトルの次元数
に一致するまで、次元方向にベストファースト探索を実
行するようにしたものである。
【0038】この発明に係る要素分布の探索方法は、展
開済の次元数が増加する方向にベストファースト探索を
実行するようにしたものである。
【0039】この発明に係る要素分布の探索方法は、第
k+1次元から第K次元における確率値の累積値の推定
値を、自由度K−kのカイ2乗分布の分布関数値が所定
値に達するときのカイ2乗分布の独立変数値に基づいて
計算するようにしたものである。
【0040】この発明に係る要素分布の探索方法は、第
k+1次元から第K次元における確率値の累積値の推定
値を、学習用の音声データが示す値の分布に基づいて計
算するようにしたものである。
【0041】この発明に係る要素分布の探索方法は、要
素分布を複数のクラスタに分割し、各クラスタについ
て、第k+1次元から第K次元における確率値の累積値
の推定値を、学習用の音声データが示す値の分布に基づ
いて計算するようにしたものである。
【0042】この発明に係る要素分布の探索方法は、ベ
ストファースト探索で最初から複数個の解を求めて、そ
の複数個の解の中で、上位複数個の評価値を有する要素
分布を求めるようにしたものである。
【0043】この発明に係る要素分布の探索方法は、第
k+1次元から第K次元における確率値の累積値の推定
値を、各要素分布における各次元の一次元の分布を各分
布の平均値の数直線上での配列に基づいて複数の区間に
分割し、各区間について求めた各次元毎の不等式と、入
力ベクトルの各次元の数値とに基づいて計算するように
したものである。
【0044】この発明に係る要素分布の探索方法は、第
k+1次元から第K次元における確率値の累積値の推定
値を、要素分布を複数のクラスタに分割し、複数のクラ
スタのそれぞれについて各次元毎に得られた不等式と、
入力ベクトルの各次元の数値とに基づいて計算するよう
にしたものである。
【0045】この発明に係る要素分布の探索方法は、探
索の閾値を設けて、第k次元までの探索の累積値又は評
価値が、その閾値を下回る場合、当該仮説の探索を打ち
切るようにしたものである。
【0046】この発明に係る要素分布の探索方法は、要
素分布に依存して探索の閾値を設けて、第k次元までの
探索の累積値又は評価値が、その閾値を下回る場合、当
該仮説の探索を打ち切るようにしたものである。
【0047】この発明に係る要素分布の探索方法は、探
索の閾値として、入力ベクトルの次元数をKとし、自由
度K−kのカイ2乗分布の分布関数が一定の数値に到達
するときの独立変数の値に基づいて計算した値を用いる
ようにしたものである。
【0048】この発明に係る要素分布の探索方法は、展
開済の次元数を増加させる際に2以上次元数を増加させ
るベストファースト探索を実行するようにしたものであ
る。
【0049】この発明に係るベクトル量子化方法は、多
次元の入力ベクトルに対して、複数のコードベクトルの
中で最大の類似度を有するコードベクトルを次元方向に
ベストファースト探索して求めるようにしたものであ
る。
【0050】この発明に係るパターン認識方法は、多次
元の入力ベクトルに対して、複数のモデルベクトルの中
で最大の類似度を有するモデルベクトルを次元方向にベ
ストファースト探索して求めるようにしたものである。
【0051】この発明に係る音声認識方法は、多次元の
入力ベクトルに対して、評価値最大の要素分布のベスト
ファースト探索を実行し、評価値最大をとる要素確率分
布の確率はベストファースト探索の結果として計算され
た確率を用い、その他の要素確率分布の確率については
ベストファースト探索の途中次元までの評価値を用いて
認識単位のスコア計算を実行して認識結果を決定するよ
うにしたものである。
【0052】この発明に係る音声認識方法は、多次元の
入力ベクトルに対して、評価値の大きい方からN個の分
岐確率密度のベストファースト探索を実行し、評価値の
大きい方からN個の分岐密度をとる要素確率分布の確率
はベストファースト探索の結果として計算された確率の
大きい方からN個の要素分布の確率を用い、その他の要
素分布の確率についてはベストファースト探索の途中次
元までの評価値を用いて認識単位のスコア計算を実行し
て認識結果を決定するようにしたものである。
【0053】この発明に係る音声認識方法は、1回目の
認識単位の系列の中で経路の制約を緩めたスコアの推定
値を計算する事に際して、多次元の入力ベクトルに対し
て、評価値最大の要素分布のベストファースト探索を実
行し、その評価値最大の要素分布の確率はベストファー
スト探索の結果として計算された確率を用い、その他の
要素分布の確率についてはベストファースト探索の途中
次元までの評価値を用いて認識単位のスコア計算を実行
して認識結果を決定するようにしたものである。
【0054】この発明に係る音声認識方法は、1回目の
認識単位の系列の中で経路の制約を緩めたスコアの推定
値を計算する事に際して、多次元の入力ベクトルに対し
て、評価値の大きい方からN個の分岐確率密度のベスト
ファースト探索を実行し、その評価値の大きい方からN
個の分岐密度をとる要素分布の確率はベストファースト
探索の結果として計算された評価値の大きい方からN個
の要素分布の確率を用い、その他の要素分布の確率につ
いてはベストファースト探索の途中次元までの評価値を
用いて認識単位のスコア計算を実行して認識結果を決定
するようにしたものである。
【0055】この発明に係る音声認識装置は、多次元の
入力ベクトルに対して、評価値最大の要素分布のベスト
ファースト探索を実行し、評価値最大をとる要素分布の
確率はベストファースト探索の結果として計算された確
率を用い、その他の要素分布の確率についてはベストフ
ァースト探索の途中次元までの評価値を用いて認識単位
のスコア計算を行うようにしたものである。
【0056】この発明に係る音声認識装置は、多次元の
入力ベクトルに対して、評価値の大きい方からN個の要
素分布のベストファースト探索を実行し、その評価値の
大きい方からN個の要素分布の確率はベストファースト
探索の結果として計算された評価値の大きい方からN個
の要素分布の確率を用い、その他の要素分布の確率につ
いてはベストファースト探索の途中次元までの評価値を
用いて認識単位のスコア計算を行うようにしたものであ
る。
【0057】この発明に係る音声認識装置は、1回目の
認識単位の系列の中で経路の制約を緩めたスコアの推定
値を計算する事に際して、多次元の入力ベクトルに対し
て、評価値最大の要素分布のベストファースト探索を実
行し、その評価値最大をとる要素分布の確率はベストフ
ァースト探索の結果として計算された確率を用い、その
他の要素分布の確率についてはベストファースト探索の
途中次元までの評価値を用いて認識単位のスコア計算を
実行して認識結果を決定するようにしたものである。
【0058】この発明に係る音声認識装置は、1回目の
認識単位の系列の中で経路の制約を緩めたスコアの推定
値を計算する事に際して、多次元の入力ベクトルに対し
て、評価値の大きい方からN個の要素分布のベストファ
ースト探索を実行し、その評価値の大きい方からN個の
要素分布の確率はベストファースト探索の結果として計
算された評価値の大きい方からN個の要素分布の確率を
用い、その他の要素分布の確率についてはベストファー
スト探索の途中次元までの評価値を用いて認識単位のス
コア計算を実行して認識結果を決定するようにしたもの
である。
【0059】この発明に係る認識結果を決定するための
プログラムが記録された記録媒体は、多次元の入力ベク
トルに対して、複数の多次元の連続分布からなる混合連
続確率分布のモデルで表現された認識単位のスコアを評
価値最大の要素分布のベストファースト探索を実行し、
その評価値最大をとる要素分布の確率はベストファース
ト探索の結果として計算された要素分布の確率を用い、
その他の要素確率分布の確率についてはベストファース
ト探索の途中次元までの評価値を用いて認識単位のスコ
ア計算を実行し、そのスコア計算の結果に基づいて、認
識単位の系列の中でスコアの最も高い認識単位の系列を
選択するようにしたものである。
【0060】この発明に係る認識結果を決定するための
プログラムが記録された記録媒体は、多次元の入力ベク
トルに対して、複数の多次元の連続分布からなる混合連
続確率分布のモデルで表現された認識単位のスコアを評
価値の大きい方からN個の要素分布のベストファースト
探索を実行し、その評価値の大きい方からN個の評価値
をとる要素分布の確率はベストファースト探索の結果と
して計算された評価値の大きい方からN個の要素分布の
確率を用い、その他の要素分布の確率についてはベスト
ファースト探索の途中次元までの評価値を用いて認識単
位のスコア計算を実行し、そのスコア計算の結果に基づ
いて認識単位の系列の中でスコアの最も高い認識単位の
系列を選択するようにしたものである。
【0061】この発明に係る認識結果を決定するための
プログラムが記録された記録媒体は、多次元の入力ベク
トルに対して、複数の多次元の連続分布からなる混合連
続確率分布に基づいて認識単位のスコアの推定値を計算
するスコア計算し、1回目は認識単位の系列の中で経路
の制約を緩めたスコアの推定値を求め、2回目は1回目
で求めたスコアの推定値に基づいて認識単位の完全な系
列の中で最もスコアの高い認識単位の系列を探索して求
め、1回目の認識単位の系列の中で経路の制約を緩めた
スコアの推定値を計算する事に際して、その多次元の入
力ベクトルに対して評価値最大の分岐確率密度のベスト
ファースト探索を実行し、その評価値最大をとる要素分
布の確率はベストファースト探索の結果として計算され
た確率を用い、その他の要素分布の確率についてはベス
トファースト探索の途中次元までの評価値を用いて認識
単位のスコア計算を実行して、認識結果を決定するよう
にしたものである。
【0062】この発明に係る認識結果を決定するための
プログラムが記録された記録媒体は、多次元の入力ベク
トルに対して、複数の多次元の連続分布からなる混合連
続確率分布に基づいて認識単位のスコアを計算し、1回
目は認識単位の系列の中で経路の制約を緩めたスコアの
推定値を求め、2回目は1回目で求めたスコアの推定値
に基づいて認識単位の完全な系列の中で最もスコアの高
い認識単位の系列を探索して求め、1回目の認識単位の
系列の中で経路の制約を緩めたスコアの推定値を計算す
る事に際して、その多次元の入力ベクトルに対して、評
価値の大きい方からN個の分岐確率密度のベストファー
スト探索を実行し、その評価値の大きい方からN個の要
素分布の確率はベストファースト探索の結果として計算
された評価値の大きい方からN個の要素分布の確率を用
い、その他の要素分布の確率についてはベストファース
ト探索の途中次元までの評価値を用いて認識単位のスコ
ア計算を実行して、認識結果を決定するようにしたもの
である。
【0063】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1による音
声認識装置を示す構成図であり、図において、1は入力
音声、2は入力音声1を分析して特徴ベクトル3に変換
する音声分析手段、4は特徴ベクトル3に対して、HM
M記憶手段8に記憶された混合連続分布HMMの状態H
MMの確率を計算する確率演算手段(スコア計算手
段)、5は経路データ記憶手段9の経路データに従っ
て、状態HMMの連結から音素や単語を構成し、経路の
各状態において、その状態に至る状態HMMの系列の中
でスコアが最大の経路を決定し、そのスコアを求める経
路演算手段(スコア計算手段)、6は経路演算手段5の
決定した経路を音声の終端から後ろ向きに探索して最適
な経路に沿う状態HMMの系列を求めて、入力音声1に
対する認識結果7を出力する最適経路決定手段(認識結
果選択手段)である。
【0064】次に動作について説明する。音声分析の周
期は10msであり、特徴ベクトル3は、分析次数12
のメル周波数軸ケプストラム分析の結果得られたc
(0),c(1),c(2),…,c(12)と、それ
らの時間変化率であるΔc(0),Δc(1),Δc
(2),…,Δc(12)とをベクトルの成分とした2
6次元のベクトルである。以後特徴ベクトル3の次元を
Kとする。
【0065】HMM記憶手段8には状態HMMが記憶さ
れている。図2は状態HMMの構造を示す。状態HMM
は、2状態1ループの構造を持つ。状態遷移に付随する
出力確率分布は、複数(本実施の形態では16個)の連
続分布を要素分布とした混合連続分布となっている。ま
た、各状態遷移に付随する出力確率分布は、いわゆる結
びの関係を持たせ共通なものとしてある。
【0066】状態HMMは、全体で2000個ある。音
素HMMは、音素環境依存型であり、これらの状態HM
Mのうちの何れかを3つ連結し、3状態のHMMとして
構成される。単語HMMは、さらにこのようにして構成
される3状態の音素HMMを単語の音素表記に従って音
素数分連結したものとして構成される。
【0067】時刻tの入力ベクトルx(t)に対するあ
る状態HMMの出力確率は、厳密には、次式で求められ
る。ただし、M(j)は第j番目の状態の混合連続分布
に含まれる要素分布の個数であり、本実施の形態では全
状態とも16である。以下、状態jの混合分布を説明対
象とするので、インデックスjを省略して、M(j)を
M、λ(j,m)をλ(m)などと略記する。
【0068】
【数4】
【0069】また、f(x(t),m)は第m番目の要
素分布の分岐密度(連続分布の密度関数)であり、無相
関正規分布である本実施の形態では、次式で与えられ
る。ただし、x(t,k)は入力ベクトルx(t)の第
k次元目の要素の値、μ(m,k)は第m番目の要素分
布の第k次元目の平均値、σ(m,k)は第m番目の要
素分布の第k次元目の分散である。
【0070】
【数5】
【0071】上記の出力確率は、分岐密度の和として計
算されるが、本実施の形態では、この出力確率計算の近
似式として、次式のように、分岐確率λ(m)と分岐密
度f(x(t),m)の積λ(m)f(x(t),m)
(以後、分岐出力確率と呼ぶ)の最大値を用いている。
この近似式による出力確率(以後、最大分岐出力確率と
呼ぶ)を用いたときの精度低下は僅かであることは認識
実験により確認されている。
【0072】
【数6】
【0073】本実施の形態では、最大化出力確率b
‘(x(t))を以下のベストファースト探索を適用し
て計算する。
【0074】以下、この方法について説明する。まず、
分岐出力確率λ(m)f(x(t),m)の対数をとる
と、式(1)から次のように変形できる。
【0075】
【数7】
【0076】ここに、A(m)及びB(m)は入力ベク
トルに依存しないので、事前に計算しておく。対数関数
の単調増加性から、最大化出力確率b‘(x(t))を
求めることと、式(2)のmに関する最大値を求めるこ
ととは等価である。よって、式(2)を最大とする要素
分布を求められれば、式(1)はその値の指数関数(e
xp(x))の値として計算することができる。
【0077】次に式(2)を最大とする要素分布を求め
る探索方法について説明する。図3はこの探索で用いる
機能の構成図である。仮説展開制御部2001は仮説記
憶部(スタックとも呼ぶ)2002に記憶された仮説の
取り出し、展開処理を行う。
【0078】仮説記憶部2002に記憶される仮説は、
それぞれ、分布の番号m、計算済の次元数k、第1次元
から第k次元までの各次元の一次元の分布の確率の累積
値g(m,k)の数値を有する。累積値g(m,k)
は、式(2)のC(x(t),m,k)のKをkとした
ときの値であり、 g(m,k)=A(m)+B(m)+C(x(t),
m,k) である。
【0079】探索の途中の仮説はスタックに格納され
る。スタックは、ヒープと呼ばれる完全2分木として作
成することができる。図4はヒープを用いた仮説記憶部
の説明図である。ヒープはメモリの1次元配列Aとして
実現される。配列Aのインデックスを一般にnと2*
n、2* n+1とすると、A[n]≧max(A[2*
n],A[2* n+1])の関係を有する。
【0080】ヒープで仮説を管理することで、最大値を
有する仮説は配列Aの先頭A[1]に必ずあるため、極
めて高速に最大値を取り出すことができる。また、ヒー
プに仮説を格納するときは、ヒープの根(即ち配列の要
素A[1])から葉に向かって、2分木を辿って、配列
の要素を交換しながら、上記の大小関係A[n]≧ma
x(A[2* n],A[2* n+1])を満足する位置
に仮説を格納する。この処理は仮説の数の2の対数の2
倍のオーダー(O(2log2N))の演算量しか必要
とせず、極めて高速に行われる。
【0081】図5は式(2)の計算を次元方向に探索を
進めるベストファースト探索のフローチャートである。
次に各処理ステップについて説明する。ステップST1
において、第j状態の混合連続分布のすべての要素分布
(第1〜第M(j)分布)について、初期仮説を生成す
る。生成された仮説は仮説記憶部2002に記憶され
る。ここで、第m番目の要素分布の初期仮説は、分布の
番号をm、計算済の次元数を0、各次元の一次元の分布
の累積値g(m,0)を g(m,0)=A(m)+B(m) とする。
【0082】ステップST2において、累積値最大の仮
説を仮説記憶部2002から取り出す。この仮説の要素
分布番号、展開済次元数、累積値を、以下、それぞれ、
m,k,g(m,k)として説明する。
【0083】ステップST3において、計算済の次元数
kが最終次元のK(本実施の形態では26)に到達して
いるかを調べ、最終次元に到達している場合(k=26
のとき)は、ベストファースト探索の理論により、この
仮説が確率最大の要素分布に該当するので、この仮説を
探索された解として、解の処理を行うため、ステップS
T7に進む。もし、最終次元に到達していない場合(k
<26のとき)は、ステップST4に進む。
【0084】ステップST4において、次元数を1増や
し、k+1とする。ステップST5において、次元数k
+1までの累積値を計算する(ただし、ここでの次元数
kはステップST4において1増やす前の値として説明
する。なお、以下の実施の形態でも同様とする)。この
累積値は、次元kまでの累積値g(m,k)に、次元k
+1の一次元の連続分布の対数確率値(以後尤度と呼
ぶ)を加算して、g(m,k+1)を次式のように計算
する。ただし、一次元の連続分布の対数確率値に含まれ
る定数項−(1/2)log(2πσ(m,k))はス
テップST1において既に定数項B(m)の中で加算済
であり除く。
【0085】
【数8】
【0086】ところで、分散σ(m,k)は正の値であ
り、かつ、分子も2乗されているため正の値であるの
で、累積値g(m,k+1)はg(m,k)に等しい
か、より小さく、累積値g(m,k)は次元数kに関し
て単調非増加関数となっている。
【0087】ステップST6において、この仮説の要素
分布番号、展開済次元数、累積値を、それぞれ、m,k
+1,g(m,k+1)とした仮説を作成し、仮説記憶
部2002に記憶して、ステップST2に戻る。ステッ
プST2における処理は前述の通りであり、ステップS
T3において、解が見つかるまで以上の処理が繰り返さ
れる。
【0088】ステップST7では、仮説を解として記憶
し、処理を終了する。さて、ステップST7において、
解として得られた仮説については、要素分布番号、展開
済次元数、累積値は、それぞれ、m、K、g(m,K)
となっている。g(m,K)は次式のように各次元の尤
度の和であり、要素分布mの第1次元から第K次元まで
の尤度の和であり、M(j)個の混合分布の中では、最
大の尤度となっている。 g(m,K)=A(m)+B(m)+C(x(t),
m,K)
【0089】これによって、最大の尤度を有する要素分
布は解として求まった仮説の要素分布番号mとして求め
られる。また、その対数確率は解として求まった仮説の
累積値として得られる。
【0090】図6は探索終了時点のスタックに残された
仮説の様子をそれらの展開履歴と共に示すグラフ図であ
る。この図で□印が最終次元Kまで展開された各次元の
尤度の累積値最大の仮説の展開履歴を示す。また、○印
及び×印が途中の次元まで展開された仮説の展開履歴を
示す。
【0091】さて、この図から分かるように、スタック
に展開されずに途中次元の計算して残っている仮説につ
いては、その途中次元から最終次元までの一次元の尤度
計算をしていない。したがって、本実施の形態の方法で
は、演算回数はスタックに展開されずに残っている要素
分布の残りの展開すべき次元数の分だけ、一次元の尤度
計算をしなくて済み、全要素分布の確率を求めてから、
確率の最大の要素分布を求める従来のフル探索の方法に
比べて、演算量が削減される。
【0092】従って、本実施の形態では、ベストファー
スト探索を用いているので、フル探索に比較して、一次
元の尤度計算の演算回数を削減して、尤度最大の分岐確
率密度を求めることができるという効果がある。また、
ベクトル量子化や、元々の混合分布に含まれる要素分布
以外に確率分布を用いる必要がないという効果がある。
また、ローカルミニマムに陥る危険のある一般の探索手
法に比較して、ベストファースト探索により、必ず、最
大の確率を有する要素分布を最初の解として求められる
ため、最大分岐出力確率の計算の精度を犠牲にすること
がないという効果がある。
【0093】実施の形態2.上記実施の形態1では、次
元数Kの多次元の入力ベクトルに対して、第k次元まで
の1次元の分布の確率値の第1次元から第k次元までの
累積値が最大の要素分布についての仮説を、次元方向に
展開するベストファースト探索を用いた。この場合、将
来の第k+1次元から入力ベクトルの次元数であるK次
元までの累積値の推定値の情報は用いていない。
【0094】そこで、本実施の形態では、第1次元から
第k次元までの累積値に、第k+1次元から前記第K次
元までの累積値の推定値を加えて、解が得られるまでに
要するベストファースト探索の仮説の展開回数の削減を
図る。
【0095】図7は探索のためのフローチャート、図8
は探索のための機能ブロック図である。仮説展開制御部
2001は仮説記憶部2002に記憶された仮説の取り
出し、展開処理を行う。仮説記憶部2002に記憶され
る仮説は、それぞれ、要素分布の番号m、計算済の次元
数k、第1次元から第k次元までの各次元の一次元の分
布の尤度の累積値g(m,k)、評価値f(m,k)の
各数値を有する。
【0096】累積値g(m,k)は、要素分布mの第1
次元から第k次元までの各次元の尤度の累積値であり、
式(2)のC(x(t),m,k)のKをkとしたとき
の値として、次式で計算した値である。 g(m,k)=A(m)+B(m)+C(x(t),
m,k) また、評価値f(m,k)は、この累積値g(m,k)
と推定値h(m,k)とを用いて、次式で計算される。 f(m,k)=g(m,k)+h(m,k)
【0097】ここで、推定値h(m,k)は、要素分布
mの第k+1次元から最終の第K次元までの各次元の尤
度の累積値の推定値である。その具体例は実施の形態3
以下で説明するので、ここでは、その詳細な説明を省略
し、この推定値があるものとして、これを用いたベスト
ファースト探索の概略を説明する。次に各処理ステップ
について説明する。
【0098】ステップST11において、時刻tの特徴
ベクトルx(t)が与えられる。この入力ベクトルの各
次元k(k=1,2,…,K)の値をx(t,k)とす
る。ステップST12において、要素分布mの第k+1
次元から最終の第K次元までの各次元の尤度の累積値の
推定値h(m,k)(k=1,2,…,K)を計算す
る。ただし、最終次元Kの推定値はh(m,K)=0と
する。
【0099】ステップST1において、第j状態の混合
分布のすべての要素分布(第1〜第M(j)分布)つい
て、初期仮説を生成する。生成された仮説は仮説記憶部
2002に記憶される。ここで、第m番目の分布の初期
仮説は、要素分布の番号をm、計算済の次元数を0、各
次元の一次元の対数確率(尤度)の累積値をg(m,
0)、評価値をf(m,0)とする。ただし、次式のよ
うに累積値g(m,0)は要素分布の分岐出力確率の定
数項とし、また、評価値f(m,0)は累積値g(m,
0)と推定値h(m,0)に基づいて次式のように与え
る。 g(m,0)=A(m)+B(m) f(m,0)=g(m,0)+h(m,0)
【0100】ステップST2において、評価値f(m,
k)最大の仮説を仮説記憶部2002から取り出す。こ
の仮説の要素分布番号、展開済次元数、累積値、評価値
を、以下、それぞれ、m,k,g(m,k),f(m,
k)として説明する。
【0101】ステップST3において、計算済の次元数
kが最終次元K(=26)に到達しているかを調べ、最
終次元に到達している場合(k=26のとき)は、ベス
トファースト探索の理論により、この仮説が評価値最大
の要素分布に該当するので、この仮説を探索された解と
して、解の処理を行うため、ステップST7に進む。も
し、最終次元に到達していない場合(k<26のとき)
は、ステップST4に進む。
【0102】ステップST4において、次元数を1増や
し、k+1とする。ステップST5において、まず、次
元数k+1までの累積値g(m,k+1)を計算する。
この累積値g(m,k+1)は、次式のように次元kま
での累積値g(m,k)に、次元k+1の一次元の連続
分布の尤度を計算して加える。ただし、一次元の連続分
布の対数確率値に含まれる定数項−(1/2)log
(2πσ(m,k))はステップST1において既に定
数項B(m)の中で加算済であり除く。
【0103】
【数9】
【0104】また、第k+1次元から第K次元までの各
次元の一次元の分布の累積値の推定値(h(m,k+
1)とする)を推定値計算部2003で計算する。この
推定値の具体的な計算例は以下の幾つかの実施の形態で
説明されるのでここでの説明を省略する。そして、累積
尤度g(m,k+1)と推定値h(m,k+1)とに基
づいて、評価値f(m,k+1)を次式で計算する。 f(m,k+1)=g(m,k+1)+h(m,k+
1)
【0105】ステップST6において、この仮説の要素
分布番号、展開済次元数、累積値、評価値を、それぞ
れ、m,k+1,g(m,k+1),f(m,k+1)
とした仮説を作成し、仮説記憶部2002に記憶して、
ステップST2に戻る。戻った後のステップST2にお
ける処理は前述の通りである。
【0106】ステップST7では、仮説を解として記憶
し、処理を終了する。以下の幾つかの実施の形態では、
推定値h(m,k)の具体的な例について説明する。
【0107】実施の形態3.本実施の形態では、上記実
施の形態2において、第k+1次元から最終の第K次元
までの尤度累積値の推定値h(m,k)を統計理論にに
基づいて推定するものである。
【0108】次元数Kの入力ベクトルに対して、分岐出
力確率最大の要素分布を決定するためのベストファース
ト探索のフローチャートは図7に示したものと同一であ
る。即ち、文献(Morrison著:“Multiv
ariate Statistical Method
s”、10頁)に述べられているように、平均0、分散
1の独立した正規分布に従うn個の確率変数、X1,X
2,…,Xnの和として定義される変数χは、自由度n
のカイ2乗分布に従って分布する。一般に、Xiが独立
した平均μi,分散σiに従うとき
【0109】
【数10】
【0110】として定義される変数は、自由度nのカイ
2乗分布に従って分布する。ところで、ある要素分布の
第k+1次元から第K次元までの一次元の尤度の累積値
は、前記式の通り、
【0111】
【数11】
【0112】であり、形式的に上の式と一致する。よっ
て、第k+1次元から第K次元までの一次元の尤度の累
積値は、比例定数(この場合−1/2)を除けば、自由
度K−kのカイ2乗分布に従って分布すると期待され
る。
【0113】図9は自由度nのカイ2乗分布の分布関数
のテーブルの一部分を示す(テーブルの全体は上記文献
の366頁に示されている)。このテーブルから、例え
ば、自由度10のカイ2乗分布の独立変数χの値が2.
56以下となる確率は1%、3.25以下となる確率は
2.5%、3.94以下となる確率は5%等々であるこ
とが読み取れる。従って、残り次元が10次元の時、一
次元の確率の累積値が2.56×比例定数=2.56×
(−1/2)=−1.28以上の値をとる確率は1%で
ある。したがって、99%の確率で、累積値は−1.2
8より小さな値となることが期待される。
【0114】この性質を使うことにより、第k+1次元
から第K次元までの累積値の推定値h(m,k)を次式
で与える。 h(m,k)=X(K−k,p)×(−1/2) ここで、X(n,p)は自由度nのカイ2乗分布のパー
セントポイントがpであるときの独立変数の値である
(例えば、自由度10のカイ2乗分布の5%ポイントは
X(10,0.05)=3.94である)。この値は、
図9で示したテーブルを検索して求められる。
【0115】この式から明らかなように、本実施の形態
の評価値h(m,k)は、要素分布の各次元の平均値お
よび分散には依存しないので、すべての要素分布に共通
の評価値となる。このため、評価値の計算が仮説の展開
済の次元数kをキーとしたテーブル検索で実現可能であ
る。
【0116】欠点としては、推定値が実際の累積値より
小さくなる確率がpパーセントあるので、この推定値に
基づく評価値は、真の値より小さくなる可能性がpパー
セントあり、A*条件を満たさない可能性がある。この
ため、評価値最大の仮説を優先的に展開するベストファ
ースト探索で最初に得られる解は、必ずしも、入力ベク
トルによっては、分岐出力確率が最大の要素分布が得ら
れず、即ち、探索エラーが生じる可能性がある。
【0117】実施の形態4.本実施の形態では、上記実
施の形態2において、第k+1次元から第K次元までの
累積値の推定値h(m,k)をK次元の入力ベクトルの
I個の標本x(i)(i=1,2,…,I)から求めた
値とするものである。
【0118】次元数Kの入力ベクトルに対して、分岐出
力確率が最大の要素分布を決定するためのベストファー
スト探索のフローチャートは図7に示したものと同一で
ある。K次元の入力ベクトルの標本x(i)は、学習用
の音声データを分析して求める。
【0119】次に入力ベクトルの各標本x(i)につい
て、第m番目の要素分布を用いたときの第k+1次元か
ら第K次元までの各次元の一次元の尤度の累積値h
(m,k,x(i))を次式で求める。
【0120】
【数12】
【0121】ここで、x(i,n)は標本x(i)のn
次元目の値である。探索に用いる推定値h(m,k)
は、これら標本から求めた累積値h(m,k,x
(i))を要素分布のインデックスm及び標本のインデ
ックスiに関する最大値として次式で求める。
【0122】
【数13】
【0123】第k+1次元から第K次元までの累積値の
推定値として、実際の入力ベクトルから求めた最大値を
使うので、A*条件を満たさない可能性が減少する。こ
の結果、探索エラーが減少するという効果がある。
【0124】実施の形態5.本実施の形態では、上記実
施の形態2において、第k+1次元から第K次元までの
累積値の推定値h(m,k)をK次元の入力ベクトルの
標本から求めた値とするものである。さらに、要素分布
を要素分布間の類似度に基づいて、複数のクラスタに分
類し、このクラスタ毎に、推定値を求めるようにしたも
のである。
【0125】次元数Kの入力ベクトルに対して、分岐出
力確率最大の要素分布を決定するためのベストファース
ト探索のフローチャートは図7に示したものと同一であ
る。次に推定値の作成について説明する。
【0126】まず、要素分布をLBGアルゴリズムやK
平均法などの適宜なクラスタリング手法によって、要素
分布をC個のクラスタに分類する。ここでは、K平均法
を用いている。K平均法では、始めにC個の種となる要
素分布をランダムに選択し、代表分布とする。
【0127】次にこれらC個の代表分布を用いて、代表
分布からの距離に基づいて、全要素分布の各要素分布を
距離が最小の代表分布の分類とすることにより全要素分
布を分類する。分布間の距離はカルバックダイバージェ
ンスや、チェルノフ距離、バッタチャリア距離などを用
いることができるが、ここでは、分布間の距離は計算が
簡単であることからカルバックダイバージェンスを用い
ている。
【0128】次にC個の分類のそれぞれについて、その
分類に分類された要素分布どうしの平均距離が最小とな
るように代表分布を選び直す。さらに、選び直した代表
分布を用いて全要素分布を再分類する。以上の処理を分
類が収束するまで繰り返す。
【0129】次にK次元の入力ベクトルの標本は、学習
用の音声データを分析して求める。この手続きは上記実
施の形態4と同じである。次に入力ベクトルの各標本x
(i)(i=1,2,…,I、I標本数)について、第
k+1次元から第K次元までの累積値h(m,k,x
(i))を次式で求める。
【0130】
【数14】
【0131】ここで、x(i,n)は標本x(i)のn
次元目の値である。探索に用いる推定値h(m,k)
は、これら標本から求めた累積値h(m,k,x
(i))をクラスタc(c=1,2,…,C)に属する
要素分布のインデックスm(m∈Ω(c)、ただし、Ω
(c)はクラスタcに属する要素分布のインデックス)
及び標本のインデックスiに関する最大値として次式で
求める。
【0132】
【数15】
【0133】以上の処理で求めた推定値は、実際の入力
ベクトルから求めた最大値を使い、さらに、分類したク
ラスタ内について最大値をとるので、A*条件を満たさ
ない可能性がさらに減少するため、探索エラーがさらに
減少するという効果がある。
【0134】実施の形態6.本実施の形態では、ベスト
ファースト探索を用いて、評価値の大きい方から所定の
数(以下の説明ではS個とする)の解を順次求めて、こ
れら所定の数S個の解の中で、最大の分岐出力確率を有
する要素分布を決定する。探索のための機能ブロック図
は、図8と同一であり、仮説展開制御部2001は仮説
記憶部2002に記憶された仮説の取り出し、展開処理
を行う。
【0135】仮説記憶部2002に記憶される仮説は、
それぞれ、分布の番号m、計算済の次元数k、第1次元
から第k次元までの各次元の一次元の分布の尤度の累積
値g(m,h)及び評価値f(m,h)の各数値を有す
る。累積値g(m,h)及び評価値f(m,h)は、上
記実施の形態2と同様、それぞれ、次式で得られる。 g(m,k)=A(m)+B(m)+C(x(t),
m,k) f(m,k)=g(m,k)+h(m,k) ここで、h(m,k)は、要素分布mの第k+1次元か
ら最終の第K次元までの各次元の尤度の累積値の推定値
である。
【0136】図10は次元数Kの入力ベクトルに対し
て、評価値の大きい方からS個の要素分布を決定するた
めのベストファースト探索のフローチャートである。ス
テップST1〜ST7の各処理ステップの動作は上記実
施の形態2と同様であり、その説明を省略し、異なる部
分の処理について説明する。
【0137】ステップST21において、解の数が所定
の数であるS個に達したら、ステップST22に行く。
解の数が所定の数であるS個未満であればステップST
2に戻る。ステップST22において、評価値が大きい
方から順に記憶されたS個の解について、その要素分布
の番号をm(s)(s=1,2,…,S)として、これ
らの解の仮説どうしで、尤度の累積値g(m(s),
K)を比較して、尤度の累積値g(m(s),K)が最
大である解の仮説を選択して、この解の仮説の保持する
要素分布の番号mを分岐出力確率最大の要素分布の番号
として出力する。
【0138】次にこの実施の形態の効果を説明する。要
素分布mの第k+1次元から最終の第K次元までの各次
元の尤度の累積値の推定値h(m,k)として、前記3
つの実施の形態では、それぞれ、(a)自由度K−kの
カイ2乗分布の分布関数の値が所定の値に達するときの
独立変数値、(b)学習用の音声データの示す値の分
布、(c)クラスタリングされた要素分布の各クラスタ
についての学習用の音声データの示す値の分布から決め
た値を用いた。
【0139】このような推定値は、要素分布mの第k+
1次元から最終の第K次元までの各次元の尤度の累積値
の真の値より下回ることがある。このため、上記3つの
実施の形態では、評価値が入力ベクトルによっては、A
*条件を満たさないことがあった。このため、ベストフ
ァースト探索で最初に求まる解は最適解である保証は必
ずしもなく(即ち、解が求められた時点での評価値が最
大ではあるが、必ずしも、各次元の尤度の累積値は最大
ではないので)、探索エラーが生じることがあった。
【0140】そこで、本実施の形態では、ベストファー
スト探索で評価値が下位の順位の候補も含めた合計S個
の解を求めているので、その中に真の尤度最大の仮説が
含まれる可能性を高め、探索エラーを減少している。よ
って、本実施の形態によれば、ベストファースト探索で
最初からS個の解を求めて、さらに、その中で、尤度の
最も大きい解を選択しているので、探索エラーの生じる
可能性を少なくできるという効果がある。
【0141】実施の形態7.本実施の形態では、尤度最
大の要素分布の探索に際して、探索エラーが生じないよ
うにA*条件を満足するように推定値を計算し、ベスト
ファースト探索を行うようにした。そのため、つぎの一
般的な不等式を用いる。ここで、右辺のμmin及びμ
maxは、それぞれ左辺にある平均値μの最小値及び最
大値である。また、σmaxは左辺の分散σの最大値で
ある。
【0142】
【数16】
【0143】次に、この不等式に現れる平均値の最小値
μmin、最大値μmax及び、分散の最大値σmax
の求め方について説明する。まず、一次元の分布の分類
について説明する。図11は一次元の分布の分類のフロ
ーチャートである。また、図12は数直線上の平均値と
分割の様子を示す説明図である。
【0144】次に動作について説明する。ステップST
31において、変数kを0とする。以後、変数kは次元
を表す。ステップST32において、次元を1増やす。
ステップST33において、各要素分布の次元kの一次
元分布の平均値μ(m,k)を数直線上に並べる。
【0145】図12は全要素分布の平均値を並べ終えた
後の数直線上の平均値の配列の様子を示す。この例で
は、16個の要素分布の平均値を数直線上の○印で示
す。また、○印の上の数字は要素分布の番号を示す。ス
テップST34において、数直線上の平均値をC個の区
間に分割する。図では4個ずつの平均値を含む4個の区
間に分割した場合を示す。分割の仕方としては、例え
ば、各区間の平均値どうしの平均距離が最小になるよう
に分割しても構わない。
【0146】ステップST35において、C個のそれぞ
れの区間について、区間の両端に位置する平均値、即
ち、各区間の平均値の最小値μmin(c,k)と最大
値μmax(c,k)を求める。図の例では区間2の平
均値の最小値μmin(2,k)は要素分布7の平均値
であり、また、同区間の平均値の最大値μmax(z,
k)は要素分布15の平均値である。
【0147】ステップST36において、C個のそれぞ
れの区間cについて、区間cの中に存在する平均値を所
有する要素分布m(∈Ω(c)、ただしΩ(c)はその
次元kの一次元の分布の平均値が区間cに属する要素分
布番号の集合とする)を求め、これら要素分布の中で次
元kの各一次元の分布を見てそのなかで最大の分散σm
ax(c,k)を求める。即ち、
【0148】
【数17】
【0149】図の例では区間2の最大の分散σmax
(2,k)は、要素分布7、10、13、15の分散の
なかの最大の分散の値として求める。また、要素分布m
の区間番号をc(m,k)として記憶する。この区間番
号の記憶c(m,k)は、次の探索の中で仮説の次元k
について、要素分布番号mからその区間番号を求めるた
めに使用される。
【0150】次に時刻tの特徴ベクトルx(t)に対し
て、分岐出力確率最大の要素分布を探索する動作につい
て説明する。図13は探索のフローチャートである。図
14は探索のための機能ブロック図である。ステップS
T11において、特徴ベクトルx(t)が入力される。
ステップST12において、入力の特徴ベクトルx
(t)と、上記のように既に求められたC個のそれぞれ
の区間cについての次元kの平均値の最小値μmin
(c,k)、最大値μmax(c,k)、分散の最大値
σmax(c,k)に基づいて、区間cに平均値を有す
る要素分布のための推定値h(c,k)を計算する。推
定値h(c,k)は、次の漸化式で計算する。
【0151】
【数18】
【0152】上の式に現れるθ(c,k)は、第c番目
の分割について、第k+1次元目の一次元の分布の平均
値の最小値μmin(c,k)、最大値μmax(c,
k)、及び分散の最大値σmax(c,k)と、入力ベ
クトルx(t)の第k次元目の値x(t,k)とから、
上記不等式(3)の右辺の値を計算した値で次式のよう
に計算される。
【0153】
【数19】
【0154】この値は、A*探索の条件を満足する。し
たがって、この値θ(c,k)を使って求めた上記推定
値h(c,k)もA*探索の条件を満足する。以上のよ
うにして求められた推定値h(c,k)は、推定値記憶
部2004に記憶される。
【0155】ステップST1〜ST4については、上記
実施の形態2と同様の動作であるのでその説明を省略す
る。ステップST5において、まず、次元数k+1まで
の累積尤度g(m,k+1)を計算する。この累積尤度
g(m,k+1)は、上記実施の形態2と同様に次式の
ように計算する。
【0156】
【数20】
【0157】次に第k+1次元から第K次元までの各次
元の一次元の分布の尤度の累積値の推定値h(c,k+
1)を推定値記憶部2004から読み出す。そして、累
積尤度g(m,k+1)と推定値h(c,k+1)とに
基づいて、評価値f(m,k+1)を次式で計算する。 f(m,k+1)=g(m,k+1)+h(c,k+
1) ここで、番号cは要素分布mの区間番号c(m,k)の
記憶から求める。
【0158】ステップST6では、ステップST5で作
成された仮説を仮説記憶部2002に記憶する。最後
に、効果について説明する。本実施の形態によれば、評
価値がA*条件を満たすようにしたので、探索の結果、
最初に見つかる評価値最大の解は、尤度の累積値が最大
の解である。従って、探索エラーが生じることがない。
また、評価値を探索に用いているので、評価値を探索に
用いていない上記実施の形態1の場合に比較して、探索
のなかで仮説の生成回数を減少させ、探索のための演算
量を削減することができる。
【0159】実施の形態8.本実施の形態では、分岐出
力確率最大の要素分布の探索に際して、探索エラーが生
じないようにA*条件を満足するように推定値を設計
し、ベストファースト探索を行うようにした。そのた
め、本実施の形態でも、上記実施の形態7で用いたもの
と同一の一般的な不等式(3)を用いる。この不等式に
ついては、上記実施の形態7で説明したので、説明を省
略する。
【0160】次に本実施の形態におけるこの不等式に現
れる平均値の最小値、最大値、及び分散の最大値の求め
方について説明する。まず、混合分布を構成する要素分
布をその類似の度合いに基づいて複数のクラスタに分割
する。要素分布間の類似の程度は連続分布間の距離で測
る。また、クラスタへの分割には、LBGアルゴリズム
やK平均法などのクラスタリング手法が適用できる。こ
こでは、要素分布間の類似度としてカルバックダイバー
ジェンスを用い、クラスタリング手法としてK平均法を
用いてクラスタリングを行う。この場合、クラスタリン
グについては、上記実施の形態4で述べたものと同じで
あり説明を省略する。
【0161】次に探索の動作について説明する。探索の
フローチャートは図13と同一であり、この図を用いて
説明する。その各部の動作は、ステップST12の推定
値の計算、及びステップST5における評価値計算が異
なるだけで、その他は上記実施の形態7と同様であるた
め、これら同様部分の動作については説明を省略する。
【0162】ステップST12において、入力の特徴ベ
クトルx(t)について、クラスタcの要素分布mに関
する次元k+1から最終次元Kまでの各一次元の分布の
尤度の累積値の推定値h(c,k)を計算し、推定値記
憶部2004に記憶する。推定値h(c,k)は、次の
漸化式を用いて計算する。 初期値:h(c,K)=0 K:最終次元 漸化式:k=K−1,K−2,…,0について h(c,k)=θ(c,k+1)+h(c,k+1)
【0163】ここで、θ(c,k)は、第c番目のクラ
スタについて、そのクラスタに含まれる要素分布の第k
+1次元目の一次元の分布の平均値の最小値μmax
(c,k)、最大値μmin(c,k)及び分散の最大
値σmax(k)と、入力ベクトルx(t)の第k次元
目の値x(t,k)とから、前記の不等式(3)の右辺
の値を次式で計算した値である。
【0164】
【数21】
【0165】ステップST5において、評価値f(m,
k+1)を計算する。評価値f(m,k+1)は、累積
値g(m,k+1)と推定値h(c,k+1)の和であ
る。推定値h(c,k)は、ステップST12におい
て、推定値記憶部2004に記憶された値を用いる。な
お、ステップST12における漸化式から明らかなよう
に、推定値を求めるための漸化式にmax演算を含んで
いないので、上記の実施の形態7に比較して、推定値を
計算するための計算量を削減できることが分かる。ま
た、そのなかに、クラスに関するmax演算を含まない
ので、他のクラスの推定値を考慮しなくて済むため、推
定値が、より実際の値に近くなるため、評価値の精度が
向上し、A*探索の理論から、最適解が得られるまでに
必要な仮説の生成数が減少でき、探索の計算量を削減す
ることができる。
【0166】最後に、効果について説明する。本実施の
形態によれば、評価値がA*条件を満たすようにしたの
で、探索の結果、最初に見つかる評価値最大の解は、尤
度最大の解であり、その尤度は最大の尤度を見つける。
また、評価値を探索に用いているので、評価値を探索に
用いていない実施の形態1の場合に比較して、探索の仮
説取り出しと展開のループのなかのループの回数を減少
させ、演算量を削減することができる。また、推定値を
計算するための計算量を削減することができる。また、
推定値がより実際の値に近くなるため、探索の計算量を
削減することができる。
【0167】実施の形態9.この実施の形態では、ある
要素分布についての探索の途中で、途中の次元までの一
次元の分布の尤度の累積値が、余りに小さいときは、そ
の要素分布が最大の尤度累積値をとることがないと考え
て、その要素分布の探索を打ち切る。
【0168】図15は本実施の形態のベストファースト
探索のフローチャートである。ステップST41におい
て、要素分布の最大の尤度の累積値が、これを下回るこ
とがないという絶対的な閾値Θを設定する。具体的には
本実施の形態での最大の尤度は20〜70の範囲に分布
しており、その最小値より小さな値として数値0を設定
する。
【0169】ステップST2では仮説記憶部2002に
ある仮説の中で尤度の累積値が最大の仮説を選択する。
ステップST4〜ST5において、次元数kを1増やし
て、累積値を計算する。その後、ステップST42にお
いて、ステップST5で計算された累積値がステップS
T41で設定した閾値Θ(本実施の形態では0)より小
さいときは、その仮説は最終次元においても、累積値は
現在の累積値より大きくなることはない。したがって、
最終次元の累積値は閾値より大きくなることはなく、し
たがって、現在の要素分布が最大の尤度を有する要素分
布となることもないので、ステップST6には行かず
に、ステップST2に戻る。なお、計算された累積値が
閾値Θより大きいときは、ステップST6に進み、その
仮説はスタックに格納される。
【0170】以上のような動作により、探索の途中で、
スタックに格納される仮説の数がステップST6を通過
しない分だけ減少する。また、ステップST2でスタッ
クにある仮説の中で累積値が最大の仮説を選択する際
に、選択対象となる仮説はスタックの中の仮説全体であ
る。このため、ステップST2の処理で使われる演算量
が削減される。
【0171】次に効果について説明する。本実施の形態
によれば、累積尤度が設定された閾値より小さいとき、
仮説の展開格納を行わないので、探索途中で生じる仮説
の数が減少し、演算量を削減できる。なお、閾値を最大
尤度の最小値より小さく設定することで、最大の尤度を
有する要素分布を探索することができる。また、累積値
と閾値を比較して仮説の展開を打ち切る場合について説
明したが、上記実施の形態2〜実施の形態8のように、
累積値と推定値とに基づいて評価値を計算する場合に
も、適用しても構わない。この場合は、閾値との比較対
象は、累積値と比較しても、また、評価値と比較しても
同様の効果がある。
【0172】また、要素分布を複数のクラスタに分割
し、各クラスタについて、最大尤度の範囲を求めて、最
大尤度の最小値より小さな値を閾値として、展開された
仮説がこのクラスタごとの閾値を下回ったとき、展開さ
れた仮説をスタックに格納しないようにしても構わな
い。
【0173】実施の形態10.上記実施の形態9では、
すべての要素分布で共通の閾値Θを用いた。本実施の形
態では、最大の尤度の最小値の分布は、要素分布mに依
存して変化する。そこで、要素分布毎に尤度の最大値を
調べ、この尤度最大値の最小値の比較的大きな要素分布
については、より大きな閾値を設定し、より効率的に探
索を打ち切るようにする。本実施の形態での探索のフロ
ーチャートは図15と同一である。
【0174】本実施の形態では、ステップST41にお
いて設定する閾値を、要素分布に依存して、そのとり得
る最大の尤度の値の範囲を調べ、その最小値より小さい
値を閾値Θ(m)とする。また、ステップST42にお
いて要素分布番号mに応じてこの閾値Θ(m)を取り出
し、累積値g(m,k)と比較する。
【0175】次に効果について説明する。本実施の形態
によれば、要素分布に依存して最大の尤度の最小値の比
較的大きな要素分布について、より大きな閾値を設定す
ることができ、要素分布によって、より効率的に探索を
打ち切ることができる。その結果、探索の演算量をより
削減できる。また、要素分布を複数のクラスタに分類し
て、各クラスタごとに共通の閾値を用いることで、閾値
の記憶を削減することができる。
【0176】実施の形態11.この実施の形態では、上
記実施の形態9と同様に、ある要素分布についての探索
の途中で、途中の次元までの一次元の分布の確率の累積
値が、余りに小さいときは、その要素分布が最大の尤度
を有することがないと考えて、その要素分布の探索を打
ち切る。さらに、打ち切りの効率を高めるため、閾値を
次元数ごとに変化させる。次元数に応じて閾値を変化さ
せるため、ここでは実施の形態3で用いたカイ2乗分布
を用いる。
【0177】図16はカイ2乗分布の分布関数が一定の
数値に到達するときの値に基づいて閾値を決める際の考
え方を説明する説明図である。図において、仮説Aは既
に展開されている仮説、仮説Bあるいは仮説Cは途中次
元kにおいて、これから展開されようとしている仮説で
ある。また、FAは、仮説Aの次元kにおける累積値か
ら、自由度K−kのカイ2乗分布の分布関数が0.95
となるときの独立変数の値の−1/2倍を加えた値であ
る。したがって、仮説Aが最終次元Kまで展開されたと
きに、仮説Aの累積値がこのFAを上回る確率は0.9
5であり、ほとんどの場合FAを上回ることが期待でき
る。
【0178】また、FBは仮説Bの次元kにおける累積
値から、自由度K−kのカイ2乗分布の分布関数が0.
05となるときの独立変数の値の−1/2倍を加えた値
である。したがって、仮説Bが最終次元Kまで展開され
たときに、仮説Bの累積値がこのFBを上回る確率は
0.95でほとんどの場合上まわることはないことにな
る。
【0179】同様に、FCは、仮説Cの次元kにおける
累積値から、自由度K−kのカイ2乗分布の分布関数が
0.05となるときの独立変数の値の−1/2倍を加え
た値である。したがって、仮説Cが最終次元Kまで展開
されたときに、仮説Cの累積値が、このFCを上回る確
率は0.05でほとんどの場合上まわることはないこと
になる。
【0180】この図から、FCがFAを上回る確率は、
0.05×0.05より小さくなるので、仮説Cを打ち
切ることができる。また、FBがFAを上回る確率は、
0.05×0.05よりは大きいので、仮説Bを打ち切
ることはあきらめる方が良い。
【0181】実際には、途中次元kにおける最大の累積
値を常に保存しておき、その最大値から自由度K−kの
カイ2乗分布の分布関数から求めた累積値の上限と下限
の推定値を幅として、仮説の打ち切りを行う。図17は
本実施の形態の探索のフローチャートである。
【0182】ステップST51において、各次元k(k
=1,2,…,K)の閾値の幅を設定する。次元kの閾
値の幅は、自由度K−kのカイ2乗分布の分布関数から
得た二つのパーセントポイント(つまり本実施の形態で
は0.95と0.05)の差の−1/2倍として、次式
で計算して記憶する。
【0183】
【数22】
【0184】ここで、X(n,p)は自由度nのカイ2
乗分布の分布関数がpとなるときの独立変数の値(即
ち、パーセントポイント)である。ステップST52で
は、各次元k(k=1,2,…,K)までの累積値の最
大値の初期値として負の最大値(−∞とする)に設定す
る。以後、この次元kまでの累積値の最大値をE(k)
で表す。
【0185】ステップST42では、仮説の累積値と次
元kの閾値とを比較する。次元kの閾値は次元kの最大
値E(k)から、カイ2乗分布に基づいてステップST
51で求めた次元kの幅W(k)を引くことにより、次
式で求める。 仮説の次元kの閾値=E(k)−W(k)
【0186】この閾値との比較の結果、累積値が小さい
ときはステップST2に戻る。逆に、累積値が小さくな
いときはステップST53に進む。ステップST53で
は仮説の次元kの最大値を更新する。これは累積値が最
大値E(k)を上回ったとき、最大値に累積値を代入す
ることで行う。ステップST6では次元数を増加した仮
説をスタックに格納する。
【0187】次に効果について説明する。本実施の形態
によれば、次元ごとに閾値を変更するため、一定の閾値
を用いる場合に比較して、探索途中に格納される仮説が
より削減できる。このため、スタックから取り出すとき
の演算量が削減できるという効果がある。
【0188】実施の形態12.この実施の形態では、次
元方向のベストファースト探索によって仮説を展開する
際、次元数を2以上増加させることで、最終次元に到達
するまでのスタックから仮説を取り出す処理と、スタッ
クに仮説を格納する処理の回数を削減する。これによっ
て、スタックの管理のための演算量を削減する。
【0189】図18は本実施の形態のベストファースト
探索のフローチャートである。ステップST2におい
て、累積値最大の仮説を取り出す。その仮説の要素分布
番号、展開済の次元数、及び次元1から次元kまでの各
次元の一次元の分布の確率の累積値を、それぞれ、m,
k,g(m,k)とする。
【0190】ステップST3において、展開済の次元数
kが最終次元Kでなければ、ステップST4に進む。ス
テップST4において、次元数を2以上の数Δだけ増加
し、k+Δとする。ただし、増加後の値が最終次元Kよ
り大きくなる場合は、最終次元Kと一致させる。
【0191】ステップST5では、累積値を更新し、g
(m,k+Δ)とする。更新後の累積値g(m,k+
Δ)は次式で計算する。
【0192】
【数23】
【0193】次元数を2以上増加させたので、本実施の
形態では、最終次元に到達するまでのスタックから仮説
を取り出す処理と、スタックに仮説を格納する処理の回
数を削減する。これによって、スタックの管理のための
演算量を削減するという効果がある。なお、累積値が最
大の仮説を優先的に次元数方向に展開する場合について
説明したが、推定値を含む評価値が最大の仮説を優先的
に次元数方向に展開する場合(具体的には実施の形態2
以降の上記各実施の形態)についても同様に適用できる
ことは言うまでもない。
【0194】実施の形態13.上記の各実施の形態で説
明した尤度累積値の最大の要素分布を次元方向にベスト
ファースト探索して求める方法は、任意の空間的配置を
有するコードベクトルを用いるベクトル量子化に応用で
き、最近隣コードベクトルを計算するための演算量削減
のため用いることができる。
【0195】以下、これについて説明する。音声の特徴
ベクトルをxとする。特徴ベクトルxは、限られた数の
典型的なベクトルv(1),v(2),…,v(C)の
うちで最も近いベクトルv(c)のインデックスcに変
換される(Cはコードブックのサイズ)。この変換は連
続的な値を持つベクトルaを離散的で限られた数のベク
トル{c|c=1,2,…,C}に変換するものでベク
トルの量子化を行っていることになる。離散的な値をと
るベクトルの有限集合B={v(1),v(2),…,
v(C)}をコードブックと呼び、その要素をコードベ
クトルと呼ぶ。
【0196】図19はベクトル量子化を用いた符号化・
復号化の構成図である。図において、11は入力データ
としての音声信号である。12は入力データ11を時間
窓を10msの周期でずらしながら線形予測法で周波数
分析し、特徴ベクトル13に変換する分析部である。こ
こでは、スペクトル包絡情報を12次元のPARCOR
係数として求め、これを特徴ベクトルとし、その次元数
KはK=12である。
【0197】15は複数のコードベクトルを記憶したコ
ードブック、14はコードブック15を参照して、コー
ドブック内の距離の最も近いコードベクトルを求めて、
そのコードベクトル番号を符合16として出力するコー
ドベクトル探索部である。17は符合16を伝送または
蓄積する伝送・蓄積部である。18は伝送又は蓄積され
た符合16からコードブック19を参照し、コードベク
トル20を求める復号部である。21はコードベクトル
20をパラメータとして音声を合成し、出力データ22
を作成する合成部である。
【0198】本実施の形態では特徴ベクトルxと距離の
最も小さいコードベクトルの番号を探索するのに、これ
までに説明した実施の形態と同様の次元方向のベストフ
ァースト探索を適用する。入力ベクトルxの第k次元目
の値をx(k)とし、第m番目のコードベクトルの第k
次元目の値をv(m,k)とする。また、入力ベクトル
と第m番目のコードベクトルv(m)の距離はユークリ
ッド距離として次式で計算する。
【0199】
【数24】
【0200】ベクトル量子化の結果として探索するコー
ドベクトルは、上式の右辺を最小とするmの値である。
【0201】
【数25】
【0202】これは、上式の右辺を−1倍した次式を最
大とするmの値を求めるのと等価である。
【0203】
【数26】
【0204】即ち、上式の右辺の総和(Σ)の内側の次
元kで計算される2次形式を類似度と考えると、ベクト
ル量子化は、上式の右辺で定義される各次元の類似度の
累積値g(m,K)を最大化するコードベクトルを求め
ることに相当する。ただし、
【0205】
【数27】
【0206】とする。次元1から最終次元Kまでの各次
元の類似度の累積値g(m,K)が最大のコードベクト
ルを求める処理の基本的流れは実施の形態1と同一であ
る。
【0207】図20は本実施の形態のベクトル量子化に
おけるコードベクトルをベストファースト探索で求める
ときのフローチャートである。以下、上記実施の形態1
と異なる点について説明する。コードブックに記憶され
たコードベクトルの数は2048(一般にM個)であ
る。
【0208】コードブックは多数の標本の入力ベクトル
をK平均法で2048個のクラスタに分割して、総合の
量子化誤差が最小になるようにクラスタの代表ベクトル
(セントロイド)を決め、2048個のセントロイドを
コードベクトルとおくことで作成される。各コードベク
トルの次元は12次元(一般にK次元)である。
【0209】次に各処理ステップについて説明する。ス
テップST1において、コードブック内の2048個の
コードベクトルついて、初期仮説を生成する。生成され
た仮説は仮説記憶部2002に記憶される。ここで、第
m番目のコードベクトルの初期仮説は、コードベクトル
の番号をm、計算済の次元数を0、各次元の類似度の累
積値g(m,0)を0とする。
【0210】ステップST2において、類似度の累積値
最大の仮説を仮説記憶部2002から取り出す。この仮
説の要素分布番号、展開済次元数、各次元の類似度の累
積値を、以下、それぞれ、m,k,g(m,k)として
説明する。
【0211】ステップST3において、計算済の次元数
kが最終次元をあらわす数値Kに到達しているかを調
べ、最終次元に到達している場合は、ベストファースト
探索の理論により、この仮説が累積値最大のコードベク
トルに該当するので、この仮説を探索された解として、
解の処理を行うため、ステップST7に進む。もし、最
終次元に到達していない場合(k<Kのとき)は、ステ
ップST4に進む。
【0212】ステップST4において、次元数kを1増
やし、k+1とする。ステップST5において、次元数
k+1までの類似度の累積値g(m,k+1)を計算す
る。この累積尤度は、次式のように次元kまでの累積尤
度であるg(m,k)に、次元k+1の一次元の類似度
η(m,k+1)を計算して加える。 g(m,k+1)=g(m,k)+η(m,k+1) 次元k+1の一次元の類似度は次式のように計算され
る。 η(m,k+1)=−|x(k+1)−v(m,k+
1)|2
【0213】ステップST6において、この仮説のコー
ドベクトル番号、展開済次元数、類似度累積値を、それ
ぞれ、m,k+1,g(m,k+1)とした仮説を作成
し、仮説記憶部2002に記憶して、ステップST2に
戻る。ステップST7では、解として得られた仮説につ
いて、そのコードベクトル番号mをベクトル量子化の結
果のコード番号として出力する。以上で処理を終了す
る。
【0214】さて、ステップST7において、解として
得られた仮説については、要素分布番号、展開済次元
数、累積値はそれぞれ、m,K,g(m,K)となって
いる。g(m,K)は第m番目のコードベクトルの次元
1から最終次元Kまでの各次元の類似度の和であり、2
048個のコードベクトルの中では、最大の類似度の累
積値を有している。
【0215】以上の処理によって出力されるコード番号
は、コードブックの中のコードベクトルの中で、入力ベ
クトルとの類似度の累積値が最大であるコードベクト
ル、換言すれば、入力ベクトルとの距離が最小であるコ
ードベクトルに一致している。即ち、ベクトル量子化の
結果が得られる。
【0216】本実施の形態で、探索終了時点のスタック
に残された仮説の様子は、上記実施の形態1と同様に図
6のようになっている。この図で□印が最終次元Kまで
展開された尤度最大の仮説の展開履歴を示す。また、○
印及び×印が途中の次元まで展開された仮説の展開履歴
を示す。
【0217】さて、この図から分かるように、類似度累
積値最大のコードベクトルの全次元について各次元の距
離を計算してからベクトル間の距離最小のコードベクト
ルを判定するフル探索に基づく方法に比較して、本実施
の形態の方法では、演算回数はスタックに展開されずに
残っているコードベクトルの残りの展開すべき次元数の
分だけ、一次元の類似度の計算をしないので演算量が削
減されている。従って、本実施の形態では、ベストファ
ースト探索を用いているので、フル探索に比較して、一
次元の距離計算の演算回数を削減できるという効果があ
る。また、コードブックを木構造が有するように設計さ
れている必要がなく、任意の分布のコードブックに対し
て演算量削減の効果を発揮できるという効果がある。
【0218】実施の形態14.本実施の形態は、多次元
入力ベクトルの最大尤度を有する要素分布を次元方向に
ベストファースト探索して求める方法の一つの応用とし
て、多次元の特徴ベクトル空間で最近隣または最尤のコ
ードベクトルを探索してカテゴリを認識する問題に適用
したものである。文字認識、特に漢字のようにカテゴリ
数が3000以上と極めて多い場合、距離最小又は尤度
最大の分布を計算する部分の演算量が格段に増える。
【0219】本実施の形態では、各カテゴリはマルチテ
ンプレートで表されており、テンプレート数は16個で
ある。このとき、合計で3715カテゴリの128次元
ベクトルを入力として、距離最小のカテゴリベクトルを
探索する例である。
【0220】図21は文献(“文字認識における距離計
算の高速化の検討”、1997年電子情報通信学会総合
大会予稿集、310頁)に基づき構成した文字認識装置
の構成図である。図において、31は認識対象の印刷漢
字が印刷された入力の紙文書、32は入力文書31を文
字認識装置に読み込むためのイメージスキャナ、33は
イメージスキャナ32で読み取ったイメージデータから
文字の存在する領域を一文字毎に分離して切り出す文字
領域切出部、34は文字領域切出部33によって切り出
された文字領域にある文字イメージから輪郭特徴64次
元(4×4領域×4方向)、及び1次周辺特徴32次元
(8次元×4方向)、さらに、2次周辺特徴32次元
(8次元×4方向)の合計128次元を特徴量として抽
出し、128次元の特徴ベクトル35を出力する特徴抽
出部である。
【0221】36は各カテゴリのテンプレートのベクト
ルがカテゴリと関連づけられて記憶された認識辞書、3
7は特徴ベクトル35に対して、認識辞書36にカテゴ
リに関連づけて記憶されたテンプレートベクトルとの距
離が最小となるテンプレートベクトルを探索し、距離最
小のテンプレートベクトルとして探索されたテンプレー
トベクトルに関連づけられたカテゴリを認識結果38と
して出力するカテゴリ検索部である。
【0222】上記文献ではカテゴリ探索は初期カテゴリ
から中心カテゴリをその近傍にある中心ベクトルの中で
距離最小のベクトルに移動することを反復することで距
離最小のベクトルを探索している。本実施の形態では、
次元方向のベストファースト探索を適用する。
【0223】図22は特徴ベクトル35に対して認識辞
書36に記憶されたテンプレートのベクトルのなかで距
離最小のベクトルを次元方向にベストファースト探索す
るカテゴリ探索部37の動作を示すフローチャートであ
る。本実施の形態では、入力ベクトルと距離の最も小さ
いベクトルコードを探索する。距離は市街地距離であ
る。
【0224】入力ベクトルの第k次元目の値をXk
し、第m番目のコードベクトルの第k次元目の値をVmk
とする。このとき、入力ベクトルと第m番目のコードベ
クトルの距離はユークリッド距離として次式で計算され
る。
【0225】
【数28】
【0226】符合として求めるコードベクトルは、上式
の右辺を最小とするmの値である。これは、上式の右辺
を−1倍した次式で定義される類似度(以後、距離の−
1倍を簡単のため「類似度」と呼ぶ)の累積値を最大と
するmの値を求めるのと等価である。
【0227】
【数29】
【0228】そこで、上式で定義される各次元の類似度
の累積値gを最大化するコードベクトルを求める。上式
が最大のコードベクトルを求める処理の基本的流れは実
施の形態1と同一である。図20はベクトル量子化にお
けるコードベクトルをベストファースト探索で求めると
きのフローチャートである。
【0229】認識辞書内にはM個のテンプレートベクト
ルが存在し、それぞれ、1からMまでの通し番号を付け
られている。また、それぞれのテンプレートベクトルに
はカテゴリC(m)が関連づけられている。次に各処理
ステップについて説明する。
【0230】ステップST1において、認識辞書内の3
715カテゴリのテンプレートベクトルのそれぞれにつ
いて、初期仮説を生成する。生成された仮説は仮説記憶
部2002に記憶される。ここで、第m番目のコードベ
クトルの初期仮説は、テンプレートベクトルの番号を
m、計算済の次元数を0、各次元の類似度の累積値を0
とする。各次元の類似度は次式の市街地距離の−1倍で
ある。 次元kの類似度=−|xk −vmk| 式中、|a|はaの絶対値を示す。
【0231】ステップST2において、類似度の累積値
最大の仮説を仮説記憶部2002から取り出す。この仮
説の要素分布番号、展開済次元数、各次元の類似度の累
積値を、以下、それぞれ、m,k,g(m,k)として
説明する。ここで、類似度の累積値は仮説の展開済次元
数をkとすると次式で与えられる。
【0232】
【数30】
【0233】ステップST3において、計算済の次元数
kが最終次元に一致しているかを調べ、最終次元に一致
している場合は、ベストファースト探索の理論により、
この仮説が累積値最大のテンプレートベクトルに該当す
るので、この仮説を探索された解として、ステップST
7に進む。もし、計算済の次元数kが最終次元に一致し
ない場合は、ステップST4に進む。
【0234】ステップST4において、次元数を1増や
し、k+1とする。ステップST5において、次元数k
+1までの各次元の類似度の累積値g(m,k+1)を
計算する。この累積類似度g(m,k+1)は、次式の
ように次元kまでの各次元の類似度の累積であるg
(m,k)に、次元k+1の一次元の類似度を計算して
加える。 g(m,k+1)=g(m,k)+η(m,k+1)
【0235】次元k+1の一次元の類似度η(m,k+
1)は次式で計算される。 η(m,k+1)=−|xk+1 −vmk+1
【0236】ステップST6において、この仮説のテン
プレートベクトルの番号、展開済次元数、類似度累積値
を、それぞれ、m,k+1,g(m,k+1)とした仮
説を作成し、仮説記憶部2002に記憶して、ステップ
ST2に戻る。
【0237】ステップST7では、解として得られた順
位1の仮説及びスタックに残された類似度累積値の大き
い上位N−1個の候補について、そのテンプレートベク
トル番号m1,m2,m3,…,mNを求め、そのテン
プレートベクトルに関連づけられたカテゴリC(m
1),C(m2),C(m3),…,C(mN)を認識
辞書36から求め、認識結果38の候補として出力し、
処理を終了する。
【0238】さて、ステップST7において、解として
得られた順位1の仮説については、要素分布番号、展開
済次元数、累積値は、それぞれ、m,K,g(m,K)
となっている。g(m,K)は第m番目のコードベクト
ルの次元1から最終次元Kまでの各次元の類似度の和で
あり、テンプレートベクトルの中では、最大の類似度の
累積値を有している。
【0239】以上の処理によって出力されるカテゴリ番
号は、認識辞書36の中のテンプレートベクトルの中
で、特徴ベクトルとの類似度の累積値が最大であるテン
プレートベクトル、換言すれば、特徴ベクトルとの距離
が最小であるテンプレートベクトルに一致している。即
ち、カテゴリ認識の結果が得られる。
【0240】上記文献のカテゴリ探索方法は、初期カテ
ゴリの与え方によっては、必ずしも距離最小のテンプレ
ートベクトルを探索できなかったが、本実施の形態によ
れば、特徴ベクトルに対して、複数の多次元ベクトルの
中で距離最小のベクトルの探索のため、次元方向のベス
トファースト探索を用いたので、距離最小のテンプレー
トベクトルを探索でき、演算量を削減でき精度を劣化さ
せないという効果がある。
【0241】実施の形態15.本実施の形態は、混合連
続分布HMMを用いる音声認識装置において、多次元入
力ベクトルの最大尤度を有する要素分布を次元方向にベ
ストファースト探索して求める方法を適用したものであ
る。本実施の形態の音声認識装置のブロック図は、図1
であり、実施の形態1と同一の図を用いて説明する。図
において、1は入力音声、2は入力音声1を分析して時
系列の特徴ベクトル3に変換する音声分析手段、4は時
系列の特徴ベクトル3を入力し、混合連続分布HMM8
に対する尤度を計算し尤度行列を出力する尤度計算手
段、5は経路データ記憶手段9である単語ネットワーク
に従って、音素HMMの連結から単語を構成し、ネット
ワークの各ノードにおいて、各ノードに至る音素HMM
の状態系列の中で累積尤度最大の経路を求めるビタビ演
算手段、6はビタビ演算の局所経路を後ろ向きに探索し
て最適な単語列を得る最適経路決定手段である。
【0242】音素HMMは混合連続分布HMMであり、
図28のように3状態の多次元連続出力確率分布からな
る。図23は各フレームの特徴ベクトルが求められた後
の各フレームの処理のフローチャートである。以下、各
ステップの動作を説明する。
【0243】ステップST61において、当該フレーム
の特徴ベクトルが入力される。ステップST62におい
て、すべての混合分布のすべての要素分布をまとめて、
特徴ベクトルに対する尤度計算を行う。この尤度計算
は、本発明の次元方向のベストファースト探索を用い
る。詳細は後で述べる。
【0244】ステップST63において、ステップST
62において得られた特徴ベクトルに対する要素分布の
尤度計算結果に基づいて、各状態の出力尤度を計算す
る。
【0245】ステップST64において、経路の尤度を
計算する。計算はビタビ演算による。ビタビ演算は音素
p、状態jの尤度をこの状態に行き得るすべての状態か
らの経路に沿い尤度が最大となる経路を選択しその経路
と尤度を記憶する。以上で各フレームの処理は終了す
る。次に、上記のステップST62における本発明の次
元方向のベストファースト探索を用いる尤度の計算方法
について説明する。ここでは、実施の形態8に説明した
方法を適用する。
【0246】図24は探索の処理のフローチャートであ
る。入力ベクトルは、当該フレームの特徴ベクトルであ
る。探索する要素分布は、2000状態のすべての要素
分布であり、総数は2000状態×16分布=3200
0分布である。全要素分布の集合はK平均クラスタリン
グ法により2048個のクラスタに分割されている。そ
れぞれのクラスタについて、その中の要素分布の各次元
の一次元分布の平均、分散の最大最小値が予め求められ
ている。
【0247】ステップST11では、これらに基づい
て、特徴ベクトルに対する第m次元から最終次元までの
累積値の推定値が計算される。以下、実施の形態7で説
明した動作を行い、評価値最大の仮説がステップST3
で最終次元に到達し、ステップST7を実行する。ステ
ップST7では、スタックの内容を保存して、ステップ
ST62は終了する。
【0248】ステップST63では、保存されたスタッ
クの内容をみて、全要素分布の尤度を求める。ステップ
ST3で最初に見つかった解の要素分布は正確な尤度が
計算されているので、その値を用いる。また、その他の
要素分布については、スタックに残されている途中次元
までの累積尤度を用いることができる。また、途中次元
までの累積尤度の他に、途中次元+1から最終次元まで
の推定値を加えた評価値が残っているので、この値を用
いることができる。
【0249】実施の形態16.上記実施の形態15のフ
レーム処理内の混合分布演算において、Nベストの探索
を行う。フレーム処理の流れは図23と同一である。探
索のフローチャートは図25である。
【0250】ステップST21において、上位N個の解
を求めてから、ステップST22においてスタックの内
容を保存する。この後、ステップST63では、上位N
個の解については対応する要素分布の尤度の値とする。
その他の要素分布の尤度は、スタックに残った累積値あ
るいは累積値と推定値に基づいて計算された評価値を用
いる。上記実施の形態15に比べて、少なくとも、上位
N個の要素分布については厳密な尤度が得られるため、
認識の精度が向上する。
【0251】実施の形態17.図26はマルチパスの音
声認識方法に基づいて構成された、本実施の形態の音声
認識装置の構成図である。音声分析手段2は、入力音声
1を分析し、多次元の特徴ベクトル3に変換する。尤度
計算1手段41及び尤度計算2手段42は、この多次元
の特徴ベクトル3に対して、HMM記憶手段8を参照し
て、複数の多次元の連続分布からなるHMMの状態の尤
度を計算する。HMMの状態の尤度は上記実施の形態1
5と同様の処理で計算する。
【0252】経路計算1手段43は、認識単位の系列の
中で、より制約の弱い経路データ1を記憶する経路デー
タ1記憶手段45を参照して、完全な経路計算のための
推定値を計算する。経路計算2手段44は、完全な経路
データ2を記憶する経路データ2記憶手段46を参照す
るとともに、経路計算1手段43で計算された経路の制
約を緩めた経路の尤度推定値と、現在までに得られた完
全な経路の途中尤度とを評価値として、ベストファース
ト探索法により完全な経路の尤度をフル探索に比べて少
ない演算量で効率的に計算する。
【0253】最適経路決定手段6は、経路計算2手段4
4で得られた経路を調べて最適な経路を決定し、最適な
経路に関連づけられた認識単位の系列を認識結果7とし
て出力する。以上の構成において、尤度計算1手段41
の計算した尤度は真の尤度に比較して同値かより大き
く、A*条件を満足する。よって、経路の制約を緩めた
経路に沿って,経路計算1手段43の計算した尤度は真
の尤度に比較して同値か、それより大きく、A*条件を
満足する。このように、A*条件を満足するHMMの出
力確率を少ない演算量で求めることができるという効果
がある。
【0254】実施の形態18.本実施の形態は、上記実
施の形態17で述べたマルチパスの音声認識方法におい
て、尤度計算1手段41の計算において、この多次元の
特徴ベクトル3に対して、HMM記憶手段8を参照し
て、複数の多次元の連続分布からなるHMMの状態の尤
度を計算する。HMMの状態の尤度は上記実施の形態1
6と同様に上位N個の要素分布の尤度を厳密に計算する
ようにしたものである。
【0255】それによって、マルチパスの1回目で得ら
れる経路尤度の推定値の精度が向上し、その結果、マル
チパスの2回目のベストファースト探索による経路探索
に要する演算回数が減少するという効果がある。
【0256】実施の形態19.以上の実施の形態で述べ
た方法は、パターン認識装置及び音声認識装置の中で実
施することもできる。また、パターン認識及び音声認識
を実行するプログラムを記憶した記録媒体としても実施
することもできる。また、入力ベクトルと多次元の複数
のベクトルとの距離、類似度及び尤度を計算する応用、
例えば、特徴ベクトルのクラスタリングや、HMMの学
習などに適用することで演算量削減の効果があることは
言うまでもない。
【0257】
【発明の効果】以上のように、この発明によれば、要素
分布の探索方法は、展開済の次元数が入力ベクトルの次
元数に一致するまで、次元方向にベストファースト探索
を実行するように構成したので、要素分布を探索するた
めの演算量が削減される効果がある。
【0258】この発明によれば、展開済の次元数が増加
する方向にベストファースト探索を実行するように構成
したので、要素分布を探索するための演算量が削減され
る効果がある。
【0259】この発明によれば、第k+1次元から第K
次元における確率値の累積値の推定値を、自由度K−k
のカイ2乗分布の分布関数値が所定値に達するときのカ
イ2乗分布の独立変数値に基づいて計算するように構成
したので、評価値の計算が仮説の展開済の次元数kをキ
ーとしたテーブル検索で実現可能になる効果がある。
【0260】この発明によれば、第k+1次元から第K
次元における確率値の累積値の推定値を、学習用の音声
データが示す値の分布に基づいて計算するように構成し
たので、探索エラーが減少する効果がある。
【0261】この発明によれば、要素分布を複数のクラ
スタに分割し、各クラスタについて、第k+1次元から
第K次元における確率値の累積値の推定値を、学習用の
音声データが示す値の分布に基づいて計算するように構
成したので、更に探索エラーが減少する効果がある。
【0262】この発明によれば、ベストファースト探索
で最初から複数個の解を求めて、その複数個の解の中
で、上位複数個の評価値を有する要素分布を求めるよう
に構成したので、探索エラーの生じる可能性を少なくで
きる効果がある。
【0263】この発明によれば、第k+1次元から第K
次元における確率値の累積値の推定値を、各要素分布に
おける各次元の一次元の分布を各分布の平均値の数直線
上での配列に基づいて複数の区間に分割し、各区間につ
いて求めた各次元毎の不等式と、入力ベクトルの各次元
の数値とに基づいて計算するように構成したので、探索
エラーの発生を防止することができるとともに、検索の
演算量を削減することができる効果がある。
【0264】この発明によれば、第k+1次元から第K
次元における確率値の累積値の推定値を、要素分布を複
数のクラスタに分割し、複数のクラスタのそれぞれにつ
いて各次元毎に得られた不等式と、入力ベクトルの各次
元の数値とに基づいて計算するように構成したので、要
素分布を探索するための演算量等が更に削減される効果
がある。
【0265】この発明によれば、探索の閾値を設けて、
第k次元までの探索の累積値又は評価値が、その閾値を
下回る場合、当該仮説の探索を打ち切るように構成した
ので、要素分布を探索するための演算量等が更に削減さ
れる効果がある。
【0266】この発明によれば、要素分布に依存して探
索の閾値を設けて、第k次元までの探索の累積値又は評
価値が、その閾値を下回る場合、当該仮説の探索を打ち
切るように構成したので、探索の演算量を更に削減でき
る効果がある。
【0267】この発明によれば、探索の閾値として、入
力ベクトルの次元数をKとし、自由度K−kのカイ2乗
分布の分布関数が一定の数値に到達するときの独立変数
の値に基づいて計算した値を用いるように構成したの
で、スタックから取り出すときの演算量が削減できる効
果がある。
【0268】この発明によれば、展開済の次元数を増加
させる際に2以上次元数を増加させるベストファースト
探索を実行するように構成したので、スタックの管理の
ための演算量が削減される効果がある。
【0269】この発明によれば、多次元の入力ベクトル
に対して、複数のコードベクトルの中で最大の類似度を
有するコードベクトルを次元方向にベストファースト探
索して求めるように構成したので、フル探索に比較し
て、一次元の距離計算の演算回数を削減できる効果があ
る。
【0270】この発明によれば、多次元の入力ベクトル
に対して、複数のモデルベクトルの中で最大の類似度を
有するモデルベクトルを次元方向にベストファースト探
索して求めるように構成したので、距離最小のテンプレ
ートベクトルを探索できる結果、精度を劣化させること
なく、演算量を削減できる効果がある。
【0271】この発明によれば、多次元の入力ベクトル
に対して、評価値最大の要素分布のベストファースト探
索を実行し、評価値最大をとる要素確率分布の確率はベ
ストファースト探索の結果として計算された確率を用
い、その他の要素確率分布の確率についてはベストファ
ースト探索の途中次元までの評価値を用いて認識単位の
スコア計算を実行して認識結果を決定するように構成し
たので、精度を劣化させることなく、演算量を削減でき
る効果がある。
【0272】この発明によれば、多次元の入力ベクトル
に対して、評価値の大きい方からN個の分岐確率密度の
ベストファースト探索を実行し、評価値の大きい方から
N個の分岐密度をとる要素確率分布の確率はベストファ
ースト探索の結果として計算された確率の大きい方から
N個の要素分布の確率を用い、その他の要素分布の確率
についてはベストファースト探索の途中次元までの評価
値を用いて認識単位のスコア計算を実行して認識結果を
決定するように構成したので、上位N個の要素分布につ
いては厳密な尤度が得られる結果、認識の精度が向上す
る効果がある。
【0273】この発明によれば、1回目の認識単位の系
列の中で経路の制約を緩めたスコアの推定値を計算する
に際して、多次元の入力ベクトルに対して、評価値最大
の要素分布のベストファースト探索を実行し、その評価
値最大の要素分布の確率はベストファースト探索の結果
として計算された確率を用い、その他の要素分布の確率
についてはベストファースト探索の途中次元までの評価
値を用いて認識単位のスコア計算を実行して認識結果を
決定するように構成したので、A*条件を満足するHM
Mの出力確率を少ない演算量で求めることができる効果
がある。
【0274】この発明によれば、1回目の認識単位の系
列の中で経路の制約を緩めたスコアの推定値を計算する
事に際して、多次元の入力ベクトルに対して、評価値の
大きい方からN個の分岐確率密度のベストファースト探
索を実行し、その評価値の大きい方からN個の分岐密度
をとる要素分布の確率はベストファースト探索の結果と
して計算された評価値の大きい方からN個の要素分布の
確率を用い、その他の要素分布の確率についてはベスト
ファースト探索の途中次元までの評価値を用いて認識単
位のスコア計算を実行して認識結果を決定するように構
成したので、マルチパスの1回目で得られる経路尤度の
推定値の精度が向上する結果、マルチパスの2回目のベ
ストファースト探索による経路探索に要する演算回数が
減少する効果がある。
【0275】この発明によれば、多次元の入力ベクトル
に対して、評価値最大の要素分布のベストファースト探
索を実行し、評価値最大をとる要素分布の確率はベスト
ファースト探索の結果として計算された確率を用い、そ
の他の要素分布の確率についてはベストファースト探索
の途中次元までの評価値を用いて認識単位のスコア計算
を行うように構成したので、精度を劣化させることな
く、演算量を削減できる効果がある。
【0276】この発明によれば、多次元の入力ベクトル
に対して、評価値の大きい方からN個の要素分布のベス
トファースト探索を実行し、その評価値の大きい方から
N個の要素分布の確率はベストファースト探索の結果と
して計算された評価値の大きい方からN個の要素分布の
確率を用い、その他の要素分布の確率についてはベスト
ファースト探索の途中次元までの評価値を用いて認識単
位のスコア計算を行うように構成したので、上位N個の
要素分布については厳密な尤度が得られる結果、認識の
精度が向上する効果がある。
【0277】この発明によれば、1回目の認識単位の系
列の中で経路の制約を緩めたスコアの推定値を計算する
事に際して、多次元の入力ベクトルに対して、評価値最
大の要素分布のベストファースト探索を実行し、その評
価値最大をとる要素分布の確率はベストファースト探索
の結果として計算された確率を用い、その他の要素分布
の確率についてはベストファースト探索の途中次元まで
の評価値を用いて認識単位のスコア計算を実行して認識
結果を決定するように構成したので、A*条件を満足す
るHMMの出力確率を少ない演算量で求めることができ
る効果がある。
【0278】この発明によれば、1回目の認識単位の系
列の中で経路の制約を緩めたスコアの推定値を計算する
事に際して、多次元の入力ベクトルに対して、評価値の
大きい方からN個の要素分布のベストファースト探索を
実行し、その評価値の大きい方からN個の要素分布の確
率はベストファースト探索の結果として計算された評価
値の大きい方からN個の要素分布の確率を用い、その他
の要素分布の確率についてはベストファースト探索の途
中次元までの評価値を用いて認識単位のスコア計算を実
行して認識結果を決定するように構成したので、マルチ
パスの1回目で得られる経路尤度の推定値の精度が向上
する結果、マルチパスの2回目のベストファースト探索
による経路探索に要する演算回数が減少する効果があ
る。
【0279】この発明によれば、多次元の入力ベクトル
に対して、複数の多次元の連続分布からなる混合連続確
率分布のモデルで表現された認識単位のスコアを評価値
最大の要素分布のベストファースト探索を実行し、その
評価値最大をとる要素分布の確率はベストファースト探
索の結果として計算された要素分布の確率を用い、その
他の要素確率分布の確率についてはベストファースト探
索の途中次元までの評価値を用いて認識単位のスコア計
算を実行し、そのスコア計算の結果に基づいて、認識単
位の系列の中でスコアの最も高い認識単位の系列を選択
するように構成したので、精度を劣化させることなく、
演算量を削減できる効果がある。
【0280】この発明によれば、多次元の入力ベクトル
に対して、複数の多次元の連続分布からなる混合連続確
率分布のモデルで表現された認識単位のスコアを評価値
の大きい方からN個の要素分布のベストファースト探索
を実行し、その評価値の大きい方からN個の評価値をと
る要素分布の確率はベストファースト探索の結果として
計算された評価値の大きい方からN個の要素分布の確率
を用い、その他の要素分布の確率についてはベストファ
ースト探索の途中次元までの評価値を用いて認識単位の
スコア計算を実行し、そのスコア計算の結果に基づいて
認識単位の系列の中でスコアの最も高い認識単位の系列
を選択するように構成したので、上位N個の要素分布に
ついては厳密な尤度が得られる結果、認識の精度が向上
する効果がある。
【0281】この発明によれば、多次元の入力ベクトル
に対して、複数の多次元の連続分布からなる混合連続確
率分布に基づいて認識単位のスコアの推定値を計算する
スコア計算し、1回目は認識単位の系列の中で経路の制
約を緩めたスコアの推定値を求め、2回目は1回目で求
めたスコアの推定値に基づいて認識単位の完全な系列の
中で最もスコアの高い認識単位の系列を探索して求め、
1回目の認識単位の系列の中で経路の制約を緩めたスコ
アの推定値を計算する事に際して、その多次元の入力ベ
クトルに対して評価値最大の分岐確率密度のベストファ
ースト探索を実行し、その評価値最大をとる要素分布の
確率はベストファースト探索の結果として計算された確
率を用い、その他の要素分布の確率についてはベストフ
ァースト探索の途中次元までの評価値を用いて認識単位
のスコア計算を実行して、認識結果を決定するように構
成したので、A*条件を満足するHMMの出力確率を少
ない演算量で求めることができる効果がある。
【0282】この発明によれば、多次元の入力ベクトル
に対して、複数の多次元の連続分布からなる混合連続確
率分布に基づいて認識単位のスコアを計算し、1回目は
認識単位の系列の中で経路の制約を緩めたスコアの推定
値を求め、2回目は1回目で求めたスコアの推定値に基
づいて認識単位の完全な系列の中で最もスコアの高い認
識単位の系列を探索して求め、1回目の認識単位の系列
の中で経路の制約を緩めたスコアの推定値を計算する事
に際して、その多次元の入力ベクトルに対して、評価値
の大きい方からN個の分岐確率密度のベストファースト
探索を実行し、その評価値の大きい方からN個の要素分
布の確率はベストファースト探索の結果として計算され
た評価値の大きい方からN個の要素分布の確率を用い、
その他の要素分布の確率についてはベストファースト探
索の途中次元までの評価値を用いて認識単位のスコア計
算を実行して、認識結果を決定するように構成したの
で、マルチパスの1回目で得られる経路尤度の推定値の
精度が向上する結果、マルチパスの2回目のベストファ
ースト探索による経路探索に要する演算回数が減少する
効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声認識装置
を示す構成図である。
【図2】 状態HMMの構造を示す説明図である。
【図3】 探索で用いる機能の構成図である。
【図4】 ヒープを用いた仮説記憶部の説明図である。
【図5】 式(2)の計算を次元方向に探索を進めるベ
ストファースト探索のフローチャートである。
【図6】 探索終了時点のスタックに残された仮説の様
子をそれらの展開履歴と共に示すグラフ図である。
【図7】 探索のためのフローチャートである。
【図8】 探索のための機能ブロック図である。
【図9】 自由度nのカイ2乗分布の分布関数のテーブ
ルの一部分を示す表図である。
【図10】 次元数Kの入力ベクトルに対して、評価値
の大きい方からS個の要素分布を決定するためのベスト
ファースト探索のフローチャートである。
【図11】 一次元の分布の分類のフローチャートであ
る。
【図12】 数直線上の平均値と分割の様子を示す説明
図である。
【図13】 探索のフローチャートである。
【図14】 探索のための機能ブロック図である。
【図15】 ベストファースト探索のフローチャートで
ある。
【図16】 カイ2乗分布の分布関数が一定の数値に到
達するときの値に基づいて閾値を決める際の考え方を説
明する説明図である。
【図17】 探索のフローチャートである。
【図18】 ベストファースト探索のフローチャートで
ある。
【図19】 ベクトル量子化を用いた符号化・復号化の
構成図である。
【図20】 ベクトル量子化におけるコードベクトルを
ベストファースト探索で求めるときのフローチャートで
ある。
【図21】 文字認識装置の構成図である。
【図22】 カテゴリ探索部の動作を示すフローチャー
トである。
【図23】 フレーム処理を示すフローチャートであ
る。
【図24】 探索のフローチャートである。
【図25】 探索のフローチャートである。
【図26】 音声認識装置の構成図である。
【図27】 混合連続分布HMMを用いる音声認識装置
を示す構成図である。
【図28】 混合連続分布HMMの説明図である。
【図29】 経路演算の説明図である。
【符号の説明】
2 音声分析手段、4 確率演算手段(スコア計算手
段)、5 経路演算手段(スコア計算手段)、6 最適
経路決定手段(認識結果選択手段)。

Claims (26)

    【特許請求の範囲】
  1. 【請求項1】 多次元の入力ベクトルに対して、複数の
    多次元確率分布の中で最大の確率密度値を示す要素確率
    分布を探索するとともに、その要素確率分布の確率密度
    を探索する要素分布の探索方法において、その多次元の
    入力ベクトルの第1次元から展開済の第k次元までの各
    次元値に対する各要素分布の各次元に存在する一次元の
    連続分布の確率値に基づいて、第1次元から第k次元ま
    での累積値を計算する過程と、その第k次元までの累積
    値が最大の要素分布を選択する過程と、その選択された
    要素分布について、計算済の次元数を増加させて前記累
    積値を再計算する過程とを備え、展開済の次元数が入力
    ベクトルの次元数に一致するまで、次元方向にベストフ
    ァースト探索を実行することを特徴とする要素分布の探
    索方法。
  2. 【請求項2】 次元数Kの多次元の入力ベクトルに対し
    て、複数の多次元確率分布の中で最大の確率密度値を示
    す要素確率分布を探索するとともに、その要素確率分布
    の確率密度を探索する要素分布の探索方法において、次
    元数Kの多次元の入力ベクトルの第1次元から展開済の
    第k次元までの各次元値に対する各要素分布の各次元に
    存在する一次元の連続分布の確率値に基づいて、第k次
    元までの累積値と第k+1次元から第K次元までの累積
    値の推定値とから第k次元までの評価値を計算する過程
    と、その評価値が最大の要素分布を選択する過程と、そ
    の選択された要素分布について、計算済の次元数を増加
    させて評価値を再計算する過程とを備え、展開済の次元
    数が増加する方向にベストファースト探索を実行するこ
    とを特徴とする要素分布の探索方法。
  3. 【請求項3】 第k+1次元から第K次元における確率
    値の累積値の推定値を、自由度K−kのカイ2乗分布の
    分布関数値が所定値に達するときのカイ2乗分布の独立
    変数値に基づいて計算することを特徴とする請求項2記
    載の要素分布の探索方法。
  4. 【請求項4】 第k+1次元から第K次元における確率
    値の累積値の推定値を、学習用の音声データが示す値の
    分布に基づいて計算することを特徴とする請求項2記載
    の要素分布の探索方法。
  5. 【請求項5】 要素分布を複数のクラスタに分割し、各
    クラスタについて、第k+1次元から第K次元における
    確率値の累積値の推定値を、学習用の音声データが示す
    値の分布に基づいて計算することを特徴とする請求項2
    記載の要素分布の探索方法。
  6. 【請求項6】 ベストファースト探索で最初から複数個
    の解を求めて、その複数個の解の中で、上位複数個の評
    価値を有する要素分布を求めることを特徴とする請求項
    3から請求項5のうちのいずれか1項記載の要素分布の
    探索方法。
  7. 【請求項7】 第k+1次元から第K次元における確率
    値の累積値の推定値を、各要素分布における各次元の一
    次元の分布を各分布の平均値の数直線上での配列に基づ
    いて複数の区間に分割し、各区間について求めた各次元
    毎の不等式と、入力ベクトルの各次元の数値とに基づい
    て計算することを特徴とする請求項2記載の要素分布の
    探索方法。
  8. 【請求項8】 第k+1次元から第K次元における確率
    値の累積値の推定値を、要素分布を複数のクラスタに分
    割し、複数のクラスタのそれぞれについて各次元毎に得
    られた不等式と、入力ベクトルの各次元の数値とに基づ
    いて計算することを特徴とする請求項2記載の要素分布
    の探索方法。
  9. 【請求項9】 探索の閾値を設けて、第k次元までの探
    索の累積値又は評価値が、その閾値を下回る場合、当該
    仮説の探索を打ち切ることを特徴とする請求項1から請
    求項8のうちのいずれか1項記載の要素分布の探索方
    法。
  10. 【請求項10】 要素分布に依存して探索の閾値を設け
    て、第k次元までの探索の累積値又は評価値が、その閾
    値を下回る場合、当該仮説の探索を打ち切ることを特徴
    とする請求項1から請求項8のうちのいずれか1項記載
    の要素分布の探索方法。
  11. 【請求項11】 探索の閾値として、入力ベクトルの次
    元数をKとし、自由度K−kのカイ2乗分布の分布関数
    が一定の数値に到達するときの独立変数の値に基づいて
    計算した値を用いることを特徴とする請求項9記載の要
    素分布の探索方法。
  12. 【請求項12】 展開済の次元数を増加させる際に2以
    上次元数を増加させるベストファースト探索を実行する
    ことを特徴とする請求項1から請求項10のうちのいず
    れか1項記載の要素分布の探索方法。
  13. 【請求項13】 画像や音声などの入力データを分析し
    て多次元の入力ベクトルに変換し、その多次元の入力ベ
    クトルに対して、予め用意された複数の多次元のコード
    ベクトルとの類似度を計算し、その複数の多次元のコー
    ドベクトルの中から最大の類似度を有する多次元のコー
    ドベクトルを探索して求め、その最大の類似度を有する
    多次元のコードベクトルに関連づけられたコード番号を
    量子化コードとして出力するベクトル量子化方法におい
    て、その多次元の入力ベクトルに対して、その複数のコ
    ードベクトルの中で最大の類似度を有するコードベクト
    ルを次元方向にベストファースト探索して求めることを
    特徴とするベクトル量子化方法。
  14. 【請求項14】 画像や音声などの入力データを分析し
    て多次元の入力ベクトルに変換し、その多次元の入力ベ
    クトルに対して、予め用意された複数のカテゴリに関連
    づけられた複数の多次元のモデルベクトルとの類似度を
    計算し、その複数の多次元のモデルベクトルの中から最
    大の類似度を有する多次元のモデルベクトルを探索して
    求め、その最大の類似度を有する多次元のモデルベクト
    ルに関連づけられたカテゴリを識別結果として出力する
    パターン認識方法において、その多次元の入力ベクトル
    に対して、その複数のモデルベクトルの中で最大の類似
    度を有するモデルベクトルを次元方向にベストファース
    ト探索して求めることを特徴とするパターン認識方法。
  15. 【請求項15】 入力音声を分析して多次元の入力ベク
    トルに変換し、その多次元の入力ベクトルに対して、複
    数の多次元の連続分布からなる混合連続確率分布に基づ
    いて認識単位のスコアを計算し、認識単位の系列の中で
    最もスコアの累積値の高い認識単位の系列を認識結果と
    して出力する音声認識方法において、その多次元の入力
    ベクトルに対して、評価値最大の要素分布のベストファ
    ースト探索を実行し、評価値最大をとる要素確率分布の
    確率は前記ベストファースト探索の結果として計算され
    た確率を用い、その他の要素確率分布の確率については
    ベストファースト探索の途中次元までの評価値を用いて
    認識単位のスコア計算を実行して認識結果を決定するこ
    とを特徴とする音声認識方法。
  16. 【請求項16】 入力音声を分析して多次元の入力ベク
    トルに変換し、その多次元の入力ベクトルに対して、複
    数の多次元の連続分布からなる混合連続確率分布に基づ
    いて認識単位のスコアを計算し、認識単位の系列の中で
    最もスコアの累積値の高い認識単位の系列を認識結果と
    して出力する音声認識方法において、その多次元の入力
    ベクトルに対して、評価値の大きい方からN個の分岐確
    率密度のベストファースト探索を実行し、評価値の大き
    い方からN個の分岐密度をとる要素確率分布の確率は前
    記ベストファースト探索の結果として計算された確率の
    大きい方からN個の要素分布の確率を用い、その他の要
    素分布の確率についてはベストファースト探索の途中次
    元までの評価値を用いて認識単位のスコア計算を実行し
    て認識結果を決定することを特徴とする音声認識方法。
  17. 【請求項17】 入力音声を分析して多次元の入力ベク
    トルに変換し、その多次元の入力ベクトルに対して、複
    数の多次元の連続分布からなる混合連続確率分布に基づ
    いて認識単位のスコアを計算し、1回目は認識単位の系
    列の中で経路の制約を緩めたスコアの推定値を求め、2
    回目は1回目で求めたスコアの推定値に基づいて認識単
    位の完全な系列の中で最もスコアの高い認識単位の系列
    を探索して求めるマルチパスの音声認識方法において、
    1回目の認識単位の系列の中で経路の制約を緩めたスコ
    アの推定値を計算する事に際して、その多次元の入力ベ
    クトルに対して、評価値最大の要素分布のベストファー
    スト探索を実行し、その評価値最大の要素分布の確率は
    前記ベストファースト探索の結果として計算された確率
    を用い、その他の要素分布の確率についてはベストファ
    ースト探索の途中次元までの評価値を用いて認識単位の
    スコア計算を実行して認識結果を決定することを特徴と
    するマルチパスの音声認識方法。
  18. 【請求項18】 入力音声を分析して多次元の入力ベク
    トルに変換し、その多次元の入力ベクトルに対して、複
    数の多次元の連続分布からなる混合連続確率分布に基づ
    いて認識単位のスコアを計算し、1回目は認識単位の系
    列の中で経路の制約を緩めたスコアの推定値を求め、2
    回目は1回目で求めたスコアの推定値に基づいて認識単
    位の完全な系列の中で最もスコアの高い認識単位の系列
    を探索して求めるマルチパスの音声認識方法において、
    1回目の認識単位の系列の中で経路の制約を緩めたスコ
    アの推定値を計算する事に際して、その多次元の入力ベ
    クトルに対して、評価値の大きい方からN個の分岐確率
    密度のベストファースト探索を実行し、その評価値の大
    きい方からN個の分岐密度をとる要素分布の確率は前記
    ベストファースト探索の結果として計算された評価値の
    大きい方からN個の要素分布の確率を用い、その他の要
    素分布の確率についてはベストファースト探索の途中次
    元までの評価値を用いて認識単位のスコア計算を実行し
    て認識結果を決定することを特徴とするマルチパスの音
    声認識方法。
  19. 【請求項19】 入力音声を分析して多次元の入力ベク
    トルに変換する音声分析手段と、上記音声分析手段によ
    り変換された多次元の入力ベクトルに対して、複数の多
    次元の連続分布からなる混合連続確率分布に基づいて認
    識単位のスコアを計算するスコア計算手段と、認識単位
    の系列の中でスコアの最も高い認識単位の系列を選択
    し、その系列を認識結果として出力する認識結果選択手
    段とを備えた音声認識装置において、上記スコア計算手
    段は、その多次元の入力ベクトルに対して、評価値最大
    の要素分布のベストファースト探索を実行し、評価値最
    大をとる要素分布の確率は前記ベストファースト探索の
    結果として計算された確率を用い、その他の要素分布の
    確率についてはベストファースト探索の途中次元までの
    評価値を用いて認識単位のスコア計算を行うことを特徴
    とする音声認識装置。
  20. 【請求項20】 入力音声を分析して多次元の入力ベク
    トルに変換する音声分析手段と、上記音声分析手段によ
    り変換された多次元の入力ベクトルに対して、複数の多
    次元の連続分布からなる混合連続確率分布に基づいて認
    識単位のスコアを計算するスコア計算手段と、認識単位
    の系列の中でスコアの最も高い認識単位の系列を選択し
    て、その系列を認識結果として出力する認識結果選択手
    段とを備えた音声認識装置において、上記スコア計算手
    段は、その多次元の入力ベクトルに対して、評価値の大
    きい方からN個の要素分布のベストファースト探索を実
    行し、その評価値の大きい方からN個の要素分布の確率
    は前記ベストファースト探索の結果として計算された評
    価値の大きい方からN個の要素分布の確率を用い、その
    他の要素分布の確率についてはベストファースト探索の
    途中次元までの評価値を用いて認識単位のスコア計算を
    行うことを特徴とする音声認識装置。
  21. 【請求項21】 入力音声を分析して多次元の入力ベク
    トルに変換し、その多次元の入力ベクトルに対して、複
    数の多次元の連続分布からなる混合連続確率分布に基づ
    いて認識単位のスコアを計算し、1回目は認識単位の系
    列の中で経路の制約を緩めたスコアの推定値を求め、2
    回目は1回目で求めたスコアの推定値に基づいて認識単
    位の完全な系列の中で最もスコアの高い認識単位の系列
    を探索して求めるマルチパスの音声認識装置において、
    1回目の認識単位の系列の中で経路の制約を緩めたスコ
    アの推定値を計算する事に際して、その多次元の入力ベ
    クトルに対して、評価値最大の要素分布のベストファー
    スト探索を実行し、その評価値最大をとる要素分布の確
    率は前記ベストファースト探索の結果として計算された
    確率を用い、その他の要素分布の確率についてはベスト
    ファースト探索の途中次元までの評価値を用いて認識単
    位のスコア計算を実行して認識結果を決定することを特
    徴とするマルチパスの音声認識装置。
  22. 【請求項22】 入力音声を分析して多次元の入力ベク
    トルに変換し、その多次元の入力ベクトルに対して、複
    数の多次元の連続分布からなる混合連続確率分布に基づ
    いて認識単位のスコアを計算し、1回目は認識単位の系
    列の中で経路の制約を緩めたスコアの推定値を求め、2
    回目は1回目で求めたスコアの推定値に基づいて認識単
    位の完全な系列の中で最もスコアの高い認識単位の系列
    を探索して求めるマルチパスの音声認識装置において、
    1回目の認識単位の系列の中で経路の制約を緩めたスコ
    アの推定値を計算する事に際して、その多次元の入力ベ
    クトルに対して、評価値の大きい方からN個の要素分布
    のベストファースト探索を実行し、その評価値の大きい
    方からN個の要素分布の確率は前記ベストファースト探
    索の結果として計算された評価値の大きい方からN個の
    要素分布の確率を用い、その他の要素分布の確率につい
    てはベストファースト探索の途中次元までの評価値を用
    いて認識単位のスコア計算を実行して認識結果を決定す
    ることを特徴とするマルチパスの音声認識装置。
  23. 【請求項23】 入力音声を分析して多次元の入力ベク
    トルに変換し、その多次元の入力ベクトルに対して、複
    数の多次元の連続分布からなる混合連続確率分布のモデ
    ルで表現された認識単位のスコアを評価値最大の要素分
    布のベストファースト探索を実行し、その評価値最大を
    とる要素分布の確率は前記ベストファースト探索の結果
    として計算された要素分布の確率を用い、その他の要素
    確率分布の確率についてはベストファースト探索の途中
    次元までの評価値を用いて認識単位のスコア計算を実行
    し、そのスコア計算の結果に基づいて、認識単位の系列
    の中でスコアの最も高い認識単位の系列を選択し、その
    入力音声の認識結果を決定するためのプログラムが記録
    された記録媒体。
  24. 【請求項24】 入力音声を分析して多次元の入力ベク
    トルに変換し、その多次元の入力ベクトルに対して、複
    数の多次元の連続分布からなる混合連続確率分布のモデ
    ルで表現された認識単位のスコアを評価値の大きい方か
    らN個の要素分布のベストファースト探索を実行し、そ
    の評価値の大きい方からN個の評価値をとる要素分布の
    確率は前記ベストファースト探索の結果として計算され
    た評価値の大きい方からN個の要素分布の確率を用い、
    その他の要素分布の確率についてはベストファースト探
    索の途中次元までの評価値を用いて認識単位のスコア計
    算を実行し、そのスコア計算の結果に基づいて認識単位
    の系列の中でスコアの最も高い認識単位の系列を選択
    し、その入力音声の認識結果を決定するためのプログラ
    ムが記録された記録媒体。
  25. 【請求項25】 入力音声を分析して多次元の入力ベク
    トルに変換し、その多次元の入力ベクトルに対して、複
    数の多次元の連続分布からなる混合連続確率分布に基づ
    いて認識単位のスコアの推定値を計算するスコア計算
    し、1回目は認識単位の系列の中で経路の制約を緩めた
    スコアの推定値を求め、2回目は1回目で求めたスコア
    の推定値に基づいて認識単位の完全な系列の中で最もス
    コアの高い認識単位の系列を探索して求め、1回目の認
    識単位の系列の中で経路の制約を緩めたスコアの推定値
    を計算する事に際して、その多次元の入力ベクトルに対
    して評価値最大の分岐確率密度のベストファースト探索
    を実行し、その評価値最大をとる要素分布の確率は前記
    ベストファースト探索の結果として計算された確率を用
    い、その他の要素分布の確率についてはベストファース
    ト探索の途中次元までの評価値を用いて認識単位のスコ
    ア計算を実行して、認識結果を決定するためのプログラ
    ムが記録された記録媒体。
  26. 【請求項26】 入力音声を分析して多次元の入力ベク
    トルに変換し、その多次元の入力ベクトルに対して、複
    数の多次元の連続分布からなる混合連続確率分布に基づ
    いて認識単位のスコアを計算し、1回目は認識単位の系
    列の中で経路の制約を緩めたスコアの推定値を求め、2
    回目は1回目で求めたスコアの推定値に基づいて認識単
    位の完全な系列の中で最もスコアの高い認識単位の系列
    を探索して求め、1回目の認識単位の系列の中で経路の
    制約を緩めたスコアの推定値を計算する事に際して、そ
    の多次元の入力ベクトルに対して、評価値の大きい方か
    らN個の分岐確率密度のベストファースト探索を実行
    し、その評価値の大きい方からN個の要素分布の確率は
    前記ベストファースト探索の結果として計算された評価
    値の大きい方からN個の要素分布の確率を用い、その他
    の要素分布の確率についてはベストファースト探索の途
    中次元までの評価値を用いて認識単位のスコア計算を実
    行して、認識結果を決定するためのプログラムが記録さ
    れた記録媒体。
JP06236299A 1999-03-09 1999-03-09 要素分布の探索方法,ベクトル量子化方法,パターン認識方法,音声認識方法,音声認識装置及び認識結果を決定するためのプログラムが記録された記録媒体 Expired - Fee Related JP3973789B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06236299A JP3973789B2 (ja) 1999-03-09 1999-03-09 要素分布の探索方法,ベクトル量子化方法,パターン認識方法,音声認識方法,音声認識装置及び認識結果を決定するためのプログラムが記録された記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06236299A JP3973789B2 (ja) 1999-03-09 1999-03-09 要素分布の探索方法,ベクトル量子化方法,パターン認識方法,音声認識方法,音声認識装置及び認識結果を決定するためのプログラムが記録された記録媒体

Publications (2)

Publication Number Publication Date
JP2000261321A true JP2000261321A (ja) 2000-09-22
JP3973789B2 JP3973789B2 (ja) 2007-09-12

Family

ID=13197947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06236299A Expired - Fee Related JP3973789B2 (ja) 1999-03-09 1999-03-09 要素分布の探索方法,ベクトル量子化方法,パターン認識方法,音声認識方法,音声認識装置及び認識結果を決定するためのプログラムが記録された記録媒体

Country Status (1)

Country Link
JP (1) JP3973789B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038163A (ja) * 2002-06-28 2004-02-05 Samsung Electronics Co Ltd 隠れマルコフモデルアルゴリズムの観測確率の演算装置
KR100492965B1 (ko) * 2002-09-27 2005-06-07 삼성전자주식회사 벡터 양자화를 위한 고속 탐색방법
JP2005265967A (ja) * 2004-03-16 2005-09-29 Advanced Telecommunication Research Institute International 木構造辞書を記録した記憶媒体、及び木構造辞書の言語スコアテーブル作成プログラム
WO2008108232A1 (ja) * 2007-02-28 2008-09-12 Nec Corporation 音声認識装置、音声認識方法及び音声認識プログラム
US20130173263A1 (en) * 2010-09-17 2013-07-04 Panasonic Corporation Quantization device and quantization method
JPWO2020234977A1 (ja) * 2019-05-20 2020-11-26

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038163A (ja) * 2002-06-28 2004-02-05 Samsung Electronics Co Ltd 隠れマルコフモデルアルゴリズムの観測確率の演算装置
KR100492965B1 (ko) * 2002-09-27 2005-06-07 삼성전자주식회사 벡터 양자화를 위한 고속 탐색방법
JP2005265967A (ja) * 2004-03-16 2005-09-29 Advanced Telecommunication Research Institute International 木構造辞書を記録した記憶媒体、及び木構造辞書の言語スコアテーブル作成プログラム
JP4521631B2 (ja) * 2004-03-16 2010-08-11 株式会社国際電気通信基礎技術研究所 木構造辞書を記録した記憶媒体、及び木構造辞書の言語スコアテーブル作成プログラム
WO2008108232A1 (ja) * 2007-02-28 2008-09-12 Nec Corporation 音声認識装置、音声認識方法及び音声認識プログラム
US8612225B2 (en) 2007-02-28 2013-12-17 Nec Corporation Voice recognition device, voice recognition method, and voice recognition program
US20130173263A1 (en) * 2010-09-17 2013-07-04 Panasonic Corporation Quantization device and quantization method
US9135919B2 (en) 2010-09-17 2015-09-15 Panasonic Intellectual Property Corporation Of America Quantization device and quantization method
JPWO2020234977A1 (ja) * 2019-05-20 2020-11-26
WO2020234977A1 (ja) * 2019-05-20 2020-11-26 日本電信電話株式会社 情報処理装置、作成方法および作成プログラム
JP7207530B2 (ja) 2019-05-20 2023-01-18 日本電信電話株式会社 情報処理装置、作成方法および作成プログラム

Also Published As

Publication number Publication date
JP3973789B2 (ja) 2007-09-12

Similar Documents

Publication Publication Date Title
US6735588B2 (en) Information search method and apparatus using Inverse Hidden Markov Model
JP2871561B2 (ja) 不特定話者モデル生成装置及び音声認識装置
EP0771461B1 (en) Method and apparatus for speech recognition using optimised partial probability mixture tying
US5729656A (en) Reduction of search space in speech recognition using phone boundaries and phone ranking
CA2507999C (en) Sensor based speech recognizer selection, adaptation and combination
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US8510111B2 (en) Speech recognition apparatus and method and program therefor
JP2775140B2 (ja) パターン認識方法、音声認識方法および音声認識装置
He et al. Discriminative learning for speech recognition: theory and practice
KR100397402B1 (ko) 음성인식방법,정보형성방법,음성인식장치및기록매체
JP5294086B2 (ja) 重み係数学習システム及び音声認識システム
US7627474B2 (en) Large-vocabulary speech recognition method, apparatus, and medium based on multilayer central lexicons
JPH03144875A (ja) 文字の認識方法及び音素の認識方法
JPH10512686A (ja) 個別話者に適応した音声認識のための方法及び装置
EP0617827A4 (en) Composite expert.
Lugosch et al. DONUT: CTC-based query-by-example keyword spotting
Kurimo Using self-organizing maps and learning vector quantization for mixture density hidden Markov models
Fang From dynamic time warping (DTW) to hidden markov model (HMM)
JP4066507B2 (ja) 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
JP3973789B2 (ja) 要素分布の探索方法,ベクトル量子化方法,パターン認識方法,音声認識方法,音声認識装置及び認識結果を決定するためのプログラムが記録された記録媒体
JP3176210B2 (ja) 音声認識方法及び音声認識装置
JPH0895592A (ja) パターン認識方法
JPH07104780A (ja) 不特定話者連続音声認識方法
JP3439700B2 (ja) 音響モデル学習装置、音響モデル変換装置及び音声認識装置
JPH10282986A (ja) 音声認識方法およびそのモデル設計方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070515

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070613

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100622

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees