JP2003263186A

JP2003263186A - 音声認識装置、音声認識方法および音声認識プログラムが記録された記録媒体

Info

Publication number: JP2003263186A
Application number: JP2002063229A
Authority: JP
Inventors: Yoshinaga Kato; 喜永加藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2002-03-08
Filing date: 2002-03-08
Publication date: 2003-09-19
Anticipated expiration: 2022-03-08
Also published as: JP4008267B2

Abstract

(57)【要約】【課題】本発明は、使用環境が変化した場合において
も、認識システムのパラメータを高速に訓練することが
でき、高精度な音声認識を行なうことができる音声認識
装置、音声認識方法および音声認識プログラムが記録さ
れた記録媒体を提供する。【解決手段】音声データを分析して得られたパターン
を調整パラメータを用いて変換し、変換後のパターンを
特徴パターンとして認識し、調整パラメータを調整する
際には、音声データベースの音声データを用いた特徴パ
ターンを認識モデルで比較し、比較結果の損失を最小化
するように調整パラメータを調整する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置、音
声認識方法および音声認識プログラムが記録された記録
媒体に関し、詳しくは、音声の認識精度を高めるための
特徴パターンを提供することができる音声認識装置、音
声認識方法および音声認識プログラムが記録された記録
媒体に関する。

【０００２】

【従来の技術】一般的に、Hidden Markov Model（ＨＭ
Ｍ）等の確率／統計モデルを用いた音声認識にあって
は、音声の認識率を高くするためには、モデルを表現す
るパラメータを精度よく調整することが重要である。こ
のパラメータ調整手法の一つに文献"Proceeding of IEE
E,Vol.86,no11,pp2354ー2372,November 1998"等に既説さ
れている識別訓練が知られている。

【０００３】この手法によれば、直接認識誤り数を最小
化する基準を用いて、パラメータを調整することができ
るため、高い識別力を実現できる。

【０００４】また、識別訓練による認識モデルを用いた
音声認識装置は、例えば、特許第３０９０２０４号に記
載されているものがあり、この装置は、訓練時に提示す
る語を音節単位に分け、訓練時の語を構成する音節モデ
ルと対象言語を構成する全音節モデルとの間の誤分類度
を調べて、パラメータを調節するようになっている。こ
の方法により、訓練時に提示されていない語を認識する
場合においても高い識別カをもつモデルを提供してい
る。

【０００５】このように従来では、学習対象語への依存
度が高くなるのを防ぐため、全ての認識モデルのパラメ
ータを十分に調整することによって認識精度を高めてい
る。

【０００６】このような音声認識方法にあっては、認識
精度の劣化は、使用環境の変化（例えば、静かな部屋で
の使用を屋外での使用に変える）によっても起り得るも
のであり、その対応が期待されている。

【０００７】使用環境による変化は、認識モデル自体の
パラメータ推定が不十分であるというよりも、周囲の環
境の影響によって音声の特徴パターンが変形したために
精度が劣化すると考えられる。

【０００８】したがって、環境の変化に適合した特徴パ
ターンを生成できれば、前記の問題を解決できる。

【０００９】

【発明が解決しようとする課題】しかしながら、このよ
うな従来の音声認識方法にあっては、特徴パターンを変
換するパラメータと認識モデルのパラメータとの区別は
なく、同一のものとして扱われるため、全認識モデルの
パラメータを再訓練することが必要であり、手間がかか
るという問題があった。

【００１０】そこで本発明は、使用環境が変化した場合
においても、認識システムのパラメータを高速に訓練す
ることができ、高精度な音声認識を行なうことができる
音声認識装置、音声認識方法および音声認識プログラム
が記録された記録媒体を提供することを目的としてい
る。

【００１１】

【課題を解決するための手段】本発明は、上記課題を解
決するために、音声を入力する入力手段と、音声認識を
行なうための調整可能な調整パラメータおよび音声デー
タベースが格納された記憶手段と、前記入力手段から入
力された音声データの特徴パターンを作成し、この特徴
パターンを前記調整パラメータを有する認識モデルと比
較し、当該比較結果から判断したクラスに分類すること
によって音声認識を行なうとともに、前記音声データベ
ースの音声データを用いて前記調整パラメータを調整す
る制御手段とを備えた音声認識装置において、前記制御
手段は、前記音声データを分析して得られたパターンを
前記調整パラメータを用いて変換し、変換後のパターン
を前記特徴パターンとして認識し、前記調整パラメータ
を調整する際には、前記音声データベースの音声データ
を用いた前記特徴パターンを前記認識モデルで比較し、
比較した結果の損失を最小化するように前記調整パラメ
ータを調整することを特徴としている。

【００１２】このような構成により、特徴パターンに変
換するパラメータを調整できるようにしたので、使用環
境が変化した場合でも特徴パターンに変換するパラメー
タだけを調整することにより調整時間を短縮することが
できる。また、認識誤り数を最小にする基準を用いてパ
ラメータの訓練を行っているので、高精度な音声認識を
行なうことがきる。

【００１３】また、本発明は、上記課題を解決するため
に、音声認識で用いる調整可能な調整パラメータと音声
データベースを準備し、入力した音声データの特徴パタ
ーンを作成し、当該特徴パターンを前記調整パラメータ
を有する認識モデルと比較し、当該比較結果から判断し
たクラスに分類するとともに、前記音声データベースの
音声データを用いて前記調整パラメータを調整する音声
認識方法において、前記音声データを分析して得られた
パターンを前記調整パラメータを用いて変換し、変換後
のパターンを前記特徴パターンとして認識を行ない、前
記調整パラメータを調整する際には、前記音声データベ
ースの音声データを用いた前記特徴パターンを前記認識
モデルで比較し、判断した結果の損失を最小化するよう
に前記特徴パラメータを調整することを特徴としてい
る。

【００１４】このような方法により、特徴パターンに変
換するパラメータを調整できるようにしたので、使用環
境が変化した場合でも特徴パターンに変換するパラメー
タだけを調整することにより調整時間を短縮することが
できる。また、認識誤り数を最小にする基準を用いてパ
ラメータの訓練を行っているので、高精度な音声認識を
行なうことがきる。

【００１５】本発明は、上記課題を解決するために、前
記調整パラメータの調整は、変換処理で使用されるパラ
メータに対して行われることを特徴としている。このよ
うな方法により、誤り最小状態に到達する経路を安定さ
せることができ、調整時間を短縮することができる。

【００１６】本発明は、上記課題を解決するために、前
記調整パラメータの調整は、前記認識モデルが有するパ
ラメータに対して行われることを特徴としている。この
ような方法により、誤り最小状態に到達する経路を安定
させることができ、調整時間を短縮することができる。

【００１７】本発明は、上記課題を解決するために、前
記調整パラメータの調整は、前記変換処理で使用される
パラメータと前記認識モデルが有するパラメータとの何
れか一方に対して行なった後に、何れか他方のパラメー
タを調整することを特徴としている。

【００１８】このような方法により、パラメータの調整
対象を特徴パターンに変換するパラメータと認識モデル
のパラメータとに分けて片方ずつ調整することにより、
誤り最小状態に到達する経路をより一層安定させること
ができるため、調整時間をより一層短縮することができ
る。

【００１９】本発明は、上記課題を解決するために、前
記パラメータの調整を繰り返すことを特徴としている。

【００２０】このような方法により、パラメータの調整
対象を特徴パターンに変換するパラメータと認識モデル
のパラメータとに分けて片方ずつ調整する作業を繰返す
ことにより、誤り最小状態に到達する経路をより一層安
定させることができるため、調整時間をより一層短縮す
ることができる。

【００２１】本発明は、上記課題を解決するために、音
声を入力する入力手段と、音声認識を行なうための調整
可能な調整パラメータおよび音声データベースが格納さ
れた記憶手段とを有するコンピュータに、音声認識を行
なわせるための音声認識プログラムを記録した記録媒体
であって、前記音声データを分析して得られたパターン
を調整可能な調整パラメータを用いて変換する機能と、
変換後の特徴パターンを前記調整パラメータを有する認
識モデルと比較して当該比較結果から判断したクラスに
分類する処理を行なう機能と、前記音声データベースの
音声データを用いて前記特徴パターンを作成し、当該特
徴パターンを前記認識モデルと比較し、当該比較結果の
損失を最小化するように前記調整パラメータを調整する
機能とを行なわせるプログラムを記録している。

【００２２】このような記録媒体により、特徴パターン
に変換するパラメータを調整できるようにしたので、使
用環境が変化した場合でも特徴パターンに変換するパラ
メータだけを調整することにより調整時間を短縮するこ
とができる。また、認識誤り数を最小にする基準を用い
てパラメータの訓練を行っているので、高精度な音声認
識を行なうことがきる。

【００２３】

【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図１、２は本発明に係る音声認識装
置および音声認識方法の一実施形態を示す図である。

【００２４】まず、構成を説明する。図１、２におい
て、音声入力装置は、入力装置（入力手段）１、制御装
置（制御手段）２および記憶装置（記憶手段）３から構
成されている。

【００２５】入力装置１は音声を入力するためのもので
あり、サウンドカード、マイクロフォンから構成されて
いる。記憶装置３には、音声データベースと音声認識に
用いられる調整可能なパラメータ（調整パラメータ）が
格納されており、図２に示すように音声データベース
４、特徴パターン設計用パラメータ５および認識モデル
設計用パラメータ６を格納している。

【００２６】制御装置２は入力装置１から入力された音
声データの特徴パターンを作成し、この特徴パターンを
調整可能なパラメータを有する認識モデルと比較し、当
該比較結果から判断したクラスに分類することによって
音声認識を行なうとともに、音声データベース４に格納
された音声データを用いて調整可能なパラメータを調整
するようになっている。

【００２７】本実施形態では、制御手段２は、音声デー
タを分析して得られたパターンを調整パラメータを用い
て変換し、変換後のパターンを特徴パターンとして認識
し、調整可能なパラメータを調整する際には、音声デー
タベース４に格納された音声データを用いた特徴パター
ンを認識モデルで比較し、比較結果の損失を最小化する
ように調整パラメータを調整するようになっている。

【００２８】なお、特徴パターン設計用パラメータ５は
認識モデルの設計に用いられるパラメータが格納され、
認識モデル設計用パラメータ６は認識モデルの設計に用
いるパラメータが格納されている。

【００２９】次に、音声認識方法について説明する。ま
ず、特徴パターンｙをクラス数Ｕ個の中から何れかのク
ラスｕ（ｕ＝１，...，Ｕ）に分類する場合について説
明する。クラスの種類は、分類したい対象により、音
素、単語、話者等に設定できる。

【００３０】入力装置１から音声が入力されると制御装
置２は音響分析を行なう。音響分析にはよく知られたＬ
ＰＣ（線形予測）分析等を用いることができる。例え
ば、分析条件を、標本化周波数：８ＫHz、高域強調：一
次差分、２５６点ハミング窓、移動幅：１６ｍｓ、ＬＰ
Ｃ分析次数：２０とし、１０次元メルケプストラム係数
をフレーム単位のパターンとして抽出することができ
る。なお、音響分析は、上記に限定されるものではな
く、周波数分析など任意の方法を用いても構わない。

【００３１】次いで、制御装置２は記憶装置３に格納さ
れているパラメータを読み出し、音響分析パターンを特
徴パターンに変換する。パラメータを用いた変換関数、
音響分析パターン、特徴パターンをそれぞれＱ，ｘとす
れば特徴パターンｙは以下により得られる。ｙ＝Ｑ（ｘ）.........（１）

【００３２】次いで、制御装置２は、変換後のパターン
ｙを、各クラスごとに用意された認識モデルで測り、得
点を求める。各認識モデルは、それぞれ記憶装置３に格
納されているパラメータを読み出すことにより、クラス
ごとの特性を持つ認識モデルとして表わされる。

【００３３】具体例として判別関数を用いた場合、各ク
ラスの得点は、以下のようになる。ｈ_u＝ｇ_u（ｙ，Λ），（ｕ＝１，...，Ｕ）.........（２）ここで、ｇ_u（ｙ，Λ），（ｕ＝１，...Ｕ）は、クラス
ｕに対する判別関数である。また、ｈ_uは特徴パターン
ｙとパラメータΛ（ラムダ）が与えられたときの得点を
表す。Λは、認識モデルと特徴パターンとの設計時に用
いる全パラメータを表す。

【００３４】制御装置２は、Ｕ個の得点を計算し、最大
得点を持つクラスに特徴パターンを分類する。すなわち
以下の処理を行なう。

【００３５】

【数１】ここで、ｂは分類されたクラスである。判別関数の設計
により選択の基準が最小値に設定される場合もあるが、
どちらにしても構わない。本実施形態では、後述の説明
の便宜上、前者を採用する。

【００３６】判別関数に関してより詳細に説明する。認
識モデルとして文献「電子情報通信学会論文誌（Ｄ-I
I），vol.J82-no.5，pp．853−862，May1999」に示され
るような継続時間長制御型状態遷移（ＤＳＴ）モデルを
用いれば、式（２）は以下のように表せる。

【００３７】

【数２】 γ(・)は照合により得られた特徴パターンとモデルの各
状態との対応関係を表し、γ（ｎ）を第ｎ状態と対応す
る部分パターンの終了フレーム番号とする。また、Ｒ_n
は第ｎ状態の継続時間に関する距離である。一方、Ｓ_n
は特徴パターンに関する第ｎ状態の得点であり、以下の
ように定義する。

【００３８】

【数３】ここで、Ｔ_n，Ｄはそれぞれバイアス値と各状態におけ
る局所距離を表わす。Ｄには以下のガウス型の距離を用
いる。

【００３９】

【数４】ここで、

【００４０】

【数５】は、それぞれ第ｎ状態の平均、分散であり、ｋはＫ次元
ベクトルの要素番号を表す。また、ｙ_m＝（ｙ_mk）はフ
レーム番号ｍの音声特徴パターンであり、ｚ_nはＲ _nから
得られた得点の割合を調整する重みである。制御装置２
は、式（４）を、動的計画法に継続時間評価に関する得
点を組み込みながら状態探索を行なうことにより求め
る。

【００４１】次に、パラメータを調整する場合について
説明する。このとき、制御装置２は、音声データベース
４に蓄えられている訓練用音声データの特徴パターンを
用いて、以下の経験損失Ｌ（Λ）が最小になるようにパ
ラメータ調整量を求める。

【００４２】

【数６】ここで、Ｍは音声データベース４にある音声データから
作成したパターン数を表す。また、ｌ_α（ｙ⁽ⁱ⁾，Λ）
はｉ番目のパターンを入力したときのクラスαに対する
個々の損失である。煩雑になるのを避けるため、以降で
は、ｙ⁽ⁱ⁾を単にｙとし、個々の損失を以下のように定
義する。

【００４３】

【数７】ここで、ｄ_α（ｙ，Λ）は、誤分類測度であり、特に簡
単化した形式を用いると以下のようになる。

【００４４】

【数８】ここで、αは正解を表し、βは、α以外で得点（判別関
数値）が最も大きくなるクラスである。式（９）が負の
時にはｙ_mが正しく分類されたことを示し、正の時には
誤分類されたことを示す。以上のようにして得られた損
失により制御装置２はパラメータ調整量ΔΛを以下のよ
うにして求める。

【００４５】

【数９】ここでηは正の小さな学習係数である。さらに、制御装
置２が以下の繰り返し計算を実行することにより、パラ
メータが最適な状態に調整される。

【００４６】

【数10】但し、ｔ回適用後のパラメータをΛ（ｔ）としている。

【００４７】以降で、式（10）〜（11）の具体的なパラ
メータの調整量を求める方法を説明する。例として、式
（１）の特徴パターンｙが以下の式により得られた場合
について説明する。

【００４８】ｙ＝ａ^γｘ.........（12）ここで、

【数11】は、分析パターンを認識モデルγごとに重みづけを行な
い、特徴パターンに変換している。式（12）の変換は分
析パターンをフィルタリングする効果があり、本実施形
態によるパラメータ調整により、認識誤り数を最小化す
る最適な特徴パターンが認識モデルごとに得られる。

【００４９】式（12）では、認識モデルγごとにパター
ンを変換しているが、全モデルに対して共通のパラメー
タαを使用することによってγに依存しない特徴パター
ンを得ることももちろん可能である。このとき、本実施
形態で調整されたパラメータは、使用環境において最適
なパターンを提供すると考えられる。

【００５０】さて、ここで調整パラメータは、

【数12】であるから、式（10）に従って、損失の勾配を求めると
以下になる。

【００５１】

【数13】式（13）を解き、式（11）に反映すれば、訓練によるパ
ラメータの更新処理が以下のように求まる。

【００５２】

【数14】ここで、l´_α（ｙ，Λ）＝{１−l_α（ｙ，Λ）}l
_α（ｙ，Λ）である。

【００５３】また、ｙ_Θ(n)k，ｘ_Θ(n)kはそれぞれ認識
モデルｎ番目の状態に対応づけられた特徴パターンと分
析パターンのｋ次元目の要素を示す。

【００５４】以上のようにパラメータを調整すれば、音
声認識の使用条件が変化しても認識誤りを最小にする特
徴パターンが得られるようになるため、性能の劣化を防
ぐことができる。また、認識モデルのパラメータを変更
する必要がないので、高速な訓練が可能となる。

【００５５】ところで、訓練用の音声データが追加され
た場合は、認識モデルのパラメータについても再調整す
ることにより、より精度よく認識を行なうことができ
る。本実施形態で挙げた認識モデルの平均値パラメータ
を調整する場合は、式（10）〜（11）に従って、以下の
ような更新処理を行なう。

【００５６】

【数15】他に分散や継続時間長制御パラメータなど認識モデルを
表現する他のパラメータについても上記と同様に処理す
ることが可能である。

【００５７】さて、音声認識処理を実現する全パラメー
タに対して調整を同時に行なうと、損失の最小状態に到
達するまでの繰り返し処理に時間がかかってしまう場合
がある。これは、パラメータ数が増えるため、最小状態
への探索経路が不安定になるためである。

【００５８】そこで特徴パターン変換のパラメータと、
認識モデルのパラメータとを分けて以下のように処理す
ることにより、調整を高速に行なうことができる。１）特徴パターン変換のパラメータを繰り返し調整す
る。２）損失が減少しなくなったら、次に認識モデルのパラ
メータを繰り返し調整する。３）損失が減少しなくなったら処理1に戻る。

【００５９】処理１から３を繰り返し、調整対象のパラ
メータを切り替えても損失が減少しなくなったら終了す
る。以上のようにすれば、ある訓練段階において調整対
象になっているパラメータ規模を小さく抑えることがで
きるので、認識誤り最小状態への探索経路が安定し、高
速に訓練を行える。

【００６０】以上のように本実施形態では、特徴パター
ンに変換するパラメータを調整できるようにしたので、
使用環境が変化した場合でも特徴パターンに変換するパ
ラメータだけを調整することにより調整時間を短縮する
ことができる。また、認識誤り数を最小にする基準を用
いてパラメータの訓練を行っているので、高精度な音声
認識を行なうことがきる。

【００６１】また、パラメータの調整は、変換処理で使
用されるパラメータと認識モデルが有するパラメータと
の何れか一方に対して行なった後に、何れか他方のパラ
メータを調整するようにしたため、パラメータの調整対
象を特徴パターンに変換するパラメータと認識モデルの
パラメータとに分けて片方ずつ調整することにより、誤
り最小状態に到達する経路をより安定させることがで
き、調整時間をより短縮することができる。

【００６２】本実施形態では、特に、パラメータの調整
を繰り返したため、誤り最小状態に到達する経路をより
一層安定させることができるため、調整時間をより一層
短縮することができる。

【００６３】図３は音声認識プログラムが記録された記
録媒体の一実施形態を示す図である。図３は音声認識装
置を示す図であり、図３において、音声認識装置は、ハ
ードディスク11、ＣＰＵ（Central Processing Unit)1
2、メモリ13、サウンドカード14、マイクロフォン15、
ＣＤーＲＯＭドライブ16から構成されている。

【００６４】本実施形態では、上述した音声認識機能
は、例えばソフトウェアパッケージ（ＣＤーＲＯＭ17等
の情報記録媒体）の形態で提供することができる。

【００６５】図３は図１の制御装置２をＣＰＵを用いて
実現した場合のハードウェア構成を示すものである。図
３において、ＣＰＵ12にはメモリ13、入力装置であるサ
ウンドカード14、記憶装置であるハードディスク11、Ｃ
Ｄ−ＲＯＭドライブ16が接続されている。また、サウン
ドカード14には音声を入力するためのマイクロフォン15
が接続されている。

【００６６】ハードディスク11には、音声認識プログラ
ム23、音声データベース21、パラメータ22、オペレーテ
ィングシステム（ＯＳ）が記憶されている。音声認識プ
ログラム23と音声データベース21、パラメータ22はＣＤ
−ＲＯＭ17に記憶されたものであり、これら音声認識プ
ログラム23と音声データベース21、パラメータ22はＣＤ
−ＲＯＭドライブ16を介して、ＣＤ−ＲＯＭ17からイン
ストールされたものである。

【００６７】すなわち、ＣＤ−ＲＯＭ17には、音声デー
タを分析して得られたパターンを調整可能な調整パラメ
ータを用いて変換する機能と、変換後の特徴パターンを
調整パラメータを有する認識モデルと比較して当該比較
結果から判断したクラスに分類する処理を行なう機能
と、音声データベースの音声データを用いて特徴パター
ンを作成し、当該特徴パターンを認識モデルと比較し、
当該比較結果の損失を最小化するように調整パラメータ
を調整する機能とを行なわせるプログラムが記憶されて
おり、音声認識プログラムにはＣＤ−ＲＯＭ17のプログ
ラムがインストールされる。

【００６８】パラメータ22の内容は、図２で示したもの
と同じである。情報記録媒体とその媒体を駆動するため
のドライブは、ＣＤ−ＲＯＭ17に限られるものではな
く、ＤＶＤ−ＲＯＭ、リムーバルディスク等が用いられ
てもよい。また、所定のサーバとネットワークで接続で
きるようにしておき、サーバからインストールしてもよ
い。

【００６９】本実施形態によれば、ワークステーショ
ン、パーソナルコンピュータ等の汎用計算機上に情報記
録媒体に記録されたプログラムを読込ませ、計算機のも
つハードウェア構成で所定の処理を実行できる。本プロ
グラムをハードディスクにインストールして実行するこ
とにより音声認識機能を実現することができる。

【００７０】

【発明の効果】本発明の音声認識装置によれば、音声デ
ータを分析して得られたパターンを調整パラメータを用
いて変換し、変換後のパターンを特徴パターンとして認
識し、調整パラメータを調整する際には、音声データベ
ースの音声データを用いた特徴パターンを認識モデルで
比較し、比較結果の損失を最小化するように調整パラメ
ータを調整するようにした。

【００７１】すなわち、特徴パターンに変換するパラメ
ータを調整できるようにしたので、使用環境が変化した
場合でも特徴パターンに変換するパラメータだけを調整
することにより調整時間を短縮することができる。ま
た、認識誤り数を最小にする基準を用いてパラメータの
訓練を行っているので、高精度な音声認識を行なうこと
がきる。

【００７２】また、本発明の音声認識方法によれば、音
声データを分析して得られたパターンを調整パラメータ
を用いて変換し、変換後のパターンを特徴パターンとし
て認識を行ない、調整パラメータを調整する際には、音
声データベースの音声データを用いた特徴パターンを認
識モデルで比較し、判断した結果の損失を最小化するよ
うに特徴パラメータを調整するようにした。

【００７３】すなわち、特徴パターンに変換するパラメ
ータを調整できるようにしたので、使用環境が変化した
場合でも特徴パターンに変換するパラメータだけを調整
することにより調整時間を短縮することができる。ま
た、認識誤り数を最小にする基準を用いてパラメータの
訓練を行っているので、高精度な音声認識を行なうこと
がきる。

【００７４】また、本発明の音声認識方法によれば、調
整パラメータの調整を、変換処理で使用されるパラメー
タに対して行なうようにしたので、誤り最小状態に到達
する経路を安定させることができ、調整時間を短縮する
ことができる。

【００７５】また、本発明の音声認識方法によれば、調
整パラメータの調整を、認識モデルが有するパラメータ
に対して行なうようにしたので、誤り最小状態に到達す
る経路を安定させることができ、調整時間を短縮するこ
とができる。

【００７６】また、本発明の音声認識方法によれば、調
整パラメータの調整を、変換処理で使用されるパラメー
タと認識モデルが有するパラメータとの何れか一方に対
して行なった後に、何れか他方のパラメータを調整する
ようにしたので、パラメータの調整対象を特徴パターン
に変換するパラメータと認識モデルのパラメータとに分
けて片方ずつ調整することにより、誤り最小状態に到達
する経路をより一層安定させることができるため、調整
時間をより一層短縮することができる。

【００７７】また、本発明の音声認識方法によれば、パ
ラメータの調整を繰り返すようにしたので、パラメータ
の調整対象を特徴パターンに変換するパラメータと認識
モデルのパラメータとに分けて片方ずつ調整する作業を
繰返すことにより、誤り最小状態に到達する経路をより
一層安定させることができるため、調整時間をより一層
短縮することができる。

【００７８】本発明の記録媒体は、音声データを分析し
て得られたパターンを調整整能な調整パラメータを用い
て変換する機能と、変換後の特徴パターンを調整パラメ
ータを有する認識モデルと比較して当該比較結果から判
断したクラスに分類する処理を行なう機能と、音声デー
タベースの音声データを用いて特徴パターンを作成し、
当該特徴パターンを認識モデルと比較し、当該比較結果
の損失を最小化するように調整パラメータを調整する機
能とを行なわせるプログラムを記録したので、特徴パタ
ーンに変換するパラメータを調整することができ、使用
環境が変化した場合でも特徴パターンに変換するパラメ
ータだけを調整することにより調整時間を短縮すること
ができる。また、認識誤り数を最小にする基準を用いて
パラメータの訓練を行っているので、高精度な音声認識
を行なうことがきる。

【図面の簡単な説明】

【図１】本発明に係る音声認識装置および音声認識方法
の一実施形態を示す図であり、その音声認識装置のブロ
ック図である。

【図２】一実施形態の記憶装置の構成図である。

【図３】本発明に係る音声認識プログラムが記録された
記録媒体を示す図であり、音声認識装置のＣＰＵを用い
て実現した場合のハードウェア構成を示す図である。

【符号の説明】

１入力装置（入力手段）２制御装置（制御手段）３記憶装置（記憶手段）１７ＣＤ−ＲＯＭ（記録媒体）

Claims

【特許請求の範囲】

【請求項１】音声を入力する入力手段と、音声認識を行なうための調整可能な調整パラメータおよ
び音声データベースが格納された記憶手段と、前記入力手段から入力された音声データの特徴パターン
を作成し、この特徴パターンを前記調整パラメータを有
する認識モデルと比較し、当該比較結果から判断したク
ラスに分類することによって音声認識を行なうととも
に、前記音声データベースの音声データを用いて前記調
整パラメータを調整する制御手段とを備えた音声認識装
置において、前記制御手段は、前記音声データを分析して得られたパ
ターンを前記調整パラメータを用いて変換し、変換後の
パターンを前記特徴パターンとして認識し、前記調整パ
ラメータを調整する際には、前記音声データベースの音
声データを用いた前記特徴パターンを前記認識モデルで
比較し、比較した結果の損失を最小化するように前記調
整パラメータを調整することを特徴とする音声認識装
置。
【請求項２】音声認識で用いる調整可能な調整パラメー
タと音声データベースを準備し、入力した音声データの
特徴パターンを作成し、当該特徴パターンを前記調整パ
ラメータを有する認識モデルと比較し、当該比較結果か
ら判断したクラスに分類するとともに、前記音声データ
ベースの音声データを用いて前記調整パラメータを調整
する音声認識方法において、前記音声データを分析して得られたパターンを前記調整
パラメータを用いて変換し、変換後のパターンを前記特
徴パターンとして認識を行ない、前記調整パラメータを
調整する際には、前記音声データベースの音声データを
用いた前記特徴パターンを前記認識モデルで比較し、判
断した結果の損失を最小化するように前記特徴パラメー
タを調整することを特徴とする音声認識方法。
【請求項３】前記調整パラメータの調整は、変換処理で
使用されるパラメータに対して行われることを特徴とす
る請求項２記載の音声認識方法。
【請求項４】前記調整パラメータの調整は、前記認識モ
デルが有するパラメータに対して行われることを特徴と
する請求項２または３記載の音声認識方法。
【請求項５】前記調整パラメータの調整は、前記変換処
理で使用されるパラメータと前記認識モデルが有するパ
ラメータとの何れか一方に対して行なった後に、何れか
他方のパラメータを調整することを特徴とする請求項２
〜４何れかに記載の音声認識方法。
【請求項６】前記パラメータの調整を繰り返すことを特
徴とするもの請求項５記載の音声認識方法。
【請求項７】音声を入力する入力手段と、音声認識を行
なうための調整可能な調整パラメータおよび音声データ
ベースが格納された記憶手段とを有するコンピュータ
に、音声認識を行なわせるための音声認識プログラムを
記録した記録媒体であって、前記音声データを分析して得られたパターンを調整可能
な調整パラメータを用いて変換する機能と、変換後の特
徴パターンを前記調整パラメータを有する認識モデルと
比較して当該比較結果から判断したクラスに分類する処
理を行なう機能と、前記音声データベースの音声データ
を用いて前記特徴パターンを作成し、当該特徴パターン
を前記認識モデルと比較し、当該比較結果の損失を最小
化するように前記調整パラメータを調整する機能とを行
なわせるプログラムを記録した記録媒体。